版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、word计算机系统结构论文题目大数据的分析院系信息工程系专业计算机科学与技术年级2022级班级1471姓名杜航学号指导教师:孙杨2022年12月22日目录1绪论32大数据概述32.1什么是大数据32.2大数据的三个层次42.3云存储对大数据的促进作用52.4大数据未来的行业应用63大数据时代的机遇与挑战73.1机遇与挑战并存73.2大数据时代如何抓住机遇并应对挑战74国内外有关大数据以及信息资源共享的研究现状94.1境外的大数据开展94.2国内外有关政府数据信息共享研究与比拟105参考文献111 绪论说起大数据,估计大家都觉得只听过概念,但是具体是什么东西,怎么定义,没有一个标准的东西,因为在
2、我们的印象中好似很多公司都叫大数据公司,业务形态那么有几百种,感觉不是很好理解,所以我建议还是从字面上来理解大数据,在维克托迈尔舍恩伯格及肯尼斯库克耶编写的 大数据时代 提到了大数据的4个特征,一个是数量大,一个是价值大,一个是速度快,一个是多样性。关于大数据的概念其实在1998年已经就有人提出了,但是到了现在才开始有所开展,这些其实都是和当下移动互联网的快速开展分不开的,移动互联网的高速开展,为大数据的产生提供了更多的产生大数据的硬件前提,比方说智能 ,智能硬件,车联网,Pad等数据的产生终端。这些智能通过移动通信技术和人们的生活紧密的结合在一起,在人流、车流的背后产生了信息流,也就产生了大
3、量的数据。其次就是移动通信技术的快速开展,在2G时代,无线网速慢,数据产生也非常慢,数据体量也不够,所以还是无法形成大数据,而到了4G时代,终端数据的增加,使得任何的移动终端都在无时无刻的.word1.word产生着大量的数据,这个也是大数据到来的一个条件之一。第三个方面的就是大数据相关技术的飞速开展,如云计算,云存储技术,他们的快速开展,是大数据诞生的温床,如果没有这些技术,即使有大量的数据也只能望洋兴叹。传统的存储技术相对落后,根据不同数据实行单一存储,这个显然满足不了大数据的需求,而云时代的存储系统需要的不仅仅是容量的提升,对于性能的要求同样迫切,与以往只面向有限的用户不同,在云时代,存
4、储系统将面向更为广阔的用户群体,用户数量级的增加使得存储系统也必须在吞吐性能上有飞速的提升,只有这样才能对请求作出快速的反响,云储存技术的成熟为大数据的快速开展奠定了根底。2 大数据概述2.1什么是大数据?说起大数据,估计大家都觉得只听过概念,但是具体是什么东西,怎么定义,没有一个标准的东西,因为在我们的印象中好似很多公司都叫大数据公司,业务形态那么有几百种,感觉不是很好理解,所以我建议还是从字面上来理解大数据,在 大数据时代 提到了大数据的4个特征,一个是数量大,一个是价值大,一个是速度快,一个是多样性。一个是数量比拟大,大致有多大,就是大到PB级别,甚至ZB级别,1PB等于1024TB,1
5、TB等于1024G,那么1PB等于100多G,当然了具体的计算方法可以相关资料数据进行查询,总之,和传统的单个网站数据库存储的数据相比,已经是它的上百倍还多,而只有数据体量到达了PB级别以上,才能被称为大数据。第二个是价值大,价值是大体量数据的更深一步的演变,就是说,你如果有1PB以上的全国所有 20-35年轻人的上网数据的时候,那么它自然就有了商业价值,比方通过分析这些数据,我们就知道这些人的爱好,进而指导产品的开展方向等等。如果有了全国几百万病人的数据,根据这些数据进行分析就能预测疾病的发生。这些都是大数据的价值。第三个就是多样性,如果只有单一的数据,那么这些数据就没有了价值,比方只有单一
6、的个人数据,或者单一的用户提交数据,这些数据还不能称为大数据,所以说大数据还需要是多样性的,比方当前的上网用户中,年龄,学历,爱好,性格等等每个人的特征都不一样,这个也就是大数据的多样性,当然了如果扩展到全国,那么数据的多样性会更强,每个地区,每个时间段,都会存在各种各样的数据多样性。第四个是速度快,就是通过算法对数据的逻辑处理速度非常快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。总之,这些就是大数据的四个特征,只有具备了这些特征的数据才能称为大数据,那么实际中的大数据是怎么样呢?业内著名的和大数据相关的公司,七牛云存储将要在8月29日、
7、30日举办一次大数据的会议,对于位于大数据技术产业链上的公司来说,我们应该可以获得更多的干货爆料。2.2大数据的三个层次大数据有三个层次,第一个是数据采集层,以App、saas为代表的效劳。第二个技术效劳层,以七牛云存储为代表的大数据技术效劳层,这些包括数据的存储,数据的分析,数据的挖掘等等,第三个是数据应用层,以数据为根底,为将来的移动社交、交通、教育,金融进行效劳。本模块主要讲第一个层次,后面两个层次在下面的模块再细讲。.word2.word数据采集层App、saas效劳在移动互联网时代,大数据的来源层有两个方面,一个方面是面向个人的数据来源前端如各种各样的App,一方面是面向企业效劳的s
8、aas效劳的产品。面向个人的App:饮食领域的App,如饿了么,用户通过App进行选餐,下单,通过App交互就会形成饮食领域的大数据;在o2o领域,如嗒嗒巴士,用户通过使用App进行乘坐交通,上班下班,就会形成交通领域的大数据,如穿衣助手,用户通过App进行选择衣服颜色,样式,进行搭配,就会形式效劳类的大数据,当然了还有秒拍、快看等娱乐类的消费数据。面向个人用户的App,以满足用户的需求为主要出发点,产生用户的数据,这些数据包括以个人根底的数据,也包括随群体数据,随着App用户量的增长,这些App数据就成了大数据。面向个人的数据来源:直接通过用户的需求产生数据,而面向企业效劳的saas效劳那么
9、不一样,他们通过为企业提供一套完整的解决方案,而产生数据,比方图灵机器人,人脸识别技术,气象plus、海康威视等,他们通过完美的解决方案效劳企业,最终效劳用户,从而产生大数据,数据采集层,是大数据的来源,也是大数据的根底。2.3云存储对大数据的促进作用有了数据采集层,那么下一步就是数据的存储层了,使用云存储技术将数据存储在云主机上,保证数据的平安、稳定、高效都需要云存储技术来完成。云存储主要负责数据的存储以及计算,比方七牛的云存储技术,云存储技术是大数据开展跨不过去的一道坎,如果没有云存储技术,大数据就不能得到开展。( 1云存储中面向企业存储的数据最大当前的云存储分为公共云存储和私有云存储,公
10、共云存储主要是面向个人,比方百度网盘等,而私有云存储主要是面向企业,其实面向企业的云存储的存储的大数据最终来源还是来自个人,比方目前的很多saas效劳,IM、统计等企业效劳,效劳主要是面向个人的App,而类似七牛云存储这样的云存储那么是出于更底层,基于云主机之上,而位于所有个人效劳、企业效劳之下,所以说,七牛云存储应该积累了更多的大数据,而通过即将月底举办的这次 数据重构未来 的大会,我想可以获得更多的关于大数据的干货。( 2云存储满足了海量数据的存储需求随着移动互联网的快速开展,传统的存储方式已经在容量、性能、智能化等方面无法满足需求。云存储的出现,比方类似和七牛一样的云存储技术,从功能上弥
11、补了传统存储的缺乏,通过虚拟化大容量存储、分布式存储和自动化运维等功能,实现了存储空间无限增加和扩容,自动化和智能化功能提高了存储效率。另外,规模效应和弹性扩展,降低运营本钱,防止资源浪费。3云存储技术节省了开发者的本钱特别是当下移动互联网的火爆,使得App行业出现了爆发式的增长,App的数量已经到达了300百万以上,同时图片App、视频App、音频App如camera360、优酷视频、荔枝FM等App都会在开展过程中产生大量的数据,对于这些数据来说,如果让企业自身去开发一款分布式的存储系统,这可能需要构建一个几十人的开发团队,本钱也会大大增加,而通过使用类似七牛一样的云存储,可以节约企业本钱
12、,让企业开展更加迅速。.word3.word( 4云存储技术为大数据分析提供了根底依据作为大数据的存储效劳商,云存储有着非常大的数据挖掘潜力,云存储平台为大数据的分析提供了“水的来源,有了这些数据,同时配置上一些数据分析工具,完全可以产生一些非常有价值的分析数据报告。比方基于云存储效劳这个根底,可以在企业的需求下,为企业提供企数据分析,例如这款应用在哪些地区受访问次数多、怎样的用户更喜欢这款应用等,但不会涉及分析用户隐私相关的数据。当然了,还可以针对整个图片行业、视频行业、以及音频行业提供受众的用户行为、以及特征这一系列的群体特征。这些都是云存储在存储的数据体量到达大数据的特征后,能做的一系列
13、的分析依据。所以说云存储是大数据开展中的最重要的一个环节。2.4大数据未来的行业应用说了大数据的采集层,数据存储层,那么最后讲下大数据的应用层,既然有了大数据,那么以大数据为根底,就会产生以移动金融,移动社交,O2O,在线教育等多方面的应用。( 1移动金融随着移动互联网金融的开展,金融交易与支付已经从桌面电脑延伸到移动智能终端,企业自身只能从内部洞察经营情况,或从市场中获得不全面的统计信息,作为决策参考。比方银联智惠可以帮助企业能够从外部了解市场,洞察对手的位置,了解市场趋势和自身的地位,通过利用自身优势通过全行业的交易记录得到高质量的根底数据,并替企业完成了大量繁琐的数据采集、清理工作,整合
14、到企业的根底经营分析数据库中,让企业事半功倍。当根底数据进入企业数据库后,通过银联智惠的用户画像模拟器进行目标客户消费行为建模,将历史交易行为分得出目标客户的交易共性特征,从而完整的从消费性别、消费年龄、消费习惯、消费频率、消费区域、消费偏好等多重维度完整描述客户群的轮廓,并得出客户的上下游关联交易行为特征,让企业真正认知客户群体的全貌,从而进行有效的商业决策。( 2移动社交随着脉脉,恋爱记等社交应用的用户越来越多,用户的社交行为将会成为大数据的分析根底,通过分析用户的社交时间、对象、地点以及行为,可以分析出用户的爱好、年龄、需求,同时基于用户的大数据,可以针对这些数据做定向营销,从而大大提升
15、了营销的效果,而相比之前的营销手段,那么是根本根据人员的筹划和想象得出,没有数据参考,营销的效果也不好把控。比方脉脉可以通过一些用户数据为企业招聘到适宜的人,同时还能为一些用户提供一些适宜的职位,完成需求和供求的高精度的匹配。例如以记录恋爱为主的社交App,可以通过分析情侣之间的数据,获得更多的情感数据,从而为一些适龄男女提供恋爱的指导。这些都是基于大数据的应用。3O2O类的应用移动互联网的深入开展,促进了O2O的繁荣,以嗒嗒巴士为代表的定制公交车应用,就是大数据的代表应用。传统的公交出行在公交站、公交路线的设定上,相对来说比拟固定,通过分析一个城市内的群体出行数据,可以获得人群随着时间的出行
16、规那么,比方知道在早上8点为出行顶峰,而从某个小区到某个写字楼.word4.word的人流数为最大,那么我就定制一条公交线路出来,对于用户来说,满足了用户的需求,而对于公交公司来说,那么是优化了交通路线,节约了资源,间接提升了本钱,这些都是大数据的好处。还有更多的领域可以用到大数据,如大数据医疗,大数据营销,可穿戴设备等等。通过大数据可以创造出更多价值,正如一篇文章说到,通过大数据让做事的方法更加容易,让现实从三维空间变成了二维码空间,就像宇宙的虫洞一样,可以直接到达目标。意思是在过去没有大数据做参考,我们需要试验屡次,才能知道那条路是对的,但是现在有了大数据做数据参考,我们可以直接到达终点。
17、所以说大数据使得事情的开展变得更加简单。3大数据时代的机遇与挑战3.1机遇与挑战并存大数据分析给现代社会带来了新的机遇与挑战。一方面,与传统研究侧重于揭示事物的共性不同,大数据研究将有助于人们发现事物的个体特性,并针对每一个体的特性给出个体化的解决方案。同时,大数据研究也将使人们能够从大量个体的差异变化中,揭示其中存在的难以发觉的规律。另一方面,大数据的海量样本规模和高维数特征也引入以下显著特性:数据搜集的偏差性、数据产生的异母体性、计算本钱、噪音的累积叠加、假关联性、外生性,以及测量误差等等。为了应对这些挑战,需要引入新的计算和统计方法。首先,从计算的角度来看,大数据提供的数据量巨大,这会给
18、实施统计计算和最后完成统计估算和检验带来问题。比方,对于一个列数上百万的矩阵,一次简单的矩阵求逆操作在计算上都是困难的。其次,从统计分析的角度来看,大数据经常包含被抽样个体的大量特征信息,即样本的个异性和高维性。个异性和高维性给统计分析与计算带来诸多问题,包括异母体、噪音累积、假相关、内生性。以假相关性为例,高维数会增加发现欺骗性关联的风险。比方,在人类基因表达数据分析中,学者可能会认为第八对染色体上的某个重要致癌基因MYC和Y染色体性别决定基因SRY有很强的相关性。但是,这可能仅仅是因为考虑的基因数目太高,以至于有些高相关性的出现只是偶然事件。3.2大数据时代如何抓住机遇并应对挑战1大数据资
19、源成为重要战略资源互联网时代,“资源的含义正在发生极大的变化,它已不再仅仅只是指煤、石油、矿产等一些看得见、摸得着的实体,“大数据,也正在演变成不可或缺的战略资源。互联网、物联网每天都在产生大量的数据,这些庞大的数据资源,为人们依据数据了解世界、了解市场、了解人们的生活提供了可能。大数据已经被视为一种资产、一种财富、一种可以被衡量和计算的价值。得大数据者得天下,是一些推崇大数据时代的变革者所坚信不疑的判断。2“大数据决策成为一种新决策方式依据大数据进行决策,从数据中获取价值,让数据主导决策,是一种前所未有的决策方式,并正在推动着人类信息管理准那么的重新定位。随着大数据分析和预测分析对管理决策影
20、响力的逐渐加大,依靠直觉做决定的状况将会被彻底改变。2009年爆发的甲型H1N1流感病毒,谷歌公司就是通过观察人们在网上搜索的大量记录,在流感爆发的几周前,就判断出流感是从哪里传播出来的,从而使公共卫生机构的官员获得了极有价值的数据信.word5.word息,并做出有针对性的行动决策,而这比疾控中心的判断,提前了一两周。美国的Farecast系统,它的一个功能就是飞机票价预测,它通过从旅游网站获得的大量数据,分析41天之内的12000个价格样本,分析所有特定航线机票的销售价格,并预测出当前机票价格在未来一段时间内的涨降走势,从而帮助虚拟乘客选择最正确的购票时机,并降低可观的购票本钱。3“大数据
21、应用促进信息技术与各行业深度融合有专家指出,大数据及其分析,会在未来10年改变几乎每一个行业的业务功能,从科学研究到保险,从银行业到互联网,各个不同的领域都在遭遇爆发式增长的数据量。在美国的17个行业中,已经有15 个行业大公司拥有大量的数据,其平均拥有的数据量已经远远超过了美国国会图书馆所拥有的数据量。在医疗与健康行业,根据数据预测,如果具备相关的IT设施,数据投资和分析能力等条件,大数据将在未来10年,使美国医疗市场获得每年3000亿美元的新价值,并消减2/3的全国医疗开支。在制造业领域,制造企业为管理产品生命周期将采用IT系统,包括电脑辅助设计、工程、制造、产品开发管理工具和数字制造,制
22、造商可以建立一个产品生命周期管理平台PLM(ProductLifecycleMansgement),从而将多种系统的数据集合在一起,共同创造出新的产品。此外,在交通、能源、材料、商业和效劳等行业领域甚至在新闻传媒领域,也都在以大数据为开展契机,加速这些行业与信息技术的深度融合。4“大数据开发推动新技术和新应用不断涌现大数据的应用需求,是大数据新技术开发的源泉。在不久的将来,也许很多原来单纯依靠人类自身判断力的领域应用,最终都将被计算机系统的数据分析和数据挖掘功能,所普遍改变甚至取代。一小片适宜的信息,也许会促使创新迈进一大步;一组数据,也可能会得到数据收集人难以想象的应用,甚至可能在另一个看起
23、来毫不相关的领域得到应用。借助这些创新型的大数据应用,数据的能量将会层层被放大。“语义网SemanticWeb,也称为下一代互联网,实际上就是“数据网WebofData。语义网是一个全球的数据库网,在这个数据库网中,计算机可自动为用户搜寻、检索和集成网上的信息,而不再需要搜索引擎。大数据时代正在催生的这个最大的技术变革,就是要重新构造互联网,打造出下一代互联网。( 5“大数据平安上升为国家战略平安传统意义上的国家平安,是指军队对国家领土平安的保护,是国家之间军事实力的较量。但在互联网高度兴旺的大数据时代,网络变成了几乎是透明的虚拟世界,也因此使国家平安的环境和内涵发生了极大的变化,对大数据的平
24、安保存、防丧失和防破坏等问题,成为我们必须要面对的平安难题。大数据平安,已经上升成为国家平安的重要组成局部。在大数据时代,数据平安的威胁随时都有可能发生。各种国家信息根底设施和重要机构所承载着的宠大数据信息,如由信息网络系统所控制的石油和天然气管道、水、电力、交通、银行、金融、商业和军事等,都有可能成为被攻击的目标。此外,大数据也为网络恐怖分子提供了新的资源支持,有可能使恐怖分子通过网络侵入到人们工作生活的方方面面,并通过威胁、攻击、破坏,瘫痪民用或军事根底设施等手段,到达其制造心理恐慌和财产损失,威胁国家平安和社会平安的目的。6大数据时代将成为世界开展主潮流.word6.word世界上许多国
25、家都已经认识到了大数据所蕴含的重要战略意义,纷纷开始在国家层面进行战略部署,以迎接大数据技术革命,以此来面对新机遇和新挑战。4 国内外有关大数据以及信息资源共享的研究现状4.1境外的大数据开展大数据的开展与政府数据开放之间有着不可分割的关系,可以说民间商业应用对利用数据的愿望是推动大数据开展的主要动力,政府将掌握的大量信息资源开放给公众是大数据开展的关键。各国商业公司、组织和个人都可利用政府公开的数据平台,经过加工、分析,发布应用程序,向公众提供数据效劳。爆炸式的数据聚集,促进了大数据思维、技术、工具的蓬勃开展。美国于1997年建立了首个全面公开联邦政府统计数据的网站,
26、2007年建立了联邦政府资金使用情况的网站USA和经济刺激方案资金使用情况R。2009年,公布了 开放政府指令 USOpenGovernmentDirective,这项法案要求在 透明transparency、参与participation、协同collaboration的原那么下在政府网站上发布更多数据库,通过网站数据开放使公众了解政府信息。2009年5月正式推出了网站,由联邦信息官主导,以公民可以自由检索并获得联邦政府数据、实现政府透明化为目的,要求各联邦政府机构提供信息。截至2022年5月,该网站提供来自172
27、个联邦部门、机构和组织的373029条原始和地理空间数据、1209个数据工具、350个电脑应用、137个 应用。日本没有发布网站,但是于2012年发布了电子政务开放数据战略草案和 面向2022年的ICT综合战略 ,并在2022年行动方案提出通过大数据和开放数据开创新市场.欧盟委员会于2022年提出欧盟开放数据战略和相关法律提案,希望让欧洲企业与市民获取欧盟公共管理部门的所有信息,方案在2022年建立一个聚集不同成员国以及欧洲机构数据的泛欧门户。在开放数据的风潮下亚洲的中国香港、中国澳门、新加坡和韩国都建立了本国或地区的网站,目前为止,全世界已正式建立数据开放门户
28、网站的国家和地区到达了35个。2022年美国、英国、巴西、挪威、墨西哥、印尼、菲律宾、南非等八国宣布成立开放政府联盟OGP,并发布 开放政府宣言 。2022年,美国联邦政府宣布将和印度政府合作,将现有的改造成开源平台,并且与2012年开放全部平台代码,印度将率先移植作为中央政府的数据开放平台。4.2国内外有关政府数据信息共享研究与比拟与国外相比,国内关注政府数据信息共享的研究不管是在广度还是深度上,均稍有缺乏,且国内研究起步晚了几年,不过国内研究也取得了较好的进展。早年已有学者提出要在全国推行小共享、大共建信息共建共享模式,即通过系统共建信息平台实现全国共享,或
29、通过区域性共建到达逐步融合,实现全国政务信息共享。还有人通过高超的网络技术分析,发现政务信息是在网络上呈散乱分布的,因此提出要实现全国信息共享,必须首先发现网络环境下政府信息资源的异质性构成。也就是说,应该分析政府数据信息的类型。国内行政管理领域的学者通过分析政府的科层制度,以科层内信息如何传递为主题,发现由于行政科层内部协调机制不完善,从而导致政府部门间信息共享的障碍以及对策。还有人在更为具体的层面展开具体的策略分析。例如通过分析国际电子政务开展的成熟度模型,对我国电子政务建设的推进体制、机制和方法进行了分析,并且提出了跨部门政府信息资源共享的管理实施问题解决方法。有些学者在总结以前研究的根底上提出了电子政务环境下政府信息资源的共享模式和策略。再如,通过研究大数据时代政府信息沟通的网络模式和传统模式,阐述了电子政务下政府信息沟通网络模式的交流过程,并预测分析了网络环.word7.word境下政府信息沟通可能出现的问题,提出政府信息沟通的网络模式。还有一批学者提出了政府部门间信息共享的理想状态、整体框架和动态实施过程,并从共享规划、流程再造、政府业务、组织再造和实施保障四个方面阐述了对政府部门间信息共享模式。国外较具深度的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《机械设计基础》-试卷8
- 《机床电气控制》试卷13
- 吉林艺术学院《透视学》2021-2022学年第一学期期末试卷
- 吉林艺术学院《改革开放史》2021-2022学年第一学期期末试卷
- 2024年公园绿化经营合同范本
- 吉林师范大学《艺术实践与创作》2021-2022学年第一学期期末试卷
- 2022年河北省公务员录用考试《行测》真题及答案解析
- 2024年大客车出租租赁合同范本
- 绞肉机买卖合同协议书范文
- 2022年公务员多省联考《申论》真题(重庆二卷)及答案解析
- 银行飞行检查实施细则
- 高三班主任经验交流课件
- 大气环境质量标准体系课件
- 半导体前道制造工艺流程课件
- 《康复辅助器具技术》复习考试题库(附答案)
- 2022中国大学排名Excel
- 2023年第一季度思想汇报(3篇)
- 工厂围墙视频监控系统方案及报价书
- 方位介词附习题及参考答案
- “二十四节气”研究性报告
- 个人挂靠公司协议书(大全)
评论
0/150
提交评论