大数据 第1章 什么是大数据_第1页
大数据 第1章 什么是大数据_第2页
大数据 第1章 什么是大数据_第3页
大数据 第1章 什么是大数据_第4页
大数据 第1章 什么是大数据_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据导论BIGDATATechnology第1章什么是大数据

本章主要内容如下。(1)人类信息文明的发展。(2)大数据时代的来临。(3)大数据的主要特征。(4)大数据的社会价值。1.1人类信息文明的发展

总体来看,人类的信息文明起源于电子计算机技术的产生,尤其电子采集、电子存储、电子处理和电子显示整个电子信息处理全部流程的技术实现,标志着整个人类信息文明相关技术链条的成熟。随着整个信息链条节点的逐步壮大,人类信息文明终于被开启,并且极大地改变着人类生活的各个方面。人类信息文明是人类文明极大发展后由量变到质变的产物,同时更集中体现了人类整体文明的发展智慧,极大地丰富了人类的生产和生活方式,尤其提高了人类生产的效率和生活的质量。1.2大数据时代的来临

根据IBM公司前首席执行官郭士纳的观点,IT领域基本每隔15年都会迎来一次重大的技术变革(见表

1-1)。1980

年前后,个人微型计算机(Microcomputer)逐步普及,尤其是随着制造技术的完善带来的计算机销售价格的大幅降低,使计算机逐步进入企业和千家万户,大大提高了整个社会的生产力,同时丰富了家庭的生活方式,人类迎来了第一次信息化浪潮。Intel、AMD、IBM、Apple、Microsoft、联想等信息企业成为第一次信息浪潮的“弄潮儿”。信息技术的发展和不断的快速革新才造就了信息量的指数级增长,而信息量的不断堆积直接造就了大数据概念的出现。随着相关技术的不断成熟,人们终于迎来了大数据时代。信息化浪潮发生时间标志解决的问题企业界代表第一次1980年前后个人计算机信息处理Intel、AMD、IBM、Apple、Microsoft、联想等第二次1995年前后互联网信息传输Yahoo、Google、阿里巴巴、百度、腾讯等第三次2010年前后大数据信息挖掘Amazon、Google、IBM、VMWare、Cloudera等表1-1 3次信息化浪潮1.2.1信息技术的发展大数据时代的到来得益于信息科技的跨越式持久发展,而信息技术主要解决的是信息采集、信息存储、信息处理和信息显示4个核心问题。这4个核心问题的相关技术的不断成熟才真的支撑了整个大数据时代的全面到来,具体的技术发展表现如下。1.信息采集技术的不断完善和实时程度的不断提升大数据时代的到来离不开信息的大量采集。数据采集技术随着人类信息文明的发展已经有了质的飞跃(见图

1-1)。大数据技术主要依附于数字信息,就数字信息的采集技术而言,现在的数字信息采集方法已经十分完善,文字、图片、音频、视频等多维度的数字信息的采集手段和技术已经十分完备。数据的采集越来越实时化,随处可见实时音频直播和实时视频传播。可以说信息的采集环节已经基本实现实时化,而信息延迟主要在信息传输和信息处理阶段。图1-1信息采集的最新技术2.信息存储技术的不断提升计算机硬盘的快速发展促进了高安全性和高扩展性的商业领域信息存储乃至信息积累,而移动端闪存的快速发展则拉动了个体生活和社会公共事务方面的快速信息积累,两者相辅相成,共同提供了大数据时代的信息体量支撑。3.信息处理速度和处理能力的急速提升信息处理速度主要依靠计算机处理核心CPU的运算能力。CPU单核心处理能力的演变长期遵循摩尔定律(见图

1-2),即CPU的运算速度随着时间呈现指数增长趋势,所以在很长时间内,行业的发展主要集中在提高CPU单个核心的运算主频上。图1-2CPU单核心运算速度摩尔定律

而随着摩尔定律的渐渐失效,尤其是伴随着提高CPU单核心主频带来的商业成本的成倍增加,直接促使技术模式由简单的提高单核心主频向多核心多线程发展,即增加单个CPU的处理核心的数量的同时增加内存和CPU联络的线程数量和通信带宽,这样就可以保证多核心的同时运转。CPU的实际运算因核心数量的增加,同样实现了运算速度的十分可观的高速提升。4.信息显示技术的完备和日臻成熟信息的显示技术尤其是可视化技术近些年有了突破性进展,特别是随着图形像素技术的不断提升,图形显示越来越细腻,图形显示水平已经越来越趋于逼真和生动化(见图1-3)。图1-3多彩的数据可视化手段

图形显示技术的发展突破了简单文字显示和图表显示的技术界限,信息显示由一维、二维显示拓展到了三维乃至更多维度显示。这样的显示技术带来了整个大数据行业的腾飞:首先,带给人们更好的视觉和感官享受,让信息技术更好、更快地融入信息时代;其次,带来了新的连带技术的发展,诸如图形化数据库、图像识别及人工智能等技术的全面发展;最后,信息显示的发展和日臻完善,给整个信息技术带来了从量到质的跨越式发展,并且会继续更加深远地影响整个大数据时代的发展。1.2.2数据产生方式的变革大数据时代的到来依托于信息技术的不断革新和发展,但是仅靠信息技术的发展,还是不能完全促使大数据时代的最终来临。信息技术的发展只能为大数据时代的来临带来技术上的铺垫和积淀。大数据时代的来临必须依托于数据量的爆炸式增长和完善,而这在很大程度上取决于数据产生方式的变革。

可以说信息技术的发展促进了数据产生方式的变革,而反过来数据产生方式的革新也倒逼了信息技术的不断完善和发展,两者的发展是相辅相成和互相促进的。接下来就看看数据产生方式的变革历程(见图

1-4)。图1-4数据生产方式的变革1.传统大型商业领域业务运营数据产生方式的变化可以说传统大型商业领域业务运营数据的采集是整个数据行业的开始,因为银行、商铺、保险、证券、股票、零售等商业数据的隐私性和保密性要求,直接激发了人们对信息行业发展的需求。同时这些传统的商业部门也完成了整个大数据行业的早期数据积累,尤其是对数据量变方面的贡献。由于整个商业领域有大量的保密且极其重要的数据需要妥善保存和随时处理,同时伴随着商业全球化的扩张和整个世界经济在过去半个世纪尤其是第二次世界大战以后飞速的发展,都促使传统商业领域的数据量大幅增加。

商业数据由过去的波浪形增长方式变成了指数型的爆炸式增长方式。这种数据产生方式的变化直接倒逼了信息技术的发展,包括传统数据库技术、数据检索标准语言—SQL、大型商业数据中心、全球商业数据网络等新的数据技术的发展,而这些技术都为传统商业运营所产生的大量数据提供存储和处理。2.互联网时代数据产生方式的变化全球海底电缆连通世界五大洲,促使万维网全球数据连通;通信卫星的全球组网,再一次在移动端将整个人类联系在了一起,让每个人在智能手机的帮助下可以全球通达;与此同时,全球定位系统也实现向民用领域开放,目前以美国为首的GPS全球定位系统的民用服务已经到了十分便利和极其精确的程度。

海底电缆、移动通信和全球定位系统3个大的信息核心技术的发展,让人们终于迎来了互联网时代的大规模数据产生方式。这样的数据产生方式促成了数据量的量变。全球移动通信用户逐年增加,而每一位终端用户都是独立的鲜活个体,其任何一秒钟产生的共享数据量都是惊人的,同时是不断更新和活跃的,全球人类第一次真的汇聚在“地球村”。3.物联网(IOT)加快了数据产生方式的变革全球科技巨头都在积极布局物联网,而物联网的数据产生方式是完全实时的,这样的数据产生方式再次刷新了数据产生的量级,即便最简单的地下车库视频监控或商场的超市自动视频采集设备每天所产生的数据量都是天文数字,更别说全球联网实现的物联网全流程运作。

物联网旨在将实物世界与信息数据实现完全的对应和联络,物联网时代在很大程度上在于对世界存在的实物进行信息标记、调度、利用、处理、再利用,然后对整个链条的信息化实物进行掌控。而这样的信息模式会造成终端数据量的再次质的飞跃,同时更为重要的是造成实时数据流的爆炸式增长。这样的数据产生方式是前所未有的,也最终在互联网信息时代催生出大数据时代后再次把大数据时代的未来推到了前所未有的高度。

综上所述,大数据时代的发展实际经历了20世纪90年代到21世纪初的萌芽阶段。这个阶段与数据商业运营模式的产生阶段对应,主要的大数据研究方向为商务智能、数据仓库和数据建模,目的在于为大型传统商业提供业务咨询、开拓销售市场,以及维护客户关系。随着互联网技术的不断成熟,尤其是Web2.0时代的到来,大数据时代也发展到21世纪前10年的技术成熟期。

这个阶段也正好与互联网时代的大众数据产生阶段对应,主要的大数据研究方向是网络资源搜索、社交网络、大众媒体、政务大型对公平台等的平台大数据处理,目的在于更好地利用互联网系统产生的大量数据,更好地为人们的生产、生活和销售市场带来私人订制或者群体定制式的信息服务。2010年以后,大数据时代终于到了大规模应用期,这个阶段与物联网实时数据产生阶段对应,目的在于拓展大数据技术,实现人工智能。1.3大数据的主要特征1.3.1大数据的数据特征大数据数据层次的特征是最先被整个大数据行业所认识、所定义的,其中最为经典的是大数据的4V特征,即数据量巨大(HugeVolume)、数据类型繁多(Variety)、信息处理速度快(Velocity)、价值密度低(Value)。1.数据量巨大根据著名咨询机构IDC(InternetDataCenter)做出的预测,人类社会产生的数据一直都在以每年

50%的速度增长,基本每两年就增长一倍。这个预测被形象地称为“数据量摩尔定律”。这样的预测有望随大数据时代和人工智能时代的来临而打破。数据量的真实增长会是怎样的只有明天才有结论,但是数据量大却是大数据时代牢不可动的第一标签。2.数据类型繁多从数据产生方式的几次改变就可以体会到数据类型跟随时代的变革。大型商业运营阶段产生的数据类型多为传统的结构化数据。这些数据多为隐私性和安全性级别都十分高的商业、贸易、物流,以及财务、保险、股票等的传统支柱行业数据。而互联网时代产生的数据类型多为非结构化的电子商务交易数据、社交网络数据、图片定位数据,以及商业智能报表、监控录像、卫星遥感数据等非结构化和二维码像素数据。

互联网时代数据类型的改变也促进了新型数据库技术的大力发展,如NoSQL和NewSQL等数据库技术都得到了长足的发展,而这一切都是为了满足新数据类型的数据存储和高效利用的需要。IoT、人工智能时代的数据产生方式是多种多样的,其产生的数据类型也是多种多样的。3.信息处理速度快大量的数据、繁杂的数据类型,必然要求较快的信息处理速度。近年来计算机核心处理单元CPU的综合信息处理能力呈现指数级增长。实际上,CPU运算速度的增长分为两个阶段:第一个阶段,行业的关注重点是单个核心主频的不断提升,单核心的CPU速度经历了飞速的发展期;到了21世纪初,再提高单核心的主频已经出现了很大的工业困难,并且从成本的角度也不再符合整个市场的需求,因此行业领导者诸如Intel和AMD公司都把提高信息的处理速度的方式转变到多核心联动处理。4.价值密度低数据量虽然巨大,但是人们关注的其中有用的信息却不容易被发现,这是大数据时代数据的一个很大特点。数据量级巨大,人们需要的有价值的数据资料和数据决策却难以得到,这就需要专业人员根据各自行业的需求,通过特定的技术手段和研究方法,在海量的价值密度极低的数据海洋里找到合适的数据集,经过具体可行的数据分析和挖掘方法去得到可以利用的高密度价值的数据,促进低密度数据的高价值信息提取,从而实现大数据的科学合理利用。1.3.2大数据的技术特征大数据的这4个着眼于数据层次的特征是被整个大数据行业公认的,也是本书必须予以尊重的。显然4V特征很好地描述了整个大数据的数据层次权威特征,但是大数据的主要特征显然不仅仅表现在数据层次。从技术层次看,大数据的技术特征也是可圈可点的,而这些技术特征决定了我们不仅要着眼于大数据的数据层次,还要注重大数据行业技术的方方面面。这些技术特征基本可以总结为如下几点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论