大数据的产业价值(上)_第1页
大数据的产业价值(上)_第2页
大数据的产业价值(上)_第3页
大数据的产业价值(上)_第4页
大数据的产业价值(上)_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

谢谢观赏大数据的产价值(上)清大教大家好,我是来自清华大学的汪东升,今天我们讨论的题目是“大数据的产业价值。目前计网市互+”业2.0”以及“大数据”这些热词,我们几乎每天都能听到。很多政府报告,包括各种媒体,都把这些热词称为第三次浪潮也第三次的革命也些告指出这是弯道超车的一个机会为此我合这些热词,以大数据为重点探讨一下大数据的产业价值以及与其他热门名词的相互关系,以便于我们在弯道的时候做到真正超车。我主要介绍以下三个方面:第一,大数据及其相关概念的理解;第二,大数据的产业价值;第三,问题与建议。一大据其关念理()数概及特这是我们从阿里PPT上录的一页。这是目前互联网上每60秒发生的事情,大家都能体验到全IP网一分钟可传送639TB以的数据用Facebook、等社交媒体、社交网络发生若干次的访问,增量也是非常巨大的。比如苹果的应用下载4.7万亿次以及其他方面的应用都海量的数据以这样讲2015年要用五年时间才能看完互联网上一秒内所存的视频,可见信息量之大,以及增长速度之快。由于数据量不断增加,会出现数据爆炸,知识反而是贫乏的,同时难以决策,对我们的决策带来更大的困难。从数据角度来说,可以有利于行业细分、数字化、多媒体、多维度、大规模和细粒度。从数字中,我们得到一些关联、模式、趋势、相关性关系以及分类,继而为决策提供支持,包括市场定位、资金分配、产品选择、广告营销、时机选择以及位置选择。因此我们说,大数据时代到来了。1、大数据概念的发展脉络大数据概念的发展脉络简地归结为以下这几个流程年是Nature》自然杂志上推出了一些大数据的装刊,对大数据的基本概念作了一些阐述2010年4月21日,这个概念首次列入维基百科的条目,并指出“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取管和理的数据结合年2月Science推专刊说大数据对于科学研究的重要性在2011年月麦锡全球研究院发布了一份报告—《大数据创竞和生产力的下一新领域了工业性和学术界对大数据的关注报提出,大数据是指具有以下三个特征的数据:大数据量、快速增长及多数据来源和类型2011年11月在品发布会上推大数据的概念,并概括为4个v的性,也就是大规模、多样化、快速增长以及潜藏价值2012年,美国国家科学基金发布大数据指南,指出大数据是海量、多样、分布、异构的数据。2、大数据的构成所谓大数据是指大交易数据、大交互数据和大数据处理的统称。大交易数据包括在线的交易处理、在线的分析处理以及数据仓库等。大交互数据就是我们经常用的Facebook、谢谢观赏

谢谢观赏Twitter等这些社交媒体数据。这些数据集成在一起对于大数据的集成、分析以及决策提供了方便。从这张图上可以看出大数据的构成,大数据包括交易数据和交互数据在内的所有数据集,因此大数据等于海量数据加上复杂类型的数据。所谓海量交易数据,就是我们经常用的数据库数据,企业内部的经营交易信息,主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态历史数据,我们进行查询统计能了解过去发生的事情。另外一种是海量交互数据,比如FacebookTwitter、以及信等等,以及其他来源的社交媒体或社交构成,它包括呼叫详细记录CDR、设备和存储传感信息和地理定位映射信息、通过管理文件传输管理文件协议的海量图片文件,还有点击数字量、科学信息、电子邮件等等,可以预测未来,这些数据大多数是非结构化的数据。对于这样的结构化数据和非结构化数据需要进行海量数据的处理,大数据的涌现已经催生出了设计用于数据密集型处理的架构,比如一些科研架构,我们经常说的就是Hadoop等3、大数据的基本概念关于大数据没有标准的定义,这是一个英文的定义:大数据是一种数据,它具有可扩展性、多样性、复杂性的特点,它需要一种新的架构、新的技术、新的算法以及新的分析工具去管理这些数据,同时从中抽取隐含在内的重要信息,这就是大数据的概念,它谈不上是一个定义。关于大数据的概念,我们的理解是:大数据是指数据海量、计算复杂的数据集合,在一定时间内难以依靠已有数据处理技术来进行有效的采集理和分析常可以用4v特来表示这不是一个标准的定义是一个概念目前数据量不断地增大类不断地增多,我们现在的技术、结构和算法还无法支撑它、分析它,这是一个难题。4、大数据的特点4v特主要是规模巨大生高速式多样息价值这4个特规巨大是指,非结构化数据的超大规模比结构化数据增长10倍到50倍产生高速是指速度产生是非常巨大的,实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,要求它的实时性;形式多样也就是我们所说的异构性,数据包括文本、图象、视频、机器数据,模式不明显,语法语义也不连贯;信息价值就是大量不相关的信息,对未来趋势与模式的深度复杂分析,通过这些分析能得到我们所用的信息。因此,大数据就像“航来威力巨大,放着不动也消耗巨大。()模巨大首先规是巨大的从级别PB直到ZB的别关数据的度量尺度我可以看一下,TB是10的12次方PB是10的15次方ZB到10的21次。大数据包括互联网的数据,年生量是1.8ZB,以每本书10兆字节来计算,这个数据相当于700万个中国国家图书馆的容量,可见它的数据是非常大的。同时还有医疗保健数据、海洋气象数据以及基因工程等方面的数据国国立基金研究所宣布基计划所产生的数据总量已达到200TB,成为世界上大的人类基因变异数据集。()生高速数据持续产生高速,并要求实时处理。我们看一下电信运营数据,联通上网记录每83谢谢观赏

谢谢观赏万条,每月1万条,大概300TB容量;天文数据五年的总数据量可以达到15PB;有企业运行数据,到2000年时全新产生的数据量为1000PB到2000PB,2010年球业一年存储的数据量超过,是产生高速的一个特点。()式多样数据来源和数据通道也是多方面的,比如多样化的数据来源,从Twitter、歌、、机等等各种终端来的数据也是非常丰富多彩的。因此下一个特点是形式多样,各种类型的数据,包括语音、图片、音频、视频、地理位置信息等非结构化数据,个性化数据占绝大多数大数据时代据呈爆炸的趋势一钟发生了639TB的络流量,同时有两亿封邮件70万的Facebook更30小的YouTube新增视频70万谷歌搜索,可见数据是爆炸性的增长,不断产生的。()息价值从信息的价值角度来说,可用信息在数据总量中的比例低,其潜在价值是巨大的。每一个信息给我们的信息量是非常小的,但是把它们归结在一起,通过有效的手段进行提取分析会得到非常有用的高效信息。以视频为例7X24小的全程视频监控中,可能有用的数据仅仅只有一两秒,有用信息在数据总量中的比例低,但是潜在的价值是非常大的,比如大量的视频中我们可以找到犯罪嫌疑人,杀人恶魔周克华就是从这种视频监控的海量信息中查找出来的。大数据时代的市场空间非常巨大,数据已经成为一种资产,像货币和黄金一样世纪的原油”这种说法可不是随便说的,说明数据对于我们国家的战略、对国民技术发展起到非常重要的作用像原油一样球未来年58%增速2017年可以达到500亿美。中国2013年增速为138%年市场将达到100亿就是2012年2017年增速情况,几乎呈线性增长。2012年2017年中国的大数据市场规模也非常巨大2011年被称为中国大数据的市场元年2012年2016迎来了大数据飞速发展时期,2012年国大数据市场规模达到亿,年数据市场迎来增速的飞跃,到2016年个市场规模逼近百亿。这是2012年各行业大据的市场规模,政府、互联网、电信、金融的大数据市场规模较大,4个业将占据一半的场份额,由于各个企业都存在大数据应用需求,潜在市场空间是非常巨大的,这里面包括政府、互联网、电信、流通、金融、医疗、制造、零售、教育、能源等等各个方面的市场规模情况。刚才我们总结了大数据的4v特时大数据在不同行业中也呈现出不同的特点银行、保险、政府、零售、批发等应用中的数据特点是不一样的。比如在数据量方面,健康医疗的数据量是失踪的,不是特别多,而在银行保险方面,数据量是非常大的;对于速度的要求,比如银行、保险的速度也非常快,对批发这种行业来说,它的数据产生速度就相对要小很多;同时,各个行业没有利用的所谓“黑数据”也不一样。(二)相关概念与关系分析从计算机发展来看,大数据经过架构化、数字化、网络化以及智慧化发展的流程。智慧化反映的特点就是移动互联网、云计算、物联网和大数据。大数据不是独立存在的,它的产生、处理以及利用一定要与我们所接触的一些概念相关联,相关概念包括云计算、物联网以谢谢观赏

谢谢观赏及与大数据之间的关系,这三者是相辅相成的。这是我在西安看到的一个出租车,出租车上面的广告牌同时出现“爱社会、关爱自然是谓的云广告这视觉效果非常好一般来说出租车广告牌我是不看的但是每辆出租车同时出现的字我就会关注,这是所谓云广告的具体应用。马航失事的飞机叫MH370,果计算应用于飞机的黑匣子,那么与我们现在用的黑匣子技术相结合是非常圆满的一件事情,空中乘客可以上网,这种云匣子可以通过各种传感信息、湿度、温度以及摄像等等数据及时地传到地面上,从技术角度来说已经不成任何问题,这对以后查找事故信息是非常方便的。另外,云计算过去对于维护、人员、培训、运维等等方面会带来很大的好处,同时在安检的可靠性、水电、安保方面也有很大的优点。什么是云计算?云计算概念也是众说纷纭,没有统一的定义,现在很多定义尝试着从学术架构、工程师、开发人员、管理人员等不同的角度去定义。这是维科百科的定义:云计算是一种基于互联网的计算方式,通过这种方式共享了软硬件资源和信息,可以按需提供给计算机和其他设备。我们认为,云计算是指服务的交互和使用模式,用户通过网络以按需、易扩展的方式获得所需的服务。因此,云计算不是概念,不是操作,不是口号,不是超级计算,也不是网格计算。云计算包括后续提出的海计算、框计算、风计算等等,它应该是一种新的创新模式、商业模式、新的运营模式,是成本、效用、应用至上,是大众参与的一个舞台。云计算的实质,简单说就是计算虚拟化、存储虚拟化、网络虚拟化的结合,继而实现数据更新的虚拟化过程。我把住房和云计算结合在一起,目的是说明云计算和这种概念一起接受的容易程度。从住房角度来说住小康指各个城市的住房自有率是不同庭金融调查报告》中国住房自有率是,界平均是60%瑞士是31%,后是瑞典和德国。住房自有率最高的是亚美尼亚,1998年达最高值96.3%住房自有率高的国家几乎都是经济水平发展比较低的转轨国家,而住房自有率低的国家则是经济发达的国家。由于发达国家人口流动性强为减少住房买卖的麻烦多人宁愿租房而不是买房相反落国家人口流动性差,拥有自有住房的家庭反而更可能居住在自己拥有的家庭中。因此,虽然云计算在我们国家风起云涌,也用得比较好,其实在接受程度上应该说是和住房一样,还是有一定的难度。举例说明,比如北京北五环的房子一平方在以上120平的房子需要600万上的钱去购买,假如我不买房,靠600靠投资理财,假如每年有5%到10%的收益,那一年可以收30-60万收益。考虑到物的增长,我把这些钱放到一个地方进行理财,靠这些利息完全可以在北京租房的价格下进行租房,比如每个月用租金一万,相比120平的住房,无需物业费、维修、维护、折旧的房产税等等,这就是租房和住房的概念。所谓租房的概念,就像云计算资源一样具有服务的意识和理念,买房和租房这种理念和云计算资源的租用其实是一样的。另外住的云计算做的比较计安全是最重要的是不是云计算就一定安全?以住房为例说明云计算的安全问题,这也是一个双刃剑。比如现在我可以不住房,可以租房或者住宾馆。以住宾馆为例,假如一年用30万到60万宾馆,其实我未必每天都住,我可以想住就住可以不住的时候可住在朋友家或者父母家里面客房的卫生餐都不用管,谢谢观赏

谢谢观赏这也都是云计算能提供的方便,同时我可以拎包入住,这就是云计算所说的PaaS、的概念。安全是双刃剑,为什么?有的人说云计算是非常安全的,我不认可,有人说住在家里非常安全我也不认可。宾馆安全还是家里安全?我们认为宾馆是安全的,因为宾馆有保安我们家里没有保安,但是如果把钱放在宾馆里面,放在床上和放在家里,这时候安全度又是不一样的这说明了宾馆里面能还会存在内鬼云计算也是如此计算的基础设施、安全设施是非常完备的,从总体来看是安全的,但是你的数据放在云里面,对这种云的管理来说又是不安全的,因为它可能有内鬼。云计算的关键技术包括虚拟化、安全、可靠、绿色节能等等很多方面。云计算安全问题是云计算得以应用发展的一个最大障碍,表现在几方面:第一,虚拟化技术带来新的安全威胁;第二是数据集中存储引发的安全问题;第三是云服务和管理和调度产生的安全问题,以及传统安全威胁的一些新特点,会引起新的问题。这是对云计算面临的问题进行的一个设计图,从使用者角度来说,隐私数据保护和数据安全,运行环境的安全以及内容安全,都是他所关心的。这个安全问题主要是在这么几个方面:云计算安全问题主要在用户角度、运营商角度、国家和第三方监管部门的角度都存在着安全,这个安全就像一个多米诺骨牌效应,一旦这三方面有一方面倒塌,那整个安全就有很大的问题。在云计算方面主要存在的问题有哪些?简单的说,目前我国的形势是重设施、轻应用,行业地域特色要求云计算发展模式的差异化,但是花钱买服务和服务意识的加强还有待于提高。另外,安全隐私是大问题,安全的意识、技术和立法方面还有所欠缺,以及云计算个性化和标准化的矛盾也是目前存在的主要问题。我们还经常提到一些概念如慧城市带动行业云的发展慧城市需要数据的融合。目前,各个城市、各个部门存在的大量信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论