大数据技术与产业发展清华大学_第1页
大数据技术与产业发展清华大学_第2页
大数据技术与产业发展清华大学_第3页
大数据技术与产业发展清华大学_第4页
大数据技术与产业发展清华大学_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术与产业发展汪东升清华大学

引言早在20世纪,瑞士心理学家荣格就发现了《易经》筮法中蕴涵的一种不同于因果原理的普遍联系法则,这同大数据技术的复杂相关性有着相似的地方。2012年3月,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,并且定义为“未来的新石油”,希望增强政府收集、分析和萃取海量数据的能力。2大数据挖掘与利用尿布&啤酒—沃尔玛在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。智能交通---交通蝴蝶效应英国布里斯托尔大学埃迪·威尔逊博士的一项研究结果显示,适当条件下,一名司机急刹车或超车可能引发一场“交通海啸”,受影响路段长达80公里。GOOGLE提前一个月预测电影上映首周的票房收入,准确度高达94%根据麦肯锡的估计,如果零售商能够充分发挥大数据的优势,其营运利润率就会有年均60%的增长空间,生产效率将会实现年均0.5%~1%的增长幅度。3关于大数据4没有标准的定义…“BigData”isdatawhosescale,diversity,andcomplexityrequirenewarchitecture,techniques,algorithms,andanalyticstomanageitandextractvalueandhiddenknowledgefromit…计算模型发展以人为本!6技術演進歷史揭示未來是大数据驅動的智慧型經濟模式大数据的特点8Bankingand

SecuritiesCommunications,MediaandServicesEducationGovernmentHealthcare

ProvidersInsuranceManufacturingandNaturalResourcesRetailTransportationUtilitiesWholesaleTradeVolume

ofDataVelocity

ofDataVariety

ofDataUnderutilized

"DarkData"Potentialbigdataopportunityoneachdimensionis:Veryhot(comparedwithotherindustries)HotModerateLowVerylow(comparedwithotherindustries)大数据的3V特性之于存储Volume---经济存储Velocity---层次存储Variety---策略存储BigData:3V’s94V特性10Sina的抑郁症研究究11存在抑郁倾向向的微博用户户与普通用户户发博时间有有明显差异,,这部分人群群发博高峰在在23点,其夜间活活跃度比普通通用户平均约约高出30%。该群体微博博关键词为::死、抑郁症症、生命、痛痛苦、自杀。。有60%为女性,40%为男性,女性性比例比男性性略高大数据之于色色情业12陈坤VS黄晓明:用大大数据解读大大明星13知其然而不知知其所以然《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》关注“是什么么(关联)””,而不是““为什么(因因果)”“龙王”萧劲劲腾,83.3%–2012年7月21日,北京演唱唱会–8月8日,上海演唱唱会50年最大台风–10月31日,纽约,飓飓风“桑迪””–11月5日,天津演唱唱会雨太大延延期14科学研究的第第四范式科学实验理论科学(开普勒定律律牛顿定律律…)计算科学大数据完整的科学研研究周期数数据采集数数据整理数数据分析和数数据可视化。。1516数据处理的变变迁OLTP:OnlineTransactionProcessing(DBMSs)OLAP:OnlineAnalyticalProcessing(DataWarehousing)RTAP:Real-TimeAnalyticsProcessing(BigDataArchitecture&technology)17大数据的源头头Socialmediaandnetworks(allofusaregeneratingdata)Scientificinstruments(collectingallsortsofdata)Mobiledevices(trackingallobjectsallthetime)Sensortechnologyandnetworks(measuringallkindsofdata)TheprogressandinnovationisnolongerhinderedbytheabilitytocollectdataBut,bytheabilitytomanage,analyze,summarize,visualize,anddiscoverknowledgefromthecollecteddatainatimelymannerandinascalablefashion18生产/消费数据模型型发生了变化化…OldModel:Fewcompaniesaregeneratingdata,allothersareconsumingdataNewModel:allofusaregeneratingdata,andallofusareconsumingdata19IDC公司发布的数数字宇宙研究究报告称:全球信息总量每两年就会增增长一倍,2011年全球被创建建和被复制制的数据总量量为1.8ZB(1021)。IDC认为,到下一个十年年(2020年),全球所有IT部门拥有服务务器的总量将将会比现在多多出10倍,所管理的数据将会比比现在多出50倍。预计到2020年,全球将总共拥拥有35ZB的数据量2011年企业创造、、采集、管理理和储存信息息的成本已已经下降到2005年的1/6,而同期企业关关于数据的的总投资自2005年以来却反而而上升了50%。数据成本的下降助推了了数据量的增长,而新的数据源和数据采集技技术的出现则则大大增加了了未来数据的类型,数据类型的增增加导致现有有数据空间维度增加,极大地增加了了未来大数据的复杂度度。20超越BI-Ad-hocqueryingandreporting-Dataminingtechniques-Structureddata,typicalsources-Smalltomid-sizedatasets-Optimizationsandpredictiveanalytics-Complexstatisticalanalysis-Alltypesofdata,andmanysources-Verylargedatasets-Moreofareal-time21大数据分析的的价值Bigdataismorereal-timeinnaturethantraditionalDWapplicationsTraditionalDWarchitectures(e.g.Exadata,Teradata)arenotwell-suitedforbigdataappsSharednothing,massivelyparallelprocessing,scaleoutarchitecturesarewell-suitedforbigdataapps22大数据的挑战战TheBottleneckisintechnologyNewarchitecture,algorithms,techniquesareneededAlsointechnicalskillsExpertsinusingthenewtechnologyanddealingwithbigdata23利用用户”行为指纹”创造新商机用户在线的每每一次点击,,每一次评论论,每一个视视频点播,就就是大数据的的典型来源。。互联网企业业之所以取得得令人瞩目的的成绩,其核核心的本质就就是包括用户户网络操作的的大数据,进进行记录和分分析,形成用用户“行为指指纹”,从而而洞悉用户的的潜在的、真真实的需求,,形成预判。这是传统企业业花费重金都都难以企及的的梦想。所有有传统的产品品公司都只能能沦为这种新新型用户平台台级公司的附附庸。大数据的构成大数据=海量数据+复杂类型的数数据海量交易数据:企业内部的经经营交易信息息主要包括联联机交易数据据和联机分析析数据,是结构化的、通过关系系数据库进行行管理和访问问的静态、历历史数据。通通过这些数据据,我们能了解过去发生了什么。。大数据包括:交易数据和交交互数据集在内的的所有数据集海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的的社交媒体数数据构成。它它包括了呼叫叫详细记录CDR、设备和传感器器信息、GPS和地理定位映映射数据、通通过管理文件件传输ManageFileTransfer协议传送的海量图图像文件、Web文本和点击流流数据、科学学信息、电子子邮件等等。可以预测未来。海量数据处理:大数据的涌现已已经催生出了了设计用于数数据密集型处处理的架构。例如具有开放源码码、在商品硬硬件群中运行行的ApacheHadoop。2627Gartner2013年技术成熟度度曲线28BD2013年技术成熟度曲曲线解读大数据正在在由由过过热热期期转转向向低谷谷期期物联联网网将将成成为为新的的热热点点话话题题云计计算算、、内内存存分分析析和和企企业业3D打印印日日益益成成熟熟29Gartner总结结2014年十十大科科技技趋趋势势-第一一、、移动动设设备备的的多多样样性性和和管管理理Gartner暗示示从从现现在在起起直直到到2018年,,自自发发形形成成的的““自自带带设设备备””办办公公((BYOD)引引发发种种类类繁繁多多的的移移动动设设备备层层出出不不穷穷,,不不同同的的用用户户环环境境和和交交互互模模式式将将导导致致““任任一一设设备备、、任任一一地地点点””的的战战略略无无法法实实现现。引引发发的新新问问题题便便是是企企业业如如何何针针对对自自带带设设备备制制定定新新的的政政策策,,以以便便平平衡衡好好灵灵活活性性与与保保密密和和隐隐私私需需求求。。第二二、、移动动应应用用和和应应用用程程序序第三三、万物物互互联联((InternetofEverything)互联联网网的四四个个基基本本应应用用模模型型分分别别为为管管理理、、货货币币化化、、操操作作和和扩扩展展。。这这些些模模型型可可以以应应用用于于任任何何人人、、物物、、信信息息和和场场所所,,因因此此,,““物物联联网网””终终将将会会被被““万万物物互互联联””所所取取代代。。第四四、、混混合合云云和和IT成为为服服务务经经纪纪人人Gartner暗示示个个人人云云和和外外部部私私有有云云服服务务整整合合势势在在必必行。。第五五、、云云/客户户端端架架构构第六六、、个个人人云云时时代代个人人云云技技术术的发发展展将将导导致致设设备备向向服服务务转转移移。。在在此此情情况况下下,,设设备备的的特特性性将将不不再再重重要要,,个个人人云云数数据据可可以以在在多多种种设设备备上上访访问问,,并并将将会会取取代代传传统统设设备备所所具具有有的的部部分分功功能能。。第七七、、软件件定定义义一切切第八八、、Web-scaleIT。第九九、、智智能能机机器器第十十、3D打印印30Gartner发布布2014年及及未未来来十十大大预预测测数字字产产业业革命命数字字业业务务到2020年,,数数字字化化带带来来的的劳劳动动力力缩缩减减将将导导致致社社会会不不稳稳定定,,数数个个成成熟熟经经济济体体也也将将需需要要新新经经济济模模型型。。短短期期关关注注点点::到2014年底底,,将将会会出出现现更更大大规规模模的的““占占领领华华尔尔街街””型型的的运运动动,,意意味味着着社社会会动动荡荡将将开开始始推推动动政政治治讨讨论论。。到2017年,,80%的消消费费者者将将收收集集、、追追踪踪和和交交易易其其个个人人信信息息,,以以实实现现成成本本节节约约、、方方便便以以及及定定制制化化。。短短期期关关注注点点::到2014年,,基基于于Kickstarter的个个人人数数据据的的拍拍卖卖数数量量将将以以三三位位数数增增长长。。到2020年,,企企业业和和政政府府将将无无法法保保护护75%的敏敏感感数数据据,,并并会会取取消消保保密密等等级级,,允允许许大大范范围围人人群群/公众众访访问问。。短短期期关关注注点点:到2015年,,至至少少会会出出现现一一个个斯斯诺诺登登或或维维基基泄泄密密事事件件,,意意味味着着企企业业和和政政府府对对于于他他们们不不能能保保护护所所有有敏敏感感信信息息这这一一事事实实的的情情况况呈呈上上升升趋趋势势。企业业和和政政府府存存储储和和使用用的的数数据据量量在在大大规规模模地地增增加加,,要要保保护护所所有有这这些些数数据据是是不不现现实实的的。。相相比比较较承承担担保保护护所所有有数数据据这这一一无无底底的的任任务务,,企企业业和和政政府府会会更更专专注注于于保保护护其其中中一一小小部部分分,,并并且且要要保保护护得得很很好好。。智能机机器物联网网在当代代社会,,物联联网结结合了了机器器、人人类和和商业业之间间的互互联。让“参与”这个个词成成为真真正有有价值值的资资产。。2020年,从从可穿穿戴设设备获获取的的消费费者数数据将将推动动来自自全球球1000强的5%的销售售。短短期关关注点点:到到2015年,分享消消费者者数据据的智能能手机机应用用数量量将增增长两两倍,,意味味着想想要获获取消消费者者个人人数据据的营营销人人员或或所有有者的的数目目在增增加。。五五年内内,消消费者者可穿穿戴产产品将将变得得更加加先进进,他他们可可以捕捕捉用用户所所见,,甚至至通过过生物物响应应进行行倾听听或感感知。。31智慧城市保增长长智慧电网智能交通智慧金融智慧通讯食品安全医疗保障水源水质智能楼宇公共安全工作就业政府服务指挥中心保民生生保稳定定---IBM33云计算算-物联网网-大数据据“云”、““物”的核核心是是“大数据据”云计算算—计算/业务模模式物联网网—应用模模式大数据据—财富、、资产产隐隐性货货币34商业模式驱动应用需求驱动3536分析技技术::数据处处理:自然然语言言处理理技术术统计和分析析:A/Btest;topN排行榜榜;地地域占占比;;文本本情感感分析析数据挖挖掘::关联联规则则分析析;分分类;;聚类类模型预预测::预测测模型型;机机器学学习;;建模模仿真真大数据技术::数据采采集:ETL工具数据存取::关系系数据据库;;NoSQL;SQL等基础架构支支持::云存存储;;分布布式文文件系系统等等计算结果展展现::云计计算;;标签签云;;关系系图等等一些相相关技术存储结构化化数据::海量数据的的查询询、统统计、、更新新等操操作效效率低非结构化化数据据图片、视频频、word、pdf、ppt等文件件存储储不利于于检索、、查询询和存储半结构化化数据据转换为结构构化存存储按照非结构构化存存储解决方方案::Hadoop(MapReduce技术))流计算((twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘大数据据大大机会会大大挑战战Bigdata,biganalysisGreatchallenges,mostopportunitiesBigstore,parallelcomputingSafetyismoreimportant……38大数据据带来来的问问题核心技技术人才数据科科学家家工工程师师统计学学人才才((小样样本概概率率统计计)数据挖挖掘人人才((多多变量量统计计)信息资资源保保护意意识的的缺失失造成成的极极大安安全隐隐患—国家安安全大数据据利用用的不不开放放性会会带来来新的垄垄断和和社会会资源源浪费费数据共共享大数据据对思维方方式、、商业业模式式、个个人的影响响大数据据时代代的个人隐隐私394V的再次次解读读Volume---数据的的高效效管理理存存储&压缩Velocity---1s界限数数据的的高效效组织织管理理Variety多样性性组合运运用结结构化化和非非结构构化数数据来来寻找找问题题的答答案,,是成成功进进行预预测分分析的的基础础。但但只有有利用用全部部可用用数据据构建建一幅幅完整整的图图景,,才有有可能能做出出精确确预测测Varacity诚信大数据据时代代成立立的基基本假假定是是“基基本数数据是是准确确、可可靠、、值得得信赖赖的,,来龙龙去脉脉清楚楚,并并且具具有一一致性性40建议和和意见见自然科科学研研究、、环境境保护护、生生物医医药研研究、、教育育以及及国家家安全全等领领域才才是大大数据据技术术突破破的重重点建立数数据生生态系系统政府--引领者者和催催化剂剂科研院院所-机构-企业-政府制定法法律法法规建立开开放数数据共共享平平台((组织织)-数据慈慈善事事业商业模模式-鼓励企企业为为社会会效益益而分分享和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论