大数据 big dataPPT课件_第1页
大数据 big dataPPT课件_第2页
大数据 big dataPPT课件_第3页
大数据 big dataPPT课件_第4页
大数据 big dataPPT课件_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,大数据改变世界,Bigdatachangestheworld,.,2,3月16日消息,汉诺威IT博览会(CeBIT)在德国开幕,阿里巴巴创始人马云在开幕式上作了主题演讲。在演讲中马云表示,未来三十年,因为数据经济,人类社会将会真正进入巨大的变革时代。“未来的世界,我们将不再由石油驱动,而是由数据驱动;生意将是C2B而不是B2C,用户改变企业,而不是企业向用户出售因为我们将有大量的数据;制造商必须个性化,否则他们将非常困难。”马云表示,未来的世界,企业将不再会关注于规模、标准化和权力,只会关注于灵活性,敏捷性,个性化和用户友好。而一家互联网公司要想活得长久,必须找到一个方式让互联网经济和实体经济相结合,这个方式就是数据。,.,3,大数据案例(1)腾讯大数据技术促使腾讯视频成为国内第一(2)T-Mobile大数据帮助移动运营商降低客户流失率(3)TXUEnergy智能电表(4)麦克拉伦一级方程式车队借助大数据技术,降低事故,保驾护航(5)UPS快递大数据技术下的最佳行车路径(6)DPR用大数据设计建筑,未来的世界将不再由石油驱动,而是由数据驱动,.,4,要数据有何用?可穿戴设备必须告诉用户该做什么,.,5,数码设备变得越来越善于收集数据。有些人还就健身追踪器和手机的精度进行讨论,但这其实并不重要。我可以打开iOS中的Health应用,然后查看计步读数,系统甚至还知道我上了登机梯!你甚至可以只通过智能手机来收集这些数据,不久后,这些传感器将无处不在,出现在你的手表、鞋子、衬衫和隐形眼镜中。“健身追踪”将不再以设备形式出现,而会成为一项功能,就像Wi-Fi功能一样。,.,6,对于许多人来说,收集数据就足以促使他们更多地运动或睡更多觉。比如,牛津大学生理神经科学教授RussellFoster称,大多数人认为自己的睡眠质量要比实际睡眠质量差。对于这些人而言,有客观的指标来参考会减轻不少痛苦。但许多用户需要的不仅仅是这些。美国医学会期刊发表的一项引发诸多争议的研究表明,拥有一台健身追踪设备并追踪数据只是迈向更健康生活的一小步,几乎没有用处。这是近一半用户几乎立即停止使用健身追踪设备的原因。这也是Jawbone、Fitbit、微软以及其他厂商推出功能超强设备的原因,为了让用户持续使用。所有这些设备都能收集更多数据,但只有很少设备找到好好利用这些数据的方式。,.,7,有了大数据,零售商的服务模式变天了,想象一下,如果你了解每个顾客所思所想,并在他们踏入店门的那一刻就提供他们所期待的服务,这才是真正的消费创新。更令人欣喜的是,这一天的到来会比我们想象的更快。,.,8,坦克世界的开发商WargamingWest的产品监制和创意总监T.J.Wagner在PAXEast游戏展会表示:“追踪世界各地数百万用户玩一款网络游戏的游戏分数、游戏进程和游戏数据是一件很正经的事情。”,.,9,法国电力公司:基于大数据的运营分析,.,10,芝加哥警方用大数据分析来预防犯罪,从而减少了犯罪事件的发生用数据武装警察,.,11,现在无论国内外均出现了移动医疗热,所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说,90%以上的人都不知道医疗大数据分析是什么东西,因此这是一篇扫盲贴,但是仅供专业人士。文中分析了医疗大数据、它的维度、方法和成本,以及需要的专业人才。本文无论是对创业团队还是投资机构都是非常有指导意义的。,大数据:有助发现癌症阿喀琉斯之踵Duang的一下医疗健康也进入了数据分析时代,.,12,物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。有些例子包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务。,.,13,认识大数据,大数据(bigdata)是这样的数据集合数据量增长速度极快,用常规的数据工具无法在一定的时间内进行采集、处理、存储和计算的数据集合。对于“大数据”研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。,.,14,特点,数据量大(Volume)。第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。类型繁多(Variety)。第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。价值密度低(Value)。第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。速度快时效高(Velocity)。第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。,8bit=1Byte1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB1TB=1,024GB=1,048,576MB1PB=1,024TB=1,048,576GB1EB=1,024PB=1,048,576TB1ZB=1,024EB=1,048,576PB1YB=1,024ZB=1,048,576EB1BB=1,024YB=1,048,576ZB1NB=1,024BB=1,048,576YB1DB=1,024NB=1,048,576BB,.,15,从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。2随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。著云台的分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。,.,16,大数据真的很牛B吗?不不不,分分钟让你读懂它,大数据的概念被吵的越来越厉害,这对于一个新技术领域的诞生是一个必经过程。对于“大数据”(BigData),研究机构Gartner给出的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。两年前,纽约时报撰文“欢迎大数据的到来”,两年后,大数据的商业价值已经显现。在各个行业,我们都已能看到大数据的身影。,.,17,大数据,首先你要能存的下大数据。,传统的文件系统是单机的,不能横跨不同的机器。HDFS(HadoopDistributedFileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。HDFS为你管理这些数据。存的下数据之后,你就开始考虑怎么处理数据,虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。一台机器读取成T上P的数据比如微博要更新24小时热博,它必须在24小时之内跑完这些处理。MapReduce/Tez/Spark的功能。MapReduce是第一代计算引擎,Tez和Spark是第二代,.,18,一个数据仓库的构架。底层HDFS,上面跑MapReduce/Tez/Spark,在上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求。Streaming(流)计算,KVStore,比如Cassandra,HBase,MongoDB,还有一些更特制的系统/组件,比如Mahout是分布式机器学习库,Protobuf是数据交换的编码和库,ZooKeeper是高一致性的分布存取协同系统,你可以认为,大数据生态圈就是一个厨房工具生态圈。为了做不同的菜,中国菜,日本菜,法国菜,你需要各种不同的工具。而且客人的需求正在复杂化,你的厨具不断被发明,也没有一个万用的厨具可以处理所有情况,因此它会变的越来越复杂。,.,19,大数据的陷阱,.,20,这几年,大数据(bigdata)的“出镜率”颇高。连带着,“数据科学家”(datascientist)成为了新的高薪一族。人气、财气的提升也带动了士气,有人开始高估大数据的神通,仿佛只要积累了足够多数据,请“数据科学家”们坐在电脑前就像福尔摩斯坐在太师椅上敲一通键盘,各种问题就都能迎刃而解。大数据真有如此神通吗?回顾一段小历史对我们也许不无启示。那是在1936年,美国共和党人艾尔弗兰登(AlfredLandon)与民主党人富兰克林罗斯福(FranklinD.Roosevelt)竞选总统。当时很有影响力的文摘杂志(TheLiteraryDigest)决定搞一次超大规模的民意调查,调查人数高达1,000万,约为当时选民总数的1/4,最终收到的回复约有240万份,对于民意调查来说可谓是“大数据”事实上,哪怕在今天,一些全国性民意调查的调查对象也只有几千。通过对这组“大数据”的分析,文摘杂志预测兰登将以55%比41%的显著优势获胜。但不久后揭晓的真正结果却是罗斯福以61%比37%的优势大胜。文摘杂志的“大数据”遭到了惨败。当然,那是陈年旧事了。区区240万份回复作为民意调查是超大规模的,从数据角度讲,以今天的标准来衡量却实在小得可怜。不过,今天的“大”在几十年后也未必不会如昔日的“小”一样可怜。那段小历史的真正启示在于:数据已大到了统计误差可以忽略的地步,结果却错得离谱。这种类型的错误对于大数据是一种警示。,.,21,现在让我们回到当代。2008年8月,大数据“成功偶像”之一的谷歌(Google)公司领衔在自然(Nature)杂志上发表论文,推介了一个如今被称为“谷歌流感趋势”(GoogleFluTrends)的系统。这一系统能利用互联网上有关流感的搜索的数量和分布来估计各地区流感类疾病的患者数目。谷歌表示,这一系统给出的估计不仅比美国疾病控制与预防中心(CentersforDiseaseControlandPrevention简称CDC)的数据更快速,而且还有“不依赖于理论”(theory-free)的特点。但是,这个一度引起轰动的系统经过几年的运行后,却引人注目地演示了大数据可能带来的陷阱。2013年2月,自然杂志资深记者巴特勒(DeclanButler)发表了一篇题为“当谷歌弄错了流感”(WhenGooglegotfluwrong)的文章,指出“谷歌流感趋势”对2012年底美国流感类疾病患者数目的估计比美国疾病控制与预防中心给出的数据高了约一倍。不仅如此,“谷歌流感趋势”在2008-2009年间对瑞士、德国、比利时等国的流感类疾病患者数目的估计也都失过准。大数据在这些例子中为什么会失败呢?人们很快找到了原因。比如文摘杂志对1936美国总统竞选预测的失败,是因为该杂志的调查对象是从汽车注册资料及电话簿中选取的,而汽车及电话在当时的美国尚未普及,使得由此选出的调查对象缺乏代表性。而谷歌对2012年底美国流感类疾病患者数目的估计失败,则是因为媒体对那段时间的美国流感类疾病作了渲染,使得很多非患者也进行了有关流感的搜索,从而干扰了“谷歌流感趋势”的估计。在统计学中,这被称为系统误差(systematicerror),只

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论