大数据思维与决策范文慧_第1页
大数据思维与决策范文慧_第2页
大数据思维与决策范文慧_第3页
大数据思维与决策范文慧_第4页
大数据思维与决策范文慧_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

范文慧清华大学自动化系大数据思维与决策个人简介清华大学自动化系教授/博导中国仿真学会副理事长中国仿真学会组织工作委员会主任委员中国仿真学会复杂系统建模与仿真专业委员会主任委员中国仿真学会仿真技术应用专业委员会副主任委员中国仿真学会仿真科普与教育工作委员会副主任委员中国自动化学会系统仿真专业委员会副主任委员北京市复杂产品先进制造系统工程技术研究中心专家委委员中国标准化研究院科学技术专家委委员中国智慧城市发展研究中心西北分中心(克拉玛依)特邀研究员联系方式:地址:北京市海淀区清华大学中央主楼601室邮编:100084

电话:;手机:;传真:提纲一、大数据时代二、大数据内涵三、大数据思维四、大数据技术五、结束语大数据订外卖披萨的案例一、大数据时代请看视频01-3分钟41、数据定义一、大数据时代5宇宙构成的元素:物质、能量、信息2、信息革命一、大数据时代63、能源革命一、大数据时代7杰里米·里夫金新的通信技术(ICT)和新的能源系统结合将再次出现——互联网技术和可再生能源融合美国华盛顿特区经济趋势基金会总裁,享有国际声誉的社会批评家和畅销书作家一、大数据时代4、数据爆炸(1)8一、大数据时代94、数据爆炸(2)最早提出“大数据时代”到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。

《纽约时报》2012年2月的一篇专栏中称“大数据时代”已经降临,在商业、经济及其他领域中决策将日益基于数据和分析而作出而并非基于经验和直觉。一、大数据时代5、大数据时代(1)2012年3月奥巴马政府发布了“大数据研究和发展倡议”拟投资2亿美元启动“大数据发展计划”以期在科学研究、环境、生物医学等领域利用大数据技术进行突破。2012年5月联合国发表《大数据促发展挑战与机遇》政务白皮书,指出大数据对于世界各国是一个历史机遇,探讨如何利用包括社交网络在内的大数据资源造福人类。102014年10月29日,国务院院常务务会议议特别强强调了了要扩扩大移移动互互联网网、物物联网网等信信息消消费,,提升升宽带带速度度,支支持网网购发发展和和农村村电商商配送送。加加快健健康医医疗、、企业业监管管等大数据据应用用。2015年的《政府工工作报报告》也强调调,要要制定定“互联网网+”行动计计划,,推动动移动动互联联网、、云计算算、大大数据据、物联网网等与与现代代制造造业结结合,,促进进电子子商务务、工工业互互联网网和互互联网网金融融健康康发展展。一、大大数据据时代代5、大数据据时代代(2)11如果一一个个人拒绝大数数据时时代,,可能能会失失去生生命;如果一一个国家拒绝大数数据时时代,可可能会会失去这个个国家家的未未来!一、大大数据据时代代6、小结结12无论论你你知知道道与与不不知知道道,,无无论论你你接接受受与与不不接接受受大数数据据时时代代已已经经来来临临!!1、大大数数据据的的定定义义二、、什什么么是是大大数数据据麦肯锡锡全全球球研研究究所所::一种种规规模模大大到到在在获获取取、、存存储储、、管管理理、、分分析析方方面面大大大大超出出了了传传统统数数据据库库软软件件工工具具能能力力范范围围的的数数据据集集合合。Gartner定义义::是需需要要新新处处理理模模式式才才能能具具有有更更强强的的决决策策力力、、洞洞察察发发现现力力和和流流程程优优化化能能力力的的海量量、、高高增增长长率率和和多多样样化化的的信信息息资资产1Byte=8bit进率1024(2的10次方)计计算Mega[兆]M.10^03Giga[吉]G.10^06Tera[太]T.10^09Peta[拍]P.10^12Exa[艾]E.10^15Zetta[泽]Z.10^18Yotta[尧]Y.10^21进制制单单位位全全称称及及译译音音13©涂子沛沛《《数数据据之之巅巅》》《《大大数数据据》2、大大数数据据的的特征征二、、什什么么是是大大数数据据Volume大量量14Velocity高速6000万用户户登登录录/天20亿次次页面面访访问问/天每天天1.2亿次次网站站访访问问响响应应时时间间小小于于100毫秒秒由于于输输入入速速度度加加快快,,所所以以要要求求输输出出速速度度也也要要加加快大数据据的的惊惊人人不不止止是是在在数数量量上上,,同同时时数数据据还还是是巨巨量量具具有有动态态分分析析价价值值的数数据据。访问响应应时时间间的的加加快快,数数据据库库读读写写速速度度的的加加快快,,对对电电商商企企业业来来说说就就等等于于多多成成交交。。对于很很多多情情况况下下,,动态态的的数数据据价价值值远大大于于静静态态数数据据,,比比如如气气象象预预测测,,灾灾难难预预测测,,快销行业业等。。2、大大数数据据的的特征征二、、什什么么是是大大数数据据152、大大数数据据的的特征征二、、什什么么是是大大数数据据16Veracity真实数据的重要性性就在于对决决策的支持;数据的真实性和和质量才是获得真知知和思路最重重要的因素,,是制定成功功决策最坚实实的基础;准确源自于对全全部数据的处处理分析;大数据的核心心思想之一。2、大数据的特征二、什么是大大数据17大数据能做一一个预言家谷歌和推特都曾曾用大数据,,提前7天到一个月,,在2009年准确预测当当年的流感趋趋势一小时的视频频,在不间断断的监控过程程中,可能有有用的数据仅仅仅只有一两两秒大数据分析犹如如“大海捞针针”Value价值2、大数据的特征二、什么是大大数据182、大数据的特征二、什么是大大数据5V规模性(Volume)价值性(Value)真实性(Veracity)高速性(Velocity)多样性(Variety)193、大数据的应用用(1)二、什么是大大数据2021丹麦风轮机制造商商维斯塔斯,,在世界上最最大的超级计计算机上部署署IBM大数据解决方案,通通过分析包括括PB量级气象报告、潮潮汐相位、地地理空间、卫卫星图像等结构化及非结结构化的海量量数据优化风力涡轮轮机布局,有有效提高风力力涡轮机的性性能,为客户提供供精确和优化化的风力涡轮轮机配置方案案;帮助客户降低每千瓦时的成本;提高客户投资回报报估计的准确度;将业务用户请请求的响应时间从几星期缩短到几小时。3、大数据的应用用(2)二、什么是大大数据电力大数据22数据即能量((Energy):电力大数据使使用过程中不不断精炼而增增值数据即交互((Exchange):电力数据同行行业外数据的的交互融合数据即共情((Empathy):挖掘和满足电电力用户,建建立情感联系系,提供电力力服务3、大数据的应用用(3)二、什么是大大数据3、大数据的应用用(3)二、什么是大大数据23电力大数据5、大数据的好处二、什么是大大数据请看视频03-15分钟24肯尼斯·库克耶给我们展现了由由大数据给机机器学习和人人类知识带来来的翻天覆地地的变化。我们可以从我们能收集的信息中中来了解这个世界界以及人类在这个世界中中所处的地位。大数据即将改改变我们的生活、工作和和思考方式,可以帮助我们管理理事业、过想要的充满希望幸福和健健康的生活大数据核心是预测什么大数据思维三、大数据思思维大数据思维,是是指一种意识识,认为公开开的数据一旦旦处理得当就就能为千百万万人急需解决的问题提供答案。251、不是随机样本,,而是全体数数据三、大数据思思维©《大数据时代》26小数据的随机机采样,统计学用尽可可能少的数据据来证实尽可可能重大的发发现;统计学本身存存在许多固有有的缺陷。全数据模式,,样本=总体数据深度探讨讨,抽样几乎乎无法;用所有数据,,抽样会淹没没掉的信息;;所有数据的方方法,非随机机分析法。诺贝尔奖自1901年创办至2016年共110届的诺贝尔数数据,排除48次空缺或无生生辰资料及23个机构获奖外外,提供了877份科学家的案案例,统计如下:三、大数据思思维大数据诺贝尔奖案例27三、大数据思思维大数据诺贝尔奖案例诺贝尔奖大数数据告诉你::最聪明的星星座是谁?28腾讯科技讯2月8日,猴年除夕红包:红包收发总量::微信80.8亿个;QQ:42亿个,双双创下下历史新高。微信:共有4.2亿人收发红包,QQ:在“刷一刷”抢抢红包中吸引3.08亿人。微信,广东人发送的红包最最多,收到的的也最多;除夕当天,有人收收到5279个红包,也有人人发出79193个红包。“年度最值钱””的红包照片片,共收到597个红包;来自河南的的29岁女性用户,为了看看照片共发出出了219个红包,当日最多。。三、大数据思思维大数据红包案案例29允许不精确“小数据”最基本、最重要要的是减少错误,保保证质量;大数据的简单算算法比小数据据的复杂算法法更有效数据多比少好,,更多数据比比算法系统更更智能还要重重要;2、不是精确性性,而是是混杂性三、大数数据思维维谷歌翻译好不是因为为它拥有有一个更更好的算算法机制,利用成千上上万数据据,它接接受了有有错误的的数据。。©《大数据时时代》30纷繁的数数据越多多越好大数据用概率说话话,要学会拥抱抱混乱。。掌握了大大量新型型数据时时,精确确性就不不那么重重要;错误并不不是大数数据固有有的特性性,而是是现实问问题。大数据与葡萄萄酒品质质预测三、大数数据思维维小数据专专家(直直觉与经经验)::罗伯特·帕克使用传统的的“品咂咂并吐掉掉”的方方法。葡萄酒在在装瓶之之前盛放放在橡木木桶里发发酵18-24个月,评酒家家在4个月后才才能第一一次品尝尝,很难得出酒品品质的准准确信息息。大数据专专家:奥利·阿什菲尔尔特在品酒师师第一次次尝酒的的数月之前前,是在卖卖出的数年之前,葡萄收获时就能预测测出葡萄萄酒的未来品质。奥利预测::1989年法国波尔多酒酒(仅仅在木桶放了了3个月)将成为“世纪佳佳酿”;如果1961年评级为为100,那么1989年将会达达到149;“1989年能够卖出35年中所生产的的葡萄酒的最最高价”事实证明,奥奥利是对的。©《大数据思维与与实践》31正确的观点不一定定总是受欢迎迎的!大数据与葡萄酒品品质预测遭到讥讽和鄙视视:“这个公式显然然是可笑的,,我们无法重重视它”“介入极端和滑滑稽可笑之间间”“一个彻头彻尾尾的骗子”“其实是在用尼安德特人的思维来看待待葡萄酒,这这是非常荒谬谬甚至非常可可笑的”“如果他邀请我我去他家喝酒酒,我会感到到恶心”“就像某些影评评一样,根据据演员和导演演来告诉你电电影有多好,,实际上却从从来没有看过过那部电影”“愚蠢可笑”“既愤怒又恐惧惧,他确实让让人感到恐慌慌。”当他在酒行演讲讲时,后面嘘嘘声一片三、大数据思思维©《大数据思维与与实践》32大数据与葡萄酒品品质预测根据1952年~1980年期间6家波尔多名庄((白马、拉图图、拉菲、爱爱士图尔、蒙蒙特罗斯、碧碧尚女爵)10个年份的60款葡萄酒在1990年~1999年期间的伦敦敦市场拍卖价价格曲线,推导出一条葡葡萄酒价格公公式:超级大数据分分析的崛起,,并不意味着直觉觉判断的消亡亡,也不是说工工作中累计的的经验不重要要。最优秀、、最聪明的人人对于运用统统计与直觉都都游刃有余。。葡萄酒价格被被解释变量=0.0240AGE(酒龄)+0.608TEMP(葡萄生长期期平均气温)-0.0038RAIN(8月至9月的降水量))+0.00115WRAIN(上年10月至本年3月的降水量))三、大数据思维©《大数据思维与与实践》33“是什么”而不是“为为什么”相关关系核心是量化两个个数据值之间间的数理关系相关关系通过识识别有用的关联物来帮助我们分分析一个现象,捕捉现在和预测测未来;而不是揭示其内部的运运作机制相关关系帮助助更好地了解解这个世界3、不是因果关系,,而是相关关关系三、大数据思思维©《大数据时代》34人类通过因果果关系与相关关关系分析而而了解世界在小数据中,相相关关系也是是有用的大数据折扣零零售商与怀孕孕预测案例三、大数据思思维美国折扣零售售商塔吉特与与怀孕预测©《大数据时代》35大数据流感传播预预测案例5000万条美国人最频频繁检索的词条4.5亿个不同的数学学模型与实际流感病病例对比后,,软件发现45条检索词条的的组合用于一个特定的的数学模型后后,预测与官方数据据的相关性高达97%唯一关注:特定检索词条的的使用频率与与流感在时间间和空间上的的传播之间的的联系。©大数据时代-一场生活、工工作与思维的的大变革36小数据专家((直觉与经验验)专家:流感爆发一两两周之后才可可以做到。大数据专家::谷歌公司在2009年甲型H1N1流感爆发的几几周前,预测测流感是从哪哪里传播出来来的,判断非非常及时。三、大数据思思维大数据与机票价格格预测建立在12000个价格样本基基础之上,而而这些数据都都是从一个旅旅游网站上爬爬取过来的到2012年为为止止,,用了将将近近十万万亿亿条价价格格记记录录来来帮帮助助预预测测美美国国国国内内航航班班的的票票价,,准准确度度已已经经高高达75%,平平均每每张机机票可可节节省省50美元不需需要要去解开机机票票价格格差差异异的的奥奥秘秘,只推推测测会会发发生生什什么么,未未来来时时间间内内上上涨涨还还是是下下降世界就就是是一一系系列列的的大大数数据据问问题题,,而而且且他他认认为为自自己己有有能能力力解解决决这这些些问问题37小数数据据专专家家((直直觉觉与与经经验验))::无法法完完成成大数数据据专专家家::埃齐齐奥奥尼尼,,2003年创创立立机机票票价价格格预预测测系系统统Farecast,微微软软公公司司以以1.1亿美元元收收购购三、、大大数数据据思思维维4、小小结结三、、大大数数据据思思维维大数数据据的的精精髓髓在在于三个思维维转变(认识世界界与改造世世界的方法法)第一个转变:分析样本=>分析全集第二个转变:追求精确=>接受混杂第三个转变:寻寻找因果=>探求相关©《大数据时代代》3839ETL(Extract-Transform-Load)数据众包CrowdSouring结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理MapReduceR语言关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间序列分析回归分析系统仿真机器学习社会网络分析标签云TagCloud聚类图Clustergram空间信息流Spatialinformationflow热图(Heatmap)四、大数据据技术1、大数据技技术40四、大数据据技术2、大数据工工具41四、大数据据技术2、大数据工工具AutoGrid——由前斯坦福福大学智能能电网研究究室负责人人AmitNarayan创创办的服务务于电力、、能源行业业的大数据据公司。通过建立能源源数据平台台,收集并并处理其客客户接入智智能电网的的智能仪表表等设备的的数据,面面向其客户户或合作方方提供需求求响应优化化及管理系系统,实现现实时资源预测、、资源优化化、自动需需求响应、、客户通知知引擎和事事后分析等等功能。单个DROMS集群群每天可以以产生数以亿计的能能源消费的的预测数据据。42四、大数据据技术3、能源大数数据软件平平台Opower——Opower公司是于于2007年创办的的一家家庭庭能源数据据分析公司司。Opower与与电力公司司合作,抢抢占家庭消消费者“入入口”,获获取家庭消消费者的能能源使用数数据,进行消费者用用电行为分析析,并为其提供供节能减耗的的方案,推动动节能的互联联网应用。433、能源大数据据软件平台四、大数据技技术法国电力公司(EDF)基基于大数据的的分析预测:目前全法已经安安装3500万智能电表表,电表产生生的数据量将将在5-10年内达到PB级。智能电表采集集的主要是个个体家庭的用用电负荷数据据。以每个电电表每10分钟抄表表1次计算,3500万智智能电表每年年产生1.8万亿次次抄表记录和600TB压缩前数据;3500万智智能电表每天天产生5亿次抄表记录和大大约2TB的抄表数据。这些电表数据,,结合气象数数据、用电合合同信息及电电网数据,构构成了法国电电力的大数据,用于生成用户用电负荷荷曲线及其关关联数据。443、能源大数据据软件平台四、大数据技技术C3IoTPlatformPoweringData:电网实时监测和和即时数据分分析453、能源大数据据软件平台四、大数据技技术Acompleteplatform-as-a-servicesolutionthatenablestherapiddesign,development,deployment,andoperationofenterprise-scalesoftwareapplicationsWithanelasticcloud,distributed-computingarchitecturecapableofhandlingdatasetsgrowingbyhundredsofTerabytesperdayandmillionsofMessagespersecond,theplatformhas70millionsmartdevicesandsensorsundermanagementatmorethan20productiondeploymentsworldwide数据就像一一个神奇的钻石矿,当它的首首要价值被被发掘后仍仍能不断给给予。它的的真实价值就就像漂浮在海洋中中的冰山,第一眼只只能看到冰冰山的一角角,而绝大大部分都隐隐藏在表面面之下。一旦世界被数数据化,只有想不到的,没有信息做不不到的数据“无所不有”五、结束语语我的思考46数据“无所不说”第一个转变:分析样本=>分析全集;不拒绝样本本第二个转变:追求精确=>接受混杂;;不丢弃精确确第三个转变:寻寻找因果=>探求相关;不否定因果果五、结束语语我的思考47像望远镜,让我们能够感感受宇宙;像显微镜,让我们能够观测微生物;正在改变我们们的生活以以及理解世世界的方式!大数据未来(有人人说):所所有的公司司都是大数数据公司::所有产业业要么数字字化、要么么不存在五、结束语语我的思考数据“无所不在”数据奥妙只只为谦逊、、愿意聆听听且掌握聆聆听手段的的人所知!!48行业业和和技术术专专家家的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论