版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.大数据时代的思维变革1.大数据时代的思维变革——更好“更好”——不是因果关系,而是相关关系知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。关联物,预测的关键“是什么”,而不是“为什么”改变,从操作方式开始大数据,改变人类探索世界的方法1997年,24岁的格雷格·林登(Greg
Linden)在华盛顿大学就读博士,研究人工智能,闲暇之余,他会在网上卖书。他的网店运营才两年就已经生意兴隆。林登被亚马逊聘为软件工程师,以确保网站的正常运行。詹姆斯·马库斯(James
arcus)回忆说:“推荐信息往往为你提供与你以前购买物品有微小差异的产品,并且循环往复。”詹姆斯·马库斯从1996年到2001年都是亚马逊的书评家,在他的回忆录《亚马逊》(Amazonia)里,他说道:“那种感觉就像你和一群脑残在一起逛书店。”据说亚马逊销售额的三分之一都是来自于它的个性化推荐系统。林登与亚马逊推荐系统1997年,林登,亚马逊,推荐书籍1998年“item-to-item”协同过滤技术书评团队被解散评论家所创造的销售业绩计算机生成内容所产生的销售业绩海明威作品与菲茨杰拉德的书知道是什么就够了,没必要知道为什么
据说亚马逊销售额的三分之一都是来自于它的个性化推荐系统。在大数据时代之前,相关关系的应用很少。因为数据很少而且收集数据很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣。那么,如何寻找这个关联物呢?除了仅仅依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。这些理论就是一些抽象的观点,关于事物是怎样运作的。然后收集与关联物相关的数据来进行相关关系分析,以证明这个关联物是否真的合适。如果不合适,人们通常会固执地再次尝试,因为担心可能是数据收集的错误,而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的。这种对假想的反复试验促进了学科的发展。但是这种发展非常缓慢,因为个人以及团体的偏见会蒙蔽我们的双眼,导致我们在设立假想、应用假想和选择关联物的过程中犯错误。总之,这是一个烦琐的过程,只适用于小数据时代。关联物,预测的关键
相关关系:相关关系的核心是量化两个数据值之间的数理关系。强和弱
通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。实例:沃尔玛——蛋挞与飓风生活中的相关关系身高与前臂的长度小数据时代的相关关系大数据时代的相关关系–谷歌流感预测:5亿个数学模型建立在相关关系分析法基础上的预测是大数据的核心。数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。实例FICO提出“遵从医嘱评分”一系列变量→是否按时吃药益百利预测个人收入信用卡交易记录→预测个人收入1$证明一个人的收入状况10$中英人寿保险公司申请人的健康隐患信用报告、市场分析报告→高血压、糖尿病和抑郁症5$血液尿液样本130$美国折扣零售商塔吉特怀孕预测UPS与汽车修理预测UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,这样就能及时地进行防御性的修理。如果车在路上抛锚损失会非常大,因为那样就需要再派一辆车,会造成延误和再装载的负担,并消耗大量的人力物力,所以以前UPS每两三年就会对车辆的零件进行定时更换。但这种方法不太有效,因为有的零件并没有什么毛病就被换掉了。通过监测车辆的各个部位,UPS如今只需要更换需要更换的零件,从而节省了好几百万美元。有一次,监测系统甚至帮助UPS发现了一个新车的一个零件有问题,因此免除了可能会造成的困扰。预测分析法一个能发现可能的流行歌曲的算法系统防止机器失效和建筑倒塌异常情况与正常情况
通过找出一个关联物并监控它,我们就能预测未来。实例:UPS与汽车维修预测–2000年,60000辆收集和分析数据的花费比出现停产的损失小得多。
当收集、存储和分析数据的成本较高的时候,应该适当地丢弃一些数据。医疗设备获取病人的数据安大略理工大学IBM医院卡罗琳·麦格雷戈检测处理即时的病人信息早产儿病情诊断16个数据点1260/秒在明显感染症状出现的24小时之前,可发现早产儿的稳定是病情感染前的准备..幸福的非线性关系多年来,经济学家和政治家一直错误地认为收入水平和幸福感是成正比的。我们从数据图表上可以看到,虽然统计工具呈现的是一种线性关系,但事实上,它们之间存在一种更复杂的动态关系:对于收入水平在1万美元以下的人来说,一旦收入增
加,幸福感会随之提升;但对于收入水平在1万美元以上的人来说,幸福感并不会随着收入水平提高而提升。如果能发现这层关系,我们看到的就应该是一条曲线,而不是统计工具分析出来的直线。当我们说人类是通过因果关系了解世界时,我们指的是我们在理解和解释世界各种现象时使用的两种基本方法:一种是通过快速、虚幻的因果关系,还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界时所扮演的角色。是什么,而不是为什么
在小数据时代,相关关系分析和因果分析都不容易,都耗费巨大,都要从建立假设开始。非线性关系小数据时代,计算机能力的不足限制了非线性关系的研究实例:幸福的非线性关系因果关系是否存在不费力的快速思维费力的慢性思维实例:感冒、狂犬疫苗
我们的直接愿望就是了解因果关系。即使无因果联系存在,我们也还是会假定其存在。
研究证明,这只是我们的认知方式,与每个人的文化背景、生长环境以及教育水平是无关的。当我们看到两件事情接连发生的时候,我们会习惯性地从因果关系的角度来看待它们。看看下面的三句话:–弗雷德的父母迟到了;供应商快到了;弗雷德生气了。……弗雷德为什么生气?
快速思维模式使人们偏向用因果联系来看待周围的一切,即使这种关系并不存在。–冬天不戴帽子和感冒事实证明,一般来说,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效,这也只适用于七分之一的案例中。无论如何,就算没有狂犬疫苗,这个小男孩活下来的概率还是有85%。狂犬疫苗这个例子来说,1885年7月6日,法国化学家路易·巴斯德(Louis
Pasteur)接诊了一个9岁的小孩约瑟夫·梅斯特(Joseph
Meister),他被带有狂犬病
毒的狗咬了。巴斯德刚刚研发出狂犬疫苗,也实验验证过效果了。梅斯特的父母就恳求巴斯德给他们的儿子注射一针。巴斯德做了,梅斯特活了下来。发布会上,巴斯德因为把一个小男孩从死神手中救出而大受褒奖。一般来说,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。例如,Kaggle,一家为所有人提供数据挖掘竞赛平台的公司,举办了关于二手车的质量竞赛。二手车经销商将二手车数据提供给参加比赛的统计学家,统计学家们用这些数据建立一个算法系统来预测经销商拍卖的哪些车有可能出现质量问题。相关关系分析表明,橙色的车有质量问题的可能性只有其他车的一半。当我们读到这里的时候,不禁也会思考其中的原因。难道是因为橙色车的车主更爱车,所以车被保护得更好吗?或是这种颜色的车子在制造方面更精良些吗?还是因为橙色的车更显眼、出车祸的概率更小,所以转手的时候,各方面的性能保持得更好?马上,我们就陷入了各种各样谜一样的假设中。若要找出相关关系,我们可以用数学方法,但如果是因果关系的话,这却是行不通的。所以,我们没必要一定要找出相关关系背后的原因,当我们知道了“是什么”的时候,“为什么”其实没那么重要了,否则就会催生一些滑稽的想法。比方说上面提到的例子里,我们是不是应该建议车主把车漆成橙色呢?毕竟,这样就说明车子的质量更过硬啊!相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都是很清晰的。而我们一旦把因果关系考虑进去,这些视角就有可能被蒙蔽掉。–实例:kaggle二手车质量竞赛橙色的车
因果是相关关系的一种。相关关系分析通常情况下能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。–实例:曼哈顿沙井盖的爆炸联合爱迪生电力公司(Con
Edison)每年都会对沙井盖进行常规检查和维修。过去,这完全看运气,如果工作人员检查到的正好是即将爆炸的就最好了,因为沙井盖爆炸威力可不小。2007年,联合爱迪生电力公司向哥伦比亚大学的统计学家求助,希望他们通过对一些历史数据的研究,比如说通过研究以前出现过的问题、基础设施之间的联系,进而预测出可能会出现问题并且需要维修的沙井盖。如此一来,它们就只要把自己的人力物力集中在维修这些沙井盖上。这是一个复杂的大数据问题。光在纽约,地下电缆就有15万公里,都足够环绕地球三周半了。而曼哈顿有大约51000个沙井盖和服务设施,其中很多设施都是在爱迪生那个时代建成的,而且有二十分之一的电缆在1930年之前就铺好了。尽管1880以来的数据都保存着,却很杂乱,因为从没想过要用来进行数据分析。这些数据都是由会计人员或进行整修的工作人员记录下来的,因为是手记,所以说这些数据杂乱一点也不为过。改变,从操作开始实例:曼哈顿沙井盖爆炸–每年,因沙井盖内部失火,纽约每年有很多沙井盖会发生爆炸。
联合爱迪生电力公司(ConEdison)每年都会对沙井盖进行常规检查和维修。
2007年,联合爱迪生电力公司向哥伦比亚大学的统计学家求助,希望他们通过对一些历史数据的研究,预测出可能会出现问题并且需要维修的沙井盖。联合爱迪生电力公司(Con
Edison)每年都会对沙井盖进行常规检查和维修。过去,这完全看运气,如果工作人员检查到的正好是即将爆炸的就最好了,因为沙井盖爆炸威力可不小。2007年,联合爱迪生电力公司向哥伦比亚大学的统计学家求助,希望他们通过对一些历史数据的研究,比如说通过研究以前出现过的问题、基础设施之间的联系,进而预测出可能会出现问题并且需要维修的沙井盖。如此一来,它们就只要把自己的人力物力集中在维修这些沙井盖上。这是一个复杂的大数据问题。光在纽约,地下电缆就有15万公里,都足够环绕地球三周半了。而曼哈顿有大约51000个沙井盖和服务设施,其中很多设施都是在爱迪生那个时代建成的,而且有二十分之一的电缆在1930年之前就铺好了。尽管1880以来的数据都保存着,却很杂乱,因为从没想过要用来进行数据分析。这些数据都是由会计人员或进行整修的工作人员记录下来的,因为是手记,所以说这些数据杂乱一点也不为过。改变,从操作开始这是一个复杂的大数据问题。仅纽约,地下电缆就有15万公里;曼哈顿有大约51000个沙井盖和服务设施,很多设施都是在爱迪生那个时代建成的有二十分之一的电缆在1930年之前就铺好了。1880以来的数据都保存着,却很杂乱,联合爱迪生电力公司(Con
Edison)每年都会对沙井盖进行常规检查和维修。过去,这完全看运气,如果工作人员检查到的正好是即将爆炸的就最好了,因为沙井盖爆炸威力可不小。2007年,联合爱迪生电力公司向哥伦比亚大学的统计学家求助,希望他们通过对一些历史数据的研究,比如说通过研究以前出现过的问题、基础设施之间的联系,进而预测出可能会出现问题并且需要维修的沙井盖。如此一来,它们就只要把自己的人力物力集中在维修这些沙井盖上。这是一个复杂的大数据问题。光在纽约,地下电缆就有15万公里,都足够环绕地球三周半了。而曼哈顿有大约51000个沙井盖和服务设施,其中很多设施都是在爱迪生那个时代建成的,而且有二十分之一的电缆在1930年之前就铺好了。尽管1880以来的数据都保存着,却很杂乱,因为从没想过要用来进行数据分析。这些数据都是由会计人员或进行整修的工作人员记录下来的,因为是手记,所以说这些数据杂乱一点也不为过。改变,从操作开始这是一个复杂的大数据问题。仅纽约,地下电缆就有15万公里;曼哈顿有大约51000个沙井盖和服务设施,很多设施都是在爱迪生那个时代建成的有二十分之一的电缆在1930年之前就铺好了。1880以来的数据都保存着,却很杂乱,负责这个项目的统计学家辛西亚·鲁丁(Cynthia
Rudin)回忆道:乍看这些数据的时候,我们从未想过能从这些未经处理的数据中找出想要的信息。我打印了一个关于所有电缆的表格。如果把这个表格卷起来的话,除非你在地上拖,不然你绝对提不起它来。而我们需要处理的就是这么多没有处理过的数据。只有理解了这些数据,才能从中淘金,并倾己所有创建一个好的预测模型。
负责这个项目的统计学家辛西亚·鲁丁(CynthiaRudin)将杂乱的数据整理好给机器处理发现了大型沙井盖爆炸的106种预警情况。在布朗克斯(Bronx)的电网测试中,他们对2008年中期之前的数据都进行了分析,并利用这些数据预测了2009年会出现问题的沙井盖。
预测效果非常好,在他们列出的前10%的高危沙井盖名单里,有44%的沙井盖都发生了严重的事故。
最重要的因素是这些电缆的使用年限和有没有出现过问题。2008年,《连线》杂志主编克里斯·安德森(Chris
Anderson)就指出:“数据爆炸使得科学的研究方法都落伍了。”后来,他又在《拍字节时代》(The
Petabyte
Age)的封面故事中讲到,大量的数据从某种程度上意味着“理论的终结”。安德森也表示,用一系列的因果关系来验证各种猜想的传统研究范式已经不实用了,如今它已经被无需理论指导的纯粹的相关关系研究所取代。大数据,改变人类探索世界的方法大量的数据从某种程度上意味着“理论的终结”。——2008年,《连线》主编克里斯·安德森大数据是在理论的基础上形成的。理论贯穿于大数据的整个过程。–数据的收集、分析、结果解读接下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2教案革新:2024年《植物生理学》教学方法论
- 第45届世界技能大赛数控铣项目全国选拔赛技术工作文件
- 2024版《工程制图》教案:案例分析与教学设计
- 2024年大学生就业趋势分析
- 2024年教育信息化:《拿来主义》课件在智能教学中的应用
- 2024年我国DRGs政策解读与展望
- 《老王和他的2024》:科技创新应用案例
- 2024国考常识判断真题附参考答案(a卷)
- 2024年教育课件发展:《打瞌睡的房子》新解读
- 2专业AutoCAD教学教案2024版:培养未来工程师的关键技能
- 2024年宏观经济发展情况分析报告
- 摄影入门课程-摄影基础与技巧全面解析
- 251直线与圆的位置关系(第1课时)(导学案)(原卷版)
- XX有限公司人员分流方案
- 大语言模型赋能自动化测试实践、挑战与展望-复旦大学(董震)
- 期中模拟检测(1-3单元)2024-2025学年度第一学期西师大版二年级数学
- 追觅科技在线测评逻辑题
- 2025年广东省高中学业水平考试春季高考数学试题(含答案解析)
- 2024年重庆市渝北区数据谷八中小升初数学试卷
- 凝中国心铸中华魂铸牢中华民族共同体意识-小学民族团结爱国主题班会课件
- 2024年AI大模型场景探索及产业应用调研报告-前瞻
评论
0/150
提交评论