




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1. 大数据时代的思维变革 1. 大数据时代的思维变革更好 “更好”不是因果关系,而是相关关系 知道“是什么”就够了,没必要知道“为什么”。在 大数据时代,我们不必非得知道现象背后的原因,而是要 让数据自己“发声”。 关联物,预测的关键 “是什么”,而不是“为什么” 改变,从操作方式开始 大数据,改变人类探索世界的方法 林登与亚马逊推荐系统 1997年,林登,亚马逊,推荐书籍 1998年 “item-to-item”协同过滤技术 书评团队被解散 评论家所创造的销售业绩 计算机生成内容所产生的销售业绩 海明威作品与菲茨杰拉德的书 知道是什么就够了,没必要知道为什么 据说亚马逊销售额的三分之一都是来自于 它的个性化推荐系统。 关联物,预测的关键 相关关系:相关关系的核心是量化两个数据值之 间的数理关系。 强和弱 通过给我们找到一个现象的良好的关联物,相关 关系可以帮助我们捕捉现在和预测未来。 实例:沃尔玛蛋挞与飓风 生活中的相关关系 身高与前臂的长度 小数据时代的相关关系 大数据时代的相关关系 谷歌流感预测:5亿个数学模型 建立在相关关系分析法基础上的预测是 大数据的核心。 数据驱动的关于大数据的相关关系分析 法,取代了基于假想的易出错的方法。大 数据的相关关系分析法更准确、更快,而 且不易受偏见的影响。 实例 FICO提出“遵从医嘱评分” 一系列变量是否按时吃药 益百利 预测个人收入 信用卡交易记录预测个人收入 1$ 证明一个人的收入状况 10$ 中英人寿保险公司 申请人的健康隐患 信用报告、市场分析报告高血压、糖尿病和抑 郁症 5$ 血液尿液样本 130$ 美国折扣零售商塔吉特 怀孕预测 预测分析法 一个能发现可能的流行歌曲的算法系统 防止机器失效和建筑倒塌 异常情况与正常情况 通过找出一个关联物并监控它,我们就能 预测未来。 实例:UPS与汽车维修预测 2000年,60000辆 收集和分析数据的花费比出现停产的损 失小得多。 当收集、存储和分析数据的成本较高的时 候,应该适当地丢弃一些数据。 医疗设备获取病人的数据 安大略理工大学 IBM 医院 卡罗琳麦格雷戈 检测处理即时的病人信息 早产儿病情诊断 16个数据点 1260/秒 在明显感染症状出现的24小时之前,可发现 早产儿的稳定是病情感染前的准备 是什么,而不是为什么 在小数据时代,相关关系分析和因果分析都不容 易,都耗费巨大,都要从建立假设开始。 非线性关系 小数据时代,计算机能力的不足限制了非线性关系的 研究 实例:幸福的非线性关系 因果关系是否存在 不费力的快速思维 费力的慢性思维 实例:感冒、狂犬疫苗 我们的直接愿望就是了解因果关系。即使 无因果联系存在,我们也还是会假定其存 在。 研究证明,这只是我们的认知方式,与每 个人的文化背景、生长环境以及教育水平 是无关的。当我们看到两件事情接连发生 的时候,我们会习惯性地从因果关系的角 度来看待它们。 看看下面的三句话: 弗雷德的父母迟到了; 供应商快到了; 弗雷德生气了。 弗雷德为什么生气? 快速思维模式使人们偏向用因果联系来看 待周围的一切,即使这种关系并不存在。 冬天不戴帽子和感冒 狂犬疫苗这个例子来说, 1885年7月6日,法国化学家路易巴斯德( Louis Pasteur)接诊了一个9岁的小孩约瑟夫 梅斯特(Joseph Meister),他被带有狂犬病 毒的狗咬了。 巴斯德刚刚研发出狂犬疫苗,也实验验证过效 果了。梅斯特的父母就恳求巴斯德给他们的儿 子注射一针。 巴斯德做了,梅斯特活了下来。 发布会上,巴斯德因为把一个小男孩从死神手 中救出而大受褒奖。 一般来说,人被狂犬病狗咬后患上狂犬病的概 率只有七分之一。 相关关系很有用,不仅仅是因为它能为 我们提供新的视角,而且提供的视角都是很 清晰的。而我们一旦把因果关系考虑进去, 这些视角就有可能被蒙蔽掉。 实例:kaggle 二手车质量竞赛 橙色的车 因果是相关关系的一种。相关关系分析通 常情况下能取代因果关系起作用,即使不 可取代的情况下,它也能指导因果关系起 作用。 实例:曼哈顿沙井盖的爆炸 改变,从操作开始 实例:曼哈顿沙井盖爆炸 每年,因沙井盖内部失火,纽约每年有很多沙 井盖会发生爆炸。 联合爱迪生电力公司(Con Edison)每年 都会对沙井盖进行常规检查和维修。 2007年,联合爱迪生电力公司向哥伦比亚 大学的统计学家求助,希望他们通过对一 些历史数据的研究,预测出可能会出现问 题并且需要维修的沙井盖。 改变,从操作开始 这是一个复杂的大数据问题。 仅纽约,地下电缆就有15万公里; 曼哈顿有大约51000个沙井盖和服务设施, 很多设施都是在爱迪生那个时代建成的 有二十分之一的电缆在1930年之前就铺好了。 1880以来的数据都保存着,却很杂乱, 改变,从操作开始 这是一个复杂的大数据问题。 仅纽约,地下电缆就有15万公里; 曼哈顿有大约51000个沙井盖和服务设施, 很多设施都是在爱迪生那个时代建成的 有二十分之一的电缆在1930年之前就铺好了。 1880以来的数据都保存着,却很杂乱, 负责这个项目的统计学家辛西亚鲁丁(Cynthia Rudin) 将杂乱的数据整理好给机器处理 发现了大型沙井盖爆炸的106种预警情况。 在布朗克斯(Bronx)的电网测试中,他们对2008年 中期之前的数据都进行了分析,并利用这些数据预测 了2009年会出现问题的沙井盖。 预测效果非常好,在他们列出的前10%的高危沙井 盖名单里,有44%的沙井盖都发生了严重的事故。 最重要的因素是这些电缆的使用年限和有没有出 现过问题。 大数据,改变人类探索世界的方法 大量的数据从某种程度上意味着“理论 的终结”。 2008年,连线主编克里斯安德森 大数据是在理论的基础上形成的。 理论贯穿于大数据的整个过程。 数据的收集、分析、结果解读 大数据带来的思维方式的变化 处理的对象往往是全部数据,而不是部分数据的采样 采样的不合理会导致预测结果的偏差,在大数据时代,依靠强大的 数据处理能力,应该去处理全部的数据。 不再执迷于精确性 精确的、规范化的、可以被传统数据库处理的数据只占全部数据的 5%,必须接受不精确性才能处理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铜陵职业技术学院《文化投资学》2023-2024学年第二学期期末试卷
- 2025年钢筋买卖合同范本
- 天津市职业大学《民航专业英语》2023-2024学年第二学期期末试卷
- 2025至2031年中国微波黄粉虫干燥设备行业投资前景及策略咨询研究报告
- 2025至2031年中国单绳矿井提升机塑料衬板行业投资前景及策略咨询研究报告
- 赶集摊位投标方案范本
- 2025至2031年中国PP-R冷热给水管件行业投资前景及策略咨询研究报告
- 2025至2030年中国高强聚氨酯管托数据监测研究报告
- 2025至2030年中国石油和合成液抗乳化性能测定仪数据监测研究报告
- 2025至2030年中国着色复合母粒数据监测研究报告
- 36 阶段统计项目风险管理表甘特图
- 2025-2030中国电信增值行业运行状况与发展前景预测研究报告
- 学校中层干部选拔任用实施方案
- 2025年吉林铁道职业技术学院单招职业倾向性考试题库含答案
- 品牌总监的面试题及答案
- 电气工程及其自动化毕业论文-基于PLC的高空作业车电控系统设计
- 贵州高品质住宅设计导则
- 装修公司设计经理述职报告
- 水电配电箱知识培训课件
- 初中所有数学公式大全
- 多感知融合的智能垃圾识别分拣实验系统设计
评论
0/150
提交评论