走进大数据时代_第1页
走进大数据时代_第2页
走进大数据时代_第3页
走进大数据时代_第4页
走进大数据时代_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 走进大数据时代 主要内容 引例 何谓大数据 大数据的4V特征 大数据带来的思维变革 相关案例 引例1-电影点球成金 布拉德.皮特主演的点球成金是一部 美国奥斯卡获奖影片,所讲述的是棒球队 总经理利用计算机数据分析,对球队进行 了翻天覆地的改造,让一家不起眼的小球 队能够取得巨大的成功。 基于历史数据,利用数据建模定量分析不同 球员的特点,合理搭配,重新组队。 打破传统思维,通过分析比赛数据,寻找 “性价比”最高球员,运用数据取得成功。 引例2乔布斯抗癌 乔布斯早在20多岁时就已患癌症并开始扩散,其元凶很可 能是电子行业的有毒化学物质。而在他生命的末期,就曾 经利用大数据尝试为自己延长寿

2、命。 乔布斯在与癌症斗争的过程中采用了不同的方式,成为世 界上第一个对自身所有DNA和肿瘤DNA进行排序的人。乔布 斯为此支付了几十万美元的费用。医生们可以根据乔布斯 特定的DNA为他设计药物,并观察药效,如果由于癌症的 病变导致药物失效,医生可以及时的更换药物,以免延误 最佳治疗期。 实际上大数据在DNA领域的应用早已展开. 谷歌搜索和Google Maps背后的Google Cloud平台正和遗 传数据机构合作推广成立Google Genomics项目,打造遗 传分析云服务。 云服务的分析工具可以在基因组数据中预测疾病风险的 DNA变异。未来,医生可以定期进入云服务,了解病人基 因信息引起

3、各类疾病的风险,或者选择适合病人的治疗方 案。 引例3谷歌预测流感 2009年,Google通过分析 5000万条美国人最频繁检索 的词汇,将之和美国疾病中 心在2003年到2008年间季节 性流感传播时期的数据进行 比较,并建立一个特定的数 学模型。最终google成功预 测了2009冬季流感的传播甚 至可以具体到特定的地区和 州。 引例4-Target怀孕预测指数 美国一名男子闯入他家附近的一家美国零售连锁超市 Target店铺(美国第三大零售商塔吉特)进行抗议: “你们竟然给我17岁的女儿发婴儿尿片和童车的优惠 券。”店铺经理立刻向来者承认错误,但是其实该经 理并不知道这一行为是总公司运

4、行数据挖掘的结果。 一个月后,这位父亲来道歉,因为这时他才知道他的 女儿的确怀孕了。Target比这位父亲知道他女儿怀孕 的时间足足早了一个月。 Target能够通过分析女性客户购买记录,“猜出”哪 些是孕妇。他们从Target的数据仓库中挖掘出25项与 怀孕高度相关的商品,制作“怀孕预测”指数。比如 他们发现女性会在怀孕四个月左右,大量购买无香味 乳液。以此为依据推算出预产期后,就抢先一步将孕 妇装、婴儿床等折扣券寄给客户来吸引客户购买。 如果不是在拥有海量的用户交易数据基础上实施数据 挖掘,Target不可能做到如此精准的营销。 何谓大数据 何谓大数据 何谓大数据 何谓大数据 大数据(bi

5、g data)是指无法在可承受的时间范围 内用常规软件工具进行捕捉、管理和处理的数据 集合。从某种程度上说,大数据是数据分析的前 沿技术。 维基百科:Big dataBig data is a broad term for data sets so large or complex that traditional data processing applications are inadequate. Challenges include analysis, capture, data curation, search, sharing, storage, transfer, visuali

6、zation, querying and information privacy. 何谓大数据 何谓大数据 大数据的4V特征 大数据的4V特征 大量化(Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预 测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不 断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存 储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来 源都能产生数据。 大数据的4V特征 价值密度低(Value) 价 值密度的高低与数据总量 的大小成反比。以视频为 例,一部1小时的视频, 在连续不间断的监

7、控中, 有用数据可能仅有一二秒。 如何通过强大的机器算法 更迅速地完成数据的价值 “提纯”成为目前大数据 背景下亟待解决的难题。 大数据的4V特征 快速化(Velocity):高速描述的是数据被创建和移动的速度。在高速网络时代, 通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成 为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、 分析并返回给用户,以满足他们的实时需求。根据IMS Research关于数据创建 速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。 大数据的4V特征 数据类型繁多(Variety) 这种类型的多样性也让数据被

8、分为结构化数据和非结构化 数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包 括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理 能力提出了更高要求。 大数据带来的思维变革 大数据带来的思维变革 大数据时代,我们需要什么样的“新理 念”? 在思考问题和解决问题的方法上有什么新 的特点? 大数据带来的思维变革-数据思维 量化 决策 整合 量化思维:一切皆可量化 “万物皆数”是毕达格拉斯 学派2000多前的一句名言。 数据是指存储在某种介质上 能够识别的物理符号,是对 客观事物性质和状态的描述。 “量化”就是用一种共性的 语言来描述,标识和解释世 界

9、 将各种各样的事,量化后转 换成统计的事,然后应用统 计的方法给予解决。将具体 的事数量化,这样的思维就 叫量化思维 下面的问题测测你的量化思维的能力。 一个老财主,临死时对怀有身孕的老婆说: “将来如果生的是男孩,我的财产的三分之 二给他,三分之一给你;如果生的是女孩, 三分之二给你,三分之一给她。”后来老婆 生了一对龙凤胎。你认为怎样分割财产才能 不违背老财主的意愿? 量化思维:一切皆可量化 量化思维:一切皆可量化 量化思维:一切皆可量化 量化思维:一切皆可量化 量化思维:一切皆可量化 科学研究范式:库 恩指出:“按既定 的用法,范式就是 一种公认的模型或 模式。” 所谓科学发现 的范式是

10、,第一, 实验;第二,理 论;第三,模拟; 第四,数据挖掘。 图灵奖得主,关系型数据库的鼻祖吉 姆格雷(Jim Gray)也是一位航海运 动爱好者。2007年1月28日,他驾驶帆 船在茫茫大海中失联了。而就是17天 前的1月11日,在加州山景城召开的 NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)大会上, 他发表了留给世人的最后一次演讲 “科学方法的革命”,提出将科学研 究分为四类范式(Paradigm,某种必 须遵循的规范或大家都在用的套路), 依次为实验归纳,模型推演,仿真模

11、 拟和数据密集型科学发现(Data- Intensive Scientific Discovery)。 其中,最后的“数据密集型”,也就 是现在我们所称的“科学大数据”。 量化思维:一切皆可量化 第四科学研究范式 几千年前 科学以实验为主 人类最早的科学研究,主 要以记录和描述自然现象 为特征,称为“实验科学” (第一范式),从原始的 钻木取火,发展到后来以 伽利略为代表的文艺复兴 时期的科学发展初级阶段, 开启了现代科学之门。 过去数百年 受当时实验条件的限制,难于完成 对自然现象更精细的理解。科学家 们开始尝试尽量简化实验模型,去 掉一些复杂的干扰,只留下关键因 素(这就出现了我们在学习物

12、理学 中“足够光滑”、“足够长的时 间”、“空气足够稀薄”等令人费 解的条件描述),然后通过演算进 行归纳总结,这就是第二范式。 第二研究范式以理论研究为主,这 种研究范式一直持续到19世纪末, 都堪称完美,牛顿三大定律成功解 释了经典力学,麦克斯韦理论成功 解释了电磁学,经典物理学大厦美 轮美奂。 但之后量子力学和相对论的出现, 则以理论研究为主,以超凡的头脑 思考和复杂的计算超越了实验设计, 而随着验证理论的难度和经济投入 越来越高,科学研究开始显得力不 从心。 量化思维:一切皆可量化 第四科学研究范式 过去数十年 20世纪中叶,冯诺依曼提出 了现代电子计算机架构,利用 电子计算机对科学实

13、验进行模 拟仿真的模式得到迅速普及, 人们可以对复杂现象通过模拟 仿真,推演出越来越多复杂的 现象,典型案例如模拟核试验、 天气预报等。随着计算机仿真 越来越多地取代实验,逐渐成 为科研的常规方法,即第三范 式。 今天 将理论、实验和计算模拟统一起 来 由仪器收集或者计算模拟产生数 据 由计算机存储和处理数据 科学家通过数据分析挖掘软件分 析数据,发现规律 而未来科学的发展趋势是,随着 数据的爆炸性增长,计算机将不 仅仅能做模拟仿真,还能进行分 析总结,得到理论。数据密集范 式理应从第三范式中分离出来, 成为一个独特的科学研究范式。 也就是说,过去由牛顿、爱因斯 坦等科学家从事的工作,未来完

14、全可以由计算机来做。这种科学 研究的方式,被称为第四范式。 思考:我们可以看到,第四范式与第三范式,都 是利用计算机来进行计算,二者有什么区别呢? 决策思维:让数据说话 决策模式: 直觉驱动的决策:拍脑袋的决策,有随意性 逻辑驱动的决策:基于逻辑分析的推理 经验驱动的决策:用数据说话、用数据来管理、 用数据来决策、用数据来创新 现代生活中的很多决策在本质上是不确定的, 例如,抽奖、保险和天气预报等等,掌握概率 知识,学会以概率的观点来思考生活中与概率 相关的问题,就不会再问一件事是否会发生, 而是问其发生的概率。 决策思维:让数据说话 概率论和统计学将经验变成了“科 学” 数据分布(均匀分布、

15、高斯分布、泊松 分布) 数据抽样 假设检验 大数定律 决策思维:让数据说话 大数定律 在随机事件的大量重复出现中,往往呈现几乎必然的规律, 这个规律就是大数定律。通俗地说,这个定理就是,在试验 不变的条件下,重复试验多次,随机事件的频率近似于它的 概率。 大数定律通俗一点来讲,就是样本数量很大的时候,样本均 值和真实均值充分接近。 例如,在重复投掷一枚硬币的随机试验中,观测投掷了n次硬 币中出现正面的次数。不同的n次试验,出现正面的频率(出 现正面次数与n之比)可能不同,但当试验的次数n越来越大 时,出现正面的频率将大体上逐渐接近于1/2。又如称量某一 物体的重量,假如衡器不存在系统偏差,由于

16、衡器的精度等 各种因素的影响,对同一物体重复称量多次,可能得到多个 不同的重量数值,但它们的算术平均值一般来说将随称量次 数的增加而逐渐接近于物体的真实重量。 决策思维:让数据说话 大数定律的假设 独立同分布 试验的次数非常大 在很多情况下,这些假设不一定能满足 问题空间的参数太大,训练数据对问题空间的覆 盖度不大 试验条件在变化,不能满足独立同分布 决策思维:让数据说话 决策思维:让数据说话 整合思维:跨界的创新 Integrative thinking(整合思维): 别再只盯着你的一亩三分地,打开眼睛, 寻找自己可用的各种资源,整合出解决问 题的新方式。“整合思维”就是在面临困 难问题时的

17、应对之策,即运用发散思维, 寻找新的解决方案,而非仅局限于从已有 的“解决方案清单”中选择。 整合思维:跨界的创新 数据孤岛的形成 技术的原因 历史的原因 认识的原因 比如,要办一个证,时常就会出现“多部门跑腿”的现象,民众要跑 完这个部门再跑另一个部门。-数据孤岛 在大数据时代,传统的政务查询、社保查询、医疗教育、水电煤等公 共服务将被集成,各政务服务间的信息化壁垒、数据孤岛将会消失, 政府、企业、研究机构间的数据可实现安全的分享流通、交易交换。 因此,随着大数据的发展,政府首先要进一步把为人民服务的观念和 责任意识落实到实际工作中去,要有数据信息开放思维、数据信息整 合思维和数据信息分享思

18、维。从互联网的角度来看,政府服务优化是 没有止境的。也就是说,不同部门之间要加强服务融合,要加强信息 的交换。我们需要用移动互联网的思维去打造一个指尖上的政府服务 体系。正如李克强总理强调的“要让政府信息多跑路,群众少跑腿”, 我们各级政府应该按照方便办事、就近服务的原则,充分利用大数据 的功能,真正完成向服务型政府转变的时代要求。 整合思维:跨界的创新 信息化进程 整合思维:跨界的创新 信息化3.0 云计算解决了计算资源的共享问题 大数据技术试图解决数据的利用问 题 大数据是由于不同来源的数据汇集 而带来的“跨界”型创新应用 云计算 Cloud computing is a model fo

19、r enabling ubiquitous, convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction. 云计算是一个方便灵活的计算模式

20、,它是按需,可 通过网络进行访问和使用的计算资源的共享池(例 如,网络、服务器、存储、应用程序服务),它以 用最少的管理付出,与服务供应商有最少的交互的 前提下,可以达到将各种计算资源迅速地配置和推 出。 云计算的特点 (1)超大规模。“云”具有相当的规模,Google云计算已经拥有100多万台服务器, Amazon、IBM、微软和Yahoo等公司的“云”均拥有几十万台服务器。“云”能赋予用 户前所未有的计算能力。 (2)虚拟化。云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来 自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需 了解应用运行的具体位置,只

21、需要一台笔记本或一个PDA,就可以通过网络服务来获 取各种能力超强的服务。 (3)高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服 务的高可靠性,使用云计算比使用本地计算机更加可靠。 (4)通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应 用,同一片“云”可以同时支撑不同的应用运行。 (5)高可伸缩性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。 (6)按需服务。“云”是一个庞大的资源池,用户按需购买,像自来水、电和煤气那 样计费。 (7)极其廉价。“云”的特殊容错措施使得可以采用极其廉价的节点来构成云;“云” 的自动化管理使数据中心管理

22、成本大幅降低;“云”的公用性和通用性使资源的利用 率大幅提升;“云”设施可以建在电力资源丰富的地区,从而大幅降低能源成本。因 此“云”具有前所未有的性能价格比。因此,用户可以充分享受“云”的低成本优势, 需要时,花费几百美元、一天时间就能完成以前需要数万美元、数月时间才能完成的 数据处理任务。 整合思维:跨界的创新 跨界应用比比皆是 2014年7月22日,上海。阿里巴巴宣布,和中 行、招行、建行等7家银行深度合作,为中小 企业提供基于网商信用的无抵押贷款,最高 授信额度为1000万元 阿里将平台拥有的数万家企业交易数据开放 给银行,降低银行贷款风控成本的同时,也 为苦于无法自证信用的中小企业提

23、供了第三 方担保。 大数据带来的思维变革-互联网思维 互联网的发展 大数据带来的思维变革-互联网思维 大数据带来的思维变革-互联网思维 以客户为中心:人本思维 万物皆有联系:关联思维 反垄断去中心化:平等思维 人本思维 传统的信息系统 是将业务逻辑作 为最重要的内容 互联网应用将客户 作为信息系统最重 要的组成部分 互联网应用的核心 在于以用户需求为 主导,将用户思考 和用户体验做到极 致是关键所在 人本思维 有数据显示,高达92%的顾客相信朋友 推荐,有75%的顾客决策前参考社会化 评价,70%的顾客相信在线评论。 口碑营销:通过社会媒体各渠道塑造品 牌形象,直接影响消费决策。 互联网应用中

24、,最有价值的是社区。 为用户画像,了解用户的需求,提供个 性化的服务 关联思维 大脑如何记忆:我们会把某种事物特征化,然 后将事物与特征彼此关联。每个事物都关联了 很多个特征,每个特征也同时关联了很多个事 物。大脑会通过这种特征与事物的关联来进行 检索和思考。其中,事物的特征是可以被编辑 的。也就是说,我们对事物的认识越丰富,在 事物中甄别出越多的特征,就会越有利于我们 的思考与记忆。 例如,听到下面两个词之后,你想到了什么。第一 个词“人行横道”,第二个词“非洲”。 关联思维 强调数据之间的关联也很有用, 而不去追求数据之间的因果关 系。 因果关系是最深刻的一类联系, 但是我们很多时候并不能

25、获得。 平等思维 平等思维去中心化 中心化(Centralization)和去中心化 (Decentralization)就是集权与分权, 在互联网上,就是指从我说你听的广播模 式,向人人有个小喇叭的广场模式转变。 中心化的典型例子是门户网站,去中心化 的典型例子是blog、UGC、社交媒体等。 建立和运维社区是大数据应用的关键。 在社区中,成员都是平等的。 平等思维垄断vs反垄断 互联网本质上是反垄断的 技术反垄断:开源社区 信息反垄断:信息公开是反腐的利 器 资源反垄断:开放和标准是有效的 办法 平等思维垄断vs反垄断 平等思维长尾效应 从人们需求的角度来看,大多数的 需求会集中在头部,这部分我们可 以称之为流行;而分布在尾部的需 求是个性化的、零散的、小量的需 求。这部分差异化的、少量的需求 会在需求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论