大数据的说明及案例分享_第1页
大数据的说明及案例分享_第2页
大数据的说明及案例分享_第3页
大数据的说明及案例分享_第4页
大数据的说明及案例分享_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据大数据的概念大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。网络上每一笔搜索,网站上每一笔交易、每一笔输入差不多上数据,通过计算机做筛选、整理、分析,所得出的结果可不仅仅只得到简单、客观的结论,更能用于关心企业经营决策,搜集起来的数据还能够被规划,引导开发更大的消费劲量。大数据与传统数据的区不?银行做数据业务做了十多年,那么大数据和传统数据的仓库有哪些差异?实际上确实是群体和个体的差异。互联网数据完全瞄向个体,数据结构也是精准于个体,而传统的数据面向经营指标、面向群体。宏观意义上来看,假如小明去了一百次书店,往常要回答的问题

2、是他第一百零一次买不买书,即业绩和经营指标的问题;而现在,互联网关怀的是什么?最关怀的是他第一百零一次买什么书,需要将什么样的内容推举给他。这不是一个概率问题,而是一个模糊的程度问题。要量化那个程度,我们一定要基于个体,而不是基于群体的共性描述。传统定义上,更多关注的是一类人群,用同一类规则制订套餐给他们;而在互联网时代,要把每个人都精准刻画出来,进行精准匹配。有电商讲他们要做到一百万用户要有一百万个商店,特不是在移动的小屏幕上,三次点击以后就会损失一个客户。因此差异化绝对不可能是对群体共性的描述,而完全是对个体差异的刻画。关于大数据的深度分析,专门重要内容确实是个性化的信息推举。个性化的信息

3、推举不仅仅是基于用户的相似性这么简单的东西,还有大量比较深入的复杂模型。比如讲,就用户看资讯而言,我们如何样去推断一个用户点开一条八卦资讯后,是接着深挖八卦到死,依旧转而扫瞄另外一个新闻。同样,有的用户登陆淘宝只是逛逛而已,有些用户则是专门明确地想要买一些东西,这就需要对用户的意图进行预测,那个地点面涉及到一些比较难的机器学习技术。我们现在生活的是信息化的世界,以后会走向个性化。在这一点上有一个例子,耐克制作了一款鞋子,在那个鞋子里装上了传感器,然后穿上那个鞋子的人,你一天大概走多少路,而且你走路的状态比如着力点等相关情况的数据都会通过传感器传到耐克公司,耐克公司就会依照这些数据来给你量身定做

4、鞋子。如此,以后的销售模式将会是个性化的。大数据的典型特征(3V)“大数据”那个词,光从字面来看,可能会让人觉得只是容量特不大的数据集合而已。然而,容量只只是是大数据特征的一个方面,假如只拘泥于数据量的话,就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以治理”如此的状况,并不仅仅是由于数据量增大这一个因素所造成的。大数据的特征,能够用三个V开头的关键词来描述。(1)Volume(容量)看到大数据那个词,大多数人的第一印象可能确实是Volume,也确实是数据量吧。从刚才我们讲到的大数据的定义来看,也确实是指用现有技术无法治理的数据量,从现状来看,差不多上是指从几十TB到几PB

5、如此的数量级。因此,随着技术的进步,那个数值也会不断变化。例如,在5年以后,也许只有几EB数量级的数据量才能够称得上是大数据了。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类讲过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量差不多接近EB量级。(2)Variety(多样性)除了传统的销售、库存等数据,现在企业所采集和分析的数据还包括像网站日志数据、呼叫中心通话记录、Twitter和Facebook等社交媒体中的文本数据、智能手机中内置的GPS(全球定位系统)所产生的位置信息、时刻生

6、成的传感器数据,甚至还有图片和视频,数据的种类和几年前相比差不多有了大幅度的增加。其中,近年来爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型 HYPERLINK /database/ t _blank 数据库是专门难存储的,它们都属于非结构化数据。因此,在这些种类的数据中,也有一些是过去就一直存在并保存下来的。然而,和过去不同的是,这些大数据并非只是存储起来就够了,还需要对其进行分析,并从中获得有用的信息。以美国企业为代表的众多企业正在致力于这方面的研究。监控摄像机的视频数据正是其中之一。近年来,超市、便利店等零售企业几乎都配备了监控摄像机,目的

7、是为了防止盗窃和关心抓捕盗窃嫌犯,但最近也出现了使用监控摄像机的视频数据来分析顾客购买行为的案例。例如,美国大型折扣店Family Dollar Stores,以及高级文具制造商万宝龙(Montblanc),都开始尝试利用监控摄像头对顾客在店内的行为进行分析。以万宝龙为例,它们过去差不多上凭经验和直觉来决定商品陈列的布局,但通过分析监控摄像机的数据,将最想卖出去的商品移动到最容易吸引顾客目光的位置,使得销售额提高了20%。此外,美国移动运营商T-Mobile也在其全美1000家店中安装了带视频分析功能的监控摄像机,能够统计来店人数,还能够追踪顾客在店内的行动路线、在展台前停留的时刻,甚至是试用

8、了哪一款手机、试用了多长时刻等,对顾客在店内的购买行为进行分析。(3)Velocity(速度)数据产生和更新的频率,也是衡量大数据的一个重要特征。例如,整个日本的便利店在24小时内产生的POS(Point Of Sales)数据,电商网站中由用户访问所产生的网站点击流数据,高峰时高达每秒7000条的Twitter推文,日本全国公路上安装的交通堵塞探测传感器和路面状况传感器(可检测结冰、积雪等路面状态)等,每天都在产生着庞大的数据。广义的大数据刚才我们讲解了大数据的定义,即用现有的一般技术难以治理的大量数据的集合,同时用三个V对大数据的特征进行了描述。然而,仅凭那个定义还无法解释当前大数据的火爆

9、局面,因为那个定义的着眼点仅仅在于数据的性质上。那个定义我们把它视为狭义上的定义,而我们需要在广义层面上为大数据下一个定义:那个狭义的定义所讲的具备3V特征的数据就相当因此宾语,那么我们还需要主语和谓语。谓语确实是“存储、分析、处理”这些数据,(而用什么方法来进行分析处理,是机器学习依旧统计分析或者其它什么,这些能够看做是方式状语),主语那确实是谁,谁来处理这些数据。那个谁确实是指的“数据科学家”目前在欧美是十分紧俏的,他们通过分析这些数据获得有用意义和观点这确实是大数据的广义定义,它是一个综合性的概念。大数据应用案例穿孔卡片与美国人口普查美国在1880年进行的人口普查,耗时8年才完成数据汇总

10、。因此,他们获得的专门多数据差不多上过时的。1890年进行的人口普查,可能要花费13年的时刻来汇总数据。而法律规定必须在十年内完成,即使不考虑这种情况违反了宪法规定,它也是专门荒谬的。然而,因为税收分摊和国会代表人数确定差不多上建立在人口的基础上的,因此必须要得到正确的数据,而且必须是及时的数据。后来,美国人口普查局就和当时的美国发明家赫尔曼-霍尔瑞斯(HermanHollerith)签订了一个协议,用他的穿孔卡片制表机来完成1890年的人口普查。通过大量的努力,霍尔瑞斯成功地在1年时刻内完成了人口普查。这简直确实是一个奇迹,当时在那个项目上霍尔瑞斯并没赚多少钞票,后来他成立了一个公司,向其他

11、国家卖他的产品,老了以后他把公司卖给了他的一个主管,成了成立IBM的三家公司之一。然而,将穿孔卡片作为收集处理大数据的方法依旧过于昂贵。怎么讲,每个美国人都必须填一张可制成穿孔卡片的表格,然后再进行统计。这依旧特不苦恼的。70万家企业联网“直报”统计数据我们明白国家统计局每年都要编写的中国统计年鉴。和美国一样,往常我们国家统计数据,是层层上报,人工统计,比如,国家进行人口普查,是县级市级省级国家如此层层上报人口数据,如此得到的数据往往滞后,专门不准确。从2012年2月18日开始,全国70万家三上企业和房地产开发经营企业在统一的数据采集和处理平台上,通过互联网直接向国家数据中心或国家认定的省级数

12、据中心报送统计数据。如此就保证了数据的准确性,及时性。2013年11月19日下午,阿里巴巴、百度、中国联通等11家涉足大数据的领军企业代表与国家统计局签署关于大数据的战略合作协议,共同探讨和推进大数据在政府统计中的应用。战略合作内容,要紧是共同研究探讨建立大数据应用的统计标准,包括指标定义、口径、范围、分类等;确定利用企业数据完善、补充政府统计数据的内容、形式及实施步骤,包括数据采集、处理、分析、挖掘、公布等。在此基础上,合作双方将建立战略合作关系。政府统计部门收集的数据来源更广更多,有各个部门的行政记录,有电商企业的数据,有包括搜索记录、社交记录和媒体等互联网数据。电子政务:通过政府信息化,

13、大数据能够提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,节约决策的成本。以财政部门为例,基于云计算、大数据技术,财政部门能够按需掌握各个部门的数据,并对数据进行分析,做出的决策能够更准确、更高效。另外,也能够依据数据推动财政创新,使财政工作更有效率、更加开放、更加透明。麻省理工与通货紧缩预测软件“10亿价格项目”(The Billion Prices Project,BBP)提供了一个有味的例子。美国劳工统计局的人员每个月都要公布消费物价指数(CPI),这是用来测试通货膨胀率的。这些数据对投资者和商家都特不重要。在决定是否增减银行利率的时候,美联储也会考虑消费指数。一旦发

14、生通货膨胀,工人工资也会增加。联邦政府在支付社会福利和债券利息的款项时,这项指数也是他们参考的依据。联邦政府为了得到这些数据,会雇用专门多人向全美90个都市的商店、办公室打电话、发传真甚至登门访问。他们反馈回来的各种各样的价格信息达80000种,包括土豆的价格、出租车的票价等。政府采集这些数据每年大概需要花费两亿五千万美元。这些数据是精确的也是有序的,然而那个采集结果的公布会有几周的滞后。2008年的经济危机表明,那个滞后是致命的。政策决策者为了更好地应对变化,需要及时了解通货膨胀率,但假如以传统的依靠采样和追求精确的方式进行数据收集,政府就不可能及时获得数据了。麻省理工学院(MIT)的两位经

15、济学家,阿尔贝托卡瓦略(Alberto Cavell)和罗伯托里哥本(Oberto Rigobon)就对此提出了一个大数据方案,那确实是同意更混乱的数据。通过一个软件在互联网上收集信息,他们每天能够收集到50万种商品的价格。收集到的数据专门混乱,也不是所有数据都能轻易进行比较。然而把大数据和好的分析法相结合,那个项目在2008年9月雷曼兄弟破产之后立即就发觉了通货紧缩趋势,然而那些依靠官方数据的人直到11月份才明白那个情况。沃尔玛沃尔玛零售巨头是最早在零售业运用大数据的,因而改变了整个行业。沃尔玛通过大数据提早预知顾客改日会做什么,并提早预备。这确实是人适应性的力量通过大数据总结汇总分析出的。

16、沃尔玛有一个经典的案例,那确实是:啤酒和尿布的例子,那个例子大伙儿都明白,现在看看沃尔玛另外两个例子:请把蛋挞与飓风用品摆在一起依据是注意到2004年沃尔玛对历史交易记录那个庞大数据库进行观看,那个数据库记录的不仅包括每一个顾客的购物清单以及消费额,还包括购物篮中的物品,具体购买时刻,甚至购买当日的天气。通过大数据,沃尔玛注意到,每当季节性飓风来临之前,不仅手电筒销量增加,而且美式早餐含糖零食蛋挞销量也增加了,因此每当季节性飓风来临时,按前面摆放在一起,以方便行色匆匆的顾客,从而增加销量。东海岸中海岸西海岸在美国,东海岸与中海岸时差两小时,东海岸的沃尔玛超市早上开门营业两小时之后,这时候中海岸

17、才开始营业,沃尔玛就会把东海岸当天这两小时的营业情况、相关数据传给中海岸,中海岸就会依照那个数据明白了这天人们的购买喜好,决定货品如何摆放,哪些物资摆放在一起会比较好,然后等中海岸的沃尔玛营业两小时之后,西海岸才到早上,才开始营业,同样,把东海岸和中海岸的营业数据传到西海岸。这种方式给沃尔玛带来了专门大的利润。美国折扣零售商塔吉特与怀孕预测大数据运用的极致,非美国折扣零售商塔吉特莫属了。纽约时报曾报道过塔吉特公司如何样在不被清晰告知的情况下预测出一个女性的怀孕情况。专门多人都不明白,关于零售商来讲,明白一个顾客是否怀孕特不重要。因为这是一对夫妻改变消费观念的开始,也是一对夫妻生命的分水岭。他们

18、会开始光顾往常可不能去的商店,慢慢对新的品牌建立忠诚。塔吉特的分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录。他们注意到,登记簿上的妇女会在怀孕大概第三个月的时候买专门多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物能够给顾客进行“怀孕趋势”评分。这些数据甚至使得零售商能够比较准确地预测预产期,如此就能够在孕期的每个时期给客户寄送相应的优惠券。杜西格在适应的力量(The Power of Habit)一书中讲到了接下来发生的情况。一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地讲:“我女儿依旧高中

19、生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓舞她怀孕吗?”而当几天后,经理打电话向那个男人致歉时,那个男人的语气变得平和起来。他讲:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到那个情况的发生,应该讲抱歉的人是我。”在社会环境下查找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是,通过找出新种类数据之间的相互联系来解决日常需要。比方讲,一种称为预测分析法的方法就被广泛地应用于商业领域,它能够预测事件的发生。这能够指一个能发觉可能的流行歌曲的算法系统音乐界广泛采纳这种方法来确保它们看好的歌曲确实会流行;也能够指那些用来防止机器失效和建筑倒塌的方法。现在,在机器、发

20、动机和桥梁等基础设施上放置传感器变得越来越平常了,这些传感器被用来记录散发的热量、振幅、承压和发出的声音等。一个东西要出故障,可不能是瞬间的,而是慢慢地出问题的。通过收集所有的数据,我们能够预先捕捉到事物要出故障的信号,比方讲发动机的嗡嗡声、引擎过热都讲明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会明白什么地点出了毛病。通过尽早地发觉异常,系统能够提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,我们就能预测以后。Hitwise,通过流量推断消费者喜好数据创新再利用的一个典型例子是搜索关键词。消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那

21、一刻的特定功能。乍看起来,这些信息在实现了差不多用途之后大概变得一文不值。然而,以往的查询也能够变得特不有价值。有的公司,如数据代理益百利旗下的网页流量测量公司Hitwise,让客户采集搜索流量来揭示消费者的喜好。通过Hitwise营销人员能够了解到粉红色是否会成为今夏的潮流色,或者黑色是否会回归潮流。谷歌整理了一个版本的搜索词分析,公开供人们查询,并与西班牙第二大银行BBVA合作推出了实时经济指标以及旅游部门的业务预报服务,这些指标差不多上基于搜索数据得到的。英国央行通过搜索查询房地产的相关信息,更好地了解到了住房价格的升降情况。物联网物联网物联网(Internet of Things,缩写

22、IOT)是一个基于互联网、传统电信网等信息承载体,让所有能够被独立寻址的一般物理对象实现互联互通的网络。在物联网上,每个人都能够应用电子标签将真实的物体上网联结,在物联网上都能够查找出它们的具体位置。通过物联网能够用中心计算机对机器、设备、人员进行集中治理、操纵,也能够对家庭设备、汽车进行遥控,以及搜寻位置、防止物品被盗等各种应用。物联网将现实世界数字化,应用范围十分广泛。物联网的应用领域要紧包括以下几个方面:运输和物流领域、健康医疗领域、智能环境(家庭、办公、工厂)领域、个人和社会领域等,具有十分宽敞的市场和应用前景。RFID技术 RFID是Radio Frequency Identific

23、ation的缩写,即射频识不,俗称电子标签。RFID射频识不是一种非接触式的自动识不技术,它通过射频信号自动识不目标对象并猎取相关数据,识不工作无须人工干预,可工作于各种恶劣环境。RFID技术可识不高速运动物体并可同时识不多个标签,操作快捷方便。RFID是一种简单的无线系统,只有两个差不多器件,该系统用于操纵、检测和跟踪物体。系统由一个询问器(或阅读器)和专门多应答器(或标签)组成。适应领域:物流和供应治理、生产制造和装配、航空行李处理、邮件、快运包裹处理、文档追踪、图书馆治理动物身份标识、运动计时、门禁操纵、电子门票、道路自动收费.从大型远距离UHF标签到细小的UHF标签。能够为客户做定制化

24、生产,满足各种要求。RFID技术在超市和图书馆中的应用。车联网讲到物联网不可遗漏的因此是车联网,早在2012年的北京国际汽车展览会期间,中国移动就展示了基于TD-LTE的4G车联网概念产品,而现时期,在4G时代全面到来的背景下,车联网的进展愈发迅猛。不仅仅巨头Google一直在深耕车联网,我国自主车企当中也有厂商在积极跟进,最早试水车联网技术的是上汽集团,一直走在本土开发车联网的前列,其inkaNet系统被广泛搭载在荣威350、荣威550、W5以及MG5等多款车型上。目前几乎所有的整车企业都在车联网技术方面进行了大量的投入。以后车联网技术将重新定义汽车DNA。借助无线通讯,都市内车与车之间,车

25、与建筑之间,车与人之间都将建立更加智能紧密的互联。通过装载在车辆上的电子标签通过无线射频等识不技术,实现在信息网络平台上对所有车辆的属性信息和静、动态信息进行提取和有效利用,并依照不同的功能需求对所有车辆的运行状态进行有效的监管和提供综合服务。同时将电视、电脑、手机都能够和汽车里的屏幕连接在一起,驾驶过程中娱乐化的程度大大加强。无人驾驶无人驾驶被人认为是车联网的终极目标,无人驾驶车依靠的技术专门多,比如导航、雷达、庞大数据计算等,要实现这些技术需要和物联网紧密结合起来。尽管车联网只是是近几年才兴起的情况,而物联网技术的成熟则极大的推动了车联网的进展。车联网技术是实现无人驾驶技术和智能化交通的第

26、一步,而在无人驾驶技术普及的第一时期,车联网技术将迎来爆发期。自动泊车系统在我印象中小时候经常能听到从某辆车内传出“倒车请注意”的声音,后来想想觉得当时技术不发达没有达到关心驾驶的水平,只能通过提示车后的行人注意安全。过了没几年什么倒车雷达、倒车影像以及带有循迹功能的倒车系统全面铺开,不管是对人依旧对物驾驶者都能够更安全的操纵车辆。而我今天要讲的是自动泊车系统,顾名思义驾驶者双手能够离开方向盘,在车辆停好之前要做的只是等待。一般情况下自动泊车系统要紧由两部分组成:操纵单元和位于前后保险杠以及两侧的超声波雷达探头。按动自动泊车辅助系统激活按钮之后,雷达探头可在车辆行驶时对车辆两侧进行扫描,低时速

27、(一般为30km/h)及侧向距离1.5米左右之内均能成功完成车位扫描。但差不多上当车位旁出现树木,路灯杆等柱状物时,为幸免雷达侦测出现误差而发生碰撞风险,现在系统将不被激活。操纵单元对雷达反馈的信息进行分析,从而估算出车位是否足以容纳车辆停放。当车位长度大于车辆长度1.4米以上或更高时,操纵单元会通过行车电脑显示屏发出准予停车的提示。驾驶者只需要拨动转向灯开关,告诉系统靠道路哪一侧停车即可。自动泊车系统随后将通过助力转向系统对车辆行驶方向进行干预,并以操纵单元规划好的路径将车辆停入车位。目前,大众汽车旗下产品如途观,迈腾和CC均搭载2.0版本的自动泊车系统。这套系统除能够关心车辆以倒库的方式停

28、入车位,也能够实现侧方停车。而诸如途安上的以及其它一些品牌的系统则只能实现侧方停车。多效地理定位于UPS的最佳行车路径现在,GPS差不多只是众多定位系统中的一种了。中国和欧洲也正在研发新的卫星定位系统来与之抗衡。这些新系统通过对电塔和无线路由器的信号强度进行三角测量来定位地理位置,从而弥补了GPS无法在室内和高楼之间进行定位的缺陷,这也是谷歌、苹果和微软需要自己研发地理定位系统来辅助GPS的缘故。谷歌的街景车(Street View Cars)边拍照边收集无线路由器信息;iPhone本身确实是一个“移动间谍”,一直在用户不知情的情况下收集位置和无线数据然后传回苹果公司;因此,谷歌的安卓手机和微

29、软的手机操作系统也在收集这一类数据。除了人以外,我们也能够跟踪事物的地理位置信息。随着汽车装上了无线传感器,地理位置信息的数据化深刻变革了保险的概念。这些数据提供了关于时刻、地点和实际行驶路程的详细信息,使保险公司能更好地为车险定价。在英国,车主能够依照他的实际驾驶地点和时刻购买汽车保险,而不是只能依照他的年龄、性不和履历来购买年险。这种保险定价法激励投保人产生更好的行为适应。同时,这改变了保险的基础,从考虑一个群体的平均风险转变为个性化的分析。通过汽车定位每个人的地理方位也改变了一些固定资产投入的模式,比方讲公路和其他基础设施能够让使用这些资源的司机和其他人分担一部分投入。因此,在实现对所有

30、人和事以数据形式保持持续定位之前,这显然还无法实现,但这是我们的进展方向。UPS快递多效地利用了地理定位数据。为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障,它的货车内装有传感器、无线适配器和GPS。同时,这些设备也方便了公司监督治理职员并优化行车线路。就像莫里的图表是基于过去的航海经验一样,UPS为货车定制的最佳行车路径一定程度上也是依照过去的行车经验总结而来的。UPS的过程治理总监杰克莱维斯(Jack Levis)认为那个分析项目效果显著。2011年,UPS的驾驶员们少跑了近4828万公里的路程,节约了300万加仑的燃料同时减少了3万公吨的二氧化碳排放量。系统也设计了尽量少

31、左转的路线,因为左转要求货车在交叉路口穿过去,因此更容易出事故。而且,货车往往需要等待一会儿才能左转,也会更耗油,因此,减少左转使得行车的安全性和效率都得到了大幅提升。UPS与汽车修理预测UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,如此就能及时地进行防备性的修理。假如车在路上抛锚损失会特不大,因为那样就需要再派一辆车,会造成延误和再装载的负担,并消耗大量的人力物力,因此往常UPS每两三年就会对车辆的零件进行定时更换。但这种方法不太有效,因为有的零件并没有什么毛病就被换掉了。通过监测车辆的各个部位,UPS现在只需要更换需要更换的零件,从而节约了好几百

32、万美元。有一次,监测系统甚至关心UPS发觉了一个新车的一个零件有问题,因此免除了可能会造成的困扰。无独有偶,桥梁和建筑物上也被安装了传感器来监测磨损程度。大型化工厂和提炼厂也安装了传感器,因为一旦设备的某一个零件有问题,就只有在更换了零件之后生产才能接着进行。收集和分析数据的花费比出现停产的损失小得多。预测性分析并不能解释故障可能会发生的缘故,只会告诉你存在什么问题,也就讲它并不能告诉你引擎过热是因什么缘故,磨损的风扇皮带?没拧紧的螺帽?没有答案。日本先进工业技术研究院的坐姿研究与汽车防盗系统专门少有人会认为一个人的坐姿能表现什么信息,然而它确实能够。当一个人坐着的时候,他的身形、姿势和重量分

33、布都能够量化和数据化。日本先进工业技术研究所的教授和他的团队通过在汽车座椅下安装360个压力传感器以测量人对椅子施加压力的方式,把人体坐姿特征转化成了数据。那个系统能依照人体对座位的压力差异识不出乘坐者的身份,准确率高达98%。 那个研究并不愚蠢。这项技术能够作为汽车防盗系统安装在汽车内。有了那个系统之后,汽车就能识不出驾驶者是不是车主;假如不是,系统就会要求司机输入密码;假如司机无法准确输入密码,汽车就会自动熄火。 这一技术还可汇合事故发生前驾车者的姿势变化数据,分析坐姿与行驶安全的关系,在司机疲劳驾驶时发出警示或自动刹车。同时,那个系统不但能够发觉车辆被盗,还能够通过收集到的数据识不出盗贼

34、的身份。谷歌与甲型H1N1流感2009年出现的甲型H1N1流感结合了导致禽流感和猪流感的病毒的特点,在短短几周之内迅速传播开来。当时没有研发出对抗这种新型流感病毒的疫苗。公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,他们必须先明白这种流感出现在哪里。美国,和所有其他国家一样,都要求大夫在发觉新型流感病例时告知疾病操纵与预防中心(CDC)。但由于人们可能患病多日实在受不了了才会去医院,同时那个信息传达回疾控中心也需要时刻,因此,通告新流感病例时往往会有一两周的延迟。而且,疾控中心每周只进行一次数据汇总。然而,关于一种飞速传播的疾病,信息滞后两周的后果将是致命的。这种滞后导致公共卫生机构

35、在疫情爆发的关键时期反而无所适从。在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在自然杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。谷歌通过观看人们在网上的搜索记录来预测冬季流感的传播:不仅是全美范围的传播,而且能够具体到特定的地区和州。而这种方法往常一直是被忽略的。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和关心它完成这项工作。发觉能够通过人们在网上检索的词条辨不出其是否感染了流感后,谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期

36、的数据进行了比较。他们设立的系统唯一关注的确实是特定检索词条的频繁使用与流感在时刻和空间上的传播之间的联系。谷歌公司为了测试这些检索词条,总共处理了4.5亿个不同的数字模型。在将得出的预测与2007年、2008年美国疾控中心记录的实际流感病例进行对比后,谷歌公司发觉,他们的软件发觉了45条检索词条的组合,一旦将它们用于一个数学模型,他们的预测与官方数据的相关性高达97%。和疾控中心一样,他们也能推断出流感是从哪里传播出来的,而且他们的推断特不及时,可不能像疾控中心一样要在流感爆发一两周之后才能够做到。因此,2009年甲型H1N1流感爆发的时候,与适应性滞后的官方数据相比,谷歌成为了一个更有效、

37、更及时的指示标。大数据预测早产儿病情安大略理工大学的卡罗琳麦格雷戈(Carolyn McGregor)博士和一支研究队伍与IBM一起和专门多医院合作,用一个软件来监测处理即时的病人信息,然后把它用于早产儿的病情诊断。系统会监控16个不同地点的数据,比如心率、呼吸、体温、血压和血氧含量,这些数据能够达到每秒钟1260个数据点之多。在明显感染症状出现的24小时之前,系统就能监测到早产儿细微的躯体变化发出的感染信号。麦格雷戈博士讲:“你无法用肉眼看到,但计算机能够看到。”那个系统依靠的是相关关系,而不是因果关系。它告诉你的是会发生什么,而不是什么缘故发生。这正是那个系统的价值!提早明白病情,大夫就能

38、够提早治疗,也能更早地明白某种疗法是否有效,这一切都有利于病人的康复。惊人的是,麦格雷戈博士的大数据分析法能发觉一些与大夫的传统看法相违背的相关关系。比如讲她发觉,稳定的生命体征表明病人发生了严峻的感染。这专门惊奇,因为大夫一般认为恶化的疼痛才是全面感染的征兆。你能够想象,往常大夫差不多上下班的时候看看婴儿床旁边的记录本,觉得病情稳定了,也就下班回家了。只有半夜护士的紧急电话才让他们明白大事不行了,他们的直觉犯了大错误。数据表明,早产儿的稳定不但不是病情好转的标志,反而是暴风雨前的宁静,就像是躯体要它的器官做好抵抗困难的预备。然而我们也不太确定,我们不明白具体缘故,只是看到了相关关系。这需要海

39、量的数据同时找出隐含的相关性才能发觉。然而,大数据挽救了专门多生命,这是毫无疑问的。医疗方面比较有意思的是医疗方面的大数据,其中讲得比较多的是“量化自我”,它是通过一种非干预的手段,把一些所谓的医疗传感器放到我们的周围,比如我们戴一个腕表、一枚戒指、一个耳塞、一副眼镜等,通过这些设备我们能够了解自己的心跳、血压情况,甚至包括我们体表的健康状况,从而对一些大病(如癫痫等)进行早期预测。同样,假如我们给一个小小孩使用小儿床垫,通过那个床垫上的压力与湿度传感器分析,我们能够专门早地推断那个小小孩有没有比较严峻的打鼾或者睡姿不正确等问题。因为严峻的打鼾容易造成小孩在三、四岁的时候智力发育低于同龄人,现

40、在通过那个床垫的传感器分析就能够及早地发觉并加以治疗。针对慢性病人、老年人同样也有一些类似的辅助工具。在健康方面,比如利用移动终端的手机,加上APP软件,外载的手表,就能够实时监测自己的心跳、呼吸,大夫通过这些数据就能够了解你的健康状况。大卫介绍讲。美国Fitbit公司近期就推出了一款免费的苹果手机应用,用户可用于记录食物和液体摄入量,从而跟踪其活动水平和营养摄入情况,通过分析这些数据能够专门好的操纵体重。在线教育现在在线教育逐渐流行起来,如闻名的在线教育公司Coursera,差不多和普林斯顿、伯克利、宾夕法尼亚大学等30多所大学合作,在互联网上免费开放大学课程。也确实是讲,现在这些学校的一些

41、课程,能够实现全球几十万人同步学习。分布在世界各地的学习者不仅能够在同一时刻实时听取同一位老师的授课,还和在校生一样,做同样的作业、同意同样的评分和考试。一些学校,甚至开始投资建设自己的智能网络学习平台,2012年5月,哈佛大学与麻省理工学院就宣布,将投入6000万美元建设一个智能学习平台,并向全世界免费开放。不难想象,这种智能化学习平台将会带来的革命性阻碍。学校,曾经是最重要的教育资源,好的学校更是稀缺性的资源。由于这种智能型学习平台的普及,在不远的今后,名校将人人可上,也确实是讲,对中国这种教育资源还相对匮乏的国家来讲,假如应对得当,资源匮乏的问题能够专门快得到缓解。这种智能网络学习平台的

42、崛起,在美国引起了广泛的关注和激烈的讨论。其中的缘故,是因为那个平台差不多不是一个镜头、一段录像那么简单,而是能提供“行为评价和诱导”的智能平台。例如,通过记录鼠标的点击,计算机能够记录你在一张幻灯片上停留的时刻,判不你在答错一道题之后有没有回头复习,统计你在网上提问的次数、参与讨论的多少,发觉不同的人对不同的知识点的不同反应,从而总结出哪些知识点需要重复或强调,哪种陈述方式或学习工具最有效等等规律。再依照这些规律和分析,对学习者的学习行为进行自动的提示、诱导和评价,以弥补没有老师面对面交流指导的不足。Udacity、Coursera和EDX等在线教育课程通过跟踪学生的Web交互来查找最佳的教

43、学方法。班级人数成千上万,产生的数据也十分惊人。教授们现在能够看到,假如大部分学生需要再看一遍课程内容,就可能表明某些地点他们还不太清晰。在斯坦福大学教授安德鲁恩格(Andrew Ng)讲授的Coursera机器学习课堂上,他注意到约有2000名学生课外作业的答案是错误的,但错误答案难道是相同的。显然,他们都犯了相同的错误,那么是什么呢?随着一点点的调查,他终于弄清晰了,他们把一个算法里的两个代数方程弄反了。因此假如现在还有其他学生犯同样错误的话,系统可不能简单地告诉他们做错了,而是会提示他们去检查算法。那个系统也应用了大数据,通过分析学生看过的每个论坛帖子以及他们是否正确完成课外作业,来预测

44、看过某个帖子之后的学生正确作答的概率,并由此来确定哪些论坛帖子最适合学生阅读。这些差不多上过去专门难得知的,现在却永久地改变了教学方式。在线教育服务Knewton是大数据应用于教育行业的典型,通过数据分析区分出每个学生的优缺点,从而给学生有效的指导。大卫告诉记者,美国最大的公立大学亚利桑那州公立大学曾运用这一系统来提高学生的数学水平,全校2000名学生使用该系统两学期之后,该大学的辍学率下降了56%,毕业率从64%升高到75%。购买飞机票大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。购买飞机票确实是一个专门好的例子。2003年,奥伦-埃齐奥尼(OrenEtzioni)预备乘

45、飞机去参加弟弟的婚礼。他明白飞机票越早预订越廉价,因此他提早几个月,就在网上预订了机票。在飞机上,埃齐奥尼得知不的专门多乘客买的机票都比他的廉价。对大多数人来讲,这种被敲竹杠的感受也许会随着他们走下飞机而消逝。然而,奥伦是有名的计算机专家,飞机着陆之后,奥伦下定决心要关心人们开发一个系统,用来推测当前网页上的机票价格是否合理。埃齐奥尼表示,他不需要去解开机票价格差异的奇妙。他要做的仅仅是预测当前的机票价格在以后一段时刻内会上涨依旧下降。那个方法是可行的,但操作起来并不是那么简单。那个系统需要分析所有特定航线机票的销售价格并确定票价与提早购买天数的关系。假如一张机票的平均价格呈下降趋势,系统就会

46、关心用户做出稍后再购票的明智选择。反过来,假如一张机票的平均价格呈上涨趋势,系统就会提醒用户赶忙购买该机票。换言之,这是埃齐奥尼针对9000米高空开发的一个加强版的信息预测系统。这确实是一个浩大的计算机科学项目。只是,那个项目是可行的。因此,埃齐奥尼开始着手启动那个项目。埃齐奥尼创立了一个预测系统,它关心虚拟的乘客节约了专门多钞票。那个预测系统建立在41天内价格波动产生的12000个价格样本基础之上,而这些信息差不多上从一个旅游网站上搜集来的。那个预测系统并不能讲明缘故,只能推测会发生什么。也确实是讲,它不明白是哪些因素导致了机票价格的波动。机票降价是因为专门多没卖掉的座位、季节性缘故,依旧所

47、谓的周六晚上不出门,它都不明白。那个系统只明白利用其他航班的数据来预测以后机票价格的走势。“买依旧不买,这是一个问题。”埃齐奥尼沉思着。他给那个研究项目取了一个特不贴切的名字,叫“哈姆雷特”。这项技术还能应用到其他领域,比如宾馆预订、二手车购买等。只要这些领域内的产品差异不大,同时存在大幅度的价格差和大量可运用的数据,就都能够应用这项技术。航班延误之候机经济学近年来,因航班延误产生的机场纠纷一度在中国成为一个热点话题。美国航班也有延误,但却几乎没有“罢乘”、“霸机”、冲击机场的事件。美国建立了一个统一的数据开放门户网站Data.Gov。 Data.Gov上线以后,美国交通部开放了全美航班起飞、

48、到达、延误的数据,有程序员利用这些数据开发了一个航班延误时刻的分析系统(Flyontime.us)。以波士顿至纽约的航线为例(起飞:Boston,Logan International;到达:New York,Kennedy International),在系统的主页上,输入机场名称,点击之后,用户能够看到不同天气、不同日期、不同时段、不同航空公司、不同航班等各种条件下飞机是否准时以及平均延误时刻的数据明细。该系统向全社会免费开放,任何人都能够通过它查询分析全国各次航班的延误率及机场等候时刻。那个系统能够关心消费者找到表现最佳,最符合自己需要的航班。那个系统上线之后,由于其简单、有用,获得了全

49、美多个新闻报刊的报道和关注,成为专门多人乘机、候机的行动指南。The-N与电影票房预测比方讲,The-N在好莱坞电影上映之前,就能利用海量数据和特定算法预测出一部电影的票房,而这些信息就能够为电影制片人所用。该公司拥有一个包括了过去几十年美国所有商业电影大约3000万条记录的数据库;数据库里有所有关于预算、电影流派、拍摄、阵容、获得奖项和收入等数据。电影的收入是指在北美和全球的票房、海外版权销售收入、影碟销售收入以及租金等。公司创始人兼总裁布鲁斯纳什(Bruce Nash)讲,我们公司开发了一个网络系统,其中有100万条类似“A编剧曾与B导演合作过,C导演曾与D演员合作过”如此的联系信息。该公

50、司通过找出如此复杂的相关关系来预测电影的收入。借助于那个预测,电影制片人能够向工作室或投资人募资。The-N甚至能够告诉客户改变哪些选择能够增收或者降低风险。一次,它的分析发觉有一部电影要是启用获得过奥斯卡提名的、身价在500万美元左右的某位一线演员做男一号的话,更有可能票房大卖。还有一次,纳什告诉IMAX工作室,一部航海纪录片需要把预算从1200万美元减少至800万才能赢利。纳什开玩笑地讲:“这可乐坏了制片人,然而导演就不快乐了。”从是否出品一部电影到签下哪个三垒手,公司的决策过程差不多有了本质且明显的改变。麻省理工学院商学院教授埃里克布伦乔尔森(Erik Brynjolfsson)和他的同

51、事一起进行了一项研究,发觉决策依靠数据的公司的运营情况比不重视数据的公司出色专门多这些公司的生产率比不使用数据进行决策的公司高6%。这是一个重要的竞争力,尽管随着大数据手段被越来越多的公司采纳,这种竞争力会慢慢削弱。FICO,“我们明白你改日会做什么”一个人的信用常被用来预测他/她的个人行为。美国个人消费信用评估公司,也被称为FICO,在20世纪50年代发明了信用分。2011年,FICO提出了“遵从医嘱评分”它分析一系列的变量来确定那个人是否会按时吃药,包括一些看起来有点怪异的变量。比方讲,一个人在某地居住了多久,那个人结婚了没有,他多久换一个工作以及他是否有私家车。那个评分会关心医疗机构节约

52、开支,因为它们会明白哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系,这只是一种相关关系。然而这就足够激发FICO的首席执行官扬言,“我们明白你改日会做什么。”这是他在2011年的投资人大会上讲的。另一个征信机构,益百利(Experian)有一种服务,能够依照个人的信用卡交易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国税局的匿名税收数据,益百利能够得出评分结果。相关关系的运用更加广泛了。中英人寿保险有限公司(Aviva)是一家大型保险公司,他们想利用信用报告和顾客市场分析数据来作为部分申请人的血液和尿液分析的关联物。这些分析结果被用来找出更有可能患高血

53、压、糖尿病和抑郁症的人。其中用来分析的数据包括好几百种生活方式的数据,比如爱好、常扫瞄的网站、常看的节目、收入可能等。通过利用相关关系,保险公司能够在每人身上节约125美元,然而那个纯数据分析法只需要花费5美元。有些人可能会觉得这种方法听起来专门恐惧,这些公司大概能够利用任何网络上的信息。这会让人们下次登陆极限运动网站和坐到电视机前观看幽默情景剧前三思而后行,因为不想因此支付更多的保险费用。让我们在接触任何信息的时候(同时也产生可能被分析的数据)都胆战心惊是一件特不糟糕的情况。但另一方面,那个系统有助于更多的人得到保险,这关于社会和保险公司差不多上有好处的。VISAMasterCard与商户推

54、举相对地,像VISA和MasterCard如此的信用卡发行商和其他大银行就站在了信息价值链最好的位置上。通过为小银行和商家提供服务,它们能够从自己的服务网猎取更多的交易信息和顾客的消费信息。它们的商业模式从单纯的处理支付行为转变成了收集数据。接下来的问题确实是,如何使用收集到的数据。就像ITA一样,MasterCard也能够把这些数据授权给第三方使用,然而它更倾向于自己分析、挖掘数据的价值。一个称为MasterCard Advisors的部门收集和分析了来自210个国家的15亿信用卡用户的650亿条交易记录,用来预测商业进展和客户的消费趋势。然后,它把这些分析结果卖给其他公司。它发觉,假如一个

55、人在下午四点左右给汽车加油的话,他专门可能在接下来的一个小时内要去购物或者去餐馆吃饭,而这一个小时的花费大概在3550美元之间。商家可能正需要如此的信息,因为如此它们就能在那个时刻段的加油小票背面附上加油站附近商店的优惠券。处于那个数据链的中心,MasterCard占据了收集数据和挖掘数据价值的黄金位置。我们能够想象,以后的信用卡公司可不能再对交易收取佣金,而是免费提供支付服务。作为回报,它们会获得更多的数据,而对这些数据进行复杂的分析之后,它们又能够卖掉分析结果以取得利润。Xoom与跨境汇款异常交易报警Xoom是一个专门从事跨境汇款业务的公司,它得到了专门多拥有大数据的大公司的支持。它会分析

56、一笔交易的所有相关数据,一旦发觉用“发觉卡”从新泽西州汇款的交易比平常多的话,系统就会报警。Xoom公司的首席执行官约翰-孔泽(JohnKunze)解释讲:“那个系统关注的是不应该出现的情况。”单独来看,每笔交易差不多上合法的,然而事实证明这是一个犯罪集团在试图诈骗。而发觉异常的唯一方法确实是,重新检查所有的数据,找出样本分析法错过的信息。无所不包的谷歌翻译系统2006年,谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”那个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库,也确实是全球的互联网,而不再只利用两种语言之间的文本翻译。谷歌翻译系统为了

57、训练计算机,会汲取它能找到的所有翻译。它会从各种各样语言的公司网站上去查找联合国和欧洲委员会这些国际组织公布的官方文件和报告的译本。它甚至会汲取速读项目中的书籍翻译。谷歌翻译部的负责人弗朗兹-奥齐(FranzOch)是机器翻译界的权威,他指出,“谷歌的翻译系统可不能像Candide一样只是认真地翻译300万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。”不考虑翻译质量的话,上万亿的语料库就相当于950亿句英语。尽管其输入源专门混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言依旧最好的,而且可翻译的内容更多。到2012年年中,谷歌数据库涵盖了60多种语言,甚至能够同意14种语言的

58、语音输入,并有专门流利的对等翻译。之因此能做到这些,是因为它将语言视为能够判不可能性的数据,而不是语言本身。假如要将印度语译成加泰罗尼亚语,谷歌就会把英语作为中介语言。因为在翻译的时候它能适当增减词汇,因此谷歌的翻译比其他系统的翻译灵活专门多。谷歌的翻译之因此更好并不是因为它拥有一个更好的算法机制。和微软的班科和布里尔一样,这是因为谷歌翻译增加了专门多各种各样的数据。从谷歌的例子来看,它之因此能比IBM的Candide系统多利用成千上万的数据,是因为它同意了有错误的数据。2006年,谷歌公布的上万亿的语料库,确实是来自于互联网的一些废弃内容。这确实是“训练集”,能够正确地推算出英语词汇搭配在一起的可能性。“从某种意义上,谷歌的语料库是有专门多不足的。因为谷歌语料库的内容来自于未通过滤的网页内容,因此会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且,它也没有详细的人工纠错后的注解。然而,谷歌语料库是其他语料库的好几百万倍大,如此的优势完全压倒了缺点。”微软与谷歌的拼写检查在过去的20多年中,微软为其Word软件开发出了一个强大的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论