大数据技术原理及应用_第1页
大数据技术原理及应用_第2页
大数据技术原理及应用_第3页
大数据技术原理及应用_第4页
大数据技术原理及应用_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据原理及技术第1页关于大数据?你怎么看第2页 最近几年,关于物联网,大数据,云计算,炒沸沸扬扬。似乎随便2个节点之间能够实现通信就能称作物联网;只要数据足够大就称之为大数据;只要有数据足够大计算就叫做云计算。当初国外社交媒体对于大数据热度称呼其为:Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too。

2、这比喻恰到好处。似懂非懂,似是而非感觉。 大数据是近两年被重复吟唱一首骊歌。自从1980年,著名未来学家阿尔文托夫勒在第三次浪潮一书中将大数据热情地赞颂为“第三次浪潮华彩乐章”开始,IT界就不停为之倾倒。不过,“大数据”真闯进凡人世界成为这个时代流行词汇还是从年开始。从baidu指数当中能够清楚地看到,“大数据”在年6月之前还处于默默无闻阶段,自此之后“大数据”指数一路飙升。第3页努力回想下生活中小场景吧!此刻做PPT,稍微一转眼,又看到了这些,这就不能算巧合吧!第4页1. 挚友亲密度、qq空间、淘宝推送东西等等包括到数据与数据之间相互关系,而并不是因果关系(往往习惯于因果思维逻辑去思索和了解

3、问题)2.DT(分销商),能够构想一下,当淘宝下单20分钟就收到到货信息,该是一个什么样体验。(其实你信息,什么时候想要什么东西都已经被商户预测啦,已经提前将商品运往目标地。甚至你途经广告屏,视频网站,包含使用APP都将引导你消费。)3.数据足够大就称呼其为大数据吗?(其实不然,关键在于其中承载信息。数据处理之后才能够称之为信息或者叫做知识。其实大数据能够这么了解,当数据增加速度超出了计算机处理能力增加速度,这时就产生了大数据问题,好比马车怎么也赶不上汽车,更别看汽车后备箱里面装了什么东西。当前流行Hadoop等工具、MapReduce等方法有效地形成一套能够灵活扩展处理方案,允许用空间(集群

4、规模)换取时间(运算时间),经过良好地管理,集群处理能力能够跟得上数据增加速度,由此允许人们处理更大数据(赶上汽车),从中提取出小数据所无法取得信息与价值(发觉汽车后备箱里面藏东西)。)当然这里面设计很多技术,数据采样、数据处理、并行计算、建模、机器学习,怎样使用这些数学工具以及专业知识,便成为关键问题。Some fantastic scenes第5页Some funny ideas 1.现在数据挖掘、人工智能以及大数据结合还只在一个较浅显层面,这方面还存在很大突破瓶颈。大数据应用应该表达在数据挖掘深度上面。比如深圳大疆无人机即使占据全世界消费级无人机百分之70市场份额,不过相比军事无人机,与

5、美国许多无人机存在不小差距。因为大疆大多数产品还是依靠遥控控制,离真正人工智能还是有一定距离。2.在baidu关键词中对比了“大数据”和“云计算”近几年趋势,发觉了一个有意思曲线,年“云计算”热度消退后,“大数据”走上了前台,但却再也没有恢复到“云计算”高度。这是不是表示“大数据”是“云计算”概念落空后一餐冷饭呢?可能,谁知道呢。3.快速处理数据尽快用于企业决议当最低程度数据边界找到后,确保数据快速处理就是你能力所在。尽你最大可能快速与客户、设备、平台基于这些数据进行接收和反馈,将分析和决议工作与执行行动实时对接。第6页4.小规模数据分析,会有很大噪音。1个人买了啤酒又买了尿不湿就说二者有什么

6、关联,不过假如几百万个用户都显示了这么关联,那就能说明一些问题了。可是数据量一旦上了规模,传统系统就没方法很好处理了。此案例还是被纳为营销界最成功案例之一,究其竟还是巧妙产品捆绑销售方式!PS:(发觉啤酒和尿不湿多为男人在周末采购,而且购置这两种产品用户普通都是年纪在25至35周岁青年男子,因为孩子尚在哺乳期,多数男人都接到了夫人“圣旨”,下班后带尿不湿回家,而周末正是美国体育比赛高峰期,一杯啤酒就着比赛是多么惬意事!)于是有销售人员得到启发,在超市刻意将这2件商品摆放距离放近了许多,而且放置了一些牛肉干之类。最终每年可增加几百美元销售额。 阿里亚马逊ebay这些,成千上万种货物,天天成TB甚

7、至PB数据量,要对大量不一样货物种类作分析和推荐,近实时地更新给用户看;推特和Facebook这些,依据用户公布信息和行为模式,快速地分析整合数据给出准确广告投放是这些企业生存根本。等移动互联网或者物联网更普及,数据量只会更大,结构更随意,分析更困难。能从中找到有意思信息,用传统伎俩就更难了。第7页大数据产生大数据技术介绍大数据技术应用第8页大数据产生第9页起源基于历史数据,利用数据建模定量分析不一样球员特点,合理搭配,重新组队;打破传统思维,经过分析比赛数据,寻找“性价比”最高球员,利用数据取得成功;布拉德皮特主演点球成金是一部美国奥斯卡获奖影片,所讲述是皮特饰演棒球队总经理利用计算机数据分

8、析,对球队进行了翻天覆地改造,让一家不起眼小球队能够取得巨大成功。第10页起源Twitter上公布98000+新微博13000+个iPhone应用下载Skype上37万+分钟语音通话上传6600张新照片到flickr发出1.68亿+条EmailYouTube上上传600+新视频淘宝光棍节10680+个新订单Facebook上更新69.5万+条新状态12306出票1840+张数据爆炸式增加每分钟数据第11页起源依据IDC 监测,人类产生数据量正在呈指数级增加,大约每两年翻一番,这个速度在 年之前会继续保持下去。这意味着人类在最近两年产生数据量相当于之前产生全部数据量数据量增加数据结构日趋复杂大量

9、新数据源出现则造成了非结构化、半结构化数据暴发式增加。这些由我们创造信息背后产生这些数据早已经远远超越了当前人力所能处理范围。第12页起源传统数据管理方式缺点:范围非结构化数据、内外部数据混搭、云化处理等都会冲击传统管理模式。形式数据加工复杂度和速度要求越来越高,也对传统管理模式提出挑战。内涵数据交换、转让、租赁、交易等各种创新模式,也要求新管理伎俩。第13页起源天天几百 GB、 几 TB 资料,且连续成长中储存Storing 在收数据同时做必要前置处理 (pre-processing),并区分数据处理优先等级 (prioritizing)计算Processing怎样有效防止因硬件毁坏所造成资

10、料损毁管理Managing怎样从中挖掘出所关注事件 pattern 或 behavior分析Analyzing我们需要什么样数据管理方式?第14页起源大数据应运而生那么,什么是大数据?第15页大数据技术介绍第16页 当前对大数据还未有一个公认定义,不一样定义基本上是从特征出发,试图给出大数据定义。大数据技术介绍 大数据很抽象,表示数据规模庞大。 大数据泛指巨量数据集,因可从中 挖掘出有价值信息而受到重视。 华尔街日报将大数据时代、智能化生 产、 无线网络革命称为引领未来繁荣发 展重大技术变革。第17页大数据技术介绍 何为大数据大数据指是规模超出现有数据库工具获取、存放、管理和分析能力数据集额,

11、并同时强调并不是超出某个特定数量级数据集才是大数据大数据是具备海量、高速、多样、可变等特征多维数据集,需要经过可伸缩体系结构实现高效存放、处理和分析。技术能力视角大数据内涵视角第18页大数据技术 大数据是需要新处理模式才能含有更强决议力、洞察发觉力和流程优化能力海量、高增加率和多样化信息资产。大数据就是“未来新石油”。大数据带来思维变革:更多 不是随机样本而是全部数据更杂 不是准确性而是混杂性更加好 不是因果关系而是相关关系第19页大数据技术更多人口大普查全数据模式随机采样样本模式大数据应用全数据模式是指在国家统一要求时间内,按照统一方法、统一项目、统一调查表和统一标准,对全国人口普遍地、逐户

12、逐人地进行一次性调查登记;主要特点是调查组织高度集中性,普查对象全方面完整性;人口大普查耗时费劲,普通来讲是十年一次,新中国成立以来共进行了6次人口大普查;人口大普查是一个经典全数据模式;大数据时代小数据时代第20页大数据技术更多人口大普查全数据模式随机采样样本模式大数据应用全数据模式人口大普查是一个耗时花费工程,普通是以十年为单位;各国每年需要进行几百次小规模人口调查,采取随机采样分析方式,这是一个样本模式;源于实用而且很好创新!随机采样分析是小数据时代产物;大数据时代小数据时代第21页大数据技术更多人口大普查全数据模式随机采样样本模式大数据应用全数据模式我们已具备了大数据各种技术能力,思维

13、需要转换到大数据全数据模式:样本=全部;大数据不用随机分析法这么捷径,而采取全部数据方法;这里“大”是相正确相扑比赛全部数据存放还不需要一个TB,不过是全部数据!在大数据时代采取随机采样法,就像在汽车时代骑马一样,即使特定情况下仍可采样随机采样法,不过慢慢地我们会放弃它;大数据时代小数据时代第22页大数据技术Google利用网络大数据预测流感基于全数据进行相扑比赛作弊分析埃齐奥尼Farecast有10万亿条数据预测机票价格乔布斯癌症抗争,本身全部DNA和肿瘤DNA排序更多第23页大数据技术更杂从皮尺到哈勃望远镜,人类一直在追求测量准确性,首先源于对未知世界认知;首先也源于搜集信息有限性;大数据

14、简单算法比小数据复杂算法更有效;IBM机器翻译 VS Google机器翻译;纷繁数据越多越好;大数据时代要求我们重新审阅数据准确性优略;大数据不但让我们不再期待准确性,也让我们无法实现准确性;错误不是大数据固有问题,而是一个需要我们去处理问题,而且会将长久存在;混杂性,不是尽力防止,而是标准路径;第24页大数据技术更加好佛教三世因果经主要讲:一是人命是自己造就;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事因果循环报应规律。佛教关于因果报应解释原因和结果是揭示客观世界中普遍联络着事物含有先后相继、彼此制约一对范围。原因是指导起一定现象现象,结果是指因为原因作用而引发现象。哲学范围因果关

15、系大数据相关关系,而不强调因果关系;(舍恩伯格),其实这个只是一个对无法探究因果妥协,人类应该去探寻因果,因为世界存在客观运转规律;舍恩伯格对大数据相关性解释Kaggle,一个为全部些人提供数据挖掘竞赛企业,在一次关于二手车数据分析比赛中得到,橙色汽车有质量问题可能性是其它颜色汽车二分之一。为何?探寻事物因果关系是人类本性,不过大数据时代能够做某种程度妥协,能够只需要关注“是什么”,而忽略“为何?”第25页大数据技术VolumeVarietyValueVelocity非结构化数据超大规模和增加;总数据量8090%;比结构化数据增加快10倍到50倍;是传统数据仓库10倍到50倍。大数据异构和多样

16、性;很多不一样形式(文本、图像、视频、机器数据);无模式或者模式不显著;不连贯语法或句义。大量不相关信息;对未来趋势与模式可预测分析;深度复杂分析(机器学习、人工智能Vs传统商务智能)实时分析而非批量式分析;数据输入、处理与丢弃;立竿见影而非事后见效4V特征第26页大数据技术Volume1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相当于50%全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过话语1ZB如同全世界海滩上沙子数量总和1YB相当于7000位人类体内微细胞总和普通情况下,大数据是以PB、EB、ZB为单位进行计量第27页大数据技术Variety数据起源多数

17、据类型多关联性强企业内部多个应用系统数据、互联网和物联网兴起,带来了微博、社交网站、传感器等各种起源。保留在关系数据库中结构化数据只占少数,7080%数据是如图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据。数据之间频繁交互,比如游客在旅行途中上传图片和日志,就与游客位置、行程等信息有了很强关联性。第28页大数据技术Value大数据不但仅是技术,关键是产生价值能够从各个层面进行优化,更要考虑整体挖掘大数据价值类似沙里淘金,从海量数据中挖掘稀疏但宝贵信息;价值密度低,是大数据一个经典特征;第29页大数据技术Velocity82254132215327现在及未来几年内美国移动网络数据

18、流量增加(PB/月)源自英国Coda研究咨询企业大数据增加速度快大数据处理速度快实时数据流处理要求,是区分大数据引用和传统数据仓库技术,BI技术关键差异之一;1s 是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,不然处理结果就是过时和无效;第30页中央政府对大数据重视程度31习近平政府管理不但要考究策略,还要考究伎俩,比如大数据技术应用,3月8日“大数据”首次写入政府工作汇报奥巴马“将投入巨款拉动与大数据相关产业”“数据为“未来石油“,是美国综合国力一部分,是与陆权、海权、空权同等主要“国家关键资产”。李克强:加紧推进全国中小企业征信系统建设,经过大数据等技术优化中小企业征信资质。李克

19、强经济数据和目标深入调整,中小企业将面临更大压力,互联网金融除了处理便利性问题外,更主要是怎样围绕特有大数据资源展开对实体经济服务汪洋数据为王,财政工作离不开大数据第31页大数据包括关键技术 需求 海量数据存放技术 实时数据处理技术 数据高速传输技术 搜索技术 数据分析技术技术Hadoop,X86/MPPMap ReduceStreaming dataInfini BandEnterprise SearchText Analytics EngineVisual Data Modeling描述分布式文件系统流计算引擎服务器、存放间高速通信文本检索、智能搜索、实时搜索自然语言处理、文本情感分析、机

20、器学习、聚类关联、数据模型第32页大数据技术生态大数据本身是个很宽泛概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超出单机尺度数据处理而诞生。你能够把它比作一个厨房所以需要各种工具。锅碗瓢盆,各有各用处,相互之间又有重合。不过每个工含有自己特征,即使奇怪组合也能工作,不过未必是最正确选择。这里限于时间考虑只介绍了Hadoop HSFS和MapReduce / Tez / Spark。 该图为一个Hadoop生态圈示意图第33页 HDFS(Hadoop Distributed FileSystem分布式文件系统)设计本质上是为了大量数据能横跨成百上千台机器,不过你看到是一个文件系统而

21、不是很多文件系统。比如你说我要获取/hdfs/tmp/file1数据,你引用是一个文件路径,不过实际数据存放在很多不一样机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。 接下来处理数据,虽然HDFS可认为你整体管理不一样机器上数据,不过这些数据太大了。那么我如果要用很多台机器处理,我就面临了怎样分配工作,如果一台机器挂了怎样重新开启对应任务,机器之间怎样相互通信交换数据以完成复杂计算等等。这就是MapReduce / Tez / Spark功能。MapReduce是第一代计算引擎,Tez和Spark是第二代。MapReduce

22、设计,采取了很简化计算模型,只有Map和Reduce两个计算过程(中间用Shuffle串联)第34页什么是Map什么是Reduce? 考虑假如你要统计一个巨大文本文件存放在类似HDFS上,你想要知道这个文本里各个词出现频率。你开启了一个MapReduce程序。Map阶段,几百台机器同时读取这个文件各个部分,分别把各自读到部分分别统计出词频,产生类似(hello, 12100次),(world,15214次)等等这么Pair(我这里把Map和Combine放在一起说方便简化);这几百台机器各自都产生了如上集合,然后又有几百台机器开启Reduce处理。Reducer机器A将从Mapper机器收到全

23、部以A开头统计结果,机器B将收到B开头词汇统计结果(当然实际上不会真以字母开头做依据,而是用函数产生Hash值以防止数据串化。因为类似X开头词必定比其它要少得多,而你不希望数据处理各个机器工作量相差悬殊)。然后这些Reducer将再次汇总,(hello,12100)(hello,12311)(hello,345881)= (hello,370292)。每个Reducer都如上处理,你就得到了整个文件词频结果。这看似是个很简单模型,但很多算法都能够用这个模型描述了。 MapReduce简单模型即使好用,不过很粗笨。第二代Tez和Spark除了内存Cache之类新feature,本质上来说,是让M

24、ap/Reduce模型更通用,让Map和Reduce之间界限更含糊,数据交换更灵活,更少磁盘读写,方便更方便地描述复杂算法,取得更高吞吐量。 第35页大数据包括关键技术基于SQL语言: 面对OLAP传统行和列不基于SQL或map-reduce: 由谷歌率先发起数据流: 基于运行商数据直接生成任意图形新平台技术数据入口/汇聚数据平台分析不一样范围服务传统交付模式-单片或基于设备处理方案云: 能够充分利用物理设施弹性,以实现处理快速增加数据能力“数据库将演变成一个虚拟,基于云计算,超级可扩展分布式平台。”- Forrester analyst Jim Kobielus新传输方案第36页大数据包括关

25、键技术大数据(Hadoop)NoSQL数据库数据仓库布署架构水平扩展水平扩展大部分垂直扩展,少数水平扩展大部分水平扩展数据类型文件存放,没有数据类型简单数据类型丰富数据类型丰富数据类型数据模型非常简陋数据模型简单灵活数据模型丰富数据模型完善丰富数据模型数据关系没有数据关系描述非常简单数据关系描述数据关系完善数据关系完善数据一致无一致性弱一致性强一致性强一致性数据安全安全性很弱安全性很弱安全性很高安全性很高计算类型离线批量处理,只读,低并发实时CRUD操作,海量并发实时CRUD操作,高并发离线批量处理,只读,低并发适用场景低密度数据海量存放,数据预处理,预计算高并发实时在线交易,查询,报表高价值

26、数据统一存放和计算平台常见用例日志处理,用户行为分析,搜索引擎用户资料,微博,金融反欺诈金融账户,电信计费,税务等企业数据仓库第37页关于大数据相关性关系一些争议性观点 我以为大数据信息起源还存在着不足。首先,当前网络并不能覆盖生活全部。依然存在一部分人群与网络联络不亲密。假如单凭网络数据就对信息做判断,其实是很片面。还相关于在不少关于大数据书籍或是论文中强调以相关关系替换因果关系说法。我表示不太明白这点。因为当前计算机所作出都是相关关系判断,而无法提供给人类明确因果关系。不过基于自己以前知识积累,感觉人类在利用计算机进行数据处理时候,基本上都是由计算机给出基础之上再加以人为因果判断。哪怕是格

27、兰杰因果检验,即使没学过,不过个人了解其实质也不是反应两个变量之间因果关系,而是“依赖于使用过去一些时点上全部信息最正确最小二乘预测方差”。所以在多数情况下,比如在学习多元统计、计量经济课程时候,我们还是考虑变量之间相关性。不过相关不代表因果。这就跟女士裙长和股市涨跌一样,不是说女士裙子越短股市就越能往上走。而大数据就真没利用到因果关系吗?我以为也不是这么。比如说之前谷歌经过大数据做流行病预测,其实还是利用了因果关系。谷歌就是假定人们去网上进行相关搜索原因是人们自己或者身边人出现了相关症状。我以为这个世界是不可能单纯地依靠“相关性”来决议,因为这违反了人类好奇心。事物之间相关性越大,就越是让人

28、想要知道这背后原因。对我来说,仅仅基于相关关系而不考虑背后因果关系决议有点空中楼阁,不太靠谱。所以我不认为因果关系会退出历史舞台。第38页大数据技术大数据当前所存在安全隐患:大数据基础设施安全威胁大数据存放安全威胁隐私泄露问题针对大数据高级连续性攻击数据访问安全威胁其它安全威胁第39页大数据时代下没有隐私 一个技术领域大牛讨论过关于隐私信息重组(这个词我们自己造),实际就是充分利用掌握信息去破解密码。常规算法是跑密码字典,不得不认可,中国人在密码上不在意,当初学校我在校区我同级共7000多人,有3000多人密码,我能用我设计37个密码跑出来,37个啊。在利用学校bug后,我拿到个人信息,然后经

29、过我们设计算法,利用了个人信息,得出几组最可能密码,加入37个密码中,经过测试有4900多个人密码被破解自那以后我发觉人们对密码设置规则固定而且与个人信息相关在大数据下,基于云计算,加上特定网络爬虫,完全能够爬取任何一个人信息。接着,我们能够尝试撞库了,惯用126.163。新浪,QQ邮箱,雅虎,天涯,csdn等等只要设计再设计时将全部网站后台或者前台登录模拟出来了,完全能够利用这些信息去尝试登录。搜索电影女主角故事(人肉搜索)第40页Some tips 一、谨防钓鱼网站二、慎连无偿WiFi三、不在社交平台中随意透露个人信息四、慎重参加网络调查、抽奖活动五、妥善处理快递单、车票、快递包装盒上六、

30、及时去除旧手机数据信息、废弃手机卡第41页大数据应用第42页应用分析预测第43页大数据应用 此事经被纽约时报报道后,塔吉特“大数据”巨大威力轰动全美。 在美国,有一位父亲怒气冲冲地跑到塔吉特卖场,责问为何将带有婴儿用具优惠券广告邮件,寄送给他正在念高中女儿? 然而以后证实,他女儿果真怀孕了。这名女孩搜寻商品关键词,以及在社交网站所显露行为轨迹,使沃尔玛捕捉到了她怀孕信息。 模型发觉,许多孕妇在第2个妊娠期开始会买许多大包装无香味护手霜;在怀孕最初20周大量购置补充钙、镁、锌善存片之类保健品。最终塔吉特选出了25种经典商品消费数据构建了“怀孕预测指数”,经过这个指数,Target能够在很小误差范

31、围内预测到用户怀孕情况,所以Target就能早早地把孕妇优惠广告寄发给用户。第44页大数据应用 亚马逊 “预测式发货”新专利,能够经过对用户数据分析,在他们还没有下单购物前,提前发出包裹。 这项技术能够缩短发货时间,从而降低消费者前往实体店冲动。从下单到收货之间时间延迟可能会降低人们购物意愿,造成他们放弃网上购物。 所以,亚马逊可能会依据之前订单和其它原因,预测用户购物习惯,从而在他们实际下单前便将包裹发出。依据该专利文件,即使包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹仍会暂存在快递企业转运中心或卡车里。 亚马逊为了决定要运输哪些货物,亚马逊可能会参考之前订单、商品搜索统计、愿望清单

32、、购物车,甚至包含用户鼠标在某件商品上悬停时间。第45页大数据应用 在筹备大选过程中,奥巴马背后数据分析团体一直在搜集、存放和分析选民数据。 在这次大选中,奥巴马竞选阵营高级助理们决定将参考这一团体所得出数据分析结果来制订下一步竞选方案。利用在竞选中可取得选民行动、行为、支持偏向方面大量数据。 比如,在东海岸找到一位对女性群体具备相同号召力名人,从而复制“克鲁尼效应”并为奥巴马筹集竞选资金。 “Twitter政治指数”提供了一个衡量社会化媒体平台用户怎样评价候选人方式。奥巴马主动情绪指数是59,而罗姆尼只有53。第46页大数据应用 回顾“老鼠仓”查处过程,在马乐一案中,“大数据”首次介入。深交

33、所以前经过“大数据”查出可疑账户高达300个。 实际上,早在,上交所曾经有过利用“大数据”设置“捕鼠器”构想。经过建立相关模型,设定一定指标预警,即相关指标到达某个预警点时监控系统会自动报警。 而此次在马乐案中亮相深交所“大数据” 监测系统,更是引发了广泛关注。深交全部几十人监控室,设置了200多个指标用于监测预计,一旦出现股价偏离大盘走势,深交所利用大数据查探异动背后是哪些人或机构在参加。第47页大数据应用 在摩托车生产厂商哈雷戴维森企业位于宾尼法尼亚州约克市新翻新摩托车制造厂,软件不停在统计着微小制造数据,如喷漆室风扇速度等等。当软件觉察风扇速度、温度、湿度或其它变量脱离要求数值,它就会自

34、动调整机械。哈雷戴维森同时还使用软件,还寻找制约企业每86秒完成一台摩托车制造工作瓶颈。最近,这家企业管理者经过研究数据,认为安装后挡泥板时间过长。经过调整工厂配置,哈雷戴维森提升了安装该配件速度。 美国一些纺织及化工生产商,依据从不一样百货企业POS机上搜集产品销售速度信息,将原来18周送货速度降低到3周,这对百货企业分销商来说,能以更加快速度拿到货物,降低仓储。对生产商来说,积攒材料仓储也能降低很多。第48页大数据应用 谷歌基于天天来自全球30 多亿条搜索指令设置了一个系统,这个系统在 年甲流暴发之前就开始对美国各地域进行“流感预报”,并推出了“谷歌流感趋势”服务。 谷歌在这项服务产品介绍

35、中写道:搜索流感相关主题人数与实际患有流感症状人数之间存在着亲密关系。即使并非每个搜索“流感”人都患有流感,但谷歌发觉了一些检索词条组合并用特定数学模型对其进行分析后发觉,这些分析结果与传统流感监测系统监测结果相关性高达97%。 这也就表示,谷歌企业能做出与疾控部门一样准确传染源位置判断,而且在时间上提前了一到两周。”第49页大数据应用 国际大石油企业一直都非常重视数据管理。如雪佛龙企业将5万台桌面系统与1800个企业站点连接,消除炼油、销售与运输“下游系统”中重复流程和系统,每年节约5000万美元,过去4年已取得了净现值约为2亿美元回报。 准确预测太阳能和风能需要分析大量数据,包含风速、云层等气象数据。丹麦风轮机制造商维斯塔斯( Vestas Wind Systems),经过在世界上最大超级计算机上布署IBM大数据处理方案,得以经过分析包含PB量级气象汇报潮汐相位、地理空间、卫星图像等结构化及非结构化海量数据,优化风力涡轮机布局,有效提升风力涡轮机性能,为客户提供准确和优化风力涡轮机配置方案不但帮助客户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论