




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据原理及技术 最近几年,关于物联网,大数据,云计算,炒的沸沸扬扬。似乎随便2个节点之间能够实现通信就能称作物联网;只要数据足够大就称之为大数据;只要有数据足够大的计算就叫做云计算。当时国外社交媒体对于大数据的热度称呼其为:Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too。 这比喻恰到好处。似懂非懂,
2、似是而非的感觉。 大数据是近两年被反复吟唱的一首骊歌。自从1980年,著名未来学家阿尔文托夫勒在第三次浪潮一书中将大数据热情地赞颂为“第三次浪潮的华彩乐章”开始,IT界就不断的为之倾倒。不过,“大数据”真的闯入凡人世界成为这个时代的流行词汇还是从2012年开始。从baidu指数当中可以清晰地看到,“大数据”在2012年6月之前还处在默默无闻阶段,自此之后“大数据”指数一路飙升。努力回忆下生活中的小场景吧!此刻做PPT,稍微一转眼,又看到了这些,这就不能算巧合吧!1. 好友亲密度、qq空间、淘宝推送的东西等等涉及到数据与数据之间的相互关系,而并不是因果关系(往往习惯于因果思维逻辑去思考和理解问题
3、)2.DT(分销商),可以设想一下,当淘宝下单20分钟就收到到货信息,该是一种什么样的体验。(其实你的信息,什么时候想要什么东西都已经被商户预测啦,已经提前将商品运往目的地。甚至你路过的广告屏,视频网站,包括使用的APP都将引导你消费。)3.数据足够大就称呼其为大数据吗?(其实不然,关键在于其中承载的信息。数据处理之后才可以称之为信息或者叫做知识。其实大数据可以这样理解,当数据增长速度超过了计算机处理能力的增长速度,这时就产生了大数据问题,好比马车怎么也赶不上汽车,更别看汽车后备箱里面装了什么东西。当前流行的Hadoop等工具、MapReduce等方法有效地形成一套可以灵活扩展的解决方案,允许
4、用空间(集群规模)换取时间(运算时间),通过良好地管理,集群的处理能力能够跟得上数据的增长速度,由此允许人们处理更大的数据(赶上汽车),从中提取出小数据所无法获得的信息与价值(发现汽车后备箱里面藏的东西)。)当然这里面设计很多技术,数据采样、数据处理、并行计算、建模、机器学习,如何使用这些数学工具以及专业知识,便成为核心问题。Some fantastic scenesSome funny ideas 1.现在的数据挖掘、人工智能以及大数据的结合还只在一个较浅显的层面,这方面还存在很大的突破瓶颈。大数据的应用应该体现在数据挖掘的深度上面。例如深圳的大疆无人机虽然占据全世界消费级无人机百分之70的
5、市场份额,但是相比军事无人机,与美国的许多无人机存在不小的差距。因为大疆的大多数产品还是依靠遥控控制,离真正的人工智能还是有一定的距离的。2.在baidu关键词中对比了“大数据”和“云计算”的近几年趋势,发现了一个有意思的曲线,2012年“云计算”热度消退后,“大数据”走上了前台,但却再也没有恢复到“云计算”的高度。这是不是表示“大数据”是“云计算”概念落空后的一餐冷饭呢?也许,谁知道呢。3.快速的处理数据尽快用于公司决策当最低限度的数据边界找到后,保证数据的快速处理就是你的能力所在。尽你的最大可能快速与客户、设备、平台基于这些数据进行接受和反馈,将分析和决策工作与执行行动实时对接。4.小规模
6、的数据分析,会有很大噪音。1个人买了啤酒又买了尿不湿就说两者有什么关联,但是如果几百万个用户都显示了这样的关联,那就能说明一些问题了。可是数据量一旦上了规模,传统的系统就没办法很好的处理了。此案例还是被纳为营销界最成功的案例之一,究其竟还是巧妙的产品捆绑销售方式!PS:(发现啤酒和尿不湿多为男人在周末采购,而且购买这两种产品的顾客一般都是年龄在25至35周岁的青年男子,由于孩子尚在哺乳期,多数男人都接到了夫人的“圣旨”,下班后带尿不湿回家,而周末正是美国体育比赛的高峰期,一杯啤酒就着比赛是多么惬意的事!)于是有销售人员得到启发,在超市刻意将这2件商品摆放距离放近了许多,并且放置了一些牛肉干之类
7、的。最后每年可增加几百美元的销售额。 阿里亚马逊ebay这些,成千上万种货物,每天成TB的甚至PB的数据量,要对大量不同的货品种类作分析和推荐,近实时地更新给用户看;推特和Facebook这些,根据用户发布的信息和行为模式,快速地分析整合数据给出精确广告投放是这些公司生存的根本。等移动互联网或者物联网更普及,数据量只会更大,结构更随意,分析更困难。能从中找到有意思的信息,用传统手段就更难了。大数据的产生大数据技术的介绍大数据技术的应用大数据的产生来源基于历史数据,利用数据建模定量分析不同球员特点,合理搭配,重新组队;打破传统思维,通过分析比赛数据,寻找“性价比”最高球员,运用数据取得成功;布拉
8、德皮特主演的点球成金是一部美国奥斯卡获奖影片,所讲述的是皮特扮演的棒球队总经理利用计算机数据分析,对球队进行了翻天覆地的改造,让一家不起眼的小球队能够取得巨大的成功。来源Twitter上发布98000+新微博13000+个iPhone应用下载Skype上37万+分钟的语音通话上传6600张新照片到flickr发出1.68亿+条EmailYouTube上上传600+新视频淘宝光棍节10680+个新订单Facebook上更新69.5万+条新状态12306出票1840+张数据的爆炸式增长每分钟的数据来源根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会
9、继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。来源传统数据管理方式的缺陷:范围非结构化数据、内外部数据混搭、云化处理等都会冲击传统管理模式。形式数据加工的复杂度和速度要求越来越高,也对传统管理模式提出挑战。内涵数据的交换、转让、租赁、交易等各种创新模式,也要求新的管理手段。来源每天几百 GB、 几 TB 的资料,且持续成长中储存Storing 在收数据的同时做必要的前置处理 (pre-processin
10、g),并区分数据处理的优先等级 (prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing如何从中挖掘出所关注事件的 pattern 或 behavior分析Analyzing我们需要什么样的数据管理方式?来源大数据应运而生那么,什么是大数据?大数据技术的介绍 目前对大数据尚未有一个公认的定义,不同的定义基本上是从特征出发,试图给出大数据的定义。大数据技术介绍 大数据很抽象,表示数据规模的庞大。 大数据泛指巨量的数据集,因可从中 挖掘出有价值的信息而受到重视。 华尔街日报将大数据时代、智能化生 产、 无线网络革命称为引领未来繁荣发 展的重大
11、技术变革。大数据技术介绍 何为大数据大数据指的是规模超过现有数据库工具获取、存储、管理和分析能力的数据集额,并同时强调并不是超过某个特定数量级的数据集才是大数据大数据是具备海量、高速、多样、可变等特征的多维数据集,需要通过可伸缩的体系结构实现高效的存储、处理和分析。技术能力视角大数据内涵视角大数据技术 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。大数据带来的思维变革:更多 不是随机样本而是全部数据更杂 不是精确性而是混杂性更好 不是因果关系而是相关关系大数据技术更多人口大普查全数据模式随机采样样本模式大数据
12、应用全数据模式是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准,对全国人口普遍地、逐户逐人地进行的一次性调查登记;主要特点是调查组织高度集中性,普查对象的全面完整性;人口大普查耗时费力,一般来讲是十年一次,新中国成立以来共进行了6次人口大普查;人口大普查是一种典型的全数据模式;大数据时代小数据时代大数据技术更多人口大普查全数据模式随机采样样本模式大数据应用全数据模式人口大普查是一种耗时耗费的工程,一般是以十年为单位;各国每年需要进行几百次的小规模人口调查,采取随机采样分析的方式,这是一种样本模式;源于实用并且很好的创新!随机采样分析是小数据时代的产物;大数据时代
13、小数据时代大数据技术更多人口大普查全数据模式随机采样样本模式大数据应用全数据模式我们已具备了大数据的各种技术能力,思维需要转换到大数据的全数据模式:样本=全部;大数据不用随机分析法这样的捷径,而采用所有数据的方法;这里的“大”是相对的相扑比赛所有数据存储还不需要一个TB,但是是所有的数据!在大数据时代采用随机采样法,就像在汽车时代骑马一样,虽然特定情况下仍可采样随机采样法,但是慢慢地我们会放弃它;大数据时代小数据时代大数据技术Google利用网络大数据预测流感基于全数据进行相扑比赛的作弊分析埃齐奥尼的Farecast有10万亿条数据预测机票价格乔布斯的癌症抗争,自身所有DNA和肿瘤DNA排序更
14、多大数据技术更杂从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;大数据的简单算法比小数据的复杂算法更有效;IBM的机器翻译 VS Google的机器翻译;纷繁的数据越多越好;大数据时代要求我们重新审视数据精确性的优略;大数据不仅让我们不再期待精确性,也让我们无法实现精确性;错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;混杂性,不是竭力避免,而是标准途径;大数据技术更好佛教三世因果经主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。佛教关于因果报应的解释原
15、因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。哲学范畴的因果关系大数据的相关关系,而不强调因果关系;(舍恩伯格),其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;舍恩伯格对大数据的相关性解释Kaggle,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半。为什么?探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”大数据技术VolumeV
16、arietyValueVelocity非结构化数据的超大规模和增长;总数据量的8090%;比结构化数据增长快10倍到50倍;是传统数据仓库的10倍到50倍。大数据的异构和多样性;很多不同形式(文本、图像、视频、机器数据);无模式或者模式不明显;不连贯的语法或句义。大量的不相关信息;对未来趋势与模式的可预测分析;深度复杂分析(机器学习、人工智能Vs传统商务智能)实时分析而非批量式分析;数据输入、处理与丢弃;立竿见影而非事后见效4V特征大数据技术Volume1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的
17、话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和一般情况下,大数据是以PB、EB、ZB为单位进行计量的大数据技术Variety数据来源多数据类型多关联性强企业内部多个应用系统的数据、互联网和物联网的兴起,带来了微博、社交网站、传感器等多种来源。保存在关系数据库中的结构化数据只占少数,7080%的数据是如图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据。数据之间频繁交互,比如游客在旅行途中上传的图片和日志,就与游客的位置、行程等信息有了很强的关联性。大数据技术Value大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体挖掘大数据
18、的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;价值密度低,是大数据的一个典型特征;大数据技术Velocity82254132215327现在及未来几年内美国的移动网络数据流量增长(PB/月)源自英国Coda研究咨询公司大数据的增长速度快大数据的处理速度快实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;1s 是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;中央政府对大数据的重视程度30习近平政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日“大数据”首次写入政府工作报告奥巴马“将投入巨资拉
19、动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李克强:加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克强经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋数据为王,财政工作离不开大数据大数据涉及的关键技术 需求 海量数据存储技术 实时数据处理技术 数据高速传输技术 搜索技术 数据分析技术技术Hadoop,X86/MPPMap ReduceStreaming dataInfini BandEnterpri
20、se SearchText Analytics EngineVisual Data Modeling描述分布式文件系统流计算引擎服务器、存储间高速通信文本检索、智能搜索、实时搜索自然语言处理、文本情感分析、机器学习、聚类关联、数据模型大数据的技术生态大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。这里限于时间考虑只介绍了Hadoop HSFS和MapReduce / Tez /
21、Spark。 该图为一个Hadoop生态圈示意图 HDFS(Hadoop Distributed FileSystem分布式文件系统)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。 接下来处理数据,虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。那么我如果要用很多台机器处理,我就面临了如何分配工作,如果一台
22、机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapReduce / Tez / Spark的功能。MapReduce是第一代计算引擎,Tez和Spark是第二代。MapReduce的设计,采用了很简化的计算模型,只有Map和Reduce两个计算过程(中间用Shuffle串联)什么是Map什么是Reduce? 考虑如果你要统计一个巨大的文本文件存储在类似HDFS上,你想要知道这个文本里各个词的出现频率。你启动了一个MapReduce程序。Map阶段,几百台机器同时读取这个文件的各个部分,分别把各自读到的部分分别统计出词频,产生类似(hello, 121
23、00次),(world,15214次)等等这样的Pair(我这里把Map和Combine放在一起说以便简化);这几百台机器各自都产生了如上的集合,然后又有几百台机器启动Reduce处理。Reducer机器A将从Mapper机器收到所有以A开头的统计结果,机器B将收到B开头的词汇统计结果(当然实际上不会真的以字母开头做依据,而是用函数产生Hash值以避免数据串化。因为类似X开头的词肯定比其他要少得多,而你不希望数据处理各个机器的工作量相差悬殊)。然后这些Reducer将再次汇总,(hello,12100)(hello,12311)(hello,345881)= (hello,370292)。每个
24、Reducer都如上处理,你就得到了整个文件的词频结果。这看似是个很简单的模型,但很多算法都可以用这个模型描述了。 MapReduce的简单模型虽然好用,但是很笨重。第二代的Tez和Spark除了内存Cache之类的新feature,本质上来说,是让Map/Reduce模型更通用,让Map和Reduce之间的界限更模糊,数据交换更灵活,更少的磁盘读写,以便更方便地描述复杂算法,取得更高的吞吐量。 大数据涉及的关键技术基于SQL语言: 面对OLAP的传统行和列不基于SQL或map-reduce的: 由谷歌率先发起数据流: 基于运行商数据直接生成任意图形新平台技术数据入口/汇聚数据平台分析不同范围
25、的服务传统交付模式-单片或基于设备的解决方案云: 能够充分利用物理设施的弹性,以实现处理快速增长数据的能力“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”- Forrester analyst Jim Kobielus新的传输方案大数据涉及的关键技术大数据(Hadoop)NoSQL数据库数据仓库部署架构水平扩展水平扩展大部分垂直扩展,少数水平扩展大部分水平扩展数据类型文件存储,没有数据类型简单数据类型丰富的数据类型丰富的数据类型数据模型非常简陋的数据模型简单灵活数据模型丰富的数据模型完善丰富的数据模型数据关系没有数据关系描述非常简单的数据关系描述数据关系完善数据关系完善数据一
26、致无一致性弱一致性强一致性强一致性数据安全安全性很弱安全性很弱安全性很高安全性很高计算类型离线批量处理,只读,低并发实时CRUD操作,海量并发实时CRUD操作,高并发离线批量处理,只读,低并发适用场景低密度数据海量存储,数据预处理,预计算高并发实时在线交易,查询,报表高价值数据统一存储和计算平台常见用例日志处理,用户行为分析,搜索引擎用户资料,微博,金融反欺诈金融账户,电信计费,税务等企业数据仓库关于大数据相关性关系的一些争议性的观点 我觉得大数据的信息来源还存在着局限性。首先,目前网络并不能覆盖生活的全部。依然存在一部分人群与网络的联系不密切。如果单凭网络数据就对信息做判断,其实是很片面的。
27、还有关于在不少关于大数据的书籍或是论文中强调的以相关关系替代因果关系的说法。我表示不太明白这点。因为目前计算机所作出的都是相关关系的判断,而无法提供给人类明确的因果关系。但是基于自己以前的知识积累,感觉人类在利用计算机进行数据处理的时候,基本上都是由计算机给出的基础之上再加以人为的因果判断。哪怕是格兰杰因果检验,虽然没学过,但是个人理解其实质也不是反映两个变量之间的因果关系,而是“依赖于使用过去某些时点上所有信息的最佳最小二乘预测的方差”。因此在多数情况下,比如在学习多元统计、计量经济课程的时候,我们还是考虑变量之间的相关性。但是相关不代表因果。这就跟女士的裙长和股市涨跌一样,不是说女士裙子越
28、短股市就越能往上走的。而大数据就真的没运用到因果关系吗?我觉得也不是这样。比如说之前谷歌通过大数据做的流行病预测,其实还是运用了因果关系。谷歌就是假定人们去网上进行相关搜索的原因是人们自己或者身边的人出现了相关症状。我觉得这个世界是不可能单纯地依靠“相关性”来决策的,因为这违背了人类的好奇心。事物之间相关性越大,就越是让人想要知道这背后的原因。对我来说,仅仅基于相关关系而不考虑背后的因果关系的决策有点空中楼阁,不太靠谱。因此我不认为因果关系会退出历史舞台。大数据技术大数据目前所存在的安全隐患:大数据基础设施安全威胁大数据存储安全威胁隐私泄露问题针对大数据的高级持续性攻击数据访问安全威胁其它安全
29、威胁大数据时代下没有隐私 一个技术领域的大牛讨论过关于隐私信息重组(这个词我们自己造),实际就是充分利用掌握的信息去破解密码。常规的算法是跑密码字典,不得不承认,中国人在密码上不在乎,当初学校我在的校区我同级的共7000多人,有3000多人的密码,我能用我设计的37个密码跑出来,37个啊。在利用学校bug后,我拿到个人信息,然后通过我们设计的算法,利用了个人信息,得出几组最可能的密码,加入37个密码中,经过测试有4900多个人密码被破解自那以后我发现人们对密码设置规则固定而且与个人信息有关在大数据下,基于云计算,加上特定的网络爬虫,完全可以爬取任何一个人的信息。接着,我们可以尝试撞库了,常用的
30、126.163。新浪,QQ邮箱,雅虎,天涯,csdn等等只要设计再设计时将所有网站的后台或者前台登录模拟出来了,完全可以利用这些信息去尝试登录。搜索电影女主角的故事(人肉搜索)Some tips 一、谨防钓鱼网站二、慎连免费WiFi三、不在社交平台中随意透露个人信息四、慎重参加网络调查、抽奖活动五、妥善处理快递单、车票、快递包装盒上六、及时清除旧手机的数据信息、废弃的手机卡大数据的应用应用分析预测大数据的应用 此事经被纽约时报报道后,塔吉特“大数据”的巨大威力轰动全美。 在美国,有一位父亲怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中的女儿? 然而后来证实
31、,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以及在社交网站所显露的行为轨迹,使沃尔玛捕捉到了她的怀孕信息。 模型发现,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。最后塔吉特选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠广告寄发给顾客。大数据的应用 亚马逊 “预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单购物前,提前发出包裹。 这项技术可以缩短发货时间,从而降低消费者前往实体店的冲动。从
32、下单到收货之间的时间延迟可能会降低人们的购物意愿,导致他们放弃网上购物。 所以,亚马逊可能会根据之前的订单和其他因素,预测用户的购物习惯,从而在他们实际下单前便将包裹发出。根据该专利文件,虽然包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹仍会暂存在快递公司的转运中心或卡车里。 亚马逊为了决定要运送哪些货物,亚马逊可能会参考之前的订单、商品搜索记录、愿望清单、购物车,甚至包括用户的鼠标在某件商品上悬停的时间。大数据的应用 在筹备大选的过程中,奥巴马背后的数据分析团队一直在收集、存储和分析选民数据。 在这次的大选中,奥巴马竞选阵营的高级助理们决定将参考这一团队所得出的数据分析结果来制定下一步
33、的竞选方案。利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。 比如,在东海岸找到一位对女性群体具备相同号召力的名人,从而复制“克鲁尼效应”并为奥巴马筹集竞选资金。 “Twitter的政治指数”提供了一个衡量社会化媒体平台的用户如何评价候选人的方式。奥巴马积极的情绪指数是59,而罗姆尼的只有53。大数据的应用 回顾“老鼠仓”的查处过程,在马乐一案中,“大数据”首次介入。深交所此前通过“大数据”查出的可疑账户高达300个。 实际上,早在2009年,上交所曾经有过利用“大数据”设置“捕鼠器”的设想。通过建立相关的模型,设定一定的指标预警,即相关指标达到某个预警点时监控系统会自动报警。 而
34、此次在马乐案中亮相的深交所的“大数据” 监测系统,更是引起了广泛关注。深交所有几十人的监控室,设置了200多个指标用于监测估计,一旦出现股价偏离大盘走势,深交所利用大数据查探异动背后是哪些人或机构在参与。大数据的应用 在摩托车生产厂商哈雷戴维森公司位于宾尼法尼亚州约克市新翻新的摩托车制造厂,软件不停的在记录着微小的制造数据,如喷漆室风扇的速度等等。当软件察觉风扇速度、温度、湿度或其它变量脱离规定数值,它就会自动调节机械。哈雷戴维森同时还使用软件,还寻找制约公司每86秒完成一台摩托车制造工作的瓶颈。最近,这家公司的管理者通过研究数据,认为安装后挡泥板的时间过长。通过调整工厂配置,哈雷戴维森提高了
35、安装该配件的速度。 美国一些纺织及化工生产商,根据从不同的百货公司POS机上收集的产品销售速度信息,将原来的18周送货速度减少到3周,这对百货公司分销商来说,能以更快的速度拿到货物,减少仓储。对生产商来说,积攒的材料仓储也能减少很多。大数据的应用 谷歌基于每天来自全球的30 多亿条搜索指令设立了一个系统,这个系统在2009 年甲流爆发之前就开始对美国各地区进行“流感预报”,并推出了“谷歌流感趋势”服务。 谷歌在这项服务的产品介绍中写道:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。虽然并非每个搜索“流感”的人都患有流感,但谷歌发现了一些检索词条的组合并用特定的数学模型对其
36、进行分析后发现,这些分析结果与传统流感监测系统监测结果的相关性高达97%。 这也就表示,谷歌公司能做出与疾控部门同样准确的传染源位置判断,并且在时间上提前了一到两周。”大数据的应用 国际大石油公司一直都非常重视数据管理。如雪佛龙公司将5万台桌面系统与1800个公司站点连接,消除炼油、销售与运输“下游系统”中的重复流程和系统,每年节省5000万美元,过去4年已获得了净现值约为2亿美元的回报。 准确预测太阳能和风能需要分析大量数据,包括风速、云层等气象数据。丹麦风轮机制造商维斯塔斯( Vestas Wind Systems),通过在世界上最大的超级计算机上部署IBM大数据解决方案,得以通过分析包括PB量级气象报告潮汐相位、地理空间、卫星图像等结构化及非结构化的海量数据,优化风力涡轮机布局,有效提高风力涡轮机的性能,为客户提供精确和优化的风力涡轮机配置方案
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电厂外聘专家协议合同书
- 2025至2030年中国精密型恒温恒湿空调机组数据监测研究报告
- 2025至2030年中国空温式低温液体气化器数据监测研究报告
- 2025至2030年中国石油树脂油数据监测研究报告
- 2025至2030年中国百叶条数据监测研究报告
- 2025至2030年中国灯饰反光罩数据监测研究报告
- 2025至2030年中国泛用型三相感应电动机数据监测研究报告
- 2025至2030年中国旅行式球类推车数据监测研究报告
- 2025至2030年中国平口机数据监测研究报告
- 2025至2030年中国家庭石体面材数据监测研究报告
- 工地工人工伤赔偿协议模板合集3篇
- 2024年陕西普通高中学业水平考试通用技术试题
- 《HSK标准教程3》第1课
- 乳腺癌化疗个案护理
- 眼睛的结构和视觉系统
- 医疗试剂服务方案
- 2024年医疗信息安全培训资料
- 《广州市城市树木保护专章编制指引》解读(分享版)
- 医疗设备采购 投标技术方案 (技术方案)
- 国开《Windows网络操作系统管理》形考任务2-配置本地帐户与活动目录域服务实训
- XX医院高警示药品(高危药品)目录
评论
0/150
提交评论