大数据论文分析_第1页
大数据论文分析_第2页
大数据论文分析_第3页
大数据论文分析_第4页
大数据论文分析_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据论文分析随着数据化时代的到来,对于人类如何处理分析数据提出了就巨大的疑问。在医疗,经济,通信等一些行业上已经开始了比较广泛的应用。2014 巴西世界杯于7 月 14 日凌晨落下帷幕,德国战车1:0 战胜阿根廷,第四次捧起大力神杯。与往届世界杯不同的是:数据分析成为巴西世界杯赛事外的精彩看点。伴随赛场上球员的奋力角逐,大数据也在全力演绎世界杯背后的分析故事。一向以严谨著称的德国队引入专门处理大数据的足球解决方案,进行比赛数据分析,优化球队配置,并通过分析对手数据找到比赛的“制敌 ”方式;谷歌、微软、 Opta 等通过大数据分析预测赛果 大数据,不仅成为赛场上的“第 12 人 ”,也在某种程

2、度上充当了世界杯的 预言帝。大数据分析邂逅世界杯,是大数据时代的必然发生,而大数据分析也将在未来改变我们生活的方方面面。由此可以看出大数据分离我们的生活并不遥远,目前, 大企业是最早采用大数据分析的,往往从个别部门开始使用大数据分析工具。我们每一个人都是数据的生产者。在美国, 一些农场主他们有 GPS 定位设备,他们的的农业机械设备也提供了大量数据,通过对这些数据的分析可以知道土壤肥力和湿度提高农业的生产率。美国作为当今世界上唯一的超级大国, 他们的大数据分析业务发展比中国早了两年,许多集群规模已经达到了上千个节点,而中国只有十几个。中国大数据分析的案例我最早接触的是网络视频公司爱奇艺的应用,

3、它们利用互联网收集信息的便利,研究客户在观看视频时播放,暂停,跳过等功能键的使用次数频率,从而得知客户爱观看的视频片段继而推出了既不影响剧情又没有过多大家不爱看的章节,一时间广受欢迎。但是大数据分析在为人们带来便利的同时也存在许多风险,相信大家对于不久前美国情报部门人员斯诺登披露的美国情报监控项目记忆深刻。美国利用其掌握的大量数据信息对喜多美国公民进行监控。而大数据分析其信息量巨大,如何保证期被合理利用与保护依然是分析公司面临的大问题。大数据分析的应用和发展前景大数据 分析是指对规模巨大的数据进行分析。大数据可以概括为4 个 V, 数据量大 (Volume) 、速度快(Velocity) 、类

4、型多(Variety) 、真实性(Veracity) 。大数据作为时下最火热的IT 行业的词汇,随之而来的数据仓库、数据安全、数据分析、 数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧大数据应用与案例分析大数据应用案例之:医疗行业Seton Healthcare 是采用 IBM 最新沃森技术医疗保健内容分析预测的首个客户。 该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过 3000 次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。它

5、让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类 App 。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确, 比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。大数据应用案例之:能源行业智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国, 为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来23 个月时间里, 整个电网大概需要多少电。有了这个预测后,就可以向发电

6、或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。维斯塔斯风力系统,依靠的是BigInsights 软件和 IBM 超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1 小时便可完成。大数据应用案例之:通信行业XO Communications 通过使用IBM SPSS 预测分析软件,减少了将近一半的客户流失率。XO 现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM 新的 Netez

7、za网络分析加速器,将通过提供单个端到端网络、服务、 客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。 系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。NTT docomo 把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。4、大数据应用案例之:零售业“我们的某个客户,是一家领先的专业时装零售商,通过当地的百货

8、商店、公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从Twitter 和 Facebook 上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。”Informatica 的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领

9、先零售企业减少了17% 的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。大数据的未来之路到了 2020 年,人类一年所产生的数据将是1000 个谷歌或10000 个百度,在数据化生存时代,企业要做哪些准备?在大数据启蒙阶段,大数据时代作者、牛津大学教授维克托迈尔舍恩伯格曾应邀去多家中国著名企业宣讲过大数据带来的变革;最近一年,各类大数据方案企业也开始越来越多地谈论大数据技术的实现。今年夏季,在腾讯举办的大数据论坛上,腾讯高管与来自全球最顶尖的学者热烈地讨论着大数据的各种迷思隐私、互联互通和数据交易。在最近一个大数据的活动中,大数据开源技术Hadoop 之父 Doug Cu

10、tting 以及大数据链条上掌握着命脉的“原油型”公司英特尔和Cloudera 的牛人们再次聚首。数据化生存IT 行业的“指数效应”威力惊人,比如, IT 的基石芯片行业有个摩尔定律,每 18 个月芯片上集成的晶体管数会翻番,由此会带来一系列指数式连锁反应 CPU 的性能翻番,芯片的成本折半,功耗也会折半。这也就是大家为什么看到电子产品快速降价的根本原因。市场调研公司IDC 认为, 大数据行业也有“摩尔定律”。英特尔中国研究院院长吴甘沙非常认同这个说法,他曾是英特尔中国研究院首位 “首席工程师”,主持大数据研究。 “如果说摩尔定律是我们所在的指数社会的基因, 那么大数据就是指数社会的蛋白质。”

11、吴甘沙说。有人说大数据是新的原材料、新的原油、新的资产,甚至是新的货币,而吴甘沙认为,人类现在的生存就是一场数据化生存。人类社会的各类设备在不停地感知、传输、存储数据。今天,人们认为谷歌可能是最大的数据拥有者之一,但按照指数增长规律,到2020 年,一年所产生的数据将是1000 个今天的谷歌或10000 个百度。“我们看到数据和计算能力在过去 15 年间一直呈现指数级增长,这种增长给我们带来了根本性变化不能再看单独的数据,而是把全部数据放在一起来考虑,来描绘出对人、企业或是业务的高清晰图像。”大数据之父 Doug Cutting说, “这件事是一个革命性、阶段性的变化。”Doug Cuttin

12、g 是开源技术世界中一个很具影响力的人物,他打造了目前在云计算和大数据领域里如日中天的开源技术 Hadoop 。他是 Apache 基金会主席,也是大数据平台企业Cloudera的首席技术官。大量、快速增长的数据需要实时储存、整合和分析,过去的IT 架构已经无法应付,这就促成了一种名为Hadoop 开源新架构的诞生,这是个可以无限扩容的分布式计算结构。在这个无限扩容开放式架构的发展大势下,IT 业界才倡导了“软件定义基础设施”的趋势,把计算、存储和网络做成开放式的标准模块,降低设施的门槛;在基础设施之上,推动开放、可信数据处理平台Hadoop ;在此之上,推动整个生态圈的创新,实现各类分析应用

13、,把高级分析功能平民化,使得它能迈入主流市场,实现规模经济。数据咖啡馆腾讯高级副总裁汤道生曾请教欧洲信息哲学创始人、牛津大学教授LucianoFloridi 一个困扰腾讯大数据应用的问题 数据如何互联互通,这对于发挥数据的价值至关重要。现在,数据已成为各个组织的商业资产,数据交换成为一个挑战。Luciano以人类早先对石油资源的应对方式进行类比:挪威当年建立了复杂的综合体系去处理自然资源,从而让整个人群受益。现在, 政府和手握数据的企业也有责任去 摸索一个综合体系,把数据的价值扩大到广泛的人群。在英特尔,吴甘沙他们也正在开展“数据安全流通以及定价”这样的研究。英特尔有一个研究平台,叫做“数据咖

14、啡馆”,意思是希望这个平台能像咖啡馆那样起到 “汇聚” 作用, 汇聚不同领域、不同企业的数据,一起来产生新的价值。这里面需要大量的核心技术,例如,顶层的多方安全计算、数据审计及定价等。英特尔与美国癌症研究机构开展合作。癌症是一个典型的长尾病症。过去50 年来,癌症的治愈率仅仅提升了约8% ,这是因为研究机构拥有的基因组样本太少了。如果通过“数据咖啡馆”把基因组样本聚合起来,就能期待癌症技术获得突破。而聚合就需要数据交易。某种程度上,目前的数据是论斤按两来交易的,因为数据的价格很难衡量与预测。 “在这样一种数据不易定价的情况下,我们的理念是先用起来,在使用过程中去发现它的价值。”吴甘沙说。在英特

15、尔宏大的愿景中,希望在2020 年之前,一天之内能完成三件事:对病人进行全基因组测序,锁定癌症的相关基因,形成个性化的用药以及修复方案。现在癌症很难治愈的原因是新药更新速度赶不上癌细胞的变化速度,有了大数据技术,癌症治愈率将指日可待。数据交易只是英特尔在大数据研究上的重要方向之一。英特尔的其他重要研究领域还涵盖两个重要领域:数据与机器的关系什么样的可扩展架构能更好地存储和处理数据;人和数据之间的关系什么样的分析工具能增强人的分析能力。以往,在英特尔,1 3 年的事由产品部门来做,3 5 年的由英特尔研究院来做,5 8 年的与大学合作研究。但在这样一个不可预测的时代下,英特尔把对 “大数据”的研

16、发周期进一步缩短,与大学合作研究的技术也希望尽快推向市场,像 Spark 、集成了数据分析及交换的Datahub ,内存数据库H-Store 、可视化、深度学习(Deep learning )等。大数据之星今年 3 月, 英特尔以7.4 亿美元收购了Cloudera18% 的股份, 成为 Cloudera的战略投资者。一家IT 巨头的高管评论说:“英特尔占领了大数据领域的制高点。”Cloudera 是一家在大数据领域起着关键作用的创新企业。它由来自Facebook 、谷歌、雅虎和甲骨文的高管和工程师在2008 年创建,其商业模式类似 Linux 领域的开源软件企业红帽公司(Red Hat )。

17、Cloudera 中国专区开源技术的开发类似今天互联网世界的众筹模式成千上万背景不同的技术爱好者聚集在一个“开源社区”中,一起创造一个他们热爱的软件技术,人们可以自由使用。在此过程中,红帽创造了一种名为“订阅”的商业模式,它基于开源社区的软件,通过更多测试和验证,开发出更稳定、更易用的 “企业版”。用户可以免费使用它,但如果需要技术支持和咨询服务就要付费。Cloudera 仿照红帽模式,提供企业级Hadoop 平台的服务。如今, Cloudera 已经带头形成全球最大的大数据生态链,有 1200 个合作伙伴。在美国, 每天 70% 的智能手机数据都是在Cloudera 平台上进行处理的。 同时

18、,Cloudera 对新兴大数据领域进行普及,在全球培训了5 万多名 Hadoop 专家。9 月, Cloudera 落户中国。苗凯翔成为其在中国的第一个员工,担任该公司中国区副总裁。之前,他在英特尔负责大数据业务,参与了中国第一个Hadoop项目2011 年中国移动的通话详单查询项目。苗凯翔发现,美国的大数据业务发展要比中国早两年,美国很多集群规模都已是上千个节点,中国才几十个,他预计明年中国企业会部署更大的集群。“中国的企业, 如运营商、银行在大数据的规划上越来越务实,设想也越来越大。目前他们要先想清楚大数据的商业价值。”苗凯翔说,“还要考虑清楚用大数据的目的是节省成本,还是创造价值,这是

19、大数据的两个主题。”苗凯翔用全球最大在线支付公司的实践来说明大数据的意义。这家企业本来用小型机做数据存储,在备份系统建设中,如果使用同样的小型机,一套就要上千万美元,太昂贵。最后,它们购买了Hadoop 平台。 Hadoop 已经足够稳定、容量非常庞大,成本只是小型机的几十分之一甚至几百份之一,可以为企业节省可观的成本。这是企业使用大数据技术的第一步。之后, 这家企业又基于Hadoop平台开展新业务,例如, 给自己的客户提供各种报表,仅这项业务就为企业创造Hadoop 非常复杂,苗凯翔认为,Cloudera 的意义是能在中国把它构架起来、跑起来。他希望把Cloudera 在金融、电信、零售、制

20、造、政府和医疗领域的实践带到中国。伴随 Cloudera 在中国落地,其全球性合作伙伴Oracle 、 HP、 DELL、SAS 等会与 Cloudera 有更多在中国的合作。同时,它也在找寻本土合作伙伴,像博康智能这样在一个细分市场做得出色的系统集成商。明年第一季度,Cloudera 也会在中国开展培训业务。目前,苗凯翔团队在与中国客户沟通,探讨 Cloudera 在中国的商业模式。未来之路近些年, Doug Cutting 一直推进Hadoop 在企业级市场的实践。让他欣慰的是 Hadoop 在各行业中开展的实践。让他印象最深的是一家信用卡公司。之前,这家企业检验欺诈行为需要3 个月,当它采用Hadoop 分析过往5 年的交易历史后,发现了一个欺诈模式,这个模式在多年中会连续出现。于是,这家信用卡公司采用了Hadoop 技术,不仅节省了很多成本,效果也非常好。Doug Cutting 也曾拜访过一家位于亚特兰大的儿童医院。在医院的一间急诊室中, 有几十个早产儿。婴儿身上有很多监测器,医护人员可以通过屏幕来看这些数据。一开始,这些数据随时就被扔掉了。后来,人们把数据从那些老式电脑中取出来,存储起来并进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论