


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
【计算机论文】盘点:大数据分析之六大神器
HadoopHadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。HPCCHPCC,HighPerformanceComputingandCommunications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。该项目主要由五部分组成:高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支持这些调查和研究活动;信息基础结构技术和应用(IITA),目的在于保证美国在先进信息技术开发方面的领先地位。StormStorm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。ApacheDrill为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。ApacheDrill实现了Google'sDremel.据Hadoop厂商MapRTechnologies公司产品经理TomerShiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。该项目将会创建出开源版本的谷歌DremelHadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在AndroidMarket上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。RapidMinerRapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。功能和特点:免费提供数据挖掘技术和库100%用Java代码(可运行在操作系统)数据挖掘过程简单,强大和直观内部XML保证了标准化的格式来表示交换数据挖掘过程可以用简单脚本语言自动进行大规模进程多层次的数据视图,确保有效和透明的数据图形用户界面的互动原型命令行(批处理模式)自动大规模应用JavaAPI(应用编程接口)简单的插件和推广机制强大的可视化引擎,许多尖端的高维数据的可视化建模400多个数据挖掘运营商支持耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘。PentahoBIPentahoBI平台不同于传统的BI产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。PentahoBI平台,PentahoOpenBI套件的核心架构和基础,是以流程为中心的,因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI平台上执行的商业智能流程。流程可以很容易的被定制,也可以添加新的流程。BI平台包含组件和报表,用以分析这些流程的性能。目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。Pentaho的发行,主要以PentahoSDK的形式进行。PentahoSDK共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为Pentaho平台的正常运行提供的数据服务,包括配置信息、Solution相关的信息等等,对于Pentaho平台来说它不是必须的,通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例,它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商业智能解决方案。PentahoBI平台构建于服务器,引擎和组件的基础之上。这些提供了系统的J2EE服务器,安全,portal,工作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能。这些组件的大部分是基于标准的,可使用其他产品替换之。时至今日互联网每天新增的数据量达2.5*10^18字节,而全球90%的数据都是在过去的两年间创造出来的。举个直观的例子来说明一下互联网的数据量:假设大西洋里每一升海水代表一个字节的数据,那么整个大西洋存储的数据也只能到2010年就满了。从外行的角度看来大数据是个挺了不起的东西,它也确实了不起,不过有一个前提就是我们能够有效地处理数据。怎样从海量数据中找出有用的信息才是最重要的。文中会讲一些大数据的用例比如分析促销行为、诊断交通状况等。还会谈一谈大数据的收集方法以及处理的过程。网上促销现在一个公司想取得商业上的成功,在线促销已经成为了很重要的手段。不过如果没有进行实时的数据分析那么可以说是干了相当于白干。成功的促销行为应当依据之前收集的数据来决定此次促销所应使用的文案、设计、界面以及针对的人群等。因为这些数据可以帮助我们理解客户的需求以及市场的动向和机遇。如果想要充分利用这些数据,还需要做到高效地整合数据、打造一个低延迟的分析系统并为分析人员提供一些统计数据直观的图标来进行辅助。在促销开始之前,我们先要订立一个业绩上的目标。为此我们应该清楚促销针对的客户群和市场。然后将销量和流行度指数这样的业绩目标进行量化。我们可以收集的数据包括销售报表、客户反馈、网站统计等等。从多个数据源进行分析的好处是它能够为未来的发展提供更多的认识,这是单一的销售量所无法比拟的。单纯的销售量无法体现出消费者和环境的变化因此很难作为预测未来的可靠保障。大数据在促销上的好处可以总结成下面几点:富有针对性:这意味着钱能够真正地花在刀刃上,所以看似要多投入但其实能够节约开支。及时反馈:大数据实时分析意味着可以针对市场的变化迅速调整打法。为以后的市场决策打下基础。交通疏导比如你早上有重要会议,结果却被堵在路上不知道什么时候才能到公司,这时你可能除了干着急也没什么能做的。你不能,大数据分析可以。借助大数据分析,、你可以找出拥堵不严重的路甚至通过实时疏导来解决整个城市的拥堵问题。在这方面做得比较突出的是谷歌地图。谷歌通过收集安卓用户的位置和运动等信息来预测交通状况并给予用户建议。不过现在这项服务效果还不是特别好因为谷歌再怎么收集信息也很难知道用户此时使用的是什么交通工具,而开车和骑电动车对于交通的影响是很不一样的。航班和车队管理大数据分析在航班管理上可以帮助我们减少花费并节约时间。从每一架飞机或汽车收集的数据燃油消耗、负载、速度、路面状况和航线等。航班如果计划得不好的话肯定费用会上升,这就意味着赚的钱会变少,这就是物流公司钟情于大数据提升运输效率的原因。数据分析可以帮助物流公司减少空驶的情况并优化行驶的路线。这么一来不光是效率能够提升,对保护环境也能做出一定的贡献。航班车队管理还能够与交通疏导结合起来为车辆寻找最合适的行车路线,进一步提高效率降低开销。总结一下大数据分析为航班和车队管理所带来的益处:实时数据分析可以减少燃油的使用并降低尾气排放。优化路线减少空驶率。为车辆提供可视化辅助。智能新闻聚合现在已经有很多新闻应用可以根据用户的兴趣
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度休闲餐饮店员工劳动聘请服务协议
- 2025年度足浴店品牌授权及连锁经营权转让协议
- 二零二五年度黄金抵押贷款还款计划合同
- 2025年度智慧医疗合伙开店合同
- 二零二五年度商场场地租赁与物业租赁服务合同
- 二零二五年度教育行业委托担保服务协议
- 二零二五年度货车运输合伙人风险共担合作协议合同
- 2025年法人变更背景下的股权转让协议书
- 江西省水务集团有限公司2024年劳务派遣人员招聘【34人】笔试参考题库附带答案详解
- 2025西安数据资产经营有限责任公司招聘笔试参考题库附带答案详解
- 办公用品供货服务计划方案
- 《普通生物学教案》word版
- 贵州省就业失业登记表
- 预防电信诈骗网络诈骗讲座PPT幻灯片课件
- 反兴奋剂知识试题及答案
- 初中八年级上册音乐课件4.2欣赏沃尔塔瓦河(14张)ppt课件
- 人教版五年级数学下册每个单元教材分析(共九个单元)
- 深圳氢燃料共享单车项目投资计划书【参考范文】
- 主要肠内营养制剂成分比较
- 小学生如何理解句子的含义(课堂PPT)
- 实际控制关系账户申报表
评论
0/150
提交评论