软件项目开发与设计大数据平台工程技术方案建议_第1页
软件项目开发与设计大数据平台工程技术方案建议_第2页
软件项目开发与设计大数据平台工程技术方案建议_第3页
软件项目开发与设计大数据平台工程技术方案建议_第4页
软件项目开发与设计大数据平台工程技术方案建议_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

软件项目开发与设计大数据平台工程技术方案建议概述项目整体概述随着信息化程度的加深,以及移动互联网、物联网的崛起,人们产生的数据急剧膨胀,传统的数据处理技术难以支撑数据大量的增长和处理能力。经过近几年的发展,大数据技术逐步成熟,可以帮助企业整合更多的数据,从海量数据中挖掘出隐藏价值。大数据已经从“概念”走向“价值”,逐步进入实施验证阶段。人们越来越期望能实现海量数据的处理,从数据中发现价值。**平台是为监控基站告警信息、管理基站用户设备和运行情况、合理调度各地市维护人员、准确掌握基站备用电源各阶段数据、保障用户设备在线及减少维护成本、并且支持内部用户和外部用户的自动派单功能而建设的IT服务平台。该平台包括以每个行业用户为单位的智能推送点播应答/报表智能推送、基站资源/电源数据的业务建模分析、天气环保等相关数据、对内外自动派单、辖区邮政运维状态的大屏展示等主要功能模块。**邮政服务平台对前述功能的支撑,提供基站备用电池的监控管理,进行断电保障、使用效能等方面的应用分析,为备电时长提供修正依据。**公司已深刻认识到数据战略对企业运营以及企业未来发展方向的重要性。基站行业的本质是邮政信息管理管理与挖掘,核心是数据,载体是平台,关键是用户体验,发展趋势是互联网与**的深度融合,要提升大数据处理基站数据贡献度。因此,要深化互联网思维理念,稳步推进互联网金融产品和服务模式创新,积极利用移动互联网、大数据等新技术新手段,沉着应对冲击和挑战,实现传统基站与互联网融合发展。做好海量异构数据的专业化整合集成、关联共享、安全防护和维护管理,深度挖掘数据内含的巨大价值,探索**业务创新,实现数据资源的综合应用、深度应用,已成为提升企业核心竞争力,实现企业信息化可持续发展的关键途径。以大数据项目建设作为契机,凝聚中国**优势力量,全面梳理数据资源,完善数据体系架构,自主掌握大数据分析邮政信息关键技术,加速大数据邮政信息资源的开发利用,将数据决策化贯穿到经营管理全流程,建设智慧基站,提升核心竞争力。(一)对xx运行设备的集中监测管理提供基站监控告警、合理调度;提供基站备用电池的监控管理、进行断电保障等。。(二)开发大数据资源,支撑全行经营管理创新构建基站大数据平台,实现更广泛的半结构化、非结构化数据集中采集、存储、加工、分析和应用,极大地丰富中国**的信息资源,同现有的企业级数据仓库和历史数据存储系统一起,形成基础数据体系,提供支撑经营管理的各类数据应用。(三)对xx整体设备运行周期内的统计分析建设xx基站离线数据分析、实时数据/流数据分析集群和各类数据分析集群,提供高性能可扩展的分布式计算引擎,通过数据挖掘、计量分析和机器学习等手段,对丰富的基站大数据资源进行开发使用,并将数据决策化过程结合到风控、营销、营运等经营管理活动。(四)对内部和外部运维人员系统派单管理结合基站大数据项目的落地实施,建立起一支基站大数据技术和分析人员队伍,具备自主运营和开发基站大数据分析的能力,以更好推动业务创新,提升中国**核心竞争力。(五)邮政信息服务平台及后台分权分域管理能力通过统一权限管理,从后台分权分域进行信息化建设。另外可视化角度进行操作,方便查看和管理。(六)支持在微信、PC端不同入口下业务处理及系统间数据交互实现同一数据存储中心,确保微信、PC端与系统服务器之间的数据交互能力。提升在微信、PC端业务处理中的用户体验度。近年来,中国**大力发展面向用户的新一代核心业务系统,信息系统建设日趋完备,提升用户体验和风险管控能力、满足监管各项要求的同时,形成并储存了庞大的可用数据资源。大数据技术在通信基站行业的应用范围包括:业务信息稽核、查询、分析、预警等、用户洞察、营销支撑、风险管控和营运优化等领域。基本业务功能满足业务部门在监控基站告警信息管理、智能推送点播应答/报表智能推送管理、基站资源/电源数据的业务建模分析管理、重点业务、重点基站管理的需要,为各级领导、职能部门及专业人员管理提供支撑。用户洞察分析用户的各种数据,包括电话语音、网络的监控录像、点播应答信息、基站资源、电源数据以及相关的基站数据信息,从而实现对用户进行分类和服务。对现有基站数据系统中的用户分层的数据要素进行延伸。营销支撑实时营销:是根据用户的使用平台的实时状态来进行营销,如用户点播时段内容等信息来有针对地进行营销。事件式营销:将改变工作方式的事件视为营销机会,如换人工服务变成智能提醒或者操作、改变工作方式等。风险管控信用评级:运用时间、故障概率、区域、设备质量等多个维度对基站综合评级,运用大量的指标构建多重模型,以识别基站故障信用风险。营运优化改善用户体验:运用大数据能够处理海量基站信息数据的能力,将传统数据统计分析等业务切换到数据处理能力更强的平台,来解决查询历史数据的困难,提升用户体验。降低运营成本:运用综合分析结果,优化**运输资源的配置,降低企业运营成本,提升整体竞争力。平台建设原则平台是大数据的基础实施,其建设、设计和系统实现过程中,应遵循如下指导原则:经济性:基于现有场景分析,对三到五年内的数据量进行合理评估,确定大数据平台规模,后续根据实际情况再逐步优化扩容。可扩展性:架构设计与功能划分模块化,考虑各接口的开放性、可扩展性,便于系统的快速扩展与维护,便于第三方系统的快速接入。可靠性:系统采用的系统结构、技术措施、开发手段都应建立在已经相当成熟的应用基础上,在技术服务和维护响应上同用户积极配合,确保系统的可靠;对数据指标要保证完整性,准确性。安全性:针对系统级、应用级、网络级,均提供合理的安全手段和措施,为系统提供全方位的安全实施方案,确保企业内部信息的安全。大数据技术必须自主可控。先进性:涵盖结构化,半结构化和非结构化数据存储和分析的特点。借鉴互联网大数据存储及分析的实践,使平台具有良好的先进性和弹性。支撑当前及未来数据应用需求,引入对应大数据相关技术。平台性:归纳整理大数据需求,形成统一的大数据存储服务和大数据分析服务。利用多租户,实现计算负荷和数据访问负荷隔离。多集群统一管理。分层解耦:大数据平台提供开放的、标准的接口,实现与各应用产品的无缝对接。系统技术架构数据来源说明数据来源主要有应用系统数据源(如ERP、CRM等),具体数据包括基站设备、维护人员、备用电池等数据。绝大部分数据可以加载到mysql数据库中。经过数据源及其质量分析后,分别从各业务应用系统及一些外部数据源中获取数据。然后将系统从源系统采集业务源数据进行数据校验、清洗、计算、汇总、分类。对于**邮政外部数据源,需要综合考虑数据获取的方式、频率、内容等多方面因素,可以适当考虑选择开源的工具。如网页数据,可以参考使用数据网页爬取器把互联网上有价值的网页都抓取下来。系统架构设计对于用户提出邮政大数据平台主要分成六大部分,因为从功能上有部分的重叠,我们建议在系统解决放案在结构上分为数据获取层、数据存储层、数据分析层(含数据集市、经营分析、决策支持、数据分析与挖掘)、数据管控以及数据可视化层五个层次架构。如下图所示:上图中每个层次的主要功能和使用的产品如下:数据获取层:通过ETL工具-SAPDataServices将原有业务系统或者功能性平台的数据抽取到大数据平台。数据存储层:由Hadoop厂商Cloudera的CDH和SAPHANA共同构成,其中CDH用于存储全量数据。在HadoopHDFS存储之上,运用HABSE、HIVE、SPARK等组件,满足用户不同分析场景的需求,这些组件将通过数据分析层调用。基于内存的关系型数据库-HANA作为热数据管理,主要用于实时和大规模、高并发的复杂分析场景。数据分析层:数据分析层构建在数据存储层之上,主要利用Hadoop生态系统的组件以及HANA提供的数据分析能力实现邮政业务分析场景,如量收系统等。数据分析层即包含用户的业务应用也包含具体的分析类型,如实时查询、数据挖掘等。数据管控:在用户原有的主数据、元数据平台上进行扩展,与大数据平台进行对接,并通过建立数据安全管理策略、梳理数据标准等方式逐步完善大数据平台的数据管控功能。数据可视化层:本方案均采用业界主流的通用产品,如ClouderaCDH、HANA等,这些产品支持通用的数据标准以及应用接口,为了降低成本、减少工作量,推荐用户利用原有Cognos软件,通过开发部分前端界面满足大数据平台对分析结果展现的要求。故障派单设计邮政网点或服务基站的设备故障自动派单是通过平台监控,对指定故障种类的故障自动生成系统维护工单或者问题工单,提交相关运维负责人或者接口人,并发送相关通知;相应的接口人对系统自动派发的工单进行判断并进行后续处理,处理后直接关闭工单即可;自动派单功能支持派发人对工单的转派和回退处理,并填写相关处理意见。总体业务流程图如下:系统硬件和软件配置方案软件配置方案产品名称产品功能描述用途单位数量ClouderaHadoop发行版Cloudera一个提供全面的数据存储和处理引擎的发行版。它包括了:HDFS、HBASE、Spark、YARN、MapReduce、Hive等处理引擎以及工具组件**大数据平台核心数据存储与处理引擎SAPHANA企业版SAP基于内存的数据库引擎,并集成了数据集成工具,高级数据分析、数据挖掘等功能实时数据分析(可用于大规模交互式查询)SAPHANAVora构建在HANA之上基于Spark/Hadoop的内存查询引擎实现HANA与Spark之间的联邦数据处理硬件配置方案Hadoop部分Hadoop集群服务器按照节点承担的任务分为管理节点和工作节点。管理节点上一般部署各组件的管理角色,工作节点一般部署有各角色的存储、容器或计算角色。中国**的大数据平台属于在线分析业务集群:在线分析业务一般基于Spark等MPPSQL引擎,复杂的SQL计算对内存容量有较高要求,因此需要配置128G甚至更多的内存。管理节点工作节点处理器两路Intel®至强处理器,可选用E5-2630处理器两路Intel®至强处理器,可选用E5-2650处理器内核数6核/CPU(或者可选用8核/CPU),主频2.3GHz或以上6核/CPU(或者可选用8核/CPU),主频2.0GHz或以上内存64GBECCDDR3128GB-256GBECCDDR3硬盘2个2TB的SAS硬盘(3.5寸),7200RPM,RAID112个4TB的SAS硬盘(3.5寸),7200RPM,不使用RAID网络至少两个1GbE以太网电口,推荐使用光口提高性能。可以两个网口链路聚合提供更高带宽。至少两个1GbE以太网电口,推荐使用光口提高性能。可以两个网口链路聚合提供更高带宽。硬件尺寸1U或2U2U接入交换机48口千兆交换机,要求全千兆,可堆叠聚合交换机(可选)4口SFP+万兆光纤核心交换机,一般用于50节点以上大规模集群关键技术大数据平台的核心数据存储与处理分布式文件系统-HDFSHDFS(HadoopDistributedFileSystem),是一个分布式文件系统。它具有高容错性的特点,可以被广泛的部署于廉价的PC之上。它以流式访问模式访问应用程序的数据,这大大提高了整个系统的数据吞吐量,能够满足多来源、多类型、海量的数据存储要求,因而非常适用于日志详单类非结构化数据的存储。HDFS架构采用主从架构(master/slave)。一个典型的HDFS集群包含一个NameNode节点和多个DataNode节点。NameNode节点负责整个HDFS文件系统中的文件的元数据保管和管理,集群中通常只有一台机器上运行NameNode实例,DataNode节点保存文件中的数据,集群中的机器分别运行一个DataNode实例。在HDFS中,NameNode节点被称为名字节点,DataNode节点被称为数据节点,DataNode节点通过心跳机制与NameNode节点进行定时的通信。HDFS可以实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。其主要特性如下:灵活:统一的存储可以存放结构化,半结构化及非结构化数据可扩展:根据业务需要增加PC服务器实现存储扩容容错:数据有多个副本以保障数据的可靠性开放:基于开源的存储格式,避免厂商锁定分布式数据库–HBaseHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,它利用HadoopHDFS作为其文件存储系统,利用HadoopMapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。HBase不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。HBase从一开始就是为Terabyte到Petabyte级别的海量数据存储和高速读写而设计,这些数据要求能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。存储在HBase中的表的典型特征:大表(BigTable):一个表可以有上亿行,上百万列面向列:面向列(族)的存储、检索与权限控制稀疏:表中为空(null)的列不占用存储空间SQL-on-HBase的支持ClouderaCDH企业版支持SQLonHBase特性,支持对数据表建立LocalIndex和GlobalIndex,执行速度远远超过原生HBaseAPI,同时提供完善的SQL接口供用户端使用。HBase对象存储ClouderaCDH支持HBase的大对象存储(LOB)功能,将HBase进化为文档数据库,特别适合存储单个大小数十K至数十M的非结构化文档,即使对于十亿级别的LOB文档数据表仍能做到毫秒级增删改查操作,同时支持所有HBase原生特性,与上层HBase应用100%兼容。集群协调服务ZookeeperZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper包含一个简单的原语集,提供Java和C的接口。分布式批处理引擎–MapReduceMapReduce是Hadoop的核心,是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”,及他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。MapReduce是用于并行处理大数据集的软件框架。MapReduce的根源是函数性编程中的map和reduce函数。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce函数接受Map函数生成的列表,然后根据它们的键缩小键/值对列表。MapReduce起到了将大事务分散到不同设备处理的能力,这样原本必须用单台较强服务器才能运行的任务,在分布式环境下也能完成了。数据仓库组件–HiveHive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。Hive体系结构:用户接口:用户接口主要有三个:CLI,Client和WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的用户端,用户连接至HiveServer。在启动Client模式的时候,需要指出HiveServer所在节点,并且在该节点启动HiveServer。WUI是通过浏览器访问Hive。元数据存储:Hive将元数据存储在数据库中,如mysql、derby。Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。分布式内存计算框架–ApacheSparkApacheSpark是一个开源的,通用的分布式集群计算引擎。Spark发展历程:2013年6月,成为Apache孵化器项目2014年2月,成为Apache的顶级项目2010年贡献给开源社区2009年UCBAMPLab实验室开发Spark2013年6月,成为Apache孵化器项目2014年2月,成为Apache的顶级项目2010年贡献给开源社区2009年UCBAMPLab实验室开发SparkClouderaSpark是一个开源的,并行数据处理框架,能够帮助用户简单的开发快速,统一的大数据应用,对数据进行,协处理,流式处理,交互式分析等等。Spark具有如下特点:快速:数据处理能力,比Mapreduce快10-100倍。易用:可以通过Java,Scala,Python,简单快速的编写并行的应用处理大数据量,Spark提供了超过80种高层的操作符来帮助用户组件并行程序。普遍性:Spark提供了众多高层的工具,例如SparkSQL,MLib,GraphX,SparkStreaming,可以在一个应用中,方便的将这些工具进行组合。与Hadoop集成:Spark能够直接运行于Hadoop2.0以上的集群,并且能够直接读取现存的Hadoop数据。尤其,Spark和CDH紧密结合,可以通过ClouderaManager部署安装Spark,并有效管理监控Spark集群。Spark提供了一个快速的计算,写入,以及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark使用in-memory的计算方式,通过这种方式来避免一个Mapreduce工作流中的多个任务对同一个数据集进行计算时的IO瓶颈。Spark利用Scala语言实现,Scala能够使得处理分布式数据集时,能够像处理本地化数据一样。 除了交互式的数据分析,Spark还能够支持交互式的数据挖掘,由于Spark是基于内存的计算,很方便处理迭代计算,而数据挖掘的问题通常都是对同一份数据进行迭代计算。除此之外,Spark能够运行于安装Hadoop2.0Yarn的集群。之所以Spark能够在保留Mapreduce容错性,数据本地化,可扩展性等特性的同时,能够保证性能的高效,并且避免繁忙的磁盘IO,主要原因是因为Spark创建了一种叫做RDD(ResilientDistributedDataset)的内存抽象结构。 原有的分布式内存抽象,例如key-valuestore以及数据库,支持对于可变状态的细粒度更新,这一点要求集群需要对数据或者日志的更新进行备份来保障容错性。这样就会给数据密集型的工作流带来大量的IO开销。而对于RDD来说,它只有一套受限制的接口,仅仅支持粗粒度的更新,例如map,join等等。通过这种方式,Spark只需要简单的记录建立数据的转换操作的日志,而不是完整的数据集,就能够提供容错性。这种数据的转换链记录就是数据集的溯源。由于并行程序,通常是对一个大数据集应用相同的计算过程,因此之前提到的粗粒度的更新限制并没有想象总的大。事实上,Spark论文中天阐述了RDD完全可以作为多种不同计算框架,例如Mapreduce,Pregel等的编程模型。 并且,Spark同时提供了操作允许用户显示的将数据转换过程持久化到硬盘。对于数据本地化,是通过允许用户能够基于每条记录的键值,控制数据分区实现的。(采用这种方式的一个明显好处是,能够保证两份需要进行关联的数据将会被同样的方式进行哈希)。如果内存的使用超过了物理限制,Spark将会把这些比较大的分区写入到硬盘,由此来保证可扩展性。 Spark首先是一个批处理的引擎,下图给出了一个Spark批处理的例子,阐述了多个RDD以及操作如何被分组到不同的转换步骤。基于内存计算的关系型数据库-SAPHANA大数据量存储特性SAPHANA是一个基于行存储和列存储,以及对象存储的最先进的数据库技术的混合应用,这样设计的主要目的是用来充分挖掘和使用现代多核CPU架构设计所带来的并发处理能力,毫无疑问,企业应用程序能从中受益颇多,SAP内存数据库是整个HANA应用的核心组件。HANA单机服务器目前支持最大12TB内存的单台服务器,当用户需要分析更多的数据时,使用多台服务器横向扩展的方式,目前测试通过的集群达到100台总共100TB的内存,支持的原始数据量达到PB级别,而且因为HANA采用的是Sharenothing的体系架构,理论上是集群没有上限,所以HANA对于大数据的存储支持将会非常好,企业可以根据自身的数据量将HANA整体可用容量做到按需扩展。基于列式数据库的天然优势,HANA具有极高的数据压缩比,取决于用户实际数据的不同,HANA数据表具有高达7-20倍的压缩率。而且列式存储基本上可以不用在数据库表上建索引,这样可以去掉很大的索引空间。HANA通过先进的数据压缩功能和列式去索引化特点,可以很好的做到对大数据的有效地存储。性能特性SAPHANA使用的是内存计算技术,数据的主要的存储和运算都在内存中完成,去掉了一直困扰数据库性能的I/O问题,所以相对传统的磁盘数据库,天然具备高效计算的优势。HANA数据库提供灵活的存储方式,可以针对不同业务符合的类型,采用最适合的存储方式,例如,在OLTP场景采用行式存储,在OLAP场景采用列式存储。在数据仓库系统中使用列存储方式,数据列可以按查询的需要被任意检索,避免行式数据库必须一次读取表中所有列带来的无谓开销。HANA数据库引擎可以利用服务器多核处理器的特点,并行执行查询语句。同样,在多台服务器架构下,HANA可以将查询语句在多个服务器上同时运行,以提高系统整体利用率,加速业务响应。负载均衡特性SAPHANA在多机运行的情况下,采用的是分布式计算的理论,有着比较经典的MapReduce的特点,可以将大数据块以非常智能的算法拆分成小数据块,分布在不同的机器上进行负载均衡,充分发挥多机和多核的特点,并行计算来达到一个很好的计算性能。目前,SAPHANA的研发过程中和硬件合作伙伴保存了非常紧密的协作,整体的体系架构基于IntelX处理器平台支持多服务器、多处理器的高效并行处理。首先在底层开发中,Intel为SAP提供专门的开发包,让HANA的应用能够最高效、充分的利用多处理器的并发能力。HANA在应用层的架构设计上也能够将数据处理和运算拆分并部署到多个处理器。例如计算引擎可以将数据模型拆解,将一些SQL脚本拆分成可以并行执行的步骤。这些操作将递交给数据库优化器来决定最佳的访问行存储和列存储的方案。高可靠性SAPHANA支持带有failover节点的高可用性解决方案。当集群中有一台机器节点因为硬件故障或其他原因不能工作的时候,系统中的主节点会监测到故障节点发生的位置并指定另一台备用(Standby)节点来接替故障节点的工作,来达到集群系统的稳定运行。如下图所示,节点A,B,C都为系统中的工作节点,而A节点充当了主节点的功能,三个节点都是共享的数据区,只有工作节点A和B有自己的数据区,当B节点出现故障的时候,主节点A会监测到B节点的故障,然后启用C节点来工作并接替B节点的数据区,来达到系统的稳定运行的目的。当然,目前在HANA的集群系统中,可以有多个主节点,所以如果在下图场景中如果A节点出现故障的时候,B节点也可以接替主节点的功能并完成如下一系列的系统的调度工作,最终使整个系统能一直稳定地处于运行状态,给企业提供一个企业级的应用和服务。目前SAPHANA已认证通过的节点有56个(每台机器最多1TB内存),测试通过的节点达到100个,这样通过大比率的数据压缩比,HANA能支撑的原始数据量将会非常大。而且目前SAPHANA中的工作节点和备节点的数量是可以自由调配的,这样可以不满足不同的企业对高性能的需求。可扩展性SAPHANA支持纵向和横向的扩展,灵活的满足由于数据量,并发用户数查询负荷增加带来的扩展性需求。在服务器硬件配置不能满足业务需要的情况下,可以通过增加服务器CPU,内存的方式实现纵向扩展。在单台服务器硬件无法继续扩展的情况下,可以通过多台服务器组成一个大的服务器集群的方式,实现系统横向扩展。技术方案优势方案整体优势全球领先的技术产品Cloudera成立于2008年,由来自如于Google、Yahoo、Oracle和Facebook的技术高管联手创立。Cloudera是全球第一个企业级ApacheHadoop产品和服务提供商,无论在产品、专业服务、技术支持和培训方面都处于明显的业界领袖地位。Cloudera自2008年成立以来,专注于Hadoop全球生态系统的建设,主导了最多Hadoop模块的开发工作,代码贡献量,bug修复数量,Hadoopcommitter数量稳居全球首位,Cloudera对Hadoop开放社区的代码贡献度高达40%以上,是无可争议的Hadoop开源领导厂商。CDH(ClouderaDistributedHadoop)是Cloudera基于ApacheHadoop的发行版本版本。除了提供Hadoop的核心组件以外,CDH是唯一一个提供全面的数据存储和处理引擎的发行版。在整个商业化的Hadoop领域,Cloudera无论是从产品的更新速度、技术支持、周边生态系统等方面都由于其它Hadoop产品。选择ClouderaCDH对**项目最终能够成功提供了极大的保障。SAPHANA是一个内存数据库,将数据处理、分析数据处理以及业务逻辑处理功能组合至内存中,突破了传统关系型数据库诸多性能限制,同时通过高度可扩展的MPP架构,HANA可以轻松支持大数据场景。TheForresterWave:《2015年第三季度大数据预测分析解决方案》报告中,SAP被评为该领域的领军企业。此次评选活动中,SAP凭借强大的架构和战略被誉为市场领导者。据相关消息称,SAP将SAPHANA内存计算平台作为产品的核心平台,这使其在众多竞争对手中脱颖而出、拔得头筹Forrester研究中的亮点“SAP内存数据库技术开始得到市场的认可.”–NoelYuhanna,ForresterSAPHANA平台在策略和现阶段能力的评分都得到了最高SAP是唯一一个在远见得到满分的公司SAP是唯一一个在数据管理和交易能力方面得到满分的公司SAP还在其他方面得到了满分,其中包括执行,市场表现,合作伙伴,分析能力等Forrester2015年第三季度内存计算平台内存wave报告在平台集成工具方面,除了可以利用Cloudera的Sqoop外,与HANA集成到一起的还包括了SAPBusinessObjectsDataServices工具,DataServices是当今市场上效率和扩展性最高的数据集成平台之一。它使企业能够方便地、随时随地抽取、清洗、转换和装载数据。DataServices有利于确保BI最终用户总是能掌握及时、准确、可靠的信息。Hadoop与关系型数据库的完美结合随着**原有数据仓库数据的格式也越来越多越来越复杂。单一依靠传统数据库很将趋于瓶颈。而综合使用Hadoop生态系统组件产品能够很好的解决这一问题。其底层的分布式文件系统具有高拓展性,通过数据冗余保证数据不丢失和提交计算效率,同时可以存储各种格式的数据。同时其还支持多种计算框架,既可以进行离线计算也可以进行在线实时计算。Hadoop生态系统环境提供了一系列组件支持大数据平台应用场景,其中,数据存储方面主要提供三种存储和应用方式,即Hbase,Hive,Spark。其中三者都是基于底层的hdfs分布式文件系统。hive重点是sql-batch查询,海量数据的统计类查询分析,而Spark的重点是ad-hoc和交互式查询。hive和Spark都可以看作是基于OLAP模式的。而Hbase库是支撑业务的CRUD操作,各种业务操作下的处理和查询。Hadoop在大数据平台场景的优势是在超大规模数据集里,Hadoop及其生态组件非常适用于批量操作(如数据处理、汇总等)、明细查询(利用Hbase)、OLAP查询(在并发不高的情况下)、统计分析(如各种业务指标的计算)。但是,通过对**业务的了解,无论在**邮政服务信息平台还是在综合分析平台中都存在着大量大规模复杂的实时查询需求,而这些场景恰恰是传统关系型数据库擅长的。结合数据仓库业务迁移的需求,我们认为应该综合利用Hadoop与关系型数据库的技术,发挥二者优势。在关系型数据库中,我们推荐使用基于最新内存计算技术的产品-SAPHANA。SAPHANA是一个软硬件结合体,提供高性能的数据查询功能,用户可以直接对大量实时业务数据进行查询和分析,而不需要对业务数据进行建模、聚合等。为了解决HANA中存储数据有限的问题,我们引入了SAPHANAVora,SAPHANAVora是一款全新的内存查询引擎,通过利用并延展ApacheSpark运行框架,在Hadoop上提供更丰富的交互式分析功能。SAPHANAVora运用在**大数据平台主要的优势在于:SAPHANAVora横跨Hadoop、SAPHANA、Spark等多个平台,将成为HANA与Hadoop的桥梁,把HANA的分析能力搬到Hadoop上,而不再需要在Hadoop和HANA之间不停地移动数据。基于Map-Reduce模式的Hadoop擅长数据批处理,但不是特别符合即时查询的场景。通过联机分析处理(OLAP)方法,SAPHANAVora可以帮助开源框架更好地理解商业语言,将SAP在内存计算上的经验带给Hadoop生态圈。借助SAPHANAVora,SAP将在Hadoop领域拓展新生态。而SAP大数据生态圈的扩大也将为合作伙伴带来新的发展机会,帮助他们打造更具竞争力的差异化解决方案。更高的性能Hadoop性能提升Hadoop使用专门为分布式计算设计的文件系统HDFS,计算的时候只需要将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算,Hadoop中的集群存储节点也是计算节点。通过在架构方面的精心设计以及利用适合的工具满足各个业务场景,Hadoop的部署能够取得非常好的性能高性能:具有和目前领先的MPP数据库有匹配的性能,比Apahcehive/Stinger快10-100倍Spark提供了一个快速的计算,写入,以及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark使用in-memory的计算方式,通过这种方式来避免一个Mapreduce工作流中的多个任务对同一个数据集进行计算时的IO瓶颈。Spark利用Scala语言实现,Scala能够使得处理分布式数据集时,能够像处理本地化数据一样。HANA的高性能HANA代表着下一代企业级运算,这一点在数据库技术上尤为突出。它是针对实时分析和应用的现代数据平台。它能让组织实时分析大量而又冗杂的数据,同时在真正意义上实时避免延时和减少OLTP和OLAP之间的层次交流。HANA的优势在于它是一套紧密集成的系统,实现了不同组成部份之间的良好交互和系统整合优化。无论向上还是向外扩展,HANA对所有部份,如OLTP,OLAP(业务以及存储业务),文字,计划和纯应用开发都能实现良好的承接。通过HANA,简易的部署不再是梦想,没有主机动物园(虚拟主机),没有内部同步,没有物化聚集,更没有一堆的引擎!SAPHANA能向外扩展无限的内核/节点,并减少硬件开销。HANA是建立在新架构典范上的纯内存数据库。考虑到所有的数据库都是在内存中,所以HANA不缓存数据。具备世界级的查询优化器,能轻易实现大规模并行查询的操作,包括运算符内部和运算符之间的并行查询(interandintra-operatorparallelism)。SAPHANA将所有数据以整体形式存储在列中。另外还采取了发展中的向量运算处理器(CPUdevelopmentsinvectoroperations)这类英特尔最新的优势技术进行了优化。SAPHANA的前瞻性架构(next-generationarchitecture)和芯片级创新(chiplevelinnovations)使它远远超越了市场上的任何竞争对手。**公司早在2012年就运用SAPHANA技术进行了一系列性能测试,当时基于**邮政服务信息平台中的网运和报刊中出现性能瓶颈的报表在SAPHANA中进行了加速,在两个场景中HANA的运算能力较目前正在使用的Teradata以及Oracle查询性能分别提升了400多倍和千倍以上。此测试结果得到了**相关技术负责人的高度认可。系统的开放性传统单一软件供应商、单一硬件平台的组合方式以不再适用于大型国有化集团的大数据平台。大数据平台在设计时应充分考虑到平台的开放性与可移植性。Cloudera自2008年成立以来,专注于Hadoop全球生态系统的建设,主导了最多Hadoop模块的开发工作,代码贡献量,bug修复数量,Hadoopcommitter数量稳居全球首位,是无可争议的Hadoop开源领导厂商。Cloudera的CDH是100%的开源解决方案,并且完全和Hadoop开源社区保持一致,CDH可以算是Hadoop领域事实上的标准版,其他任何国内外厂商的Hadoop发行版就算要增加一些私有特性,首先也需要保证和CDH的100%兼容,因此用户使用CDH不会担心被特定厂商绑架,随时拥有自由选择的能力。SAPHANA作为通用的关系型数据库软件产品,具有很强的硬件兼容能力,能够搭建在业界主流十余家主流厂商的PC服务器平台之上。而且,为了保证系统的性能,SAP与这些硬件厂商采用联合认证的模式,推荐使用固定的配置以为用户提供更高的品质。丰富的用户案例作为开源Hadoop技术,以及内存技术的最主流品牌,ClouderaCDH与SAPHANA在国内外都有着广泛的大型用户案例。Cloudera在国内大型企业的项目案例包括:银联大数据平台、湖南移动CDR平台、北京联通CDR平台、上海电信等。SAPHANA从2011年发布以来在全球范围内积累了上万家用户,仅在中国就有近千家用户在使用SAPHANA,其中不乏大型企业的数据仓库系统和大数据平台:如中国石油、中石化、华能集团、海关总署、中国核工业集团公司、联想、福建电力等。产品优势领先的Hadoop品牌-ClouderaCDH完全开源开放,避免被私有闭源平台绑架Cloudera自2008年成立以来,专注于Hadoop全球生态系统的建设,主导了最多Hadoop模块的开发工作,代码贡献量,bug修复数量,Hadoopcommitter数量稳居全球首位,是无可争议的Hadoop开源领导厂商。Cloudera的CDH是100%的开源解决方案,并且完全和Hadoop开源社区保持一致,CDH可以算是Hadoop领域事实上的标准版,其他任何国内外厂商的Hadoop发行版就算要增加一些私有特性,首先也需要保证和CDH的100%兼容,因此用户使用CDH不会担心被特定厂商绑架,随时拥有自由选择的能力。业内最完整的Hadoop堆栈ClouderaCDH企业版包括分布式存储、数据库、SQL引擎、机器学习引擎、全文检索、实时流处理、分布式数据总线服务、ETL工作流引擎、内存计算引擎、元数据生命周期管理、统一多层次安全模块、平台管理、云平台自动部署等企业级Hadoop软件模块,在企业级解决方案完整性方面已超越其他Hadoop厂商,向传统数据库巨头看齐。ClouderaCDH采用周期性更新升级的方式,以最快的速度整合开源社区的最新成果,一般最新的开源Hadoop版本发布后,CDH会在2至3个月内提供新版本整合,这一速度超过全球绝大多数Hadoop厂商。业内最广泛的合作伙伴生态圈Cloudera作为Hadoop生态环境的领导者,拥有业内最广泛的生态环境支持,大多第三方工具首先会提供对CDH的兼容,然后才会扩展到其他Hadoop发行版,CDH与各个主流的数据库厂商,包括Oracle,TeraData,IBM,MongoDB等,各个主流的ETL工具,如Informatica,Pentahoo,各种可视化工具,如Tableau,ZoomData等都具有官方的双向全面认证支持,这种官方认证支持意味着这些软件的新功能都能保证和CDH兼容,如果只是单方面宣称支持Tableau等工具,不能保证100%的兼容性。国内外最多商业部署案例Cloudera拥有超过1000家大型用户和1000多家合作伙伴,业务遍及全球,大部分用户都是全球500强的大型企业,同时CDH也是目前全球最流行的Hadoop发行版,具有最广泛的影响力和各行各业广泛的实施案例。Cloudera在国内也拥有许多大型的实施案例,包括农行,中国银联,广东移动,招商银行等利用CDH部署了数百个节点的大型集群,Cloudera中国团队的前身为IntelHadoop中国团队,在国内拥有丰富的Hadoop项目实施经验。卓越的实时计算引擎-SAPHANA中国**大数据平台主要运用Hadoop技术以及外围的组件实现企业内部信息的分析、预测和挖掘等功能,但对于兼具大规模并发、复杂的实时分析场景,Hadoop方案效率并不能满足用户需求,这种场景下,我们建议使用基于内存计算技术的关系型数据库-SAPHANA。SAPHANA平台实现了数据处理中新的业务途径。事实上,它远远超过了数据库的传统定义,并且其性质远不只是内存中磁盘数据结构上的本地缓存。SAPHANA概念图如下图所示:SAPHANA,首先也是最重要的是,它集成了一个完整的数据库管理系统(DBMS):使用标准的SQL接口、事务的隔离和恢复(ACID[原子性,一致性,隔离性,耐久性])性能和高可用性。SAPHANA支持ANSISQL92。使用OpenSQL的SAP应用程序可以在SAPHANA平台上运行,而不用改变。HANA的开放性使得其比较适合于大数据平台场景。纯内存计算内存作为主存储,不再仅作为数据库的缓存。与Hadoop的Spark将中间结果集缓存至内存不同,HANA的数据全部存储在内存中,完全不受磁盘交换的限制。另外HANA所有的计算基于内存中的明细数据,不需要再存放冗余的汇总数据,数据库性能较传统数据库有本质提升。而且HANA采用的是基于内存计算的关系型数据库技术,其在大规模并发查询和复杂的分析计算时性能方面较开源技术有一定优势。可以与Hadoop产品结合使用,发挥各自优势。并行数据流计算模型为了直接利用大规模并行多核处理器,SAPHANA对SQL的处理指令进行管理,使之成为一个优化的模型,从而允许并行执行,并极大地扩展了内核的数量。这种优化包括分区中的数据部分,在这些分区中计算可以并行执行。SAPHANA支持不同主机上的分布。为了由多个主机并行处理,大表可能进行分区。下图总结了英特尔团队与SAP合作执行的规模测试结果。测试表明了规模是接近线性的。使用双核的处理时间为16.8秒,使用32内核提高到了1.4秒。超线程增加了一个额外的20%的改善。应用逻辑扩展特定应用程序的逻辑延伸了并行数据流的计算模型,该逻辑在处理节点上是模型的一部分。功能语言SQLScript和命令式语言_“L”能够支持它,它可以要求SAPHANA预测分析库中的已组装程序算法执行先进的统计计算。应用逻辑的语言和概念在SAP开发者社区的内部和外部中演变成为了协作的结果。商务功能库和预测分析库SAP在具体的端口和SAPHANA内基础设施的应用程序功能业务上,充分利用了其深厚的应用专业知识,从而充分地直接在主存储器中通过优化计算和应用技术,处理利用内存中的计算。实例包括货币兑换,这是作为一个全球性的公司根本上的第一步。否则关于货币兑换的许多报告就可能利用简单的SQL,利用并行处理。另一个例子是转换业务日历:不同的国家使用不同的民用或商业日历,对一个财政年度也有不同的定义。列式和行式数据存储SAPHANA的特有属性是行存储和列存储位于同一引擎中。使得SAPHANA有更高的数据压缩能力、数十倍甚至千倍快于传统行式存储的分析功能。Hadoop支持SAPHANA支持Hadoop技术架构,与主流的Hadoop厂商Cloudera,Hortonworks,MapR都进行了深度的集成。从技术层面HANA可以与Hadoop通过几个层面进行融合:HANA提供了智能访问接口SDA(SmartDataAccess),可以直接连接HDFS数据源在HANA内部可以定义虚拟的UDF,vUDF是可以使用数据联邦的自定义函数,利用这种函数可以直接定义MapReduce函数,并将在SQL中调用这种函数,合理地编写vUDF可以大大提高HANA基于Hadoop的执行效率。SAPHANAVora-为访问Hadoop数据平台提供的更为便捷的途径。HANAVora是一款内存查询引擎,可以接入ApacheSpark框架,支持使用者交互式分析存储在Hadoop中的数据。利用SAPHANA的实时分析能力与Hadoop海量数据处理能力结合,为中国**的大数据平台建设提供更大的价值。文本分析、R语言、地理空间信息处理能力SAPHANA为文本分析检索、R语言、地理空间信息处理提供技术支持接口,为基于SAPHANA构建的数据分析平台提供了多样化的应用创新可能。可扩展性SAPHANA支持纵向和横向的扩展,灵活的满足由于数据量,并发用户数查询负荷增加带来的扩展性需求。在服务器硬件配置不能满足业务需要的情况下,可以通过增加服务器CPU,内存的方式实现纵向扩展。在单台服务器硬件无法继续扩展的情况下,可以通过多台服务器组成一个大的服务器集群的方式,实现系统横向扩展。强大的ETL工具SAPDataServices是当今市场上效率和扩展性最高的数据集成平台之一。它使企业能够方便地、随时随地抽取、清洗、转换和装载数据。DataServices有利于确保BI最终用户总是能掌握及时、准确、可靠的信息。DataServices支持广泛的数据源和目标,可以在**系统范围内集成更多的数据源,这些数据源包括:支持主流数据库系统:包括Oracle、MicrosoftSQLServer、Teradata、IBMDB2、SybaseASE、SybaseIQ支持非关系型数据源:如各种文件格式、xml、MQSeries等支持通用的数据库接口:如ODBC支持Hadoop数据源支持企业应用系统:如SAPERP,OracleEBS,Peoplesoft,S等提供数据清洗功能提供数据剖析功能(dataprofile),进行数据属性分析,可以帮助描述数据的质量、结构信息。可视化界面查看源和目标数据的质量、数据关系。使用Validation转换,依据一组预定义的业务规则比较输入的数据,并在必要时采取任何纠正措施。同时具备强大的数据质量监控工具,帮助我们监控各来源的数的有效程度,通过建立清洗包,可以帮助我们大幅提升各来源数据的有效程度提供审核功能,可确保数据流将正确的数据加载到数据仓库中。支持数据转换利用DataServices,用户可以执行多种数据转换功能。用户可以选择一系列功能强大、可扩展、可重复使用的数据转换组件,如父子结构的XML数据展平组件、行和列转换组件、渐变维组件、数据匹配和合并组件、变化数据捕捉组件及数据校验组件等,最大程度地提高开发人员的工作效率。空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。DataServices可以定义多种异常处理机制,其中包含对空值的判断和校验。提供规范化数据格式支持:可实现字段格式约束定义,对于数据源中的时间、数值、字符等数据,提供对时间、数字、字符校验的函数,并可以灵活定义格式。提供字段映射:映射源和目标字段之间的匹配;字段的拆分;多字段的混合运算。记录间合并或计算;记录拆分;排序、统计,按行按列的分组聚合等功能。DataServices提供丰富的lookup函数(lookup,lookup_seq,look_ext),可以实现复杂的lookup算法,例如根据数据范围lookup,数据拆分后lookup。DataServices还提供数据替换功能,配合校验函数的使用,可以实现基于业务规则,进行无效数据、缺失数据的替换。支持自动产生有效时间(Data_Generation),设计人员可以根据需要设定时间序列的增长间隔等相关属性。提供自动主键生成功能,自动生成可自增长的主键。提供层次数据展平的转换功能(Hierarchy_Flattern),将有自连接的表展开,以便将来的统计分析处理。提供多套数据集合并(Merge)成一个数据集的功能。提供历史数据操作保留的功能,例如源数据表中某一条记录被更新,在目标数据表中,保留原有记录,并增加一条新的记录以描述该记录的最新情况。提供列到行(Pivot)以及行到列(ReversePivot)的转换。提供表数据集合比较的功能(TableComparison),并根据比较所得到的结果集进行相应操作。还可以在转换流程中通过图形方式加入特定的SQL代码DataServices还提供了操作映射功能(MapOperataion),即对源数据表的insert,delete以及update操作,根据业务需要映射成目标表的insert,delete以及update,此种映射并不是同等操作的映射,可以按需定义,例如:用户可以将源表的update映射成目标表的insert,源表的delete映射成update。DataServices除

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论