版H3C大数据产品技术白皮书_第1页
版H3C大数据产品技术白皮书_第2页
版H3C大数据产品技术白皮书_第3页
版H3C大数据产品技术白皮书_第4页
版H3C大数据产品技术白皮书_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、H3CFlexDataMPPCluster技术白皮书H3C大数据产品技术白皮书杭州华三通信技术有限企业2020年4月杭州华三通信技术有限企业IH3CFlexDataMPPCluster技术白皮书目录1H3C大数据产品介绍.11.1产品简介.11.2产品架构.1数据办理.2数据分层.31.3产品技术特点.4先进的混杂计算架构.4高性价比的分布式集群.4云化ETL.4数据分层和分级储藏.5数据解析挖掘.5数据服务接口.5可视化运维管理.51.4产品功能简介.6管理平面功能:.7业务平面功能:.82DataEngineHDP核心技术.93DataEngineMPPCluster核心技术.93.1MP

2、P+SharedNothing架构.93.2核心组件.103.3高可用.113.4高性能扩展能力.113.5高性能数据加载.123.6OLAP函数.133.7行列混杂储藏.13杭州华三通信技术有限企业IIH3CFlexDataMPPCluster技术白皮书H3C大数据产品介绍1.1产品简介H3C大数据平台采用开源社区ApacheHadoop2.0和MPP分布式数据库混合计算框架为用户供应一套完满的大数据平台解决方案,具备高性能、高可用、高扩展特点,可以为超大规模数据管理供应高性价比的通用计算储藏能力。H3C大数据平台供应数据采集变换、计算储藏、解析挖掘、共享交换以及可视化等全系列功能,并广泛地

3、用于支撑各种数据库房系统、BI系统和决策支持系统帮助用户成立海量数据办理系统,发现数据的内在价值。1.2产品架构H3C大数据平台包括4个部分:第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管杭州华三通信技术有限企业-1-H3CFlexDataMPPCluster技术白皮书理、服务管理、监指控警和安全管理等。第二部分是数据ETL,即获取、变换、加载,包括:关系数据库连接Sqoop、日志采集Flume、ETL工具Kettle。第三部分是数据计算。MPP采用解析型分布式数据库,储藏高价值密度的结构化数据;Hadoop储藏非结构化/半结构化数据和廉价值密度结构化数据。计算结果都存到数据库

4、房,数据库房中的数据可直接用于解析和显现。数据库房是面向主题的、集成的、牢固的且随时间不断变化的数据会集,用以支持经营管理中的决策拟定过程。第四部分数据服务,包括:机器学习、数据挖掘、数据检索、数据可视化、即席解析、SQL和API,为应用层供应服务和中间件调用。数据办理对于大数据管理平台,应该成立一套标准化、规范化的数据办理流程,比方:如何采集内部和外面数据、结构化和非结构化数据;如何冲刷采集来的脏数据和无效数据;如何对不同样本源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的基础进步行商业建模和数据挖掘等等。大数据管理层在一条数据总线上成立了一条完满的大数据办理流水线。

5、这条流水线从数据的采集、冲刷到加工办理,把原始纷乱无章的数据加工成结构化的数据组件,供上层的大数据应用来拼装调用,让企业拥有创办数据财富的能力。杭州华三通信技术有限企业-2-H3CFlexDataMPPCluster技术白皮书数据分层ODS层:数据本源于各生产系统,经过ETL工具对接口文件数据进行编码代替和数据冲刷变换,不做关系操作。未来也可用于准实时数据盘问。轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总明细数据层:主题域内部进行拆分、关系。是对ODS操作型数据依照主题域划分规则进行的拆分及合并。信息子层:报表数据、多维数据、指标库等数据本源于汇总层。汇总层:主题域之间进行

6、关系、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。杭州华三通信技术有限企业-3-H3CFlexDataMPPCluster技术白皮书应用层:应用系统的私有数据,应用的业务数据。精巧化营销做为大数据平台的一个上层应用,由大数据平台供应数据支撑。1.3产品技术特点先进的混杂计算架构采用Hadoop和MPP交融技术架构,对半结构化和非结构化数据支持并行计算和低成本储藏,供应低时延、高并发的盘问和解析功能;对结构化数据采用MPP分布式列储藏,支持分布式计算、智能索引等功能,实现高性能结构化数据解析办理。集成MapReduce、Spark、Storm、Tez等多种计算

7、框架,利用YARN资源管理做一致管理,可在同一份数据集上运行多种计算。离线计算、内存计算和流式计算并存,能满足高吞吐、大数据量和低时延实时办理等多方面的数据计算要求。高性价比的分布式集群基于x86服务器当地的计算与储藏资源,计算集群可以动向调整,从数台到数千台之间弹性扩展,按需成立应用,减少整体成本;同时,在设计时充分考虑了硬件设备的不可以靠因素,在软件层面供应计算和储藏的高可靠保证,具备较强的容错性。云化ETL将不同样业务系统中分别、纷乱、标准不一致的各种源数据中的数据进行汇聚。支持从DBMS、互联网、物联网、企业生产系统等各种数据源中提取数据。各种数据经过抽取、冲刷和转变后,实现多对多地加

8、载到包括但不限于大数据集群和各种关系型数据库中。该过程由一个一致的操作接口封装,经过无代码的可视化配置后,可实现自动化地、分布式地执行整个ETL作业流程。杭州华三通信技术有限企业-4-H3CFlexDataMPPCluster技术白皮书数据分层和分级储藏把数据依照不同样阶段分为ODS(OperationalDataStore)数据、轻度汇总数据、信息子层数据和应用数据,分别储藏在Hadoop平台、MPP分布式数据库和数据库房,满足不同样阶段的计算需求;依照在线数据、历史数据等来管理数据生命周期,满足在线数据的高性能储藏的需求;将核心模型数据经过改造融入到数据库房的核心模型中,减少许据冗余,提升

9、数据质量;将数据库房中的历史数据迁移到低成本分布式数据库,减少许据库房的计算与储藏压力并支撑深度数据解析。数据解析挖掘支持R语言,集成机器学习算法库Mahout和SparkMLlib,包括聚类解析、分类算法、频度关系解析和介绍系统在内的常用机器学习算法。满足批处理统计解析、在线数据检索、R语言数据挖掘、实时流办理、全文找寻等全方向需求。可帮助企业成立高速可扩展的数据库房和数据集市,结合多种报表工具供应交互式数据解析、即时报表和BI可视化显现能力。数据服务接口?供应交互式SQL和可编程API,提取数据储藏计算平台的数据办理结果,屏蔽基层细节,为上层应用供应数据服务。主要包括SQL接口、MapRe

10、duce/Spark/Storm计算接口等多种可编程API、全文实时找寻接口、业务定向接口、关系盘问接口,满足数据盘问、可视化BI显现、数据交换、数据解析、目录服务、综合盘问等业务应用的需要。可视化运维管理供应Web图形化界面实现运集群的管理和监控,集群的节点、主机和服务的运行状态都能在界面上显示,操作友好,功能丰富。供应集群快速安装部署、机架显现、用户权限管理、主机与服务管理、监控及告警通知等多方面支持,在可管理性方面优势显然。杭州华三通信技术有限企业-5-服务分类系统服务计算服务储藏服务数据办理服务名称YARNZooKeeperSliderOozieKafkaKerberosMapRedu

11、ceSparkStormTezHDFSHBaseSqoopFlumeHivePigMahout数据即服务H3CFlexDataMPPCluster技术白皮书服务功能说明一种崭新的通用的Hadoop资源管理器,为集群在利用率和资源统一管理等方面带来了巨大便利。可使MapReduce、Spark、Storm等共存。分布式应用程序协调服务,保证集群的一致性。供应的功能包括:配置保护、名字服务、分布式同步、组服务等。将已存在服务部署在YARN集群上,而不用更正已存在服务。供应Hadoop作业工作流管理功能,可管理MR、Hive、Pig、Sqoop和HDFS等任务。一种低时延高吞吐量的分布式宣布/订阅信

12、息系统,同时满足在线和离线办理海量信息数据派发。一个基于共享密钥对称加密的安全网络认证系统,可防范对集群的恶意使用和篡改,保障Hadoop集群的安全可靠。批办理框架,将一个大任务分成多个独立的小任务,最后汇总各个小任务的结果。用户只需关注上层应用的逻辑,完满不用关注基层分布式细节,大大提升了分布式应用开发的效率和质量。主要用于离线计算和计算密集型应用。迭代计算框架,基于内存计算。性能比MR快10-100倍,通用性好,支持批办理、流办理、SQL盘问、机器学习、图计算等。流办理框架,拥有效率高、能保证每条信息都能被办理和实践应用很多等优点。MapReduce程序性能优化器。将MR程序转变成有向无环

13、图,大大提升性能。Hadoop分布式文件系统,拥有高容错性,可以部署在廉价的机器上。供应高吞吐量来接见应用程序的数据,适合储藏超大数据集。分布式、面向列数据库,利用HDFS作为长远化数据储藏,使用Zookeeper作为共同服务组件。拥有容量巨大、面向列储藏和权限控制、稀罕性、高可用和高性能等特点。Hadoop和关系型数据库之间进行批量数据转移的工具。一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。基于Hadoop的数据库房工具,可以将结构化的数据文件照射为一张数据库表,采用HiveQL作为盘问语言。将HiveQL变换为MapReduce任务,从而完成海量数据的盘问和解析。基于H

14、adoop的数据流办理引擎,将类SQL的数据解析央求变换为Map/Reduce任务。机器学习算法库,3个主要应用途景是协作精选、集群和分类,可使用MR、Scala、Spark来提交Mahout接口。供应机器学习Mahout、数据挖掘、数据检索、R语言、交互式SQL杭州华三通信技术有限企业-6-H3CFlexDataMPPCluster技术白皮书(SQLonHadoop)、可编程API等功能,满足前一次应用开发需求。MPP分布H3CMPP关系型数据库集群,优异的SQL语言支持。高性能、高容错、高可式数据库用。1.4产品功能简介服务名称服务功能说明安装部署供应定制部署、Zero部署和虚机部署等多种

15、集群部署方式,满足用户不用应用途景需求。供应Web图形化界面和快速导游,引导用户快捷高效地成立集群。机架管理实现HDFS副本存放策略的可视化管理。配置管理实现集群各项服务配置参数的历史快照功能,记录配置改正,方便性能调优。用户和组管理支持单用户和用户组管理,便利的用户和组的增删操作,供应不同样级其他接见权限控制;主机管理实时监控主机各项硬件资源(CPU、内存、磁盘、网络等)及其上承载的服务的运行状态。执行主机级别操作如停止、运行主机上的服务等。服务管理对集群的各项服务做集中式管理,供应启动服务、停止服务、更正属性和设定运行参数等功能。实现集群各项服务运行状态(基本信息、告警、运行健康状态)实时

16、监控。监控和告警版本管理多租户安全管理数据管理监控集群运行的健康状态,在特定的情况下发出信息,帮助鉴别和定位问题原因。可自定义告警的监控间隔和阈值、触发条件、告警通知方式。实现HDPStack可用服务和软件版本的管理功能。支持多租户接见集群资源。支持当地、LDAP和Kerberos多种身份认证方式,实现接见权限控制。支持对文件、目录、表、列、行等细粒度的接见控制,可防范对集群的恶意使用和篡改,保证集群的可安全可靠。实现数据的压缩、备份、交换及数据ETL的管理。管理平面功能:杭州华三通信技术有限企业-7-H3CFlexDataMPPCluster技术白皮书业务平面功能:杭州华三通信技术有限企业-

17、8-H3CFlexDataMPPCluster技术白皮书2DataEngineHDP核心技术DataEngineHDP基于X86服务器当地的计算与储藏资源供应了分布式并行计算和低成本存储,供应低时延、高并发的盘问功能,集群可以扩展到上千台服务器。H3C经过对Hadoop开源组件的封装和增强,对外供应数据分布式计算储藏、数据解析能力。资源管理YARN:改进的YARN一致资源管理,在同一物理主机/虚假主机和数据集上运行多种计算框架,包括离线计算、内存计算和实时计算。分布式文件系统HDFS:分布式文件系统,有较强的容错性,可在x86平台上运行,减少整体成本,可扩展,能成立大规模的应用。数据库HBas

18、e:HBase是一种成立在HDFS(HadoopDistributedFileSystem)之上的分布式、面向列的储藏系统,它拥有高可靠、高性能、面向列和可伸缩的特点。HBase适合于储藏大表数据(表的规模可以达到数十亿行以及数百万列),而且对大表数据的读、写接见可以达到实时级别。离线计算:MapReduce是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行办理,适合数据密集型计算场景。内存计算:Spark是一种内存计算框架,它将数据尽可能放到内存中以提升迭代应用和交互式应用的计算效率。实时计算:Storm擅长流式计算、实时解析,比方广告点击计算、它在实时性要远远好于MapR

19、educe计算框架。3DataEngineMPPCluster核心技术3.1MPP+SharedNothing架构DataEngineMPPCluster采用完满并行的MPP+SharedNothing的分布式扁平架构,这种架构中的每一个节点(node)都是独立的、自给的、节点之间同等,而且整个系统中不存在单点瓶颈,拥有特别强的扩展性。杭州华三通信技术有限企业-9-H3CFlexDataMPPCluster技术白皮书图3-1SharedNothing+MPP架构表示图3.2核心组件DataEngineMPPCluster产品总合包括三大核心组件,即GCluster、GCware和GNode。G

20、CWare用于各节点GCluster实例间共享信息,GCluster负责集群调换,每个GNode就是最基本的储藏和计算单元。GCluster:GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调换。GCWare:GCWare用于各节点GCluster实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,供应可操作节点,并在多副本操作中,控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为基本单位的。GNode:GNode是GCluster中最基本的储藏和计算单元。GNode是由GCWare管理的一个8a实例,每个GCluste

21、r节点上有一个GNode实例运行。GNode负责集群数据在节点上的实质储藏,并从GCluster接收和执行经分解的SQL执行计划,执行结果返回给GCluster。数据加载时,GNode直接从集群加载服务接收数据,写入当地储藏空间。GCMonit:杭州华三通信技术有限企业-10-H3CFlexDataMPPCluster技术白皮书GCMonit用于如期监测DataEngineMPPCluster服务程序的运行状态,一旦发现某个服务程序的进度状态发生变化,就会依照配置文件中的内容来执行相应的命令。GCMonit进程监控程序为集群中的每个组件供应各自的启停脚本,供应的总脚本可以一次性启停所有模块的服务。3.3高可用DataEngineMPPCluster经过SafeGroup组内冗余体系来保证集群的高可用特点:每个SafeGroup可供应1个或2个副本数据冗余;SafeGroup内数据副本自动同步;复制引擎自动管理数据同步;图3-2SafeGroup高可用性管理表示图3.4高性能扩展能力DataEngineMPPCluster具备高性能扩展能力:经过SafeGroup动向扩展集群节点;每个节点可以办理10TB有效数据,同时供应计算和储藏能力;GCware负责新节点的数据同步。杭州华三通信技术有限企业-11-H3CFlexDataMPPCluste

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论