(完整word版)H3C大数据产品技术白皮书

上传人：w*** IP属地：天津上传时间：2021-05-21 格式：DOCX 页数：14 大小：326.85KB 积分：20 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、H3C FlexData MPP Cluster技术白皮书H3C大数据产品技术白皮书杭州华三通信技术有限公司2020年4月杭州华三通信技术有限公司iH3C FlexData MPP Cluster技术白皮书1 H3C大数据产品介绍 11.1 产品简介11.2 产品架构11.2.1 数据处理 21.2.2 数据分层 31.3 产品技术特点4先进的混合计算架构 4高性价比的分布式集群 4云化ETL 4数据分层和分级存储 5数据分析挖掘 5数据服务接口 5可视化运维管理 51.4 产品功能简介6管理平面功能： 7业务平面功能： 82 DataEngine HDP 核心技术 93 DataEngi

2、ne MPP Cluster 核心技术 93.1 MPP + SharedNothing 架构93.2 核心组件103.3 高可用113.4 高性能扩展能力113.5 高性能数据加载123.6 OLAP 函数133.7 行列混合存储13杭州华三通信技术有限公司IIH3C FlexData MPP Cluster技术白皮书1 H3C大数据产品介绍1.1 产品简介H3C大数据平台采用开源社区 Apache Hadoop2.0和MPP分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案，具备高性能、高可用、高扩展特性，可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C大数

3、据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能，并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统帮助用户构建海量数据处理系统，发现数据的内在价值。1.2 产品架构HSCZEFKfl上連平 frKB笹堆芒12iRt巽jpRctiuce Spjrksirem曲.M-噸Hadaap2.01 j jET辛SElumemifiKettleH3C大数据平台包含4个部分:CRMSGM0生产记杭州华三通信技术有限公司1第一部分是运维管理，包括：安装部署、配置管理、主机管理、用户管H3C FlexData MPP Cluster技术白皮书理、服务管理、监控告警和安全管理等

4、。第二部分是数据 ETL,即获取、转换、加载，包括：关系数据库连接 Sqoop、日志采集 Flume、ETL工具Kettle 。第三部分是数据计算。MPP采用分析型分布式数据库，存储高价值密度的结构化数据；Hadoop存储非结构化/半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库，数据仓库中的数据可直接用于分析和展示。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。第四部分数据服务，包括：机器学习、数据挖掘、数据检索、数据可视化、即席分析、SQL和 API，为应用层提供服务和中间件调用。1.2.1数据处理对于大数据管理平台

5、，应该建立一套标准化、规范化的数据处理流程，例如: 如何采集内部和外部数据、结构化和非结构化数据；如何清洗采集来的脏数据和无效数据；如何对不同来源的数据进行打通；如何对非结构化的数据进行结构化加工；如何在结构化数据的基础上进行商业建模和数据挖掘等等。大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线。这条流水线从数据的采集、清洗到加工处理，把原始杂乱无章的数据加工成结构化的数据组件，供上层的大数据应用来拼装调用，让企业拥有创造数据资产的能力。1.2.2数据分层ODS层：数据来源于各生产系统，通过ETL工具对接口文件数据进行编码替换和数据清洗转换，不做关联操作。未来也可用

6、于准实时数据查询。轻度汇总层：主题域内部基于明细层数据，进行多维度的、用户级的汇总明细数据层：主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规则进行的拆分及合并。信息子层：报表数据、多维数据、指标库等数据来源于汇总层。汇总层：主题域之间进行关联、汇总计算。汇总数据服务于信息子层，目的是为了节约信息子层数据计算成本和计算时间。应用层：应用系统的私有数据，应用的业务数据。精细化营销做为大数据平台的一个上层应用，由大数据平台提供数据支撑。1.3 产品技术特点先进的混合计算架构采用Hadoop和MPP融合技术架构，对半结构化和非结构化数据支持并行计算和低成本存储，提供低时延、

7、高并发的查询和分析功能；对结构化数据采用MPP分布式列存储，支持分布式计算、智能索引等功能，实现高性能结构化数据分析处理。集成Map Reduce、Spark、Storm、Tez等多种计算框架，利用YARN资源管理做统一管理，可在同一份数据集上运行多种计算。离线计算、内存计算和流式计算并存，能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。高性价比的分布式集群基于X86服务器本地的计算与存储资源，计算集群可以动态调整，从数台到数千台之间弹性扩展，按需构建应用，减少总体成本；同时，在设计时充分考虑了硬件设备的不可靠因素，在软件层面提供计算和存储的高可靠保证，具备较强的容错

8、性。云化ETL将不同业务系统中分散、零乱、标准不统一的各种源数据中的数据进行汇聚。支持从DBMS、互联网、物联网、企业生产系统等各种数据源中提取数据。各类数据经过抽取、清洗和转化后，实现多对多地加载到包含但不限于大数据集群和各类关系型数据库中。该过程由一个统一的操作接口封装，经过无代码的可视化配置后，可实现自动化地、分布式地执行整个ETL作业流程。杭州华三通信技术有限公司-7 -数据分层和分级存储把数据按照不同阶段分为 ODSQperational Data Store）数据、轻度汇总数据、信息子层数据和应用数据，分别存储在Hadoop平台、MPP分布式数据库和数据仓库，满足不同阶

9、段的计算需求；按照在线数据、历史数据等来管理数据生命周期，满足在线数据的高性能存储的需求；将核心模型数据通过改造融入到数据仓库的核心模型中，减少数据冗余，提升数据质量；将数据仓库中的历史数据迁移到低成本分布式数据库，减轻数据仓库的计算与存储压力并支撑深度数据分析。数据分析挖掘支持R语言，集成机器学习算法库Mahout和Spark MLlib，包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、R语言数据挖掘、实时流处理、全文搜索等全方位需求。可帮助企业建立高速可扩展的数据仓库和数据集市，结合多种报表工具提供交互式数据分析、即时报表

10、和BI可视化展示能力。数据服务接口提供交互式SQL和可编程API，提取数据存储计算平台的数据处理结果，屏蔽底层细节，为上层应用提供数据服务。主要包括SQL接口、 MapReduce/Spark/Storm计算接口等多种可编程 API、全文实时搜索接口、业务定向接口、关联查询接口，满足数据查询、可视化BI展示、数据交换、数据分析、目录服务、综合查询等业务应用的需要。可视化运维管理提供Web图形化界面实现运集群的管理和监控，集群的节点、主机和服务的运行状态都能在界面上显示，操作友好，功能丰富。提供集群快速安装部署、机架展示、用户权限管理、主机与服务管理、监控及告警通知等多方面支持，在可管

11、理性方面优势显著。服务分类服务名称服务功能说明系统服务YARN一种全新的通用的 Hadoop资源管理器，为集群在利用率和资源统一管理等方面带来了巨大便利。可使MapReduce、Spark、Storm等共存。ZooKeeper分布式应用程序协调服务，保证集群的一致性。提供的功能包括：配置维护、名字服务、分布式同步、组服务等。Slider将已存在服务部署在 YARN集群上，而不用修改已存在服务。Oozie提供Hadoop作业工作流管理功能，可管理MR、Hive、Pig、Sqoop和HDFS等任务。Kafka一种低时延高吞吐量的分布式发布 / 订阅消息系统，同时满足在线和离线处理海量消息数据派

12、发。Kerberos一个基于共享密钥对称加密的安全网络认证系统，可防止对集群的恶意使用和篡改，保障 Hadoop集群的安全可靠。计算服务MapReduce批处理框架，将一个大任务分成多个独立的小任务，最后汇总各个小任务的结果。用户只需关注上层应用的逻辑，完全不用关注底层分布式细节，大大提升了分布式应用开发的效率和质量。主要用于离线计算和计算密集型应用。Spark迭代计算框架，基于内存计算。性能比MR快10-100倍，通用性好，支持批处理、流处理、SQL查询、机器学习、图计算等。Storm流处理框架，具有效率高、能保证每条消息都能被处理和实践应用很多等优点。TezMapReduce程

13、序性能优化器。将 MR程序转化为有向无环图，大大提升性能。存储服务HDFSHadoop分布式文件系统，具有高容错性，可以部署在廉价的机器上。提供高吞吐量来访问应用程序的数据，适合存储超大数据集。HBase分布式、面向列数据库，利用HDFS作为持久化数据存储，使用Zookeeper作为协同服务组件。具有容量巨大、面向列存储和权限控制、稀疏性、咼可用和咼性能等特点。数据处理SqoopHadoop和关系型数据库之间进行批量数据转移的工具。Flume一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Hive基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表

14、，采用 HiveQL作为查询语言。将 HiveQL转换为 MapReduce任务，从而完成海量数据的查询和分析。Pig基于Hadoop的数据流处理引擎，将类 SQL的数据分析请求转换为Map/Reduce 任务。Mahout机器学习算法库，3个主要应用场景是协作筛选、集群和分类，可使用 MR、Scala、Spark 来提交 Mahout 接口。数据即服务提供机器学习Mahout、数据挖掘、数据检索、R语言、交互式SQL（SQL on Hadoop ）、可编程API等功能，满足上次应用开发需求。MPP分布式数据库H3C MPP关系型数据库集群，良好的 SQL语言支持。高性能、高容错、高可用。

15、1.4 产品功能简介服务名称服务功能说明安装部署提供定制部署、Zero部署和虚机部署等多种集群部署方式，满足用户不用应用场景需求。提供 Web图形化界面和快速向导，引导用户快捷高效地建立集群。机架管理实现HDFS副本存放策略的可视化管理。配置管理实现集群各项服务配置参数的历史快照功能，记录配置变更，方便性能调优。用户和组管理支持单用户和用户组管理，便捷的用户和组的增删操作，提供不同级别的访问权限控制；主机管理实时监控主机各项硬件资源（CPU、内存、磁盘、网络等）及其上承载的服务的运行状态。执行主机级别操作如停止、运行主机上的服务等。服务管理对集群的各项服务做集中式管理，提供启动服务

16、、停止服务、修改属性和设定运行参数等功能。实现集群各项服务运行状态（基本信息、告警、运行健康状态）实时监控。监控和告警监控集群运行的健康状态，在特定的情况下发岀信息，帮助识别和定位问题原因。可自定义告警的监控间隔和阈值、触发条件、告警通知方式。版本管理实现HDP Stack可用服务和软件版本的管理功能。多租户支持多租户访问集群资源。安全管理支持本地、LDAP和Kerberos多种身份认证方式，实现访问权限控制。支持对文件、目录、表、列、行等细粒度的访问控制，可防止对集群的恶意使用和篡改，保证集群的可安全可靠。数据管理实现数据的压缩、备份、交换及数据ETL的管理。管理平面功能:业务平面功

17、能:H3C FlexData MPP Cluster技术白皮书2 DataEngine HDP核心技术wsi+fiHivePigSha rkStream mgStormMiiDRpfiiiirp杭州华三通信技术有限公司9 -DataEngine HDP基于X86服务器本地的计算与存储资源提供了分布式并行计算和低成本存储，提供低时延、高并发的查询功能，集群可以扩展到上千台服务器。H3G!过对Hadoop开源组件的封装和增强，对外提供数据分布式计算存储、数据分析能力。资源管理YARN改进的YARN统一资源管理，在同一物理主机 /虚拟主机和数据集上运行多种计算框架，包括离线计算、内存计算和实时计

18、算。分布式文件系统 HDFS分布式文件系统，有较强的容错性，可在x86平台上运行，减少总体成本，可扩展，能构建大规模的应用。数据库 HBase： HBase是一种构建在 HDFS（Hadoop Distributed File System ）之上的分布式、面向列的存储系统，它具有高可靠、高性能、面向列和可伸缩的特性。HBase适合于存储大表数据（表的规模可以达到数十亿行以及数百万列），并且对大表数据的读、写访问可以达到实时级别。Map和Reduce两个阶离线计算：MapReduce是一种离线计算框架，将一个算法抽象成段进行处理，适合数据密集型计算场景。内存计算：Spark是一种内存计算框

19、架，它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。实时计算：Storm 擅长流式计算、实时分析，比如广告点击计算、它在实时性要远远好于MapReduce计算框架。3 DataEngine MPP Cluster 核心技术3.1 MPP + Shared Nothing 架构DataE ngi ne MPP Cluster 采用完全并行的 MPP + Shared Nothi ng 的分布式扁平架构，这种架构中的每一个节点（n ode）都是独立的、自给的、节点之间对等，而且整个系统中不存在单点瓶颈，具有非常强的扩展性。tnteicanri*ttion Network-MP

20、P架构横向扩展Hash,Ran do m.图 3-1 Shared Nothi ng + MPP架构示意图3.2 核心组件DataEngine MPPCluster 产品总共包含三大核心组件，即 GCluster、GCware和GNode GCWare用于各节点 GCluster实例间共享信息，GCluster负责集群调度，每个GNode就是最基本的存储和计算单元。GCluster :GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。GCWareGCWare用于各节点 GCluster实例间共享信息（包括集群结构，节点状态，节点资源状态等信息），以及控制多副本数据

21、操作时，提供可操作节点，并在多副本操作中，控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为基本单位的。GNodeGNode是 GCluster中最基本的存储和计算单元。 GNode是由GCWare管理的一个8a实例，每个GCluster节点上有一个GNode实例运行。GNode负责集群数据在节点上的实际存储，并从GCluster接收和执行经分解的 SQL执行计划，执行结果返回给GCluster。数据加载时， GNode直接从集群加载服务接收数据，写入本地存储空间。GCMo nit:H3C FlexData MPP Cluster技术白皮书GCM on it用于定期监测

22、DataE ngine MPP Cluster服务程序的运行状态，一旦发现某个服务程序的进程状态发生变化，就会根据配置文件中的内容来执行相应的命令。GCMonit进程监控程序为集群中的每个组件提供各自的启停脚本，提供的总脚本可以一次性启停所有模块的服务。3.3 咼可用DataEngine MPP Cluster 通过SafeGroup组内冗余机制来保证集群的高可用特性:1) 每个SafeGroup可提供1个或2个副本数据冗余;2) SafeGroup内数据副本自动同步；3) 复制引擎自动管理数据同步；图3-2 SafeGroup高可用性管理示意图3.4 高性能扩展能力DataE ngi ne MPP Cluster 具备高性能扩展能力:1) 通过SafeGroup动态扩展集群节点；2) 每个节点可以处理10TB有效数据，同时提供计算和存储能力;3) GCware负责新节点的数据同步。杭州华三通信技术有限公司10H3C FlexData MPP Cluster技术白皮书-WSafegroup戒态扩展失群节点* GCWare冏占新苗点的魏据同涉杭州华三通信技术有限公司12 -扩展技术示意图图 3-3 DataE ngine MPP Cluster因为DataEngine MPP Cluster

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

(完整word版)H3C大数据产品技术白皮书

文档简介

温馨提示

最新文档

评论

(完整word版)H3C大数据产品技术白皮书

文档简介

温馨提示

最新文档

评论

相关文档