H3C大数据产品技术白皮书_第1页
H3C大数据产品技术白皮书_第2页
H3C大数据产品技术白皮书_第3页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、h3c flexdata mpp cluster技术白皮书h3c 大数据产品技术白皮书杭州华三通信技术有限公司2019 年 8 月杭州华三通信技术有限公司ih3c flexdata mpp cluster技术白皮书目录1h3c 大数据产品介绍 .11.1产品简介.11.2产品架构.11.2.1 数据处理 .21.2.2 数据分层 .31.3产品技术特点.4先进的混合计算架构 .4高性价比的分布式集群 .4云化 etl .4数据分层和分级存储 .5数据分析挖掘 .5数据服务接口 .5可视化运维管理 .51.4产品功能简介.6管理平面功能: .7业务平面功能: .82dataengine hdp

2、核心技术 .93dataengine mpp cluster核心技术 .93.1mpp + shared nothing架构 .93.2核心组件.103.3高可用 .113.4高性能扩展能力.113.5高性能数据加载.123.6olap 函数 .133.7行列混合存储.13杭州华三通信技术有限公司iih3c flexdata mpp cluster技术白皮书1 1 h3ch3c 大数据产品介绍大数据产品介绍1.11.1产品简介产品简介h3c 大数据平台采用开源社区apache hadoop2.0和 mpp 分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩

3、展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。h3c 大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、 bi 系统和决策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。1.21.2产品架构产品架构h3c 大数据平台包含 4 个部分:第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管杭州华三通信技术有限公司- 1 -h3c flexdata mpp cluster技术白皮书理、服务管理、监控告警和安全管理等。第二部分是数据 etl, 即获取、 转换、 加载, 包括: 关系数据库连接 sqoop

4、、日志采集 flume、etl 工具 kettle。第三部分是数据计算。mpp 采用分析型分布式数据库,存储高价值密度的结构化数据;hadoop 存储非结构化/半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库,数据仓库中的数据可直接用于分析和展示。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。第四部分数据服务,包括:机器学习、数据挖掘、数据检索、数据可视化、即席分析、sql 和 api,为应用层提供服务和中间件调用。1.2.11.2.1 数据处理数据处理对于大数据管理平台,应该建立一套标准化、规范化的数据处理流程,例如:如何采集内部

5、和外部数据、结构化和非结构化数据;如何清洗采集来的脏数据和无效数据;如何对不同来源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的基础上进行商业建模和数据挖掘等等。大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线。这条流水线从数据的采集、清洗到加工处理,把原始杂乱无章的数据加工成结构化的数据组件,供上层的大数据应用来拼装调用,让企业拥有创造数据资产的能力。杭州华三通信技术有限公司- 2 -h3c flexdata mpp cluster技术白皮书1.2.21.2.2 数据分层数据分层ods 层:数据来源于各生产系统,通过 etl 工具对接口文件数据进行编码替换

6、和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总明细数据层:主题域内部进行拆分、关联。是对 ods 操作型数据按照主题域划分规则进行的拆分及合并。信息子层:报表数据、多维数据、指标库等数据来源于汇总层。汇总层:主题域之间进行关联、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。杭州华三通信技术有限公司- 3 -h3c flexdata mpp cluster技术白皮书应用层:应用系统的私有数据,应用的业务数据。精细化营销做为大数据平台的一个上层应用,由大数据平台提供数据支撑。1.31.3产

7、品技术特点产品技术特点先进的混合计算架构先进的混合计算架构采用hadoop和mpp融合技术架构,对半结构化和非结构化数据支持并行计算和低成本存储,提供低时延、高并发的查询和分析功能;对结构化数据采用mpp分布式列存储,支持分布式计算、智能索引等功能,实现高性能结构化数据分析处理。集成mapreduce、spark、storm、tez等多种计算框架,利用yarn资源管理做统一管理,可在同一份数据集上运行多种计算。离线计算、内存计算和流式计算并存,能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。高性价比的分布式集群高性价比的分布式集群基于x86服务器本地的计算与存储资源,计算集群可以

8、动态调整,从数台到数千台之间弹性扩展,按需构建应用,减少总体成本;同时,在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供计算和存储的高可靠保证,具备较强的容错性。云化云化 etletl将不同业务系统中分散、零乱、标准不统一的各种源数据中的数据进行汇聚。支持从dbms、互联网、物联网、企业生产系统等各种数据源中提取数据。各类数据经过抽取、清洗和转化后,实现多对多地加载到包含但不限于大数据集群和各类关系型数据库中。该过程由一个统一的操作接口封装,经过无代码的可视化配置后, 可实现自动化地、 分布式地执行整个etl作业流程。杭州华三通信技术有限公司- 4 -h3c flexdata mpp c

9、luster技术白皮书数据分层和分级存储数据分层和分级存储把数据按照不同阶段分为ods(operational data store)数据、轻度汇总数据、信息子层数据和应用数据,分别存储在hadoop平台、mpp分布式数据库和数据仓库,满足不同阶段的计算需求;按照在线数据、历史数据等来管理数据生命周期,满足在线数据的高性能存储的需求;将核心模型数据通过改造融入到数据仓库的核心模型中,减少数据冗余,提升数据质量;将数据仓库中的历史数据迁移到低成本分布式数据库,减轻数据仓库的计算与存储压力并支撑深度数据分析。数据分析挖掘数据分析挖掘支持r语言,集成机器学习算法库mahout和spark mllib

10、,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、 r语言数据挖掘、实时流处理、全文搜索等全方位需求。可帮助企业建立高速可扩展的数据仓库和数据集市,结合多种报表工具提供交互式数据分析、即时报表和bi可视化展示能力。数据服务接口数据服务接口提供交互式sql和可编程api,提取数据存储计算平台的数据处理结果, 屏蔽 底 层 细 节 , 为 上 层 应 用 提 供 数 据 服 务 。 主 要 包 括 sql接 口 、mapreduce/spark/storm计算接口等多种可编程api、 全文实时搜索接口、 业务定向接口、关联查询接口,满足数据查

11、询、可视化bi展示、数据交换、数据分析、目录服务、综合查询等业务应用的需要。可视化运维管理可视化运维管理提供web图形化界面实现运集群的管理和监控,集群的节点、主机和服务的运行状态都能在界面上显示,操作友好,功能丰富。提供集群快速安装部署、机架展示、用户权限管理、主机与服务管理、监控及告警通知等多方面支持,在可管理性方面优势显著。杭州华三通信技术有限公司- 5 -h3c flexdata mpp cluster技术白皮书服务分类服务分类服务名称服务名称服务功能说明服务功能说明一种全新的通用的 hadoop 资源管理器,为集群在利用率和资源统yarn一管理等方面带来了巨大便利。可使 mapred

12、uce、spark、storm 等共存。zookeeper分布式应用程序协调服务,保证集群的一致性。提供的功能包括:配置维护、名字服务、分布式同步、组服务等。系统服务slider将已存在服务部署在 yarn集群上,而不用修改已存在服务。oozie提供 hadoop 作业工作流管理功能,可管理mr、hive、pig、sqoop和 hdfs 等任务。kafka一种低时延高吞吐量的分布式发布/订阅消息系统, 同时满足在线和离线处理海量消息数据派发。kerberos一个基于共享密钥对称加密的安全网络认证系统,可防止对集群的恶意使用和篡改,保障 hadoop 集群的安全可靠。批处理框架,将一个大任务分成

13、多个独立的小任务,最后汇总各个mapreduce小任务的结果。用户只需关注上层应用的逻辑,完全不用关注底层分布式细节,大大提升了分布式应用开发的效率和质量。主要用于离线计算和计算密集型应用。迭代计算框架, 基于内存计算。 性能比 mr 快 10-100 倍, 通用性好,计算服务spark支持批处理、流处理、sql 查询、机器学习、图计算等。storm流处理框架,具有效率高、能保证每条消息都能被处理和实践应用很多等优点。tezmapreduce 程序性能优化器。将mr 程序转化为有向无环图,大大提升性能。hdfshadoop 分布式文件系统, 具有高容错性, 可以部署在廉价的机器上。提供高吞吐量

14、来访问应用程序的数据,适合存储超大数据集。存储服务分布式、面向列数据库,利用 hdfs 作为持久化数据存储,使用hbasezookeeper 作为协同服务组件。 具有容量巨大、 面向列存储和权限控制、稀疏性、高可用和高性能等特点。sqoophadoop 和关系型数据库之间进行批量数据转移的工具。flume一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。基于 hadoop 的数据仓库工具,可以将结构化的数据文件映射为一hive张数据库表,采用 hiveql 作为查询语言。将 hiveql 转换为数据处理mapreduce 任务,从而完成海量数据的查询和分析。pig基于 hadoo

15、p 的数据流处理引擎,将类 sql 的数据分析请求转换为map/reduce 任务。mahout机器学习算法库,3 个主要应用场景是协作筛选、集群和分类,可使用 mr、scala、spark 来提交 mahout 接口。数据即服务提供机器学习 mahout、数据挖掘、数据检索、 r 语言、交互式sql杭州华三通信技术有限公司- 6 -h3c flexdata mpp cluster技术白皮书(sql on hadoop) 、可编程 api 等功能,满足上次应用开发需求。mpp 分布关系型数据库集群,良好的sql 语言支持。高性能、高容错、高可式数据库h3c mpp用。1.41.4产品功能简介产

16、品功能简介服务名称服务名称服务功能说明服务功能说明安装部署提供定制部署、zero 部署和虚机部署等多种集群部署方式,满足用户不用应用场景需求。提供 web 图形化界面和快速向导,引导用户快捷高效地建立集群。机架管理实现 hdfs 副本存放策略的可视化管理。配置管理实现集群各项服务配置参数的历史快照功能,记录配置变更,方便性能调优。用户和组管理支持单用户和用户组管理,便捷的用户和组的增删操作,提供不同级别的访问权限控制;主机管理实时监控主机各项硬件资源(cpu、内存、磁盘、网络等)及其上承载的服务的运行状态。执行主机级别操作如停止、运行主机上的服务等。服务管理对集群的各项服务做集中式管理,提供启

17、动服务、停止服务、修改属性和设定运行参数等功能。实现集群各项服务运行状态(基本信息、告警、运行健康状态)实时监控。监控和告警监控集群运行的健康状态,在特定的情况下发出信息,帮助识别和定位问题原因。可自定义告警的监控间隔和阈值、触发条件、告警通知方式。版本管理实现 hdp stack可用服务和软件版本的管理功能。多租户支持多租户访问集群资源。安全管理支持本地、ldap和kerberos多种身份认证方式,实现访问权限控制。支持对文件、目录、表、列、行等细粒度的访问控制,可防止对集群的恶意使用和篡改,保证集群的可安全可靠。数据管理实现数据的压缩、备份、交换及数据 etl 的管理。管理平面功能:管理平

18、面功能:杭州华三通信技术有限公司- 7 -h3c flexdata mpp cluster技术白皮书业务平面功能:业务平面功能:杭州华三通信技术有限公司- 8 -h3c flexdata mpp cluster技术白皮书2 2 dataengine hdpdataengine hdp 核心技术核心技术dataengine hdp基于x86服务器本地的计算与存储资源提供了分布式并行计算和低成本存储,提供低时延、高并发的查询功能,集群可以扩展到上千台服务器。h3c通过对hadoop开源组件的封装和增强,对外提供数据分布式计算存储、数据分析能力。资源管理 yarn:改进的 yarn 统一资源管理,在

19、同一物理主机/虚拟主机和数据集上运行多种计算框架,包括离线计算、内存计算和实时计算。分布式文件系统 hdfs:分布式文件系统,有较强的容错性,可在 x86 平台上运行,减少总体成本,可扩展,能构建大规模的应用。数据库 hbase:hbase 是一种构建在 hdfs(hadoop distributed file system )之上的分布式、面向列的存储系统,它具有高可靠、高性能、面向列和可伸缩的特性。hbase适合于存储大表数据 (表的规模可以达到数十亿行以及数百万列) ,并且对大表数据的读、写访问可以达到实时级别。离线计算: mapreduce是一种离线计算框架,将一个算法抽象成map 和

20、 reduce两个阶段进行处理,适合数据密集型计算场景。内存计算: spark 是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。实时计算: storm 擅长流式计算、实时分析,比如广告点击计算、它在实时性要远远好于 mapreduce 计算框架。3 3 dataengine mpp clusterdataengine mpp cluster 核心技术核心技术3.13.1mpp+sharednothingmpp+sharednothing架构架构dataengine mpp cluster采用完全并行的 mpp + shared nothing 的分布式扁平架构

21、,这种架构中的每一个节点(node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。杭州华三通信技术有限公司- 9 -h3c flexdata mpp cluster技术白皮书图 3-1 shared nothing + mpp 架构示意图3.23.2核心组件核心组件dataengine mpp cluster 产品总共包含三大核心组件,即gcluster、gcware 和 gnode。gcware 用于各节点 gcluster 实例间共享信息, gcluster 负责集群调度, 每个 gnode 就是最基本的存储和计算单元。gclustergcluster

22、:gcluster 负责 sql 的解析、sql 优化、分布式执行计划生成、执行调度。gcwaregcware:gcware 用于各节点 gcluster 实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。gcware 对于集群的管理工作是以节点为基本单位的。gnodegnode:gnode是gcluster中最基本的存储和计算单元。 gnode是由gcware管理的一个8a实例,每个 gcluster 节点上有一个 gnode 实例运行。gnode 负责集群数据在节点上的实际存储,并从 gclu

23、ster 接收和执行经分解的 sql 执行计划, 执行结果返回给 gcluster。 数据加载时,gnode 直接从集群加载服务接收数据,写入本地存储空间。gcmonitgcmonit:杭州华三通信技术有限公司- 10 -h3c flexdata mpp cluster技术白皮书gcmonit 用于定期监测 dataengine mpp cluster 服务程序的运行状态, 一旦发现某个服务程序的进程状态发生变化,就会根据配置文件中的内容来执行相应的命令。 gcmonit 进程监控程序为集群中的每个组件提供各自的启停脚本, 提供的总脚本可以一次性启停所有模块的服务。3.33.3高可用高可用da

24、taengine mpp cluster通过 safegroup 组内冗余机制来保证集群的高可用特性:1)每个 safegroup 可提供 1 个或 2 个副本数据冗余;2)safegroup 内数据副本自动同步;3)复制引擎自动管理数据同步;图 3-2 safegroup 高可用性管理示意图3.43.4高性能扩展能力高性能扩展能力dataengine mpp cluster具备高性能扩展能力:1)通过 safegroup 动态扩展集群节点;2)每个节点可以处理 10tb 有效数据,同时提供计算和存储能力;3)gcware 负责新节点的数据同步。杭州华三通信技术有限公司- 11 -h3c flexdata mpp cluster技术白皮书图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论