HC大数据产品技术白皮书

上传人：x*** IP属地：天津上传时间：2022-01-14 格式：DOCX 页数：12 大小：44.02KB 积分：17 举报 版权申诉

免费预览已结束，剩余9页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、H3C大数据产品技术白皮书杭州华三通信技术2021年2月1.2产品架构可视化运维管理 1 H3C 大数据产品介绍1.1 产品简介H3C大数据平台采用开源社区 Apache Hadoop2.0和MPF分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案，具备高性能、高可用、高扩展特性，可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能，并广泛地用于支撑各类数据仓库系统、 BI 系统和决策支持系统帮助用户构建海量数据处理系统，发现数据的内在价值。1.2 产品架构H3C大数据平台包含4个局部：

2、第一局部是运维管理，包括：安装部署、配置管理、主机管理、用户管理、效劳管理、监控告警和平安管理等。第二局部是数据 ETL,即获取、转换、加载，包括：关系数据库连接 Sqoop、日志采集 Flume、ETL工具Kettle 。第三局部是数据计算。MPP采用分析型分布式数据库，存储高价值密度的结构化数据； Hadoop 存储非结构化 / 半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库，数据仓库中的数据可直接用于分析和展示。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。第四局部数据效劳，包括：机器学习、数据挖掘、数据检索、数

3、据可视化、即席分析、SQL和 API，为应用层提供效劳和中间件调用。1.2.1 数据处理对于大数据管理平台，应该建立一套标准化、标准化的数据处理流程，例如：如何采集内部和外部数据、结构化和非结构化数据；如何清洗采集来的脏数据和无效数据；如何对不同来源的数据进行打通；如何对非结构化的数据进行结构化加工；如何在结构化数据的根底上进行商业建模和数据挖掘等等。大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线。这条流水线从数据的采集、清洗到加工处理，把原始杂乱无章的数据加工成结构化的数据组件，供上层的大数据应用来拼装调用，让企业拥有创造数据资产的能力。1.2.2 数据分层OD

4、S层：数据来源于各生产系统，通过 ETL工具对接口文件数据进行编码替换和数据清洗转换，不做关联操作。未来也可用于准实时数据查询。轻度汇总层：主题域内部基于明细层数据，进行多维度的、用户级的汇总明细数据层：主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规那么进行的拆分及合并。信息子层：报表数据、多维数据、指标库等数据来源于汇总层。汇总层：主题域之间进行关联、汇总计算。汇总数据效劳于信息子层，目的是为了节约信息子层数据计算本钱和计算时间。应用层：应用系统的私有数据，应用的业务数据。精细化营销做为大数据平台的一个上层应用，由大数据平台提供数据支撑。1.3 产品技术特点先进

5、的混合计算架构? 采用Hadoop和MPP融合技术架构，对半结构化和非结构化数据支持并行计算和低本钱存储，提供低时延、高并发的查询和分析功能；对结构化数据采用MPP分布式列存储，支持分布式计算、智能索引等功能，实现高性能结构化数据分析处理。集成 Map Reduce、Spark、Storm、Tez等多种计算框架，利用 YARN 资源管理做统一管理，可在同一份数据集上运行多种计算。离线计算、内存计算和流式计算并存，能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。高性价比的分布式集群基于x86效劳器本地的计算与存储资源，计算集群可以动态调整，从数台到数千台之间弹性扩展，

6、按需构建应用，减少总体本钱；同时，在设计时充分考虑了硬件设备的不可靠因素，在软件层面提供计算和存储的高可靠保证，具备较强的容错性。云化 ETL将不同业务系统中分散、零乱、标准不统一的各种源数据中的数据进行汇聚。支持从 DBMS 、互联网、物联网、企业生产系统等各种数据源中提取数据。各类数据经过抽取、清洗和转化后，实现多对多地加载到包含但不限于大数据集群和各类关系型数据库中。该过程由一个统一的操作接口封装，经过无代码的可视化配置后，可实现自动化地、分布式地执行整个 ETL 作业流程。数据分层和分级存储把数据按照不同阶段分为 ODS(Operational Data Store)

7、数据、轻度汇总数据、信息子层数据和应用数据，分别存储在 Hadoop平台、MPP分布式数据库和数据仓库，满足不同阶段的计算需求；按照在线数据、历史数据等来管理数据生命周期，满足在线数据的高性能存储的需求；将核心模型数据通过改造融入到数据仓库的核心模型中，减少数据冗余，提升数据质量；将数据仓库中的历史数据迁移到低本钱分布式数据库，减轻数据仓库的计算与存储压力并支撑深度数据分析。数据分析挖掘支持R语言，集成机器学习算法库 Mahout和Spark MLlib，包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、 R语言数据挖掘、实

8、时流处理、全文搜索等全方位需求。可帮助企业建立高速可扩展的数据仓库和数据集市，结合多种报表工具提供交互式数据分析、即时报表和 BI 可视化展示能力。数据效劳接口提供交互式SQL和可编程API，提取数据存储计算平台的数据处理结果，屏蔽底层细节，为上层应用提供数据效劳。主要包括SQL接口、 MapReduce/Spark/Storm计算接口等多种可编程 API、全文实时搜索接口、业务定向接口、关联查询接口，满足数据查询、可视化BI展示、数据交换、数据分析、目录效劳、综合查询等业务应用的需要。可视化运维管理提供Web图形化界面实现运集群的管理和监控，集群的节点、主机和效劳的运行状态都能在界

9、面上显示，操作友好，功能丰富。提供集群快速安装部署、机架展示、用户权限管理、主机与效劳管理、监控及告警通知等多方面支持，在可管理性方面优势显着。效劳分类效劳名称效劳功能说明系统效劳YARN一种全新的通用的 Hadoop资源管理器，为集群在利用率和资源统一管理等方面带来了巨大便利。可使MapReduce、Spark、Storm等共存。ZooKeeper分布式应用程序协调效劳，保证集群的一致性。提供的功能包括：配置维护、名字效劳、分布式同步、组效劳等。Slider将已存在效劳部署在 YARN集群上，而不用修改已存在效劳。Oozie提供Hadoop作业工作流管理功能，可管理MR、Hive、Pi

10、g、Sqoop和HDFS等任务。Kafka一种低时延高吞吐量的分布式发布 / 订阅消息系统，同时满足在线和离线处理海量消息数据派发。Kerberos一个基于共享密钥对称加密的平安网络系统，可防止对集群的恶意使用和篡改，保障 Hadoop集群的平安可靠。计算效劳MapReduce批处理框架，将一个大任务分成多个独立的小任务，最后汇总各个小任务的结果。用户只需关注上层应用的逻辑，完全不用关注底层分布式细节，大大提升了分布式应用开发的效率和质量。主要用于离线计算和计算密集型应用。Spark迭代计算框架，基于内存计算。性能比MR快10-100倍，通用性好，支持批处理、流处理、SQL查询、机

11、器学习、图计算等。Storm流处理框架，具有效率高、能保证每条消息都能被处理和实践应用很多等优点。TezMapReduce程序性能优化器。将 MR程序转化为有向无环图，大大提升性能。存储效劳HDFSHadoop分布式文件系统，具有高容错性，可以部署在廉价的机器上。提供高吞吐量来访问应用程序的数据，适合存储超大数据集。HBase分布式、面向列数据库，利用HDFS作为持久化数据存储，使用Zookeeper作为协同效劳组件。具有容量巨大、面向列存储和权限控制、稀疏性、咼可用和咼性能等特点。数据处理SqoopHadoop和关系型数据库之间进行批量数据转移的工具。Flume一个高可用的，高可靠的，

12、分布式的海量日志采集、聚合和传输的系统。Hive基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，采用 HiveQL作为查询语言。将 HiveQL转换为 MapReduce任务，从而完成海量数据的查询和分析。Pig基于Hadoop的数据流处理引擎，将类 SQL的数据分析请求转换为Map/Reduce 任务。Mahout机器学习算法库，3个主要应用场景是协作筛选、集群和分类，可使用 MR、Scala、Spark 来提交 Mahout 接口。数据即效劳提供机器学习Mahout、数据挖掘、数据检索、R语言、交互式SQL SQL on Hadoop 、可编程API等功能，

13、满足上次应用开发需求。MPP分布式数据库H3C MPP关系型数据库集群，良好的 SQL语言支持。高性能、高容错、高可用。1.4产品功能简介效劳名称效劳功能说明安装部署提供定制部署、Zero部署和虚机部署等多种集群部署方式，满足用户不用应用场景需求。提供 Web图形化界面和快速向导，引导用户快捷高效地建立集群。机架管理实现HDFS副本存放策略的可视化管理。配置管理实现集群各项效劳配置参数的历史快照功能，记录配置变更，方便性能调优。用户和组管理支持单用户和用户组管理，便捷的用户和组的增删操作，提供不同级别的访问权限控制；主机管理实时监控主机各项硬件资源 CPU、内存、磁盘、网络等及其上承

14、载的效劳的运行状态。执行主机级别操作如停止、运行主机上的效劳等。效劳管理对集群的各项效劳做集中式管理，提供启动效劳、停止效劳、修改属性和设定运行参数等功能。实现集群各项效劳运行状态根本信息、告警、运行健康状态实时监控。监控和告警监控集群运行的健康状态，在特定的情况下发岀信息，帮助识别和定位问题原因。可自定义告警的监控间隔和阈值、触发条件、告警通知方式。版本管理实现HDP Stack可用效劳和软件版本的管理功能。多租户支持多租户访问集群资源。平安管理支持本地、LDAP和Kerberos多种身份认证方式，实现访问权限控制。支持对文件、目录、表、列、行等细粒度的访问控制，可防止对集群的恶意使

15、用和篡改，保证集群的可平安可靠。数据管理实现数据的压缩、备份、交换及数据ETL的管理。管理平面功能:业务平面功能:2 DataEngine HDP核心技术DataEngine HDP基于X86效劳器本地的计算与存储资源提供了分布式并行计算和低本钱存储，提供低时延、高并发的查询功能，集群可以扩展到上千台效劳器。H3G!过对Hadoop开源组件的封装和增强，对外提供数据分布式计算存储、数据分析能力。资源管理YARN改良的YARN统一资源管理，在同一物理主机 /虚拟主机和数据集上运行多种计算框架 , 包括离线计算、内存计算和实时计算。分布式文件系统 HDFS分布式文件系统，有较强的容错性，可在

16、x86平台上运行，减少总体本钱，可扩展，能构建大规模的应用。数据库 HBase：HBase 是一种构建在 HDFSHadoop Distributed File System 之上的分布式、面向列的存储系统，它具有高可靠、高性能、面向列和可伸缩的特性。HBase适合于存储大表数据表的规模可以到达数十亿行以及数百万列，并且对大表数据的读、写访问可以到达实时级别。Map 和 Reduce 两个阶离线计算： MapReduce 是一种离线计算框架，将一个算法抽象成段进行处理，适合数据密集型计算场景。内存计算： Spark 是一种内存计算框架，它将数据尽可能放到内存中以提高迭代应用和交互式应

17、用的计算效率。实时计算： Storm 擅长流式计算、实时分析，比方广告点击计算、它在实时性要远远好于MapReduce计算框架。3 DataEngine MPP Cluster 核心技术3.1 MPP + Shared Nothing 架构DataEngine MPP Cluster 采用完全并行的 MPP + Shared Nothing 的分布式扁平架构，这种架构中的每一个节点n ode都是独立的、自给的、节点之间对等，而且整个系统中不存在单点瓶颈，具有非常强的扩展性。图 3-1 Shared Nothing + MPP 架构示意图3.2 核心组件DataEngine MPPClus

18、ter 产品总共包含三大核心组件，即GCluster、GCware和GNode>GCWare用于各节点 GCluster实例间共享信息，GCluster负责集群调度，每个GNode就是最根本的存储和计算单元。GCluster ：GCIuster负责SQL的解析、SQL优化、分布式执行方案生成、执行调度。GCWar：eGCWare用于各节点 GCIuster实例间共享信息(包括集群结构，节点状态，节点资源状态等信息 ) ，以及控制多副本数据操作时，提供可操作节点，并在多副本操作中，控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为根本单位的。GNode：GNode是GC

19、Iuster中最根本的存储和计算单元。 GNode是由GCWare管理的一个8a实例，每个GCIuster节点上有一个GNode实例运行。GNode负责集群数据在节点上的实际存储，并从GCIuster接收和执行经分解的 SQL执行方案，执行结果返回给GCIuster。数据加载时， GNode直接从集群加载效劳接收数据，写入本地存储空间。GCMonit：GCMonit 用于定期监测 DataEngine MPP CIuster 效劳程序的运行状态 , 一旦发现某个效劳程序的进程状态发生变化，就会根据配置文件中的内容来执行相应的命令。GCMonit进程监控程序为集群中的每个组件提供各自的启停

20、脚本，提供的总脚本可以一次性启停所有模块的效劳。3.3 高可用DataEngine MPP CIuster 通过 SafeGroup 组内冗余机制来保证集群的高可用特性：1) 每个 SafeGroup 可提供 1 个或 2 个副本数据冗余；2) SafeGroup 内数据副本自动同步；3) 复制引擎自动管理数据同步；图 3-2 SafeGroup 高可用性管理示意图3.4 高性能扩展能力DataEngine MPP CIuster 具备高性能扩展能力：1) 通过 SafeGroup 动态扩展集群节点；2) 每个节点可以处理10TB有效数据，同时提供计算和存储能力;3) GCware负责新节点的数据同步。图3-3 DataE ngi ne MPP Cluster扩展技术示意图因为DataEngine MPP Cluster 采用高性能单节点的MPP扁平架构，因此进行集群扩展时，可以保证平滑扩展和性能的线性增长特性

人人文库> 全部分类> 专业文献 > 工程机械

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

HC大数据产品技术白皮书

文档简介

温馨提示

最新文档

评论

HC大数据产品技术白皮书

文档简介

温馨提示

最新文档

评论

相关文档