版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、杭州华三通信技术有限公司杭州华三通信技术有限公司 -数据分层和分级存储把数据按照不同阶段分为ODS(OperationalDataStore)数据、轻度汇总数据、信息子层数据和应用数据,分别存储在Hadoop平台、MPP分布式数据库和数据仓库,满足不同阶段的计算需求;按照在线数据、历史数据等来管理数据生命周期,满足在线数据的高性能存储的需求;将核心模型数据通过改造融入到数据仓库的核心模型中,减少数据冗余,提升数据质量;将数据仓库中的历史数据迁移到低成本分布式数据库,减轻数据仓库的计算与存储压力并支撑深度数据分析。数据分析挖掘支持R语言,集成机器学习算法库Mahout和SparkMLlib,包含
2、聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、R语言数据挖掘、实时流处理、全文搜索等全方位需求。可帮助企业建立高速可扩展的数据仓库和数据集市,结合多种报表工具提供交互式数据分析、即时报表和BI可视化展示能力。数据服务接口提供交互式SQL和可编程API,提取数据存储计算平台的数据处理结果,屏蔽底层细节,为上层应用提供数据服务。主要包括SQL接口、MapReduce/Spark/Storm计算接口等多种可编程API、全文实时搜索接口、业务定向接口、关联查询接口,满足数据查询、可视化BI展示、数据交换、数据分析、目录服务、综合查询等业务应用的需要
3、。可视化运维管理提供Web图形化界面实现运集群的管理和监控,集群的节点、主机和服务的运行状态都能在界面上显示,操作友好,功能丰富。提供集群快速安装部署、机架展示、用户权限管理、主机与服务管理、监控及告警通知等多方面支持,在可管理性方面优势显著。服务分类系统服务计算服务存储服务数据处理服务名称YARNZooKeeperSliderOozieKafkaKerberosMapReduceSparkStormTezHDFSHBaseSqoopFlumeHivePigMahout数据即服务服务功能说明一种全新的通用的Hadoop资源管理器,为集群在利用率和资源统一管理等方面带来了巨大便利。可使MapRe
4、duce、Spark、Storm等共存。分布式应用程序协调服务,保证集群的一致性。提供的功能包括:配置维护、名字服务、分布式同步、组服务等。将已存在服务部署在YARN集群上,而不用修改已存在服务。提供Hadoop作业工作流管理功能,可管理MR、Hive、Pig、Sqoop和HDFS等任务。一种低时延高吞吐量的分布式发布/订阅消息系统,同时满足在线和离线处理海量消息数据派发。一个基于共享密钥对称加密的安全网络认证系统,可防止对集群的恶意使用和篡改,保障Hadoop集群的安全可靠。批处理框架,将一个大任务分成多个独立的小任务,最后汇总各个小任务的结果。用户只需关注上层应用的逻辑,完全不用关注底层分
5、布式细节,大大提升了分布式应用开发的效率和质量。主要用于离线计算和计算密集型应用。迭代计算框架,基于内存计算。性能比MR快10-100倍,通用性好,支持批处理、流处理、SQL查询、机器学习、图计算等。流处理框架,具有效率高、能保证每条消息都能被处理和实践应用很多等优点。MapReduce程序性能优化器。将MR程序转化为有向无环图,大大提升性能。Hadoop分布式文件系统,具有高容错性,可以部署在廉价的机器上。提供高吞吐量来访问应用程序的数据,适合存储超大数据集。分布式、面向列数据库,利用HDFS作为持久化数据存储,使用Zookeeper作为协同服务组件。具有容量巨大、面向列存储和权限控制、稀疏
6、性、咼可用和咼性能等特点。Hadoop和关系型数据库之间进行批量数据转移的工具。一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,采用HiveQL作为查询语言。将HiveQL转换为MapReduce任务,从而完成海量数据的查询和分析。基于Hadoop的数据流处理引擎,将类SQL的数据分析请求转换为Map/Reduce任务。机器学习算法库,3个主要应用场景是协作筛选、集群和分类,可使用MR、Scala、Spark来提交Mahout接口。提供机器学习Mahout、数据挖掘、数据检索、R语言、交互式SQL(SQL
7、onHadoop)、可编程API等功能,满足上次应用开发需求。MPP分布式数据库H3CMPP关系型数据库集群,良好的SQL语言支持。高性能、高容错、高可用。1.4产品功能简介服务名称服务功能说明安装部署提供定制部署、Zero部署和虚机部署等多种集群部署方式,满足用户不用应用场景需求。提供Web图形化界面和快速向导,引导用户快捷高效地建立集群。机架管理实现HDFS副本存放策略的可视化管理。配置管理实现集群各项服务配置参数的历史快照功能,记录配置变更,方便性能调优。用户和组管理支持单用户和用户组管理,便捷的用户和组的增删操作,提供不同级别的访问权限控制;主机管理实时监控主机各项硬件资源(CPU、内
8、存、磁盘、网络等)及其上承载的服务的运行状态。执行主机级别操作如停止、运行主机上的服务等。服务管理对集群的各项服务做集中式管理,提供启动服务、停止服务、修改属性和设定运行参数等功能。实现集群各项服务运行状态(基本信息、告警、运行健康状态)实时监控。监控和告警监控集群运行的健康状态,在特定的情况下发出信息,帮助识别和定位问题原因。可自定义告警的监控间隔和阈值、触发条件、告警通知方式。版本管理实现HDPStack可用服务和软件版本的管理功能。多租户支持多租户访问集群资源。安全管理支持本地、LDAP和Kerberos多种身份认证方式,实现访问权限控制。支持对文件、目录、表、列、行等细粒度的访问控制,
9、可防止对集群的恶意使用和篡改,保证集群的可安全可靠。数据管理实现数据的压缩、备份、交换及数据ETL的管理。管理平面功能:业务平面功能:H3CFlexDataMPPCluster技术白皮书H3CFlexDataMPPCluster技术白皮书超计挣HivePigSharktne-amingStamn5porkW卿HDFS超计挣HivePigSharktne-amingStamn5porkW卿HDFSYARNDataEngineHDP基于X86服务器本地的计算与存储资源提供了分布式并行计算和低成本存储,提供低时延、高并发的查询功能,集群可以扩展到上千台服务器。H3C通过对Hadoop开源组件的封装和
10、增强,对外提供数据分布式计算存储、数据分析能力。资源管理YARN:改进的YARN统一资源管理,在同一物理主机/虚拟主机和数据集上运行多种计算框架,包括离线计算、内存计算和实时计算。分布式文件系统HDFS:分布式文件系统,有较强的容错性,可在x86平台上运行,减少总体成本,可扩展,能构建大规模的应用。数据库HBase:HBase是一种构建在HDFS(HadoopDistributedFileSystern)之上的分布式、面向列的存储系统,它具有高可靠、高性能、面向列和可伸缩的特性。HBase适合于存储大表数据(表的规模可以达到数十亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别。离
11、线计算:MapReduce是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,适合数据密集型计算场景。内存计算:Spark是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。实时计算:Storm擅长流式计算、实时分析,比如广告点击计算、它在实时性要远远好于MapReduce计算框架。3DataEngineMPPCluster核心技术3.1MPP+SharedNothing架构DataEngineMPPCluster采用完全并行的MPP+SharedNothing的分布式扁平架构,fIntercoBiiectioBNetworkMPP架构横向犷
12、展数据劳布策略fIntercoBiiectioBNetworkMPP架构横向犷展数据劳布策略图3-1SharedNothing+MPP架构示意图32核心组件DataEngineMPPCluster产品总共包含三大核心组件,即GCluster、GCware和GNode。GCWare用于各节点GCluster实例间共享信息,GCluster负责集群调度,每个GNode就是最基本的存储和计算单元。GCluster:GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。GCWare:GCWare用于各节点GCluster实例间共享信息(包括集群结构,节点状态,节点资源状态等信息)
13、,以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为基本单位的。GNode:GNode是GCluster中最基本的存储和计算单元GNode是由GCWare管理的一个8a实例,每个GCluster节点上有一个GNode实例运行。GNode负责集群数据在节点上的实际存储,并从GCluster接收和执行经分解的SQL执行计划,执行结果返回给GCluster。数据加载时,GNode直接从集群加载服务接收数据,写入本地存储空间。GCMonit用于定期监测DataEngineMPPCluster服务程序的运行状态,一旦发现某个服务
14、程序的进程状态发生变化,就会根据配置文件中的内容来执行相应的命令。GCMonit进程监控程序为集群中的每个组件提供各自的启停脚本,提供的总脚本可以一次性启停所有模块的服务。3.3高可用DataEngineMPPCluster通过SafeGroup组内冗余机制来保证集群的高可用特性:1)每个SafeGroup可提供1个或2个副本数据冗余;2)SafeGroup内数据副本自动同步;3)复制引擎自动管理数据同步;34高性能扩展能力DataEngineMPPCluster具备高性能扩展能力:1)通过SafeGroup动态扩展集群节点;2)每个节点可以处理10TB有效数据,同时提供计算和存储能力;3)G
15、Cware负责新节点的数据同步。通过Safegroup动态扩展集群节点GCWare负责新节点的教据同步高性能+高扩展能力高性能+高扩展能力图3-3DataEngineMPPCluster扩展技术示意图因为DataEngineMPPCluster采用高性能单节点的MPP扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。ScaleuptSMP)离性能节点Scaleout(MIPP)图3-4DataEngineMPPCluster高性能高扩展示意图35高性能数据加载数据加载功能作为DataEngineMPPCluster的一部分而存在,目的是将用户从其他数据源得到的原始数据文件,按照某种加载规则分发至集群节点,集群各节点接收数据入库保存到本地磁盘。集群加载采用C/S架构.句括数据分发服务器和数据分发客户端两个应用程序数据分发;各节点调用本地的集群加载服务接收数据入库并保存到本地磁盘。数据加戟脱务器数据片3-11data数据加戟脱务器数据片3-11dataI4-databulkloading(remotegbbader)图3-5数据加载示意图3.6OLAP函数DataEngineMPPCluster提供OLAP函数,用于支持复杂的分析操作,侧重于对决策人员和高
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论