XXX大数据平台技术白皮书_第1页
XXX大数据平台技术白皮书_第2页
XXX大数据平台技术白皮书_第3页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、XXX大数据平台技术白皮书xxxx大数据平台 技术白皮书文档版本号: 文档密级: 编写人:文档编号: 归属部门/项目:编写日期: 产品部XXXX有限公司修订记录:版本号v 修订人修订日期 修订描述XX版权所有XXXX科技有限公司保留所有权利 版权声明:档著作权XXXX科技有限公司享有。文中涉及 XXXX科技 有限公司的专有信息,未经XXXX科技有限公司书面许可,任何单位和个人不得使用和泄漏该文档以及该文档包含的 任何图片、表格、数据及其他信息。档中的信息随着 XXXX科技有限公司产品和技术的进步 将不断更新,XXXX科技有限公司不再通知此类信息的更新。目录第 1 章产 品 概述系统架 4第 3

2、 章 数据存储5分布式集群存储分布式文件系统 6HBase-分布列式数据库 7Hive-数据仓库9 GraphDB-大规模分布式并行图数据库 12第 4 章 数据总线13数 据 采 集 与 交换15理16则过滤规ETL 17疋制化19擎第5早计算引21能 21成232325292930功能特 30效 果 展示31 第 8 章 运维管理平.33系统监控界面33系 统 配 置 界面33SQL查询分析34批 量 数 据 导 入 导出第9章产品规格35标.产品指模.35平台规力.35系统能营.35系统运境.36硬件环境 36参 考 配 置36第1章产品概述XX大数据引擎平台 UDE是一款大数据通用平台

3、软件产 品,支持海量数据的采集、过滤、转换、存储、搜索、查询、 统计、分析、可视化与安全管理等大数据全生命周期管理, 各种行业应用和最终用户,可以通过平台提供的丰富的接 口,完成大规模行业数据的挖掘分析和应用对接管理。对外 提供大容量数据分析和查询能力,为解决各大企业的以下需 求: 软硬件国产自主可控多源异构数据接入数据关联融合、统一访问 大规模、高性能、可扩展 高可靠、 咼可用XXXX在开源 Hadoop版本的基础上对 HBase HDFS和 MapReduce等组件增加了 HA查询和分析功能,并进行了性 能优化。产品定位如图1-1所示:第2章系统架构图2-1 XX系统架构图如上图所示,XX

4、是一款大数据管理分析平台,基于底层 的基础平台,自下而上可以分四层,依次是数据存储层、数 据总线、数据处理层以及业务适配层。同时具有高性能和高 可用的特征。数据存储层:支持海量异构数据的统一可靠的存储管 理,对外提供统一的分布式调用接口。数据总线:支持数据采集、过滤、缓存、中转分发调 度等。数据总线是计算与存储的枢纽,同时是内外数据交换的通道,完成数据在组件间及 层次间中转、缓冲及调度。数据处理层:基于支持多种计算模型的分布式计算框架,为上层业务系统提供专业的计算处理库,包括 文本处理、搜索引擎、数据挖掘等。业务适配层:为上层业务系统提供各种不同协议和标 准的访问接口。高性能高可用保障:通过软

5、硬件多方优化配置和深度 研究,保证整个平台的高可用和高性能。产品特点:面向网络内容及社会计算领域,通过多年积累数据处理层的特有业务处理引擎深度业务适配及衍生的垂直解决方案以数据总线为中心进行数据全生命周期调度及价值实 现的数据流驱动视角第3章数据存储XX为用户提供企业级大数据平台软件一体化解决方案; 并支持特殊应用场景下的定制化硬件加速。面对结构复杂、 需求多变的异构数据处理业务,XX不仅提供统一、稳定、高效的存储子系统,还整合了先进的分布式集群资源管理和进 程调度方案、高性能数据总线技术、全并行架构分布式关系 数据库、面向图计算的并行图数据库、分布式KV存数据库,以及面向用户业务的各类工具软

6、件和库支持。基于XX平台,用户可以以非常低的时间代价构建大规模企业大数据一体 化解决方案。文档数据库图片音视频流式数据 DB邮件消息多维数据 GraphDB关系型数据Hbase非关系型数据HDFSDSC龙威集群 存储(申威国产平台)图3-1 : XX数据存储子系统结构图上图是XX存储组件的结构图,主要包括如下功能组件: 分布式集群存储:基于对象的高性能分布式文件存储系统。TBase:分布式 Key-Value数据库。DSQL :分布式关系数据库。GraphDB :并行图数据库。分布式集群存储分布式文件系统分布式集群存储是一款针对海量数据存储应用而设计 的大规模通用集群存储系统,采用通用硬件设备

7、作为基本的 构建单元,为应用提供全局统一的系统映像和完全POSIX兼容的API接口分布式集群存储系统采用了存储服务器集群和元数据服务器集群通过千兆以太网络/万兆以太网络/ Infiniband网络构建,具备极高的扩展性和可靠性。利用分布式集群存 储的相关软件功能消除集群内的单点故障,避免因为故障而 导致服务中断或者数据丢失等影响,并且打破了传统存储系 统架构上的限制。其基本架构如图3-2所示。图3-2 :分布式集群存储系统架构图3-2 :分布式集群存储系统架构分布式集群存储为异构数据提供统一的存储方案;不仅对大文件应用场景提供良 好的性能支持,元数据集群、高效检索、横向扩展等特性使 得它在复杂

8、的大数据应用场景中有更好的表现。除了100%POSIX兼容外,还提供完全的Hadoop API兼容。这意味着Hadoop生态群的计算框架和组件可以透明运行于分布式集 群存储之上。分布式集群存储提供如下关键特性:元数据集群多个元数据服务器组成集群提供互备HA及动态负载分担,可有效分载对目录树热点区域的访问,同时可在线扩展 对元数据高密集型应用提供支撑。并发数据恢复消除传统RAID恢复技术中单盘性能瓶颈,采用多对多 的方式,从所有节点的所有磁盘并发进行数据恢复,可提供极高的聚合恢复带宽,从而有效缩短因设备出错导致的全系统降级运行时间。兼容POSIX/Hadoop通过提供hadoop接口,可使数据分

9、析直接基于在线生 产环境进行,避免大量的数据迁移操作。动态扩展&容量均衡分布式集群存储提供在线的容量及处理能力扩展,包括 数据存储节点及元数据处理节点,并自动在扩容后对全系统 容量和热点访问进行均衡。分布式EC数据可靠性方面,分布式集群存储除了提供副本方式之 外还提供基于 Erasure code 技术的冗余方式,包括Raid5及N+1等多种策略。其数据分布也是跨节点跨磁盘的。HBase-分布列式数据库HBase是适合大数据场景的一款海量分布式列数据库产 品。其架构上兼容了Hadoop体系的高可扩展性,可支持大于几十个节点,PB存储规模的scale-out ;性能上其针对具 体大数据应

10、用场景进行深度定制和调优,尤其对于高吞吐率 入库和实时检索场景;功能上除了支持标准的K-V访问接口之外,XXBase还可较好的兼容 SQL标准及JDBC接口,可以 很好的与既有数据分析业务对接。尤其在索引性能优化及对 后缀和全文索引的支持上XXBase都有显著优势。图3-3 : TBase系统架构在应用场景方面,TBase常被用作全量基础数据的组织和存储,同时提供对此全量数据的实时查询;此外TBase可兼容传统数据仓库 OLAP场景,对复杂SQL分析可提供近实 时的分析性能。从而可同时支持对大数据的实时查询和复杂 离线分析。TBase底层架构在 HDFS和MapReduce之上,功 能层分别提

11、供数据压缩/解压缩、数据导入、索引、计算、 SQL访问以及访问控制和应用隔离等主要功能。其系统架构 如下图所示。图3-4 : TBase基于 HBase的优化增强 TBase架构基 于分布式列存模型进行扩展。其实现参考开源Hbase的技术 架构,并在其基础上针对应用场景进行了深度性能调优,并 基于业务场景的实际需求对功能进行了扩展增强。其优化点 涉及从客户端到底层存储的各个环节,如图3-3所示。TBase提供如下关键特性:SQL实时短查询对全量数据的实时简单查询,包括单表多条件的组合查询SQL长查询OLAPXXXX大数据平台 技术白皮书文档版本号:文档密级: 编写人:文档编号:归属部门/项目:

12、编写日期: 产品部XXXX有限公司修订记录:版本号v 修订人修订日期修订描述XX版权所有XXXX科技有限公司保留所有权利 版权声明:档著作权XXXX科技有限公司享有。文中涉及 XXXX科技有限公司的专有信息,未经XXXX科技有限公司书面许可,任何单位和个人不得使用和泄漏该文档以及该文档包含的 任何图片、表格、数据及其他信息。档中的信息随着 XXXX科技有限公司产品和技术的进步将不断更新,XXXX科技有限公司不再通知此类信息的更新目录第 1 章述 3第 2构章 系统架 4第 3储章 数据存5分布式集群存储分布式文件系统 6HBase-分布列式数据库Hive-数据仓库9 GraphDB-大规模分布式并行图数据库 12第 4 章线13数 据 采 集换15数据理.16规滤17ETL19第 5 章擎21能 21成 21架 23子通 用 算23专用算子及分析模板25第6早高性能高可2929303030313333SQL343535模力35系统能营35系统运境36硬件环36软件环境36参考配置.36第1章产品概述XX大数据引擎平台 UDE是一款大数据通用平台软件产品,支持海量数据的采集、过滤、转换、存储、搜索、查询、统计、分析、可视化与安全管理等大数据全生命周期管理,各种行业应用和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论