曙光XData核心技术_第1页
曙光XData核心技术_第2页
曙光XData核心技术_第3页
曙光XData核心技术_第4页
曙光XData核心技术_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

XData核心技术解决方案中心核心技术大数据系统管理并行任务流执行控制计算定义和请求描述数据转换和迁移数据关联加载技术数据划分和存储组织Hadoop系统安装、部署和配置Hadoop系统的高可用和故障处理任务流执行同步控制技术

任务间数据划分和传输控制

大表关联和嵌套查询数据划分到文件的映射

数据模式定义和解释计算语义的预定义技术SQL/MR作业的级联和关联

混合任务流描述和解析结构化/非结构化数据转换技术

并行处理内部隐式数据转换

数据导入导出和数据迁移技术

DB/Hadoop数据模式映射

多源关联数据导入HDFS*124356大数据系统管理大数据管理系统安装部署服务管理与监控,告警系统参数配置Mapreduce部署zookeeper部署HDFS监控,告警Mapreduce监控,告警HBase监控,告警HDFS参数配置Mapreduce参数配置hive部署kerberos认证部署,其他次要组件,sqoop,flume,pig部署

Zookeepr监控,告警底层CPU,磁盘,网络监控,告警

远程shell,修改操作系统参数HBase参数配置Zookeeper参数配置Licence管理HBase部署HDFS部署Xdata4.2.1系统整体构架对不同数据类型,提供统一的数据处理模式

类JDBC的接口

类MR执行机制,支持复杂处理

服务配置和集群管理多级存储管理

数据备份和恢复

完整的故障处理机制采用类SQL表达查询和检索需求

结构化数据:采用标准SQL语句文本数据:采用lucene文本进行检索

音视频数据:数据库+文件系统其他:支持自定义数据处理任务结构化数据Database非结构化数据FileSystem通用海量数据处理平台用户请求通用的大数据处理平台数据节点采用SN结构+类MR的并行查询执行引擎向上:对用户提供统一的数据处理接口向下:管理不同类型的数据,提供通用的执行框架XData设计原理和关键技术可扩展数据分布策略1大表关联查询技术通用并行查询引擎23用户自定义查询处理4系统可靠性技术非结构化数据统一处理56系统访问和管理工具71.数据分布策略支持多种数据分布策略

事实数据分片存储hash,range,和round-robin分布支持系统规模动态伸缩配置数据全复制大量DML操作一致性控制提供数据双写的支持支持本地双副本数据写入异地容灾机制异地数据批量迁移的支持

节点故障和恢复数据不丢失不影响当前执行的任务A1BA2BA3BA4B大表分片小表复制存储划分四个级别:记录,分区,节点,节点组可扩展的虚分区技术,分区数是节点数的4~8倍(建议为数据节点的核数),支持数据节点规模的动态伸缩分区信息表示一个节点组包含多个节点<nodegroup1,node_list>一个节点包含多个分区<node1,part_list>元数据信息常驻内存:各服务程序启动时读取P1P2P5P6P3P4P7P8节点1…节点组P9P10P13P14P11P12P15P16节点2存储划分:记录分区节点节点组1.数据分区的存储划分分区重新映射最小化数据迁移,分区整体迁移迁移完成,修改分区节点映射表{<p1,p2,p3,p4>,<p5,p6,p7,p8>,<p9,p10,p11,p12>}=>{<p1,p2,p3>,<p5,p6,p7>,<p9,p10,p11>,<p4,p8,p12>}1.数据分区-系统规模扩展p1p2p3p4p5p6p7p8p9p10p11p12节点1节点2节点3新增节点2.通用的并行查询引擎词法分析采用LEX分解SQL语句语法分析将查询语句按照关键字分成拆分成标准结构数据分布分析语义分解按语义拆分成并行查询算子流算子任务的执行节点算子任务的数据流向查询算子任务流查询执行计划,表达了查询处理的逻辑顺序作为并行查询执行器的输入词法分析语法分析语义分解查询算子任务流并行查询执行器用户SQL查询结果元数据信息大表关联查询是海量数据处理的难点,也是提高核心竞争力的关键大量数据交互,对磁盘读写和网络传输性能要求高应用广泛:大量关联分析类查询和数据挖掘类应用3.大表关联查询A1B1A2B2A3B3A4B4Node1Node2Node3Node4瓶颈:节点间数据传输原始查询语句Select

姓名,号码,sum(话费)

From 通话记录表A,用户信息表B

Where时间between(t1,t2)andA.号码=B.号码

Groupby姓名,号码

查询算子1,2算子1:Select姓名,号码from用户信息表算子2:Select话费,号码from用户行为表where时间between(t1,t2)数据分派方法Hash(号码)=MPI_rank#关联查询算子3

算子3:Select姓名,号码,sum(话费)fromA1,B1 whereA1.号码=B1.号码 groupby姓名,号码…复杂的查询,需要对关联结果再统计或排序例:大表关联的并行查询任务流算子1算子2算子3算子44.用户自定义查询任务流支持用户自定义查询任务流,适合广泛的应用需求自定义查询类任务SQL语句查询任务节点支持任何复杂的关联和嵌套查询处理直接支持自定义任务节点自定义挖掘类任务自定义数据集操作函数支持嵌入各种数据挖掘算法需要操作函数或者挖掘算法的库函数支持可利用开源算法SQL解析并行查询任务流并行查询执行引擎PQE用户自定义并行查询任务流并行查询执行引擎PQE用户修改用户SQL结果输出结果输出修改查询任务,满足定制处理5.非结构化数据统一处理

抽象数据访问驱动层,支持加载不同类型数据的访问文本检索可采用文本索引开源软件lucenelucene文本索引访问接口关联查询和分析(先后顺序)关键字检索+数据库查询

如查找含有特殊内容的数据库记录数据库查询+关键字检索

如查找某些数据库记录的详细文本内容音视频数据检索通用的框架设计,可以装载不同数据类型的访问驱动实现对SQL/Mapreduce的统一处理支持MR任务预定义,简化的用户请求采用类SQL的方式,实现SQL/MR任务的级联和关联等复杂数据处理LuceneLuceneLuceneLuceneLucene访问接口Oracle访问接口抽象数据访问驱动层其他数据访问接口数据划分和存储组织数据对象的文件存储逻辑到物理层的映射关系数据对象的内部解释逻辑到模式的映射关系数据划分支持数据按照key进行划分分区=子目录划分策略Hash,Range,List三种存储参数设定:并行度,块大小等Data…HDFS文件系统F1F2F3…子目录F1F2F3…子目录F1F2F3…

子目录

转换/划分并行入库并行入库并行入库计算定义和请求描述计算语义计算语义到执行命令的映射(含数据模式解析)基本操作类型MapReduce(MR),SQL,UDF任务级联S(S),M(M),M(S),S(M)任务关联SxS,MxM,SxM,MxS计算语义的形式化描述,用于请求分析OP={Φ,S,

M};OP=OP(OP);OP=OPxOP任务流图可描述任意计算语义SQL/MRSQL/MRSQL/MRSQL/MRSQL/MR级联关联任务流计算语义举例定义Mapreduce作业definewordcount($1)WordCount.jarinput[runtimeparameters];definesort($1)Sort.jarinput[runtimeparameters];Mapreduce作业级联sort(wordcount(file1));Mapreduce和SQL级联wordcount(selectname,agefromtable1);selectcount(key)from(wordcount(file1));selectsum(value)from(wordcount(file1));Mapreduce/SQL关联selectname,agefromtable1Ajoinwordcount(dir1)BwhereA.name=B.keyandB.value>100;任务流执行控制请求解析类SQL

=>任务流Lex&bison执行引擎MR任务:hadoop执行SQL任务:数据库执行HBase/Hive任务执行同步控制MR+MPI的执行方式查询服务器:命令提交,执行控制,结果采集数据节点:各任务的计算数据分发数据格式转换数据划分和分发

用户类SQL请求

请求解析(词法、语法、语义、优化)查询处理引擎,提交各任务执行HadoopMREngineDBSQLEngineHBase(ColumnDB)HadoopHDFSBigDataQueryEngineDatabaseHive-QL结构化/非结构化数据转换和迁移DB/HDFS数据转换DB/HDFS间的ETL操作任务间的数据交互显示转换工具DB<=>HBase/Hive支持sqoop的数据导出导入实现带条件的导出/导入数据备份和恢复内部隐式转换MR/SQL混合任务的级联和关联数据存储组织的修改(DB+HDFS)MapReduceHDFSFileLocalFileSQLSQL转换转换Result数据关联加载常见的应用迁移方式DB=>HBase如农行POC,建行测试技术难点Hadoop/HBase无法支持复杂数据访问模式简单,只能表示为<key,value>,实质为按key的排序表操作简单,只能根据key值和范围进行访问,以及全表扫描关联合并引入大量的磁盘IO,网络和计算开销多表关联合并时HBase中Key和列族的设计实现方案对数据进行Hash划分,并发关联加载,类似于XData4.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论