




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
#HugeTable——结构化海量数据存储系统摘要:面对大量的通信数据,以Hadoop为基础的开源系统并不能完全满足电信运营商的全部需求,比如说实时响应。因此,电信运营商亟需一种能够同时满足其功能、性能、扩展性和可管理性等全部需求的存储机制,一种针对电信运营商在线服务的数据仓库HugeTable应运而生。关键字:云计算数据仓库HugeTable引言云计算是IT技术发展的最新趋势,正受到业界和学术界的广泛关注。云计算是在分布式处理、并行处理和网格计算等技术的基础上发展起来的,是一种新兴的共享基础架构的方法,它可以自我维护和管理庞大的虚拟计算资源(包括计算服务器、存储服务器、宽带资源等等),从而提供各种IT服务。用户在使用云计算提供的服务时按需付费,这不仅降低了使用门槛,也极大地节省了开销。由于云计算存在着巨大的潜在市场,Google,IBM,Microsoft,Amazon,HP,Yahoo,Oracle等国际知名大公司都已经涉足云计算。云计算也开始在电信、金融等需要大规模并行处理的领域得到应用,比如中国移动研究院开发的云数据挖掘平台BCGPDM和云数据库产品——HugeTable。背景Google和Apache发布了一系列的技术,比如Google的GFS和MapReduce,Apache的HDFS。这些技术凭借着其优越的高可用性和高可扩展性,被广泛地应用在网络企业中。像Facebook利用部署了超过2000个节点的HDFS集群,为了支持SQL,Hive支持将SQL语句转换为MapReduce程序。因此,传统的基于数据库的企业应用能够运行在HDFS上,从而获得云计算的相关特性。尽管如此,对于电信运营商来说,HDFS和Hive并不能满足其全部需求,特别是实时查询处理。比如一个常见的查询,“select*fromstudentwherestudentId=@studentId”,系统会启动MapReduce进行计算,MapReduce需要通过扫描所有的数据记录来得出结果,这个过程往往要浪费大量时间。所以开源系统的实时性成为在电信运营商中进行部署的最大障碍。通过分析HDFS,Hive和HBase,一种面向电信运营商的数据仓库应运而生HugeTable。HugeTable能够满足电信运营商的所有需求,比如功能、性能、扩展性和可管理性。HugeTable简介HugeTable是一种结构化海量数据存储系统,支持传统的SQL查询,主要面向电信应用。基于电信运营商前台业务及后台系统对性能、功能、可扩展性、可管理性等方面的需求,在开发过程中整合并改进了HDFS、HBase、Hive、Flume、ZK等开源软件。HugeTable提出了两种新颖的存储引擎:半随机的HT-HFile和半列存储HT-RCFile。和开源系统相比,HugeTable可以同时创建密集索引和稀疏索引,用来加快查询速度。在查询过程中,HugeTable首先查询索引,如果查询列上没有索引,则利用HT-HFile和HT-RCFile存储引擎来优化MapReduce查询过程。基于HDFS和Hive开发了一种新的存储引擎,并在此之上引入了索引机制以支持实时查询。HugeTable是基于开源软件Hadoop和Hive研发的。如图1所示,通过开发了HFile存储引擎、索引机制、HTLoader加载器和管理模块,进而实现存储引擎纯文本文件是使用HDFS时最主要的存储引擎格式,现有系统在针对HDFS所存储的数据进行SQL查询时,往往需要扫描全部数据集,比如像是“select*fromstudentwherestudentld=@studentld"这样简单的语句也要遍历所有的数据,可想而知其效率是很低的。为了克服上述问题,在HugeTable中重新设计实现了HT-HFile、HTRCFile等存储引擎。HT-HFile与纯文本文件相比,HT-HFile是半结构化存储引擎。如图2所示,数据以数据库的形势存储,其中的数据记录按主索引(pi)进行排序。例如,Key是主关键字,且KeyO<Keyl,Keyl<Key2。这样的布局可避免大范围的数据扫描。即在以主关键字进行查询时保证了较高的效率。需要注意的是,同一批加载的数据,在数据块内部,数据是完全按照主索引(pi)进行排序的。但是在数据块之间,并不能保证其全局有序,因此,HugeTable首先从数据源加载数据,然后将数据划分成为“块”,在每个块内对数据记录进行排序并将结果保存在HDFS上。因此将HF-HFile作为一种半随机的存储引擎。DataBlock0Key0Value0\Key1Value1DataBlockn\KeynValuenMetaBlockIndex图2HT-HFile数据结构图HT-HFile通过减少扫描的数据量来加速查询处理请求。在不采用HT-HFile作为存储引擎时,MapReduce需要扫描所有的数据,以便找到需要处理的数据记录。当采用HT-HFile存储引擎时,MapReduce作业可以直接读取需要出库的数据记录的起始位置,从而降低数据查询处理时的数据量。HT-RCFileHT-HFile适合于对整行记录的存储,每次数据的读写均以行(row)为单位。但是,在数据仓库系统中,经常会出现仅对一个具有大量列(column)的表的某个列进行处理的现象。在这种场景下,借鉴RCFile的思路设计了一种半列存储引擎。如图3所示,在HT-RCFile中,数据按照块存储,块之间数据随机,块内数据则按列存储。图3HT-RCFile数据结构图HT-RCFile的加载速度与TextFile相当且比列存储数据仓库更高,而将数据从TextFile转化为HT-RCFile的开销则很小。除此之外,HT-RCFile的主要优势在于其较高的查询性能。对于只对部分列做处理的操作,采用其他存储引擎时,MapReduce需要读取所有列的数据,而当采用HT-RCFile存储引擎时,则只需要读取相关的列而过滤掉不相关的列。因此,HT-RCFile可以避免不相关数据的读取,从而提升了查询处理的性能。HugeTable索引设计在这一部分主要介绍HugeTable索引的设计方案。密集索引在密集索引中,每条记录都对应着一条索引项,如B+树就是一种典型的密集索引结构。HugeTable的主要存储引擎都支持主索引和多个二级索引,数据记录是按照主索引排序的。HugeTable在建表时即需创建主索引,而二级索引则可在数据加载后通过一个MapReduce作业来创建。密集索引的优势主要体现在索引列的高性能查询能力上。例如:采用ID列索引查询语句“select*fromstudentwhereID=xx"时,只需查询ID列索引,得到记录位置后即可读取数据,查询响应时间很短。当不采用ID列索引而采用MapReduce进行数据扫描时,作业初始化时间则至少为秒级。因此,密集索引可提高索引列的查询响应性能,并降低数据I/O开销。稀疏索引稀疏索引记录每个数据块所包含的最大和最小键值。查询时,将待查询键值与每个索引项的最大和最小键值进行比较得到候选索引项。每个索引项包含有多个属性值(如最小、最大键值和文件块号)。数据库中的数据以文件块的方式进行存储,文件块的大小在不同系统中有所不同,每个文件块都有相对应的编号,即文件块号。最大键值和最小键值分别是指该文件块内所有键值中的最大值和最小值。利用索引优化的查询策略以Hive和Hadoop为原型的系统,是将每个SQL查询都转换为MapReduce查询来获得数据的。这种方式无法满足电信数据仓库的实时响应性能需求,比如:在数据仓库中对字典进行的查询,启动MapReduce本身的时间要远大于数据本身的扫描时间。此外,索引一般都比数据小很多,所以扫描索引比扫描数据快得多。针对这个特征,HugeTable提出了如图3所示的查询框架。图3HugeTable查询框架当应用提交一个查询SQL时,HugeTable首先会分析查询列的情况:该列有索引时扫描索引就可获得查询结果,该列无索引时用户可根据应用和数据量本身的特点选择不同的查询方式。比如,用户数据量较小时可选择顺序扫描查询方式。由于该查询方式不需要启动MapReduce,节省了启动时间,所以能提供实时的查询响应能力。另外,当应用需要实时数据查询响应能力时,也可以优先选择该查询方式;相反,当用户数据量巨大或者应用只需准实时查询响应能力时,用户需选择MapReduce查询机制。参考文献:Hadoop/HugeTable:—种面向电信行业的云数据仓库周大钱岭计算机科学第8期第3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 紧固件销售与市场拓展考核试卷
- 幕墙施工中的精细化管理考核试卷
- 原油加工过程质量控制考核试卷
- 纺织品企业绿色供应链与环保措施考核试卷
- 生命体征测量技术
- 5-11序列信号发生器1-分析与设计
- 1-6码制-二-十进制码
- 小学一年级下册数学期末考试试卷及答案
- 2025年北京大兴区中考一模物理试卷试题(含答案详解)
- 统编版语文五年级下册第14课《刷子李》精美课件
- 病案信息技术基础知识考试重点梳理(最新最全)
- 安全施工作业票(模版)
- 环保管理制度(适用于软件企业)
- 【2021部编版语文】-三年级下册第七单元教材解读--PPT课件
- DB 33-T 1015-2021居住建筑节能设计标准(高清正版)
- 钢结构门式刚架厂房设计土木工程毕业设计
- 橙色黑板风小学生知识产权科普PPT模板
- 中国供销合作社标识使用手册课件
- 幼儿园儿歌100首
- 甲状腺解剖及正常超声切面ppt课件
- 易学书籍大全291本
评论
0/150
提交评论