版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据查询系统基于hadoop模式或概率的数据查询系统01介绍Probery模式hadoop模式目录0302基本信息随着信息化的不断深入发展,数据生成速度正在提高,需要处理的数据量急速膨胀,大数据时代即将到来。所谓大数据指所涉及的数据量规模巨大,以至于无法通过主流软件在合理的时间内进行处理的数据。在面对海量数据时,传统关系数据库虽然具有支持完整性约束、支持事务等优点,但是在大规模海量数据面前显得力不从心。传统关系数据库主要存在以下问题,一是在数据格式转化和存储方面无法满足海量数据处理对性能的要求;二是无法满足动态扩展和高可用性的需求;三是传统大型关系数据库通常运行在大型设备上,成本高昂。大数据对数据的存储和处理方法提出了新的要求。如何有效地对这些大规模数据进行存储、查询、分析,已经成为一个亟待解决的问题,因此我们介绍几种数据查询系统。介绍介绍人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入络化的大数据时代,大数据查询技术备受并且得到广泛研究。大数据查询技术是大数据管理的核心技术之一,伴随着云计算技术以及NoSQL(NotOnlySQL)数据库技术的发展,针对大数据查询已经产生了许多新型的查询技术。目前,关于大数据的查询技术都是完整查询,即无论如何定义查询条件匹配算法(近似或精确),无论如何对查询结果集排序,查询都将确定地返回所有匹配数据,查询所需的时间代价较大。然而,在大数据环境下,很多实际应用表明,人们并不需要确定完整的查询结果,也不需要对结果精确排序(如Top—k查询),仅需要满足一定完整性要求的部分查询结果,或可以适当地损失查询完整性来满足性能要求。例如,在智能终端迅速普及和高速发展的现代社会,人们在出行过程中更多地通过移动设备来查询附近的酒店、景点等,由于移动设备络速度的限制以及完整查询较高的时间代价,对于给定的查询条件,返回全部查询结果需要消耗较高的时间代价,然而,人们并不需要返回的结果集是全部数据,相反对响应时间的要求会更高,可通过减少数据传输量以及优化查询技术来满足此需求。
这里介绍两种查询系统,一种是基于hadoop模式的数据查询系统,另一种是基于概率的数据查询系统。hadoop模式设计架构hadoop模式架构Hadoop是分布式集群系统架构,它具有高可用性、高容错性和高可扩展性等优点,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序。Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成,其中最基础最重要的两种组成元素为底层用于存储集群中所有存储节点文件的文件系统HDFS(HadoopDistributedFileSystem)和上层用来执行MapReduce程序的引擎。HDFS(HadoopDistributedFileSystem),是一个分布式文件系统。它具有高容错性的特点,以流式访问模式访问应用程序的数据,这大大提高了整个系统的数据吞吐量,因而非常适合用于具有超大数据集的应用程序中。MapReduce是最初被Google用来创建和更新索引,但现在MapReduce常用于大规模数据集(大于1TB)的并行运算,在Hadoop中以组件的形式进行实现的。Hadoop系统平台中的MapReduce模型可以被视为一种RDBMS(RelationDataBaseManageSystem,关系型数据库管理系统)的补充。
设计本系统基于Hadoop平台,采用HBase数据库存储海量交易记录,整体架构按照数据的流向划分,系统可以分为四层,分别是:数据源、数据接入层、存储层和查询层。
数据接入层设计由于数据源包括多种类型,因此,在进行数据接入层设计的时候,一是要对数据源隐藏数据接入层对HBas数据库操作的细节,为不同类型数据源的数据导入提供一个统一的接口。在数据接入层中要保存HBase数据库集群的、服务端口、ZooKeeper集群的等信息;要完成与HBase集群的连接。最终,只需调用数据接入层提供的简单接口就可以从数据源中将数据导入HBase数据库,同时,还要考虑到不同的数据导入方式,对接口进行优化以提高记录导入效率。
存储层设计该层的实现是由Hadoop平台实现。存储数据库选用Hadoop组件中的HBase数据库。该层主要是负责存储整个系统的底层结构化数据。通常,在传统关系数据库的表设计中,通常以编号(唯一标识一条记录)为主键、以各个属性为列,创建表。而Hbase是一个稀疏的,排序的,长期存储在硬盘上的,多维度的,映射表。这张表的索引是行关键字,列关键字和时间戳。每个值是一个不解释的字符数组,数据都是字符串。用户在表格中存储数据,每一行都有一个可排序的主键和任意多的列。由于是稀疏存储的,所以同一张表的每一行数据都可以有截然不同的列。Probery模式系统架构介绍Probery模式介绍Probery是基于Hadoop分布式文件系统(HadoopDistributedFileSystem,HDFS)和MapReduce编程模型设计的一种大数据概率查询系统。Probery采用了一种基于概率的近似完整性查询技术,其近似性主要体现在数据查全的可能性上,即查询到满足查询条件的所有数据的概率,本研究将其称之为查全概率(RecallProbability)。查全概率的定义和传统的近似查询以及模糊查询不同,它不度量结果与查询条件的匹配程度,也不度量结果集大小,而度量结果集是完整数据集的可能性。查全概率很小的结果集也可能是完整的,也可能包含大部分结果;查全概率大的查询并不一定比查全概率小的查询包含更多结果。Probery通过降低查全的可能性来换取性能,并且通过概率计算来保证查询结果的查全概率。
系统架构Probery是基于概率的大数据查询系统,系统根据给定的查全概率查询满足查询条件的数据。为了实现大数据的分布式存储和高效查询,Probery基于Hadoop平台来对系统进行架构,通过将数据按概率划分为多个文件并存储在分布式文件系统上,以缩小数据的查询范围,且保证查询的并行性;同时也使得系统具有较强的容错能力和水平伸缩性。Probery系统架构共包括HadoopCluster、DataPlacer、DataQuerist、JobNode和ServiceFacade这5个系统组件。
DataPlacerDataPlacer主要负责数据的装载工作,DataPlacer将来自DataSource的数据按照概率分布函数装载到HadoopCluster中,并记录数据的放置次数,以求解数据的存在概率,存在概率是Probery进行概率查询的元数据(MetaData),在完成数据的装载工作后,DataPlacer将元数据传递给Data
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年合伙合同补充协议
- 2024年合肥烟囱拆除项目质量保证合同
- 2024年全球船舶维修服务具体协议模板版B版
- 2024年劳动协议主体调整书面协议细则版B版
- 上海市浦东新区2024-2025学年九年级上学期期中英语试题(解析版)
- 2024内部承包工程合同范本
- 2024年买卖双方初步洽谈协议样式版B版
- 江南大学《材料力学》2022-2023学年第一学期期末试卷
- 2024工程合伙项目具体合同条款版B版
- (2024版)城市轨道交通建设合作协议
- HXD3型电力机车受电弓故障机理与诊断方法研究
- 生物质能气化技术在农村生产和生活用能中的应用
- 浙江临床放射检查资料互认项目清单
- 课件:信贷业务法律风险管理及案件防控
- 科研伦理与学术规范期末考试答案
- 环境与健康课件
- GB/T 4677-2002印制板测试方法
- GB/T 4456-1996包装用聚乙烯吹塑薄膜
- GB/T 26399-2011电力系统安全稳定控制技术导则
- 部编版六年级语文下册单元教材分析(全册)
- HPE 3PAR8400、HPE 3000B SAN Switch安装及维护手册
评论
0/150
提交评论