![并行数据库技术分析及未来展望_第1页](http://file4.renrendoc.com/view/18bd4a16911441345e68483aee680ada/18bd4a16911441345e68483aee680ada1.gif)
![并行数据库技术分析及未来展望_第2页](http://file4.renrendoc.com/view/18bd4a16911441345e68483aee680ada/18bd4a16911441345e68483aee680ada2.gif)
![并行数据库技术分析及未来展望_第3页](http://file4.renrendoc.com/view/18bd4a16911441345e68483aee680ada/18bd4a16911441345e68483aee680ada3.gif)
![并行数据库技术分析及未来展望_第4页](http://file4.renrendoc.com/view/18bd4a16911441345e68483aee680ada/18bd4a16911441345e68483aee680ada4.gif)
![并行数据库技术分析及未来展望_第5页](http://file4.renrendoc.com/view/18bd4a16911441345e68483aee680ada/18bd4a16911441345e68483aee680ada5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
并行数据库技术分析及未来展望Agenda并行数据库技术要点分析未来展望Paralleldatabasesystemseekstoimproveperformancethroughparallelizationofvariousoperationssuchasloadingdata,buildingindexes,andevaluatingqueriesbyusingmultipleCPUsandDisksinParallel.[1]MotivationParallelmachinesarebecomingquitecommonandaffordablePricesofmicroprocessors,memoryanddiskshavedroppedsharplyDatabasesaregrowingincreasinglylargelargevolumesoftransactiondataarecollectedandstoredforlateranalysis.multimediaobjectslikeimagesareincreasinglystoredindatabases并行数据库
ImprovesResponseTime.
INTERQUERYPARALLELISM
Itispossibletoprocessanumberoftransactionsinparallelwitheachother.
ImprovesThroughput.
INTRAQUERYPARALLELISMItispossibletoprocess‘sub-tasks’ofatransaction
inparallelwitheachother.并行数据库–目标(1)
Speed-UpAddingmoreresourcesresultsinproportionallylessrunningtimeforafixedamountofdata.10secondstoscanaDBof10,000recordsusing1CPU1secondtoscanaDBof10,000recordsusing10CPUs
Scale-Up(transaction/data)Ifresourcesareincreasedinproportiontoanincreaseindata/problemsize,theoveralltimeshouldremainconstant1secondtoscanaDBof1,000recordsusing1CPU
1secondtoscanaDBof10,000recordsusing10CPUs并行数据库–目标(2)Shared-MemoryandShared-DiskArchitecturesShared-Memory:allprocessorsshareacommonmainmemoryandsecondarymemoryLoadbalancingisrelativelyeasytoachieve,butsufferfrommemoryandbuscontentionShared-Disk:allprocessors,eachofwhichhasitsownlocalmainmemory,sharethedisks并行数据库-体系结构(1)Shared-NothingArchitectureEachprocessorhasitsownlocalmainmemoryanddisksLoadbalancingbecomesdifficult并行数据库-体系结构(2)Shared-SomethingArchitectureAmixtureofshared-memoryandshared-nothingarchitecturesEachnodeisashared-memoryarchitectureconnectedtoaninterconnectionnetworkalashared-nothingarchitecture并行数据库-体系结构(3)元数据管理查询分析和执行器分布式事务分布式锁并发控制副本数据同步并行数据库–功能模块Agenda架构特点技术要点分析未来展望2/5/2023111.ParallelDB/D.S.Jagli111.ParallelDB/D.S.Jagli技术要点–层次结构MasterServer:外部App访问入口集群元数据管理SQLParser生成执行计划和任务调度2/5/2023121.ParallelDB/D.S.Jagli12Range
HashRoundRobinA...EF...JK...NO...ST...ZA...EF...JK...NO...ST...ZA...EF...JK...NO...ST...ZGoodforequijoins,exact-matchqueries,andrangequeriesGoodforequijoins,exactmatchqueriesGoodtospreadload1.ParallelDB/D.S.Jagli技术要点–数据分区2/5/2023131.ParallelDB/D.S.Jagli131.ParallelDB/D.S.Jagli技术要点–存储和索引(1)列存储(columnstore)数据按列存储,每一列单独存放只访问查询涉及的列,大量降低I/O数据类型一致,方便压缩数据包建索引,数据即索引行存储(rowstore)数据是按行存储的 没有索引的查询使用大量I/O建立索引和物化视图需要花费大量时间和资源面对查询的需求,数据库必须被大量膨胀才能满足性能要求。技术要点–存储和索引(2)混合存储(hybridstore)在大尺度上数据是按行存储,在小尺度上数据是按列存储在大尺度上以行作为任务切分,在小尺度上以列进行I/O优化技术要点–存储和索引(3)模糊索引精确索引
B+树
LSM
COLA3.列存索引(Projection)
技术要点–查询引擎技术要点–分布式事务(1)技术要点–分布式事务(2)技术要点–任务调度与资源管理技术要点–高可用技术要点–集群扩展数据库对一致性的天然要求数据库元数据管理数据分布的再平衡技术要点–备份和灾难恢复在线增量备份。支持HDFS作为备份存储介质,HDFS上的备份数据可通过Hadoop平台直接进行分析。以异地灾备替代常规备份操作。异地数据中心之间实现同步/异步操作。备份和恢复两个过程,以及异地灾备中的主从集群可实现异构恢复。技术要点–SSD应用场景数据量大,热点数据无法全部在缓存中。用户访问I/O量大,造成系统响应慢系统整体压力低,QPS值无法提高系统切换后,预热时间长等于故障Agenda并行数据库技术要点分析未来展望未来展望–并行数据库在大数据基础设置中的定位(1)适应已有的数据库生态,平滑替代无法跟上快速增长的数据量的传统EDW,连接BI工具。EDW工具的复杂性和对复杂SQL的支持程度,超过了目前Hadoop的能力。IngestLandingandAnalyticsSandboxZoneIndexes,facetsHive/HBaseColStoresDocumentsInVarietyofFormatsAnalyticsMapReduceIngestionandReal-timeAnalyticZoneDataSinksFilter,TransformIngestCorrelate,ClassifyExtract,AnnotateWarehousingZoneEnterpriseWarehouseDataMartsQueryEnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearchAnalyticsandReportingZoneMetadataandGovernanceZoneConnectors未来展望–并行数据库与Hadoop未来展望–并行数据库与Hadoop集成(SQL-on-HadoopGoogle,Mega,Spanner和F1向我们展现了跨数据中心数据库的可能。Cloudera开源了大数据查询分析引擎。ImpalaHortonworks开源了StingerFackbook开源了Presto类似Pregel,UCBerkeleyAMPLAB实验室开发了Spark图计算框架,并以Spark为核心开源了大数据查询分析引擎Shark。EMC的PivotalHAWQHadapt的HybridStorageEngine未来展望–并行数据库与Hadoop集成(Connector)未来展望–并行数据库与Hadoop集成(Hybrid)未来展望–IT基础设施的变化新的IT基础设置,如企业云环境,一体机,存储平台SDS(SoftwareDefineStorage)都解决了传统MPP数据库中的存储高可用问题。新一代的MPP数据库,将不再需要在MPP内部进行存储层副本的管理和高可用机制,这将极大简化MPP实现的复杂度。MPP数据库将更倾向于具有事务能力的SQLSuperComputer,以及通过对存储层的适配,达到最高性能。
Figure5.Tenant-relatedfactorsandhowtheyaffect“
isolatedversusshared"dataarchitecturedecisions未来展望–IT基础设施的变化(多租户)未来展望–并行数据库技术的发展实现跨不同地理位置数据中心数据库。例如,Google的Mega加强数据库内部的资源管理机制和任务的优先级调用实现完整的事务和并发控制能力。扩展支持应用类型的范围,逐渐模糊NOSQL与SQL的不同。例如,Vertica中的FlexEngine支持类似MongoDB可动态调整的基于非循环有向图的具有容错
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版新型实木地板安装与维护一体化合同
- 2025年在线教育平台课程销售佣金及教学资源合作合同
- 2025年度综合性幼儿园运营管理承包合同
- 2025年激光测距仪、测向仪合作协议书
- 2025年钢铁厂钢筋施工劳务承包合同:成本控制
- 业务部门财务支持计划
- 幼儿园小班的校园文化建设工作计划
- 玩中学学中玩计划
- 细化货物标识与管理的措施计划
- 游戏行业推出创新游戏玩法计划
- 2024预防流感课件完整版
- 2024年安徽省高校分类考试对口招生语文试卷真题(含答案)
- 新概念英语第2册课文(完整版)
- 住院患者长嘱口服药发药流程 内科
- GB∕T 19924-2021 流动式起重机 稳定性的确定
- 员工入职登记表
- 黑龙江普通专升本考试基础英语试卷(补考)
- 中国青年气候意识与行为调研报告2020
- 房产部经纪人岗前培训——税费计算ppt课件
- 室外道路及管网工程施工招标文件(DOC43页)
- 《物理化学》电子教案(上册)(共84页)
评论
0/150
提交评论