大数据 刘一鸣-Kyligence-Apache Kylin加速大数据OLAP_第1页
大数据 刘一鸣-Kyligence-Apache Kylin加速大数据OLAP_第2页
大数据 刘一鸣-Kyligence-Apache Kylin加速大数据OLAP_第3页
大数据 刘一鸣-Kyligence-Apache Kylin加速大数据OLAP_第4页
大数据 刘一鸣-Kyligence-Apache Kylin加速大数据OLAP_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ApacheKylin加速大数据OLAP最新进展与典型应用架构分享刘一鸣|BillyLiuApacheKylinPMC&Kyligence产品总监http://kyligeAllrightsreservedhttp://kyligeOLAP传传统企业级数据仓库架构n针对关键业务分析进行了优化n千锤百炼的数据模型n大量训练有素的分析师……Allrightsreserved©Kyligencehttp://kyligencapReducempalarkSQLOLAPOLAP:大数据的缺失部分n太多的SQLonHadoopn不适合做交互式分析OLAPOLAPAllrightsreserved©KyligenceInc.http://kyligence.ionHadoop上的OLAP/DWn支持传统建模方式(Kimball)n为交互式分析进行优化n原生Hadoop应用mpalampalaapReducerkSQL…ApacheApacheKylin历史BossieAward最佳开源大数据工具奖Kyligence公BossieAward最佳开源大数据工具奖Kyligence公司创建最佳开源大数据工具奖入Apache.商业版KAP发布式开源项目开始Apache级项目Sep2013Oct2014Nov2014Sep2015Nov2015Mar2016Aug2016Sep2016April2017Allrightsreserved©KyligenceInc.http://kyligence.ioApacheKylin全球案例ApacheKylin全球案例Allrightsreserved©KyligenceInc.http://kyligence.ioTPCTPC-HBenchmarkKylin2.2vsSparkSQL2.1(越低越好)400Q1Q2Q3Q4Q5Q6Q7Q8Q9Q10Q11Q12Q13Q14Q15Q16Q17Q18Q19Q20Q21Q22inSparkSQL2.1inAllrightsreserved©KyligenceInc.http://kyligence.ioJoinrTablesO(N)样例:JoinrTablesO(N)样例:售情况selectl_returnflag,o_orderstatus,sum(l_quantity)assum_qty,sum(l_extendedprice)assum_base_price…fromv_lineiteminnerjoinv_ordersonl_orderkey=o_orderkeywherel_shipdate<='1998-09-16'groupbyl_returnflag,o_orderstatusorderbyl_returnflag,o_orderstatus;Allrightsreserved©KyligenceInc.http://kyligence.ioFilterAggrApacheKylin为什么快?FilterAggr 果gxstatusxdayslrightsreserved©KyligenceInclhttp://kyligence.ioAllrightsreserved©KyligenceIhttp://kyligenceetime,time,itemlocationtimelocation,imeetime,time,itemlocationtimelocation,imeitemDbasecuboidelQueryEngine查询supplierlocationsuppliersuppliern0-D(apex)cuboidtime,item,location,timeitemitemlocationsupplier1-DcuboidsTime,item,item,location,•并行计算•列式存储•(倒排)索引•预计算据量All•并行计算•列式存储•(倒排)索引•预计算据量Allrightsreserved©KyligenceInc.http://kyligence.ioAllrightsreserved©KyligenceInc.http://kyligence.ioApacheKylin系统架构1.Allrightsreserved©KyligenceInc.http://kyligence.ioApacheKylin系统架构1.FetchsourcefromHive/Kafka2.BuildCubewithMR/Spark3.StoreCubeinHBaseQueryRuntimeCoProcessorBulkload4.QueryRuntimeCoProcessorBulkload4.QuerybyANSISQLBITools,WebApp…Kylin基基于HBase的列式存储l计算结果集保存在HBase中,原有的基于行的关系模型被转换成基于键值对的列式存储l维度组合作为Rowkey,查询访问不再需要昂贵的表扫描,提供高速的扫描性能l维度值通过编码算法(字典、定长、时间戳等)高度压缩l指标通过Column存储,可以灵活、无限制的增加指标数量l预先计算的结果为高速高并发分析带来了可能rightsreservedrightsreserved©KyligenceInc.http://kyligence.ioSQL5.Finalresults1.ANSI QueryParser icalPlan OptimizationSQL5.Finalresults1.ANSI QueryParser icalPlan OptimizationationpushdownresultsPhysicalPlan3.ScanwithFuzzyKeyFilterRegionserverAllrightsreserved©KyligenceInc.http://kyligence.ioCountryQueryServerJoinJoinJoinJoinJoinJoinJoinJoinKylin2.0支持雪花模型JoinJoinJoinJoinJoinJoinJoinJoinKylin2.0支持雪花模型LLINEITEMORDERORDERSCCUSTOMERPPARTSUPPRT解决了Kylin1.x很多功能限制:•从星形模型到雪花模型•单表重复JoinAllrightsreserved©KyligenceInc.http://kyligence.ioAllrightsreserved©KyligenceInc.http://kyligence.ioANSIAllrightsreserved©KyligenceInc.http://kyligence.ioANSISQLKylinBITools,WebApp… Kylin2.1CubingwithSparkAllrightsreserved©KyligenceInc.http://kyligence.io MR-Allrightsreserved©KyligenceInc.http://kyligence.ioLevel1Level2Level3Level4Level5CCuboidDiskDiskI/OCuboidLevel1Level2Level3Level4Level5DiskI/OMemoryAccessAllrightsreserved©KyligenceInc.http://kyligence.io Spark-basedCuboidLevel1Level2Level3Level4Level5DiskI/OMemoryAccessAllrightsreserved©KyligenceInc.http://kyligence.io是可以观察到优势随着数据量的增加而减少ØSpark1.6.3onYARN是可以观察到优势随着数据量的增加而减少ØSpark1.6.3onYARNØ24vcores,30GBmemoryØ3datasetsofincreasingsize:.15GB/2.5GB/8GBAllrightsreserved©KyligenceInc.http://kyligence.io•统一的查询入口•统一的ACL•自适应不同SQL方言•可扩展架构,支持更多下压引擎•为模型优化收集数据rkImpala关•统一的查询入口•统一的ACL•自适应不同SQL方言•可扩展架构,支持更多下压引擎•为模型优化收集数据rkImpala关键业务分析模型演进数据探索/发现QueryRouter多维数据集访问更更多来自2.X的更新lRobustGlobalDictionarylJobEngineHAlRDBMSasDataSourcelProject/TableACLlApacheRangerIntegrationlPercentilemeasureKylinClusterKylinCluster可扩展的部署架可扩展的部署架构靠部署基于LB进行水平扩展workload侵入式部署个W量主集群机房B机房AQueryQueryQueryQuery数据量:2853亿Cube存储:59TB次/天3个W量主集群机房B机房AQueryQueryQueryQuery数据量:2853亿Cube存储:59TB次/天30节点独立Hbase集群负载均衡提交作业Kylin带来能力和效率的提升Kylin带来能力和效率的提升对比项接入Kylin之前接入Kylin之后对比结果数据开发流程需要开发事实层、聚合层、主题层和维度表ETL只需要开发事实层、维度表、配置Kylin1.ETL开发效率提升3倍2.维护成本只需要改Kylin配置,不需要修改ETL存储方式Hive中与计算结果推送到MySQL存储在HBase1.支持结果数据量级增大2.都使用JDBC查询数据3.结果数据传输提高1倍多维数据处理Hive中cube或者groupingsetsKylinUI配置维度变化只需要改Kylin配置,不需要修改ETL精确去重Hive中countdistinct基于bitmap的精确去重1.节省计算资源2.支持跨天去重转化率&过户留存Hive中通过join过滤通过UDAF处理bitmap1.开发效率提升2.不需要预计算,节省资源 AdHoc查询数据APIneCoordinator任务调度cube任务调度任务调度 任务调度某系统 AdHoc查询数据APIneCoordinator任务调度cube任务调度任务调度 任务调度某系统e最大的房地产中介公司Kylin应用架构 报表系统•支持SQL和JDBC•支持精准的countdistinct•支持历史数据回溯•维度膨胀•实时分析为主•基于内存计算•支持第三方SQL引擎•支持不精准的countdistinct•历史数据不易回溯•无维度膨胀某某公司外卖业务流量分析的选型之路VS事实表factflow事实表factflow维度表mpath最终落地的应用架构流量分析平台流量数据立方体立方体数据立方体数据Ky

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论