![2024大数据平台构建_第1页](http://file4.renrendoc.com/view8/M01/23/1B/wKhkGWb608-Ad2FgAAIL7HPSSCM987.jpg)
![2024大数据平台构建_第2页](http://file4.renrendoc.com/view8/M01/23/1B/wKhkGWb608-Ad2FgAAIL7HPSSCM9872.jpg)
![2024大数据平台构建_第3页](http://file4.renrendoc.com/view8/M01/23/1B/wKhkGWb608-Ad2FgAAIL7HPSSCM9873.jpg)
![2024大数据平台构建_第4页](http://file4.renrendoc.com/view8/M01/23/1B/wKhkGWb608-Ad2FgAAIL7HPSSCM9874.jpg)
![2024大数据平台构建_第5页](http://file4.renrendoc.com/view8/M01/23/1B/wKhkGWb608-Ad2FgAAIL7HPSSCM9875.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.02.0,1.02.0介绍下当前比较重要的项目“olap引擎的选型与效果”以及遇到的一些问题;第四个简单架构1.0阶段,底层是Hadoop,用来存储数据和分析数据。需要把log数据和事务数据传输到Hadoop平台上,我们使用的是kafka和sqoop进行数据传输。然后在HadoopHiveoozieHql然后将数据mysql集群或redis集群,上层承接的是一个报表系统。这个需求基本跑了一量时间在获取怎样数据;(4)故障频发,比如Hql跑失败了或者网络延迟没成功,oozie是通过xml配置发布任务,我们解决需要从数据仓库最底层跑到数据仓库最高层,还要重刷msl,花费时间。spark、Presto等,在这些基础上构建数据仓库Hive。还有一些分布式实时数据库HBaseoozie、sqoop第二层就是工具链,这一层是一个自研发调度平台,架构1.0用的oozie。基本满足需求有关系可视化,数据出问题可以很快定位与修复。然后就是Meta(元数据管理平台),数据3AdHoc,化查询引擎、记录维护、权限控制、限速和分流。最上层将整个大数据的数据抽象为API,API,面向公司业务API,通用APIAPI可以满APIAPI。面向公司业务API,我们是为业务服务的,通过我们的技术让业务产生更多产出,将用户需OK2.01.0一个presto18PB,93-4(3)sqlserver数据、Oracle数据等数据导入到数据仓库中,系统能够对接多种数据源,因此我们财务人关系可视化。比如我们有100个任务是关联的,最底层std层有50个任务,中间层有2016年我们发现有多个口径,因此通过指标系统将指标统一化,指标都从这里出,可以去做做自己的desktop,指标系统的后端使用后续讲Kylin的一个多维分析引擎支撑的。链家使用的是一个叫kylin的开源数据引擎,可以把数据仓库中的数据通过集群调度写入到HBase中做一个预计算。这样就可以支持指标系统千亿级数据亚秒级的查询,不支持明细查询因为做过预计算。还引入了百度开源的palo,经过优化,通过这样一个架构就满足上分析、sql查询接口、超大规模数据集、释放数据的能力以及数据可视化。adhoc搜索引擎有很多,比如presto、hive、spark等。用户也不知道该选择那种引擎,他的需接口、自助查询,这样就基本解决了数据开发的工作。我们自研发了一个在底层有presto、sparksql、hive等,queryengine特点就是能够发挥各自引擎的特性,prestosqlsparksqlsqlhive快,hive就是稳但是慢。queryengine就是智能选择各种引擎,用户把sql提交过来,queryenginesql是计费,因为资源是有限的。queryenginemysqlBIBImysql数据暴露出去,用户只需用其他BI就能使用。1.02.0这里分享两个案例,一个是olap引擎的选型与效果,第二个就是为什么要做透明压缩,是如何做的。Rolap过传统数据库或spqrksql和presto,spqrksql和presto是根据数据实时计算;MolapKylin/Druid,Druid(KylinkafkaSparksql的是叫olap,混合多引擎,不同场景路由到不同引擎。景就是能预知查询模式,并发有要求的场景,固化场景可以使用molap。kylin,因为支持较sqlkylinApacheKylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析能力,以支持超大规模数据,最初由eBayInc.Hive定义维度和指标,预计算cube,存储到hbasesql路由到hbaseolap架构,HBasekylinHBase集群。Kylinbuild然后就是面向线上的一个查询,还有一个kylin中间件,解决查询、cube任务执行、数据管理、统计。指标平台大部分是查询kylin,但是kylin不能满足明细查询,这个就通过queryenginespark集群或presto集群,还有alluxio做压缩,然后将明kylincube优化构建时字典下载策略,kylin构建时需要将所有元数据字典全部下载下来,因此从Hadoopbuild后只需要下载一次就可以;优化全局字典锁,build时需要锁住整个build集群,完成后锁别上;Kylin的query查询机器使用G1纳一个无限容量的队列,针对特定cube制。架构有外面的调度系统,有一个kylin中间件,所有的查询和build都经过kylin中间件。还做了一个任务队列、统计、优先级调度、监控报警、cube架构从0到1.0(0-1PB两年时间,1PB-16PB)、冷数据预期,针对这些问题提出透明压缩项目。就是分层存储(Hadoop特性),根据不同数据分不同级别存储,比如把一ssd,把另一部分数据存储到磁盘之上。Hot第二个就是ZFS文件系统,它具有存储池、自我修复功能、压缩与可变块大小、写时拷贝/校验和/快照、ARC(自适应内存缓存)与L2ARC(SSD做二级缓存)。HDFSZFSExt4ZFSEXT4HadoopHDFS冷热数据移动优化;第二个就是ZFS文件系统优化。ZFS支持很多压缩算法,经过测试发问此部分数据时的效率,从表可知,ZFSgzdatanode加载数据上对LZ4EXT4。综合考虑压缩率,读取,写入速度,datanodegz作为ZFS文件系统的压缩算法。透明压缩前数据增长
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- racemic-6-7-Dihydroxy-cannabichromene-生命科学试剂-MCE-9913
- 2-Isopropyl-5-methylanisole-生命科学试剂-MCE-4177
- 2025年度解除租赁合同简易协议书(体育场馆)
- 二零二五年度城市商业圈门市房租赁与商业资源整合合同
- 二零二五年度电子租房合同附租客租赁满意度调查
- 2025年度员工离职补偿及保密协议
- 二零二五年度社区车位使用权共有管理协议书
- 施工现场施工防火制度
- 教育机构电力供应的未来趋势-分布式变电站
- 音乐学院师资队伍的音乐教育与创新发展
- 2024-2030年中国靶机行业市场发展趋势与前景展望战略分析报告
- 2024过敏性休克抢救指南(2024)课件干货分享
- 医疗行业提高医院服务质量的改进方案三篇
- JJG(交通) 192-2023 负压筛析仪
- 七年级下册第四单元第七章 人类活动对生物圈的影响作业设计
- 农行网点负责人述职报告范本
- 常见军事训练伤的康复流程
- 人教版小学数学一年级(上)口算题1000道
- 急诊科管理手册
- 售后工程师的绩效考核与评估
- 新HSK一至六级词汇表
评论
0/150
提交评论