版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DAU关注于长视频,随后发展业务有PPC、UPC,同时还发展了游戏、直播、小说等业务。目2030300T。爱奇艺刚刚起步时平台架构很简单,数据流从日志通过RSYNC流入到Hive,然后通过脚HiveSQLMySQL,最后形成报表展示。整个流程的驱动ShellJavaJavaAccioLogPingbackHDFSTransfiguration求较多开发人员处理不过来,现在是取数计算太多,Hadoop集群处理不过来。因为在魔大数据平台框架。底层是大数据平台所用的计算资源,离线计算主要是Hive、Spark,流式计算主要是SparkStreaming和FlinkOLAP主要是Impala和Kylin。数据方面PingbackMySQL、MongoDB等,大数据存储主要是HDFS、HBase、Kudu,Kudu主要是支持实时,分布HBase、HDFS。再往上层是开发平台层,主要负责工作流开发。流计算通过成3-4个集群,相互之间要进行数据同步,先前主要是手写程序完成,现在可以通过数据集DC还有自助查询工具、BI报表工具,接下来会详细讲解。Crontab直接驱动数据处理脚本运行。随着任务量逐渐增多,crontab会变得不可维护,ShellLinkedinAzkabanAzkaban性也不是很高,自研发了一个工作流管理系统Gear,但是Gear的管理基于配置文件,开发调试起来麻烦又自研了通天塔数据开发BabelBD。SlytherinShell脚本,有一个驱动脚本和一个执行脚本。驱动脚本主要是调动processIDIDID其可视化程度不高,维护成本大,于是引入了Azkaban,其优点是使用简单、开源、可视机器有上百台,每个集群都会有很多台入口Client机器,只能一台机器一台机器去维护,GearappacheOozieOozie是由于其配置过于繁琐,可视化不是很好。因此在Oozie基础上进行配置简化,并且提供更友好的界面和开发方式,主要是使用GitLab-CI和SDK的方式提交。上图是一个并行的工作流,配置文件通过GitLab提交,Gitlab-CIAPI在开发过程中还是感觉配置Gear过程比较复杂,配置文件编写容易出错,平均需要提交三BabelBD可以直接拖拽节点的方式开发工作流,这样开发人员只需要关注核心SQL语句编写和整个基础流程,其他都交给IDE完成,上图是实际开发效果和执行效果。MVC模式,开发的每一张报表都是一个小的JavaWeb项目。需要为每一张报表编写JSP台-龙源2.0,配置流程最核心的就是写SQL,定义相关图表信息、条件信息,将其配置成一张报表。最后利用bootstrap的一个可视化配置管理工具,通过拖拽方式搭建报表。由不能满足需求,大BI系统应运而生。BI分析的系统发布自己的报表到BI进行展示。刻是完整的,但是如果某一集群发生延迟,就会消费掉一个空数据。因此设置了Done文DoneHDFSDonedone文件产生,而且表非常多,就会有海量空文件产生。所以为了避免HDFS大,我们就制作了Done服务,这样直接在做依赖判断的时候,直接使用Done服务,不再在HDFS上查找,依赖管理最终采用的方案是数据管理。调用,用来替代Done服务。它通过元数据抓取、手动录入、投递注册管理、外部系统注ImpalaOLAPSQLBI息制作场景和场景间关联,在BI报表直接引用指标维度信息制作报表。OLAP在数仓的上一层,最开始只使用MySQL,通过分库分表来解决大数据量问题;之后MySQL+HBaseHBase,根据不同的查询进行提取。接着就引入Kylin/Impala作为查询引擎,目前考虑的是不同框架综合使用,不局限于一个HBaseHBaseHBaseKylin提前算好存入HBase,这样就可以提供给自助查询系统使用。完成报表取数。这种方式工作量大、周期长,后来用户通过魔镜看结果或者运行SQL,如专门的分析工具,如漏斗分析、画像分析去定制化分析需求,再不满足通过OLAP分析进行拖拽式分析,或者通过魔镜去写SQL,生成结果后看是否满足,是否需要进一步分析,如果需要就回到OLAP系统进行分析。SQLSQLSQLSQLSQL定能转化为庖丁刃的SQL。SQLSQLSparkSQLSQL上图是莫奈系统界面,给出的是事先制作好的报表进行的展示,可以直接将其发布到BI系ExcelDSLSQLKylin,MySQL和IMPALA在系统中也可用,实现MySQL和Kylin并行使用。如果用户需要对BI
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教A版安徽省合肥市普通高中联盟2023-2024学年高二上学期1月期末联考数学试题
- 武术说课稿课件
- 基层 工会 课件
- 介绍鲁滨逊课件
- 高考地理一轮复习第六章自然环境的整体性和差异性第一节植被与土壤课件
- 西京学院《微机原理与接口技术》2021-2022学年期末试卷
- 学管师工作核心说课
- 西京学院《教师语言艺术》2022-2023学年第一学期期末试卷
- 西京学院《电机控制技术》2021-2022学年期末试卷
- 学会读书 课件
- 林木种质资源调查表(新表)
- 蔬菜出口基地备案管理课件
- 子宫异常出血的护理
- 《耳穴疗法治疗失眠》课件
- 询盘分析及回复
- 氯化工艺安全培训课件
- 指导巡察工作精细科学
- 企业法律知识培训消费者权益保护实务
- 快乐读书吧-读后分享课:《十万个为什么》教学案列
- 2024年 贵州茅台酒股份有限公司招聘笔试参考题库含答案解析
- 河上建坝纠纷可行性方案
评论
0/150
提交评论