新一代数据湖技术Iceberg应用_第1页
新一代数据湖技术Iceberg应用_第2页
新一代数据湖技术Iceberg应用_第3页
新一代数据湖技术Iceberg应用_第4页
新一代数据湖技术Iceberg应用_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、新一代数据湖技术Iceberg应用技术创新,变革未来数据湖技术概述腾讯看点万亿数据下的业务痛点Iceberg在看点实践123Iceberg读写和删除42数据湖技术概述13数据湖技术概述14数据湖简介:主要思想:对所有数据统一存储,通过计算能够生成符合要求的各种数据。物理实现:数据存储平台。实现方式:通常基于Hadoop生态,但不仅限于Hadoop。 粗暴理解:数据仓库Hive数据湖技术概述1Hive on MR数据湖技术的发展及问题:计算引擎发展:存储格式发展:Spark、Presto、ImpalaText、RCFile5ORCFile、Parquet存在问题:数据读写没有ACID保证 数据没

2、有版本控制无法高效Update/Delete 分区管理不灵活数据湖技术概述1新一代数据湖技术:开源方案:Delta、Hudi、IcebergHive on MR、Spark、Presto、ImpalaText、RCFile、ORCFile、ParquetDelta Lake、Hudi、Iceberg计算引擎:存储引擎:Table Format:6数据湖技术概述17腾讯新一代数据湖技术方案:IcebergIceberg优势:1、更开放的框架,既独立于上层计算引擎又独立于下层存储2、接口抽象程度高,兼容性好,迁移成本低3、对各种引擎提供针对性的优化腾讯看点万亿数据下的业务痛点2829腾讯看点万亿数

3、据下的业务痛点腾讯信息流内容服务-腾讯看点QQ浏览器看点:集结热门资讯、本地新闻、免费小说海量资讯等,带来更轻更快阅读体验。腾讯QQ看点:为年轻用户提供丰富的内容社交服务,实现聊天交友和新闻资讯无缝切换。 微信腾讯看点小程序:涵盖图文、短视频、栏目等多种形式。看点直播:信息流直播小程序,除互动外还支持购物车、直播带货等一系列营销功能。 看点快报:网络全网热点资讯,第一时间尽览天下事。看点视频:专注 1-3 分钟 PGC 横版短视频,特色栏目订阅模式 + 大数据精准推荐。210腾讯看点万亿数据下的业务痛点信息流场景下数据仓库内容主要来源:内容加工审核链路数据:内容加工审核链路产生,包括发文时间、

4、审核结束时间、内容 分类、内容启用状态等信息用户消费行为数据:用户上报,包括曝光、点赞、举报、转发、推荐原因等信息2腾讯看点万亿数据下的业务痛点内容加工审核链路数据写入数据仓库的问题:1、HBase部分字段修改频繁,定时同步丢失版本信息2、同步全量数据造成Spark、HBase资源浪费 3、海量数据下Spark、HBase性能瓶颈4、核心报表产出非常不稳定HiveHBase112腾讯看点万亿数据下的业务痛点用户消费行为数据写入数据仓库的问题:1、数据落盘采取定时调度导致时效性较低2、入库Hive基于资源调度队列,有一定处理时间延迟风险3、延迟到达的数据,解决方案粗暴HiveMQ消费积攒12Ic

5、eberg在看点实践313314Iceberg在看点实践内容加工审核链路数据写入Iceberg:1、Flink消费HBase写流水2、通过数据湖团队提供的Flink-Iceberg Connector写入Iceberg 3、对于修改记录采用Merge On Read的方式进行高效修改4、Commit生成Snapshot之后下游立刻可读315Iceberg在看点实践内容加工审核链路数据写入Iceberg的收益:1、节省大量Spark、HBase的计算资源2、通过Iceberg的时间旅行(Time Travel),让访问历史版本数据成为可能 3、通过Iceberg的Snapshot机制,保证读取的

6、ACID4、可以大幅减少任务延迟时间,保证数据质量316Iceberg在看点实践用户消费行为数据写入Iceberg:1、用户行为流水按分钟粒度直接入库Iceberg2、Commit生成Snapshot之后下游立刻可读 3、结合Presto计算引擎构建T+0准实时数仓4、迟到数据可以轻松Merge Into到Iceberg表中317Iceberg在看点实践用户消费行为数据写入Iceberg的收益:1、减少入库依赖环节,提高稳定性2、数据实时性提高3、数据实时性和数据价值正相关4、迟到数据不再影响数据产出稳定性Iceberg读写和删除4184Iceberg读写和删除Iceberg写入/读取文件组织设计:1、snapshot2、manifest list 3、manifest4、data files194Iceberg读写和删除Iceberg分区查找优化设计:1、snapshot2、manifest list 3、manifest4、data files204Iceberg读写和删除M

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论