FFA2024分论坛-流式湖仓 合辑-部分2_第1页
FFA2024分论坛-流式湖仓 合辑-部分2_第2页
FFA2024分论坛-流式湖仓 合辑-部分2_第3页
FFA2024分论坛-流式湖仓 合辑-部分2_第4页
FFA2024分论坛-流式湖仓 合辑-部分2_第5页
已阅读5页,还剩218页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Row:(pk3,nil,f2)writeSortBuffer:(pk3,nil,f2),(pk2,f1,nil),(pk3,f1,nil),(pk1,nil,f2),(pk2,nil,f2),(pk1,f1,nil)sortSortBuffer:(pk1,f1,nil),(pk1,nil,f2),(pk2,f1,nil),(pk2,nil,f2)(pk3,f1,nil),(pk3,nil,f2)mergeFile:(pk1,f1,f2),(pk2,f1,f2)(pk3,f1,f2)flush/compact}1col_0col_0col_1……………..PackChangelogReaderPackChangelogReaderpk1,f1b,f2b,f1a,f2apk1,f1b,f2b,f1a,f2acol_0col_1[pk_col][pk_col][pk_col][pk_col][col_1]BinlogTableAsyncRefreshAsyncRefreshKeyValueFormatPartialcacheLookup DataFile MetaFullcacheLookupFullcacheLookupStateSnapshotrefreshasynchronousSnapshotOperatorOperatorInputStreamOperatorOperatorBucketPartitionerOperatorBucket1Bucket2BucketBucket1Bucket2Bucket6Bucket4BucketBucket6Bucket4spark.paimon.${config_key}SETspark.paimon.scan.timestamp-mills=ts1;spark.paimon.${catalogName}.${dbName}.${tableName}.${config_key}SETspark.paimon.scan.timestamp-mills=ts1;SETspark.paimon.*.default.T1.scan.timestamp-mills=ts2;数据质量(Data数据质量(Dataquality)查询性能(Performance)实时分析(Realtime)数据治理(Governance)开放生态(Open)灵活统一(Singlesourceoftruth)可扩展性(Scalability)高性价比(Costefficiency)极速统一极速统一简单易用…StarRocks主键表:高性能实时写入和更新 ↓! !!!数据湖查询加速WarehouseLocalCacheStarRocksPaimonLocalCacheAllinPaimonStarRocks数据湖查询加速WarehouseLocalCacheStarRocksPaimonLocalCacheAllinPaimonStarRocksStarRocksStarRocksPaimonSinkPaimonSinkPaimon数据湖仓分层建模WarehouseADSStarRocksPaimon中⼤数据量vs中⼤数据量vs超⼤数据量数仓为基础vs数据湖为基础封闭内表格式封闭内表格式vs开放湖表格式开箱即⽤开箱即⽤vs中等运维难度计算引擎统⼀计算引擎统⼀vs⼀湖多引擎StarRocks能⼒vs其他引擎能⼒StarRocks存算分离集群Warehouse-2查询任务StarRocks存算分离集群Warehouse-2查询任务StarRocksControlPlaneStarOS元仓分析DLF湖表元数据等StarRocksStarRocksSR的主键模型基于deleteandinsert模式实现SR通过主键索引定位原来这条记录打个删除标记,update记录appendPartialUpdate解决业务部分列更新的需求客户问题客户问题Schema变更操作繁琐阿里云StarRocks与Flink团队推出的CTAS&CDAS功能,StarRocks建表、Flink-CDC任务创建、实时同步Schema变更StarRocks侧提供了Begin、Prepare、Commit等接口StarRocks湖仓融合数仓:业务数据通过Flink加工后实时同步给StarRocks客户问题客户问题这也是我们迁移到StarRocks的主要原因FlinkStarRocks湖仓融合StarRocks湖仓融合数据湖:Paimon性能好、维护成本低客户问题StarRocks数据湖分析StarRocks数据湖分析实时湖分析:PaimonvsHudi,时效性提StarRocks相对Trino提升3-10倍+客户问题查询查询THANKYOU业务背景架构设计阿里妈妈是阿里巴巴集团旗下的一家数字营销平台,主要为商家3.数据驱动增长战略:通过数据分析支4.提供技术服务:为阿里妈妈全线广告客户提供营销洞察、策略制定2.优化预算:实时监控可以帮助广告主合理分配预算,将3.市场反应:实时分析能让广告主了解市场4.个性化营销:基于实时洞察,广告主可以实现更加精准的I建设中建设中备主name>`.sys.remove_orphan_files('<datab 1.建表参数设置3.开启异步compaction1.建表参数设置2.追数适当调大sink并行度THANKYOU3.数据驱动增长战略:通过数据分4.提供技术服务:为阿里妈妈全线支持。请扫微信⼆维码采用湖Paimon方案入湖业务查询入湖业务查询THANKYOU湖仓一体湖仓一体大数据搜索AI湖仓一体大数据搜索AI湖仓一体0001010101100010110101011010多种数据形态多种数据形态多元计算方式提升训练数据准备效率提升训练数据准备效率(Hive,Spark,StarRocks,Trino,…)(Hive,Spark,StarRocks,Trino,…)Thrift协议(开源兼容)REST协议(湖表兼容)集中式的统一存储(Singlesourceoftruth)BinlogAccesslogFlinkBinlogAccesslogFlinkCDCFlinkVVP•••支持按Catalog/DB/Table进行湖表compaction•支持按Catalog/DB/Tabl•支持按Catalog/DB/Table清理临时文件(Hive,Spark,StarRocks,Trino,…)Apache米用户场景价值与优势Database①一键入湖CTASCDASQueriesQueriesQueries②流读流写flinkQueriesQueriesQueries②流读流写flinkspark④AD-HOC查询ApachePaimonApachePaimonApachePaimonApachePaimonApachePaimonOpenLakeOpenLake全链路实时化流批一体化开放兼容主流分析引擎THANKYOU大数据负责人,负责整装场景下的大数据开发Part1、家装行业特点及其实时数据解决方案QQ“孙小圣”例会/述职/盘客Part2、流式湖仓在贝壳家装业务中的探索与实践Lambda阶段确客直签确客直签见面认购见面认购量房到店量房到店如次数、首末时间等聚合型结果,部分更新模型聚合模型聚合模型THANKYOU湖仓架构模式的思考数据湖系统能力建设数据湖关键能力建设数据湖在数据领域的应用未来展望•任务开发,测试/灰度,链路管理/数据管理数据入湖多云存储支持多维管理flinkactionjar writetaskwritetask 开启/关闭内存托管开启/关闭内存托管突发数据下写失败脏数据控制脏数据控制减少写失败限流控制减少写限流控制减少写•回放容量•回放时间•topic管理•topic清理•从0开始构建状态时间久•从0开始构建状态浪费资源topic------------------------>paimon↓topic•分区和bucket保持一致•提前N天录入数据到paimonstate•压测任务保持相同UID•整体链路使用湖表•支持实时指标+准实时指标+离线计算指标融合告警•

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论