基于Apache InLong全场景数据集成_第1页
基于Apache InLong全场景数据集成_第2页
基于Apache InLong全场景数据集成_第3页
基于Apache InLong全场景数据集成_第4页
基于Apache InLong全场景数据集成_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

景数据集成演讲人-莫云卿-腾讯-高级大数据工程师DataFunSummit#2023莫云卿>大数据平台建设,自研调度系统、离线作业开发平台>腾讯全链路数据开发平台WeData研发,WeData最早期数据质量、数据地图、数据安全建设者CONTENT01行业趋势及挑战。3应用实践平台与产品设计平台规划行业趋势及挑战DataFunSummit#2023大数据技术多样化发展,腾讯云原生服务厚积薄发大数据技术历经18年发展开源腾讯的大数据技术沉淀腾讯云拥有业界领先大数据技术与口碑产品生态服务:近百技术贡献者/数百万代码贡献/丰富运维工具沉淀/开放腾讯业界领先的大数据服务实践数据集成的必要性业务驱动业务数据需求丰富业务涉及技术组件、硬件、及软件丰富,监数字化进程不统一维的诉求难以统一技术驱动大数据生态繁杂:开源Hadoop生态日渐完善,越来越多的技术栈兴起,传统业务数据库、NoSQL、数HTAP发展短期承压:HTAP缺少大一统的产品或技术,客户选择数据集成产品的诉求不断变迁总线式架构组件丰富灵活数据云原生革新场景丰富化对象多样化生态一体化点对点数据抽取工具点对点数据抽取工具总线式数据传输通道全场景数据集成系统生态化数据集成服务数据集成工具的发展平台与产品设计DataFunSummit#2023数据集成DataInLong:产品概述DataInLongDataInLong源于由腾讯开源并孵化成功的ASF顶级项目ApacheInLong(应龙),内部InLong(应龙)Oteam依托InLong海量数据集成框架支持百…ApacheInLong:功能架构图…BulkloadRealtimeSort大数据:数仓:HiveIcebergHbaseHive文件系统:更多:FTP数据上报:kafkaCOSHDFSAppRealtimeSort关系型数据库:DBSyncCKDorisCKDorisSqlserver数据库:NoSQL:HbaseoracleMysqlMysqlMongoHDFSHDFSLogu轻量/标准链路灵活可选:可根据用户链路u星型链路模型:支持异构读写数据源任意能灵活高效统一协议【高性能、低时延队列组件,可靠容灾架构方案】靠u4A级安全能力:从用户、功能角色、传输可靠安全可信基于秘钥的认证体系以及跨网络支持,提供账号、网络、数据、技术上云驱动ApacheInLong社区快速的发展以及贡献值活跃度不断增高,公司内外部客户逐步落地,也存在一定的困难,平台也面临着如下问题:高公共基础:统一身份认证统一元数据统一调度云监控安全防护:云网络云安全执行资源:云容器>全托管+资源弹性公共基础:统一身份认证统一元数据统一调度云监控安全防护:云网络云安全执行资源:云容器>全托管+资源弹性>丰富的数据源:服务管理服务管理…执行引擎容器底座 Agent采集容器底座 Agent采集--MQ数据源数据采集数据上报…IHiveIcebergkuduI(TBDS/EMR/DLC)-画画…ESCKDorisI 数据采集/写入数据采集/写入………AgentAPPCOSHDFSFTP…Mysql…Sqlserver…kafkaPulsar 任务管理资源管理……监控采集…CreateDelete资源调度DataProxyDataProxy…任务管理资源管理……监控采集…CreateDelete资源调度DataProxyDataProxy…资源调度策略设计平台优势平台优势:资源管理:••资源分区策略•资源利用率提升任务调度:••运行时自适应•公共任务资源弹性整库迁移:支持指定表、整库搬迁、自定义正则匹配等多种源表选源表与目标表支持同名匹配、基于变量提取的自定义匹配等多整库迁移支持异常重启、忽略异常、部分停止等多种策略DDL感知:支持新建表、删除表、添加列、删除列等常见的DDLl类TargetTable3…TargetTable2平台优势:SourceTable1SourceTable1SinkSourceTable3SourceTable2FlinkSortSource…TargetTable1TargetTable1处理Sink端脏数据Sink归档脏数据到外部系统脏数据归档处理Sink端脏数据Sink归档脏数据到外部系统定义:单条数据在源端读取、在目标端写入时发生非主观异常且不能自恢复导致无法读取、写入的数据 Source处理Source端脏数据平台优势:••InLong独有功能,避免脏数据对正常同步链路的干扰•对脏数据分类、Format,方便脏数据回溯•插件化设计,可归档到任意外部系统脏数据管理脏数据管理:•可插拔脏数据Sink•自定义脏数据Format•明确的脏数据类型系统要求脏数据归档时必须指明具体的脏数•和指标系统协同BAuditSDKAuditSDKBAuditSDKAuditSDKAuditSDK数据审计与监控AuditAuditreportAuditAuditSDK总线架构异构转换总线架构异构转换无门槛DataInLong基于星型数据转换结构提供中央数据模型,支持30+种数据源及目标类型按需搭配构建数据链路,最大化降低异构数据源适配成本,提升数据链路搭建及传输效率,助力企业构建统一数据传输通道。DataInLongDataInLongCOSTKE生态对接uWeData:uInlong+DLC/CDWDoris等,提供快捷数据传输uInlong+ElasticSearch/BI,提供实时数据快捷入仓入uInlong+云数据库/云中间件/DTS,连接基础数据平台【方案融合/产品连接,支持基础、中间件、工具、应用各类云产品】全场景数据集成【支持不同类型、时效、策略、提取方式下全场景的数据集成诉求】u业务场景覆盖实时、离线同步,支持秒级、分钟u技术场景涵盖采集与主动上报数据传输方式,支u支持30+数据源类型,包含关系型数据库、大数据、u多种同步方式,支持全量、增量、全增量融合的u单表同步、整库迁移【业务场景】【数据场景】【技术场景】l离线数据业务,业务需按T+1定期采集ODS层数据,无需转换处理离线同步离线同步单表增量单表增量异构数据同步异构数据同步被动拉取被动拉取l监控数据变更,实时进行数据分析及报表展示,需要清洗非标数据实时同步实时同步-日志变更异构数据同步异构数据同步被动拉取被动拉取l实时进行业务日志采集,投递到ES进行广告业务指标分析实时同步实时同步-文件传输异构数据同步异构数据同步ETLETL/ELT主动上报主动上报l正在进行架构调整,需进行原有数据迁移,且不可影响现有离线业务离线同步离线同步整库/单表全增量整库/单表全增量同构数据同步同构数据同步被动拉取被动拉取DataInLongDataInLong全场景数据集成应用实践DataFunSummit#2023开箱即用的产品体验【敏捷产品体验、开箱即用免运维】u开箱即用,提供一站式产品服务,轻松管理数据源、资u低代码敏捷开发,提供画布式任务配置方式完成ETL链u无需资源运维,所有基础资源提供全托管服务,采用包u支持全链路(任务/数据流/节点/资源)多对象监控于复杂策略精准控制画布式无代码拖拽配置复杂策略精准控制资源托管一键配置指标监控与展示资源托管一键配置全链路数据开发与治理平台敏捷搭建DataInLong提供了开放的技术能力,可DataInLong提供了开放的技术能力,可与统一调度、统一元数据、统一安全等技术/产品服务快速深度融合。同时,支持平滑无缝升级至腾讯云数据台WeData,提供全链路数据开发、治理与资产管理、数据独立独立DataInLong数据集成数据集成(DataInLong)数据开发治理平台WeData数据开发治理平台WeData全链路平滑适配迁移推荐搭配产品:大数据处理套件数据开发治理平台WeData大数据处理套件异构数据批量搬迁入仓入湖DataInLong(数据集成)提供了DataInLong(数据集成)提供了简单、快速、灵活、成本低的技术和产品方案,采用星型模型抽象转换公共数据类型灵活适配几十种异构数据转DataInLong支持用户灵活接入业务处理逻辑实现多层数仓间数据快速、无缝扭转,帮助用户最大效率、最低成本完成异构数DataInLongDataInLongDataInLongCOSTKE转换能力强大周期灵活推荐搭配产品:策略多样粒度丰富全方位监控数据一致DDL响应、指标、脏数据归档movie【适合场景】:整库搬迁【同步模式】:根据来源与目标间表对象映射策略,自动路由来源多或单表数据至目标表中策略多样粒度丰富全方位监控数据一致DDL响应、指标、脏数据归档movie【适合场景】:整库搬迁【同步模式】:根据来源与目标间表对象映射策略,自动路由来源多或单表数据至目标表中。整库下,默认字段同步映射,来源与目标表之间可按照指定策略、或者字段内容动态映射推荐搭配产品:DataInLongDataInLong基于FlinkCDCConnector体系提供高效率、低延迟、准确的实时数据同步迁移方案,支持通过单表以及整库粒度实现业务与湖仓数DataInLong支持用户全量+增量、或者仅增量方式建立数据同步机制,提供实例、数据库、表或字段级实时数据传输方案,帮助用户最快效率完【适合场景】:单表同步、分库分表同步与回流【同步模式】:依据字段映射关系,进行指定字段数据之间非按序同步。默认对表内字段进行业务数据过滤保持来源于目标关联字段间数据一致,同步期间非关联的字段变更不影响同步数据。【数据转换】flink函数主动上报海量采集主动上报海量采集推荐搭配产品:广告、推荐、企业画像等业务需要收集在线网站、APP、系统的用户行为及系统日志等各种业务数据,DataInLong支持广告、推荐、企业画像等业务需要收集在线网站、APP、系统的用户行为及系统日志等各种业务数据,DataInLong支持通过配置Agent式主动上报对用户行为、系统日志、订单等结构化或半结构化数据,从而完成快速数据传输与高效分析,有效支撑在成功案例:公有云电商、传媒、互联网行业客户全链路数据平台•元数据、数据资产管理与治理企业云原生数据湖构建•多种同步方式,多种数据源快速搭建云数据湖•实时数据秒级同步iceberg,完成冷热数据计算某公有云电商:某公有云电商:Dat

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论