现代化实时数据仓库在金融领域的应用实践 2023-连林江_第1页
现代化实时数据仓库在金融领域的应用实践 2023-连林江_第2页
现代化实时数据仓库在金融领域的应用实践 2023-连林江_第3页
现代化实时数据仓库在金融领域的应用实践 2023-连林江_第4页
现代化实时数据仓库在金融领域的应用实践 2023-连林江_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

现代化实时数据仓库在金融领域的应用实践飞轮科技COO/连林江•硕士毕业于北京航空航天大学•国内最早一批分布式系统工程师,在基础架构和云计算领域拥有10余年的技术、产品和商业化经验•前百度智能云副总裁,大数据、云存储、视频云等部门总经理,从零到一开拓数十款云产品及数十亿营收•联合创立北京飞轮数据科技有限公司并担任COO,成立两年以来获得IDG资本、红衫中国、襄禾资本等顶级VC的近10亿元融资,创下近年来开源基础软件领域的新纪录•主导研发的现代化实时数仓SelectDB在全球知名性能测试榜中位列第一;•实时正在重构数据技术栈•走向现代化的实时数据仓库•实时数据仓库在金融领域的应用实践实时正在重构数据技术栈!更多业务场景更多业务场景•标签画像从批量到实时实时正在改变人们处理数据的方式数据随着时间的推移而价值降低业务驱动数仓架构的变革传统数仓批量ETL/报表一体化湖仓并行多个开源大数据组件的融合Hive/Spark/Impala/Druid…离线数据仓库大数据平台走向现代化的数据仓库第二代第三代第一代第二代第三代现代化数据仓库的三大趋势实时化实时化业务需求从批量分析到实时分析统一化统一化数据架构OneSizeFitAllAnalytics云原生化云原生化运行环境从分布式到云原生化关键词关键词实时分析的关键挑战实时数据实时分析数据库实时分析数据应用实时数据实时分析数据库数据延迟和查询延迟是衡量实时分析的两个核心指标组件统一化组件统一化数据集成与处理数据同步过去会选择多个组件应对面向不同分析场景过去会选择多个组件应对面向不同分析场景ElasticsearchS3/OSS如何在一套系统满足多个场景的分析需求存算分离存储卸载到低成本的存储系统计算弹性数据共享计算负载隔离存算分离存储卸载到低成本的存储系统计算弹性数据共享计算负载隔离云原生云原生现代化实时数据仓库SelectDB基于ApacheDoris构建的现代化实时数据仓库讯云。部署在物理机/虚拟机、K8s或者公有云/私有云上。多种查询负载上都拥有极速性能•多种查询负载上都拥有极速性能•高并发点查询(单节点30000+QPS)•大宽表查询(2022.10ClickBenchNo.1)•增量ELT(比Spark更实时,比Flink更易用)支持大规模实时数据上的极速查询数据的实时导入与实时存储•秒级的数据实时更新(主键表)与追加•毫秒级轻量化表模式修改•数据库CDC/Kafka流式数据同步•丰富的半结构化数据类型支持极致的分析性能向量化处理,减少虚函数调用和cachemiss节点间并行和节点内并行,发挥多机多核性能自动设置并行度,不需要手动调整参数强一致的单表物化视图,支持通用聚合函数UPDATEt1高效的数据更新Upsert条件更新条件删除部分列更新分区覆盖DELETEFROMt1单一系统可以应对更多场景的挑战更开放的湖仓一体方案可扩展的数据源连接框架和丰富的数据源支持,查询性能较Trino/Presto提升3-10倍SelectDBElasticsearch更高性价比的日志检索分析平台5倍写入吞吐提升.利用CPU向量化指令,提升数据解析、构建索引5倍写入吞吐提升的性能.简化去掉正排等索引结构,降低构建索引开销80%存储成本降低.简化去掉正排等索引结构,减少倒排索引数据量80%存储成本降低30%.列式存储与ZSTD压缩算法,提供5-10倍压缩比.冷热分层,降低冷数据存储成本60%..基于资源队列的隔离机制,解决负载间相互影响稳定性提升.异常查询Kill机制,避免单个查询影响整个集群.中间数据落盘,支持大查询内存不足运行失败共享存储与本地缓存•共享存储与本地缓存•共享存储系统拥有全部数据•数据的自动和手动缓存控制•伸缩节点,缓存的预热与迁移 Cache SharedStorageCacheCacheCache计算节点弹性扩缩容•手动扩缩容•分时扩缩容•集群自动启停固定计算节点弹性计算节点计算节点 共享存储系统计算节点计算节点计算节点计算节点计算节点存算分离架构下的弹性计算多计算集群多计算集群•元数据和数据共享,数据强一致•多个计算集群都可以读写•计算负载隔离:导入与查询、在线与离线等查询集群计算节点 共享存储系统导入集群计算节点计算节点计算节点计算节点计算节点支持全表或者分区级别的数据备份恢复服务高可用、数据高可靠PROPERTIES("backup_timestamp"="2022-04-08-15-52-29");精细化的多租户资源隔离方案支持SSL/TLS安全传输跨集群数据复制交互式探索分析对交互式探索分析对TB和PB数据进行快速的即席查询(Ad-hocQueries)日志管理与分析主要应用场景实时报表与实时决策实时报表与实时决策面向内部和外部的实时报表与仪表盘,面向自动化程序的实时决策用户行为与画像分析用户行为与画像分析混合云和多云部署混合云和多云部署无论是混合部署(公有云、私有化部署)还是在多个公共云上部署,统一体验,一切皆简化现代化实时数据仓库在金融领域的应用实践标签模型OLT模型活动评估累计指标事件中心活动主题客服主题风控主题标签模型OLT模型活动评估累计指标事件中心活动主题客服主题风控主题银行产品生命周期交易事件法人组织APP事件数据源快贷数据线下数据储蓄卡数据外部数据金融业务数据应用架构图投放投放客户生命周期客户生命周期信用卡数据数据应用场景丰富期数据应用场景丰富期数据集成能力金融业务对于实时数据平台的需求数据服务稳定可靠数据存储多样结构化/半结构化多样结构化/半结构化多样全基于SelectDB的解决方案SELECTDB作业调度管理元数据管理作业调度管理元数据管理某城商行实时数据仓库数据集成与处理离线初始化KakfaKakfa前期痛点前期痛点•数据时效性T+1,无当日最新实时数据;•底层技术栈复杂、历史架构过于臃肿、维护成本高,查询效率低下,无法满足快速灵活的查询需求;改造收益•支持分析师实时对当日数据进行提数、全量实时抽取,从原先分钟级响应提升至秒级响应,报表提速超过10倍;•服务“千人千面”、客户CRM、风控分析等多个场景,流水查询业务中百万QPS下达到1.5秒响应,助力打造特色科技型银行;升级标签计算和存储•升级标签计算和存储•数据存储:离线标签、实时标签、OneID、事件的存储与计算统一,节约存储与计算资源,减少数据传输与耗时,提高用户体验,100w客群生成时间提速5倍;•技术栈精简:从早期架构的Spark/Impala/Hbase/Nebula等多个组件的方案,精简为单一数据仓库的方案,极大减少维护成本某在线保险公司CDP平台数据应用业务数据数据仓库风控运营监测即席分析案件溯源消息中间件离线文件原始数据Table1Table2库表同步按小时/天粒度聚合数据高度聚合数据打宽Aggregate模型Topic1数据应用业务数据数据仓库风控运营监测即席分析案件溯源消息中间件离线文件原始数据Table1Table2库表同步按小时/天粒度聚合数据高度聚合数据打宽Aggregate模型Topic1Duplicate模型Topic2数据清洗联邦分析批量加工Kafka某国有大行风控反欺诈平台数据采集数据采集OnlineOnline-ProcessPg-source Pg-sourceKafka-ETL&Java-UDFsinkOffline-ProcessKafka-ETL1000w+1000w+支持客户规模10000+覆盖支行网点1000+在线统计分析产品数支持10000+笔工单的数据追踪、详情分析。支持动态检测近百种不同类别的告警规则,实现系统级别预警提醒。某国有大行风控反欺诈平台反欺诈风控平台业务业务效果业务效果•核心报表数据实时性从1-2天延迟骤减至5s内。•80%即席分析可在2s内返回结果,95%的即席分析可在5s内返回结果。•受益于ApacheDoris极致的存储压缩比,存储成本降低70%。大数据产品体系大数据产品体系多个组件带来沉重的运维压力和资源浪费某人寿保险一体化数据门户指标/标签指标/标签API

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论