某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件_第1页
某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件_第2页
某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件_第3页
某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件_第4页
某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、使用说明文档名称工商银行FusionInsight LibrA成功案例 ( 一页案例 + 详版案例 )目的给客户讲解工商银行成功使用FI LibrA打造下一代新数仓的成功故事受众一页版: 客户CXO,战略规划部、市场部等早期拓展交流详细版: 客户的技术,规划等部门交流关键信息工行背景和存在的问题华为FI LibrA方案设计项目实施效果版本记录版本描述作者审批人V1.0LibrA 上市营销材料, 首次版本上线. 党张波 00330169詹才华 00255073 行销; MKT; 研发如客户需要提供此材料,请以PDF格式提供请务必删除敏感信息,例如数字,客户名称,后面隐藏的备份页面等部分信息放在了

2、每个页面的备注里面,供讲解人员参考工商银行借助FusionInsight LibrA打造新一代融合数仓扩容成本高:TD一体机架构,价格昂贵,计算存储扩容成本高。时效性差:要求476个业务处理时间从10降到6小时易用性差:只支持两代设备兼容,无法跨代;扩容业务需停机将近一周时间工行的痛点和挑战:华为提供的解决方案:统一架构:通用x86服务器,设备利旧和高效水平扩容统一SQL接口:通过LibrA on Hadoop特性直接访问Hadoop上的数据在线扩容:支持夸代硬件兼容,扩容不停机等特性工行的收益:成本优势:软硬件解耦,基于通用X86服务器避免Lock-in,支持跨代设备共存,最大化保护硬件投资

3、融合平台: Hadoop 与 MPP 完全融合, 一套系统支持处理批量和联机查询混合负载架构演进: Cloud Ready, 支持面向未来混合云演进一页案例工商银行FusionInsight LibrA新数仓成功案例华为大数据营销团队30/ 04/ 2017详版案例工商银行背景介绍中国工商银行向全球532万公司客户和4.96亿个人客户提供广泛的金融产品和服务。连续三年位列银行家全球1000家大银行和美国福布斯全球企业2000强榜首。中国工商银行是中国五大银行之首,世界五百强企业之一,拥有中国最大的客户群,是中国最大的商业银行。 中国工商银行是中国最大的国有独资商业银行,基本任务是依据国家的法律

4、和法规,通过国内外开展融资活动筹集社会资金,加强信贷资金管理,支持企业生产和技术改造,为我国经济建设服务中国工商银行(全称:中国工商银行股份有限公司,Industrial and Commercial Bank of China)简称ICBC ,成立于1984年1月1日。领导决策业务分析监管报送BI服务区营销理财交易系统区(OLTP)渠道日志交互控制层大机平台对私存贷款业务1千万笔交易/天对公存贷款业务2-3千万笔交易/天基金开放平台网上银行手机/电话银行金融市场(债券、票据)数据仓库区数据集市区日志、文本、(大数据加工处理)文档索引(信息检索平台)非结构化数据Hadoop平台PCRM个人客户

5、管理管理客户关系管理CCRM法人客户管理管理下游数据集市GSIS全球统计信息系统风险/审计报送CRA信用风险分析CS2002综合报表报表CAP资本报表MOVA绩效系统绩效HDM(Oracle,280TB)历史数据管理系统独立分析平台数据服务总线(账务数据)ETL平台工行自建结构化数据日志、网页、影像、扫描等非结构化向下游直接供 数据信用卡3-4亿笔/结息日外部审计新型分析型业务客户画像/精准营销实时营销反欺诈消费信贷电子商务ATM柜员用户网上银行手机银行1亿笔交易/天电子商务数据仓库是工行核心分析处理系统EDI(XX TB),XX个月的数据,准实时ODS(操作型数仓)批量加工集群EDW 1(X

6、XX TB),7年的数据, 批量JobEDW 2(XXX TB),7年的数据, 交互查询Job分析挖掘集群ISFC (半配Exadata, 25TB)信贷统一查询系统批量EDI与批量EDW对比批量 EDI批量 EDW数据量/作业数XX TB/ XXX 个作业XX T/ XXXX 个作业业务特点批处理系统,每天新增数据 XX G,不保留历史原数据;批处理系统,每天新增数据 XXG,保留历史原数据(最长7年)业务窗口数据随到随加载,0:009:00,业务繁忙期约4小时数据随到随加载,18:00T+1 22:00,业务繁忙期约1214小时数据特征贴源(和业务系统采用基本一致的结构);数据每年自然增长

7、约6%;面向主题的范式模型;数据每年自然增长约6%;SQL特点典型场景:1015张表关联、聚集、复杂表达式、Insert/Select为主,写入比例占比较大,读写比例2:13:1典型场景:2030张表关联、聚集、复杂表达式、Insert/Select为主,写入比例占比较大,读写比例2:13:1工行的需求与挑战灵活性差批量任务与联机交互任务分离,业务分析灵活性差时效性差EDI与EDW混合运行,时效性差。工行要求EDI 85个核心作业从4.5小时降低到3小时完成,476作业端到端时间从10小时降低到6小时扩容成本高400TB数据,扩容需求强烈,Teradata节点扩容成本高(20万/TB)易用性差

8、1) 跨代设备兼容:TD只支持两代设备兼容2) 在线扩容:TD扩容业务需停机将近一周时间;批量加工集群搬迁FusionInsight LibrA + 开放硬件解决方案4P4P4P4P管理节点ETL服务器计算节点X+2+2 物理组网EDW主要使用列存,IO隔离性更好,每个RAID部署2 DN节点故障后4*2 DN方式可以在安全组内均分DN,即安全组大小=节点RAID数+1将来SSD/ADIO等特性会更好的隔离IO并节省内存,更适合多DN部署设计原则EDI(70TB),13个月的数据,准实时ODS(操作型数仓)批量加工集群EDW 1(400TB),7年的数据, 批量JobEDW 2(310TB),

9、7年的数据, 交互查询Job分析挖掘集群Teradata 平台DATA LAKEFusionInsight HD系统组网方式80GE简化汇聚层接入层10GE汇聚层接入层1、该方案本质是FATTREE组网方式,为实现收敛比1:1,交换网络层级每提高一层,带宽增加一倍;2、左图中每根加粗连接线代表80GE带宽,即8台物理机带宽上限之和。接入层每单台交换机下行带宽160GE,上行带宽160GE;汇聚层每单台交换机接入带宽320GE;3、右图是简化的FATTREE本质;计算节点ETL/管理节点成本EDI批量库标准x86服务器4*30:(2016年底扩容到42台)30台 标准x86服务器2*12核(In

10、tel Xeon CPU 2.3GHz*2)512GB RAM900GB SAS硬盘 x 20(本地盘)2个万兆网口OS: SUSE11.2标准x86服务器4*2:2台标准x86服务器2*12核(Intel Xeon CPU 2.3GHz*2)128GB RAM160 T(SAN存储)软件成本:FusionInsight LibrA软件报价模式:X万元/TB硬件成本: XX标准x86服务器4 XX万/台*30,华为5885V3 XX万/台*60EDW批量库标准x86服务器*60 CPU:4*15Core,2.8GHz内存:1024G硬盘:20*900G SAS(本地盘)网卡:10GE标准x86

11、服务器4*2:2台XX标准x86服务器2*12核(Intel Xeon CPU 2.3GHz*2)128GB RAM15 T硬盘 x 3(SAN存储)华为LibrA + 开放硬件解决方案FusionInsight LibrA搬迁成本远低于TD扩容成本两个集群:外高桥30节点集群和嘉定60节点集群数据增长:EDI批量库+ EDW批量库:400TB; EDW分析库:300TB,每年自然增长6%扩容单价:20万/TB2014年一次扩容12节点,耗资 XX 亿RMB工行20052014年采购Teradata总共耗资 XX 亿RMBTD 扩容解决方案FusionInsight LibrA 满足客户的要求

12、,并超出了客户的期望作业名TD生产环境(秒)华为生产、列存20台(秒)华为/TD生产运行时间比率(%)E01_CUST_BELONG_INFO_A11702387633%PBM_CUST_PERMEABILITY_SUBSALY_A6350129320%PBM_CUST_PERMEABILITY_ALL_A16449237914%C01_INDV_CUST_LOAN_INFO_A444585319%CST_CUST_STRU_生产环境部分复杂作业处理性能对比(超过2000秒的作业)华为 (列存, 20台)TD 工行要求EDI 85个核心作业的处理时间2.5小时4.5小

13、时4小时476 作业端到端的处理时间5.8小时(684个作业 ) 10小时6小时EDI 核心作业处理性能对比FusionInsight LibrA方案亮点总结2 高性能SQL引擎数据仓库核心作业性能超越TD30%3 高时效数据复制单节点外表导入速度700MB/S5 高效作业迁移一键式,图形化,自动化SQL迁移,迁移后零调优6 在线快速扩容110T数据,20-32节点扩容耗时仅需8小时4 Hadoop融合与Hadoop深度融合,透明访问1 跨代设备兼容兼容通用x86硬件服务器工行大数据应用范围绩效管理行内多维度绩效支持仓库报表系统信贷业务统一查询平台提供单一产品线、渠道和各种业务关联、客户关联的

14、信贷查询功能分析师平台基于数据仓库的即时查询分析师支持系统银监会监管数据采集按照银监会的数据结构规范,向银监会(局)报送监管数据大数据服务企业数据集成(EDI)基于数据仓库的批量计算系统全球统计信息系统汇总统计业务明细及指标生成的报表系统EDW集群部署方案设计说明30台5885(4P/1TB/20*900GB),后续会扩展到60台每个节点4个RAID(4D+1P),每个RAID 2个DNDN数=2*4*30=240(后续会扩展到480 DN)每个安全组(圈)包含5个节点,共6个安全组节点宕机后其上8个DN飘移到组内另外4个节点上,每个节点接收2DN,分别落在两个RAID上设计理由EDW主要使用

15、列存,IO隔离性更好,因此每个RAID部署2 DN节点故障后4*2 DN方式可以在安全组内均分DN,即安全组大小=节点RAID数+1将来SSD/ADIO等特性会更好的隔离IO并节省内存,更适合多DN部署基于FusionInsight优化数仓源系统数据交换平台集成型数据区分析挖掘平台汇总区基础数据区集市区企业数据集成批量加工平台企业数据集成基础数据共享数据区历史数据区临时数据区非结构化数据流处理平台批量调度系统批量调度系统实时类 应用数据集市(混合负载)绩效信贷FusionInsight HDFusionInsight HDFusionInsight MPPFusionInsight MPPCD

16、C集市区GoldengateStormFlume上层应用(BI类、监管类)分析师展现平台SAS1234FusionInsight LibrA仓库1:XX标准x86服务器4*32CPU:2*10Core,2.8GHz内存:512G硬盘:20*900G SAS网卡:10GE仓库2:华为5885V3*60CPU:4*15Core,2.8GHz内存:1024G硬盘:20*900G SAS网卡:10GE仓库1:30+2+2管理节点ETL服务器计算节点1GE管理网10GE业务网仓库2:60+2+22P2P2P2P4P4P4P4P物理部署架构日志、文本、行为(大数据加工处理)文档索引(信息检索平台)大数据大

17、数据平台区(FusionInsight HD平台)结构化数据EDW历史库(7年)分析挖掘集群(310TB)批量加工集群EDW批量库(7年)EDI(70TB)1EDW数据仓库区(X86+FusionInsight MPP DB平台)个人客户管理客户关系管理法人客户管理境外客户管理全球统计信息系统风险/审计/报送风险权重计量信用风险分析利率管理系统综合报表报表CAP资本报表前台对账类报表MOVA绩效系统绩效DM数据集市区(Oracle平台50+)历史数据查询HDM(280TB)历史数据管理系统ISFC信贷统一查询系统EDI批量加工系统:数据预汇总、整合,向下游数据集市供数数据量:70T, 20 5

18、0+亿级别大表join运算量: 468+批处理任务新型互联网应用客户画像精准营销.批量加工集群2EDW分析挖掘系统:模型数据来自批量加工集群,少量数据预汇总、整合,数据供查询分析、挖掘数据量:300T+运算量: 500+批处理任务,并发查询3SAS分析师平台DASTD数仓卸载 (批量加工)(大额资金流动监控,绩效考核(产品)渠道日志交互控制层主机平台对私存贷款业务对公存贷款业务基金理财信用卡开放平台网上银行信贷台账系统手机/电话银行营销系统保险电商/互联网金融45EDW批量加工系统:数据模型整合,大量汇总运算,支撑向下游数据集市数据量:400T, 20 50+亿级别大表join运算量: 200

19、00批处理任务采用大数据技术优化数仓工行原有数据仓库架构 源 系 统(100+)数据交换平台集成型数据区分析挖掘平台(300TB)汇总区基础数据区集市区批量加工平台(400 TB)ODS分析师展现SAS、DAS数据集市运营管理财务管理风险管理监管报表客户管理绩效考核汇总区基础数据区集市区临时区 集市区作业调度管理TeradataTeradata作业调度管理EDIEDWEDW临时区 下游集市(50+)生产系统数据EDW数据流图MainFrame/开放平台110+源系统UDSGFT交易型数据区渠道日志交互控制层主机平台对私存贷款业务对公存贷款业务基金对公客户信息理财信用卡对公客户信息开放平台网上银

20、行信贷台账系统手机/电话银行营销系统保险金融市场(债券、票据)ETL服务器General File Transfer,点到点文件传输和交换文件大小:100MB GB数据峰值窗口:每天9点前数据增量:800GB/天SAS灵活查询数据挖掘批量加工平台Teradata批量加工平台EDIPDMStage缓存层300GB/天,存7天SUM企业数据集成 50 TB基础数据管理/模型整合4000+张表,142.8 TB数据存放7年汇总层 35.8 TB数据存放13个月Teradata分析挖掘平台SUMStage缓存层300GB/天,存7天PDM汇总层 35TB数据存放13个月基础数据管理/模型整合172 T

21、B,数据存放7年MART同步服务器集市 72TB库内集市区 142.6TBPCRM个人客户管理管理客户关系管理(3)CCRM法人客户管理管理境外客户关系管理GSIS全球统计信息系统风险/审计/报送(40+)RWA风险权重计量CRA信用风险分析ALM利率管理系统PCCM信用评级外部审计CS2002综合报表报表(5+)境外报表CAP资本报表前台对账类报表MOVA绩效系统绩效(1)2套满配Exadata下游数据集市(50+系统,Oracle平台,20TB/个)用户数:500(总行、分行数据分析师)业务特征:灵活查询,直接写SQL,对优化器智能要求极高查询量:每月10万次,高优先级15个,中优先级7个

22、,低优先级5个,需要具备运行时优先级的负载管理资源控制机制,按CPU分配队列资源响应时间:95%的查询在5分钟之内响应,对性能要求高兼容性:要求数据库与SAS系统兼容数据量:400TB+数据表:5000+批处理作业:20000+作业并发:60+业务特征:20+ 50+ 亿级别大表join,10分钟跑完,对优化器、执行器性能要求极高资源控制:高并发并发响应时间:1、EDI时效要求高,在T日6-9点跑完。2、EDW在T日12点T+1,月末要T+2/3。文本接口ETL调度交换United Data Switch, 共享数据交换200+应用系统接入每天50万文件,5TB容量级别,超过7天数据归档文件大

23、小: 80% 10M以下文件;20% 10M以上文件数据峰值窗口:每天9点前ETL工具:自研,集成了TD的TPT,FastloadETL服务器: 4台,外接共享存储DAS灵活查询用户数:2000+(总行、分行IT部门)业务特征:灵活查询,直接写SQL,对优化器智能要求极高并发数:10%响应时间:基于查询数据量大小,秒级、分钟级、小时级都有分析挖掘平台文本接口百MB GBBI工具:Cognos用户数:10000+(业务人员)业务特征:报表查询展示EDIEDWMARTMARTEDW生产系统组网方式58855885588558855885588558855885汇聚交换机(主)管理网络5885588

24、5588558855885588558855885接入交换机(备)汇聚交换机(备)管理网络接入交换机(主)58855885588558855885588558855885管理网络588558855885588558855885ETLETL接入交换机(备)管理网络接入交换机(主)30节点方案组网部署示意图(60节点方案需要增加4台接入交换机,2主2备,接入汇聚交换机)40GE40GE40GE40GE10GE10GE10GE10GE10GE10GE10GE10GEGEGEGE汇聚交换机(主)汇聚交换机(备)汇聚交换机:接入交换机(主)接入交换机(备)接入交换机:40GE接线(业务网) :主备10G

25、E接线(业务网) :主备GE接线(管理网):EDW基础层算法Page 22算法类型算法含义针对源表类型APPENDINSERT明细类F1全删全加参数类F2UPDATE&INSERT明细类F3标准型历史拉链(支持每日增量数据)分户帐以及有需要拉链的表F4经济型历史拉链(支持数据信息为0或”)分户帐以及有需要拉链的表F5全量型历史拉链(支持每日全量数据)分户帐以及有需要拉链的表F6全主键历史拉链分户帐以及有需要拉链的表F7自拉链分户帐以及有需要拉链的表典型历史拉链表算法1、采集当日全量数据到ND(NewDay)表;2、可从历史表中取出昨日全量数据存储到OD(OldDay)表;3、(ND-OD)就是

26、当日新增和变化的数据,也就是当天的增量,用W_I表示;4、(OD-ND)为状态到此结束需要封链的数据,用W_U表示;5、将W_I表的内容全部插入到历史表中,这些是新增记录,start_date为当天,而end_date为max值;6、对历史表进行W_U部份的更新操作,start_date保持不变,而end_date改为当天,也就是关链操作;财务 资产当事人区域地理区域,物理的或电子的地址单个人或一组人事件会导致同客户达成合同的金融或非金融的事件内部组织金融机构或保险公司内部的业务单元协议在客户和金融机构之间达成的关于特定产品的协议产品一种可以在市场上交易的产品或服务,包括条款或条件行销活动为了

27、获取、挽留客户或提高用户的使用率而采取的战略、计划或促销活动渠道客户和金融机构或保险公司进行接触的途径企业内部的会计系统当事人所有的具有价值且能够获得受益的事物模型按第三范式进行设计,按主体模型组织,先划分10个主题:协议、渠道、地域、机构、客户、产品、营销活动、事件、财务、客户资产保存周期:按照巴塞尔协议的要求,结合工行数据实际情况,制定的数据保留周期最长为7年EDW基础层模型 - 区域主题模型EDW汇总/集市层作业范例汇总计算作业(汇总层):CST_CUST_STRU_A作业步骤:-插入逾期客户全部扣款情况的记录-插入逾期客户联动部分扣收的记录-插入逾期客户未成功扣收的记录-插入逾期客户还款失败的记录-插入逾期客户还款账户为空的记录-插入借记卡-借记卡介质表-网点-逸贷目标客户-逸贷额度使用率单独对逸贷总额度-星级客户主要目标:逸贷客户结构情况统计指标计算作业(集市层):M01_CRDT_CUST_CAP_TRAN_LOAN_A作业步骤:-取当月放款贷款信息-取当月放款账

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论