银行大数据应用场景设计_第1页
银行大数据应用场景设计_第2页
银行大数据应用场景设计_第3页
银行大数据应用场景设计_第4页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Ingenuine Presentation银行大数据应用场景设计Hadoop World 2016 /GTC 2016 分享大数据10年零售银行:1000倍数据库提速的故事介绍我们的工作我们所理解智能服务机器人汇报我们的想法内容提要Hadoop World 2016+GTC 2016 所见 所闻 所遇 所惑 所思 所期望圣何塞拾零我们在哪里?硅谷中央城市:圣何塞Strat Hadoop 2016: Hadoop World所见所闻所思所望Hadoop world 所见之一每天200多场各种报告 丰富多彩展览会更趋娱乐 多种多样数据库领袖企业黯然谢幕互联网大佬企业悉数缺席灌木生态逐渐形成Had

2、oop world 所思之二大数据的基本技术体系已经建立,应用时代到来革命已经阶段完成打垮了一个旧时代建立了新的数据文化:开源、廉价、去中心、分享Hadoop world 所闻:几个报告三菱银行; 用Hadoop重建数据仓库英国电信: 用Hadoop进行数据集成通用电气:建立以大数据的企业文化Linkined:倾听每个用户的心声Hadoop world 所思之三解决应用问题是这个阶段的主要使命技术等待另外一场革命:HPC应用期待着另外一场革命:AIHadoop world 所思之四不会在新老体系之间再缠绵忧郁不要再在架构上描写图画不要再工具平台之间在纠缠提高应用水平是很多企业的核心任务Hado

3、op World 2016 /GTC 2016 分享大数据10年零售银行:1000倍数据库提速的故事介绍我们的工作我们所理解智能服务机器人汇报我们的想法内容提要零售银行的故事GPU加速数据查询:1000倍提速银行拥有大数据,而且很大数据大了 头也大银行数据有多大典型的中国省级银行,中国最少有300个5千万客户,9千万客户10亿次交易 (不包括上网日志记录)继续102030405060708090100102030405060708090100账户统计指标产品和账户客户资料渠道和交易客户交往记录others每个客户经理的业绩指标营销团队业绩指标市场信息竞争记录销售机会和线索风险管理其他ABCDE

4、FG银行业务运营的数据衍生指标 乘法典型统一客户视图规模5千万行 乘以 5000 列财务和风险指标网络数据查询太慢了 即使购买RS6000 高端机器,获得客户统一视图也需要10分钟,但是一个银行的客户经理有2万个,更不要说更复杂的分析了。传统IT架构支撑应付报表,在大数据环境下无法应对实时随机查询,更不要说实时客户行为分析了。等等案例,苦恼不已成本太高了主机厂商和存储厂商高兴坏了,客户不高兴04The Products数据仓库过去20年 IBM, Oracle and Teradata 一致教育客户构建数据仓库,但是怎么样呢?数据仓库有了,数据多了,应用还是报表到报表报表只能提供宏观状态,无法

5、指导客户经理营销和完成任务20小时20小时10分钟Extract ,transform and Load into data warehouse5 RS/ 6000 7 seriesFor every customerEvery customers managerEvery teamsEvery product lineJoin all the data from every Account historyEvery channelsEvery pre-calculated Dimentional statistics All channel contact and relationship

6、recordETL基本统计数据在线服务:典型需求客户统一视图和客户筛选事实: 所有的动作都慢即使购买昂贵的IBM/EMC设备,升级DB2/Oracle 采集系统框架映射定义计划调度采集执行错误控制业务系统ODS数据其他数据CRM数据系统ECIF基本信息管理客户信息组织机构管理信息息相互关系嘻嘻你产品销售记录管理服务关联关联关联流水明细账户历史变动客户关系记录数据模型: 10个领域基本信息基本指标衍生指标流水明细账户客户客户群客户统一视图客户识别R 应用开发建设内容数据采集、存储、加工和管理平台ECIF 是二期建设内容是一期为主 二期补充的内容未标注部分为一期内容存储和加工机制:Hadoop集群

7、 和 加工群数据目录接口和服务JNDI 架构的RMI接口服务 包括 优选规则服务 安全服务 数据视图服务 客户定位服务 查询服务 信息维护服务 等加工系统框架加工脚本调度执行错误控制账户加工客户加工客户群加工客户经理维护DB2RS/6000+辅助查询服务器集群系统架构蓝图 102 某银行大数据应用架构流程引擎数据引擎 消息总线ESB消息总线ECIF是整合各个业务系统数据并由客户经理维护的客户信息系统企业客户关系记录的入口R1R2/3/11R5,6RHadoopR9,10R4R12R9,10R7Impala集群+GPU集群+R计算集群We empower elephants21/32GPU:为什

8、么这么快?三级并行机器间机器内部的GPU之间GPU内部的计算单元之间的并行GPU内部众多的计算单元快速的线程切换非常快速的本地内存访问无人驾驶汽车两块K80 每秒检测100个点Princple of the new query enginedirects and executes query statements in GPUs24/32标准SQL,开发简单大规模并行技术重构数据库引擎2数据库缓存缓冲结构优化1GPU集群管理和调度并扩展到Hadoop集群,关系数据库集群和R集群3 对用户仅仅是标准SQL界面4联社数:86个机构数:2700个客户经理数:20000人客户数:5700万账户数:1.

9、3亿日交易流水:850万条指标个数:1500个增量文件大小:50GB1天存量数据文件大小:350GB所有存量数据:60TBImpala 集群 44+2节点步骤执行时间开始时间结束时间备注30分钟23:0023:3020分钟23:3023:5055小时23:505:2040分钟5:206:001分钟6:006:01通过FTP服务器获取外围系统增量数据,将数据装在到Hadoop集群中根据增量数据生成全量数据根据业务逻辑加工1500个指标数据值将指标结果数据装载到GPU服务器和RDB服务器切换CRM前端查询数据日期加工内容数据规模构造客户统一信息视图并为86个法人机构 2700个网点 2万客户经理

10、60000万客户 加工1500个指标这在以前根本不可能完成,即使你购买了n贵的机器。其业务达成是数据驱动每一天的工作大数据:如何助力业务步骤执行时间开始时间结束时间备注230分钟23:0023:30320分钟23:3023:50455小时23:505:20540分钟5:206:0061分钟6:006:01可是以前做不到构造客户统一信息视图并为86个法人机构 2700个网点 2万客户经理 60000万客户 加工1500个指标客户360视图 1000个指标全行存款类指标(余额、月日均、季度日均、年日均、日均比同期、日均比年初)(指标数:700个)全行贷款类指标(余额、月日均、季度日均、年日均、日均

11、比同期、日均比年初)(指标数:400个)全行理财类指标(余额、月日均、季度日均、年日均、日均比同期、日均比年初)(指标数:200个)全行中间业务类指标(余额、月日均、季度日均、年日均、日均比同期、日均比年初)(指标数:100个)全行存款、贷款、理财类、中间业务类指标分组排序(指标数:100个)加工内容:你的客户经理各级老大天天需要的 再举例:某银行贷款数据在各平台FTP计算效率对比数据量:1.8亿条贷款记录计算逻辑:将未到期的贷款记录按银行产品和日期逐条匹配FTP利率并计算FTP日成本及月累计成本FTP日成本=当月本日累计成本-当月上日累计成本=贷款本金余额*FTP利率/360*当月当日累计天

12、数-当月上日累计成本,其中当月上市累计成本从上一天的计算结果表中查询SAP HANANETEZZAIMPALADB2Data Turbines集群数114413CPU4C/8核/共32核2C/8核/共16核2C/10核/共20核4C/4核/共16核2C/10核/共20核内存2T24G25616G24硬盘SSD:750G+SAS:2T300G3T2T1T成本(RMB:万元)80303604020用时(秒)43996277152574572.5200各平台硬件配置及成本预估男子100米决赛长表 三亿条记录 8列DB2提速400倍K40宽表 : 80万行 1076列DB2提速 1000倍K40140

13、0倍提速典型案例1 长表银行客户产品使用行为表 3亿行 8 列 案例 找到晚上在市中心商场月消费2000元以上的年轻女性客户,在RS6000 590 /DB2 上需要50-60 秒 在GPU上 仅需要0.1-0.2秒11000倍提速典型应用2 宽表信贷管理案例 840,000 行,1075 列,浮点和字符串混合类型 1. Locate a customerselect custno,jbxx101,BRTCOD from C_MEASURE_ALL where custno = 0000000789 2. Find all customers of education level above

14、undergraduatedselect custno,jbxx101,BRTCOD,jbxx128_name from C_MEASURE_ALL where jbxx128_name like “%graduated% 3. Find all customer with income rangeselect custno,jbxx101,BRTCOD,khckye441 from C_MEASURE_ALL where khckye441 1000 and khckye441 小雅问:您要在哪里办业务呢?客户回答:某某楼盘附近的地址。小雅理解: 这是我们的一个网点。小雅告诉她: 这个网点营

15、业时间是早9点到晚5点,周末下午4点下班。所以您明天早点来,因为还要排队,周末人挺多的因为小雅知道了问题的以上5个方面,所以小雅又问:您要办什么业务?客户回答:我要存款10万元现金。小雅的知识库马上告诉她:1.存款是很多产品的功能。2.可以是储蓄,也可以是理财,于是小雅说: 我们有20多种产品可以用,您有开户吗?客户如果说:没有,小雅告诉客户,存款产品先要开户,开户必须本人携带好身份证;如果客户说:有,小雅告诉他您按时去那个网点就可以了;同时小雅建议客户:您的金额比较大,可以根据轻重缓急,存成不同期限或通知存款。客户问:什么是通知存款?小雅:XXXX介绍了一番通知存款的东西。小雅说:很多客户会把资产分成活期、定期和理财的组合,例如你的10万元如果存活期,你能一个月获取200元的利息,但是存成定期或有400 元。 客户说:定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论