




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商业银行常见的数据架构体系商业银行常见的数据架构体系原则参考原则参考正文目录TOC商业银行常见的数据架构体系 31、数据采集层 42、存储计算层 4(1)主数据区: 4(2)指标汇总区: 5(3)集市区(仓内): 6(4)批量接口区: 6(5)非构造化数据存储计算区: 6(6)历史数据区: 6(7)实时数据区: 6(8)在线访问区: 63、仓外集市数据区 74、报表区 75、数据探索区 8商业银行常见的数据架构体系我国商业银行通过20数年的信息化建设,形成了比较完善的IT体系架构,但是随着银行业务和信息技术的快速发展,却产生越来越多的不同种类的业务数据,它们分散在不同的系统中且无法作为一种整体被运用,给银行的数据管理和运用带来了巨大挑战;同时,竞争越来越激烈的商业银行意识到了通过分析运用数据来挖掘本身潜力和提高业绩,巩固其市场竞争力。数据仓库通过集成、统一数据,使数据得到有效运用,为商业银行提高管理和服务水平提供了有效的手段。狭义的数据仓库数据架构用来特指数据分布,广义的数据仓库数据架构还涉及数据模型、数据原则和数据治理。即包含相对静态部分如元数据、业务对象数据模型、主数据、共享数据,也包含相对动态部分如数据流转、ETL、整合、访问应用和数据全生命周期管控治理。数据架构层面通过数据分类、分层布署等手段,从非功效性视角将数据合理布局。通过整体架构管控和设计,支持业务操作类和管理分析类应用(系统),满足业务发展及IT转型对数据的需求,架构的扩展性和适应性能够提高数据分析应用的及时性、灵活性和精确性。那实际状况下各个银行的数据架构体系会有所不同,根据各行的业务发展、客户数据量、交易数据量、功效需求等会有不同的演变途径以及发展方向。银行业务较复杂,数据量也较多,数据架构也因此进化较快。常见的数据架构分区以下图所示:1、数据采集层数据缓冲区的数据重要是将数据从源系统加载到数据仓库中,作为数据在数据仓库的起点,数据缓存区数据只保存7-10天,以备数据问题解决,数据缓冲区的数据除了原则化的解决,最佳直接获取源系统未经加工的数据,方便一次抽取,多次使用。原则化解决重要有编码统一转化、异常字符清理等,方便后续解决。数据采集层不仅仅只应用于数据仓库有关,也能够合用于各交易系统的批量数据或文献传输和交换,因此在全行系统层面制订规范。2、存储计算层(1)主数据区:指构造化数据的主数据区,这部分数据涉及了全部的基础明细数据以及历史数据,其它区域的构造化数据都是由主数据区数据加工而来。那主数据区重要有两种模型:近源模型层和整合模型层。普通在实践过程中能够两个区域都有,也能够只有任意一种区域。这两个区的数据都通过历史拉链或历史流水的方式保存历史数据,如果有数据原则,这两个区的数据按数据原则进行字段属性如代码值、长度、精度的原则化,那这两个区的数据重要在模型设计方面有所不同:①近源模型区:表构造设计和源系统类似,在源系统表基础上增加原则化字段以及历史数据保存算法的数据日期字段,近源模型层的特点是保存源系统表全部信息,在建模和运行效率上比较高,但数据整合性不高,某些交易系统设计的表构造并不直接合用数据分析和加工。②整合模型区:整合模型区按主题进行数据整合、表设计以三范式为主,模型稳定,数据冗余少,那这里模型稳定是指即使源系统表构造如何变化,只要实体之间关系和属性不变,那整合模型也能够保持基本不变。模型稳定的一种好处就是能够屏蔽源系统变化,避免下游应用系统重复改造。举个例子:个人信贷系统升级,将使用新的系统,那全部表构造都会发生变化,如果直接使用近源模型区数据,那对于后续加工变化很大,同时时间跨度较大的分析(如年报)需要分别考虑新旧个人信贷系统的数据加工规则,如果使用整合模型,那整合模型变动不会太大,对于历史数据也能同时存在于一种模型(一套表)中,对于后续应用加工影响较小。同时整合模型会在客户、账户、签约等各重要维度进行分析梳理,形成整体视图,有助于从全行视角分析。例如客户整合能够分辨客户唯一性,获得客户视图;产品和签约的整合能够清晰看到客户在行内的购置的全部产品和签约。方便后续客户分析。(2)指标汇总区:由于主数据区的数据并不适宜直接提供应数据系统分析使用,因此指标汇总区是整合各数据应用的加工需求,按事实表(宽表)和维度表进行模型设计,对主数据区数据进行关联、公共指标加工,提供应多个数据应用使用,那指标汇总区可按合同(账户)、产品、客户、科目、机构等逐级汇总,指标汇总区能够消除各系统对于同一种指标分别加工造成的口径差别。(3)集市区(仓内):仓内集市重要指和数据仓库在同一种物理平台中的集市,能够直接访问主数据区,指标汇总区数据、减少数据批量转移的成本,运用数据仓库平台分析性能快速进行数据加工,那数据集市的划分可按业务部门或下游系统关联度进行集市划分,如财务集市面对管理睬计等财务分析应用进行专门的数据加工、使用者重要为计划财务部。监管集市重要面对给人行、银监进行监管报送报表的加工,涉及多个业务管理部门。(4)批量接口区:数据仓库给各下游数据应用系统、仓外集市的数据接口加工区,按双方商定的数据格式提供应数据应用系统,批量接口区按接口合同做简朴关联,不做复杂加工,如果平台支持视图,接口区能够只有视图提供应下游接口,减少数据冗余。(5)非构造化数据存储计算区:重要对非构造化数据进行存储计算,按一定的数据类型、来源、用途进行区域划分,方便实时查看和分析;(6)历史数据区:面对主数据区和非构造化数据区的历史数据归档和查询。主数据区和非构造化数据区普通只保存1-3年的数据,之前的数据使用率低,可专门归档到历史数据区,提高主数据区的性能;同时历史数据区能够采用成本较低的设备,减少成本。(7)实时数据区:实时数据区重要面对流式数据的加工和解决,同时对于流解决所需的主数据区数据能够直接访问也能够存储一份在实时数据区。(8)在线访问区:在线访问区数据是数据加工成果数据,以实时数据接口方式提供应外部使用。改部分数据能够采用HBASE提供在线查询服务。3、仓外集市数据区仓外数据集市和仓内数据集市区别只是和数据仓库不在同一物理平台,但同样面对特定的数据应用进行加工分析,普通随着数据量的增加,数据仓库的平台负荷过大往往会将集市从仓内移到仓外,或者对于需24小时随时提供数据解决的数据集市,为了不与数据仓库平台竞争资源,也普通选择在仓外建设数据集市。4、报表区报表区数据是加工后的报表成果数据,为报表平台提供展示数据,由于报表系统往往是7*24小时提供服务,因此在数据平台外单独建立报表平台,减少耦合性,在行内能够建设统一的报表平台,对报表的开发、整合、维护、下线进行统一管理,减少重复报表开发。5、数据探索区数据探索区是提供应各业务部门进行数据探索的区域,该区域的数据根据业务分析需求从数据仓库进行加载,并T+1进行更新,由业务同事对数据进行自由分析和挖掘。该平台普通性能规定也比较高,能够使用MPP数据库或HADOOP平台进行技术实现。由于业务人员使用比较随意,该区域需要注意历史数据的清理,避免过多冗余无用的数据占用大量空间。从数据分层来看,存储计算区是最为核心的部分,存储计算区大部分银行是由MPP数据库和HADOOP平台共同来实现,部分互联网银行单独使用HADOOP平台来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 箱包行业法律法规更新与解读考核试卷
- 清扫工具制造业的产业发展趋势与市场策略分析研究考核试卷
- 期货市场数据挖掘技巧考核试卷
- 电气设备电力电子器件与应用考核试卷
- 畜牧产品质量检测仪器考核试卷
- 牧场人力资源管理与发展战略考核试卷
- 畜牧养殖场环境治理与保护技术的研发与推广考核试卷
- 私募智能穿戴设备考核试卷
- 礼仪用品企业法律风险防范考核试卷
- 碳中性设计策略考核试卷
- 河南省洛阳市强基联盟2024-2025学年高二下学期3月月考历史试题(原卷版+解析版)
- 2025届上海市奉贤区高三语文二模试卷作文题目解析及范文:达克效应
- 2024年新瓦斯检查工国家考试题库
- 河南省普通高中2024-2025学年高三下学期学业水平选择性模拟考试(四)历史试题(原卷版+解析版)
- (一模)桂林市、来宾市2025届高考第一次跨市联合模拟考试地理试卷(含答案详解)
- 饰品干货知识培训课件
- 2024-2030年中国高纯铜行业发展监测及发展趋势预测报告
- 快手账号转让合同范例
- GB 15578-2008电阻焊机的安全要求
- 宋词三百守-《宋词三百首》txt全集下载
- 超智房屋面积计算之星2[1].0操作手册
评论
0/150
提交评论