金融大数据平台演进方案_第1页
金融大数据平台演进方案_第2页
金融大数据平台演进方案_第3页
金融大数据平台演进方案_第4页
金融大数据平台演进方案_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、金融大数据平台演进方案技术创新,变革未来大数据分析平台演进路线以基础平台搭建为主,配合金融集团初期业务开展,应用建设从客户信息管理、风险管理和运营管理三方面开展搭建大数据处理平台和实时分析平台,应用方面开展实时分析和数据产品封装开展客户信息管理、信用风险评级和业务统计分析三类应用建设开展贴源数据整合,初步建立企业级数据视图,实现对管理分析类应用和实时分析类应用的支撑规划数据管控蓝图,初步实施数据质量和技术元数据管理2013年2014年2015年2015年以后对企业价值的创造应管技业务分析框架基础数据平台数据管控体系应技管全面开展内部管理分析、实时分析和沙盘演练应用建设,初步展开增值数据产品开发

2、工作全面开展大数据分析平台建设,引入更多数据源,丰富并完善平台数据区建设随着应用体系的搭建,完善数据质量和元数据建设,开展数据标准化工作应技管深化分析体系,形成深度智能化业务分析性能持续优化、数据平台持续完善、持续深化数据管控体系,形成金融集团企业级的数据管控体系应技管一期2013.10当前位置未来持续优化提升阶段第一阶段第二阶段第三阶段大数据分析平台演进说明基础数据平台阶段划分建设内容预期效果第一阶段搭建数据交换平台,部署NAS存储集群,设计并实施数据库交换组件和数据区交换组件搭建基础计算平台,设计并实施贴源数据区,以T+1频率整合商城和金融业务数据搭建历史归档查询平台,归档商城和金融业务数

3、据文件搭建内部管理分析应用平台,部署MPP集群和BI分析应用环境搭建实时分析平台,部署内存数据库和实时BI分析环境实现了数据平台内部个数据区之间、数据平台与外部系统间的双向数据传输实现了业务数据按照贴源数据模整合实现了数据按照生命周期的归档管理实现了内部管理分析环境搭建实现实时分析环境搭建第二阶段数据交换平台增强和优化,包括:大数据交换组件设计实施基础计算平台增强,包括:引入更多的数据源,增强贴源数据区;设计并实施主题数据区,打破业务条线整合数据;设计并实施大数据区,实现企业内外部非结构化、半结构化数据加工、处理搭建沙盘演练平台实时分析平台增强和优化,包括:引入更多应用及相关数据源实现了基础数

4、据一次存储、一次计算、多次使用建立了数据分析人员的实验环境,实现了用户自主用数为实时、准实时类分析用提供平台为封装、销售数据类产品提供了平台第三阶段基础计算平台持续增强和优化,引入更多的数据源、优化模型和ETL处理搭建增值产品平台,设计并实施增值产品数据区数据交换平台、沙盘演练平台、实时分析平台进一步增强和优化数据平台纳入尽可能多的企业内外部数据数据平台以最优的性能支持各类数据应用大数据分析平台演进说明数据管控阶段划分建设内容预期效果第一阶段分析和梳理当前数据管理方面的成果和现状,数据管控蓝图和路线图设计,数据管控工作的组织、技术和流程高阶设计梳理金融集团大数据平台ETL流程各环节的数据质量要

5、求,指定数据质量检查规则、评价指标、管控流程,并落地实施数据质量管理系统梳理金融集团大数据平台包含的技术元数据,如:数据字典、ETL任务、ETL流程、BI语义层等,制定相应的管控流程并落地实施元数据管理系统同步大数据分析平台ETL建设,实现了数据质量管理系统收集并整合了金融集团所有技术元数据,实现了数据生命周管理、血缘分析和影响分析等功能第二阶段随着更多数据源的引入,进一步增强数据质量管理系统随着更多数据源的引入、更多平台的建立,梳理并整合更多技术元数据梳理金融集团大数据平台包含的业务和管理类元数据,如业务术语、业务指标、业务定义等,制定相应的管控流程并落地实施元数据管理系统开展基础类数据标准

6、建设,基础数据标准、管控流程、评价指标、落地策略完善了数据质量管理体系,实现了问题及时发现、及时解决实现了金融集团全方位的元数据管理,打通了业务和技术元数据关联关系为金融集团数据平台建设提供了基础类数据标准第三阶段数据质量管理持续优化并增强元数据管理持续优化并增强基础类数据标准逐步落地实施开展指标类数据标准建设基础数据标准、管控流程、评价指标、落地策略通过完善的数据管控体系,提升数据质量、避免数据二义性、建立数据间的血缘关系,使得业务人员可以方便、有效的使用数据,提高数据实用性大数据分析平台演进说明应用体系阶段划分建设内容预期效果第一阶段开展客户信息管理建设,设计并实施个人客户和供应商360视

7、图、客户目标搜索、客户细分等功能开展风险管理建设,设计并实施供应商和个人客户风险评级模型开展运营管理建设,设计并实施供应链金融、人人贷等业务条线业务量统计分析初步梳理实时、准实时分析需求,进行高时效分析应用试点可以方便的对个人客户和供应商进行分群,以及全方位信息查询和展示供应商和个人客户风险等级评定针对目前开展的业务进行经营情况统计分析搭建并验证高时效应用体系第二阶段随着金融集团业务的展开,逐步开展内部管理分析体系的建设,本阶段重点为客户关系管理、运营管理等高级业务人员利用沙盘演练平台进行数据挖掘、预测和科学试验进一步树立实时、准实时分析需求,深化开展高时效分析应用开始梳理市场上的数据应用需求

8、,尝试封装增值数据产品通过内部管理分析体系的建设、满足了金融集团日常经营管理、决策分析和进一步提高价值创造力的需要实现了业务人员自主用数实现了高时效分析,与业务流程的整合实现了数据产品的封装,提升了数据价值第三阶段随着金融集团业务的展开,进一步完善内部管理分析体系的建设,包括:市场风险管理、操作风险管理、财务管理等收集实时分析需求,进一步增强并优化实时分析应用体系增值数据产品设计逐渐成为重点,数据分析师收集企业内外部数据需求,设计更完善的增值数据产品通过内部管理分析应用体系建设进一步实现数据共享、业务协作与创新通过实时分析应用体系建设,实现大数据平台业务系统的交互,与业务流程的融合增值数据产品

9、的开发进一步发挥的数据平台的数据价值金融大数据分析平台一期架构基础计算平台:基于Hadoop集群构建,按照业务条线、以贴源数据模型存储了业务系统明细数据数据交换平台:NAS集群实现了进出数据平台数据的暂存,业务数据交换组件实现了业务系统每日增量数据加载,数据区数据交换组件实现了基础计算平台与管理分析平台间的数据交换流程调度平台:自主开发的流程调度引擎实现整个数据平台的数据处理任务调度和运行管理分析平台:由X86 分析型数据库集群、BI软件1J2EE应用构成,实现了面向应用的数据加工、管理、分析服务实时分析平台:由高档X86服务器组成的集群,实现高时效、高并发的实时、准实时类管理分析需求数据交换

10、平台 平台逻辑架构POP金融大数据分析平台NAS 集群物流财务供应链人人贷云数据推送平台云数据推送平台实现源系统数据一次获取获、按需分发。平台采用GoldenGate、JBUS、Flume等技术获取增量数据,存储在MySQL集群平台按照接口规范生成文件,LZO压缩后,通过FTP传输到NAS指定目录数据交换平台由FTP服务器、加载服务器和NAS存储组成,完成业务系统数据的获取、加载和归档FTP服务器:利用LVS构成的FTP集群,接收云数据推送平台处理后的数据,存储在NAS集群的指定目录加载服务器:部署ETL任务,实现指定目录的文件到达监控、文件级检核、数据加载(Hive Load)到临时数据区,

11、同时归档(copyfromlocal)历史数据区NAS集群:按照日期和源系统划分目录,缓存数据,支持日常数据交换和ETLLVS 集群: FTP 服务器#3加载服务器 #1文件加载文件归档文件到达事件监控文件级检核加载服务器 #4文件加载文件归档文件到达事件监控文件级检核LVS 集群: FTP 服务器#1LVS 集群:负载均衡服务器数据交换平台 参与方责任划分设计并实施云数据推送平台;按照金融集团接口定义,抽取业务系统数据;按照金融集团接口规范要求,按时生成数据文件、控制文件和DDL文件,并通过FTP传输到NAS指定目录;若源系统有变更,则要求在变更前提供变更内容说明,升级平台版本,根据金融集团

12、更新接口规范提供数据;应及时解决接口数据提供过程中出现的问题;对于未尽事宜,应同金融集团协商解决。云计算安装部署金融集团大数据分析平台物理环境、应用软件,并进行基础设施运维;在业务系统数据库服务器安装并部署云数据推送平台客户端,并提供数据库访问。运维部门制定接口规范,并提交给云数据推送项目组;梳理业务系统数据字典,制定接口定义,并提交给云数据推送项目组;开发数据交换组件,从NAS获取数据并处理;对接收的数据提供验证功能,并返回验证结果到云数据推送平台;根据云数据推送平台提交的变更通知修改接口定义和数据交换组件;对于未尽事宜,应同云计算方协商解决。金融集团针对金融集团需求,指定接口人、提供文档;

13、业务系统因版本升级等原因导致数据模型发生变化,及时通知云数据推送平台接口责任人。研发部门数据交换平台 业务系统数据抽取实现方式每张源系统表都对应一个独立的数据接口数据接口由数据文件和控制文件构成(文件命名和具体内容参见接口规范)文件统一采用UTF-8编码,统一存在在JSS指定目录(参见接口规范)如果在抽取周期内没有数据变更,云数据推送平台应该生成空的数据接口传输方式FTP传输,利用LVS技术构建FTP集群,接收数据传输频率云数据推送平台通常按照T+1频率为金融集团提供数据,具体频率要求参见接口定义接口处理模式云数据推送平台根据不同接口单元定义,准备数据、生成接口数据文件;云数据推送平台根据接口

14、规范生成相应的接口控制文件;云数据推送平台压缩数据(LZO),并通过FTP将数据接口存入NAS指定目录;金融大数据分析平台部署在不同加载服务器上的数据交换组件完成:定时轮询NAS指定目录,获取接口(包括数据文件、控制文件和DDL文件);执行文件级检核;通过检核后, 将数据文件和控制文件移动到NAS集群指定目录,触发后续ETL处理;在Task Automation调度下执行数据加载和数据归档任务。数据交换平台 平台部署架构数据交换平台由8台X86服务器和一个NAS集群构成X86 服务器按照功能分为2组,一组实现数据获取,一组实现数据加载和归档NAS集群作为公共数据区,由8台服务器共享访问(读写)

15、Python runtimePython JSS ModuleFTPRedhat LinuxLVS服务器4HDFS ClientHive加载任务归档任务Redhat Linux加载服务器1HDFS ClientHive加载任务归档任务Redhat Linux加载服务器4LANPython runtimePython JSS ModuleLVSRedhat LinuxLVS服务器1NAS 集群负责源系统数据文件加载和归档每台服务器负责多个源系统支持按需扩展/减少服务器LVS1负载均衡其它LVS服务器负责接收接口文件,写入NAS集群目录支持按需扩展/减少服务器部署数据交换平台和流程调度平台程序,各

16、服务器通过文件链接使用按日期和源系统建立数据目录,缓存每日接口文件,供交换平台访问流程调度平台 平台逻辑架构Task Automation驱动各个平台、实现从数据存入NAS平台到数据集市生成整个处理过程的工作流管理数据交换平台负责数据抽取、文件级质量检核、调用Hive Load加载数据基础计算平台使用Hive SQL实现贴源数据整合、公共汇总数据处理管理分析平台使用关系型数据库的SQL实现集市数据的处理历史归档查询平台负责数据文件和Hadoop集群数据归档流程调度平台 流程调度元数据Task Automation的元数据统一存储在MySQL数据库中任务定义,包括任务名称、描述、运行服务器、运行

17、状态、运行时间、相关数据源等属性任务依赖,任务的执行依赖与其他上游任务任务触发,任务成功执行后触发的下游任务任务组,一组有相互关系的任务,全部完成后会触发头任务运行元数据由所有流程调度服务器共享流程调度平台 任务调度引擎通过侦测器侦测事件,按照任务定义和任务依赖关系触发任务运行,触发方式把主要包括自动触发定时触发,按照预先定义的时间周期,如每日、每周、每月,或任何有规律的时间间隔执行任务。目前可明确的任务主要是每月执行的基础计算平台、管理分析平台数据归档。事件触发,按照特定的事件触发、执行任务。如:数据文件到达指定目录,会触发数据加载任务。同样,流程失败也会触发新的job,如错误处理、例外处理

18、等。手动触发系统管理员可以使用Task Automation提供的界面或命令接口执行一些job。这些job的功能通常包括对特定范围的数据进行审计与验证、对特定范围的数据进行针对性很强的数据清洗、或者是对某流程失败后的修复。每个要执行的任务均由任务执行代理启动运行流程调度平台 集群可靠性和可扩展性高可用性 流程调度所需的元数据信息统一保存在MySQL数据库中,集群中任何服务器发生故障不会破坏元数据完整性。服务器故障时,只需要修改ETL任务属性,指定其他服务器执行任务即可,故障不会影响任务依赖关系、任务组关系。扩展能力流程调度集群由多台服务器构成,按工作负载划分不同角色,分别实现ETL处理过程中不

19、同类型任务的调度。当某类调度工作负载较大时,可通过增加服务器的方式,实现集群的横向扩展流程调度平台 平台部署架构流程调度平台由八台X86 服务器构成,服务器按照功能分为两类两台X86 服务器部署MySQL数据库集群,存储流程调度元数据六台X86 服务器部署流程调度引擎,负责各数据区数据处理流程调度与运行Task AutomationPerl RuntimeHadoop HiveRedhat LinuxMySQL Client临时/归档区调度服务器1Task AutomationPerl RuntimeHadoop HiveRedhat LinuxMySQL Client贴源区调度服务器Task

20、 AutomationPerl RuntimeHadoop HiveRedhat LinuxMySQL Client汇总区调度服务器Task AutomationPerl RuntimeHadoop HiveRedhat LinuxMySQL Client临时/归档区调度服务器4Master NodeMySQL 主服务器Master NodeMySQL 从服务器LANMySQL主-从集群,存储临时区、归档区、贴源区和汇总区数据处理任务定义,任务依赖关系按数据区划分工作流,工作流不跨数据区临时区数据处理的工作流部署在数据交换换平台的加载服务器贴园区和汇总区工作流分别部署独立的服务器基础计算平台

21、平台逻辑架构VMVMVMVMVMVMVMVMVMVMVMVMVMVMVM节点VMVMVMVMVM节点VMVMVMVMVM节点节点节点节点节点节点Hadoop临时数据区贴源数据区汇总数据区基础计算平台基于Hadoop 集群搭建集群采用标准的X86 服务器集群弹性架构,按需分配计算资源,支持添加X86服务器的方式实现横向扩展集群中的数据保留三份,保证任何节点故障,不影响集群对外提供服务基础计算平台有三个数据区构成临时数据区,缓存当日源系统变化(新增、修改、删除)数据,支持后续ELT数据处理贴源数据区,按照源系统数据模型整合的明细历史数据,作为基础数据层实现数据一次整合、多次使用汇总数据区,根据应用

22、需求,对贴源数据区明细数据进行预连接、预聚合、预汇总处理的数据,实现了数据的一次计算、多次使用基础计算平台 临时数据区包含内容主要用途大数据分析平台要整合的源系统,包括:POP、财务审计、财务研发、大物流、供应链、金融、网站交易、数据部和移动客户端等研发体系的各业务系统。建立数据缓冲区,临时存放从源系统抽取过来的增量/全量数据,支撑后续ELT处理。设计原则数据库设计原则临时数据区对应独立的Hive数据库不对外提供访问,ETL用户对数据库有增、删、查、改权限模型设计原则逻辑模型参考源系统和接口规范定义,为每个接口单元设计实体、属性物理模型与逻辑模型保持一致,每个实体对应一张Hive表,表采用LZ

23、O压缩存储物理模型设计不建议考虑索引、物化视图等技术特性以天为单位,按业务日期建立分区历史保留原则缓存当日业务数据、为数据重跑方便可保留7天历史过期数据直接删除对应分区,不需要归档基础计算平台 贴源数据区包含内容主要用途与缓冲层相对应,贴源整合层主要包括:POP、财务审计、财务研发、大物流、供应链、金融、网站交易、数据部和移动客户端等研发体系的各业务系统,所有数据保留历史。作为整个数据平台的基础数据层,累计历史,为主题层、集市层等数据区提供数据支撑。设计原则数据库设计原则贴源数据区对应独立的Hive数据库不对外提供访问,ETL用户对数据库有增、删、查、改权限模型设计原则针对不需要记录变化的实体

24、,其逻辑模型参考缓冲层,按照贴源设计针对需要记录变化的数据,需要增加时间字段,设计拉链数据模型,记录历史物理模型考虑分区,流水表按业务日期建立分区,拉链表按终止日期建立分区历史保留原则拉链表数据保留最近37个月的历史快照表数据永久保留交易流水表数据保留最近25个月的历史过期数据归档到历史归档区,需要时回迁基础计算平台 汇总数据区包含内容主要用途针对客户管理、风险评级和业务量统计设计明细数据进行预汇总、预连接和预加工后的结果数据。对明细数据进行预汇总、预连接和预加工,为应用数据集市准备数据。设计原则数据库设计原则汇总数据区对应独立的Hive数据库不对外提供访问,ETL用户对数据库有增、删、查、改

25、权限模型设计原则汇总层采用了逆范式宽表设计,某种程度上采用维度建模的方法模型设计首先需要根据业务和应用的需要尽量包含更多的属性和指标,同时兼顾空间汇总层需要针对维度数据执行标准化处理汇总层模型增加数据日期记录历史,建议根据数据日期建立分区历史保留原则不同实体采取不同的历史保留策略建议以支持应用为输入,避免永久保留过期数据归档到历史归档区,需要时回迁基础计算平台 平台部署架构基础计算平台由73台X86服务器构成,3台服务器作为Name Node和JobTracker Node,70台服务器作为Data Node和TaskTracker NodeData NodeTaskTracker Node服

26、务器1Data NodeTaskTracker Node服务器70Name & JobTracker Node (Secondary )Name NodeJobTracker Node内部互联70台服务器是HDFS数据节点,临时数据区和贴源整合区作为独立的数据库部署在此服务器上,并按照3份冗余存储NN负责HDFS元数据管理,元数据信息存储在NAS集群指定目录通过硬件冗余、RAID0+1、Slave NN等技术实现高可用性70台服务器是MR计算节点,Hive提交的SQL语句,转化成MR任务,由JobTracker分配到每台服务器上执行Secondary NN负责HDFS元数据备份管理,Secon

27、dary JobTracker 负责MR计算集群JobTracker高可用性JobTracker Node负责MR任务分配通过心跳信号检测TaskTracker活动状态,排除失效节点基础计算平台 平台网络拓扑NodeNodeNodeNodeNode20 Nodes RACK 1NodeNodeNodeNodeNode20 Nodes RACK 2NodeNodeNodeNodeNode20 Nodes RACK 3NodeNodeNodeNodeNode20 Nodes RACK 3管理分析平台 平台逻辑架构客户信息管理,采用J2EE框架自主开发,数据集市构建于分析型数据库集群运营绩效管理,采

28、用MicroStrategy开发,数据集市构建于分析型数据库集群零售业务灵活分析,采用MicroStrategy开发,数据集市构建于内存数据库集群HANA管理分析平台 安全管理个人客户信息管理企业客户信息管理金融业务经营分析金融业务规模预测认证管理用户BI 应用门户审计管理授权管理身份管理授权管理认证管理审计管理安全管理员安全管理员安全管理员账户管理平台安全管理信息库LDAP账户信息权限信息日志信息大数据分析平台物理架构说明平台所有服务器均采用标准X86 PC 服务器系统划分为三个子网WEB 服务子网,两台服务器构成的Tomcat集群应用服务子网,两台服务器构成的MicroStrategy集群

29、数据服务子网基础计算平台,73台服务器构成的Hadoop集群数据集市平台,30台服务器构成的?集群流程调度平台,7台服务器构成的Task Automation集群数据交换平台,5台服务器与云数据推送平台接口,分别实现不同业务系统的数据获取大数据分析平台一期硬件配置所有服务器均采用开放的X86 架构,单台服务器建议配置如下:服务器类型服务器功能数量CPU内存网口操作系统内置盘基础计算平台(Hadoop 集群)Data Node & TaskTracker 服务器7032128G2*1GbCentos 6.312*2TB 7200 RPM SATA disksName Node & JobTrac

30、ker 服务器332128G2*1GbCentos 6.34*600GB 15K SAS disks RAID 0+1 历史归档查询平台(Hadoop 集群)Data Node & TaskTracker 服务器301224G2*1GbCentos 6.316*3TB 7200 RPM SATA disksName Node & JobTracker 服务器31224G2*1GbCentos 6.34*600GB 15K SAS disks RAID 0+1 沙盘演练平台(Hadoop 集群)Data Node & TaskTracker 服务器3032128G2*1GbCentos 6.312*2TB 7200 RPM SATA disksName Node & JobTracker 服务器332128G2*1GbCentos 6.34*600GB 15K SAS disks RAID 0+1 大数据分析平台一期硬件配置(续)所有服务器均采用开放的X86 架构,单台服务器建议配置如下:服务器类型服务器功能数量CPU内存网口操作系统内置盘数据交换平台数据接口服务器51664G2*10GbCentos 6.32*600GB 15K SA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论