金融集团大数据分析平台总体架构_第1页
金融集团大数据分析平台总体架构_第2页
金融集团大数据分析平台总体架构_第3页
金融集团大数据分析平台总体架构_第4页
金融集团大数据分析平台总体架构_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金融集团大数据分析平台总体架构金融集团大数据分析平台总体架构第1页议程大数据分析平台综述1大数据分析平台总体架构2大数据分析平台演进路线3大数据分析平台一期实施重点4附录:数据质量管理平台5金融集团大数据分析平台总体架构第2页金融集团管理分析类应用建设现实状况基本分析关注内容存在问题基本现实状况商城数据仓库累积数据没有充分利用缺乏面向整个金融集团统一、完整数据视图;缺乏支撑金融集团日常业务运转风险评定体系;缺乏金融集团客户360度视图,客户行为分析和预测无法实现;缺乏面向金融业务运行管理关键绩效指标体系;……商城已建立面向整个零售业务数据仓库,整合了前台业务运行数据和后台管理数据,建立了面向零售管理分析应用;金融集团已开展供给链金融、人人贷和保理等各种业务,积累了一定量业务数据,同时业务人员也从客户管理、风险评级和经营规模预测等方面,提出了大量分析预测需求;……数据平台、数据应用、数据管控……基础数据平台和BI应用建设是未来一段时间重点!数据平台整体架构;数据平台各层建设标准;较成熟金融业数据模型;数据质量治理;元数据管理;

数据标准建设数据整合;

数据应用建设;数据平台软硬环境……金融集团大数据分析平台总体架构第3页大数据分析平台建设目标外部非结构化数据统一制订目标和分析模型统一划分分析主题统一设计数据模式统一规划分析方法统一布署技术基础统一定义BI应用自定义报表工具行+列简单定义方式各种格式报表集团决议层集团职能管控层各级业务操作层关注集团主要经营指标业务人员使用BI应用实现业务协作和创新BI分析工具供给链金融系统POP系统其它业务系统云数据推送平台已实现了主要零售及金融业务系统数据清洗、整合,为未来金融集团数据平台提供了丰富数据源。经过数据平台和BI应用建设,金融集团将搭建统一大数据共享和分析平台,对各类业务进行前瞻性预测及分析,为集团各层次用户提供统一决议分析支持,提升数据共享与流转能力采购管理系统查看职能部门业务经营情况金融集团大数据分析平台总体架构第4页大数据分析平台建设预期收益2.加强业务协作实现分散在供给链金融、人人贷、保理等各个业务系统中数据在数据平台中集中和整合,建立单一产品、客户等数据企业级视图,有效促进业务集成和协作,并为企业级分析、交叉销售提供基础3.促进业务创新金融集团业务人员能够基于明细、可信数据,进行多维分析和数据挖掘,为金融业务创新(客户服务创新、产品创新等)创造了有利条件4.提升建设效率经过数据平台对数据进行集中,为管理分析、挖掘预测类等系统提供一致数据基础,改变现有系统数据起源多、数据处理复杂现实状况,实现应用系统建设模式转变,提升相关IT系统建设和运行效率5.改进数据质量从中长久看,数据仓库对金融集团分散在各个业务系统中数据整合、清洗,有利于企业整体数据质量改进,提升数据实用性经过数据平台实现数据集中,确保金融集团各级部门均可在确保数据隐私和安全前提下使用数据,充分发挥数据作为企业主要资产业务价值1.实现数据共享金融集团大数据分析平台总体架构第5页议程大数据分析平台综述1大数据分析平台总体架构2大数据分析平台演进路线3大数据分析平台一期实施重点4附录:数据质量管理平台5金融集团大数据分析平台总体架构第6页大数据分析平台总体架构历史数据查询数据交换平台应用集市数据区商城零售供给链金融人人贷系统基金系统……系统企业内外部半结构化、非结构化数据大数据交换组件数据库数据交换组件数据区数据交换组件数据计算层大数据区沙盘演练数据区数据应用层实时数据区客户主题协议主题产品主题业务沙盘演练数据增值产品零售数据供给链数据增值产品数据区主题数据区……用户访问层客户汇总账户汇总机构汇总……社交媒体移动互联用户评价访问日志处理后大数据待处理大数据流程调度监控告警数据标准数据质量元数据数据安全流程调度平台……数据管控平台流程调度层数据管控层数据产生层数据交换层实时数据查询客户管理财务管理……外部用户贴源数据区……内部管理分析内部用户历史归档数据区IT人员风险管理金融集团大数据分析平台总体架构第7页大数据分析平台总体架构——数据产生层内部业务系统产生结构化数据商城日常零售业务处理过程中产生结构化数据,存放在关系型数据库中,如:供给商信息、采购信息、商品信息、销售流水……金融集团日常业务处理过程中产生结构化数据,存放在关系型数据库中,如:客户信息、账户信息、金融产品信息、交易流水……企业内部非结构化数据日常业务处理过程中产生非结构化数据,存放形式多样,主要包含用户访问日志、用户投诉、用户点评……企业外部数据企业外部数据以非结构化为主,主要包含国家政策法规、论坛等互联网信息、地理位置等移动信息、微博等社交媒体信息……

源数据内容在此次项目实施中将采取以增量为主、全量为辅结合方式获取源数据商城和金融集团业务系统数据增量数据识别、获取由云数据推送平台负责,云数据推送平台采取分析、对比源系统日志方式实现对于无法经过上述方式获取增量源系统数据,则采取某一个时间范围内全部数据作为增量初始数据加载均采取全量模式源数据增量金融集团大数据分析平台总体架构第8页大数据分析平台总体架构——数据交换层数据交换层设计目标传输组件是依据数据源存放不一样分类而设计,本质是经过分析数据存放结构和数据存放库特点来针对性设计工具,以追求卓越性能确保数据在平台内高速流转确保数据交换过程中不失真确保数据交换过程中不丢失确保数据交换过程安全可靠数据区数据交换组件数据库数据交换组件大数据交换组件金融集团系统数据服务层外部大数据商城系统Hadoop元数据云数据推送平台数据平台导入暂时区数据平台导出暂时区NAS存放ETL程序区金融集团大数据分析平台总体架构第9页大数据分析平台总体架构——数据交换层NAS存放Hadoop集群元数据区数据平台ETL数据处理程序区数据平台暂时数据区存放数据平台各个Hadoop集群元数据信息,如:HDFS文件系统元数据集团数据交换平台每日获取运输局推送平台提供业务系统改变数据,暂存在NAS暂时数据区金融数据平台加工计算结果返回给业务系统,暂存在NAS暂时数据区数据平台ETL加工处理程序(数据压缩、数据加载、各数据数据处理等)统一存放在NAS集群指定目录,各接口服务器经过文件系统Link建立映射金融集团大数据分析平台总体架构第10页大数据分析平台总体架构——数据交换层大数据交换组件企业内部非结构化、半结构化数据,如:音频、视频、邮件、Office文档、抵押品扫描件等企业外部非结构化、半结构化数据,如:微博、贴吧、论坛、用户点击流、用户移动位置等批量采集:大数据源以SFTP协议批量传输数据文件在线访问:开发Java或C应用,调用大据源API,或以网络平台爬虫方式抓取源系统非结构化、半结构化数据组件以实时和批量两种模式实现以下功效:数据采集数据传输到数据交换平台(接口服务器)NAS指定目录存放数据到数据平台大数据区指定HDFS目录定时抽取用户访问日志,加载到数据平台大数据区HDFS指定目录,MR程序加工处理开发网络爬虫程序,扫描用户微博,抓取用户微博内容,社交圈信息,存入大数据区处理对象实现技术实现功效应用场景金融集团大数据分析平台总体架构第11页大数据分析平台总体架构——数据交换层数据库数据交换组件企业内部业务系统产生结构化数据,包含两大起源:商城零售业务数据,数据存放在Oracle、SQLServer、MySQL和MongoDB四类数据库金融集团互联网金融业务数据,数据存放在MySQL数据库Perl程序数据采集,调用Perl文件模块相关函数,轮询指定目录,获取数据文件数据核查,Perl执行文件级数据质量检验数据加载,调用HiveLoad数据命令,加载到数据平台暂时数据区HiveTable组件以实时和批量模式实现以下功效:数据采集,轮询NAS集群指定目录,获取数据文件(LZO压缩)数据核查,对数据文件进行质量校验数据加载,加载数据到暂时数据区云数据推送平台连接供给链金融系统数据库,分析供给链金融MySQL数据库日志,识别增量数据,存放到金融平台NAS存放指定目录,金融平台加载数据文件到数据平台暂时区Hive表处理对象实现技术实现功效应用场景金融集团大数据分析平台总体架构第12页大数据分析平台总体架构——数据交换层数据区数据交换组件数据平台计算层各数据区贴源数据区主题数据区集市数据区沙盘数据区大数据区归档数据区Sqoop实现集市数据区与数据平台其它Hadoop数据区数据交换Hadoop命令、Hive外部表、MR程序实现数据平台Hadoop数据区间数据交换组件以批量方式实现以下数据交换功效:贴源数据区和主题数据区到集市数据区大数据区到主题数据区和集市数据区主题数据区、贴源数据区、集市数据区到沙盘数据区各个数据区数据归档数据集市数据按照据生命周期规划,统一将过期数据归档到历史数据归档区处理对象实现技术实现功效应用场景金融集团大数据分析平台总体架构第13页大数据分析平台总体架构——流程调度层批量处理流程批量数据处理由流程调度层布署自定义开发WorkFlow组件调度运行整个流程主要完成以下工作:获取业务系统结构化数据,存入暂时数据区获取企业内外部非结构化数据,并进行结构化处理,存入主题或集市数据区按照贴源数据模型整合数据(标准化、数据更新/追加)按照主题数据模型整合数据并生成汇总数据加工计算后,结果交付到数据集市,支持分析类应用金融集团大数据分析平台总体架构第14页大数据分析平台总体架构——流程调度层实时数据处理流程实时数据处理强调是实时或准实时获取并处理数据,通常采取消息队列等技术构建“数据流”整个处理流程由流程调度层布署自定义开发WorkFlow组件调度运行整个流程主要完成以下工作:经过数据库数据交换组件获取增量数据,加载到实时数据区经过大数据交换组件获取非结构化数据,并利用Storm处理数据,加载到实时数据区针对实时数据区数据执行标准化处理和贴源整合金融集团大数据分析平台总体架构第15页大数据分析平台总体架构——流程调度层归档数据处理流程数据归档对象包含业务系统数据文件、贴源数据区数据、主题数据区数据、大数据区数据和集市数据区数据数据按照生命周期规划存放到归档区Hadoop集群,归档后原数据区删除此数据整个处理流程由流程调度层布署自定义开发WorkFlow组件调度运行整个流程主要完成以下工作:数据文件经过HDFS命令行copyfromlocal进行归档贴源、主题和大数据区经过HDFS命令行distcp或自定义开发MR程序执行归档集市数据区经过Sqoop或数据库提供Hadoop集成技术(如:外部表)执行归档金融集团大数据分析平台总体架构第16页大数据分析平台总体架构——数据存放层业务系统前日增量数据缓存数据,支持后续ELT数据处理数据内容主要用途数据模型保留周期用户

访问模式工作负载平台要求贴源数据模型保留最近7天数据贴源数据区和主题数据区批量作业访问无最终用户访问I/O敏感,连续小批量数据抽取和加载少许量数据使用HiveLoad命令,大量数据使用MR程序与主题区/贴源区/集市区组成一个Hadoop集群(Hive)无单点故障,7×二十四小时+非工作日有限停机主题数据区、集市数据区和沙盘演练数据区批量作业访问无最终用户访问I/O敏感,日终批量ETL以ELT形式经过HiveSQL执行与主题区/贴源区/集市区组成一个Hadoop集群(Hive)无单点故障,7×二十四小时+非工作日有限停机贴源数据模型不保留历史业务系统前日快照数据和一段时间流水数据数据标准化,为后续主题模型、集市和沙盘演练提供数据暂时数据区贴源数据区金融集团大数据分析平台总体架构第17页大数据分析平台总体架构——数据存放层(续)企业内外部非结构化、半结构化数据采集并存放数据,进行结构化处理,最终得到结构化数据数据内容主要用途数据模型保留周期用户

访问模式工作负载平台要求数据按照HDFS文件存放提议保留1年集市区/沙盘区/增值产品区/主题区/归档区批量作业访问少许高级业务人员进行大数据分析MapReduce分布式计算,半/非结构化数据结构化处理(包含文本检索、语义分词、图像识别、音频识别等)与主题区/贴源区组成一个Hadoop集群(HDFS)无单点故障,7×二十四小时+非工作日有限停机集市区/沙盘区/增值产品区/主题区/高时效区批量作业访问业务人员执行历史数据查询MapReduce分布式计算,HDFS命令实现Hadoop集群内归档,Sqoop实现数据库归档,经过Hive提供历史查询独立Hadoop集群(HDFS+Hive)无单点故障,7×二十四小时+非工作日有限停机数据按照HDFS文件存放数据文件按照数据区划分目录,提议保留7年其它各数据区历史数据按数据生命周期规划归档平台过期数据,支撑历史数据查询大数据区历史归档数据区金融集团大数据分析平台总体架构第18页大数据分析平台总体架构——数据存放层(续)业务系统历史明细数据打破业务条线整合数据数据内容主要用途数据模型保留周期用户

访问模式工作负载可用性要求第三范式模型保留长久历史,需要依据主题细化主题区/集市区/沙盘区/增值产品区/归档区批量作业访问少许高级业务人员进行灵活查询、挖掘预测I/O敏感,日终批量ETL(合并、拉链、关联、汇总等等)以ELT形式经过HiveSQL执行,复杂处理使用MR定制UDF与大数据区/贴源区组成一个Hadoop集群(Hive)无单点故障,7×二十四小时+非工作日有限停机集市区/沙盘区/增值产品区/归档区批量作业访问少许高级业务人员进行灵活查询、挖掘预测I/O敏感,日终批量ETL(连接、聚合、汇总等等)以ELT形式经过HiveSQL执行,复杂处理使用MR定制UDF与大数据区/贴源区组成一个Hadoop集群(Hive)无单点故障,7×二十四小时+非工作日有限停机逆范式宽表依赖于集市数据需求对主题数据预加工后结果数据针对应用需求进行数据预连接、预汇总,为集市提供数据主题数据区—明细主题数据区—汇总金融集团大数据分析平台总体架构第19页大数据分析平台总体架构——数据存放层(续)按沙盘演练需求,准备明细或汇总业务数据为数据科学家挖掘预测操作提供数据服务数据内容主要用途数据模型保留周期用户

访问模式工作负载可用性要求模型依赖于沙盘演练需求在整个沙盘演练周期内保留集市区/沙盘区/归档区批量作业访问少许高级业务人员进行灵活查询、挖掘预测I/O敏感,终批量ETL(合并、拉链、关联、汇总等等)以ELT形式经过HiveSQL执行,复杂处理使用MR定制UDF独立Hadoop集群(HDFS)无单点故障,7×二十四小时+非工作日有限停机沙盘区/归档区批量作业访问决议人员、管理人员、业务人员访问I/O敏感型,BI工具提交报表、查询、分析SQL命令和日终批量ETL(汇总、聚集等操作,以ELT形式经过SQL执行)基于开放平台完全无共享MPP数据库集群+内存数据库无单点故障,7×二十四小时+非工作日有限停机维度数据模型依赖业务需求面向企业内部管理分析类应用需求汇总数据为客户、运行等管理分析主题和数据增值产品提供数据服务沙盘演练数据区应用集市数据区金融集团大数据分析平台总体架构第20页大数据分析平台总体架构——数据存放层(续)依据外部用户数据使用需求数据平台加工计算结果数据为布署在数据平台上企业内外部增值产品提供数据支持数据内容主要用途数据模型保留周期用户

访问模式工作负载可用性要求应用模型,依赖于用户业务需求依赖于用户业务需求企业外部人员,如:京东客户经过自己布署在Paas平台上应用访问I/O敏感型,BI工具提交报表、查询、分析SQL命令和日终批量ETL(汇总、聚集等操作,以ELT形式经过SQL执行)独立Paas平台,布署Hadoop集群无单点故障,7×二十四小时+非工作日有限停机企业业务人员高时效、高并发、高可靠性联机交易类查询CPU敏感,BI工具或业务系统高并发、高时效查询,以及准实时连续ETL处理+SQL批量处理独立内存数据库集群无单点故障,365×二十四小时不停机贴源数据模型依赖用户业务需求面向应用业务系统快照数据和一段时间交易流水为实时获准实时分析应用提供数据服务增值产品数据区实时数据区金融集团大数据分析平台总体架构第21页大数据分析平台总体架构——数据存放层数据流数据集成层操作型聚合数据暂时数据区实时数据区公共汇总数据主题明细数据结构化数据非结构化&半结构化数据沙盘演练数据区试验室数据集市数据区POP自营数据贴源数据区金融业务数据主题数据区客户管理集市财务管理集市运行管理集市风险管理集市……集市大物流系统数据供给链系统数据财务审计数据财务研发数据操作型明细据归档数据区大数据区源系统数据文件贴源数据主题数据集市数据高时效数据大数据增值产品数据区金融集团大数据分析平台总体架构第22页大数据分析平台总体架构——数据应用层大数据平台应用针对公检法查询需求、内外部审计需求和最终用户历史交易查询需求,以贴源存放归档数据为基础,实现查询类应用历史查询类应用通常使用BI工具或自主开发实现客户经理等最终业务人员针对当前业务发生(如:用户交易、用户访问日志),进行实时查询、分析应用管理分析类应用主要实现了集团客户管理、运行管理、财务管理、风险管理、监管信息披露五大分析体系功效管理分析类应用通常采取套装软件和BI工具(MicroStrategy等)实现业务人员依据业务需求或自己对业务了解,设计计算模型,准备各类明细或汇总数据,导入模型运算,验证业务结果沙盘演练类应用通常使用R语言在Hadoop分布式体系下实现金融集团数据科学家依据自己对业务需求了解或者对市场判断,设计并运行模型,发掘数据价值,并封装成商业产品数据增值产品通常采取R语言和BI工具实现,面向企业内外部用户管理分析类应用1沙盘演练类应用3历史查询类应用4高时效类分析应用5数据增值类产品2实时分析类应用通常使用CEP、ESB等技术实现金融集团大数据分析平台总体架构第23页大数据分析平台总体架构——平台发展不一样阶段对应应用工作负载复杂度大数据平台发展阶段划分操作为主阶段什么正在发生?动态数据仓库阶段

让正确事情发生!分析为主阶段为何会发生报表为主阶段发生了什么预测为主阶段将会发生什么?批量随机查询数据分析连续更新加载/短查询基于事件动态触发数据量增加用户数增加查询复杂度增加ETL处理复杂度增加管理分析类应用历史查询类应用实时分析类应用沙盘演练类应用数据增值类产品金融集团大数据分析平台总体架构第24页大数据分析平台总体架构——管理分析类应用总账分析资产负债表分析损益表分析现金流量表分析财务指标分析盈利分析机构贡献度产品贡献度客户细分贡献度渠道绩效资产负债分析主要指标报告,如:净利息收入、净收入、净现值、市场价值等头寸汇报现金流报告风险价值(VaR)计算财务预算与计划财务预算财务计划执行监控执行过程分析年末财务计划执行分析预测与场景分析业务规模预测收益预测……领导管理驾驶舱机构绩效考评客户经理考评客户经理工作量评定客户经理服务客户收益评定产品绩效考评业务量考评供给链金融业务人人贷业务保理业务基金业务其它中间业务……渠道成本与收益……风险监控报表/信息披露流动性报表利率敏感性报表资本充分率报表……市场风险市场风险暴露值流动性管理、利率管理信用风险信用风险暴露值计算信用风险控制(贷前控制、贷中监控、贷后分析)操作风险异常交易预警后督差错检验……防欺诈/反洗钱定义欺诈交易模型可能性欺诈交易预警欺诈交易分布分析全方面风险管理……当前监管机构没有明确要求客户单一视图企业客户信息管理个人客户信息管理同业客户信息管理目标客户搜索重点客户关心客户风险客户异动客户客户细分个人客户细分企业客户细分客户行为分析客户轮廓分析产品交叉销售分析百分比分析渠道偏好分析营销活动管理营销活动规划营销活动定义营销活动执行营销活动苹果营销活动自动化渠道接口与集成流程自动化……客户管理运行管理财务管理风险管理监管披露示例金融集团大数据分析平台总体架构第25页大数据分析平台总体架构——数据访问层即席查询:经过即席查询工具或手工书写SQL语句,完成业务信息即席查看多维分析:从多个维度灵活组合对目标值进行分析,常见功效包含上下钻取、透明钻取、旋转、分页、层钻、跨维钻取等主动问题发觉:经过事件触发、规则匹配等方式发觉企业运行中问题,经过手机、邮件等方式报警决议层管理层业务人员即席查询静态报表多维分析仪表盘挖掘预测仪表盘:经过仪表盘及其它展现方式对企业关键绩效指标进行展示,为领导层决议提供直观数据支持静态报表:按照预先定义格式,批处理报表,在线查询报表等Office集成:将分析应用嵌入到Office界面中,利用Office方便、易用特征,降低用户使用难度问题发觉Office集成Web服务挖掘预测:使用专业软件工具,经过数理统计等高级统计分析算法,分析结构化、非结构化数据,经过数据模型去挖掘隐藏在数据中价值数据科学家业务系统Web服务:将分析应用功效公布为Web服务,注册在企业服务总线上,供其它业务系统或分析应用调用,获取分析结果各种展现形式满足各层级用户及应用系统使用需求金融集团大数据分析平台总体架构第26页大数据分析平台总体架构——数据管控层金融数据管控体系涵盖组织架构、评价与考评、管控流程、管控平台四个域。数据标准管理数据质量管理元数据管理工作流管理……组织数据与信息标准化委员会数据管理人数据全部些人数据生产人数据使用人IT支持团体考评指标责任评价标准执行评价政策执行评价评价标准数据类型数据格式业务分类真实性定义及时性定义完整性定义技术元数据流程评价与考评流程考评指标建立/维护流程标准建立/维护流程组织建立/维护流程评价与考评业务含义一致性定义数据认责平台安全等级权限定义数据停用数据共享数据移动数据存放数据创建业务元数据管理元数据数据全生命周期数据安全管理数据标准数据质量元数据数据安全…………审计定义保留策略……金融集团大数据分析平台总体架构第27页大数据分析平台总体架构——数据管控体系内部运转机制管控组织数据管控委员会数据全部些人数据认责人IT支持……管控流程数据接入流程数据变更流程数据授权流程数据退伍流程标准/政策制订流程评价考评流程……评价与考评标准(数据标准、质量要求、安全要求)恪守标准所需要政策政策与标准遵从考评定义……数据产生者数据使用者………流程支撑流程支撑制定管控平台工具支撑明确了数据管控过程中组织结构、角色、职责等。管控组织除了要负责制订数据标准、质量、安全等要求外,还需要负责制订管控相关流程和评价考评指标等内容。考评制订经过建立一些定性或定量数据管控评价考评指标,去评定及考评数据相关责任人职责推行情况、数据管控标准及数据政策执行情况等。规范了数据管控过程中,各个步骤日常任务处理运作模式,比如数据定义怎样变更、数据冲突怎样协调等。采取专门技术平台支撑管控流程自动化,公布管控组织制订一些相关标准和规范,及时反应管控过程中存在一些问题等。管控综合管理标准/规范管理流程管理考评仪表盘……元数据管理业务元数据管理技术元数据管理管理元数据分析……数据质量管理稽核规则管理数据稽核质量汇报……工具支撑组织架构、评价与考评、管控流程、管控工具这四个域相互作用、相互支撑,提供对各信息系统数据管控。金融集团大数据分析平台总体架构第28页大数据分析平台总体架构——数据管控组织数据管控组织是数据管控体系中最主要原因,它负责定义和管理业务数据相关标准,制订遵寻标准所必须政策,监测正在进行数据管控行动。数据管控组织是否有完整与合理角色定义、是否有高层领导参加,是整个数据管控成败关键。经典数据管控组织以下所表示:数据管控负责部门岗位角色数据管控主导方信息管理委员会

数据标准管理员数据质量管理员数据产生部门数据管控参加方业务协调人数据分析员数据主管数据使用部门业务协调人数据分析员数据主管数据拥有部门业务协调人数据分析员数据主管数据管理部门运维组织实施项目组数据安全管理员数据管控经理元数据管理员金融集团大数据分析平台总体架构第29页大数据分析平台总体架构——数据标准管理消除一数多义,提升数据唯一性、一致性,将逐步形成数据标准纳入一个规范管理流程中,进行数据标准更新、公布、使用监督等工作。数据标准管理工作能够分为以下几个部分:数据标准建立和维护、数据标准执行、数据标准管理考评。数据标准建立和维护数据分类数据结构关键业务对象关键代码数据维度代码映射客户类数据标准产品类数据标准。。。类数据标准数据标准执行数据标准管理考评定性考评定量考评数据标准分析汇报数据标准理念推广归档系统……ODS金融集团大数据分析平台总体架构第30页大数据分析平台总体架构——数据质量管理数据质量管理框架蓝图以下,其中数据质量提升是改进数据质量伎俩和质量考评目标:数据质量要求确认,依据业务要求制订和明确数据质量要求,同时也需要符合数据标准要求;数据质量考评,对数据质量量化评价制订数据质量问题处理方案,依据数据质量考评和日常工作中发觉数据质量问题,实施对应办法,提升数据质量数据质量要求业务规则数据一致性要求数据完整性要求数据唯一性要求数据准确性要求数据及时性要求数据质量标准数据质量验证规则数据质量考评指标数据质量提升数据补录手工修正自动修正数据质量考评数据质量监控不定时数据质量检验数据质量分析汇报金融集团大数据分析平台总体架构第31页大数据分析平台总体架构——元数据管理业务元数据:面向业务人员,从业务术语、业务描述、业务指标和业务规则等几个方面对数据进行描述管理元数据:面向数据管理人员,从运维管理角度描述数据处理、数据质量和数据安全状态信息技术元数据:面向技术人员,从数据结构和数据处理细节方面对数据进行技术化描述金融集团大数据分析平台总体架构第32页大数据分析平台总体架构——数据安全管理数据安全管理可分为数据安全分级管理和数据访问授权管理两个部分:数据安全分级:依据业务要求,制订一系列数据安全分级标准和政策,为数据应用以及数据管理中实施数据安全保护和访问提供数据安全控制基础。数据访问授权:数据访问授权主要工作是依据数据安全分级标准,定义数据访问授权方法及流程,建立基于数据安全分级数据使用授权机制,实现数据访问和信息披露安全。数据安全分级数据敏感度数据安全等级定义数据访问授权数据主要性数据使用需求数据使用者权责数据访问授权规则安全技术金融集团大数据分析平台总体架构第33页大数据分析平台总体架构——高阶工作流程业务数据规划管理高阶流程数据认责流程数据治理考评体系数据治理考评流程数据治理考评指标体系数据标准管理管理高阶流程数据标准建立流程数据标准维护流程数据质量管理管理高阶流程数据质量要求确定流程元数据管理高阶流程元数据变更流程数据安全管理管理高阶流程数据安全审批流程数据认责流程数据标准、质量、元数据、安全管理流程协调会议考评流程金融集团大数据分析平台总体架构第34页大数据分析平台总体架构——数据管控平台数据管控平台从总体上来说分为数据层、应用层、展现层三个主要层面,以数据层数据库及相关基础系统为主要信息起源,经过应用层运算处理,以不一样形式,不一样功效在展现层提供用户接口首页标准管理主菜单指标速递待办事项信息地图标准浏览标准维护工作管理流程管理绩效指标系统管理用户管理权限管理规范管理数据管控平台统一用户集成界面数据标准知识库数据管控平台知识库……元数据管理元数据采集……元数据知识库质量管理规则配置……质量稽核库数据层应用层展现层金融集团大数据分析平台总体架构第35页大数据分析平台总体产品框架非结构化/半结构化数据管理分析平台(X86MPP集群)京东业务系统结构化数据基础计算平台(贴源数据区+主题数据区+大数据区)(Hadoop集群+Hive)数据交换平台(自主开发交换组件+NAS存放)实时分析平台(内存数据库)沙盘演练平台(Hadoop集群)数据管控平台FTPSFTP/HTTP/APICopyfromloalQueue京东云数据推送平台增值产品平台(Hadoop集群)历史归档查询平台(Hadoop集群+Hive)Load(Hive)DistcpHQL+LoadDistcpDistcpHQL+LoadDistcpHQL+LoadSqoopSqoopSqoopMR流程调度平台金融集团大数据分析平台总体架构第36页议程大数据分析平台综述1大数据分析平台总体架构2大数据分析平台演进路线3大数据分析平台一期实施重点4附录:数据质量管理平台5金融集团大数据分析平台总体架构第37页大数据分析平台演进路线以基础平台搭建为主,配合金融集团早期业务开展,应用建设从客户信息管理、风险管理和运行管理三方面开展搭建大数据处理平台和实时分析平台,应用方面开展实时分析和数据产品封装开展客户信息管理、信用风险评级和业务统计分析三类应用建设开展贴源数据整合,初步建立企业级数据视图,实现对管理分析类应用和实时分析类应用支撑规划数据管控蓝图,初步实施数据质量和技术元数据管理——年以后对企业价值创造应管技业务分析框架基础数据平台数据管控体系应技管全方面开展内部管理分析、实时分析和沙盘演练应用建设,初步展开增值数据产品开发工作全方面开展大数据分析平台建设,引入更多数据源,丰富并完善平台数据区建设伴随应用体系搭建,完善数据质量和元数据建设,开展数据标准化工作应技管深化分析体系,形成深度智能化业务分析性能连续优化、数据平台连续完善、连续深化数据管控体系,形成金融集团企业级数据管控体系应技管一期.10当前位置未来连续优化提升阶段第一阶段第二阶段第三阶段金融集团大数据分析平台总体架构第38页大数据分析平台演进说明——基础数据平台阶段划分建设内容预期效果第一阶段搭建数据交换平台,布署NAS存放集群,设计并实施数据库交换组件和数据区交换组件搭建基础计算平台,设计并实施贴源数据区,以T+1频率整合商城和金融业务数据搭建历史归档查询平台,归档商城和金融业务数据文件搭建内部管理分析应用平台,布署MPP集群和BI分析应用环境搭建实时分析平台,布署内存数据库和实时BI分析环境实现了数据平台内部个数据区之间、数据平台与外部系统间双向数据传输实现了业务数据按照贴源数据模整合实现了数据按照生命周期归档管理实现了内部管理分析环境搭建实现实时分析环境搭建第二阶段数据交换平台增强和优化,包含:大数据交换组件设计实施基础计算平台增强,包含:引入更多数据源,增强贴源数据区;设计并实施主题数据区,打破业务条线整合数据;设计并实施大数据区,实现企业内外部非结构化、半结构化数据加工、处理搭建沙盘演练平台实时分析平台增强和优化,包含:引入更多应用及相关数据源实现了基础数据一次存放、一次计算、屡次使用建立了数据分析人员试验环境,实现了用户自主用数为实时、准实时类分析用提供平台为封装、销售数据类产品提供了平台第三阶段基础计算平台连续增强和优化,引入更多数据源、优化模型和ETL处理搭建增值产品平台,设计并实施增值产品数据区数据交换平台、沙盘演练平台、实时分析平台深入增强和优化数据平台纳入尽可能多企业内外部数据数据平台以最优性能支持各类数据应用金融集团大数据分析平台总体架构第39页大数据分析平台演进说明——数据管控阶段划分建设内容预期效果第一阶段分析和梳理当前数据管理方面结果和现实状况,数据管控蓝图和路线图设计,数据管控工作组织、技术和流程高阶设计梳理金融集团大数据平台ETL流程各步骤数据质量要求,指定数据质量检验规则、评价指标、管控流程,并落地实施数据质量管理系统梳理金融集团大数据平台包含技术元数据,如:数据字典、ETL任务、ETL流程、BI语义层等,制订对应管控流程并落地实施元数据管理系统同时大数据分析平台ETL建设,实现了数据质量管理系统搜集并整合了金融集团全部技术元数据,实现了数据生命周管理、血缘分析和影响分析等功效第二阶段伴随更多数据源引入,深入增强数据质量管理系统伴随更多数据源引入、更多平台建立,梳理并整合更多技术元数据梳理金融集团大数据平台包含业务和管理类元数据,如业务术语、业务指标、业务定义等,制订对应管控流程并落地实施元数据管理系统开展基础类数据标准建设,基础数据标准、管控流程、评价指标、落地策略完善了数据质量管理体系,实现了问题及时发觉、及时处理实现了金融集团全方位元数据管理,打通了业务和技术元数据关联关系为金融集团数据平台建设提供了基础类数据标准第三阶段数据质量管理连续优化并增强元数据管理连续优化并增强基础类数据标准逐步落地实施开展指标类数据标准建设基础数据标准、管控流程、评价指标、落地策略经过完善数据管控体系,提升数据质量、防止数据二义性、建立数据间血缘关系,使得业务人员能够方便、有效使用数据,提升数据实用性金融集团大数据分析平台总体架构第40页大数据分析平台演进说明——应用体系阶段划分建设内容预期效果第一阶段开展客户信息管理建设,设计并实施个人客户和供给商360°视图、客户目标搜索、客户细分等功效开展风险管理建设,设计并实施供给商和个人客户风险评级模型开展运行管理建设,设计并实施供给链金融、人人贷等业务条线业务量统计分析初步梳理实时、准实时分析需求,进行高时效分析应用试点能够方便对个人客户和供给商进行分群,以及全方位信息查询和展示供给商和个人客户风险等级评定针对当前开展业务进行经营情况统计分析搭建并验证高时效应用体系第二阶段伴随金融集团业务展开,逐步开展内部管理分析体系建设,本阶段重点为客户关系管理、运行管理等高级业务人员利用沙盘演练平台进行数据挖掘、预测和科学试验深入树立实时、准实时分析需求,深化开展高时效分析应用开始梳理市场上数据应用需求,尝试封装增值数据产品经过内部管理分析体系建设、满足了金融集团日常经营管理、决议分析和深入提升价值创造力需要实现了业务人员自主用数实现了高时效分析,与业务流程整合实现了数据产品封装,提升了数据价值第三阶段伴随金融集团业务展开,深入完善内部管理分析体系建设,包含:市场风险管理、操作风险管理、财务管理等搜集实时分析需求,深入增强并优化实时分析应用体系增值数据产品设计逐步成为重点,数据分析师搜集企业内外部数据需求,设计更完善增值数据产品经过内部管理分析应用体系建设深入实现数据共享、业务协作与创新经过实时分析应用体系建设,实现大数据平台业务系统交互,与业务流程融合增值数据产品开发深入发挥数据平台数据价值金融集团大数据分析平台总体架构第41页议程大数据分析平台综述1大数据分析平台总体架构2大数据分析平台演进路线3大数据分析平台一期实施重点4附录:数据质量管理平台5金融集团大数据分析平台总体架构第42页金融大数据分析平台一期架构基础计算平台:基于Hadoop集群构建,按照业务条线、以贴源数据模型存放了业务系统明细数据数据交换平台:NAS集群实现了进出数据平台数据暂存,业务数据交换组件实现了业务系统每日增量数据加载,数据区数据交换组件实现了基础计算平台与管理分析平台间数据交换流程调度平台:自主开发流程调度引擎实现整个数据平台数据处理任务调度和运行管理分析平台:由X86分析型数据库集群、BI软件1J2EE应用组成,实现了面向应用数据加工、管理、分析服务实时分析平台:由高档X86服务器组成集群,实现高时效、高并发实时、准实时类管理分析需求金融集团大数据分析平台总体架构第43页数据交换平台—平台逻辑架构POP金融大数据分析平台NAS集群物流财务供给链人人贷……云数据推送平台云数据推送平台实现源系统数据一次获取获、按需分发。平台采取GoldenGate、JBUS、Flume等技术获取增量数据,存放在MySQL集群平台按照接口规范生成文件,LZO压缩后,经过FTP传输到NAS指定目录数据交换平台由FTP服务器、加载服务器和NAS存放组成,完成业务系统数据获取、加载和归档FTP服务器:利用LVS组成FTP集群,接收云数据推送平台处理后数据,存放在NAS集群指定目录加载服务器:布署ETL任务,实现指定目录文件抵达监控、文件级检核、数据加载(HiveLoad)到暂时数据区,同时归档(copyfromlocal)历史数据区NAS集群:按照日期和源系统划分目录,缓存数据,支持日常数据交换和ETL…………LVS集群:FTP服务器#3加载服务器#1文件加载文件归档文件抵达事件监控文件级检核加载服务器#4文件加载文件归档文件抵达事件监控文件级检核LVS集群:FTP服务器#1LVS集群:负载均衡服务器…………金融集团大数据分析平台总体架构第44页数据交换平台—参加方责任划分设计并实施云数据推送平台;按照金融集团接口定义,抽取业务系统数据;按照金融集团接口规范要求,按时生成数据文件、控制文件和DDL文件,并经过FTP传输到NAS指定目录;若源系统有变更,则要求在变更前提供变更内容说明,升级平台版本,依据金融集团更新接口规范提供数据;应及时处理接口数据提供过程中出现问题;对于未尽事宜,应同金融集团协商处理。云计算安装布署金融集团大数据分析平台物理环境、应用软件,并进行基础设施运维;在业务系统数据库服务器安装并布署云数据推送平台客户端,并提供数据库访问。运维部门制订接口规范,并提交给云数据推送项目组;梳理业务系统数据字典,制订接口定义,并提交给云数据推送项目组;开发数据交换组件,从NAS获取数据并处理;对接收数据提供验证功效,并返回验证结果到云数据推送平台;依据云数据推送平台提交变更通知修改接口定义和数据交换组件;对于未尽事宜,应同云计算方协商处理。金融集团针对金融集团需求,指定接口人、提供文档;业务系统因版本升级等原因造成数据模型发生改变,及时通知云数据推送平台接口责任人。研发部门金融集团大数据分析平台总体架构第45页数据交换平台—业务系统数据抽取实现方式每张源系统表都对应一个独立数据接口数据接口由数据文件和控制文件组成(文件命名和详细内容参见接口规范)文件统一采取UTF-8编码,统一存在在JSS指定目录(参见接口规范)假如在抽取周期内没有数据变更,云数据推送平台应该生成空数据接口传输方式FTP传输,利用LVS技术构建FTP集群,接收数据传输频率云数据推送平台通常按照T+1频率为金融集团提供数据,详细频率要求参见接口定义接口处理模式云数据推送平台依据不一样接口单元定义,准备数据、生成接口数据文件;云数据推送平台依据接口规范生成对应接口控制文件;云数据推送平台压缩数据(LZO),并经过FTP将数据接口存入NAS指定目录;金融大数据分析平台布署在不一样加载服务器上数据交换组件完成:定时轮询NAS指定目录,获取接口(包含数据文件、控制文件和DDL文件);执行文件级检核;经过检核后,将数据文件和控制文件移动到NAS集群指定目录,触发后续ETL处理;在TaskAutomation调度下执行数据加载和数据归档任务。金融集团大数据分析平台总体架构第46页数据交换平台—平台布署架构数据交换平台由8台X86服务器和一个NAS集群组成X86服务器按照功效分为2组,一组实现数据获取,一组实现数据加载和归档NAS集群作为公共数据区,由8台服务器共享访问(读写)PythonruntimePythonJSSModuleFTPRedhatLinuxLVS服务器4HDFSClientHive加载任务归档任务RedhatLinux加载服务器1HDFSClientHive加载任务归档任务RedhatLinux加载服务器4LANPythonruntimePythonJSSModuleLVSRedhatLinuxLVS服务器1…………NAS集群负责源系统数据文件加载和归档每台服务器负责多个源系统支持按需扩展/降低服务器LVS1负载均衡其它LVS服务器负责接收接口文件,写入NAS集群目录支持按需扩展/降低服务器布署数据交换平台和流程调度平台程序,各服务器经过文件链接使用按日期和源系统建立数据目录,缓存每日接口文件,供交换平台访问金融集团大数据分析平台总体架构第47页流程调度平台—平台逻辑架构TaskAutomation驱动各个平台、实现从数据存入NAS平台到数据集市生成整个处理过程工作流管理数据交换平台负责数据抽取、文件级质量检核、调用HiveLoad加载数据基础计算平台使用HiveSQL实现贴源数据整合、公共汇总数据处理管理分析平台使用关系型数据库SQL实现集市数据处理历史归档查询平台负责数据文件和Hadoop集群数据归档金融集团大数据分析平台总体架构第48页流程调度平台—流程调度元数据TaskAutomation元数据统一存放在MySQL数据库中任务定义,包含任务名称、描述、运行服务器、运行状态、运行时间、相关数据源等属性任务依赖,任务执行依赖与其它上游任务任务触发,任务成功执行后触发下游任务任务组,一组有相互关系任务,全部完成后会触发头任务运行……元数据由全部流程调度服务器共享金融集团大数据分析平台总体架构第49页流程调度平台—任务调度引擎经过侦测器侦测事件,按照任务定义和任务依赖关系触发任务运行,触发方式把主要包含自动触发定时触发,按照预先定义时间周期,如每日、每七天、每个月,或任何有规律时间间隔执行任务。当前可明确任务主要是每个月执行基础计算平台、管理分析平台数据归档。事件触发,按照特定事件触发、执行任务。如:数据文件抵达指定目录,会触发数据加载任务。一样,流程失败也会触发新job,如错误处理、例外处理等。手动触发系统管理员能够使用TaskAutomation提供界面或命令接口执行一些job。这些job功效通常包含对特定范围数据进行审计与验证、对特定范围数据进行针对性很强数据清洗、或者是对某流程失败后修复。每个要执行任务均由任务执行代理开启运行金融集团大数据分析平台总体架构第50页流程调度平台—集群可靠性和可扩展性高可用性流程调度所需元数据信息统一保留在MySQL数据库中,集群中任何服务器发生故障不会破坏元数据完整性。服务器故障时,只需要修改ETL任务属性,指定其它服务器执行任务即可,故障不会影响任务依赖关系、任务组关系。扩展能力流程调度集群由多台服务器组成,按工作负载划分不一样角色,分别实现ETL处理过程中不一样类型任务调度。当某类调度工作负载较大时,可经过增加服务器方式,实现集群横向扩展金融集团大数据分析平台总体架构第51页流程调度平台—平台布署架构流程调度平台由八台X86服务器组成,服务器按照功效分为两类两台X86服务器布署MySQL数据库集群,存放流程调度元数据六台X86服务器布署流程调度引擎,负责各数据区数据处理流程调度与运行TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient暂时/归档区调度服务器1TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient贴源区调度服务器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient汇总区调度服务器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient暂时/归档区调度服务器4MasterNodeMySQL主服务器MasterNodeMySQL从服务器……LANMySQL主-从集群,存放暂时区、归档区、贴源区和汇总区数据处理任务定义,任务依赖关系按数据区划分工作流,工作流不跨数据区暂时区数据处理工作流布署在数据交换换平台加载服务器贴园区和汇总区工作流分别布署独立服务器金融集团大数据分析平台总体架构第52页基础计算平台—平台逻辑架构VMVMVMVMVMVMVMVMVMVMVMVMVMVMVM节点VMVMVMVMVM节点VMVMVMVMVM节点节点节点节点节点节点Hadoop暂时数据区贴源数据区汇总数据区基础计算平台基于Hadoop集群搭建集群采取标准X86服务器集群弹性架构,按需分配计算资源,支持添加X86服务器方式实现横向扩展集群中数据保留三份,确保任何节点故障,不影响集群对外提供服务基础计算平台有三个数据区组成暂时数据区,缓存当日源系统改变(新增、修改、删除)数据,支持后续ELT数据处理贴源数据区,按照源系统数据模型整合明细历史数据,作为基础数据层实现数据一次整合、屡次使用汇总数据区,依据应用需求,对贴源数据区明细数据进行预连接、预聚合、预汇总处理数据,实现了数据一次计算、屡次使用金融集团大数据分析平台总体架构第53页基础计算平台—暂时数据区包含内容主要用途大数据分析平台要整合源系统,包含:POP、财务审计、财务研发、大物流、供给链、金融、网站交易、数据部和移动客户端等研发体系各业务系统。建立数据缓冲区,暂时存放从源系统抽取过来增量/全量数据,支撑后续ELT处理。设计标准数据库设计标准暂时数据区对应独立Hive数据库不对外提供访问,ETL用户对数据库有增、删、查、改权限模型设计标准逻辑模型参考源系统和接口规范定义,为每个接口单元设计实体、属性物理模型与逻辑模型保持一致,每个实体对应一张Hive表,表采取LZO压缩存放物理模型设计不提议考虑索引、物化视图等技术特征以天为单位,按业务日期建立分区历史保留标准缓存当日业务数据、为数据重跑方便可保留7天历史过期数据直接删除对应分区,不需要归档金融集团大数据分析平台总体架构第54页基础计算平台—贴源数据区包含内容主要用途与缓冲层相对应,贴源整合层主要包含:POP、财务审计、财务研发、大物流、供给链、金融、网站交易、数据部和移动客户端等研发体系各业务系统,全部数据保留历史。作为整个数据平台基础数据层,累计历史,为主题层、集市层等数据区提供数据支撑。设计标准数据库设计标准贴源数据区对应独立Hive数据库不对外提供访问,ETL用户对数据库有增、删、查、改权限模型设计标准针对不需要统计改变实体,其逻辑模型参考缓冲层,按照贴源设计针对需要统计改变数据,需要增加时间字段,设计拉链数据模型,统计历史物理模型考虑分区,流水表按业务日期建立分区,拉链表按终止日期建立分区历史保留标准拉链表数据保留最近37个月历史快照表数据永久保留交易流水表数据保留最近25个月历史过期数据归档到历史归档区,需要时回迁金融集团大数据分析平台总体架构第55页基础计算平台—汇总数据区包含内容主要用途针对客户管理、风险评级和业务量统计设计明细数据进行预汇总、预连接和预加工后结果数据。对明细数据进行预汇总、预连接和预加工,为应用数据集市准备数据。设计标准数据库设计标准汇总数据区对应独立Hive数据库不对外提供访问,ETL用户对数据库有增、删、查、改权限模型设计标准汇总层采取了逆范式宽表设计,某种程度上采取维度建模方法模型设计首先需要依据业务和应用需要尽可能包含更多属性和指标,同时兼顾空间汇总层需要针对维度数据执行标准化处理汇总层模型增加数据日期统计历史,提议依据数据日期建立分区历史保留标准不一样实体采取不一样历史保留策略提议以支持应用为输入,防止永久保留过期数据归档到历史归档区,需要时回迁金融集团大数据分析平台总体架构第56页基础计算平台—平台布署架构基础计算平台由73台X86服务器组成,3台服务器作为NameNode和JobTrackerNode,70台服务器作为DataNode和TaskTrackerNode……DataNodeTaskTrackerNode服务器1DataNodeTaskTrackerNode服务器70Name&JobTrackerNode(Secondary)NameNodeJobTrackerNode内部互联70台服务器是HDFS数据节点,暂时数据区和贴源整合区作为独立数据库布署在此服务器上,并按照3份冗余存放NN负责HDFS元数据管理,元数据信息存放在NAS集群指定目录经过硬件冗余、RAID0+1、SlaveNN等技术实现高可用性70台服务器是MR计算节点,Hive提交SQL语句,转化成MR任务,由JobTracker分配到每台服务器上执行SecondaryNN负责HDFS元数据备份管理,SecondaryJobTracker负责MR计算集群JobTracker高可用性JobTracker

Node负责MR任务分配经过心跳信号检测TaskTracker活动状态,排除失效节点金融集团大数据分析平台总体架构第57页基础计算平台—平台网络拓扑NodeNodeNodeNodeNode20NodesRACK1……NodeNodeNodeNodeNode20NodesRACK2……NodeNodeNodeNodeNode20NodesRACK3……NodeNodeNodeNodeNode20NodesRACK3……金融集团大数据分析平台总体架构第58页管理分析平台—平台逻辑架构客户信息管理,采取J2EE框架自主开发,数据集市构建于分析型数据库集群运行绩效管理,采取MicroStrategy开发,数据集市构建于分析型数据库集群零售业务灵活分析,采取MicroStrategy开发,数据集市构建于内存数据库集群HANA金融集团大数据分析平台总体架构第59页管理分析平台—安全管理个人客户信息管理企业客户信息管理金融业务经营分析金融业务规模预测认证管理用户BI应用门户审计管理授权管理身份管理授权管理认证管理审计管理安全管理员安全管理员安全管理员账户管理平台安全管理信息库LDAP账户信息权限信息日志信息金融集团大数据分析平台总体架构第60页大数据分析平台物理架构说明平台全部服务器均采取标准X86PC服务器系统划分为三个子网WEB服务子网,两台服务器组成Tomcat集群应用服务子网,两台服务器组成MicroStrategy集群数据服务子网基础计算平台,73台服务器组成Hadoop集群数据集市平台,30台服务器组成?集群流程调度平台,7台服务器组成TaskAutomation集群数据交换平台,5台服务器与云数据推送平台接口,分别实现不一样业务系统数据获取金融集团大数据分析平台总体架构第61页大数据分析平台一期硬件配置全部服务器均采取开放X86架构,单台服务器提议配置以下:服务器类型服务器功效数量CPU内存网口操作系统内置盘基础计算平台(Hadoop集群)DataNode&TaskTracker服务器7032128G2*1GbCentos6.312*2TB7200RPMSATAdisksNameNode&JobTracker服务器332128G2*1GbCentos6.34*600GB15KSASdisksRAID0+1历史归档查询平台(Hadoop集群)DataNode&TaskTracker服务器301224G2*1GbCentos6.316*3TB7200RPMSATAdisksNameNode&JobTracker服务器31224G2*1GbCentos6.34*600GB15KSASdisksRAID0+1沙盘演练平台(Hadoop集群)DataNode&TaskTracker服务器3032128G2*1GbCentos6.312*2TB7200RPMSATAdisksNameNode&JobTracker服务器332128G2*1GbCentos6.34*600GB15KSASdisksRAID0+1金融集团大数据分析平台总体架构第62页大数据分析平台一期硬件配置(续)全部服务器均采取开放X86架构,单台服务器提议配置以下:服务器类型服务器功效数量CPU内存网口操作系统内置盘数据交换平台数据接口服务器51664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1流程调度&ETL平台流程调度&ETL服务器71664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1元数据服务器Hive元数据库服务器21664G2*10GbCentos6.34*600GB15KSASdisksRAID0+1管理分析平台数据集市服务器432128G4*10GbCentos6.32*300GB15KSASdisksRAID0+11632128G2*10GbCentos6.314*300GB15KSASdisksRAID0+1内存数据库服务器420256G2*10GbSLESforSAPapplications11SP28*600GB10kSASdisksRAID5BI应用服务器21664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1WEB服务器21664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1金融集团大数据分析平台总体架构第63页大数据分析平台一期硬件配置(续)光前交换机配置要求千兆端口:278万兆端口:100带宽:8GBNAS集群配置以下:总存放容量:40TB磁盘:15000RPMSASDisks网络接口:万兆网络传输协议:TCP/IP网络文件协议:CIFS、NFS单台Cache:8GB金融集团大数据分析平台总体架构第64页大数据分析平台一期软件清单类型软件清单基础计算平台Hadoop0.2Centos6.3历史归档查询平台Hadoop0.2Centos6.3沙盘演练平台Hadoop0.2Centos6.3数据交换平台HadoopClient&HiveCentos6.3流程调度&ETL平台TaskAutomationMySQLClientPerlRuntime&MySQLDBDCentos6.3类型软件清单管理分析平台数据集市服务器?Centos6.3实时分析平台内存数据库服务器SAPHanaEnterprise1.0Centos6.3管理分析&实时分析平台BI应用服务器MicroStrategy9.3HanaClientDBClientCentos6.3管理分析&实时分析平台WEB服务器Tomcat7.0Centos6.3金融集团大数据分析平台总体架构第65页议程大数据分析平台综述1大数据分析平台总体架构2大数据分析平台演进路线3大数据分析平台一期实施重点4附录:数据质量管理平台5金融集团大数据分析平台总体架构第66页数据质量管理平台技术架构数据质量检验规则执行模块作为多个ETL任务布署在金融数据平台ETL服务器上,由Automation工作流调度服务统一调度运行,实现各个数据区技术和业务数据质量检验数据质量管理系统元模型包含检验规则、检验执行结果、分析汇报,模型作为一个独立Schema布署在决议分析报表平台数据库数据质量检验规则配置模块作为JavaWeb应用布署在金融数据平台Tomcat集群上,数据质量管理员经过统一Web服务访问,实现检验规则维护数据质量分析汇报展现模块作为JavaWeb应用布署在金融数据平台Tomcat集群上,用户经过统一Web服务访问,实现日报、月报浏览、下载等功效数据质量分析汇报生成模块作为一个ETL任务布署在决议分析报表平台ETL服务器上,由Automation工作流调度服务统一调度运行,按照每日、每个月生成各数据区数据质量检验汇报数据质量管理平台以元信息模型为关键,由规则配置管理模块、检验执行模块、分析汇报生成模块和分析汇报展现模块四部分组成。整个数据质量检验过程以ETL任务形式统一调度执行。金融集团大数据分析平台总体架构第67页数据质量检验执行服务数据质量管理规则执行服务作为ETL任务布署在ETL服务器上在整个数据处理过程中,设置4类检验点在不一样检验点由TaskAutomation工作流统一调度执行检验结果统一存入数据质量管理资料库1234金融集团大数据分析平台总体架构第68页检验规则执行服务检验点1云数据推送平台接口文件级规范性检验任务说明任务类型ETL任务——技术型检验ETL阶段云数据推送平台->金融数据交换平台NAS存放指定目录执行频率每日执行执行方式由TaskAutomation工作流引擎依据工作流定义统一调度,在ETL服务器上执行检验对象云数据推送平台按照接口规范导出业务系统每日增量数据文件和控制文件检验内容接口文件是否存在,接口文件名称是否正确,接口文件是否经过MD5校验实现技术Linux脚本语言,Perl或Python成功阈值全部规则经过检验依赖任务N/A触发任务数据加载金融集团大数据分析平台总体架构第69页检验规则执行服务检验点2暂时区数据技术性检验任务说明任务类型ETL任务——技术型检验ETL阶段暂时数据区->贴源整合数据区执行频率每日执行执行方式由TaskAutomation工作流引擎依据工作流定义统一调度,在Hadoop集群上执行检验对象云数据推送平台按照接口规范导出业务系统每日增量数据检验内容日期、时间格式检验;主键唯一型检验;外键参考完整型检验;关键字段取值完整性检验实现技术HiveSQL成功阈值90%统计经过检验异常处理未经过检验统计存入指定错误明细表依赖任务接口文件级规范性检验任务触发任务贴源数据整合任务金融集团大数据分析平台总体架构第70页检验规则执行服务检验点3汇总区业务性检验任务内容说明任务类型ETL任务——业务型检验ETL阶段贴源整合数据区->汇总数据区执行频率每日/月/季执行执行方式由TaskAutomation工作流引擎依据工作流定义统一调度,在Hadoop集群上执行检验对象汇总数据区数据检验内容业务逻辑检验:经过对若干个汇总值/指标值运算,来检验各个汇总值/指标间潜在平衡或其它比较关系实现技术HiveSQL成功阈值90%统计经过检验异常处理未经过检验统计存入指定错误明细表依赖任务贴源整合数据区数据处理完成触发任务集市数据区应用数据生成金融集团大数据分析平台总体架构第71页

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论