企业数字化底座与数字化转型方案_第1页
企业数字化底座与数字化转型方案_第2页
企业数字化底座与数字化转型方案_第3页
企业数字化底座与数字化转型方案_第4页
企业数字化底座与数字化转型方案_第5页
已阅读5页,还剩153页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

整理制作:郎丰利1519制作时间:02议程企业数字化底座与数字化总体架构33企业数字化底座与数字化规划设计44企业数字化底座与数字化建设运营企业数字化底座与数字化未来展望集团管理分析类应用建设现状基本分析l集团已建立面向整个扶贫的数据仓库理数据,建立了面向扶贫的管理分析l集团已开展供应链金融、人人贷和保理等多种业务,积累了一定量的业务数据,同时业务人员也从客户管理、风险评级和经营规模预测等方面,提出了大量分析预测需求;l集团数据仓库累积数据没有充分利用l缺乏面向整个集团的统一、完整的数l缺乏支撑集团日常业务运转的风险评l缺乏集团客户360度视图,客户行为分析和预测无法实现;l缺乏面向金融业务运营管理的关键绩效指标体系;l数据平台整体架构;l数据平台各层建设的标准;l较成熟的金融业数据模型;l数据质量治理;l数据标准建设l数据应用建设;l数据平台的软硬环境企业数字化底座与数字化建设目标通过数据平台和BI应用建设,集团将搭建统一的大数据共享和分析平台,对各类业务进行前瞻性预测及分析,为集团各层次用户提供统一的决策分析支持,提升数据共享与流转能力行+列的简单定义方式多种格式报表BI分析工具统一制定目标和分行+列的简单定义方式多种格式报表BI分析工具关注集团主要经营指标统一定义BI应用集团决策层关注集团主要经营指标统一定义BI应用集团决策层查看职能部门的查看职能部门的业务经营情况业务经营情况业务人员使用BI业务人员使用BI应用实现业务协作和创新集团职能管控层外部非结构化数据统一规划分析方法统一划分分析主题统一设计数据模式集团职能管控层外部非结构化数据统一规划分析方法统一划分分析主题统一设计数据模式统一部署技术基础供应链金融系统供应链金融系统POP系统采购管理系统其他业务系统各级业务操作层POP系统采购管理系统其他业务系统企业数字化底座与数字化建设预期收益通过数据平台实现数据集中,确保集团各级部门均可在保证数据隐私和安全的前提下使用数据,充分发挥数据作为集团重要资产的业务价值实现分散在供应链金融、人人贷、保理等各个业务系统中的数据在数据平台中的集中和整合,建立单一的产品、客户等数据的集团级视图,有效促进业务的集成和协作,并为集团级分析、交叉销售提供基础集团业务人员可以基于明细、可信的数据,进行多维分析和数据挖掘,为金融业务创新(客户服务创新、产品创新等)创造了有利条件通过数据平台对数据进行集中,为管理分析、挖掘预测类等系统提供一致的数据基础,改变现有系统数据来源多、数据处理复杂的现状,实现应用系统建设模式的转变,提升相关IT系统的建设和运行效率从中长期看,数据仓库对集团分散在各个业务系统中的数据整合、清洗,有助于集议程企业数字化底座与数字化综述33企业数字化底座与数字化规划设计44企业数字化底座与数字化建设运营企业数字化底座与数字化未来展望企业数字化底座与数字化总体架构数据管控层数据安全数据质量元数据数据标准数据管控平台数据安全数据质量元数据数据标准流程调度平台流程调度监控告警流程调度层内部管理分析数据增值产品实时数据查询业务沙盘演练大数据交换组件数据库数据交换组件数据区数据交换组件数据交换平台集团内外部半结构化、非结构化数据人人贷系统基金系统……系统集团扶贫供应链金融流程调度平台流程调度监控告警流程调度层内部管理分析数据增值产品实时数据查询业务沙盘演练大数据交换组件数据库数据交换组件数据区数据交换组件数据交换平台集团内外部半结构化、非结构化数据人人贷系统基金系统……系统集团扶贫供应链金融外部用户历史数历史数据查询实时数据区实时数据区历史归档数据区社交媒体用户评价移动互联访问日志客户汇总客户主题账户汇总协议主题机构汇总产品主题扶贫数据供应链数据……增值产品数据区财务管理风险管理沙盘演练数据区应用集市数据区处理后大数据待处理大数据主题数据区贴源数据区大数据区客户管理……企业数字化底座与数字化总体架构——数据产生层l内部业务系统产生的结构化数据集团日常扶贫处理过程中产生的结构化数据,存储在关系型数据库中,如:供应商信息、采购信息、商品信息、销售流水……集团日常业务处理过程中产生的结构化数据,存储在关系型数据库中,如:客户信息、账户信息、金融产品信息、交易流水……日常业务处理过程中产生的非结构化数据,存储形式多样,主要包括用户访问日志、用户投诉、用户点评……集团外部数据以非结构化为主,主要包括国家政策法规、论坛等互联网信息、地理位置等移动信息、微博等社交媒体信息……l在本次项目实施中将采用以增量为主、全量为辅结合的方式获取源数据l集团和集团业务系统的数据增量数据识别、获取由云数据推送平台负责,云数据推送平台采用分析、对比源系统日志方式实现对于无法通过上述方式获取增量的源系统数据,则采用某一个时间范围内的全部数据作为增量初始数据加载均采用全量模式企业数字化底座与数字化总体架构——数据交换层传输组件是根据数据源存储的不同分类而设计的,本质是通过分析数据存储结构和数据存储库的特点来针对性的设计工具,以追求卓越的性能件据据企业数字化底座与数字化总体架构——数据交换层NAS存储存储数据平台各个Hadoop集群的元数据信息,如:HDFS文件系统集团数据交换平台每日获取运输局推送平台提供的业务系统变化数据,暂存在NAS临时数据区金融数据平台加工计算结果返回给业务系统,暂存在NAS临时数数据平台ETL加工处理程序(数据压缩、数据加载、各数据数据处理等)统一存储在NAS集群指定目录,各接口服务器通过文件企业数字化底座与数字化总体架构——数据交换层大数据交换组件、半结构化数据,如:音频、视频、邮件、Office文档、抵押品扫描件等、半结构化数据,如:微博、贴吧、论坛、用户点击流、用户移动位置等两种模式实现下列数据传输到数据交换NAS指定目录存储数据到数据平台大数据区指定HDFS目源以SFTP协议批量传输数据文件Java或C应用,调用大据源API,或以网络平台爬虫方式抓取源系统非结构化、半结构化数据日志,加载到数据平台大数据区HDFS指定目录,MR程序加工处理抓取用户微博内容入大数据区企业数字化底座与数字化总体架构——数据交换层数据库数据交换组件生的结构化数据,包括两大来源:集团扶贫数据,数据存MongoDB四类数据库集团互联网金融业务数据,数据存储在MySQL式实现下列功能:数据采集,轮询NAS集群指定目录,获取数据数据核查,对数据文件进行质量校验数据加载,加载数据到数据采集,调用Perl文件模块相关函数,轮询指定目录,获取数据文件数据核查,Perl执行文件级数据质量检查数据加载,调用HiveLoad数据命令,加载到数据平台临时数据区的HiveTable供应链金融系统数据库,分析供应链金融MySQL数据库日志,识别增量数据,存储到金融平台NAS存储的指定目录,金融平台加载数据文件到数据平台临时区Hive表企业数字化底座与数字化总体架构——数据交换层数据区数据交换组件集市数据区现下列数据交换功贴源数据区和主题数据区到集市数据区大数据区到主题数据主题数据区、贴源数据区、集市数据区到沙盘数据区各个数据区数据归档区与数据平台其他Hadoop数据区的数据交换lHadoop命令、Hive外部表、MR程序实现数据平台Hadoop数据区间的数据交照据生命周期规划归档到历史数据归企业数字化底座与数字化总体架构——流程调度层批量处理流程企业数字化底座与数字化总体架构——流程调度层实时数据处理流程术构建“数据流”企业数字化底座与数字化总体架构——流程调度层归档数据处理流程企业数字化底座与数字化总体架构——数据存储层数据内容数据内容主要用途数据模型数据模型保留周期访问模式访问模式工作负载工作负载平台要求平台要求临时数据区临时数据区ll缓存数据,支持后续ELT数据处理l贴源数据区和主题数据区批量作业访问l少量量数据使用Hive的Load命令,大量数据使用MR程序l与主题区/贴源区/集市区构成一个Hadoop集群(Hive)l无单点故障,7×24小时+非工作日有限停机贴源数据区贴源数据区l业务系统前日快照数据和一段时间的流水数据l业务系统前日快照数据和一段时间的流水数据l数据标准化,为后续主题模型、集市和沙盘演练提供数据l主题数据区、集市数据区和沙盘演练数据区批量作业访问l与主题区/贴源区/集市区构成一个Hadoop集群(Hive)l无单点故障,7×24小时+非工作日有限停机企业数字化底座与数字化总体架构——数据存储层(续)数据内容数据内容主要用途数据模型数据模型保留周期访问模式访问模式工作负载工作负载平台要求平台要求大数据区大数据区l集团内外部非结构化、半结构化数据ll集团内外部非结构化、半结构化数据l采集并存储数据,进行结构化处理,最终得到结构化数据l集市区/沙盘区/增值产品区/主题区/归档区批量作业访问l少量高级业务人员进行大数据分析lMapReduce分布式计算,半/非结构化数据的结构化处理(包括文本检索、语义分词、图像识别、音频识别等)l与主题区/贴源区构成一个Hadoop集群(HDFS)l无单点故障,7×24小时+非工作日有限停机历史归档数据区历史归档数据区l按数据生命周期规划归档平台过期数据,支撑历史数据查询l数据文件按照数据区划分目录,建议保留7年l集市区/沙盘区/增值产品区/主题区/高时效区批量作业访问l业务人员执行历史数据查询Sqoop实现数据库归档,通过Hive提供历史查询l无单点故障,7×24小时+非工作日有限停机企业数字化底座与数字化总体架构——数据存储层(续)数据内容数据内容主要用途数据模型数据模型保留周期访问模式访问模式工作负载工作负载可用性要求可用性要求主题数据区—明细主题数据区—明细l保留长期历史,需要根据主题细化l主题区/集市区/沙盘区/增值产品区/归档区批量作业访问l少量高级业务人员进行灵活查询、挖掘预测l与大数据区/贴源区构成一个Hadoop集群(Hive)l无单点故障,7×24小时+非工作日有限停机主题数据区—汇总主题数据区—汇总l对主题数据预加工后的结果数据l对主题数据预加工后的结果数据l针对应用需求进行数据预连接、预汇总,为集市提供数据l集市区/沙盘区/增值产品区/归档区批量作业访问l少量高级业务人员进行灵活查询、挖掘预测l与大数据区/贴源区构成一个Hadoop集群(Hive)l无单点故障,7×24小时+非工作日有限停机企业数字化底座与数字化总体架构——数据存储层(续)数据内容数据内容主要用途数据模型数据模型保留周期访问模式访问模式工作负载工作负载可用性要求可用性要求沙盘演练数据区沙盘演练数据区l按沙盘演练需求,准备的明细或汇总业务数据l按沙盘演练需求,准备的明细或汇总业务数据l为数据科学家的挖掘预测操作提供数据服务l模型依赖于沙盘演练需求l在整个沙盘演练周期内保留l集市区/沙盘区/归档区批量作业访问l少量高级业务人员进行灵活查询、挖掘预测lI/O敏感,终批量ETL(合并、拉链、关联、汇总等等)l无单点故障,7×24小时+非工作日有限停机应用集市数据区应用集市数据区l面向集团内部管理分析类应用需求的汇总数据l面向集团内部管理分析类应用需求的汇总数据l为客户、运营等管理分析主题和数据增值产品提供数据服务l沙盘区/归档区批量作业访问l决策人员、管理人员、业务人员访问lI/O敏感型,BI工具提交的报表、查询、分析SQL命令和日终批量ETL(汇总、聚集等操作,以ELT形式通过SQL执行)l基于开放平台的完全无共享MPP数据库集群+内存数据库l无单点故障,7×24小时+非工作日有限停机企业数字化底座与数字化总体架构——数据存储层(续)数据内容数据内容主要用途数据模型数据模型保留周期访问模式访问模式工作负载工作负载可用性要求可用性要求增值产品数据区增值产品数据区l根据外部用户的数据使用需求数据平台加工计算的结果数据ll根据外部用户的数据使用需求数据平台加工计算的结果数据l为部署在数据平台上的集团内外部增值产品提供数据支持l应用模型,依赖于用户业务需求l集团外部人员,如:客户l通过自己部署在Paas平台上的应用访问lI/O敏感型,BI工具提交的报表、查询、分析SQL命令和日终批量ETL(汇总、聚集等操作,以ELT形式通过SQL执行)l独立的Paas平台,部署Hadoop集群l无单点故障,7×24小时+非工作日有限停机实时数据区实时数据区l面向应用的业务系统快照数据和一段时间的交易流水l面向应用的业务系统快照数据和一段时间的交易流水l为实时获准实时分析应用提供数据服务l高时效、高并发、高可靠性的联机交易类查询lCPU敏感,BI工具或业务系统高并发、高时效查询,以及准实时连续ETL处理+SQL批量处理l无单点故障,365×24小时不停机企业数字化底座与数字化总体架构——数据存储层数据流临时数据区非结构化&半结构化数据主题明细数据公共汇总数据临时数据区非结构化&半结构化数据主题明细数据公共汇总数据实验室数据结构化数据企业数字化底座与数字化总体架构——数据应用层l实时分析类应用通常使用CEP、ESB等技术实现l客户经理等最终业务人员针对当前业务的发生(如:用户交易、用户访问日志),l实时分析类应用通常使用CEP、ESB等技术实现ll管理分析类应用主要实现了集团客户管理、运营管理、财务管理、风险管理、监管信息披露五大分析体系功能l管理分析类应用通常采用套装软件和BI工具(MicroStrategy等l针对公检法查询需求、内外部审计需求和最终用户的历史交易查询需求,以贴源存储的归档数据为基础,实现的查询类应用l历史查询类应用通常使用BI工具或自主开发实现l业务人员根据业务需求或自己对业务的理解,设计计算模型,准备各类明细或汇总数据,导入模型运算,验证业务结果l沙盘演练类应用通常使用R语言在Hadoop分布式体系下实现l集团数据科学家根据自己对业务需求的理解或者对市场的判断,设计并运行模型,发掘数据价值l数据增值产品通常采用R语言和BI工具实现,面向集团内外部用户企业数字化底座与数字化总体架构——平台发展不同阶段对应应用动态数据仓库阶段让正确的事情发生!数据量增长用户数增长操作为主阶段查询复杂度增长操作为主阶段ETL处理复杂度增长什么正在发生?ETL处理复杂度增长预测为主阶段工作负载复杂度将会发生什么?工作负载复杂度分析为主阶段为什么会发生报表为主阶段发生了什么大数据平台发展阶段划分数据分析持续更新加载/短查询基于事件的动态触发大数据平台发展阶段划分企业数字化底座与数字化总体架构——管理分析类应用求公司客户信息管理个人客户信息管理同业客户信息管理重点客户关怀客户风险客户异动客户个人客户细分公司客户细分客户轮廓分析产品交叉销售分析百分比分析渠道偏好分析营销活动规划营销活动定义营销活动执行营销活动苹果渠道接口与集成流程自动化流动性报表利率敏感性报表资本充足率报表……市场风险暴露值流动性管理、利率管理信用风险暴露值计算信用风险控制(贷前控制、贷中监控、贷后分析)异常交易预警后督差错检查……定义欺诈交易模型可能性欺诈交易预警欺诈交易分布分析客户经理工作量评估客户经理服务客户收益评估供应链金融业务人人贷业务保理业务基金业务其它中间业务……资产负债表分析损益表分析现金流量表分析财务指标分析机构贡献度产品贡献度客户细分贡献度渠道绩效主要指标报告,如:净利息收入、净收入、净现值、市场价值等头寸报告现金流报告风险价值(VaR)计算财务预算财务计划执行监控执行过程分析年末财务计划执行分析业务规模预测收益预测企业数字化底座与数字化总体架构——数据访问层多种展现形式满足各层级用户及应用系统使用需求即席查询即席查询静态报表多维分析仪表盘问题发现Office集成Web服务挖掘预测l仪表盘:通过仪表盘及其它展现方式对集团关键绩效指标进行展示,为领导层决策提供直观的数据支持l静态报表:按照预先定义格式,批处理报表,在线查询报表等业务系统lOffice集成:将分析应用嵌入到Office界面中,利用Office的方便、易用特性,降低用户使用难度业务系统l即席查询:通过即席查询工具或手工书写SQL语句,完成业务信息的即席查看l多维分析:从多个维度灵活组合对目标值进行分析,常见功能包括上下钻取、透明钻取、旋转、分页、层钻、跨维钻取等业务人员业务人员l主动问题发现:通过事件触发、规则匹配等方式发现集团运营中的问题,通过手机、邮件等方式报警l挖掘预测:使用专业的软件工具,通过数理统计等高级统计分析算法,分析结构化、非结构化数据,通过数据模型去挖掘隐藏在数据中的价值数据科学家lWeb服务:将分析应用的功能发布为Web服务,注册在集团服务总线上,供其它业务系统或分析应用调用,获取分析结果企业数字化底座与数字化总体架构——数据管控层金融数据管控体系涵盖组织架构、评价与考核、管控流程、管控平台四个域。组织建立/维护组织建立/维护标准建立/维护考核指标建立/维护流程评价与考核流程数据与信息标准化委员会数据管理人数据所有人数据生产人数据使用人IT支持团队考核指标责任评价标准执行评价政策执行评价数据标准数据质量元数据数据安全技术元数据评价标准数据认责数据创建数据存储数据移动数据共享数据停用真实性定义及时性定义完整性定义一致性定义数据类型数据格式业务分类业务含义与业务元数据管理元数据数据全生命周期权限定义保留策略安全等级数据标准管理元数据管理数据安全管理数据质量管理工作流管理企业数字化底座与数字化总体架构——数据管控体系内部运转机制管控组织管控流程o数据产生者o数据使用者o数据接入流程o数据变更流程o数据授权流程o数据退役流程o标准/政策制定流程o评价考核流程o……o遵守标准所需要的政策o政策与标准遵从考评定义o数据管控委员会o数据所有人o数据认责人管控组织管控流程o数据产生者o数据使用者o数据接入流程o数据变更流程o数据授权流程o数据退役流程o标准/政策制定流程o评价考核流程o……o遵守标准所需要的政策o政策与标准遵从考评定义o数据管控委员会o数据所有人o数据认责人流程支撑评价与考核o标准(数据标准、质量要求、安全要求)o管控平台元数据管理o业务元数据管理o技术元数据管理o管理元数据分析管控综合管理o标准/规范管理o流程管理o考核仪表盘数据质量管理o稽核规则管理o数据稽核o质量报告流程支撑管控过程中的组织结构、角色、职责等。管控组织除了要负责制定数据标准、质量、安全等要求外,还需要负责制定管控的相关流程和评价考核指标等内容。规范了数各个环节日常任务处理的运作模式,例如数据定义如何变更、数据冲采用专门的技术平台支撑管控流程的自动化,发布管控组织制定的一些相关标准和规范,及时反映管控过程中存在的一些问题等。通过建立一些定性或定量的数据管控评价考核指标,去评估及考核数据相关责任人职责履行情况、数据管控标准及数据政策的执行情况等。企业数字化底座与数字化总体架构——数据管控组织数据主管业务人数据主管业务人运维组织实施项目组数据主管业务人员员员据管理员员员员数据管控经理企业数字化底座与数字化总体架构——数据标准管理定性考评数据标准分析报告定量考评数据标准理念推广定性考评数据标准分析报告定量考评数据标准理念推广数据分类数据结构关键业务对象关键代码数据维度代码映射数据标准客户类数据标准产品类数据标准企业数字化底座与数字化总体架构——数据质量管理数据质量要求确认,根据业务要求制定和明确数据质量要求,同时也需要符合数据标准的要求;数据质量考评,对数据质量的量化评价制定数据质量问题解决方案,根据数据质量考评和日常工作中发现的数据质量问题,实施相应的措施业务规则数据一致性要求数据完整性要求数据唯一性要求数据准确性要求数据及时性要求不定期数据质量检查数据质量验证规则数据质量考核指标数据质量数据质量分析报告数据质量监控手工修正数据补录企业数字化底座与数字化总体架构——元数据管理l业务元数据:面向业务人员,从业务术语、业务描述、业务指标和业务规则等几个方面对企业数字化底座与数字化总体架构——数据安全管理数据安全分级:根据业务要求,制定一系列的数据安全分级标准和政策,为数据应用以及数据管理中实施数据安全保护和访问提供数据安全控制的基础。数据访问授权:数据访问授权的主要工作是根据数据安全分级标准,定义数据访问的授权方法及流程,建立基于数据安全分级的数据使用授权机制,实现数据访问和信息披露的安全。数据敏感度数据安全等级定义数据重要性数据使用需求数据访问授权规则数据使用者权责数据敏感度数据安全等级定义数据重要性数据使用需求数据访问授权规则数据使用者权责企业数字化底座与数字化总体架构——高阶工作流程l业务数据规划管理高阶流程数据认责流程数据认责流程数据治理考核流程数据治理考核指标体系l数据标准管理管理高阶流程l数据质量管理管理高阶流程l元数据管理高阶流程数据标准、质量、元数据、安全管理流程数据标准、质量、元数据、安全管理流程l数据安全管理管理高阶流程企业数字化底座与数字化总体架构——数据管控平台数据管控平台统一用户集成界面数据管控平台统一用户集成界面………………数据管控平台知识库数据标准知识库元数据知识库质量稽核库数据管控平台知识库数据标准知识库元数据知识库质量稽核库企业数字化底座与数字化总体产品框架增值产品平台D历史归档查询平台(Hadoop集群+Hive)p实时分析平台实时分析平台(内存数据库)流程调度平台管理分析平台流程调度平台管理分析平台沙盘演练平台数据管控平台基础计算平台(贴源数据区+主题数据区+大数据区)数据管控平台基础计算平台(贴源数据区+主题数据区+大数据区)Copyfromloal数据交换平台云数据推送平台SFTP/HTTP/API云数据推送平台业务系统结构化数据非结构化半结构化数据业务系统结构化数据非结构化半结构化数据议程企业数字化底座与数字化综述企业数字化底座与数字化总体架构44企业数字化底座与数字化建设运营企业数字化底座与数字化未来展望对集团价值的创造企业数字化底座与数字化规划设计对集团价值的创造持续优化提升阶段持续优化提升阶段搭建大数据处理平台和实时分析平台,应用方面开展实时分析和数据产品封装以基础平台搭建为主,配合集团数据产品封装初期业务开展,应用建设从客户信息管理、风险管理和运营管理深化分析体系,形成深度智能化业务分析初期业务开展,应用建设从客户信息管理、风险管理和运营管理性能持续优化、数据平台持续完善、持续深化数据管控体系,形成集团集团级的数据管控体系开展客户信息管理、信用风险评级和业务统计分析三类应用建设性能持续优化、数据平台持续完善、持续深化数据管控体系,形成集团集团级的数据管控体系开展客户信息管理、信用风险评级和业务统计分析三类应用建设开展贴源数据整合,初步建立集团级数据视图,实现对管理分析类应用和实时分析类应用的支撑规划数据管控蓝图,初步实施数据质量和技术元数据管理应业务分析框架技基础数据平台管数据管控体系全面开展内部管理分析、实时分析和沙盘演练应用建设,初步展开增值数据产品开发工作全面开展企业数字化底座与数字化建设,引入更多数据源,丰富并完善平台数据区建设随着应用体系的搭建,完善数据质量和元数据建设,开展数据标准化工作第一阶段第一阶段第二阶段第三阶段2013年2013年2014年——2015年2015年以后企业数字化底座与数字化演进说明——基础数据平台企业数字化底座与数字化演进说明——数据管控企业数字化底座与数字化演进说明——应用体系议程企业数字化底座与数字化综述企业数字化底座与数字化总体架构33企业数字化底座与数字化规划设计企业数字化底座与数字化未来展望金融企业数字化底座与数字化一期架构l基础计算平台:基于Hadoop集群构建,按照业务条线、以贴源数据模型存储了业务系统明细数据l数据交换平台:NAS集群实现了进出数据平台数据的暂存,业务数据交换组件实现了业务系统每日增量数据加载,数据区数据交换组件实现了基础计算平台与管理分析平台间的数据交换l流程调度平台:自主开发的流程调度引擎实现整个数据平台的数据处理任务调度和运行l管理分析平台:由X86分析型数据库集群、BI软件1J2EE应用构成,实现了面向应用的数据加工、管理、分析服务l实时分析平台:由高档X86服务器组成的集群,实现高时效、高并发的实时、准实时类管理分析需求数据交换平台—平台逻辑架构金融企业数字化底座与数字化金融企业数字化底座与数字化加载服务器加载服务器文件归档文件加载文件级检核文件归档文件加载文件级检核l数据交换平台由FTP服务器、加载服务器和NAS存储组成,完成业务系统数据的获取、加载和归档加载服务器加载服务器文件归档文件加载文件级检核文件归档文件加载文件级检核文件到达事件监控文件到达事件监控lFTP服务器:利用LVS构成的FTP集群,接收云数据推送平台处理后的数据,存储在NAS集群的指定目录文件到达事件监控文件到达事件监控l加载服务器:部署ETL任务,实现指定目录的文件到达监控、文件级检核、数据加载(HiveLoad)到临时数据区,同时归档(copyfromlocal)历史数据区LVS集群:负载均衡服务器lNAS集群:按照日期和源系统划分目录,缓LVS集群:负载均衡服务器l云数据推送平台实现源系统数据一次获取获、按需分发。l平台采用GoldenGate、JBUS、l云数据推送平台实现源系统数据一次获取获、按需分发。l平台采用GoldenGate、JBUS、Flume等技术获取增量数据,存储在MySQL集群通过FTP传输到NAS指定目录数据交换平台—参与方责任划分数据交换平台—业务系统数据抽取实现方式云数据推送平台通常按照T+1频率为集团提供数据,具体频4.金融企业数字化底座与数字化部署在不同加);数据交换平台—平台部署架构l数据交换平台由8台X86服务器和一个X86服务器按照功能分为2组,一组实现数据获取,一NAS集群作为公共数据区,由8台服务器共享访问(加载服务器1加载服务器4LVS服务器4LVS服务器1加载服务器1加载服务器4LVS服务器4LVS服务器1FTPPythonJSSModulePythonFTPPythonJSSModulePythonruntimeRedhatLinux加载任务HiveHDFSClientRedhatLinux加载任务HiveHDFSClientRedhatLinuxPythonJSSModulePythonruntimeRedhatLinux据文件加载和据文件加载和责多个源系统减少服务器LVS1负载均衡其它LVS服务器负责接收接口文件,写入NAS集群目录l支持按需扩展/减少服务器lNAS集群NAS集群l按日期和源系统建立数据目录,缓存每日接口l按日期和源系统建立数据目录,缓存每日接口文件,供交换平台访问l流程调度平台—平台逻辑架构理流程调度平台—流程调度元数据lTaskAutomation的元数据统一存储在MySQL数据库中任务定义,包括任务名称、描述、运行服务器、运行状态、运流程调度平台—任务调度引擎定时触发,按照预先定义的时间周期,如每日、每周、每月,或任何有规律的时间间隔执行任务。目前可明确的任务主要是每月执行的基础计算平台、管理分析平台数据归档。事件触发,按照特定的事件触发、执行任务。如:数据文件到达指定目录,会触发数据加载任务。同样,流程失败也会触发新的job,如错误处理、例外处理等。手动触发系统管理员可以使用TaskAutomation提供的界面或命令接口执行一些job。这些job的功能通常包括对特定范围的数据进行审计与验证、对特定范围的数据进行针对性很强的数据清洗、或者是对某流程失败后的修复。流程调度平台—集群可靠性和可扩展性流程调度所需的元数据信息统一保存在MySQL数据库中,集群中任何服务器发生故障不会破坏元数据完整性。服务器定其他服务器执行任务即可,故障不会影响任务依赖关系、任务组关系。流程调度集群由多台服务器构成,按工作负载划分不同角色,分别实现ETL处理过程中不同类型任务的调度。当某类调度工作负载较大时,可通过增加服务器的方式,实现集群的横向扩展流程调度平台—平台部署架构l按数据区划分工作流l按数据区划分工作流作流部署在数据交换换平台的加载服务器l贴园区和汇总区工作流分别部署独立的服临时/归档区调度服务器4临时/归档区调度服务器1贴源区调度服务器汇总区调度服务器TaskAutomationTaskTaskAutomationTaskAutomationTaskAutomationTaskAutomationHadoopHiveHadoopHadoopHiveHadoopHiveHadoopHiveHadoopHivePerlRuntimePerlPerlRuntimePerlRuntimePerlRuntimePerlRuntimeMySQLClientMySQLMySQLClientMySQLClientMySQLClientMySQLClientRedhatLinuxRedhatRedhatLinuxRedhatLinuxRedhatLinuxRedhatLinuxMasterNodeMasterNodeMySQL从服务器MySQL主服务器lMySQL主-从集群,存储临时区、归档区、贴源区和汇总区数据处理任务定义,任务依赖关系MasterNodeMasterNodeMySQL从服务器MySQL主服务器基础计算平台—平台逻辑架构基础计算平台—临时数据区包含内容源系统抽取过来的增量/全量企业数字化底座与数字化要整务审计、财务研发、大物流、据部和移动客户端等研发体系的各业务系统。基础计算平台—贴源数据区包含内容作为整个数据平台的基础数据作为整个数据平台的基础数据市层等数据区提供数据支撑。财务研发、大物流、供应链、动客户端等研发体系的各业务基础计算平台—汇总数据区包含内容针对客户管理、风险评级和业务量统计设计明细数据进行预汇总、预连接和预加工后的结果数据。对明细数据对明细数据进行预汇总、预连基础计算平台—平台部署架构lNN负责HDFS元数据管理,元数据信息存储在NAS集群指定目录l通过硬件冗余、RAID0+1、SlaveNN等技术实现高可用性NameNodeNameNodelSecondaryNN负责HDFS元数据备份管理,lSecondaryJobTracker负责MR计算集群JobTracker高可用性Name&JobTrackerName&JobTrackerlJobTrackerNode负责MR任务分配l通过心跳信号检测TaskTracker活JobTrackerNodeJobTrackerNodeDataNodeTaskTrackerNode服务器70l70台服务器是DataNodeTaskTrackerNode服务器70l70台服务器是HDFS数据节点,临时数据区和贴源整合区作为独立的数据库部署在此服务器上,并按照3份冗余l70台服务器是MR提交的SQL语句,转化成MR任务分配到每台服务器上执行DataNodeTaskTrackerNode服务器1基础计算平台—平台网络拓扑……管理分析平台—平台逻辑架构l客户信息管理,采用J2EE框架自主开发,数据集市构建于分析型数据库集群l运营绩效管理,采用MicroStrategy开发,数据集市构建于分析型数据库集群管理分析平台—安全管理授权管理认证管理授权管理授权管理账户管理身份管理审计管理授权管理账户管理身份管理审计管理平台安全管理信息库账户信息账户信息权限信息日志信息企业数字化底座与数字化物理架构l平台所有服务器均采用标准X86PC服务器l系统划分为三个子网WEB服务子网,两台服务器构成的Tomcat集群应用服务子网,两台服务器构成的MicroStrategy数据服务子网基础计算平台,73台服务器构成的Hadoop集群数据集市平台,30台服务器构成的?集群流程调度平台,7台服务器构成的TaskAutomation集群数据交换平台,5台服务器与云数据推送平台接口,分别实现不同业务系统的数据获取企业数字化底座与数字化一期硬件配置服务器类型服务器功能数量CPU操作系统333企业数字化底座与数字化一期硬件配置(续)服务器类型服务器功能数量CPU操作系统57器2台4器422企业数字化底座与数字化一期硬件配置(续)企业数字化底座与数字化一期软件清单类型软件清单类型软件清单基础计算平台管理分析平台数据集市服务器?历史归档查询平台Centos6.3实时分析平台内存数据库服务器Centos6.3管理分析&实时分析平台BI应用服务器MicroStrategy9.3数据交换平台流程调度&ETL平台管理分析&实时分析Tomcat7.0平台WEB服务器Centos6.3议程企业数字化底座与数字化综述企业数字化底座与数字化总体架构33企业数字化底座与数字化规划设计44企业数字化底座与数字化建设运营数据质量管理平台技术架构数据质量检查规则配置模块作为Java数据质量检查规则配置模块作为JavaWeb应用部署在金融数据平台Tomcat集群上,数据质量管理员通过统一的Web服务访问,实现检查规则的维护数据质量管理系统元模型包含检查规则、检查执行结果、分析报告,模型作为一个独立的Schema部署在决策分析报表平台的数据库数据质量分析报告展现模块作为JavaWeb应用部署在金融数据平台Tomcat实现日报、月报的浏览、下载等功能数据质量检查规则执行模块作为多个ETL任务部署在金融数据平台ETL服务器上,由Automation工作流调度服务统一调度运行,实现各个数据区技术和业务数据质量检查数据质量分析报告生成模块作为一个ETL任数据质量分析报告展现模块作为JavaWeb应用部署在金融数据平台Tomcat实现日报、月报的浏览、下载等功能数据质量检查规则执行模块作为多个ETL任务部署在金融数据平台ETL服务器上,由Automation工作流调度服务统一调度运行,实现各个数据区技术和业务数据质量检查数据质量分析报告生成模块作为一个ETL任务部署在决策分析报表平台ETL服务器上,由Automation工作流调度服务统一调度运行,按照每日、每月生成各数据区数据质量检查报告数据质量检查执行服务检查规则执行服务检查点1云数据推送平台接口文件级规范性检查任务说明任务类型ETL任务——技术型检查ETL阶段云数据推送平台->金融数据交换平台NAS存储指定目录执行频率每日执行执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在ETL服务器上执行检查对象云数据推送平台按照接口规范导出的业务系统每日增量数据文件和控制文件检查内容接口文件是否存在,接口文件名称是否正确,接口文件是否通过MD5校验实现技术Linux脚本语言,Perl或Python成功阈值所有规则通过检查依赖任务N/A触发任务数据加载检查规则执行服务检查点2临时区数据技术性检查任务说明任务类型ETL任务——技术型检查ETL阶段临时数据区->贴源整合数据区执行频率每日执行执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行检查对象云数据推送平台按照接口规范导出的业务系统每日增量数据检查内容日期、时间格式检查;主键唯一型检查;外键参照完整型检查;关键字段取值完整性检查实现技术成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务接口文件级规范性检查任务触发任务贴源数据整合任务检查规则执行服务检查点3汇总区业务性检查任务内容说明任务类型ETL任务——业务型检查ETL阶段贴源整合数据区->汇总数据区执行频率每日/月/季执行执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行检查对象汇总数据区的数据检查内容业务逻辑检查:通过对若干个汇总值/指标值的运算,来检验各个汇总值/指标间潜在的平衡或其他比较关系实现技术HiveSQL成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务贴源整合数据区数据处理完成触发任务集市数据区应用数据生成检查规则执行服务检查点4.1应用集市区技术性检查任务内容说明任务类型ETL任务——业务型检查ETL阶段汇总数据区->应用集市数据区执行频率每日/月/季执行执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在应用集市数据库集群上执行检查对象应用集市数据区的数据检查内容主键唯一型检查;外键参照完整型检查;关键字段取值完整性检查实现技术成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务汇总数据区数据处理完成触发任务N/A检查规则执行服务检查点4.2应用集市区业务性检查任务内容说明任务类型ETL任务——业务型检查ETL阶段汇总数据区->应用集市数据区执行频率每日/月/季执行执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在应用集市数据库集群上执行检查对象应用集市数据区的数据检查内容业务逻辑检查:通过对若干个指标值的运算,来检验各个指标间潜在的平衡或其他比较关系数值检查:主要是通过对单个指标值的监控来发现数据的异常、突变等情况波动检查:通过对单个指标值一段时间内的数值变化情况来检查数据的波动、变化情况一致性检查:通过对两个指标按某几个维度展开后的增减幅度来发现数据的波动、变化情况实现技术成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务汇总数据区数据处理完成触发任务N/A数据质量管理分析报告生成服务器上的ETL任务,按照任务流程被TaskAutomation统一调度执平均值数据质量管理分析报告指标定义指标分类指标名称指标说明对应报告(XX系统)》(XX系统)》(XX系统)》),(XX系统)》分析报告生成服务:源系统数据交换质量日报明细报告生成任务内容说明任务类型ETL阶段分析报告生成阶段执行频率每日执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上执行评价对象数据质量检查点1、2对应的检查任务执行结果评价指标接口传输及时率、接口传输完整率、接口准确率实现技术MySQLSQL命令依赖任务ETL处理完成触发任务数据质量汇总日报生成任务分析报告生成服务:数据质量汇总日报数据质量汇总日报生成任务内容说明任务类型ETL任务——汇总日报生成ETL阶段分析报告生成阶段执行频率每日执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上执行评价对象数据质量检查点2、3、4对应的检查任务执行结果评价指标记录正确率实现技术MySQLSQL命令依赖任务源系统数据交换质量日报生成触发任务数据质量汇总月报生成任务分析报告生成服务:数据质量汇总月报任务内容说明任务类型ETL任务——汇总月报生成ETL阶段分析报告生成阶段执行频率每月月初执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上执行评价对象当月所有数据质量检查点对应的检查任务执行结果评价指标记录正确率实现技术MySQLSQL命令依赖任务数据质量汇总日报生成任务触发任务数据质量管理元信息库采用MySQL数据库,存储数据质量检查规则、数据质量检查结果、数据质量检查报告源系统数据交换质量日报源系统数据交换质量日报标识源系统数据交换质量日报日期源系统数据交换质量日报源系统数据交换质量日报标识源系统数据交换质量日报日期源系统名称接口名称传输及时标志传输完整标志数据日期准确标志名称规范标志记录数准确标志数据格式出错的记录数违反数据值域的记录数违反主键唯一性的记录数违反参照完整性的记录数出错记录数记录准确率IntegerVariablecharacters(32)Variablecharacters(32)Variablecharacters(32)ShortintegerShortintegerShortintegerShortintegerShortintegerIntegerIntegerIntegerIntegerIntegerDecimal(18,2)Identifier_1<pi>检查结果检查规则执行ID检查规则唯一号执行日期开始执行时间结束执行时间结果编码结果描述结果值<pi>IntegerCharacters(8)检查结果检查规则执行ID检查规则唯一号执行日期开始执行时间结束执行时间结果编码结果描述结果值<pi>IntegerCharacters(8)DateTimestampTimestampCharacters(4)Variablecharacters(4096)Integer<M><M>Identifier_1<pi> Re(lt)ionship_2检查规则检查规则唯一号检查规则简单描述检查规则类型检查对象标识检查规则生效标志检查规则是否保存结果标志检查频度ETL任务Identifier_1<pi><pi>Characters(8)Variablecharacters(2048)Characters(2)IntegerCharacters(1)Characters(1)Characters(2)Variablecharacters(32)<M> o(D)。Inheritance_1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论