数字化底座(版)_第1页
数字化底座(版)_第2页
数字化底座(版)_第3页
数字化底座(版)_第4页
数字化底座(版)_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

企业数字化底座(完整版82页精华版50页)议程企业数字化底座与数字化综述1企业数字化底座与数字化总体架构2企业数字化底座与数字化规划设计3企业数字化底座与数字化建设运营4企业数字化底座与数字化未来展望5整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行集团管理分析类应用建设现状基本分析关注的内容存在的问题基本的现状集团数据仓库累积数据没有充分利用缺乏面向整个集团的统一、完整的数据视图;缺乏支撑集团日常业务运转的风险评估体系;缺乏集团客户360度视图,客户行为分析和预测无法实现;缺乏面向金融业务运营管理的关键绩效指标体系;……集团已建立面向整个扶贫的数据仓库,整合了前台业务运营数据和后台管理数据,建立了面向扶贫的管理分析应用;集团已开展供应链金融、人人贷和保理等多种业务,积累了一定量的业务数据,同时业务人员也从客户管理、风险评级和经营规模预测等方面,提出了大量分析预测需求;……数据平台、数据应用、数据管控……基础数据平台和BI应用建设是未来一段时间的重点!数据平台整体架构;数据平台各层建设的标准;较成熟的金融业数据模型;数据质量治理;元数据管理;

数据标准建设数据整合;

数据应用建设;数据平台的软硬环境……议程企业数字化底座与数字化综述1企业数字化底座与数字化总体架构2企业数字化底座与数字化规划设计3企业数字化底座与数字化建设运营4企业数字化底座与数字化未来展望5整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行整理制作:郎丰利1519制作时间:2023年睿利而行企业数字化底座与数字化总体架构历史数据查询数据交换平台应用集市数据区集团扶贫供应链金融人人贷系统基金系统……系统集团内外部半结构化、非结构化数据大数据交换组件数据库数据交换组件数据区数据交换组件数据计算层大数据区沙盘演练数据区数据应用层实时数据区客户主题协议主题产品主题业务沙盘演练数据增值产品扶贫数据供应链数据增值产品数据区主题数据区……用户访问层客户汇总账户汇总机构汇总……社交媒体移动互联用户评价访问日志处理后大数据待处理大数据流程调度监控告警数据标准数据质量元数据数据安全流程调度平台……数据管控平台流程调度层数据管控层数据产生层数据交换层实时数据查询客户管理财务管理……外部用户贴源数据区……内部管理分析内部用户历史归档数据区IT人员风险管理企业数字化底座与数字化总体架构——数据交换层数据交换层设计目标传输组件是根据数据源存储的不同分类而设计的,本质是通过分析数据存储结构和数据存储库的特点来针对性的设计工具,以追求卓越的性能保证数据在平台内高速流转保证数据交换过程中不失真保证数据交换过程中不丢失保证数据交换过程安全可靠数据区数据交换组件数据库数据交换组件大数据交换组件集团系统数据服务层外部大数据集团系统Hadoop元数据云数据推送平台数据平台导入临时区数据平台导出临时区NAS存储ETL程序区企业数字化底座与数字化总体架构——数据交换层NAS存储Hadoop集群元数据区数据平台ETL数据处理程序区数据平台临时数据区存储数据平台各个Hadoop集群的元数据信息,如:HDFS文件系统元数据集团数据交换平台每日获取运输局推送平台提供的业务系统变化数据,暂存在NAS临时数据区金融数据平台加工计算结果返回给业务系统,暂存在NAS临时数据区数据平台ETL加工处理程序(数据压缩、数据加载、各数据数据处理等)统一存储在NAS集群指定目录,各接口服务器通过文件系统Link建立映射企业数字化底座与数字化总体架构——数据存储层(续)集团内外部非结构化、半结构化数据采集并存储数据,进行结构化处理,最终得到结构化数据数据内容主要用途数据模型保留周期用户

访问模式工作负载平台要求数据按照HDFS文件存储建议保留1年集市区/沙盘区/增值产品区/主题区/归档区批量作业访问少量高级业务人员进行大数据分析MapReduce分布式计算,半/非结构化数据的结构化处理(包括文本检索、语义分词、图像识别、音频识别等)与主题区/贴源区构成一个Hadoop集群(HDFS)无单点故障,7×24小时+非工作日有限停机集市区/沙盘区/增值产品区/主题区/高时效区批量作业访问业务人员执行历史数据查询MapReduce分布式计算,HDFS命令实现Hadoop集群内归档,Sqoop实现数据库归档,通过Hive提供历史查询独立的Hadoop集群(HDFS+Hive)无单点故障,7×24小时+非工作日有限停机数据按照HDFS文件存储数据文件按照数据区划分目录,建议保留7年其他各数据区历史数据按数据生命周期规划归档平台过期数据,支撑历史数据查询大数据区历史归档数据区企业数字化底座与数字化总体架构——数据存储层(续)按沙盘演练需求,准备的明细或汇总业务数据为数据科学家的挖掘预测操作提供数据服务数据内容主要用途数据模型保留周期用户

访问模式工作负载可用性要求模型依赖于沙盘演练需求在整个沙盘演练周期内保留集市区/沙盘区/归档区批量作业访问少量高级业务人员进行灵活查询、挖掘预测I/O敏感,终批量ETL(合并、拉链、关联、汇总等等)以ELT形式通过HiveSQL执行,复杂处理使用MR定制UDF独立的Hadoop集群(HDFS)无单点故障,7×24小时+非工作日有限停机沙盘区/归档区批量作业访问决策人员、管理人员、业务人员访问I/O敏感型,BI工具提交的报表、查询、分析SQL命令和日终批量ETL(汇总、聚集等操作,以ELT形式通过SQL执行)基于开放平台的完全无共享MPP数据库集群+内存数据库无单点故障,7×24小时+非工作日有限停机维度数据模型依赖业务需求面向集团内部管理分析类应用需求的汇总数据为客户、运营等管理分析主题和数据增值产品提供数据服务沙盘演练数据区应用集市数据区企业数字化底座与数字化总体架构——数据存储层(续)根据外部用户的数据使用需求数据平台加工计算的结果数据为部署在数据平台上的集团内外部增值产品提供数据支持数据内容主要用途数据模型保留周期用户

访问模式工作负载可用性要求应用模型,依赖于用户业务需求依赖于用户业务需求集团外部人员,如:客户通过自己部署在Paas平台上的应用访问I/O敏感型,BI工具提交的报表、查询、分析SQL命令和日终批量ETL(汇总、聚集等操作,以ELT形式通过SQL执行)独立的Paas平台,部署Hadoop集群无单点故障,7×24小时+非工作日有限停机集团业务人员高时效、高并发、高可靠性的联机交易类查询CPU敏感,BI工具或业务系统高并发、高时效查询,以及准实时连续ETL处理+SQL批量处理独立的内存数据库集群无单点故障,365×24小时不停机贴源数据模型依赖用户业务需求面向应用的业务系统快照数据和一段时间的交易流水为实时获准实时分析应用提供数据服务增值产品数据区实时数据区企业数字化底座与数字化总体架构——数据存储层数据流数据集成层操作型聚合数据临时数据区实时数据区公共汇总数据主题明细数据结构化数据非结构化&半结构化数据沙盘演练数据区实验室数据集市数据区POP自营数据贴源数据区金融业务数据主题数据区客户管理集市财务管理集市运营管理集市风险管理集市……集市大物流系统数据供应链系统数据财务审计数据财务研发数据操作型明细据归档数据区大数据区源系统数据文件贴源数据主题数据集市数据高时效数据大数据增值产品数据区企业数字化底座与数字化总体架构——数据应用层大数据平台应用针对公检法查询需求、内外部审计需求和最终用户的历史交易查询需求,以贴源存储的归档数据为基础,实现的查询类应用历史查询类应用通常使用BI工具或自主开发实现客户经理等最终业务人员针对当前业务的发生(如:用户交易、用户访问日志),进行实时查询、分析的应用管理分析类应用主要实现了集团客户管理、运营管理、财务管理、风险管理、监管信息披露五大分析体系功能管理分析类应用通常采用套装软件和BI工具(MicroStrategy等)实现业务人员根据业务需求或自己对业务的理解,设计计算模型,准备各类明细或汇总数据,导入模型运算,验证业务结果沙盘演练类应用通常使用R语言在Hadoop分布式体系下实现集团数据科学家根据自己对业务需求的理解或者对市场的判断,设计并运行模型,发掘数据价值,并封装成商业产品数据增值产品通常采用R语言和BI工具实现,面向集团内外部用户管理分析类应用1沙盘演练类应用3历史查询类应用4高时效类分析应用5数据增值类产品2实时分析类应用通常使用CEP、ESB等技术实现企业数字化底座与数字化总体架构——平台发展不同阶段对应应用工作负载复杂度大数据平台发展阶段划分操作为主阶段什么正在发生?动态数据仓库阶段

让正确的事情发生!分析为主阶段为什么会发生报表为主阶段发生了什么预测为主阶段将会发生什么?批量随机查询数据分析持续更新加载/短查询基于事件的动态触发数据量增长用户数增长查询复杂度增长ETL处理复杂度增长管理分析类应用历史查询类应用实时分析类应用沙盘演练类应用数据增值类产品企业数字化底座与数字化总体架构——数据管控层金融数据管控体系涵盖组织架构、评价与考核、管控流程、管控平台四个域。数据标准管理数据质量管理元数据管理工作流管理……组织数据与信息标准化委员会数据管理人数据所有人数据生产人数据使用人IT支持团队考核指标责任评价标准执行评价政策执行评价评价标准数据类型数据格式业务分类真实性定义及时性定义完整性定义技术元数据流程评价与考核流程考核指标建立/维护流程标准建立/维护流程组织建立/维护流程评价与考核业务含义一致性定义数据认责平台安全等级权限定义数据停用数据共享数据移动数据存储数据创建业务元数据管理元数据数据全生命周期数据安全管理数据标准数据质量元数据数据安全…………审计定义保留策略……企业数字化底座与数字化总体架构——数据管控体系内部运转机制管控组织数据管控委员会数据所有人数据认责人IT支持……管控流程数据接入流程数据变更流程数据授权流程数据退役流程标准/政策制定流程评价考核流程……评价与考核标准(数据标准、质量要求、安全要求)遵守标准所需要的政策政策与标准遵从考评定义……数据产生者数据使用者………流程支撑流程支撑制定管控平台工具支撑明确了数据管控过程中的组织结构、角色、职责等。管控组织除了要负责制定数据标准、质量、安全等要求外,还需要负责制定管控的相关流程和评价考核指标等内容。考评制定通过建立一些定性或定量的数据管控评价考核指标,去评估及考核数据相关责任人职责履行情况、数据管控标准及数据政策的执行情况等。规范了数据管控过程中,各个环节日常任务处理的运作模式,例如数据定义如何变更、数据冲突如何协调等。采用专门的技术平台支撑管控流程的自动化,发布管控组织制定的一些相关标准和规范,及时反映管控过程中存在的一些问题等。管控综合管理标准/规范管理流程管理考核仪表盘……元数据管理业务元数据管理技术元数据管理管理元数据分析……数据质量管理稽核规则管理数据稽核质量报告……工具支撑组织架构、评价与考核、管控流程、管控工具这四个域相互作用、相互支撑,提供对各信息系统数据的管控。企业数字化底座与数字化总体架构——数据管控组织数据管控组织是数据管控体系中最重要的因素,它负责定义和管理业务数据相关标准,制定遵寻标准所必须的政策,监测正在进行的数据管控行动。数据管控组织是否有完整与合理的角色定义、是否有高层领导的参与,是整个数据管控的成败的关键。典型的数据管控组织如下所示:数据管控负责部门岗位角色数据管控主导方信息管理委员会

数据标准管理员数据质量管理员数据产生部门数据管控参与方业务协调人数据分析员数据主管数据使用部门业务协调人数据分析员数据主管数据拥有部门业务协调人数据分析员数据主管数据管理部门运维组织实施项目组数据安全管理员数据管控经理元数据管理员企业数字化底座与数字化总体架构——数据标准管理消除一数多义,提升数据的唯一性、一致性,将逐步形成的数据标准纳入一个规范的管理流程中,进行数据标准的更新、发布、使用监督等工作。数据标准管理工作可以分为以下几个部分:数据标准建立和维护、数据标准执行、数据标准管理的考评。数据标准建立和维护数据分类数据结构关键业务对象关键代码数据维度代码映射客户类数据标准产品类数据标准。。。类数据标准数据标准执行数据标准管理的考评定性考评定量考评数据标准分析报告数据标准理念推广归档系统……ODS企业数字化底座与数字化总体架构——数据质量管理数据质量管理框架蓝图如下,其中数据质量提升是改进数据质量的手段和质量考评的目的:数据质量要求确认,根据业务要求制定和明确数据质量要求,同时也需要符合数据标准的要求;数据质量考评,对数据质量的量化评价制定数据质量问题解决方案,根据数据质量考评和日常工作中发现的数据质量问题,实施相应的措施,提升数据质量数据质量要求业务规则数据一致性要求数据完整性要求数据唯一性要求数据准确性要求数据及时性要求数据质量标准数据质量验证规则数据质量考核指标数据质量提升数据补录手工修正自动修正数据质量考评数据质量监控不定期数据质量检查数据质量分析报告企业数字化底座与数字化总体架构——元数据管理业务元数据:面向业务人员,从业务术语、业务描述、业务指标和业务规则等几个方面对数据进行描述管理元数据:面向数据管理人员,从运维管理的角度描述数据处理、数据质量和数据安全的状态信息技术元数据:面向技术人员,从数据结构和数据处理细节方面对数据进行技术化描述企业数字化底座与数字化总体架构——高阶工作流程业务数据规划管理高阶流程数据认责流程数据治理考核体系数据治理考核流程数据治理考核指标体系数据标准管理管理高阶流程数据标准建立流程数据标准维护流程数据质量管理管理高阶流程数据质量要求确定流程元数据管理高阶流程元数据变更流程数据安全管理管理高阶流程数据安全审批流程数据认责流程数据标准、质量、元数据、安全管理流程协调会议考核流程企业数字化底座与数字化总体架构——数据管控平台数据管控平台从总体上来说分为数据层、应用层、展现层三个主要层面,以数据层的数据库及相关基础系统为主要信息来源,通过应用层的运算处理,以不同的形式,不同的功能在展现层提供用户接口首页标准管理主菜单指标速递待办事项信息地图标准浏览标准维护工作管理流程管理绩效指标系统管理用户管理权限管理规范管理数据管控平台统一用户集成界面数据标准知识库数据管控平台知识库……元数据管理元数据采集……元数据知识库质量管理规则配置……质量稽核库数据层应用层展现层企业数字化底座与数字化总体产品框架非结构化/半结构化数据管理分析平台(X86MPP集群)业务系统结构化数据基础计算平台(贴源数据区+主题数据区+大数据区)(Hadoop集群+Hive)数据交换平台(自主开发交换组件+NAS存储)实时分析平台(内存数据库)沙盘演练平台(Hadoop集群)数据管控平台FTPSFTP/HTTP/APICopyfromloalQueue云数据推送平台增值产品平台(Hadoop集群)历史归档查询平台(Hadoop集群+Hive)Load(Hive)DistcpHQL+LoadDistcpDistcpHQL+LoadDistcpHQL+LoadSqoopSqoopSqoopMR流程调度平台议程企业数字化底座与数字化综述1企业数字化底座与数字化总体架构2企业数字化底座与数字化规划设计3企业数字化底座与数字化建设运营4企业数字化底座与数字化未来展望5企业数字化底座与数字化规划设计以基础平台搭建为主,配合集团初期业务开展,应用建设从客户信息管理、风险管理和运营管理三方面开展搭建大数据处理平台和实时分析平台,应用方面开展实时分析和数据产品封装开展客户信息管理、信用风险评级和业务统计分析三类应用建设开展贴源数据整合,初步建立集团级数据视图,实现对管理分析类应用和实时分析类应用的支撑规划数据管控蓝图,初步实施数据质量和技术元数据管理2013年2014年——2015年2015年以后对集团价值的创造应管技业务分析框架基础数据平台数据管控体系应技管全面开展内部管理分析、实时分析和沙盘演练应用建设,初步展开增值数据产品开发工作全面开展企业数字化底座与数字化建设,引入更多数据源,丰富并完善平台数据区建设随着应用体系的搭建,完善数据质量和元数据建设,开展数据标准化工作应技管深化分析体系,形成深度智能化业务分析性能持续优化、数据平台持续完善、持续深化数据管控体系,形成集团集团级的数据管控体系应技管一期2013.10当前位置未来持续优化提升阶段第一阶段第二阶段第三阶段企业数字化底座与数字化演进说明——基础数据平台阶段划分建设内容预期效果第一阶段搭建数据交换平台,部署NAS存储集群,设计并实施数据库交换组件和数据区交换组件搭建基础计算平台,设计并实施贴源数据区,以T+1频率整合集团和金融业务数据搭建历史归档查询平台,归档集团和金融业务数据文件搭建内部管理分析应用平台,部署MPP集群和BI分析应用环境搭建实时分析平台,部署内存数据库和实时BI分析环境实现了数据平台内部个数据区之间、数据平台与外部系统间的双向数据传输实现了业务数据按照贴源数据模整合实现了数据按照生命周期的归档管理实现了内部管理分析环境搭建实现实时分析环境搭建第二阶段数据交换平台增强和优化,包括:大数据交换组件设计实施基础计算平台增强,包括:引入更多的数据源,增强贴源数据区;设计并实施主题数据区,打破业务条线整合数据;设计并实施大数据区,实现集团内外部非结构化、半结构化数据加工、处理搭建沙盘演练平台实时分析平台增强和优化,包括:引入更多应用及相关数据源实现了基础数据一次存储、一次计算、多次使用建立了数据分析人员的实验环境,实现了用户自主用数为实时、准实时类分析用提供平台为封装、销售数据类产品提供了平台第三阶段基础计算平台持续增强和优化,引入更多的数据源、优化模型和ETL处理搭建增值产品平台,设计并实施增值产品数据区数据交换平台、沙盘演练平台、实时分析平台进一步增强和优化数据平台纳入尽可能多的集团内外部数据数据平台以最优的性能支持各类数据应用企业数字化底座与数字化演进说明——应用体系阶段划分建设内容预期效果第一阶段开展客户信息管理建设,设计并实施个人客户和供应商360°视图、客户目标搜索、客户细分等功能开展风险管理建设,设计并实施供应商和个人客户风险评级模型开展运营管理建设,设计并实施供应链金融、人人贷等业务条线业务量统计分析初步梳理实时、准实时分析需求,进行高时效分析应用试点可以方便的对个人客户和供应商进行分群,以及全方位信息查询和展示供应商和个人客户风险等级评定针对目前开展的业务进行经营情况统计分析搭建并验证高时效应用体系第二阶段随着集团业务的展开,逐步开展内部管理分析体系的建设,本阶段重点为客户关系管理、运营管理等高级业务人员利用沙盘演练平台进行数据挖掘、预测和科学试验进一步树立实时、准实时分析需求,深化开展高时效分析应用开始梳理市场上的数据应用需求,尝试封装增值数据产品通过内部管理分析体系的建设、满足了集团日常经营管理、决策分析和进一步提高价值创造力的需要实现了业务人员自主用数实现了高时效分析,与业务流程的整合实现了数据产品的封装,提升了数据价值第三阶段随着集团业务的展开,进一步完善内部管理分析体系的建设,包括:市场风险管理、操作风险管理、财务管理等收集实时分析需求,进一步增强并优化实时分析应用体系增值数据产品设计逐渐成为重点,数据分析师收集集团内外部数据需求,设计更完善的增值数据产品通过内部管理分析应用体系建设进一步实现数据共享、业务协作与创新通过实时分析应用体系建设,实现大数据平台业务系统的交互,与业务流程的融合增值数据产品的开发进一步发挥的数据平台的数据价值议程企业数字化底座与数字化综述1企业数字化底座与数字化总体架构2企业数字化底座与数字化规划设计3企业数字化底座与数字化建设运营4企业数字化底座与数字化未来展望5金融企业数字化底座与数字化一期架构基础计算平台:基于Hadoop集群构建,按照业务条线、以贴源数据模型存储了业务系统明细数据数据交换平台:NAS集群实现了进出数据平台数据的暂存,业务数据交换组件实现了业务系统每日增量数据加载,数据区数据交换组件实现了基础计算平台与管理分析平台间的数据交换流程调度平台:自主开发的流程调度引擎实现整个数据平台的数据处理任务调度和运行管理分析平台:由X86分析型数据库集群、BI软件1J2EE应用构成,实现了面向应用的数据加工、管理、分析服务实时分析平台:由高档X86服务器组成的集群,实现高时效、高并发的实时、准实时类管理分析需求数据交换平台—平台逻辑架构云数据推送平台实现源系统数据一次获取获、按需分发。平台采用GoldenGate、JBUS、Flume等技术获取增量数据,存储在MySQL集群平台按照接口规范生成文件,LZO压缩后,通过FTP传输到NAS指定目录POP金融企业数字化底座与数字化NAS集群物流财务供应链人人贷……云数据推送平台数据交换平台由FTP服务器、加载服务器和NAS存储组成,完成业务系统数据的获取、加载和归档FTP服务器:利用LVS构成的FTP集群,接收云数据推送平台处理后的数据,存储在NAS集群的指定目录加载服务器:部署ETL任务,实现指定目录的文件到达监控、文件级检核、数据加载(HiveLoad)到临时数据区,同时归档(copyfromlocal)历史数据区NAS集群:按照日期和源系统划分目录,缓存数据,支持日常数据交换和ETL…………LVS集群:FTP服务器#3加载服务器#1文件加载文件归档文件到达事件监控文件级检核加载服务器#4文件加载文件归档文件到达事件监控文件级检核LVS集群:FTP服务器#1LVS集群:负载均衡服务器…………数据交换平台—参与方责任划分设计并实施云数据推送平台;按照集团接口定义,抽取业务系统数据;按照集团接口规范要求,按时生成数据文件、控制文件和DDL文件,并通过FTP传输到NAS指定目录;若源系统有变更,则要求在变更前提供变更内容说明,升级平台版本,根据集团更新接口规范提供数据;应及时解决接口数据提供过程中出现的问题;对于未尽事宜,应同集团协商解决。云计算安装部署集团企业数字化底座与数字化物理环境、应用软件,并进行基础设施运维;在业务系统数据库服务器安装并部署云数据推送平台客户端,并提供数据库访问。运维部门制定接口规范,并提交给云数据推送项目组;梳理业务系统数据字典,制定接口定义,并提交给云数据推送项目组;开发数据交换组件,从NAS获取数据并处理;对接收的数据提供验证功能,并返回验证结果到云数据推送平台;根据云数据推送平台提交的变更通知修改接口定义和数据交换组件;对于未尽事宜,应同云计算方协商解决。集团针对集团需求,指定接口人、提供文档;业务系统因版本升级等原因导致数据模型发生变化,及时通知云数据推送平台接口责任人。研发部门数据交换平台—平台部署架构数据交换平台由8台X86服务器和一个NAS集群构成X86服务器按照功能分为2组,一组实现数据获取,一组实现数据加载和归档NAS集群作为公共数据区,由8台服务器共享访问(读写)PythonruntimePythonJSSModuleFTPRedhatLinuxLVS服务器4HDFSClientHive加载任务归档任务RedhatLinux加载服务器1HDFSClientHive加载任务归档任务RedhatLinux加载服务器4LANPythonruntimePythonJSSModuleLVSRedhatLinuxLVS服务器1…………NAS集群负责源系统数据文件加载和归档每台服务器负责多个源系统支持按需扩展/减少服务器LVS1负载均衡其它LVS服务器负责接收接口文件,写入NAS集群目录支持按需扩展/减少服务器部署数据交换平台和流程调度平台程序,各服务器通过文件链接使用按日期和源系统建立数据目录,缓存每日接口文件,供交换平台访问流程调度平台—平台逻辑架构TaskAutomation驱动各个平台、实现从数据存入NAS平台到数据集市生成整个处理过程的工作流管理数据交换平台负责数据抽取、文件级质量检核、调用HiveLoad加载数据基础计算平台使用HiveSQL实现贴源数据整合、公共汇总数据处理管理分析平台使用关系型数据库的SQL实现集市数据的处理历史归档查询平台负责数据文件和Hadoop集群数据归档流程调度平台—流程调度元数据TaskAutomation的元数据统一存储在MySQL数据库中任务定义,包括任务名称、描述、运行服务器、运行状态、运行时间、相关数据源等属性任务依赖,任务的执行依赖与其他上游任务任务触发,任务成功执行后触发的下游任务任务组,一组有相互关系的任务,全部完成后会触发头任务运行……元数据由所有流程调度服务器共享流程调度平台—任务调度引擎通过侦测器侦测事件,按照任务定义和任务依赖关系触发任务运行,触发方式把主要包括自动触发定时触发,按照预先定义的时间周期,如每日、每周、每月,或任何有规律的时间间隔执行任务。目前可明确的任务主要是每月执行的基础计算平台、管理分析平台数据归档。事件触发,按照特定的事件触发、执行任务。如:数据文件到达指定目录,会触发数据加载任务。同样,流程失败也会触发新的job,如错误处理、例外处理等。手动触发系统管理员可以使用TaskAutomation提供的界面或命令接口执行一些job。这些job的功能通常包括对特定范围的数据进行审计与验证、对特定范围的数据进行针对性很强的数据清洗、或者是对某流程失败后的修复。每个要执行的任务均由任务执行代理启动运行流程调度平台—平台部署架构流程调度平台由八台X86服务器构成,服务器按照功能分为两类两台X86服务器部署MySQL数据库集群,存储流程调度元数据六台X86服务器部署流程调度引擎,负责各数据区数据处理流程调度与运行TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient临时/归档区调度服务器1TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient贴源区调度服务器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient汇总区调度服务器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient临时/归档区调度服务器4MasterNodeMySQL主服务器MasterNodeMySQL从服务器……LANMySQL主-从集群,存储临时区、归档区、贴源区和汇总区数据处理任务定义,任务依赖关系按数据区划分工作流,工作流不跨数据区临时区数据处理的工作流部署在数据交换换平台的加载服务器贴园区和汇总区工作流分别部署独立的服务器基础计算平台—平台逻辑架构基础计算平台基于Hadoop集群搭建集群采用标准的X86服务器集群弹性架构,按需分配计算资源,支持添加X86服务器的方式实现横向扩展集群中的数据保留三份,保证任何节点故障,不影响集群对外提供服务基础计算平台有三个数据区构成临时数据区,缓存当日源系统变化(新增、修改、删除)数据,支持后续ELT数据处理贴源数据区,按照源系统数据模型整合的明细历史数据,作为基础数据层实现数据一次整合、多次使用汇总数据区,根据应用需求,对贴源数据区明细数据进行预连接、预聚合、预汇总处理的数据,实现了数据的一次计算、多次使用VMVMVMVMVMVMVMVMVMVMVMVMVMVMVM节点VMVMVMVMVM节点VMVMVMVMVM节点节点节点节点节点节点Hadoop临时数据区贴源数据区汇总数据区基础计算平台—平台部署架构基础计算平台由73台X86服务器构成,3台服务器作为NameNode和JobTrackerNode,70台服务器作为DataNode和TaskTrackerNode……DataNodeTaskTrackerNode服务器1DataNodeTaskTrackerNode服务器70Name&JobTrackerNode(Secondary)NameNodeJobTrackerNode内部互联70台服务器是HDFS数据节点,临时数据区和贴源整合区作为独立的数据库部署在此服务器上,并按照3份冗余存储NN负责HDFS元数据管理,元数据信息存储在NAS集群指定目录通过硬件冗余、RAID0+1、SlaveNN等技术实现高可用性70台服务器是MR计算节点,Hive提交的SQL语句,转化成MR任务,由JobTracker分配到每台服务器上执行SecondaryNN负责HDFS元数据备份管理,SecondaryJobTracker负责MR计算集群JobTracker高可用性JobTracker

Node负责MR任务分配通过心跳信号检测TaskTracker活动状态,排除失效节点基础计算平台—平台网络拓扑NodeNodeNodeNodeNode20NodesRACK1……NodeNodeNodeNodeNode20NodesRACK2……NodeNodeNodeNodeNode20NodesRACK3……NodeNodeNodeNodeNode20NodesRACK3……管理分析平台—平台逻辑架构客户信息管理,采用J2EE框架自主开发,数据集市构建于分析型数据库集群运营绩效管理,采用MicroStrategy开发,数据集市构建于分析型数据库集群扶贫灵活分析,采用MicroStrategy开发,数据集市构建于内存数据库集群HANA管理分析平台—安全管理个人客户信息管理集团客户信息管理金融业务经营分析金融业务规模预测认证管理用户BI应用门户审计管理授权管理身份管理授权管理认证管理审计管理安全管理员安全管理员安全管理员账户管理平台安全管理信息库LDAP账户信息权限信息日志信息企业数字化底座与数字化物理架构说明平台所有服务器均采用标准X86PC服务器系统划分为三个子网WEB服务子网,两台服务器构成的Tomcat集群应用服务子网,两台服务器构成的MicroStrategy集群数据服务子网基础计算平台,73台服务器构成的Hadoop集群数据集市平台,30台服务器构成的?集群流程调度平台,7台服务器构成的TaskAutomation集群数据交换平台,5台服务器与云数据推送平台接口,分别实现不同业务系统的数据获取企业数字化底座与数字化一期硬件配置所有服务器均采用开放的X86架构,单台服务器建议配置如下:服务器类型服务器功能数量CPU内存网口操作系统内置盘基础计算平台(Hadoop集群)DataNode&TaskTracker服务器7032128G2*1GbCentos6.312*2TB7200RPMSATAdisksNameNode&JobTracker服务器332128G2*1GbCentos6.34*600GB15KSASdisksRAID0+1

历史归档查询平台(Hadoop集群)DataNode&TaskTracker服务器301224G2*1GbCentos6.316*3TB7200RPMSATAdisksNameNode&JobTracker服务器31224G2*1GbCentos6.34*600GB15KSASdisksRAID0+1

沙盘演练平台(Hadoop集群)DataNode&TaskTracker服务器3032128G2*1GbCentos6.312*2TB7200RPMSATAdisksNameNode&JobTracker服务器332128G2*1GbCentos6.34*600GB15KSASdisksRAID0+1

议程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论