




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DATE\@"M/d/yyyy"4/25/2017NewH3CGroupPage13/数据集成系统解决方案
目录1. 数据集成系统现状 1-41.1 基础数据多头管理,系统间数据一致性差 1-41.2 接口没有实现统一的接口平台 1-41.3 XXX内部信息难以完整统一和共享 1-42. 数据集成需求分析 2-42.1 系统需求 2-42.1.1 实现数据统一 2-42.1.2 实现数据共享 2-52.1.3 实现数据应用 2-52.1.4 实现数据质量管控 2-53. 数据集成目标 3-53.1 建立规范统一的指标体系 3-63.2 统一的数据采集接口 3-63.3 统一的数据存储中心 3-63.4 建立数据应用接口 3-64. 数据集成方案 4-74.1 ODS系统设计 4-74.1.1 现阶段ODS系统设计 4-74.1.2 未来ODS系统设计 4-84.2 ODS系统架构 4-84.3 ODS数据模型 4-94.4 数据管理 4-104.5 系统技术特点 4-124.5.1 先进性 4-124.5.2 开放性和标准化 4-124.5.3 高效性 4-124.5.4 灵活性与扩展性 4-124.5.5 较高的性价比,降低总成本 4-13
数据集成系统现状XXX有不少的应用系统,比如**系统、**系统、**系统、**系统和XXX信息门户。这些系统一般都有不同供应商提供,他们之间的信息有重叠和不一致显现存在。因此很容易产生下列的问题:基础数据多头管理,系统间数据一致性差对于同样的问题,每个不同的系统都维护有自身的数据结构,例如在工程管理系统中存在供应商数据,而在物资系统中也存在供应商数据,这两个系统对同一个供应商可能存在不同的编号、不同的命名等等。这就导致了两个系统间没有数据标准,在工程管理系统中更新了供应商数据后,物资系统无法依据指定的规则进行同步更新,造成了XXX主数据的混乱局面,难以满足快速支撑精确管理的需要,使得XXX的运营效率和管理水平难以进一步提升。接口没有实现统一的接口平台由于没有统一的XXX主数据,目前系统接口均采用点对点方式,技术实现方式多种多样,例如最多的方式是数据库直接存取,接口双方需要明确知道对方的底层数据结构,这导致了完成和维护这些接口是一项非常艰巨的任务,并且在不同的供应商之间难于明确自身的责任,出现问题之后相互推诿。XXX内部信息难以完整统一和共享由于现在的应用系统是由不同的供应商提供,基础数据难以同步更新,各自产生的数据信息,都成了一个个的信息孤岛,彼此之间的数据难以共享。XXX不容易获取汇总信息。数据集成需求分析系统需求实现数据统一数据集成中心在对XXX数据的整合过程中能够实现以下三个统一:统一数据模型由数据集成中心承载XXX数据模型(EDM),促进XXX各域数据逻辑模型的统一。在XXX内新建或改造的系统,其数据模型应向数据集成中心所承载的XXX数据模型靠拢。数据模型是各个系统及应用间交互的基础,通过数据模型的统一,减少系统及应用间复杂的转换,提高系统、应用、接口的效率。统一数据标准数据集成中心中建立标准的数据编码目录,源系统数据依据标准的数据编码目录,经过整合后进入数据集成中心存储,实现XXX数据的标准化与统一存储。统一数据视图基于数据集成中心所存储的数据,支撑实现统一数据视图,使XXX在用户、资源等视角获取到的信息是一致的,提升用户、以及XXX内部的管理人员与分析人员对系统的感知。实现数据共享数据集成中心为XXX各业务系统提供统一共享数据接口,减少系统间相互接口的重复性,降低接口的复杂程度,提高系统间接口效率与质量;为跨系统数据应用提供数据支撑。数据集成中心作为XXX运营数据共享平台,是各业务部门和XXX管理层获取统计数据的唯一来源。数据集成中心可将某个生产系统的数据以准实时地方式存储转发至其它对数据实时性要求不高的生产系统,以减少生产系统间的网状接口。数据集成中心以实时的查询服务或准实时批量的数据提供的方式将数据集成中心内整合或计算好的数据向外部系统提供,以配合外部系统支撑统一用户视图查询、用户服务流程等功能。实现数据应用数据集成中心利用自身系统的数据提供以下几类功能:查询应用 实现查询条件不固定的按需查询功能。用户可以根据关心的维度查询数据集成中心内整合好的360度业务全貌数据,如,为渠道经理提供完整用户视图信息的查询,为用户提供完整用户视图查询、用户账单查询等。固定报表应用固定报表是维度和指标固定的统计结果的展示,在数据集成中心内对于实时性要求高的报表采用即时生成的模式,而对于实时性要求不高的报表,基于性能影响和资源开销两方面的考虑,应采用后台通过作业的方式先自动生成,在需要时可以立即展现结果。报表展现应支持多种图表方式,如饼图、柱图、线图等;支持报表数据导出为其他文件类型,如EXCEL、CSV、XML、PDF、WEB存档文件等;支持报表精确打印控制。动态报表应用基于数据集成中心整合好的数据,可以利用报表工具,按关心的维度和指标对数据进行主题性的统计,动态报表应用中,维度和指标不固定,可在数据模型支持的范围内变换。在数据集成中心上可实现多种动态报表。计算应用数据集成中心可基于整合好的数据按照设定好的业务规则进行部分属性数据计算,计算结果并不在数据集成中心内直接更新,而是由数据集成中心返回到该属性数据的属主生产系统,由属主生产系统完成该属性数据的更新后,再通过数据抽取、加载过程进入数据集成中心之后更新。实现数据质量管控数据集成中心在数据收敛的过程中,能完成以下数据质量管控工作:1.数据质量校验根据规则对数据集成中心所存储的数据进行一致性、完整性、正确性的校验,形成数据校验结果并交付源业务系统进行修正。2.数据质量管控通过建立XXX数据的质量标准、数据管控的组织、数据管控的流程,对数据质量进行统一管控,达到数据质量逐步完善。数据集成目标通过数据集成,数据集成中心应该能达到以下几个目标:建立规范统一的指标体系根据XXX的业务实际情况,建立面向XXX指标体系的数据接口,用于收集XXX各系统间的指标数据,同时为XXX各系统提供所需的指标数据,成为沟通XXX现有系统和未来系统之间各种关键业务指标数据的信息桥梁。统一的数据采集接口建立统一的数据采集接口,根据XXX实际业务需要,定义符合XXX需要的数据采集指标,通过XXX数据业务平台统一的进行数据采集,改变原有层层下达参数,再层层汇总、层层过滤,时效性和准确性亦难以保证的问题。统一的数据存储中心通过XXX规范的指标体系,收集和整合相应指标数据,存储到数据集成中心。按照统一指标、统一统计口径和统一数据概念的要求,存储指标数据和建立数据存储中心,满足不同系统之间相互获取数据的要求,同时为数据的综合分析和历史回溯奠定数据基础。建立数据应用接口XXX在生产经营决策过程中,通常迫切需要了解XXX外部的实际情况,所以需要打通XXX与外部的数据壁垒,实现彼此之间数据共享。这种需求通过建立XXX与外部之间特定的数据应用接口,一方面,从外部抽取XXX需要的特定商业指标数据,另一方面,提供外部所需的XXX指标数据。通过二者数据之间的充分对比分析,实现数据之间的数据共享,提高现有系统的数据使用率和有效地提高数据支撑能力,为管理层的经营决策提供坚实可靠的依据。数据集成方案ODS系统设计现阶段ODS系统设计如上图所示,我们设计的ODS系统中,主要有DI模块和ODS模块2部分组成,ODS系统根据通过Trigger、应用、批处理、Queue等手段从各MSS应用系统中获得数据,并通过DI应用对数据进行抽取、转换、清洗、并装载到ODS数据库中。而一般通过TriggerUpdates的方式来将一些ODS数据返回更新各MSS应用的数据库。DI模块这里的DI模块主要是数据抽取、转换和加载,这是数据由数据源系统向ODS加载的主要方法数据抽取从数据源系统抽取数据仓库系统所需的数据,数据抽取采用统一的接口,可以从数据库抽取数据,也可以从文件抽取。对于不同数据平台、源数据形式、性能要求的业务系统,以及不同数据量的源数据,可能采用的接口方式不同,为保证抽取效率,减少对生产运营的影响,对于大数据量的抽取,采取数据分割、缩短抽取周期的原则,对于直接的数据库抽取,采取协商接口表的方式,保障生产系统数据库的安全。数据转换数据转换是指对抽取的源数据根据数据仓库系统模型的要求,进行数据的转换、清洗、拆分、汇总等,保证来自不同系统、不同格式的数据和信息模型具有一致性和完整性,并按要求装入数据仓库。数据加载数据加载是将转换后的数据加载到数据仓库中,可以采用数据加载工具,也可以采用API编程进行数据加载。ODS数据库模块操作数据存储ODS(OperationDataStorage)是一个集成了来自不同数据库数据的环境。其目的是为终端用户提供一致的XXX数据集成视图。它可以帮助用户轻松应对跨多个商业功能的操作挑战,是面向主题的、集成的、近实时的数据存储。设计ODS层的目的在于改善了对关键操作数据库的存取,获得收益、用户等主题的XXX级完整视图,有利于更好地通观全局。近实时的数据存储提供了查询与服务能力,并以更高的性能生成操作报告。设计ODS的核心是实现焦点主题全局试图应用,如XXX的用户管理系统,可以建立以用户为中心的ODS用户主题视图,向上层提供高效的服务。未来ODS系统设计对于未来的ODS系统设计,我们认为可以引入MDM的设计,但通过ODS来自动修改的数据库结构也应该仅针对新开发的应用,即根据新开发应用的需来对数据库的结构进行修改。而不应对一个正常运行的应用系统进行任何的改变。ODS系统架构ODS系统是介于DW和OLTP系统之间的系统。历史事实证明,只有将各个系统的数据综合在一起才能真正反映出XXX管理需要的数据或者报表,而对这些数据的要求是近乎实时的。通过整合现有系统的数据和流程。使ODS系统作为所有应用系统交互的平台,通过DI和ESB两种技术对现有数据进行整合:各个应用竹编,如人力资源、财务管理等将通过XXX服务总线平台(ESB)进行交互,ESB也作为其它可能与应用系统交互的统一接口;另一方面,数据抽取传送平台(DI)负责将各个子系统的数据抽取出来(拆分、合并、映射)装入到ODS系统中,那么ODS系统在具备了各个子系统的近实时数据之后,就可以作为独立数据源对外提供数据服务,它可以作为数据报表和分析的数据源,也可以作为其它子系统相互同步的数据源。这样做有两个好处:转移了本属于各系统的信息查询负载到ODS系统,使各系统的压力降低,提高了整体性能。OMS由于拥有了完整的主数据,它为面向主题的分析提供了必须的数据基础。ODS数据模型ODS终极目标是为了提供非战略性的中层决策支持,我们认为ODS的数据模型可以参考数据仓库(DW,DataWarehouse)的基础模型,即将数据分为事实数据和纬度数据。事实数据一般代表的是业务变动记录,在MSS中我们称为业务数据,而纬度数据则存放事实数据中业务发生的对象主体信息,纬度数据称为主数据。事实数据和纬度数据的关系是通过关键字来关联的,在数据库中它们都体现为数据表的形式。以下为ODS的数据模型图:图表SEQ图表\*ARABIC13ODS数据模型在上图中纬度是维持各系统数据的一致性描述,而事实表则是提供分析使用的基础数据。在确立了基本的数据模型之后,如何确定数据的采集的范围呢?首先从构建XXX全局视图出发(即面向主题的分析),查出每个主题需要哪些数据,这些数据分别分布在哪些系统中,当这一切确定之后,那么整个ODS数据模型牵涉到的数据范围就基本确定了。接着需要通过DI工具将各系统中的业务数据转换后装入到ODS数据库中,转换方式大致分为四种:迁移:一般性的数据拷贝方式,源和目标的数据属性和值完全相同。组合:例如将供应商所处的省份、市、街道组合为ODS中的地址字段。拆分:例如将员工姓名拆分为单独的姓和名字段。映射:例如将合同的“完成”状态映射为“OK”态。当数据从MSS子系统转换到ODS系统时,数据质量依赖于DI平台,DI平台提供完整的事务、容错、补偿、容错和日志功能用于控制数据转换的质量。数据管理由于用户的需求和场景是经常变化的,因此满足个性化的定制将变的非常重要。目前数据应用在个性户定制方面主要表现在:虽然定义了模型,但模型不完整,效果不好。这样用户在使用时,不能根据其需求动态的调整后端的业务规则和运行环境,不利于用户的使用。所以需要提供一个灵活的数据模型管理,以及业务规则管理,来应对系统的变化。数据模型管理提供可视化的数据模型编辑工具,支持以下几种数据模型抽取模式。主扩展模式通常用来将几个相似的对象的共有属性抽取出来,形成一个“公共属性表”。例如:一个员工的基本信息由角色信息、组织信息、岗位信息等部分组成。主从模式描述两个表之间的主从关系,从而形成的“一对多”关系。例如:一个项目对应多个计划阶段。多对多模式描述对象相互不分主次、地位,互为一对多的关系。例如:一种器材可以对应多个领料单,一个领料单也可以对应多种器材。流程、规则管理提供可视化的流程编辑工具、流程定义和流程监控功能。提供函数集提供常用规则方法,以及规则定义语言描述规则。提供基本规则:直接映射原来是什么就是什么,原封不动照搬过来,对这样的规则,如果数据源字段和目标字段长度或精度不符,需要特别注意看是否真的可以直接映射还是需要做一些简单运算。数学运算数据源的一个或多个字段进行数学运算得到的目标字段,比如:合同里的支付计划由多个时间段和支付比例组成,由此得出其总的合同支付时间和支付金额,这种规则一般对数值型字段而言。参照转换在转换中通常要用数据源的一个或多个字段作为Key,去一个关联数组中去搜索特定值,而且应该只能得到唯一值。这个关联数组使用Hash算法实现是比较合适也是最常见的,在整个DI开始之前,它就装入内存,对性能提高的帮助非常大。字符串处理从数据源某个字符串字段中经常可以获取特定信息,例如身份证号。而且,经常会有数值型值,以字符串形式体现。对字符串的操作通常有类型转换、字符串截取等。但是由于字符类型字段的随意性也造成了脏数据的隐患,所以在处理这种规则的时候,一定要加上异常处理。空值判断对于空值的处理是数据仓库中一个常见问题,是将它作为脏数据还是作为特定一种维成员?这恐怕还要看应用的情况,也是需要进一步探求的。但是无论怎样,对于可能有NULL值的字段,不要采用“直接映射”的规则类型,必须对空值进行判断,目前我们的建议是将它转换成特定的值。日期转换在数据仓库中日期值一般都会有特定的,不同于日期类型值的表示方法,例如使用8位整型20040801表示日期。而在数据源中,这种字段基本都是日期类型的,所以对于这样的规则,需要一些共通函数来处理将日期转换为8位日期值、6位月份值等。日期运算基于日期,我们通常会计算日差、月差、时长等。一般数据库提供的日期运算函数都是基于日期型的,而在数据仓库中采用特定类型来表示日期的话,必须有一套自己的日期运算函数集。聚集运算对于事实表中的度量字段,他们通常是通过数据源一个或多个字段运用聚集函数得来的,这些聚集函数为SQL标准中,包括sum,count,avg,min,max。既定取值这种规则和以上各种类型规则的差别就在于它不依赖于数据源字段,对目标字段取一个固定的或是依赖系统的值系统技术特点为实现XXXODS系统管理系统的业务处理、资源共享、信息交流,采用了面向对象、消息协作、动态工作流和组件等先进技术,架构层次清晰,紧密结合行业特点,注重易用性、个性化,与同类产品相比,本系统在先进性、安全性、开放性、高效性、扩展性、灵活性、易用性、规范性、实用性等方面均达到较高的水准,具有以下突出优势:先进性.NET平台支持业内各种高级应用、接口技术和标准,使系统平台具有良好的开放性和互集成性。同时,作为主流应用平台之一,.NET也是业内的事实工业标准,是其他技术、系统、应用支持的主要对象之一,可以确保系统在未来相当长的时间内完全适应审计信息化的发展。.NET平台支持业内各种高级应用、接口技术和标准,使系统平台具有良好的开放性和互集成性。同时,作为主
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025物业租赁权转让合同(律师版)
- 2025租房合同模板(英文版)
- 2025年贵州省房屋买卖合同
- 2025写字楼租赁合同样本
- 提升工作效率的方法与实践计划
- 图书馆志愿者计划
- 主题班会教学工作计划
- 薪酬体系设计计划
- 加强企业文化建设的年度方案计划
- 2025雇佣合同,公司劳动合同范本
- 自动转运小车结构及控制系统设计说明书
- 《医学心理学》课件:第11章 医患关系
- 饮水设备巡查维护记录表
- 洛阳十三朝古都课件
- RomaxDesigner 培训教程(合)教学提纲
- 《中国传统服饰——汉服》PPT课件
- 顾洁Storytime
- 小学信息技术认识《画图》
- 【精品】宇通客车涂装车间实习报告
- 冷冻机的制冷效率与运行电费
- 物业服务流程图
评论
0/150
提交评论