版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、人防数据中心信息系统建设方案目 录TOC o 1-3 h z u HYPERLINK l _Toc56628272 1.数据处理软件工具集 PAGEREF _Toc56628272 h 3 HYPERLINK l _Toc56628273 1.1系统概述 PAGEREF _Toc56628273 h 3 HYPERLINK l _Toc56628274 1.2需求分析 PAGEREF _Toc56628274 h 3 HYPERLINK l _Toc56628275 1.2.1建设范围 PAGEREF _Toc56628275 h 3 HYPERLINK l _Toc56628276 1.2.
2、2建设要求 PAGEREF _Toc56628276 h 4 HYPERLINK l _Toc56628277 1.3系统功能 PAGEREF _Toc56628277 h 4 HYPERLINK l _Toc56628278 1.3.1数据管理功能 PAGEREF _Toc56628278 h 5 HYPERLINK l _Toc56628279 1.3.2共享服务功能 PAGEREF _Toc56628279 h 6 HYPERLINK l _Toc56628280 1.3.3BI数据分析 PAGEREF _Toc56628280 h 7 HYPERLINK l _Toc56628281
3、1.4系统设计 PAGEREF _Toc56628281 h 13 HYPERLINK l _Toc56628282 1.4.1总体架构 PAGEREF _Toc56628282 h 13 HYPERLINK l _Toc56628283 1.4.2网络拓扑 PAGEREF _Toc56628283 h 15 HYPERLINK l _Toc56628284 1.4.3数据处理流程 PAGEREF _Toc56628284 h 15 HYPERLINK l _Toc56628285 1.4.4系统组成 PAGEREF _Toc56628285 h 16 HYPERLINK l _Toc5662
4、8286 1.4.5数据标准规范 PAGEREF _Toc56628286 h 17 HYPERLINK l _Toc56628287 1.4.6软硬件支撑环境 PAGEREF _Toc56628287 h 17 HYPERLINK l _Toc56628288 1.4.7软件应用技术 PAGEREF _Toc56628288 h 20 HYPERLINK l _Toc56628289 1.4.8数据中心软件 PAGEREF _Toc56628289 h 23 HYPERLINK l _Toc56628290 1.4.9综合资源库建设 PAGEREF _Toc56628290 h 7481/8
5、1数据处理软件工具集系统概述数据资源是信息化建设的基石,是信息系统的灵魂。开展数据中心建设是信息化条件下开展防空袭斗争准备和应急处突的需要,能够有效实现数据资源的多源整合、跨平台共享与按需服务,推进数据资源的深度开发利用。建设体系完善、标准统一、结构合理、功能齐全的RF数据中心信息系统,为RF预警报知、指挥控制、综合保障、防护救援、日常业务及其它应用提供准确、实时、全面的数据支撑。需求分析建设范围RF数据中心建设应从规划、采集、存储、维护、应用、报废等数据的全生命周期统筹管理;从部门协同、人员组织以及技术保障等多个层面多维规划。数据中心应涵盖结构化数据(关系数据库)、半结构化数据(报表、HTM
6、L、邮件)和非结构化数据(多媒体数据、空间地理数据)等所有RF需要的数据类型。哈尔滨RF数据中心建设主要包括:(1)建立数据中心基础软硬件支撑平台,主要包括服务器、存储、网络设备及基础软件(操作系统、数据库等);(2)构建内容全面、动态更新、联合共享的数据采集、整合、存储、共享及服务平台,为RF各类业务提供全面、准确、可靠的信息服务,主要包括:数据交互平台、数据资源管理系统、数据质量管理系统、数据资源目录系统、数据门户及SOA平台等;(3)实现跨部门数据整合,根据哈尔滨的实际情况,基于接入的网络情况逐步实现RF业务支撑数据的采集。建设要求(1)统一数据标准规范依据国家RF办制定实施的数据标准体
7、系开展RF数据中心建设与运维,充分满足全国RF信息系统建设关于体制统一、格式标准、互联互通的要求。(2)实现数据接入、集成及共享RF数据主要包括基础数据、业务数据、地理信息数据等,数据形式包括数据库记录、多媒体文件、矢量地图、影像地图、三维模型等。根据RF业务需求,一是按照标准规范进行内部数据整合,实现RF各级、各部门之间的数据共享与服务;二是实现与军队、政府相关部门之间的数据交换,实时或定时获取空情海情、气象水文、人文经济、社情舆情等各类数据,以及对外提供RF工程、疏散隐蔽、物资装备、救援力量等各类信息。(3)完善数据质量控制及服务支撑通过对业务数据质量的动态监管,及时发现和处理各类问题数据
8、,提高数据的准确性、完整性和一致性。基于SOA技术搭建松散耦合的服务平台,为各类上层应用提供全面透明的数据查询检索、统计分析、可视化展示等服务。(4)保证数据中心安全哈尔滨数据中心的安全包括基础设施安全、服务安全和数据安全三部分。基础设施安全包括:设备安全、系统安全和网络安全;服务安全主要包括:身份认证、权限管理、访问控制、审计监控等;数据安全主要包括数据传输安全、数据存储安全、数据处理安全、数据服务接口安全等部分。(5)建立动态的、可扩展的数据支撑平台通过服务器虚拟化、存储虚拟化、数据库虚拟化及元数据管理等技术手段实现基础资源的按需分配、动态扩容。系统功能RF数据中心主要的功能包括:数据管理
9、、共享服务、BI(商业智能)分析。系统功能结构如下图所示。功能结构图数据管理功能元数据管理建立数据中心的统一元数据视图,从元数据中发现任何变化给全局带来的影响,缩短数据清理周期、提高数据质量。梳理业务元数据之间的关系,规范数据资源管理,确保业务元数据的分类准确、涵义明确,改进RF数据资源管理机制。快速提供数据变换过程和依赖描述,有助于指标和统计口径的理解,为分析应用结果提供数据质量保障。数据交换数据交换是解决多数据源、跨网络的数据采集和交换,涵盖异构数据抽取与存储、实时定时数据抽取与存储、定时任务调度、数据交换管理与监控等子功能,数据交换是数据中心的核心功能。数据整合数据整合是按照数据标准规范
10、及应用需求,对采集的不同源、不规则、不标准的数据,通过清洗、转换、规整,按照数据分析和共享的需求,重新组织,整合成符合要求的基础数据和主题数据。数据质量控制数据质量控制是通过分析、监管等形式,发现和修正数据交换过程中由于数据建设标准不一致、数据质量管理不严格而引入的问题数据。通过数据质量控制可以解决数据中心中数据不一致、不完整和不准确的问题,通过质量规则转化、质量报告等方式提供处理手段和措施。数据资源管理数据管理维护是对采集、整理的各种数据资源进行管理,管理人员不需要编写SQL语句,不需要通过各种数据库自带的管理工具的情况下也能管理数据,保证数据的持续完善和更新。共享服务功能资源目录管理数据中
11、心包括大量的数据资源、服务资源,通过资源目录系统,提供数据导航服务,以资源目录的形式展示各种资源,方便用户查找、定位所关注的资源。系统中的各种资源通过不同的分类,组成了资源目录,通过目录导航,方便用户查找所关注的资源。为用户充分地发现、使用资源提供便利。数据检索服务通过发布综合数据和主题数据,提供一般数据报表、多维数据报表、交互式查询服务、全文检索等各类数据查询服务,为第三方系统提供标准的数据查询服务接口。分布式请求服务引擎分布式请求服务引擎是解决在数据无法集中到数据中心的情况下,提供对远程数据访问手段。当本地没有所需的数据时,系统将通过分布式请求服务引擎向其他数据中心或其他远程数据源发起服务
12、请求,获取从远处请求代理返回的数据,实现跨业务系统、跨数据中心的数据共享。数据权限管理数据权限管理系统为用户提供了对数据访问进行细粒度权限控制的功能。其主要功能有:资源授权、访问策略、日志审计、规则告警等。数据服务管理通过建立服务及相关资源的接入和注册机制,使数据资源可以动态扩展、持续构建,从而屏蔽数据资源的规格形态、存储位置等信息,为用户提供一致的访问方式和服务接口。BI数据分析采用国内成熟的BI分析平台工具,对RF业务数据进行分析,支持领导决策支持、业务日常查询统计等。BI数据分析需要实现的功能包括如下内容:灵活查询满足用户自助式的数据查询和报表。业务用户可以轻松的访问、浏览和探察数据;满
13、足业务人员自助式的、零编程的、快速的定制查询,数据分析。多维分析能够很好的实现对数据的全方位、多角度、多层次的查询和计算,从而深入了解数据中蕴含的信息、内涵。可实现任意格式报表数据的业务数据间钻取,分析方式灵活,支持钻取(上钻、下钻、层钻)、切片/切块、旋转、分页等分析,还可以进行各种排序、过滤(最大值、最小值、平均值、合计)等操作业务报表满足各种复杂格式的监管报表、内部管理报表的需求;支持交叉统计报表、不规则报表、不平衡报表、原始凭证报表等各种复杂格式的报表。报表浏览集成在统一浏览器端展现框架中,采用纯web技术,满足最终用户的所有功能需求。仪表盘通过管理图形、仪表盘、预警等方式,监控分析关
14、键指标、业务目标,以简洁、直观的界面,展现企业各环节的经营数据,并以丰富的展现形式为决策者提供分析和管理上的帮助。GIS分析通过与GIS平台结合,基于地图对RF业务进行信息查询、综合分析和预警告警。移动展现可以在移动终端上展示业务报表、KPI(关键绩效指标)、文档和仪表盘。数据挖掘从海量数据中搜索隐藏其中的特殊关联关系,基于综合应用集合大量数据挖掘的算法,包括对数据进行预处理算法、分类算法、回归、聚类、关联规则等,并提供可视化的交互式界面,建立各类数据挖掘模型,为开展RF工程建设、组织指挥、专业队行动等提供辅决策信息。系统设计总体架构RF数据中心依托标准规范体系,在基础设施整合的基础上,实现数
15、据的采集交换、整合处理、质量控制、更新维护等功能,通过多种服务方式及接口为预警报知、指挥控制、综合保障、防护救援、日常业务处理等RF业务提供数据查询、全文检索、数据下载、统计分析、核查比对、可视化展示等综合数据服务,总体架构如下图所示。数据中心系统架构基础设施服务:基于服务器、存储、网络及安全设备等,通过整合基础设施资源,提高资源利用率,为各种应用提供可扩展的、安全稳定的基础支撑。数据管理与服务层:基于数据采集与交换平台,按照数据标准规范对数据进行清洗、转换、汇集、规整及质量监控,建立缓冲库,通过元数据库规范数据整合、管理和服务过程,建立中心库,通过数据集市、数据仓库等形式对外提供数据检索、数
16、据分析、数据报表、访问接口、数据比对等服务。应用层:为RF预警报知、指挥控制、综合保障、防护救援及日常业务及外部应用提供数据支持。标准规范体系:标准规范体系涉及到基础设施服务、数据管理与服务、安全保障、日常管理与运维等多个层面,是数据中心的基础。安全保障体系:安全保障体系涵盖物理安全、存储安全、网络安全、数据安全和信息安全等,为数据中心各环节、各阶段、各层面提供全方位的安全保障。网络拓扑RF数据中心信息系统的网络在内部与外部之间的安全采用物理隔离网闸搭建数据交换通道,配置一台三层、二台二层交换机及两台存储光纤交换机搭建机房内网与存储网络,拓扑图如下所示:网络拓扑图数据处理流程RF数据中心的数据
17、建设流程如下图所示:数据处理流程数据处理流程包括数据采集、数据管理、数据服务、数据应用。数据采集对异构数据进行抽取、存储;数据管理对采集的数据进行清洗、转换、汇集、规整、标准化及质量监控,为数据分析提供符合要求的基础数据;数据服务对用户和业务系统提供查询、分析、报表、统计、展示等服务或接口;数据应用对数据服务及接口进行授权调用,支撑各类业务系统运行。系统组成系统主要由数据标准规范、硬件支撑环境、数据中心软件工具及数据安全保障四个分系统组成,系统组成如下图所示。系统组成结构图数据标准规范标准体系是由一定范围内的具有内在联系的标准组成的科学有机整体,是编制标准制定、修订计划的依据之一,也是标准使用
18、者阅读、理解标准的有效工具。数据中心数据标准规范主要包括基础设施类标准规范、数据资源类标准规范、数据应用类标准规范、数据交换类标准规范、数据交换类标准规范、工程管理类标准规范、信息安全类标准规范等,标准化体系模型如下图所示:数据中心数据标准化体系模型软硬件支撑环境软硬件环境是数据中心建设的基础,是所有数据的物理载体及物理保障。数据中心的硬件环境建设由机房工程建设、计算机网络建设、服务器及存储等几部分组成。软硬件环境的建设立足当下,综合考虑资源的充分利用和可扩展性,以绿色、虚拟化、低能耗为建设导向。服务器与存储为满足RF数据中心核心业务数据、共享交换数据的存储需求,需要建设一套新的SAN存储设备
19、,提供高性能的存储服务,具体配置见配置清单。产品配置清单如下:编号名称规格参数通途数量单位 1数据中心支撑服务器企业级服务器,2颗CPU(Xeon E2600系列以上),内存:16GB DDR3以上,硬盘:500GB,HBA卡,电源冗余单点登录服务(1台)、数据门户服务器(1台)、数据管理服务器(1台)、前置服务器(1台)4台 2数据库服务器企业级服务器,2颗CPU(Xeon E5600系列以上,内存:32GB DDR3以上,硬盘:500GB以上,HBA卡,电源冗余ODS库(1台);综合资源库(1台);主题与分析服务库(2台)4台 3存储双控,8GB缓存,8*8G FC,15*600GB 15
20、K RPM SAS硬盘满足在线、离线存储要求2台 4存储光纤交换机40口光纤交换机,8G,32口激活组建高速存储网络2台基础支撑软件操作系统选用中标麒麟、Microsoft Windows Server 2008 Enterprise( 简体中文企业版),根据国产自主化发展方向和军队、政府相关行业的建设实践,建议选用中标麒麟。中间件符合J2EE5标准规范的应用服务器平台产品,提供集群功能和集中管理工具,建议选用东方通(TongWeb)、中创( InforWeb)或金蝶(Apusic)。数据库建议选用国产数据库如KingbaseES、DM7或Oracle11G原厂授权产品。ETL支持多种异构数据
21、源,包括KingbaseES、Oracle、Microsoft SQL Server、Sybase、MySQL、JMS消息服务、LDAP、电子邮件服务器、WebService以及Access、PDF、Excel、TXT、XML等文件数据源;支持全量、增量数据抽取模式,支持触发器、MD5、时间戳等变化数据捕获方式。建议选用KingbaseDI或 TongIntegrator。数据实时同步工具支持多种异构数据源,包括KingbaseES、Oracle等主流数据库。可采取多种同步触发机制,如依赖主机上源数据库的触发器或者规则、基于日志的结构化数据同步技术等;以源数据库的事务为单位,按照主机业务系统事
22、务顺序实施数据同步,保障主备机数据库的事务完整性和一致性;能基于并行处理体系,能实时读取主机源数据库日志,实现大批量的数据同步。建议选用国产同步工具KingbaseDI、DMHS或市场主流产品GoldenGate等。软件应用技术SOA构架SOA是RF数据中心信息系统的核心支撑技术,利用该架构,可以动态、快速部署新的服务资源,并且各类服务资源可以是异构的,挂接到SOA上的服务对用户来说无需了解其中的细节,仅需关注访问接口及返回的结果,使得整个服务过程、服务位置、服务形态透明化。SOA有以下特性:SOA服务具有平台独立的自我描述XML文档。Web服务描述语言(WSDL,Web Services D
23、escription Language)是用于描述服务的标准语言。SOA 服务用消息进行通信,该消息通常使用XML Schema来定义(XSD,XML Schema Definition)。消费者和提供者、消费者和服务之间的通信环境可以异构。SOA服务通过服务目录列表进行维护,可以通过UDDI(Universal Description, Discovery, and Integration,统一描述、发现和集成)对服务进行注册和搜索,并使用相应的服务。SOA服务有一个与之相关的服务质量(QoS,Quality of service)。QoS包含安全需求(例如认证和授权)、可靠通信、以及谁能调
24、用服务的策略。SOA伴随着无处不在的标准,为企业的现有资产或投资带来了更好的重用性。SOA能够在最新的和现有的应用之上创建应用;SOA能够使客户或服务消费者免予服务实现的改变所带来的影响;SOA能够升级单个服务或服务消费者而无需重写整个应用,也无需保留已经不再适用于新需求的现有系统。B/A/S结构B/A/S三层体系架构,即Browser(浏览器)、ApplicationServer(应用服务器)、Server(数据库服务器)三层。B/S结构,即Browser/Server(浏览器服务器)结构,就是只安装维护一个服务器(Server),而客户端采用浏览器(Browse)运行软件。它是随着Inte
25、rnet技术的兴起,对C/S结构的一种变化和改进。主要利用了不断成熟的WWW浏览器技术,结合多种Script语言(VBScript、JavaScript)和ActiveX技术,是一种全新的软件系统构造技术。B/A/S三层体系架构优势:B/A/S三层体系结构采用三层客户服务器结构,在数据管理层(Server)和用户界面层(Client)增加了一层结构,称为应用服务器层(ApplicationServer),使整个体系结构成为三层。三层结构是伴随着中间件技术的成熟而兴起的,核心概念是利用中间件将应用分为表示层、业务逻辑层和数据存储层三个不同的处理层次。三个层次的划分是从逻辑上分的,具体的物理分法可
26、以有多种组合。中间件作为构造三层结构应用系统的基础平台,提供了以下主要功能:负责客户机与服务器、服务器与服务器间的连接和通信;实现应用与数据库的高效连接;提供一个三层结构应用的开发、运行、部署和管理的平台。这种三层结构在层与层之间相互独立,任何一层的改变不会影响其它层的功能。J2EE技术B/A/S三层体系架构主要使用JAVA语言编写程序框架,附之C#、PHP来支持用户功能模块。而JAVA的核心技术是J2EE。J2EE是一个开放的、基于标准的平台,用以开发、部署和管理N层结构、面向Web的,以服务器为中心的应用。它利用Java 2平台来简化诸多与多级企业解决方案的开发、部署和管理相关的复杂问题的
27、体系结构。J2EE技术的基础就是核心Java平台。J2EE使用多层的分布式应用模型,应用逻辑按功能划分为组件,各个应用组件根据它们所在的层分布在不同的机器上。以下是 J2EE 典型的四层结构:运行在客户端机器上的客户层运行在J2EE服务器上的Web层运行在J2EE服务器上的业务逻辑层运行在EIS服务器上的信息系统(Enterprise information system)层软件接口技术在SOA架构的要求下,服务构建可以有多种类型,服务接口也可以是多种协议,但Webserivce是目前应用最为普遍的服务结构及服务构件的提供方式。使用WebService会带来极大的好处。(1)应用程序集成可以应
28、用到各个子系统之间的数据传输、数据访问。列如:子系统A开发一个Webserivce接口,可以提供一些信息数据。在子系统B中通过调用Webserivce接口可以访问到子系统A的信息数据。(2)软件和数据重用可以应用到各个子系统之间的功能的共享。列如:子系统A中存在的一种菜单模式,子系统B可以通过Webserivce接口获取子系统A中的数据结构来达到它所需求的内容。XML技术XML(Extensible Markup Language,可扩展标识语言),是当代最热门的网络技术之一,被称为“第二代web语言”、“下一代网络应用的基石”。自从它被提出来,几乎得到了业界所有大公司的支持,丝毫不逊于当年H
29、TML被提出来的热度。XML是1986年国际标准组织(ISO)公布的一个名为标准通用标识语言(Standard Generalized Markup Language,SGML)的子集。它是由成立于1994年10月的W3C(world wide web consoutium)所开发研制的。1998年2月,W3C正式公布了XML的recommendation 1.0版语法标准。XML具有扩展性强、文件自我描述特性、以及强大的文件结构化功能,但却摒除了SGML过于庞大复杂以及不易普及化的缺点。XML和SGML一样,是一种“元语言(Meta-language)”。换言之,XML是一样用来定义其他语言
30、的语法系统。这正是XML功能强大的主要原因。技术的特定及优势XML是平台无关的数据描述语言,能很好地支持云计算环境中开发语言异构、访问协议异构、网络环境复杂的情况,为用户服务请求参数及服务结果数据的反馈提供较好的信息包装格式。XML格式是W3C的标准,各种平台通用,可移植性好。XML提供了一种树形层次结构,可以很方便的定位某一功能块。从写的角度看,几乎所有的应用程序都能处理XML文件,并且通过DOM(Document Object Model)提供的方法可以很快捷的对XML文件进行操作。 从读的角度看,XML文件提供了一种简洁的自解释的标记方法,几乎不需要说明文档,就能理解XML格式的配置文件
31、的意义。XML高度可扩展,只要遵循一定的规则,XML的可扩展性几乎是无限的,而且这种扩展并不以结构混乱或影响基础配置为代价。数据中心软件软件环境是数据中心建设的核心,包括数据交换平台、数据质量管理系统、元数据管理平台、资源目录系统、数据资源管理系统、BI分析平台、分布式请求服务引擎、数据门户系统及SOA服务平台等,软件结构如下图所示:软件结构图通过数据交换平台和分布式请求服务引擎实现异构数据源的数据交换,建立ODS缓冲库,并对交换的数据进行质量监管与质量管理;通过数据整合平台建立基础数据库和基础数据元数据库,通过数据资源管理系统、资源目录系统、数据检索服务系统及服务管理平台对数据中心的资源进行
32、管理维护、检索定位、统计分析等;通过建模工具、挖掘工具、整合系统建立主题库,实现多维分析、主题分析等,通过门户、服务管理平台管理和发布相关的数据服务和功能服务供用户使用。数据交换平台建设目标借助RF信息系统的调度及数据交换、数据清洗等功能完成业务数据-资源层-缓冲层-基础层-应用层的数据采集、梳理、整合以及应用等工作,从而实现定期的数据同步、转换等业务目标。总体框架结构设计数据交换平台由前置交换子系统、前置信息库、交换传输总线、交换管理与监控子系统组成。通过自动任务调度方式实现数据的抽取、整合、传输、入库及过程监控。平台框架如下图所示:数据交换平台框架上图中,红色框中的部分为数据交换平台,实现
33、将分散在各业务子系统中的业务数据采集交换到数据中心的协调库。其中:(1)数据交换中心负责整个交换平台建设、运行与管理维护。在数据交换中心,部署交换中心子系统,构建数据交换传输总线,提供交换流程配置管理和平台管理监控功能。(2)参与数据交换的各业务部门在其交换前置机上的部署前置交换子系统,并与其业务系统之间的建立桥接(业务系统接口),实现内部业务系统与交换信息库内容的同步。前置采集子系统前置采集子系统的功能包括:(1)支持多种异构数据源(KingbaseES、Oracle、Microsoft SQL Server、Sybase、MySQL、JMS、Excel、TXT、XML等),系统提供开放式适
34、配器二次开发接口,可以根据项目的特殊要求开发新的适配器。(2)支持全量、增量数据抽取模式。支持触发器、MD5、时间戳等变化数据捕获方式。(3)系统接口标准化,在数据抽取和装载时采用主流标准接口,如JDBC、JMS等。(4)具有良好的跨平台特点。兼容X86、X64、SPARC、POWER等多种硬件体系,各种平台上的数据处理方式、消息通信结构完全保持一致。(5)具有较强的字段映射、类型转换、数据过滤、值替换等数据转换功能,可通过图形化界面进行配置。(6)提供数据转换开发接口,允许根据实际的转换要求增加新的转换组件。支持编写Java和JavaScript脚本用于数据转换组件中。(7)具有良好的可靠性
35、,当系统断电、数据源连接断开等异常情况发生后,系统具有保护措施,保证数据传输不丢失。(8)具有故障自主监测功能,当数据转换过程中出现故障时,系统可以记录运行日志并可以在故障排除后自动恢复。(9)在数据清洗、转换的过程中提供图形化监控功能,实现对数据处理各流程的监控管理,便于数据管理员及时处理。(10)支持在没有源数据库设计文档的情况下,对数据表和字段描述等元数据进行分析和提取,提高数据采集实施工作效率。前置信息库前置信息库是建立在各业务系统和数据中心间的交换中间库。该库主要分两个区,一个是交换发送区,存放从业务系统需要交换出去的业务数据,另一个是交换接收区,存放从数据中心交换进来的共享数据。通
36、过前置库的隔离,对外交换过程是基于前置信息库进行,而不是直接同业务系统的生产库交换,这样既实现了数据的交换共享,同时也对业务系统的业务库进行了有效保护,数据的共享权限由各业务单位掌控,也不会因为数据抽取影响到业务系统的正常运行。交换管理与监控子系统交换管理与监控子系统的功能要求如下:(1)集中监控,通过中心交换子系统,既可以监控缓冲库、中心库的清洗规整过程,也可以监控所有的前置数据库的交换情况。支持在中心集中配置前置交换系统的交换流程,控制交换流程的启动停止。对检测到故障,可通知相关人员,并记录日志。(2)交换传输,支持在多个交换节点之间配置消息路由,支持Http、JMS等协议传输。支持对传输
37、数据压缩解压,支持消息的持久化、断点续传,在故障恢复后,能继续进行数据交换工作,数据不会丢失。(3)作业调度,支持将抽取、清洗、转换等任务定义为作业,在指定的时间执行。支持一次性调度和周期性调度。系统功能概述跨操作系统及多硬件兼容支持ETL采用JAVA语言开发,具有良好的跨平台特点。借助JAVA跨平台的特点,ETL也可兼容多种硬件体系:系统可运行于X86、X64、SPARC、POWER等硬件体系之上,各种平台上的数据处理方式完全一致、消息通信结构也完全保持一致。兼容多种操作系统:支持主流的Windows 2000/XP/2003系列、Linux、Solaris、AIX、Kylin、红旗linu
38、x、中标普华Linux等操作系统。数据抽取数据抽取是抽取源数据的过程。有两种抽取数据的主要方法: (1)全量抽取:对数据源中的数据进行完全复制。该复制将产生与源数据完全一致的数据副本,该抽取方式主要应用在初始化数据抽取的时候,用于建立数据源和目标数据的一致视图,然后在此基础上进行增量抽取。(2)增量抽取:只捕获源数据中被修改的数据,实现数据源的变化能够反馈到目标数据中,使得目标数据能够随着数据源的变化而改变。此类数据抽取方式支持触发器、MD5、时间戳三种方式捕获变化的数据。支持双向数据同步,当数据源和目标的数据发生变化时,ETL能够使得两边的数据保持一致,能够避免双向同步产生的循环触发问题。数
39、据抽取通过不同的适配器,实现与各种异构数据源连接,进而抽取相关的数据。ETL产品支持多种异构数据源,主要包括:KingbaseES、Oracle、Microsoft SQLServer、Sybase、MySQL、JMS、Excel、TXT、XML等,采用标准的数据访问协议(如:JDBC、JMS、JAXP、FTP等)连接不同数据源,因此系统具有较强的扩展性和兼容性。同时系统提供二次开发接口,可根据项目的不同要求,定义特殊的适配器,从而可解析特殊格式的数据源。数据清洗、转换数据转换与清洗是探测和去除(修正)数据库来增加数据精确性的过程,实现减少冗余和提高已经结合了分散数据库的不同数据集的一致性。数
40、据转换与清洗能通过列映射、条件性拆分、排序 、联接、聚合、SQL脚本、Java脚本等多种手段完成以下任务:(1)把多个不同数据源的数据合并。 (2)不同数据集的转换和同步。 (3)数据类型和格式的转换。 (4)用于不同目标表的数据分离。作为一个有众多成功应用案例的数据转换与清洗工具,ETL具有良好的易用性,数据清洗、转换等处理流程可通过图形化界面进行配置,系统提供多种数据转换组件,如字段映射、数据过滤、数据清洗、数据替换、数据联接、数据排序、数据查找等多种数据转换功能,且转换工序可定制。图形化作业流编辑该系统是以数据为核心的思路,通过图形化的流程配置方式,并内置了多种数据转换组件,如字段映射、
41、派生列、数据过滤、数据清洗、数据替换、数据联接、数据排序、数据查找等,且转换工序可定制。同时该功能支持图形化的流程监控,实现对数据处理各流程的监控管理,便于数据管理员及时处理。作业调度以作业的方式对数据处理任务进行调度,系统支持自主故障检测及恢复功能。考虑到数据的整合内容、步骤很多且需要经常按照同一模式执行配置好的整合流程,满足分布的、分时(实时)的数据整合过程,因此需要一个计划调度功能。通过创建作业可以实现流程的调度执行。调度方式非常灵活,可以是一次执行,也可以是反复按时间间隔执行,如下图所示。 ETL任务调度界面运行监控系统提供图形化监控功能,实现对数据处理各流程及执行情况的监控管理,包括
42、多个节点统一监控,当出现问题时主动报警,便于数据管理员及时处理。故障检测ETL系统具有故障自主监测功能,当数据转换过程中出现故障时,故障信息能够传递给监控模块,实现主动报警并记录日志。故障解决后,系统能够根据故障点,自动恢复。转化开发接口功能数据清洗转换过程中将涉及非常复杂、并且很细节的数据处理工作。大量数据处理与原系统的业务逻辑相关,因此数据的清洗转换会遇到特殊逻辑处理工作,这往往需要在ETL的基础上针对性地开发特殊转换逻辑。ETL提供了基于java及javascript开发语言的二次开发接口,可有针对性地开发特殊的数据清洗转换组件,并快速集成到ETL中。数据代理功能KDI通过数据代理功能,
43、实现跨网段数据库或其他主机上数据文件的访问及配置。元数据管理数据共享交换的核心是元数据,具备多种管理模式;通过连接元数据、元数据的导入、元数据导出功能实现了多个系统平台间元数据的共享,实现了资源的重用,减少管理人员的维护工作量。元数据的提取和分析借助数据源抽取、配置等相关功能,帮助管理人员在没有相关设计文档的条件下,对数据表和字段描述等元数据进行分析和提取,并以此为基础实现业务数据整合。异构数据库在分布式系统中,由于系统的建设时间、建设目标和建设者的不同,跨系统的数据访问难于实现。其系统的异构性主要表现在:数据库管理系统的不同;数据库设计结构不同;数据字段的语义和表示方面的差异。数据库管理系统
44、的差异,可通过ODBC、JDBC等通用数据库接口屏蔽。数据库设计结构的不同,可以通过实现具有一组统一接口的、标准的数据库访问服务来屏蔽。访问过程由数据访问客户端和数据访问服务器端的交互操作实现,客户端向服务器发送规范的数据访问请求,服务器接收数据访问请求并通过调用底层数据库访问接口完成服务请求处理,并将处理结果返回客户端。服务器端提供的访问服务应用WSDL描述,以提供客户端应用程序调用。访问方式:在提供者的前置环境部署访问服务,使用者可采取轮询方式、订阅发布方式或调用方式等获取交换的信息资源,将交换的信息资源存放在交换信息库。轮询方式是使用者定期或定时访问提供者服务。订阅发布方式是使用者向提供
45、者一次性订阅,提供者分批向使用者发布。调用方式是使用者业务系统通过其前置交换环境访问提供者前置环境,提供者前置环境再访问其业务系统,获得政务信息资源。通过轮询、订阅发布或调用方式,使用者根据业务需求,将提供者的信息资源交换到交换信息库,以实现跨部门的信息资源共享。在多部门政务协同中,根据各自部门的需求,开发与部署交换服务。在交换中心环境部署采用工作流技术支持政务协同过程。数据质量管理系统数据质量是信息系统中对数据的一致性、正确性、完整性和最小性这个四个指标的满足程度。在数据工程中,提出了数据质量的需求和分析模型,认为存在很多候选的数据质量衡量指标,用户应根据应用的需求选择其中一部分。指标分为两
46、类:数据质量指示器和数据质量参数。前者是客观的信息,比如数据的收集时间,来源等,而后者是主观性的,比如数据来源的可信度、数据的及时性等。还有认为数据质量是数据适合使用的程度,认为数据质量是数据满足特定用户期望的程度。正确理解数据质量概念,根据自己的应用系统对数据的要求,选择合适的数据质量衡量指标,可对系统的数据的质量进行定量估计。这样可以大致了解系统的数据整体质量情况,已决定是否需要清洗;再结合数据分析,发现系统中相关数据存在的质量问题,并针对具体问题采用恰当的处理方式;再次估计系统数据质量,如此反复,最终达到提升质量的目标。数据质量管理方法论根据Ascential的“Data Quality
47、 Evaluation Methodology”分析数据。该方法将被分为0到4级,其中第0级是最为基础的数据质量测试。02级方法关注于在源系统上下载的源数据文件或记录集合,在数据处理区中处理。第34级方法关注于数据仓库的业务规则和转换逻辑,并需要在开发ETL程序进行测试。数据源系统数据质量分析的工作包括: 定义数据质量特征准确、完整地对数据进行更加快速的匹配值域分析完全性和有效性评估结构的整体性评估数据质量评估报告因此在本项目中,需制定数据质量评估方案以便在确定项目业务需求后立刻进行初步的数据质量测试,详细的测试将在ETL开发周期的测试阶段进行。0级:值域分析值域分析将为每个数据元素确定真实的
48、数据域值。目的是为每个数据项确定其所有值和发生的次数。值域分析对数据元素有做总体的了解。0级测试主要是为1级测试做准备。举例说明,如果对数据元素“客户身份号码”进行0级测试,该测试将揭示数据的格式,并找出非数字的值、可以被设定为默认的值或“命令输入范围”的输入值(例如“00000000”或“99999999”)。1级:完全性和有效性评估数据质量评估方法论的完全性和有效性评估关注在数据环境中的单个数据元素的数据内容。完全性评估完全性评估将确定:针对每个数据元素,符合以下条件的记录的个数:不包含有意义或重要的值。具有以下三个条件之一,可以定义为不完整:包含无效的值包含空格(或如果是数字格式,则包含
49、”0”)包含可忽略的默认值符合以下条件的记录的个数:拥有重要的值但该值却没有一个有效的域值。有效性评估首先对每个数据元素的有效值做出详细描述,然后评估数据是否符合有效性的需求。举例说明,如果“客户身份号码”被定义为只包含数字数据,有效性测试将识别出所有包含有非数字数据的该数字元素。例如“123W45678”或“12345&678”等的例外元素将被捕获并提交给项目团队成员。标识符、指示符、代码、日期/时间和数量可以通过相对固定的方式测试,但文本比较难以定义和评估其有效性,因为评估文本有效性的标准可能不存在,因此将需要使用复杂的软件。关于评估文本字段的建议将作为长期数据质量和清洗建议的一个部分。2
50、级:结构的整体性评估这一部分的评估将关注源系统数据结构和源系统中数据记录之间的关系。需要在本阶段评估的关键要点是:主键、外键和基数的关系规则。在数据库中,主键被定义为关键属性,2级测试的关键是确定主键对于每个数据记录是否唯一。例如,一个客户身份号码“123456789”为客户信息的主键,不能在一个数据库内分配给两个不同的人,如“John Smith”和“Bob Jones”。2级测试主要进行唯一性测试,其目的是为了确保源数据在上载到数据处理区时参照关系没有丢失。3级:业务规则合规性评估业务规则合规性评估将在数据转换完成后进行,其将分析建立在多个数据元素间逻辑关系的质量。业务规则通常是系统运行遵
51、循的标准和数据整合准则的延伸,具有逻辑性,并基于客户的业务需求,用于定义数据库中数据之间的关系。例如,一家商业保险公司可能拥有这样的业务规则:“对每一位年报案次数超过2次的客户,赔付金额达到5,000元,在承保时被首先检查。”这个规则将涉及三个表格中的三个字段,而且所有的单个数据都将通过1级测试,因为它们对于每一字段来说都是在有效的值域范围内,但是综合起来看,在更大的业务需求范畴内的值的结合可能会失败。所以业务规则合规性评估将确保数据仓库内的数据从业务角度来看符合项目特定的需求。4级:转换规则合规性评估转换规则合规性评估将在数据仓库环境中进行,以确保数据转移到数据仓库的数据转换符合业务的要求。
52、 本测试也将检查是否有源数据丢失和外来的记录被建立,以及所有从源系统转换到目标系统的行为是符合转换规则的。4级合规性测试是实施ETL前的事件,并且在ETL测试部分再次进行该测试。因此,4级转换测试将可以视作是ETL开发的单元测试,并由ETL开发团队执行。数据质量管理团队将与ETL开发团队紧密合作以保障测试和测试结果报告的质量。将数据质量评估的结果按照特定类别进行汇总后,东南融通项目组将编写数据元素的整体质量状况的报告,并提交给大连银行,以采取进一步解决措施。完整的报告包括:评估的数据元素清单数据元素的衡量标准数据元素的评估结果在得出数据质量评估报告后,项目团队将和中信银行一起商量数据质量的解决
53、方案。在测试中发生数据质量问题,可以采取以下可选方案优化数据的质量优化方法方法描述源系统纠正在大多数情况下,解决原有数据质量问题最彻底的方式是在源头将其纠正(比如在源数据系统中),这通常是最为行之有效的解决方案。同时通过这种方式来解决问题,还可以使本项目以外的其它项目在以后整合原有数据时获得很大的方便。但是因为针对源系统缺陷进行的问题纠正工作通常需要投入很多的成本、时间和人员。ETL处理ETL是数据仓库项目中改善数据质量最常用的方法,ETL主要解决与源数据变动较为相关的、并可在ETL流程中加以解决的数据质量问题。如果源系统的低质量的数据很多,仅依赖ETL,工作量很大,并且往往投入很大而收益甚微
54、,引起项目的风险。建设目标RF数据中心信息系统项目通过该数据质量管理平台,针对业务特点,采用自动检测和手工检测两种检测形式,对汇集到数据中心中的数据进行检测,形成数据质量报告并反馈到各部门,从而帮助提高业务数据质量。总体框架结构设计应用架构检核系统管理:维护数据质量管理中检核涉及系统的基本信息系统参数定义:对本系统中涉及的可配置参数进行界面化管理权限管理:定义本系统涉及的用户角色,并进行用户角色分配、角色访问控制权限设置检核指标管理:根据不同指标类的参数结构,对具体指标进行参数属性的定义检核调度与执行:定义数据质量检核指标集合的调度策略,并依据调度策略进行自动化的检核问题分布分析:根据具体的筛
55、选条件,对数据质量检核结果进行数据问题的分布分析数据质量趋势分析:根据具体的筛选条件,对数据质量问题在一段时间范围内的发展趋势进行分析数据质量指标批次对比分析:对一个具体指标,指定不同批次进行对比。包括:上次问题数、本次问题数、新增问题数、已修正问题数。数据质量报告:对指定的检核批次生成数据质量检核报告(EXCEL格式)问题发现:按指标及其它条件检索问题数据明细,可选择检索到的问题数据,提交形成待发布的问题问题发布:对提交的问题数据进行打包形成问题单;也可自定义问题单;并提供针对未发布问题的管理问题处理:已发布问题单的处理过程管理,包括反馈、解决归档问题管理:对已归档的问题单进行管理知识库分类
56、管理:维护知识库分类信息,包括分类编码、分类名称和分类描述知识库内容管理:维护知识库内容信息知识库查询:浏览和查询知识库内容功能架构逻辑架构中,将整个数据质量管理平台分成四个部分:源系统层这里所说的源系统层是指提供业务源数据的系统,如核心、信贷、国际结算等,还包括基础数据平台及ECIF系统本身,以及依赖基础数据平台及ECIF系统的数据集市及其他应用系统,从数据质量监控的角度来讲,数据处理的整个过程都应该处于数据质量检核的监控下。存储层存储层是指数据质量管理平台的DB,主要包括三块内容:稽核指标管理,稽核规则管理,稽核结果管理,设计可扩展的数据模型,进行检核指标、检核规则的定义和存储,同时存储检
57、核结果,以便提供前端展示,同时还包括对检核对象的管理、数据关系定义等。功能层基础功能主要包括稽核指标的定义,规则的定义,稽核指标的管理等功能,还包括系统管理、用户管理、权限管理、数据关系定义、接口文件定义等功能。主要功能接口数据检查接口数据是基础数据平台及ECIF系统数据的源头,接口数据质量问题的改进是基础数据平台及ECIF系统数据达到较高的数据质量的最基本要求。接口数据质量管理主要通过ETL处理的日志记录,对接口的数据质量进行评估。其中,对于文件接口的数据,主要从接口的完整性、正确性及合理性等方面进行检查,系统根据接收文件的时间、数据量、入库是否异常等角度进行分析。具体功能要求如下,主要包含
58、以下方面:文件传送完整率、文件传送合法率、文件传送及时率、文件加载正确率等。关键指标稽核根据关键的指标,分成客户、帐户、卡等设定关键的业务指标进行检核,分析的方法包括数值检查,平衡检查等方法进行关键指标的检核管理。Reject文件分析对Reject文件的原因进行归类和分析,并提供Reject文件的分析报告功能。辅助功能辅助功能是指一些数据质量管理流程上的支撑,主要包括告警处理、问题管理、知识库管理以及系统管理等组成。告警处理告警功能用来对数据质量的各类问题进行自动管理、实时监控与及时通知,是用来进行经营分析系统数据质量管理的重要手段和方法。告警处理包括告警定义、告警生成与告警提示等功能。告警定
59、义用户通过系统提供的界面,可以定义相关告警内容,如:告警名称、告警描述、告警重要程度、告警阀值等内容。告警生成告警生成是指结合预定义稽核配置对所采集信息进行分析,得出异常情况,生成告警。告警提示系统按照实现所定义的告警提示方式与时间设定自动提示的与该告警相关的各类人员。问题管理问题管理是对数据质量相关问题处理的一种IT化支撑功能,在发现问题、处理问题的过程中,可以通过问题报告的形式登记问题、指派处理人员,并提交问题处理情况,体现流程化的管理。问题发现数据质量的问题可以来自两种情况,第一种是人工报告发现的问题,第二种是通过告警等其他辅助手段发现的各类数据质量问题。人工报告发现的问题,由问题的发现
60、人负责将问题的名称、描述、类型等关键因素录入到问题管理模块中进行问题触发与发现。通过在告警等环节设置问题发现程序,预先设定一定的事件触发条件和规则,发现程序一旦侦测到数据存在的异常并符合问题的触发条件,则产生一个数据质量问题。无论是人工报告的问题,还是监视程序自动捕获的问题,都通过系统将该问题事件发送到问题列表,等待管理人员进行下一步处理。问题发布由数据质量问题的管理人员进行对问题的确认和核实,并将其发布至与该问题相关人员。问题处理与跟踪在某一问题由该问题的负责人员进行初步的处理后,将处理意见、时间、期望的改正结论等相关内容,录入系统,在不同的问题处理阶段需对该问题的处理状态进行更新。对该问题
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44736-2024野生动物保护繁育象
- 2024年度山西省高校教师资格证之高等教育法规自我提分评估(附答案)
- 2024年度年福建省高校教师资格证之高等教育学综合练习试卷B卷附答案
- 2024年碱锰电池项目投资申请报告代可行性研究报告
- 新条令.新亮点-内务条令解读
- 2024年度卫生间工程承建协议
- 基建类和生产类标准差异条款
- 2024宾馆租赁与管理协议
- 2024年产品销售与购买具体协议
- 人教部编版二年级语文上册第18课《刘胡兰》精美课件
- 主题班会-同学情教学课件
- 泌尿系统完整结构培训课件
- (中职)Office 办公软件应用W11-3诗词-实训任务+评分标准
- 规培体表肿物切除术
- 履带吊使用安全技术规程
- 犟龟-完整版获奖课件
- 汉语词性专题练习(附答案)
- 店长转正考核(员工评价)
- 9-2 《第三方过程评估淋蓄水检查内容》(指引)
- 铁路企业高技能人才队伍建设的对策与措施
- 亚马逊品牌授权书(英文模板)
评论
0/150
提交评论