




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、企业数据集成DI平台方案高性能、易管控的数据集成平台目 录 TOC o 1-3 h z u HYPERLINK l _Toc517725950 1DI产品定位描述 PAGEREF _Toc517725950 h 4 HYPERLINK l _Toc517725951 2DI产品概述 PAGEREF _Toc517725951 h 5 HYPERLINK l _Toc517725952 3DI产品客户价值 PAGEREF _Toc517725952 h 6 HYPERLINK l _Toc517725953 4DI产品关键特性 PAGEREF _Toc517725953 h 7 HYPERLIN
2、K l _Toc517725954 4.1数据集成平台部署结构 PAGEREF _Toc517725954 h 7 HYPERLINK l _Toc517725955 4.2增量数据抽取模式 PAGEREF _Toc517725955 h 7 HYPERLINK l _Toc517725956 4.3两种数据处理模型(同步、异步) PAGEREF _Toc517725956 h 9 HYPERLINK l _Toc517725957 4.3.1同步数据处理模型 PAGEREF _Toc517725957 h 9 HYPERLINK l _Toc517725958 4.3.2异步数据处理模型 P
3、AGEREF _Toc517725958 h 9 HYPERLINK l _Toc517725959 4.3.3两种体系架构的比较 PAGEREF _Toc517725959 h 10 HYPERLINK l _Toc517725960 4.3.4两种体系架构所适应的环境 PAGEREF _Toc517725960 h 11 HYPERLINK l _Toc517725961 4.4业务模型调度 PAGEREF _Toc517725961 h 11 HYPERLINK l _Toc517725962 4.5作业监控 PAGEREF _Toc517725962 h 14 HYPERLINK l
4、_Toc517725963 4.5.1对资源的重点监控 PAGEREF _Toc517725963 h 15 HYPERLINK l _Toc517725964 4.6企业级的负载均衡(HA)能力 PAGEREF _Toc517725964 h 16 HYPERLINK l _Toc517725965 4.7功能和资源权限管理 PAGEREF _Toc517725965 h 17 HYPERLINK l _Toc517725966 5DI产品的特点和优势 PAGEREF _Toc517725966 h 18 HYPERLINK l _Toc517725967 6DI产品组成及功能概述 PAGE
5、REF _Toc517725967 h 21 HYPERLINK l _Toc517725968 6.1DI Server PAGEREF _Toc517725968 h 21 HYPERLINK l _Toc517725969 6.2DI Component Library PAGEREF _Toc517725969 h 22 HYPERLINK l _Toc517725970 6.3DI Studio PAGEREF _Toc517725970 h 23 HYPERLINK l _Toc517725971 6.4DI Governor PAGEREF _Toc517725971 h 24
6、HYPERLINK l _Toc517725972 6.5DI Metadata Warehouse PAGEREF _Toc517725972 h 24 HYPERLINK l _Toc517725973 7DI产品环境配置 PAGEREF _Toc517725973 h 25 HYPERLINK l _Toc517725974 7.1支持的操作系统 PAGEREF _Toc517725974 h 25 HYPERLINK l _Toc517725975 7.1.1DI Studio(数据集成建模工具)支持的操作系统 PAGEREF _Toc517725975 h 25 HYPERLINK
7、l _Toc517725976 7.1.2DI Server(数据集成引擎)支持的操作系统 PAGEREF _Toc517725976 h 25 HYPERLINK l _Toc517725977 7.1.3DI Governor(数据集成治理环境)支持的操作系统 PAGEREF _Toc517725977 h 25 HYPERLINK l _Toc517725978 7.2支持的JavaEE服务器 PAGEREF _Toc517725978 h 25 HYPERLINK l _Toc517725979 7.3支持的数据库 PAGEREF _Toc517725979 h 26 HYPERLIN
8、K l _Toc517725980 7.4支持的浏览器 PAGEREF _Toc517725980 h 26 HYPERLINK l _Toc517725981 7.5支持的JDK版本 PAGEREF _Toc517725981 h 26 HYPERLINK l _Toc517725982 7.5.1开发环境支持的JDK PAGEREF _Toc517725982 h 26 HYPERLINK l _Toc517725983 7.5.2运行环境支持的JDK PAGEREF _Toc517725983 h 26 HYPERLINK l _Toc517725984 8典型案例 PAGEREF _T
9、oc517725984 h 27 HYPERLINK l _Toc517725985 8.1诸暨市智慧安居工程数据交换平台建设 PAGEREF _Toc517725985 h 27 HYPERLINK l _Toc517725986 8.1.1客户简介 PAGEREF _Toc517725986 h 27 HYPERLINK l _Toc517725987 8.1.2背景与问题 PAGEREF _Toc517725987 h 27 HYPERLINK l _Toc517725988 8.1.3产品与方案 PAGEREF _Toc517725988 h 27 HYPERLINK l _Toc51
10、7725989 8.1.4实施效果 PAGEREF _Toc517725989 h 29 HYPERLINK l _Toc517725990 8.2上海银行CRM系统 PAGEREF _Toc517725990 h 30 HYPERLINK l _Toc517725991 8.2.1上海银行简介 PAGEREF _Toc517725991 h 30 HYPERLINK l _Toc517725992 8.2.2背景与问题 PAGEREF _Toc517725992 h 30 HYPERLINK l _Toc517725993 8.2.3产品与方案 PAGEREF _Toc517725993 h
11、 30 HYPERLINK l _Toc517725994 8.2.4实施效果 PAGEREF _Toc517725994 h 31 DI产品定位描述企业大量的IT投资建立了众多的信息系统,但是随着信息系统的增加,各自孤立工作的信息系统将会造成大量的冗余数据和业务人员的重复劳动。企业急需通过建立底层数据集成平台来联系横贯整个企业的异构系统、应用、数据源等,完成在企业内部的ERP、CRM、SCM、数据库、数据仓库,以及其它重要的内部系统之间无缝的共享和交换数据。在实施数据集成的过程中,不同的数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严
12、重阻碍了数据在各部门和各应用系统中的流动与共享。因此,对企业内各异构系统底层数据进行有效的整合已成为增强企业商业竞争力的必然选择。 DI产品定位于企业数据集成,通过DI实现异构数据源的ETL操作,于此同时 DI产品更可以完成对数据集成过程中的模型进行管控、处理过程中的数据监控以及模型作业自动化等工作。 DI产品概述 DI是一个高性能、易管控的数据集成平台,通过 DI可以完成对各种类型数据的访问、过滤、清洗、转换、加载等ETL过程,通过 DI实现不同模式,如:基于触发器、基于时间戳、基于全文比对、基于日志的数据同步,最终实现异构数据的有机整合,在数据集成的过程中,借助 DI其强大的模型管控能力,
13、在实施过程中进行开发过程的规范化、代码自动化、代码和质量可控化、调度管理统一化和监控可视化。 DI产品客户价值 DI产品带给客户的价值主要来自三个方面:无需编码、快速的数据集成模型以及ETL处理开发。快速通过模型设计器或者作业自动化生成工具实现数据处理模型,完成数据库、半结构化、非结构化数据之间的ETL工作。大大节约了开发周期以及开发难度。强大的作业调度以及管控能力。使得数据处理更加业务化、可视化,使得企业的信息化部门可以更加方便、全面地了解数据处理模型的运行情况,有助于迅速定位和排除故障,更重要的是为及时主动的采取业务优化措施提供了可能性。组件模型持续积累能力。可高效的开发、积累和复用已经设
14、计好的数据处理模型,通过元数据仓库对模型信息进行有效管理,持续性的降低了开发成本、管理成本以及人员流失成本。 DI产品关键特性数据集成平台部署结构数据集成平台中DI Server可搭建集群进行部署,各自运行在独立的JVM上,各自之间通过基于HTTP的心跳信号进行信息交互;DI Metadata Warehouse可采用文件形式进行存储,也可引入关系型数据库存储元数据,可部署在独立的服务器上,多个DI Server共用一个元数据仓库;DI Studio安装在技术开发人员工作机上用于开发数据处理模型;开发出的数据处理模型可通过Governor进行部署管理、执行监控等操作。增量数据抽取模式增量数据抽
15、取的核心问题是,通过什么办法可以找出上次数据处理完成之后变化的数据。普元数据集成产品( DI)提供了以下几种方式可以找出这种数据变化。基于触发器的增量数据抽取在这种方式下需要在业务数据库中针对增、删、改三种操作建立触发器,并由触发器将变化的数据写入临时表中,最后由DI从临时表中读取数据,实现增量数据抽取。优点:借助数据库本身的机制,可靠性强。缺点:对源系统有影响,需要建立触发器以及临时表或临时数据存储文件。基于日志文件的增量数据抽取这种方式是使用数据库本身的日志系统,由DI读取并解析数据库的日志文件,然后在目标数据库中进行相应操作。优点:可靠性强,对源系统没有影响。缺点:各数据库系统的日志文件
16、绝大部分都是私有的,例如Oracle数据库的日志文件只有Oracle本身的ETL工具才可以读取。基于时间戳的增量数据抽取使用这种方式进行增量数据抽取的前提是源数据库与目标数据库都必须有时间戳字段。DI先读取目标数据库中的最大时间,然后以这个时间作为参数从源数据库中读取大于这个时间的所有数据。优点:处理速度快,数据处理逻辑相对简单。缺点:源数据库没有时间戳字段的表需要更改表结构,而且需要源数据库来维护时间戳字段;无法实现数据同步,因为使用时间戳字段无法获取删除后的数据。下图使用DI实现基于时间戳的增量数据抽取:上图黄色连接线表示将上一组件获取的数据作为参数传给下一组件。插入/更新:源数据库以目标
17、数据库最大时间作为参数进行数据查询得到的数据有些是新增的、有些是修改的。插入/更新组件根据主键字段进行逻辑判断,如果目标数据库存在这一主键所描述的数据行,那么这条数据就进行更新操作,如果没有就进行新增操作。基于全文比对的增量数据抽取通过ETL引擎获取某一时刻源数据库与目标数据库的数据快照,然后逐一进行对比,找出新增、删除、修改的数据后进行相应操作。优点:对源系统没有任何影响。缺点:面对海量数据(千万级、万万级)进行比对时有一定的性能问题。备注:全文比对的核心算法是将每条数据的每一列进行逐一比对,很显然这种频繁的I/O操作以及复杂的比对运算会造成较大的性能开销,在实际的应用过程中,可以事先对数据
18、进行预处理,将每一条数据生成一个唯一的HASH值,然后由DI对这个HASH值进行比对,找出变化的数据。这样既减少了I/0操作又提高了计算效率。下图使用DI实现基于全文比对的增量数据抽取:上图实现了人力资源管理系统与财务系统间的数据同步。DI处理逻辑首先获取两个系统的数据快照,根据比对记录组件对数据进行逐一比对,并产生状态字段存储比对的结果,最后由过滤记录组件根据状态字段将数据划分类型并交给相应组件对目标数据库进行操作。两种数据处理模型(同步、异步)同步数据处理模型在同步数据处理过程中没有中间步骤过渡, DI真正的充当的数据源到目标数据库之间集数据传输、数据处理的桥梁。异步数据处理模型异步ETL
19、流程的架构,需要在数据源与目标数据库两个端点部署两个DI引擎,搭建一个集群环境。数据源端的DI引擎负责从数据源中抽取数据,然后写到文本文件中;目标数据库端的DI引擎根据文本文件的内容,将数据加载到目标数据库中。中间通过网络互联,目前 DI支持FTP、JMS、P2P、Socket等多种传输方式。两种体系架构的比较类别异步数据处理同步数据处理性能比同步模式提供了更好的数据处理性能,因为在网络传输过程中,通过FTP、P2P这种传输方式要比直接通过数据库链接要快很多。要避免出现性能瓶颈的解决方法是尽量缩小数据抽取的时间粒度,比如将抽取周期定位每日抽取,这样可以保证每次抽取的增量数据是相对较少的,这样可
20、以降低ETL处理的压力。灵活性数据处理包括两个步骤:1、将数据库中的数据导出到中间过渡的文本。2、装载数据文件。导出的处理过程比较灵活,可以从源表中导出,也可以从相关视图中导出,甚至也可以先将源表输出到前置机然后再导出到文本文件。在数据处理过程中一次性的完成数据导出和装载的工作,这样简化了设计和测试的过程,但是从另一方面也降低了灵活性。适应性通过中间的过渡文件进行数据交换,数据源和目标数据仓库之间没有直接的联系,所以只要文本文件的数据结构不发生变化,源和目标的数据结构即使改变也不会对ETL流程产生很大的影响。在数据处理过程中,数据源和目标数据仓库的字段关系被绑定到具体的映射(Mapping)中
21、,当源或者目标的数据结构发生变化,相对应的映射关系也要做出修改。开发效率在异步ETL处理模式中,因为数据源和目标数据仓库的数据接口是分开的,所以只要定义好中间的文本文件数据接口就可以将开发任务独立成两个模块,分别完成源数据抽取与目标数据仓库装载的开发工作,各自模块完成之后再将其装配,这样可以大大提高开发效率。要求ETL开发人员不仅需要全面了解源数据的体系结构,而且对目标数据仓库的数据结构也要非常熟悉,这对开发人员自身的素质有很高的要求。数据类型支持如果数据源中包含图形数据,需要将其导出成字节流(Byte Stream,ASCII OR Unicode)并写入文本文件中,实现起来有一定的难度。从
22、源到目标可以直接映射,不需要使用ASCII或Unicode作为中间过渡。两种体系架构所适应的环境条件异步ETL同步ETL数据传输大数据量小数据量网络连接广域网局域网源系统和目标数据仓库在物理架构上是否属于不同的分布式环境是不是业务模型调度全面性调度全面的、专业的调度管理,有效提高了数据管理水平。提供日历方案+频度方案+作业+消息配置等按需的任务调度,有利于提高了开发效率,减少了开发成本。灵活的调度机制支持事件机制和定时机制的调度方式。支持灵活的、多角度的作业调度管理,包括事件、文件到达和计划调度以及手工触发。日历配置如下图所示:计划任务配置如下图所示:灵活配置,可维护性强定制简单化,仅需简单的
23、鼠标点击拖拉即可完成任务调度。调度活动痕迹化,为管理风险做到可控化。灵活的消息机制,把各种消息自动分发给用户(例:将作业的执行状态通知给管理员等)。平台组件化,耦合度低,接口简单,易开发。平台三层架构,结构清晰,具有良好的稳定性和容错性。采用了先进的JavaEE技术架构,平台具有很强的跨平台性和良好的可移植性。可配置的代理负载加权算法,可以在执行作业时支持多机集群,根据负载情况合理分担作业执行的服务器,从而能承载大规模数据的高负荷运行。调度平台的逻辑架构如下图所示:监控和管理控制台管理控制台是用户设计调度作业、进行调度监控和资源监控的控制界面,有两种用户角色:管理员和操作员,管理员具备平台所有
24、的操作权限,操作员只能监视系统运行状态,以及作业异常时允许有限的管理功能。调度引擎调度引擎是 DI调度的核心组件,它接收作业触发监控接口的作业输入,然后检查作业的依赖关系,通过资源管理器的资源分配将作业分发到调度代理执行作业。作业触发监控接口是调度引擎的输入组件,它以控制文件的方式对外提供服务,接收器定时扫描接收目录中的控制文件,并且扫描间隔可以定制。作业流执行策略作业流定义了一组具有相互依赖关系的作业。作业流执行策略定义了作业失败后的执行策略,包括忽略、作业失败后的重试策略(失败后从断点执行还是重头执行,失败重试间隔,失败重试次数)和是否检查上次状态(如果检查,失败后不能自动运行,需要干预后
25、重置状态)。作业流分支在构成一个作业流的诸多作业中,可以对每一个作业依据参数、作业执行状态、作业返回码等要素进行控制,从而实现对作业流更精准和复杂的控制,满足实际项目多种运用场景的需要。作业流嵌套作业流可以引用作业流实现作业流的依赖要。作业/流优先级选项/VIP通道在事件、计划调度和直接运行作业时可指定作业或作业流的优先级,并按优先级运行。支持作业(流)复杂依赖关系定义作业之间的依赖关系,根据依赖关系,控制作业流中定义的作业执行。作业(流)前置配置:作业流能够定义前置(一个或多个作业流,并且由前置作业流执行状态来控制该作业流是否执行)。作业(流)后置配置:根据作业(流)的执行状态、返回值、作业
26、参数等来决定后置作业(流)是否执行。灵活的自动翻牌翻牌策略定义:支持单个作业(流)自动翻牌、支持按组自动翻牌。翻牌触发方式:按计划调度运行翻牌、手动翻牌、事件触发翻牌。翻牌规则:支持自定义翻牌频度、自定义翻牌日历。调度代理调度代理接收调度引擎的执行命令,管理作业从启动到完成,完成后存储作业日志,返回作业执行结果到调度引擎。资源管理器资源管理器是作业进行资源分配的管理组件,作业在分发到调度代理前需要查询资源管理器目前的资源状态,判断是否有合适的服务器执行作业,另外资源管理器还负责实时采集服务器资源状态,为控制台监控资源提供信息。通知和报警可以在作业流上设置作业流执行状态通知和报警,在执行成功和失
27、败后,系统告警,并将异常明细通过Email发给相关运维人员。作业监控全局性监控全局的作业运行监控服务,有效提高数据管理水平。灵活的作业状态日志查询,支持作业批次的。详细日志的查询,全局查看作业文件日志或执行脚本。简单灵活的作业流水分析与监控,快速定位问题。可视化监控支持可视化的多角度作业运行监控,包括总览全局的总体监控和明细型的计划监控以及事件监控。支持可视化服务器状态监控,及时了服务器的运行状况(启动/异常等)。支持资源预警,提供图形化方式实时跟踪服务器CPU、内存、磁盘空间等状态变化,设置服务器资源阀值,实时告警通知。扩展性强支持分布式集群,实现负载均衡,具有良好的稳定性。二次开发接口丰富
28、,扩展灵活。灵活的任务封装机制,灵活扩展作业类型。监控管理界面如下图所示:作业执行日志:对资源的重点监控定义监控资源可以定义服务器监控资源,包括管理服务器、调度服务器、代理服务器。可以对上述定义的资源选择是否监控,其中可以对作业服务器选择是否参与负载均衡。阀值设置定义高位警戒线和低位警戒线定义监控数据采集频度定义代理状态采集频度定义负载均衡加权值算法资源监控Web的、图形化的监控界面监控服务器资源情况包括物理内存使用情况、硬盘使用情况、连接状态、服务器工作状态(在线or离线)等。以下是资源监控界面:企业级的负载均衡(HA)能力DI Governor系统采用三层架构,管理平台、调度服务器、代理可
29、以根据客户的负载集中部署,也可以分来部署。系统对三层架构都提供了高可用方案。管理平台通过应用服务器的负载均衡来达到更高的并发数。支持多个调度服务器的分布式调度,以分担负载。代理HA和负载均衡支持;系统可以检测代理是否活动,当机的代理不再执行作业,系统通过资源检测,自动寻找资源最优的代理进行作业的执行。另外,代理提供作业并行度,用于控制最大同时运行作业数量,防止资源耗尽。功能和资源权限管理DI Governor提供企业级的权限管理机制。围绕登录用户的信息及权限提供一整套管理机制,由系统管理员进行统一管理。用户管理是控制用户功能权限、数据访问权限、资源访问权限的基础。支持按用户、角色进行权限管理。
30、DI Governor对系统提供的所有资源提供记录级的权限管理。可管理资源包括:数据源、ETL服务器、代理服务器、调度服务器、作业目录、作业、作业参数、作业流、计划任务、频度、日历、事件、公共组件、映射和公共监控。 DI产品的特点和优势完全图形化设计,基于元数据驱动,直观可控。企业在实施数据集成项目时往往面临大批量的异构数据,原始通过手工编写代码或者采用数据库存储过程的方式通常也可实现简单的数据集成功能,但随着项目实施范围不断扩大,项目面临不可控。 DI提供了基于SWT的数据变换和模型设计工具,开发人员只需在图形化环境中通过拖拽方式就可以描述复杂的数据变换和任务流程,不需要进行任何编码,业务人
31、员也可非常容易的了解数据的流向。系统提供超过40个数据处理组件,应对各种复杂处理。同时引擎基于元数据驱动,可以对一系列的数据交互流程进行统一管理,对技术层面和业务层面的元数据进行存储,支撑了决策支持系统、数据治理等业务的实施。灵活的调度配置。调度及相关配置简单、灵活、易用;支持灵活的、多角度的模型作业调度机制,包括事件、数据库就绪、文件到达和计划调度以及手工触发。 DI不但可以调度自身的数据集成引擎,更可以调度第三方ETL工具,如:DataStage和PowerCenter。多角度的运行监控。监控平台提供了总揽全局的总体监控和明细型的计划监控以及事件监控;可视化的多维度作业运行监控,使得极佳的
32、易用性获得最大限度推广;提供调度环境多个DI引擎的资源监控,包括CPU占用、内存使用、磁盘空间等信息。完善的资源监控体系。数据集成平台有完善的资源监控功能,可以对管理服务器、调度服务器、代理服务器以及物理机器的CPU、内存等资源进行全面的监控和管理,另外也通过配置监控服务器的连接状态等,通过对这一系列资源的监控,可以保证在第一时间发现系统存在的问题,并且及时排除,保证系统的正常运行。系统采取web的监控界面,包括对作业和资源的监控,监控界面展现内容直观、信息丰富,最大程度的方便了产品的使用者。多种作业流处理体系。作业流分支实现对作业流更精准的控制。在构成一个作业流的诸多作业中,可以对每一个作业
33、依据参数、作业执行状态、作业返回码等要素进行控制,从而实现对作业流更精准和复杂的控制,满足实际项目多种运用场景的需要。作业流嵌套。作业流可以引用作业流实现作业流的依赖要。作业/流优先级选项/VIP通道。在事件、计划调度和直接运行作业时可指定作业或作业流的优先级,并按优先级运行。Job自动化。支持Oracle、DB2、SQL Server等主流数据库;能自动生成ETL Job、存储过程以及DI数据处理模型,提高开发效率,规范开发过程。企业级性能和高扩展性。数据处理的性能往往是数据集成项目关注的重点,性能是保证数据中心数据实时性的关键。 DI具有强大的数据转换效率,在大负荷的任务执行中仍然有良好的
34、性能,并行执行能力使其所能处理数据的速度可以得到趋近于线性的扩展,轻松处理大量数据。与此同时基于数据流的数据处理模型更能最大程度的发挥各个DI处理单元的处理能力。提供集群服务,可以把负载分布到多个业务模型引擎和任务调度引擎上,大规模并行处理使其能够适应大规模企业级应用,具有很高的扩展性。可配置的均衡负载机制。一个数据处理模型在一组引擎上运行的时候,可以通过配置实现模型的均衡负载运行,最大化的发挥DI引擎的处理能力,以及协调集群的处理能力,提高数据处理的吞吐率。开放的架构,易于使用的二次开发接口。提供了简单易用的二次开发接口,用户可以很容易的定制开发各种数据转换和任务组件,并能在应用中实现对 D
35、I的调用执行。同时提供JavaScript的集成能力,通过JavaScript图元方便用户嵌入任意的JS数据处理脚本。可视化调试和性能监控。 DI提供了图形化的调试和监控工具,可以直观显示任务的执行,可以实时检测系统在各环节的数据处理性能,并以曲线图的方式显示。全面的变化数据捕获和数据抽取策略。如何捕获增量数据往往是实施数据集成项目非常重要的问题, DI提供了基于时戳、基于触发器、全文比对等各种方式的变化数据捕获机制,提供批量抽取、实时抽取、定时抽取等各种数据抽取执行策略。跨平台和丰富的数据源支持。平台采用Java开发,可以运行在SUN Solaris、HP-UX、IBM AIX、AS/400
36、、OS/390、 Sco UNIX、Linux、Windows 等各种操作系统;支持Oracle、 Sybase、SQL Server、DB2、Informix、OleDB、Text、Excel、XML、CSV、Access、Foxbase、FoxPro、Dbase、Interbase等各种数据源。 DI产品组成及功能概述 DI由以下五部分产品组件组成:DI Server(数据集成引擎)、DI Component Library(数据集成组件库)、DI Studio(数据集成建模工具)、DI Governor(数据集成模型治理)、DI Metadata Warehouse(元数据仓库)。DI
37、ServerDI Server(数据集成引擎)基于JAVA构建,是 DI的核心,负责解析数据集成模型定义、处理Governor请求、处理引擎自身的模型调度等。数据集成引擎可以满足大规模数据的并发处理,完成企业级的数据交换场景。数据集成引擎基于数据流的数据结构处理,在大规模、复杂的数据处理场景中依然具有非常高的性能以及稳定性,适用于电子政务、电信、银行、制造等行业。DI Component LibraryDI Component Library(数据集成组件库)包括了一组与数据集成相关的服务构建,通过这些丰富的组件,开发人员可以在集成开发环境下基于可视化的组件图元快速开发出高效的数据处理模型。D
38、I组件库包含了数据抽取组件集、数据装载组件集、数据转换组件集以及用来传输二进制数据的数据传输组件集。数据抽取与装载组件集包含了一组对不同数据源、关系型数据的数据抽取组件,支持XML、Excel等半结构化数据、支持CSV、TXT等非结构化数据、支持Oracle、MS SQL Server、MySQL、DB2、Sybase、Informix等关系型数据库、支持ArcGIS空间数据库、支持Cassandra、Hadoop、HBase等非关系型数据库。数据转换组件集包含了一组对数据进行转换、过滤、清洗、合并的组件,以实现对复杂、凌乱数据的业务处理。借助DI数据转换组件库,可以实现:对数据按照某一标识进
39、行拆分。根据字段值的不同进行数据映射。对一份数据按照不同类型进行分组。针对源数据库与目标数据库的字段名称不同进行映射。将两份数据合并成一份。将一份数据按照某一列的值进行排序。指定一个逻辑条件进行数据的过滤。对数据中牵扯到的数值信息进行数学计算。对两份进行进行全文比对,找出其中的异同。对无法满足的需求可借助JavaScript功能自定义处理方式。DI StudioDI Studio(数据集成建模工具)是基于SWT技术开发的可视化流程设计器,提供可视化数据模型定义与调试、可视化的模型性能监控、元数据管理以及数据处理模型部署等功能。DI Studio的集成开发环境的功能特性包括:可视化数据模型定义用
40、拖拉方式画出数据交换模型。支持多种处理处理模式(同步、异步)。支持多种增量数据抽取方式。无需编写代码即可调试数据处理模型。支持全局变量、本地变量配置。支持快速查看源数据。可视化的模型性能监控根据数据交换模型配置,运行时通过Studio界面可实时监控数据输入、输出IO性能,更可以监控交换模型中每一个组件的数据处理性能,跟性能优化工作提供必要的数据支撑。元数据管理开发人员可通过DI Studio可对DI底层元数据仓库进行资源查看、检索、更新等操作,通过元数据库仓库可实现团队模型管理、版本控制等。数据处理模型部署通过DI Studio可将开发好的数据处理模型部署到DI Server,并通过DI Go
41、vernor对其进行管理调度、优化治理。DI GovernorDI Governor(数据集成模型治理)是 DI提供的系统管理监控与任务调度工具,系统管理员可以通过它对数据处理模型以及数据处理引擎进行配置和管理。DI Governor与 DI其他部件结合想结合是企业快速构建数据中心、实现数据交换的理想平台,在实施过程中可以对开发过程实现规范化、调度管理统一化、监控可视化等。同时也可以与第三方处理处理引擎实现互补,增强其统一调度、全局监控等功能。DI Governor的功能特性包括:数据集成模型全生命周期管理与任务调度、监控。实现数据处理作业自动化。DI Server资源监控与负载均衡。数据集成
42、平台资源与权限管理。提供二次开发API,与第三方系统集成。DI Metadata WarehouseDI Server基于元数据驱动,DI Metadata Warehous(元数据仓库)用于保存通过数据集成建模工具构建的数据处理模型,支持Oracle、DB2、Syabase、MySQL、MS SQL Server等多种关系数据库,同时可以基于文件形式进行模型存储。DI Server通过解析元数据仓库中对模型的定义数据实例化数据处理模型。 DI产品环境配置支持的操作系统 DI Studio(数据集成建模工具)支持的操作系统Windows 2003/XP。 DI Server(数据集成引擎)支持
43、的操作系统Windows 2003/XP HYPERLINK /xdp55109.html t _blank RedHat Enterprise Linux Advanced Server 2.0及以上AIX 5.3 +HP UNIX 11 +Solaris 8 + DI Governor(数据集成治理环境)支持的操作系统Windows 2003/XP HYPERLINK /xdp55109.html t _blank RedHat Enterprise Linux Advanced Server 2.0及以上AIX 5.3 +HP UNIX 11 +Solaris 8 +支持的JavaEE服
44、务器Tomcat 5.5.20JBoss 4.0.5 GAWebLogic/WebLogic Cluster 9.2.3/10.0/10.3WebSphere/Websphere ND 5支持的数据库Oracle 9i/10g +DB2 UDB_V8.2 +Informix 9.4 +Sybase 12.5 +SqlServer 2000 +MySQL 5.0 +支持的浏览器IE 6/7/8/9Firefox 2支持的JDK版本开发环境支持的JDKSUN JDK 1.5/1.6。运行环境支持的JDKSUN JDK 1.5/1.6。典型案例诸暨市智慧安居工程数据交换平台建设客户简介诸暨市智慧安居
45、工程以科学发展观为指导,整合各方资源,广泛应用物联网和云计算技术,创新发展“枫桥经验”,创新公共安全防范和服务手段,建立和完善智慧型的工作体系,精准掌控公共安全状态,提高信息化应用和公共安全管理、服务水平,实现安民、保民、便民、利民,为大城市建设和率先基本实现现代化营造和谐稳定的社会环境。为了更好实现上述目的,需要建设一个统一的智慧安居系统平台,实现安居统一服务,并通过整合分系统建设中的信息以及接口以实现数据信息深层利用。特此提出软件对接标准要求规范,所有一期建设所含分系统需要在此规范下开放数据以及调用接口,统一用户使用接口。背景与问题智慧安居工程建设始于2011年,以信息化应用为主要载体,包
46、括信息指挥服务中心、智慧防控体系、智慧服务体系、智慧应急体系等16项内容。本阶段以建设国家级示范工程为目标,联合开展“智慧安居”工程试点建设,力争在枫桥经验50周年到来之前完成“智慧安居”工程试点建设,为进一步提升诸暨市城市管理水平和产业升级提供一个强有力的平台。现阶段信息交换、资源共享和业务系统成为发展的关键。目前系统缺少统一规划,各自为政、重复建设,对用资源共享与交换缺少统一信息平台作为依托。部门间的条块分割管理体制造成了诸多信息孤岛,数据割据造成了资源分散不利于今后其他系统的业务展开。各部门间的业务协作采用最原始的沟通方式,如:电话、Email、资源拷贝等方式,不能有效地保证数据的及时稳
47、定传递,而且在实际工作中造成了许多人为的数据错误。产品与方案总体设计 DI在数据交换平台中可做为一个统一的数据来源,主要提供了各业务系统之间的实时数据交换功能。将各个系统中的业务数据抽取,经过过滤清洗转换形成数据中心所需要的数据。前置交换节点前置交换节点是资源共享交换平台的重要组成部分。多个前置交换节点一同构成了分布式的资源交换与组件运行环境。前置交换节点由一个前置交换数据库和节点软件构成,在节点软件中的 DI负责将一个或多个业务系统中需要共享的数据通过标准的ETL方式装载到前置交换数据库中,通过节点软件中提供的各种接口协议适配服务与资源交换中心进行对接。中心交换节点中心交换节点由数据存储中心
48、和数据交换中心构成。DI Server实现了前置交换节点与中心交换节点的基于JMS的可靠消息传递交换。 ESB eq oac(,R)暴露HTTP、JMS、SOAP接口供外部调用, ESB Governor提供了中央管理功能,通过心跳服务实时监控各服务节点的运行状态、负载、传输量等一系列交换信息。资源目录提供了实体资源的注册、发布、更新、寻址等功能。数据中心存储了经过统一标准化的可供共享的各业务系统实体数据。前置交换节点与平台对接在资源共享交换平台中,中心平台的作用主要是对实体业务数据的存储,目录资源的存储以及资源交换的管理与调度。前置交换节点实现了业务数据的捕获,目录元数据的编目,与其他交换节点进行点到点的数据交换等功能。前置交换节点与平台的对接是系统实施的核心,如何根据自身应用系统发展的现状以及网络部署情况选择合适的接入方式尤其重要。交换平台的监控资源共享交换平台的核心功能除进行资源交换之外还有交换过程的监控。分为两种监控形式:数据管理系统监控。数据管理系统通过数据交换系统采集交换至中心的各类参建
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024经济形势对投资的影响试题及答案
- 2024人力资源行业热点试题及答案
- 2024部编道德与法治七下第一单元《青春时光》中考真题汇编
- 黑龙江林业职业技术学院《数字营销传播案例解读》2023-2024学年第二学期期末试卷
- 黑龙江省哈尔滨三十二中2025届高三毕业班第十七模英语试题含解析
- 黑龙江省哈尔滨市巴彦县2025年三下数学期末学业质量监测模拟试题含解析
- 黑龙江省尚志中学2025届高三年级五校联考(一)物理试题含解析
- 黑龙江省牡丹江市重点中学2024-2025学年高三适应性月考(六)生物试题含解析
- 黑龙江省虎林市2025年高三二模热身考试历史试题试卷含解析
- 黑龙江省鹤岗市东山区2024-2025学年五年级数学第二学期期末质量跟踪监视试题含答案
- 【道法】做自强不息的中国人课件+-2024-2025学年统编版道德与法治七年级下册
- 山东省济宁市2025届高三下学期3月一模试题 地理 含解析
- 标准田径场地租赁合同样本2025
- 外研版(三起)(2024)三年级下册英语Unit 3 单元测试卷(含答案)
- 河北省石家庄市2025届普通高中教学质量检测一(石家庄一模)高三英语试卷 含答案
- 重点营业线施工方案
- 2025年西安印钞有限公司招聘(16人)笔试参考题库附带答案详解
- 第23 课《太空一日》课件 部编版七年级语文下册
- 《水土保持监测技术规范SLT 277-2024》知识培训
- 2025年教科版科学五年级下册教学计划(含进度表)
- 幼儿园教法与学法
评论
0/150
提交评论