数据集成综述报告_第1页
数据集成综述报告_第2页
数据集成综述报告_第3页
数据集成综述报告_第4页
数据集成综述报告_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据集成综述报告介绍了数据集成的产生的产生背景,阐述了针对数据集成的相关的概念,详 细的说明了数据集成所使用的领域,及各个领域中具体的作用和技术,说明了数 据集成的方法,及其发展中的各个阶段,最后是数据集成的发展趋势、方向。数据集成的起源和概念随着Internet的迅速发展,可共享的资源越来越多,对数据的描述千差万 别,数据环境的差异也越来越大。不同行业、部门由于业务与功能的不同,各自 都有着基于不同平台的信息服务和管理系统。这样,这些由不同核心技术构建的 信息系统就形成了一个个的“信息孤岛”。而各个“孤岛”之间明显地存在着数 据交流等诸多问题。由于不同数据源之间的信息和组织不同,构成了一个巨

2、大而 复杂的异构数据库环境。就大型企业和政府部门的信息化而言,信息系统建设通常具有阶段性和分 布性的特点,这就导致了 “信息孤岛”现象的存在。“信息孤岛”造成系统中存 在大量冗余数据、垃圾数据,无法保证数据的一致性,从而降低信息的利用效率 和利用率,为了解决这一问题人们开始关注数据集成研究。由于现代企业的飞速发展和企业逐渐从一个孤立节点发展成为不断与网络 交换信息和进行商务事务的实体,企业数据交换也从企业内部走向了企业之间; 同时,数据的不确定性和频繁变动,以及这些集成系统在实现技术和物理数据上 的紧耦合关系,导致一旦应用发生变化或物理数据变动,整个体系将不得不随之 修改。因此,我们进行数据集

3、成将面临着如何适应现代社会发展的复杂需求、有 效扩展应用领域、分离实现技术和应用需求、充分描述各种数据源格式以及发布 和进行数据交换等问题。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集 中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟 的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构 造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决 策支持。数据集成的应用数据集中管理已经成为中国金融、电信、以及各级政府部门建设IT系统的 主要方向,随之产生了大量对于数据集成的市场需求。中国主要商业银行正在进 行数据中心的建

4、设,数据中心承担着数据容灾、网上银行等重要作用,对数据同 步有很高的实时性要求。中国主要电信企业已经完成省级数据仓库的集中建设, 正在进行分析功能完善工作。为保证得到可靠的分析结果,要求必须使用完整的、 一致的、准确的数据。中国政府推动的电子政务建设工作取得重要成绩,在已完 成的金税、金财、金保等信息化系统中积累了丰富的数据,正在通过金宏工程的 建设来实现宏观经济管理部门的信息互通,为国家宏观经济决策提供支持。更重 要的是,中国各行业企业都已通过信息化建设积累了大量的数据,企业对数据集 成的需求持续增长。数据集成应用领域1、数据仓库应用数据仓库的发展在国内差不多有近10个年头,数据仓库中的数据

5、集成应用 主要是围绕ETL的功能来实现,一般来说其主要功能是将多个业务系统不同种 数据类型的数据抽取到数据仓库的ODS(Operational Data Store)层,经过转换, 加载存储到星型结构的数据仓库层,为满足不同主题的展现应用,再向关系型数 据库或多维数据库进一步汇总加载,其ETL功能可由手工编程或专业工具软件 这两种类型来实现。由于工编程到专项ETL工具的应用是成熟的数据集成软件工具的雏形,是 为快速达成项目功能需求,满足复杂的业务处理的需要而产生的。它以ETL为 核心,开发技术也发挥得淋漓尽致,PB、JAVA、SQL、存储过程、C/C+都可 能会悉数登场,多一种系统的数据集成就

6、可能会多于一倍的开发工作量,使数据 集成平台更趋于复杂、脆弱。另外,如电信、金融、税务、公安等行业的众多系 统集成商针对各自的业务系统也开发有专项的数据集成工具,只是有一定的局限 性,拘泥于某一种应用或某一特定的系统环境。众多成熟的数据集成厂商都有专门的集成软件工具,如Informatica PowerCenter、IBM Datastage、Oracle ODI、Microsoft SISS 等,集各种数据接口、 ETL、数据质量、实时、数据联邦、分区并行、网格、HA等技术于一身,具有 更宽广的应用、可扩展性强、安全稳定等一些特点。2、数据迁移应用这种应用比较容易理解,对于新旧系统升级、数据

7、大集中时的数据作迁移, 使数据更能顺应新系统的结构变化而平稳迁移。3、数据合并应用在企业并购中很容易产生数据合并的应用,如两个企业的HR系统的合并、 财务系统的合并、其它业务系统的合并,当系统需要合并必然产生数据的合并, 因此对企业数据进行统一标准化、规范化、数据的补缺、数据的一致性都将导致 数据合并。4、数据同步应用当企业一个系统的业务活动会影响其它多个系统的进程时,数据的实时性、 准确性就尤显重要。如航空公司与航空机场之间的数据同步、证券交易所与证券 公司之间的股票信息同步、金融业的汇率信息同步等等。影响数据同步的实时性 与可靠性的因素会有网络的连通性、传输效率、数据接口、数据格式等,这些

8、诸 多因素都属于数据集成中的数据同步要解决的问题。5、数据交换应用或者叫主数据管理应用,这种数据集成的应用正越来越受企业的重视。一般 构成企业主要的基础数据分别是客户数据、产品数据、员工信息数据、供应商数 据,要从企业多个系统中快速、可靠地建立唯一、完整的企业主数据视图。要实现企业主数据管理应用的数据集成平台,必须具备有良好的数据连通 性、良好的数据质量探查与分析、良好的数据转换能力等。前面提到跨多个企业、 单位机构的架构就是一个典型的主数据管理应用,如公安局、工商局、税务局、 人事局、劳动社保局等这些众多政府机构主要是围绕两个基本主体进行各项事务 活动,一个主体是个人,另外一个主体是企业单位

9、。而众多政府机构对这两个主 体的信息数据要求重点不同、数据处理顺序有先后,数据变更各异,数据交换复 杂性不同。而最理想的境界是这两个主体数据能做到最大程度的同步,这就是主 数据管理的思想。以上五种数据集成应用解决方案在国内最常见的是数据仓库的应用,最复杂 的应用应该是数据交换了,但是都以ETL技术为基础,ETL技术成为了数据集 成的核心技术。伴随ETL技术的还有数据连通、数据质量、数据清洗、数据联 邦、Real-Time、数据探查等技术,为了提高数据集成的安全性、高效性、可扩 展能力,还有SOA、HA、GRID等相关技术作为支撑。数据集成的方法如何集成、交换数据是目前企业关心的问题。一种方法就

10、是建立数据仓库, 通过数据的抽取、转换、清理和装载,将数据从一个系统传输到另一个系统,同 时对其进行整理和修改,从而符合数据仓库的需求,达到数据集成的目的。另一种就是数据交换,数据交换技术到目前为止,它的发展大致经历了三 个阶段:第一个阶段:以EDI技术为基础的电子数据交换。它就是将贸易或行政事 务按照一个公认的标准变成结构化的事务处理或信息数据格式,实现电子传输。 传统EDI信息标准的最大缺点在于即使在使用EDI世界内部,仍然没有一个全 球通用的标准。第二个阶段:以多层结构Web技术为基础的信息发布。多层结构Web信 息发布主要靠HTML。HTML并没有对Internet上最重要的东西信息的

11、本身 含有进行描述。所以HTML只适合于人与计算机的交流,不适合计算机与计算 机的交流。同时HTML的标记集合是固定的,只能够使用W3C给我们定义好了 的标记来传达信息。第三个阶段:以XML等第二代Web技术为代表的数据交换。XML是SGML 的一个子集。XML重要的特征是:被标记的各个数据是报纸其含义,因此系统 间交换数据的可能性极大提高。XML的主要特点是可扩展性,允许各个组织、 个人建立适合自己需要的置标集合;结构性,数据存储格式不受显示格式的制约, 把资料的内容和其表现形式合理地隔开,从而大大提高XML资料的可理解性、 可交换性和重用性。平台独立性,XML文档时纯文本,独立于平台和应用

12、。因 此,运用XML可以有效的解决新旧系统、不同应用系统之间或者不同数据源之 间的数据共享与交换问题。Web Services是今年来提出的一种新的面向服务的体系结构,同传统的分 布式模型相比,其主要优势在于:(1)协议的通用性。Web Services利用标准的 Internet协议(如HTTP、SMTP等),解决的是面向Web的分布式计算;(2)完 善的平台、语言独立性。Web Services进行了更高程度的抽象,只要遵守WebServices的接口即可进行服务的请求与调用。在企业中,要求所有的参与者都采 用同一个基于某种语言和平台的模型是不实现的。而Web Services结合了面向组

13、 件方法和Web技术的优势,利用标准网络协议和XML数据格式进行通信,具有 良好的普适性和灵活性,便于实现数据集成和数据交换。数据集成技术的发展方向历史造就了数据孤岛,也将收复数据孤岛的使命赋予了数据集成技术。不断 滋生的数据碎片会不断给数据集成技术制造难题,同时也催生出使其前进的无限 动力。对数据集成项目的执行者而言,这样的任务可能并没有明确的终点,需要 不断地与变化进行抗争。这些变化包括新应用的建立、数据库平台迁移/合并、 IT应用规模的扩充,当然还有业务组织的拆分与购并。无论你采取什么的技术路径,都需要与变化为伍,虽然任何的变化都会让你 好不容易搭建的数据集成系统备受冲击,但你还是不得不学着适应变化,与其成 为朋友。数据集成的要务是,在数据流动的过程中解决复杂的数据转换和数据清 洗问题,同时实现对海量数据处理的质量保证。数据集成是典型的持续型项目, 由于与各种业务应用都存在接口,数据集成的实践者需要在变化的环境中建立清 晰的技术实现图景。流动中的数据变幻莫测,它们的内容、质量、结构和定义都在不断变化着, 而业务的复杂程度、项目周期的缩短以及更多数量和类型数据的涌入,不断制造 出新的数据孤岛。因此,数据集成将成为一门企业需要持续修习的功课。明确这 一点,可以让我们慎重考虑那些关注短视效应的选择,用更加长远的目光审视技 术的发展并迈出坚实的脚步。参考文献.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论