【毕业学位论文】(Word原稿)基于XML的异构数据库集成系统的研究-计算机软件与理论_第1页
【毕业学位论文】(Word原稿)基于XML的异构数据库集成系统的研究-计算机软件与理论_第2页
【毕业学位论文】(Word原稿)基于XML的异构数据库集成系统的研究-计算机软件与理论_第3页
【毕业学位论文】(Word原稿)基于XML的异构数据库集成系统的研究-计算机软件与理论_第4页
【毕业学位论文】(Word原稿)基于XML的异构数据库集成系统的研究-计算机软件与理论_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号: 密 级: 公 开 U D C : 单位代码: 10424 高校教师在职攻读硕士学位论文 基于 异构数据库集成系统的研究 申请学位级别 : 硕士学位 专业 名 称: 计算机软件与理论 指导教 师姓名 : 职 称: 副 教 授 山 东 科 技 大 学 二零零七年四月 论文题目: 基于 异构数据库集成系统的研究 作者姓名: 入学时间: 2005 年 3 月 专业名称: 计算机软件与理论 研究方向: 软 件 工 程 指导教师: 职 称: 副 教 授 论文提交日期: 2007 年 4 月 论文答辩日期: 2007 年 5 月 授予学位日期: N A in of of F by 2007 声 明 本人呈交给山东科技大学的这篇硕士学位论文,除了所列参考文献和世所公认的文献外,全部是本人在导师指导下的研究成果。该论文资料尚没有呈交于其它任何学术机关作鉴定。 研究生签名: 日 期: in of of is my of at 山东科技大学高校教师在职攻读硕士学位论文 摘要 摘 要 随着网络化与信息化进程的不断推进,各行各业的大量信息越来越迫切需要能最大限度地被共享、交换、集成和再利用,越来越多的用户希望能够同时访问和处理多个不同网络节点的异构数据源中的数据,异构数据库集成成为急待解决的问题。 经成为 文通过分析 计了一个基于 对其中的关键技术进行了较为深入的探讨和研究,具体内容如下: 首先介绍了国内外关于异构数据库集成技术的主要学 术成果和应用成果,剖析了其中存在的问题;阐述了进行异构数据库集成的必要性;介绍异构数据库集成涉及到的相关技术 然后结合 出一个 异构数据库集成体系结构 ,将用户给出的查询分解为对不同结构数据库的查询,并将查询结果统一到 后得到一个统一的检索界面。其中用 着深入 研究了 数据库集成系统中使用的关键技术:研究了 出了 现了对异构数据源中关系数据库的查询重写。 最后针对 “销售信息网络管理集成系统”的需求,利用 000 环境下,采用本文给出的异构数据库集成体系结构,实现了公司异构数据的集成,达到了数据的共享。 关键词 :数据库集成; 射;查询重写 山东科技大学高校教师在职攻读硕士学位论文 摘要 of to be to a of in So a as a it a on eb ML in as of to on to it on of ML a ML In it be it to ML to QL ML it of a s ML as 山东科技大学高校教师在职攻读硕士学位论文 目录 目 录 1 绪论 . 1 究背景 . 1 究内容 . 1 织结构 . 2 2 异构数据 库 集成及相关技术 .构数据库集成概述 . . 发技术 . . 章小结 . 3 异构数据库集成系统设计及关键技术研究 . 构数据库集成系统设计 . 射机制 . . . 章小结 . 4 异构数据库集成系统的实现和应用 . 统概述 . 统开发环境 . 体设计 . 统实施效果评价 . 章 小结 . 5 总结与展望 . 致 谢 . 参 考 文 献 . 45 攻读硕士期间发表的论文 . 48 山东科技大学高校教师在职攻读硕士学位论文 目录 . 1 . 1 . 1 . 2 2 . 3 . 3 . 6 . 11 . 12 . 14 3 . 15 . 15 . 17 . 20 . 25 . 32 4 . 33 . 33 . 33 . 34 F . 40 . 41 5 . 42 . . 45 . 48 山东科技大学高校教师在职攻读硕士学位论 文 绪论 1 1 绪论 究背景 随着计算机 技术特别是网络技术的迅猛发展,许多行业、单位和部门内部都逐步实现了业务、信息的计算机化管理。但是,由于各个行业、单位和部门的具体业务和功能归属不同,它们都只是根据自身需要构建了许多相互独立的信息服务和管理系统,甚至在一个单位内部所采用的信息化环境也可能不会固守任何一个平台,而是由不同平台组成。 这样随着时间的推移和技术的进步,这些由不同技术构建的信息系统就象一个个“信息孤岛”,各自有着不同的处理对象、操作方法和专用客户端。而由于部门之间协同合作的需要,在各个环节之间数据交流以及集成共享的问题也日益严 重起来。从应用角度来看,每个部门就是一个数据源,因为他们之间的信息和组织都不一样,这样每个数据源又都是异构的,如此就构成了一个巨大而复杂的异构数据环境。 那么如何在这个异构数据环境中集成、访问这些数据呢?首要关键的问题是研究异构数据之间的集成问题,只有将这些孤立的数据都集成起来,并且提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。这样就引出了数据库集成技术。 数据库集成技术的研究始于七十年代中期,至今已有二十多年了。从一开始的多数据库集成发展到现在的异构数据源集成,数据库集成的 范围和作用都在不断扩大。现在,数据集成技术不仅能集成数据库中的数据,也能集成非数据库中的数据 ;不仅能集成传统数据,也能集成复杂的多媒体数据 :不仅能集成结构化数据,也能集成 的数据集成系统甚至能实现数据源的“即插即用”。而随着很多新技术 (比如 的涌现,通用异构数据源集成系统的研究也正在如火如荼地进行着。 究内容 本文结合 特点,给出一个基于 异构数据库集成系统的体系结构框架,并针对其中的关键技术进行深入的研究,提 出了自己的观点和解决方法。本文研究的主要内容具体如下: 1深入研究国内外关于异构数据集成库技术的主要研究成果和应用成果,剖析其中存在的问题;阐述进行异构数据库集成的必要性;介绍异构数据库集成涉及到的相关技山东科技大学高校教师在职攻读硕士学位论 文 绪论 2 术。 2结合 出一个 异构数据库集成体系结构 ,将用户给出的查询分解为对不同结构数据库的查询,并将查询结果统一到 后得到一个统一的检索界面。其中用 3 对 数据库集成系统中使用的关键技术进行深入研究:研究 出 现对异构数据源中关系数据库的查询。 4针对 “销售信息网络管理集成系统”的需求,利用 境下,采用本文给出的异构数据库集成体系结构,实现公司异构数据的集成,达到数据的共享。 织结构 本文章节结构如下: 第 1章 介绍论文的研究背景,指出论文的研究内容和组织结构。 第 2章 介绍异构数据集成库的相关理论知识,介绍异构数据库集成涉及到的相 关技术 术和 术,以及 第 3章 结合 出一个异构数据库集成系统的体系结构,该结构将来自不同应用程序的数据转化到 能解决对异构数据库的查询分解和转换。接着研究其中应用到的关键技术 关系数据库到 现对异构数据源中关系数据库的查询。 第 4章 针对“销售信息网络管理集成系统”的需求, 利用 000 环境下,采用本文给出的异构数据库集成体系结构,实现公司异构数据的集成,达到数据的共享。 最后总结论文,提出基于 山东科技大学高校教师在职攻读硕士学位论文 异构数据库集成及相关技术 2 异构数据 库 集成及相关技术 构数据库集成概述 构数据集库成定义 异构数据库集成这个概念由来已久,这里先给出它的定义。异构数据库集成用来对各种异构数据提供统一的表示、存储和管理,其核心任务是要将大量的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。异构是指数据环境和数据本身两个方面的异构;集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据 1。 实现异 构数据库集成的系统称作异构数据库集成系统,它为用户提供统一的数据源访问接口,执行用户对数据源的访问请求。异构数据库集成屏蔽了各种异构数据库间的差异,通过异构数据库集成系统统一操作这些数据。因此集成后的异构数据对用户来说是统一的和无差异的。 由上可知,异构数据的统一和无差异是异构数据库集成的目标。具体而言,就是异构数据库集成应达到分布的透明性和数据源的透明性两个目标。 构数据库集成研究问题 在异构数据源集成系统中,如何有效解决数据分布的异构性,实现客户访问的透明性,同时还要保持局部系统的 自治性,是系统考虑的主要问题。 异构性:是指数据库集成系统中两个数据源的不相似程度。异构发生在不同的级别。最底层是硬件平台、操作系统和网络协议的异构。其次是不同的编程语言和数据模型,以及对相同的概念不同的理解和描述。由于每个数据源都用自己的描述数据,所以,每个数据源中对相似的语义的描述可能不同,而且可能引起数据的冲突。 透明性:与系统解决异构性的程度相关,决定系统的功能和使用的方便性。包括平台透明性、系统透明性、数据源透明性和语义透明性。 平台透明性:隐藏了硬件平台、操作系统和通讯协议等各种数据源所基于的平 台间的差异。对于用户来讲,每个数据源像运行在同一个硬件 /软件平台上。 山东科技大学高校教师在职攻读硕士学位论文 异构数据库集成及相关技术 系统透明性:当数据源的数据管理系统、数据模型和语言间的差异被隐藏时,对用户来讲,每个数据源像是用同一个数据模型来描述的、由同一个数据管理系统和数据语言来管理和维护的。 数据源透明性:隐藏了数据源的描述信息,由系统解决诸如 :数据的存储位置,数据如何被查询。用户所见到的只是一个逻辑数据源。 自治性:指的是一个数据源是独立于其它数据源,也独立于集成系统的主要有三类自治:设计自治:数据源在数据模型、数据元素的命名、数据的语义介绍及 约束等方面是独立的;通信自治:数据源独立决定给集成系统中其它组件提供什么信息和给组件发什么请求;执行自治:数据源独立执行和调度输入请求。 构 数据库集成研究现状 数据库集成技术的研究始于七十年代中期,至今已有二十多年了。从开始的多数据库集成发展到现在的异构数据库集成,数据库集成的范围和作用都在不断扩大 异构数据库集成的发展经历了两个阶段。 第一阶段 异构数据库集成的研究基本上可以分为三类: 第一类采用的是物理上分布、逻辑上集中的系统结构,系统有个全局的数据模式。由于在这样的系统结构中,结点缺乏 自治性,难以管理,难以集成,所以产生了第二类 多库集成。 第二类多库集成是由 人于八十年代中期提出的联邦式数据库系统 2。联邦式数据库系统是一种物理、逻辑上都分布的结构,每个结点有自己的联邦模式,而不是唯一的全局模式,由于不再受制于全局模式,结点的自治性得到加强,数据库系统的集成、扩充和重新配置也较为方便和自然。 第三类则是 人提出的多库语言数据库集成方法 3。这种系统结构既无统一的全局模式,也无局部的联邦模式,结点自治性更强,但用户必须接受一种新的数据语言,且透明性较差。 总之,上述三种方法都仅限于数据库中数据的集成。 而随着 迅速普及,异构数据除了传统的数据库数据之外,又涌现出了大量像样的半结构化数据。传统的数据库集成方法己经无法满足人们获取更多更新数据的需要,此时迫切需要一种新的数据库集成系统。这种系统不仅能集成传统数据库中的结构化数据,而且还可以集成在 应用日益广泛的半结构化数据和无结构化数据。山东科技大学高校教师在职攻读硕士学位论文 异构数据库集成及相关技术 这样,数据库集成的研究必然由多数据库集成转向多数据源集成,事实上从九十年代中期开始数据库集成研究就己经进入了第二阶段。 现在,数据库集成技术不仅能集成数 据库中的数据,也能集成非数据库中的数据。例如,目前有一些异构数据库集成系统不仅能集成传统的结构化数据,对复杂的多媒体数据和 的半结构化数据也实现了初步集成,尽管功能还不是很成熟。随着许多新技术 (例如 )的涌现,通用异构数据库集成系统的研究也正在如火如荼地进行着。 到目前为止,国外一些公司和研究机构己经研究出了若干通用的异构数据库集成系统。其中比较具代表性的有: 司研制的 B4、 司 究中研制的 国斯坦福大学和 、6以及 等;其它的有 、 及 。 国内也有一些单位参与了异构数据库集成工作的研究。主要有:东大阿尔派股份有限公司的 华大 学研制的 统中使用了异构数据库的互操作,但不具有全局数据库模式的概念;东南大学研制了联邦数据库管理系统,主要实现了者之间的数据接口等;北京理工大学的 统是基于 C/S 结构的异种数据库联合使用系统 9。 异构数据库集成系统的目的是将来自不同的、异构数据源的数据库集成到一起,为用户提供一个统一的查询界面和查询手段,以便于能够透明地对这些数据进行访问和操纵。其中的关键是如何以一种统一的数据模式描述各数据源中的数据,屏蔽它们的平台、数据结构等异构性, 实现数据的无缝集成。 但当前已有的异构数据库集成技术,都或多或少地存在一些不足: (1) 未能很好地解决底层异构数据源的“即插即用”问题,缺乏灵活性; (2) 对结构化数据的支持较好,而对半结构化和无结构化数据不够重视,数据源参与集成的程度不高; (3) 查询处理效率低、数据传输量大; (4) 全局模式同各数据源模式的转换工作繁杂; (5) 对网络连接的依赖性强等。 定的 10 及针对 询标准 11山东科技大学高校教师在职攻读硕士学位论文 异构数据库集成及相关技术 为解决这些 关键技术和不足提供了新的契机。 具有内容的自描述性、跨平台性、内容和显示分离、可扩展性等特点外,它还具有强大的数据表示能力,不仅可以表示关系模型和面向对象模型的数据,而且还可以表示不规则的、易变的数据。所有这些都使异构数据间的访问和交换提供了一种新的模式,使统一描述各种格式的数据成为可能。可以预见, 会成为一种新的数据互操作的标准。同时,基于 各种技术不断涌现,其中 经成为 询语言的事实标准,正获得人们越来越多的认可,使用它可以对以 示的任何数 据进行查询处理。 相关技术 体介绍 1998 年 2 月发布,是一种采用开放的自我描述方式定义的数据格式,由于 自描述性和可扩展性而倍受关注。虽然 准本身简单,但随着 理和应用的发展,与 关的标准逐步建立起来, 定的相关标准就有二十多个,包括与 关的各个方面。其中不仅有 记语言本身,还包括了很多相关的规范,比如文档格式化标准 (文档显示 模式定义 (文档查询标准(文档解析标准 (文档链接标准 (等,而且基于 个底层的规范,还有很多高层的应用协议。 根据 关标准的含义和作用不同,由下至上分为元语言标准(即核心定义)、基础标准、应用标准三个层次。其中核心定义层是基本概念的定义,基础标准层在核心定义层的基础上对处理共性问题制定的规则,应用扩展层则是在下面两层的基础上针对特定应用而制定的专用规范。 第一层为 心定义,主要是描述标准的元语言。在 准体系中就是 准本身和一些附加概念定义,是整个体系的核心,其他 关标准都是以它们为基础制定的或为其服务的。 第二层为基础标准,这一层次的标准是为 进一步实用化而制定的标准,规定了采用 准时的一些公用特征、方法或规则。如: 档类型定义) 12和 述了更加严格地定义 档的方法,以便可以更自动化地处理 档; 3, 14、 是为方便对 据进行处理而规定的一些统一规则; PI 东科技大学高校教师在职攻读硕士学位论文 异构数据库集成及相关技术 15, 档对象模型 )16等是被广泛使用的 程接口标准等等。 第三层为应用扩展标准 (这层主要是一些采用 定的行业标准。其中包括了特定的模式规范,如 用 重新定义 )、学公式符号的 )、 学公式符号的 )、 关矢量图形的 )等;关于元数据的标准,如 源描述框架 )等;用于 务领域的标准,如 及一些其他领域的应用标准。随着更多的行业加入到 用中来,这一层仍在不断的增长中。 通过它定制针对不同应用环境和要求的标记。它以统一、开放、基于文本格式的模式来描述和交换数据。它是 一个简化而严格的子集。 下特点: ( 1)内容的自描述性 元素上作标记以标明数据的含义,并且用简单的嵌套和引用来表示元素间的关系。 法通过它理解信息的内容,而 语义隐含在标记中,它反映的是有结构并且有自描述能力的数据,从而可以更优地实现在分布式计算环境下地信息共享和交换。 ( 2)结构化 结构化信息的组成要素中 它规定了资料的格式规范并且用这种规范来对资料进行解释。结构化信息的优点是允许不同格式的资料可以相互交换。用户可以使用结构化 ( 3)内容和显示分离 现一次性生成和维护信息,而且具有动态多样地显示形式。 ( 4)可扩展性 通过 此可以使用一种统一地数据模型,而不必关心数据所在地具体系统和应用环境。另 外, 异构数据库集成及相关技术 可以在不破坏现有结构的情况上增加新的数据字段,只需要修改数据的模式定义,而不用重新编码已有的对象。 ( 5)跨平台性 义和概要。包括文档、记录、带有数据和方法地对象、 纯文本表示,独立于平台、语言,能够直接利用 相关技术 一套关于标记符的语法规则,最初 是为 可以是 是它通常是一份单独的文档或者一系列文档。 使用 效的” 个 含在一个“格式良好的” ,也可以是外部的,作为一个外部文档被引用 (。 性表声明,实体声明, 或符号声明。作为 近几年来 是,它也有一些缺点,如 :采用非 持数据类型有限、扩展性较差等。因此001年 然, 逐渐代替 ( 1)一致性。 得对 而是直接借助 得 ( 2)扩展性。 而使其具有较强的可扩展性,比如引入了数据类型、命名空间等。 ( 3)互换性。用户可以根据需要设计适合自己应用的 且可以同其他人交换彼此的 过映射机制,可以将不同的 现更高层次的数据交换。 ( 4)规范性。同 比之下, 定义了 素 间的关系等。 ( 5)易用性。 山东科技大学高校教师在职攻读硕士学位论文 异构数据库集成及相关技术 据具体的应用,大概可分为下面三种 17:一种是 二种是数据库,第三种则来源于其他各种带有一定格式的应用数据,如邮件、目录清单、商务报告等等。其中,第一种来源,即 数据存储于文件中,其最大的优点在于可以直接方便地读取,或者加以样式信息在浏览器中显示,或者通过 二种数据来源是对第一种来源的扩展,其目的是便于开发各种动态应用 ,其优点则在于通过数据库系统对数据进行管理,然后在利用服务器端语言 (如 进行动态存取。这种方式最适合于当前最为流行的基于三层结构的应用开发。第三种数据由于来源广泛,微软为此提供了基于 得各种桌面应用系统可以通过 ( 1)对于 以通过 是最基本也是最底层的3际上是提供一组 用程序编程接口) 来存取 通过一种随机访问机制,使得应用程序利

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论