【毕业学位论文】(Word原稿)COMMIX中的XML查询和视图管理-软件工程_第1页
【毕业学位论文】(Word原稿)COMMIX中的XML查询和视图管理-软件工程_第2页
【毕业学位论文】(Word原稿)COMMIX中的XML查询和视图管理-软件工程_第3页
【毕业学位论文】(Word原稿)COMMIX中的XML查询和视图管理-软件工程_第4页
【毕业学位论文】(Word原稿)COMMIX中的XML查询和视图管理-软件工程_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京大学本科生毕业论文 第 1 页 的 询和视图管理 in 月 北京大学本科生毕业论文 第 2 页 摘要: 随着 术 的迅速发展,各种在线数据源不断涌现。然而由于 各种 信息源的高度异构性,各个数据源的信息组织方式 、 所采用的数据模型、数据结构、内容表示、查询语言都会有很大不同。因而面对海量的信息,人们往往会被淹没在信息的海洋中。如何帮助用户在信息的海洋中快速准确地查找到所需的信息,则是当前信息检索和数据库领域的一个重要研究方向。 是在这种背景下提出的一个基于 海量信息集成系统。 北京大学计算机系数据库教研室承担开发的国家重点基础研究发展规划项目“网络环境下海量信息组织与处理的理论与方法”项目中的“面向内容的海量信息集成、分析处理和服务”课题的原型系统。 该系统将国内各主要电子商务网站的 息源通过包装器 化为 据,然后集成到一个统一的数据视图之中,完成 基于内容的精确查询。在 引入了 化视图的技术,以提高系统的查询效率。 本论文的工作是设计并实 现了 的视图 管理 系统的部分功能。为了克服信息集成系统中查询响应时间长,系统查询效率低的缺点,在 引入了物化视图的技术来加快查询。 是系统中实现 物化 视图机制 的管理 系统。 在本文完成之时, 的大部分功能已经实现,管理员已经能够通过一个图形化的界面完成对视图的操作。同时 的查询处理器已能够有效地使用物化视图集中的视图来回答查询,大大提高了系统的查询效率。 关键词: 询、视图、 京大学本科生毕业论文 第 3 页 目录 第一章 优越性 7 缺陷 7 有效性( 9 10 11 第二章 12 12 2 5 5 6 6 17 18 19 20 第三章 21 23 23 24 取部分查询结果 24 定信息源与不定信息源查询 25 第四章 设计目标 26 设计方案 26 关键问题和解决方案 27 实现 27 27 图创建模块 29 图刷新模块 31 北京大学本科生毕业论文 第 4 页 图删除模块 32 图查看模块 32 总结与展望 34 致谢 34 参考文献 35 文章组织结构 : 第一章介绍了 一些基本概念。第二章介绍了 视图创建的基础 询语言的发展情况。第三章介绍了北京大学计算机系数据库教研室开发的 型系统。第四章叙述了 统中视图管理器 设计与实现。 北京大学本科生毕业论文 第 5 页 第一章 介 整的名 称是可扩展的标记语言( 伴随着超文本标记语言 蓬勃发展而产生的。 是标准通用标记语言 子集。通俗的说,就是 的标签 以任意的,而 的标签是有统一的格式的。下面我们来比较一下 言尽管在网页的显示上有它的优势,但是它也有它的不足之处。 我们先来看个 例子: 例 示如下所示: 示例 商品编号 商品名称 价格 1 牙膏 2 牙刷 北京大学本科生毕业论文 第 6 页 商品编号 商品名称 价格 1 牙膏 2 牙刷 表 面的例子我们可以看到 没有包括数据的结构信息,如 1 对应的是商品编号、牙刷对应的是商品名称。 可以弥补这一缺点。 我们把上边的 写成 下: 例 这句在所有的 像“所有商品”、“商品”、“商品编号”等为 档的元素 所有商品”为根元素 个 档只能有一个根元素 ;“单位”为“商品价格”的属性 牙膏”、“元”为元素或属性的值。 在 显示的结果如下图: 图 以看到 就既包括了数据的结构信息又包括了数据的信息。但是它的结构的信息并不完整,比如从 档中我们不能知道商品价格 一个数还是一个字符串 ,即我们不知道它的类型 。所以我们称之为半结构化数据( 它介于结构化数据和无结构化数据之间。 1 牙膏 牙刷 京大学本科生毕业论文 第 7 页 优越性 上面的例子我们已经可以看到 一些优越性。这里我总结一下: 1. 异构数据之间的集成、整合和通信 有了 们可以把复杂的异构的数据简单化,这样可以使异构的数据之间的集成、整合和通信成为了可能。 为电子数据交换 最主要的工具在商业上有着巨大的应用市场。 2. 更精确的查询和搜索 因为 包括了数据的结构信息,所以查 询 档比查询 档的准确性和效率更高。 例如在 不能知道它是价格。而在 我们的很容易的就可以知道 价格。 在一般的 索引擎上,用户想查询价格 小于 2 元钱的商品是查不出来的,而在 查询 却 是可以精确地查出来的。 3. 扩展性强,有着 更 加广阔的应用 出现为我们提供的很广阔空间,我们可以根据应用定义自己标签。 实际上,现在许多行业、机构都利用 典型的是下面两个实例:化学置标语言 数学置标语言 缺陷 然结构简单功能强大,它也有它 目前 发展上的劣势。 1. 浏览器和编辑工具还不是很成熟。 然支持 一些功能但是并不完善。目前最常用的 辑器 辑的基本功能。 2. 对 档的保护还不成熟 由于 以文本格式存储的所以任何人用一般的编辑工具都可以编辑。大家可能经常会问:“为什么看不到使用 术的网站出现呢?”我觉得 阻碍电子商务网站发展的原因之一就是 据的加密。大家设身处地地想想就知道:为什么要把我自己的数据不加密的可以被任何人访问呢。目前对 档的加密方法并没有制定统一的标准,因此对档的加密保护还有待进一步的成熟。 北京大学本科生毕业论文 第 8 页 是用来规定文档语法规则的。一个 件必须遵守文件类型描述 定义的种种规定。例如在例 加入 成为: 例 是说“所有商品”可以包括多个“商品”元素。“ *”表示元素可以不出现或出现多次,这与正则语言中的 *、 +号的概念是一样的。 表示元素 “ 商品价格 ” 有一个属性 “ 单位 ”, 属性类型是字符串 # 这是一个内部 例子。内部 指 档中带有 义,与之对应的还有外部 部 指 义在 档外的另一个文档中,在 档中指 明其对应的外部 档即可。例如: 例 1 牙膏 牙刷 北京大学本科生毕业论文 第 9 页 除了 有 以用来规范 随着 现才出现的。在 我们可以生成一个 档的 是 简单的说 是一个描述另外一个 档结构的 档。具体地 法这里略。 作用异曲同工,而现在的趋势是: 逐渐被 取代 。 有效性( 另外一个重要的概念是 式良好( 有效性( 格式良好是指 有标签的嵌套,而 有效性是指 档符合其指定的文档类型说明( 者 例 格式良好的但不是有效的,例 是格式良好的又是有效的。 档的格式良好是必须的,当然在不知道它的结构说明的情况下, 档的有效性也是应该有的。建议使用格式良好和有效的 档。 北京大学本科生毕业论文 第 10 页 容描述与显示方式是相分离的。 在浏览器中的显示有两种方法。一种是用 有一种是 两种方法应该使用哪一种就一直有争议。 对两者都 有 支持 。 例如我们要显示出如: 商品编号 商品名称 价格 1 牙膏 2 牙刷 表 用 需要这样写: 例 声明 板,并调用该模板。 根据 ,系统最先 匹配 树的根节点。根节点用 /表示 。 标志匹配 树中的所有商品的节点。 商品 表示 要求对于所有标记为“商品 ” 的子节点 进行处理。对于每一个“商品 ” 子树中的内容为其生成表中一行的内容。 表示取商品编号的值显示出来。 商品编号 商品名称 商品价格 北京大学本科生毕业论文 第 11 页 还要在 指定相应的 例 用 方法这里略。没有具体说明的 术可以参考文献 L。 我们可以比较一下传统关系数据库中的数据和 据。我们会发现这其中有许多的相似之处。 应关系数据库中的表结构定义。但是还是有区别的,关系数据库中表定义中的包括了例如字符型、整型等完整的类型信息,而 即使一个有效的 半结构化数据的 没有 完整的结构信息, 例如 对于 150 来说它没有标识它是字符串还是整数。 档对应关系数据库中的表,但是这并不是一一对应。 档 是 树结构,而关系数据库中的表只是二维结构,所以必须要求表的元素是表才可以。这将 从根本 改变传统的关系数据库的存储结构, 所以 大多数的关系数据库的还不支持表结构的嵌套, 但是 现在几乎所有的关系数据库系统都支持关系数据库导出 档。导出是比较简单的, 而 导入是比较麻烦的。 支持 档导入和导出到关系数据库数据中,但是它的导入和导出不是可逆的。它的导入的做法是为每一的标签都生成一个表。每一个表都有一个主码和一个外码,其中的外码是用来标识它的父元素的。但是有了这种结构还是不能完整的转化回档。 关系数据库数据的互相转换也是当前的一个研究方向。 北京大学本科生毕业论文 第 12 页 第二章 询语言 虽然 档具备了模式信息,但是 据模型其实是嵌套关系模型的扩展,因而传统的结构化查询语言 都不具备查询 档的能力。因而设计新的适应 据模型的查询语言成为一个研究热点。 在有许多中查询语言: 等。其功能和查询语言的形式也各不相同。 种常用的 查询语言现在还没有制定出统一的标准,还处在研究阶段。我们看一看已有的一些典型的 询语言 。 统采用的是 询语言。 所以采用 询语言是有原因的。 持连接、嵌套等强大使用方式,下面我们就可以看到。 实验室 提出 的 一种基于 查询语言,它用查询的方式可实现据的检索、转换和集成。 通过说明路径表达式和模式的方式,给出 句)。同时, 可以给出构造查询输出的 据的模板,其输出结果仍为 档( 通过 句)。 下面是 结构 : 例 形式上看 构,与 相似。其 句由模式和关系表达式组成,这意味着被选出的数据项要满足两个条件: 一是 数据项的类型(或 值必须与指定的模式匹配; 二是 数据项的值要满足关系表 $a $a100 北京大学本科生毕业论文 第 13 页 达式。 在查询条件中加入模式匹配是 结构化查询语言最大的不同之处。 主要特点。 1. 用模式( 匹配数据 用元素模式来匹配 档。下面的例子将从 a.b.c/指的文档中找出所有 版的书的作者。 例 . 用嵌套查询来处理可选元素 关系数据的一个主要区别在于 常有可选的元素 , 例如 在 中是可选的 ,即不要求每本书都有价格信息 。假如要列出所有的书名,有价格的要同时列出价格 ,我们 看如下的查询: 例 述查询是不正确的,因为它要求 中必须含 元素 ,没有价格的书将不被列出。 通过嵌套查询来处理可选部分, 可以 将上面的查询修改如下: 例 $T $p IN a.b.c/$t $p b a.b.c/ $t b $t b p t $a a.b.c/$a 北京大学本科生毕业论文 第 14 页 右边可为 可为变量。 第二个 询称为嵌套查询。 3. 用嵌套查询来分组 另一个区别是嵌套和分组。例如,我们可以将一本书的所有的作者组合到一个 元素中。假如我们要找出每个作者写的所有的书的书名,可用下面的查询来重组数据: 例 . 连接 在两个匹配表达式中使用同一个变量可实现链接。下面的例子找出至少出版了两本书的所有作者。 例 . 正则 路径表达式 考虑下面的 定的递归定义: 其中每一个元素可以包含其他任意深度的嵌套部分。为实现这样的结构, 供了规则的路径表达方式,它可以详细说明任意深度的元素路径。例如下面的查询将产生每一个组成元素的 分的内容,这些组成元素的 内容为 “而不论 层的嵌套。 p IN“a.b.c/ $p a a $t p t $a N“ a.b.c/ $a N“ a.b.c/ a 北京大学本科生毕业论文 第 15 页 例 里的 是规则的路径表达方式,它可以表达 规定模式中组成部分的任意序列。 斯坦福大学开发的半结构化数据库管理系统 查询语言,用于查询半结构化数据。 用 扩展的 风格 , 言可以用于支持 统的对半结构化数据的查询和更新。 统的开发起始于 1995 年,最初建立在半结构化模型上。在 1998年底至 1999 年初, 随着 产生, 统全面移植到 据模型上,从而 查询语言。 能强大,同样支持连接、嵌套等。 图形化的 询语言,一个 询可以应用于任意 档并产生一个作为结果的 档。 一个基本的 询由一对图组成,它们称作 。每个图由标注的顶点(矩形框)和连接它们的有向弧组成。矩形代表 的元素,弧代表属性和原子元素,标注的弧代表元素间的引用关系。 用弧上的 *操作符代表任意的导航操作,并且使用“ 点匹配文当中的任意元素。 下图 表示查找 所有 1975 年以后出生的 男 居民。 图 $r N “a.b.c/ $r 北京大学本科生毕业论文 第 16 页 从上图我们可以看出, 的 代表了用户对文档中感兴趣的信息,并说明信息的位置和必须满足的条件。 文档中查找 素,并且使得包含: 值为“ M”的 性 ; 素下面任意层次的 素 , 并且包含一个值为“ 性 ; 包含 1975 年前的 素的 F 素。 执行将包含一系列由 档片断组成的子图。 负责查询结果的组建,每个由 执行产生的子图将在 生成一个结果的子图,并经过组装后生成最后的结果。 们以前讲过的 光可以用于 显示, 也可以用于查询 可作为 询语言基础。 义了 语法规范,该语法规范将被用来把 件转换成 其他格式的文档。一个 式表集合了一系列设计规则,用于从 件中抽取信息,并将其转换成 其他格式。这种转换采用了公开的方式,使其能够更加方便地被程序员描述。而且 将提供多种脚本语言的通道,以满足更为复杂的应用需求。 例如我们想查出价格 小 于 2 元的商品只需修改例 : 例 果变为: 商品编号 商品名称 商品价格 2 牙刷 表 特定为 档设计,它是一种通用查询语言,提供用于查询,定位和模式的简单语法。 炼,简单,具有强大的功能。 式语言提供了易于理解的方式描述待处理节点。 但 它是说明性而不是过程性语言,只需使用类目录结构的简单模式描述需要查找节点的类型。例如, 示查找包含在 素中的 素。 供对 式语言的自然扩展。在 示类型节点的基础上增加了布尔逻辑,过滤,节点集合索引等。尽管 式语言的超集, 计用于许多情况,可以用于提供节点的链接,查找信息和许多其他应用。 从文档中查询信息的符号,这些信息可能是一个节点集合、节点关系信息或导出值。本说明书没有指定输出的格式,查询结果可能是单个节点、节点列表、 档、其他结构序列。即: 不指定返回的二进制格式,而是逻辑结果。 在一些实现中,查 询结果可能是一个 档或者是传回 树。在其他情况下,结果可能是其他类型的结构,例如:指向节点指针的集合。因此,封闭性并不能保证,如果实现方案返回 档,则该文档必须格式良好,从而保证了封闭性。 商品价格 北京大学本科生毕业论文 第 17 页 询语言的比较 我们通过下面的例子来比较上面介绍的几种查询语言,这里描述的是一个制造商与汽车的 档: 例 们想选择和提取 元素,满足的条件是 的 小于等于 10,下面给出了几种不同语言的查询语句: 例 例 999 T 999 26800 $r m IN $r 10 =10 北京大学本科生毕业论文 第 19 页 有序树: 对无序树中的每个节点加入序号即可。 (略) 无序树和有序树模型都有自己的应用范围。无序树一般认为无序树模型比较贴近 为应用中的节点的先后顺序并不重要。对于分成段、节、句的文档来说有序树模型是必须的。查询效率上说,无序树的查询比有序树的查询要简单。 在不考虑连接、嵌套等情况的前提下, 询的主要算法是树中寻找满足给定 模式的子树,并且根据寻找到的子树构造出 新的子树。但是 由于例如 查询语句中支持正则语言 以及连接等操作 所以 实际的情况并不是这么的简单。 如果我们只考虑在一个 档中进行查询的话该问题等价于子树同构问题( 子树同构问题 的原问题 是子图同构问题。 子图同构问题:给定两个图 G, H,找到 G 的一个子图同构于 H。已经证明这的问题是的。但是如果对 G 和 H 加以限制的话,问题可以变得容易,甚至可以在多项式时间内解决的。 子树同构问题是子图同构问题的子问题。 由于 档的数据模型是根树,所以问题要简单一些。 已 经证明了当 G 和 H 都是根树时,子树同构问题有多项式算法。 算法的主要思想如下: 对于所有的 G 内部节点 V 和 H 的根结点 U。 V 的 排序 子节点.,2,1。 U 的 排序子节点.,2,1。 如果匹配则对于每个成 子图才可以,递归调用判断否是 子图同构。 如果对于 每个则输出 ,H)算法描述如下: If u 没有子节点 u=v f v 有子节点 照后序周游 v 在 u o f v 没有子节点 o f v 有子节点 京大学本科生毕业论文 第 20 页 算法 图 G 的总节点数为 n,子图 H 的总节点数为 k, 可以证明 该算法时间代价为 )( 2 图是对应关系数据库中的物化视图而提出的概念。由于 息量庞大, 网络传输能力有限, 我们可以保存部分 询的结果在本地数据库中,再次查询时就可以访问本地的 物化视图,这样做可以更加快速而精确查询,减少相应时间,提高查询效率。 图的创建 就是由用户使用 查询语言对不同信息源进行查询,生成结果 档,并将结果文档保存到本地数据库中去。再次查询时可以用户在视图中进行查询,这样做提高了查询效率和减少了相应时间。 所有的内部节点 f v=u v1, u1, 序子节点 i=1 do or i=1 to t f f O 京大学本科生毕业论文 第 21 页 第三章 型系统简介 北京大学计算机系数据库教研室承担开发的国家重点基础研究发展规划项目“网络环境下海量信息组织与处理的理论与方法”项目中的“面向内容的海量信息集成、分析处理和服务”课题的原型系统。 该系统将经过 装后的 息源集成到集成层的一个统一的数据视图之中,提供给上层应用,以支持对数据的基于内容的精确查询。 系结构 一种基于客户服务器的体系结构,它是一个 基于 海量信息集成系统,系统的最主要的特点是 : 采用 “多查询语法树组合分析方法 ”,分析 户查询请求,为集成模式的构造服务。 采用 “集成模式计算模型 ”,设计并建立相应的集成模式,从而实现了集成模式的自动构造,并保证了其精确度 。 利用 据库存储集成层的 图,优化了 存储结构 。 设计和实现 询语言,实现了 基于内容的精确查询 。 体系结构如图 示可分为 4 个主要部分: 图 京大学本科生毕业论文 第 22 页 运行在客户端的可视化用户界面,用户可以通过该界面提出查询。该图形用户界面有如下特点: 支持用户以 方式来构建 查询 ,所以即使用户不熟悉 询语言,也可以方便、直观地构建查询语句。 支持用户直接提交的 询。 查询方式所表达的查询能力是有限的,如果用户熟悉 询语言,可以自己编写查询语句,以完成更复 杂的查询功能。 用 写的,通过 式运行在客户端。这种结构的优点在于,客户端无需安装特定的应用,可以直接通过 式方便地访问服务器以完成 的精确查询。 第二部分是查询处理器 运行在服务器端的应用。查询处理器的主要功能是接受用户端提出的查询,经过分析处理,执行查询,并将执行结果交给客户端显示。查询处理器的主要特点是: 支持获取查询的部分结果。 针对网上查询的特征,查询处理器支持部分结果的获取。处理器允许用户指定获取的查询结果的数量, 在获得到指定数目的结果之后,查询结束。通过这种方式,用户可以在查询结果的精确度和查询响应时间之间,自行权衡,给用户很大的自由度。 支持指定信息源和不定信息源的查询 查询处理器中支持既对不定信息源的查询,也支持指定信息源的查询。在查询语句中,用户可以用“ *”不明确指定从哪些数据源获取数据,这样,查询处理器会通过内部的定位机制,找到所有可能含有查询结果的信息源,而后进一步到信息源获得数据,完成查询。同时,如果用户只对某信息源的数据感兴趣,也可以在查询中指定从哪个数据源获取数据完成查询。 支持利用视 图的查询 支持两种使用视图的机制。一种是显示的方式,另一种是隐式的方式。显示的方式中,在建立起物化视图之后,将视图 交给用户 许用户在视图之上构建查询,查询处理器将利用存放在本地的视图来回答查询。而在隐式的方式中,系统对不是建立在视图之上的查询进行分析后,如果判断其可以利用视图来回答,那么处理器会对原查询进行相应的查询重写,重写后的查询计划将尽可能的利用视图中的数据来回答查询。无论哪种视图使用方式,数据的存放位置对用户都是透明的,也就是用户并不知道数据是存放在视图中,还是存放在数 据源。用户可以任意地提出查询,而由查询处理器负责到相应的位置获取数据回答查询。 第三部分是视图管理器,负责有关视图的建立、更新和维护。在 引入了物化视图技术来存放用户经常访问的数据,以提高查询效率。该部分的特点是 : 集成了视图的管理界面 提供给管理员的界面集成了对视图的添加、更新、查看和删除功能,使管理员能够方便地对视图进行调整和维护。添加视图模块可以让管理员用图形化的方式定义所需添加的视图,并将其物化。更新视图模块允许管理员重新计算系统中已存在视图的内容,并决定是否海量更新该视图的内容。而删除 视图则允许管理员对系统中过时的视图加以清除,以释放空间建立新视图。查看视图则允许管理员查看系统中视图的定义, 构和视图内容。该北京大学本科生毕业论文 第 23 页 界面将对视图的增、删、改、查集成为一体,以方便管理员对视图的操作。 支持 图的存储 化视图采用传统的关系数据库进行保存。将 统进行扩展,开发了供对 据片断的管理,并在此基础上开发了 化视图的存储管理模块。 最后一部分是索引模块,该模块主要是为查询处理器的优化提供定位机制。由于查询处理器支持不定数据源的查询,所以系统必须有相应的数据源定位能力。索引就是系统所采用的定位机制。索引模块通过和搜索引擎相结合,定位所有可能的满足查询要求信息源,返回给查询处理器。 系统从图形用户界面 获得查询,交给查询处理器处理。处理器在接收到查询后进行分析,如果查询是建立在视图之上,那么处理器将从视图管理模块中获得相应视图内容,回答查询;否则进一步分析查询是否可通过视图回答,如果 能使用视图内容 尽量使用视图内容来回答查询,若不能由 视图回答,那么处理器将查询转换成中间语言,交给索引定位器,索引定位器则发出相应请求,定位到所有可能满足查询的信息源 回给查询处理器,查询处理器再到相应的信息源收集数据完成查询。 在 统中采用了数据仓库中物化视图的技术来存放数据源中的(部分)数据或查询的中间结果,及用户经常访问的数据 。再次 执行查询时将尽可能利用视图中的数据来回答查询,以减少网上的数据传输和查询的响应时间。 由于 息量的巨大,各数据源的千变万化,要将所有数据源中的数据都 作为 物化视图存贮 起来是 不现实的,因而物化视图的选择是一个重要考虑因素 。 它对整个系统的性能都有决定性的影响。 应该物化保存那些能够给整个系统带来最大效益的视图,这样才能在有限的空间限制下,最大限度的发挥物化视图的功能以提高效率。 既然要将视图物化在本地,就要涉及物化视图中数据的存储管理,同时还要考虑对视图的更新。而由于要物化的数据量通常是比较大的,而 据由于自身结构复杂性和灵活性,其物化计算代价通常是很大的。因此在数据源发生更新时,采用增量维护的方式要比重新计算物化视图要有效得多。 系统提供给管理员一个 面,该界 面集成了对视图的各种管理功能,使管理员可以方便直接地通过该界面完成对视图的查看、添加、更新和删除操作。 持 基于内容的精确查询,改变了传统的 息检索中的基于关键字的搜索技术。在传统的信息检索中,基于关键字的搜索引擎和元搜索引擎扮演了信息检索的主要角色。基于关键词匹配是它们的主要技术,检索结果按系统决定的相关程度进行排序。这种方法与在传统的关系数据库、面向对象数据库、对象关系数据库的查询最大不同北京大学本科生毕业论文 第 24 页 之处就是查询结果的精确度。因为在传统数据库中 存储了大量的具有严格结构的带类型的数据,其查询语言,如 分利用了严格的数据结构信息模式,使用户可以使用描述性的查询语言对数据进行精确查询。但要用传统数据库系统方法捕捉非结构化数据档或半结构化数据之中数据的联系是十分困难的。在信息检索领域,对文档数据进行基于关键词的搜索存在有效的技术。这种搜索必然比 询更不精确,因为基于关键词的检索没有模式信息可以利用。因此,检索的结果通常是排序的,需要用户的交互才能定位到相关的数据。 出现使得 基于内容的精确查询成为可 能,因为 据是一种半结构化数据,具有自描述性,其数据本身就包含有相应的结构信息或称为模式信息。同时,可以有辅助的结构信息,如 。 隐含在 面向文档的数据视图与 面向模式的数据视图之间的桥梁。它使得数据库系统更加紧密地集成到 用中。 要对 据进行查询,对语言有相应的要求。目前提出的 查询语言主要包括 形化的查询语言 等。 现了 够完成对网上 档的精确查询。 询表达 的查询表达支持 直接的 询语句两种方式。 式定义查询是通过图形化的界面提供给用户 户通过 方式构造所需的查询。 负责生成相应的 询语句,提交给服务器端,并负责将结果以图形化的方式显示给用户。这种方式使得那些即使不熟悉 询语言的用户,也可以方便、直观地构建查询。 另一种方式则是提供给那些对 询语言比较熟悉,同时有更高查询要求的用户。这些用户可以直接提交比较复 杂的 询语句,更充分地利用 大的查询功能。 两种方式的结合使得系统有更大的灵活性、可用性,同时也更加友好,不同的用户群可以根据查询的复杂性要求选择相应的查询表达方式。 取部分查询结果 持获得部分查询结果的获取。由于基于 查询可能涉及多个信息源,而这些信息源都是高度自治的。它们自主地更新维护,发布信息,也随时可能出现故障而离线,同时这些信息源的查询能力,对查询的响应时间也是大不相同的。所以如果要获得回答查询所需的所有数据可能需要等待的时间很长 ,甚至于如果在查询的执行中涉及某个离线的数据源,那么该查询就会由于获得不了查询所需所有数据而阻塞在该信息源上。另一方面,用户可能并不需要所有满足查询要求的结果,或者不愿为这样的精确结果而等待过久,因而只要能得到部分结果就可以了。 北京大学本科生毕业论文 第 25 页 针对网上查询的这种特点,查询处理器支持部分结果的获取。处理器允许用户指定希望获取结果的数量,在获得到指定数目的结果之后,查询结束。如果用户没有指定,查询处理器也是通过增量地方式,逐步传递部分查询结果给用户直至所有结果都获得为止,在此过程中,如果用户已找到满足要求的结果,可以自行终止 查询。通过这种方式,用户可以在查询结果的精确度和查询响应时间之间,自行权衡,给用户很大的自主权。 定信息源与不定信息源查询 网上查询的一个很大特点是只表明要查什么,很少用户能明确指出到那儿查。因而系统应能自动定位到所有的可能含有满足查询条件的数据的信息源。在 查询处理器中就针对这种情况,支持对不定信息源的查询。在查询语句中,可以指定到某个特定的信息源获取数据,也可以用“ *”不明确指定数据源。这时,处理器将查询转换成中间语言,交给索引定位器,索引定位器 将 相应请求定位到所有可能满足查询 的信息源 回给查询处理器,查询处理器再到相应的信息源收集数据完成查询。 这种不定信息源的查询大大提高了系统的可以性,因为要求用户对网上如此多信息源的结构信息了如指掌,以构造出确定信息源的查询显然是很不合理,也不现实。有了这种不定信息源查询的处理能力,就可以解决这一问题,使得用户即使无法确定要到那里得到所需信息,也能通过系统自动定位能力而得到想要的信息。 北京大学本科生毕业论文 第 26 页 第 四 章 图 管理的设计与实现 负责视图管理的主要功能模块,其 主要设计目标是提供一种利用视图提高 询效率的机制。对用户提出的查询,如果在每次执行中都要到所有相关的信息源收集数据,进而回答查询,那么网上的数据传输量将是一个不容忽视的因素。而有限的带宽使得获得这些海量信息成为信息查询的瓶颈,大数据量的网上信息传输无疑会大大影响整个系统的执行效率。要提高查询的执行效率可以从两个方面考虑一是提高信息传输的速度,二是减少信息传输量。因此在 采用了传统数据仓库中常用的物化视图的机制来加快查询。这样系统就可以根据查询,尽可能地利用物化视图中的数据来直接回答查 询,从而最大程度地避免了直接到网上获得数据。 是负责管理物化视图的主要功能模块。它提供一个图形化的界面,使得管理员可以方便的查看、添加、删除和维护视图。由于 一种半结构化数据的表示形式,和传统的有严格结构模式的关系视图有很大差异,因而在 设计中有许多全新的挑战。 物化视图的选择。物化视图的选择在数据仓库的设计中就是一个很核心的问题。在我们的集成系统中,如何确定集成模式,也同样是决定系统性能的关键性问题。 给定一个有限的空间(集成层),如何建立集成模式(物化视图 ),才能使得查询的响应时间和集成模式(物化视图)的维护代价达到最小。 一个合理的有效的集成模式应该物化保存那些能够给整个系统带来最大效益的视图,这样才能在有限的空间限制下,最大限度的发挥物化视图的功能以提高 效率。 针对以上所面临的挑战, 统中 总体设计目标是 : 提供给管理员一个方便直观的视图管理工 具,使管理员可以方便的实现对视图的查看、添加、删除和更新等操作; 提供一个有效的集成模式建立机制,使得系统所建立的视图是合理和有效的,能最大程度地利用有限空间,发挥最佳的效 益。 对系统中建立的众多视图,应该有一套方便完善的管理机制。视图是建立在各个信息源之上的数据快照,它并不能保证和数据源的绝对同步,也就是说,视图中的数据不是实时数据。要保证视图内容的准确性和实时性,必须及时对视图进行更新。另一方面,随着系统不断地运行变化,需要根据数据源信息的变化和用户访问情况的变化及时向系统中添加新的视图,以反映变化的信息和用户需求;同时 , 那些用户以往感兴趣而现在已很少访问的“过时”的视图应删除,以便及时释放空间建立其他的视图。所有这些对视图的管 理,管理员

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论