（计算机应用技术专业论文）一种改进的xml数据管理方案.pdf

上传人：灰*** IP属地：宁夏上传时间：2020-01-09 格式：PDF 页数：81 大小：2.69MB 积分：0 举报 版权申诉

已阅读5页，还剩76页未读，继续免费阅读

（计算机应用技术专业论文）一种改进的xml数据管理方案.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

苏州大学学位论文使用授权声明本人完全了解苏州大学关于收集保存和使用学位论文的规定即学位论文著作权归属苏州大学本学位论文电子文档的内容和纸质论文的内容相一致苏州大学有权向国家图书馆中国社科院文献信息情报中心中国科学技术信息研究所含万方数据电子出版社中国学术期刊光盘版电子杂志社送交本学位论文的复印件和电子文档允许论文被查阅和借阅可以采用影印缩印或其他复制手段保存和汇编学位论文可以将学位论文的全部或部分内容编入有关数据库进行检索涉密论文口本学位论文属在年二月解密后适用本规定非涉密论文口论文作者签名垫至焦日期旦旦 z 导师签名种改进的x m l 数据管理方案摘要一种改进的x m l 数据管理方案摘要随着互联网技术的飞速发展基于网络的诸多服务如电子商务电子图书等在生活中起着越来越重要的作用如何利用i n t e m e t 上的大量信息成为函待解决的问题 x m l 以其简单可扩展和跨平台等诸多优点己经成为数据表示数据存储和数据交互的事实标准如何有效地管理x m l 数据如对x m l 数据进行存储查询更新发布等已成为当今数据库领域中一个重要的研究课题本文在分析了相关研究现状的基础上开展了以下的研究首先根据当前存储方案不能有效支持文档更新的现状本文提出了一种具有更新功能的x m l 存储方案x s c 通过设计若干个关系表来存储x m l 文档树中的结点信息和结构信息无论x m l 文档是否具有d t d 都可以将x m l 文档映射到存储模式中当涉及插入删除结点操作时只需要对其余的结点进行少量的重新编码就可以正确地实现x m l 文档的发布查询其次针对目前小枝模式查询效率不高的特点本文提出了一种非归并的小枝模式匹配算法t w i g w m t w i g w m 算法利用索引将x m l 文档中的结点组织成标签流使用部分栈和链表的数据结构实现查询与许多小枝模式查询算法不同 t w i g w m 算法的执行是一个输出整体结果的非归并过程最后本文在o f f i c e 数据源上构建了一个x m l 数据管理应用的实例实现了上述提出的x m l 数据管理方案本实例通过友好的用户界面可以实现任何以数据为中心的x m l 文档的存储更新和查询本文对x m l 数据管理技术的研究具有一定的现实意义它不仪提出了对x m l 文档有效更新的存储方案还进一步研究了在x m l 查询中小枝模式非归并匹配的问题可以提高x m l 查询的效率另外本文的实例验证也对相关的实际应用具有一定的参考价值关键词 x m l 存储映射动态更新小枝模式查询算法作者赵圣猛指导教师钱培德 a n i m p r o v e ds c h e m af o rx m l d a t am a n a g e m e n t a b s t r a c t m a n yw e b b a s e ds e r v i c e ss u c ha se b u s i n e s sa r ep l a y i n ga ni n c r e a s i n g l yi m p o r t a n tr o l e i nl i f e h o wt ou s et h el a r g ea m o u n to fi n f o r m a t i o nh a sb e c o m et h ep r o b l e mw h i c hn e e dt o b es o l v e du r g e n t l y x m lh a sb e c o m ean e ws t a n d a r df o rd a t a r e p r e s e n t a t i o n d a t ae x c h a n g e o nt h ei n t e r n e t k n o w nf o ri t ss i m p l i c i t y e x t e n s i b i l i t ya n dn u m e r o u so t h e rb e n e f i t s h o wt o e f f e c t i v e l ym a n a g ex m ld a t ah a sb e c o m ea l li m p o r t a n tr e s e a r c ht o p i ci nd a t a b a s ef i e l d s u c h a sx m l s t o r a g e x m lq u e r ya n ds oo n i nt h i sp a p e r t h em a i nr e s e a r c hw o r ka sf o l l o w s f i r s t l y t h i sp a p e rp r o v i d e sas t o r a g es c h e m an a m e dx s c w h i c he f f e c t i v e l ys u p p o r t s x m l u p d a t e t h r o u g hd e s i g n i n gan u m b e ro ft a b l e s x s cs t o r e sn o d ei n f o r m a t i o na n d s t r u c t u r a li n f o r m a t i o n r e g a r d l e s so fw h e t h e rx m ld o c u m e n th a sd t d t h ex m l d o c u m e n tc a nb em a p p e di n t ox s c w h e nc o m i n gt oi n s e r tn o d e sa n dd e l e t en o d e s t h ex m l d o c u m e n tc a nb ec o r r e c t l yp u b l i s h e dw i t h o u tm u c h r e e n c o d i n go nt h er e m a i n i n gn o d e s s e c o n d l y i nt h ec a s eo fi n e f f i c i e n tt w i gp a t t e r nq u e r y t h ep a p e rp r o p o s e sa na l g o r i t h m o ft w i gp a t t e r nq u e r yn a m e dt w i g w m t w i g w m o r g a n i z e sn o d e si n t ol a b e ls t r e a mu s i n g i n d e x a n da c h i e v e sq u e r y i n gw i t ht h ed a t as t r u c t u r eo fs t a c ka n dl i n k e dl i s t c o m p a r e d w i t ho t h e rt w i gq u e r ya l g o r i t h m s t h ee x e c u t i o no ft w i g w ma l g o r i t h mi st h en o n m e r g i n g p r o c e s sw h i c hp r o v i d e st h eo v e r a l lr e s u l t s f i n a l l y b a s e do nt h ed a t ao fo f f i c ea p p l i c a t i o n t h i sp a p e rb u i l d sa ne x p e r i m e n t a ls y s t e m w h i c ha d o p mt h ea b o v ep r o p o s e dx m ld a t am a n a g e m e n ts c h e m a t h r o u g hf r i e n d l y u s e ri n t e r f a c e t h es y s t e mc a n m a n a g ea n yd a t a c e n t r i cx m l d o c u m e n t s t h ew o r ko nx m ld a t am a n a g e m e n th a sc e r t a i np r a c t i c a ls i g n i f i c a n c e o no n eh a n d w h e ns t o r i n gx m ld o c u m e n t s i ts o l v e st h ei s s u eo fu p d a t i n gx m ld o c u m e n t s o nt h e o t h e rh a n d t h i sp a p e rs t u d i e st h ea l g o r i t h mo ft w i gp a t t e r nq u e r yw i t h o u tm e r g i n g w h i c h i m p r o v e st h ee f f i c i e n c yo fx m lq u e r y b e s i d e s e x p e r i m e n t a ls y s t e mp r o v i d e ss o m er e f e r e n c ef o rr e l a t i v er e s e a r c h e s k e y w o r d s x m l s t o r a g em a p p i n g d y n a m i cu p d a t e t w i gp a t t e r n q u e r ya l g o r i t h m i i w r i t t e nb yz h a os h e n g m e n g s u p e r v i s e db yq i a np e i d e 第一章 1 1 1 2 1 3 1 4 1 5 第二章 2 1 2 2 2 3 2 4 2 5 2 6 目录绪论课题背景课题研究现状课题研究内容课题研究意义文章组织结构 x m l 数据管理概述 x m l 数据模型 x m l 查询语言 x m l 文档编码方案 2 3 1基于区间的编码 2 3 2 基于路径的编码 2 3 3其它编码 x m l 数据索引技术 2 4 1结构概要类索引 2 4 2 结点记录类索引 x m l 数据存储映射 2 5 1 模型映射方案 2 5 2 结构映射方案 x m l 结构连接算法 2 6 1包含关系的结构连接 2 6 2 小枝模式的结构连接第三章数据管理方案设计 3 1问题提出 3 2 设计目标 1 l 2 4 5 5 7 7 9 o 0 2 2 2 3 4 5 5 6 7 8 9 1 l 3 1 2 4 5 5 7 7 9 m m 屹抡抡 b m 埒垮 m 掩挎扛扒乃 3 模型方案 2 4 4 小枝查询方案 2 5 章可支持更新的x m l 存储方案x s c 2 7 1引言 2 7 4 2x s c 映射实现 4 2 1x r e l 映射思想 4 2 2x s c 映射策略 4 2 3x s c 映射算法 4 3x m l 文档重组 4 4x m l 查询处理 4 5 动态更新x m l 文档 4 6 实验分析 4 6 1x m l 存储性能分析 4 6 2x m l 查询性能分析 2 8 2 8 2 8 3 0 3 2 3 4 3 5 3 6 3 6 3 7 第五章基于非归并的小枝模式查询方案t w i g w m 3 9 5 1 引言 3 9 5 2 相关概念及说明 4 0 5 2 1 结点编码 4 0 5 2 2 相关定义 4 1 5 3 查询匹配算法t w i g w m 4 3 5 3 1数据结构及说明 4 3 5 3 2 算法思想 4 4 5 3 3具体算法描述 4 6 5 4 算法分析 5 0 5 5 实验分析 5 1 5 5 1实验环境 5 1 5 5 2 实验结果 5 2 第六章 6 1 6 2 第七章 7 1 7 2 参考文攻读硕致谢一种改进的x m l 数据管理方案第一章绪论第一章绪论 1 1 课题背景随着互联网技术的发展特别是w e b 技术飞速发展其丰富的资源给人们的生活带来了极大的便利特别是应运而生的h t m l h y p e rt e x tm a r k u pl a n g u a g e 超文本标记语言以其简单易学灵活通用的特性使人们发布检索交流信息变得非常简单从而使w e b 成了最大的环球信息资源库然而基于网络的诸多服务和应用如电子商务电子图书等使w e b 数据变得更加复杂和多样化从而使得作为w e b 使用最广的h t m l 语言的局限性越发明显由于i n t e r n e t 上的数据多以无结构的形式出现 x m l e x t e n s i b l em a r k u pl a n g u a g e 可扩展标记语言 1 1 以其简单可扩展和跨平台等诸多优点己经成为数据表示数据存储和数据交互的事实上的标准 x m l 与h t m l 相比具有许多优点 1 x m l 简单自我描述且易于解析 x m l 对数据的语义描述和数据内容本身都包含在x m l 文档中一个应用可以按照各种方式解析过滤重构x m l 文档 2 h t m l 中的标记是固定的不能扩展而x m l 中的标记是由用户定义的可以任意地扩展 x m l 的嵌套结构可以表示现实世界中各种复杂的对象各种格式的数据都可以比较容易地转化为x m l 数据 3 咖中的标记表示数据的显示格式没有任何语义而x m l 的标记则明确指出了数据的含义使得细粒度的x m l 数据处理成为可能 4 x m l 实现了内容和表现二者的分离文档类型定义d t d d o c u m e n tt y p e d e f i n i t i o n 描述了文档中元素和子元素间的嵌套结构不同的用户可以通过x s l 按不同的显示方式显示全部或部分的文档内容 5 x m l 具有开放的国际化标准 x m l 支持文档对象模型标准可扩展类型语言标准可扩展链接语言标准和x m l 指针语言标准使用x m l 数据可以在不同类型的计算机系统问交换信息由于x m l 同h t m l 兼容且与平台无关同时又是一种真正的扩展语言受到了业界的广泛关注比如微软 i b m o r a c l e 等参加了x m l 各项标准的制定微软的w i n d o w s o f f i c e 都使用x m l 文件格式 i e 6 0 i e 7 0 已经全面实现了对x m l 的是两个重要方面受到了广泛的关注目前国内对x m l 数据管理的研究尚处于探索阶段特别是x m l 查询方面复旦大学的v x m l r 系统 2 把文档存储到关系数据库中 v x m l r 先把x m l 模式映射为关系模式然后把文档数据存入关系数据库中查询时先把x m l 查询语言重写为s q l 语句最后把查询结果重构为文档中国人民大学孟小峰教授等研究开发的o r i e n t x 系统 3 是国内第一个纯x m l 数据库系统它的记录级别是文档级的按 2 一种改进的x m l 数据管理方案第章绪论物理块划分使记录之问联系的指针得以减少提高了存储效率 o r i e n t x 系统 4 将语义相近的记录尽量按聚集存储这是一种按逻辑意义存储策略判断语义相近的方法是根据记录类型是否相同进行的在x m l 查询处理方面王静等 5 提出了以目标结点为导向对路径表达式进行查询处理该方法利用扩展基本操作来减少连接操作的数目万常选等 6 将编码方案逆序列表和路径索引的思想相结合提出了一种改进的索引结构最多只需对参与连接的两个列表分别进行一次扫描即可实现查询处理国外有不少研究机构在数据管理方面做了大量工作如x m l 数据的高效存储索引机制查询处理和优化等德国s o f t w a r ea g 软件公司的t a m i n o 7 是第一个商用的纯x m l 数据库系统它的主要创新在于索引结构和接口密歇根大学的t i m b e r 8 是一种采用面向对象数据库s h o r e 来对x m l 进行存储的x m l 数据库它借用了s h o r e 系统中良好的存储管理并发机制等由于其存储粒度是结点级的因此在x m l 文档重组时可以避免冗余的转换在具体存储方面已提出的x r e l 映射 9 1 x p a r e n t 映射 l o 等属于模型映射模型映射方法对某些应用来说提供了一定的灵活性可以实现异构系统间数据的无缝集成而不需要考虑文档的模式信息即使源文档的结构发生了一定的变化也不会影响系统问数据的交换然而这种灵活性也是需要付出一定代价的因为在模型映射方法中每个数据项都要重复其模式信息因此增加了系统的磁盘开销 d t d 方法 1l s t o r e d 方法 1 2 和p s c h e m a 方法 1 3 属于结构映射它们需要将x m l 模式或d t d 映射为关系模式关系模式用来表示目标x m l 文档的逻辑结构因此它是x m l 模式或d t d 相关的从x m l 文档的d t d 或s c h e m a 推断x m l 元素应该怎样映射到关系中这种方法能够利用关系数据库的特性如查询优化和并发性控制等文献 1 4 1 5 中提出的方法属于约束映射方法在存储x m l 文档时考虑x m l 模式中的语义约束如键函数依赖等在此基础上推导出的关系模式可以进一步保持语义信息 x m l 查询处理方面集中关注如何对路径表达式进行匹配已提出的方法主要有两种第一种方法是把一个复杂的路径表达式分解成几个简单路径表达式而简单路径表达式的计算采用逐步结构连接法这样对x m l 文档的结构查询通常被转化为两个结点列表之间的包含关系或文档位置关系的结构连接操作目前已提出的结构连接算法有e e e a j o i n 1 6 m p m g j n 1 7 等但是这种计算方法会产生大量的中间结果从而影响了查询的效率第二种方法是把一个路径表达式表示成一 3 第一章绪论一种改进的x m l 数据管理方案个小枝模式t w i g 然后通过小枝模式匹配的方法来计算路径表达式的值在小枝模式匹配方法方面具有代表性的算法有t w i g s t a c k 1 8 t j f a s t 1 9 1 等它们只需扫描一遍输入结点列表就可输出匹配结果此类算法对只包含祖先后代边的小枝模式查询可以保证为最优的即所有的中间匹配结果都是可归并连接的但是在包含父子边的小枝模式查询方面这些算法并不是最优的因为它们会产生许多无用的中间结果路径为了解决包含父子边的小枝模式查询的效率问题目前已提出 t t w i 9 2 s t a c k 2 0 1 t w i g l i s t 2 1 算法其分别采用层次栈和队列的结构而不需要归并因此性能优于前述算法但是他们需要遍历文档树中的每个结点并且算法也较复杂文献 2 2 2 3 也针对t w i g 查询进行了相关地研究 1 3 课题研究内容 x m l 作为数据交换的国际标准已经贯穿在i n t e m e t 应用的各个领域之中从而带来了大量的x m l 格式的数据如何存储和查询x m l 数据是一个重要的研究课题本课题以x m l 数据管理为研究的切入点在提出一种编码方案的基础上研究x m l 数据存储此存储方案考虑文档更新情况当在x m l 文档中插入删除结点时能及时地反映给用户在x m l 查询方面主要研究小枝模式匹配算法利用索引确定哪些文档结点不满足输出要求事先将其舍弃用非归并的思想输出最终结果具体研究步骤如下 1 提出一种x m l 编码方案正确的编码方案是x m l 数据管理的基础已存在的x m l 编码主要有区间编码和路径串编码但在支持x m l 文档更新的情况下并不理想本课题将先序编号与路径串相结合对文档树中的结点进行编码并且在后期查询方面将编码中的路径串转换成数字串以利于模式匹配 2 具有更新功能的x m l 存储方案 x r e l 映射属于结点模型映射它通过设计若干个关系来存储x m l 文档树中的结点信息和结构信息与x p a t h 标准紧密结合能够对基于x p a t h 的查询给予相当好的性能支持但是它的p a t h 信息具有很大的冗余修改一个结点的名称都需要相当复杂的操作本课题借鉴t x r e l 方法的部分思想并提出了一种基于不同结构的x m l 文档存储映射无论x m l 文档是否具有d t d 都可以将x m l 文档映射到存储模式中当涉及插入删除结点操作时只需要对其余的结点进行少量的重新编码就可以 4 一种改进的x m l 数据管理方案第一章绪论正确的实现x m l 文档的发布查询 3 非归并的小枝模式查询方案小枝模式查询是x m l 查询中重要的方面已有的算法女l l t w i g s t a c k 和t j f a s t 算法等被提出但是他们都是基于归并的不能避免大量的不必要的路径归并本文提出了一种新的算法利用索引将x m l 文档中的结点组织成标签流使用部分栈和链表的数据结构实现查询在将元素结点进入链表之前先判断其是否对整个路径解有贡献若有贡献则进入链表否则丢弃整个过程是不断输出结果的非归并过程本文将上述的管理方案合成一个整体的流程构建了一个x m l 数据管理在o f f i c e 数据源上的应用实例 1 4 课题研究意义 x m l 为w e b 提供了一致的数据模型和描述语言使得从语法上规范化地表示w e b 数据成为可能通过研究x m l 数据的管理技术可以为基于w e b 的数据管理提供新的途径和方法本课题主要研究了x m l 数据管理的相关技术并改进了其中的部分算法尽管这些算法并不一定是最优算法还有待于进一步的研究与完善但是本课题所做的工作还是具有一定的现实意义体现在如下方面 1 本文在对x m l 存储方案做了深入研究的基础上分析了其优缺点针对目前存储映射中更新的难题设计了一种编码方案并实现了x m l 模式的映射经实验验证该方案具有跨平台性给x m l 数据管理中映射方面的研究提供了借鉴价值 2 本文在小枝模式查询方面提出了一种新的匹配算法实验结果比较表明此算法在时间和空间方面有较好的效率对部分x m l 查询算法的改进具有参考价值 3 本课题将x m l 数据管理的理论运用于实际在o f f i c e 应用方面进行了有益的尝试并取得了较为满意的结果促进了x m l 数据管理的研究综上所述课题研究的内容对于x m l 数据管理具有一定的现实意义和参考价值对x m l 的进一步应用有一定的推动作用 1 5 文章组织结构全文的组织如下 5 第一章绪论一种改进的x m l 数据管理方案第一章简要介绍了课题提出的背景课题的研究内容课题的研究现状和课题的研究意义第二章介绍了x m l 数据管理的相关知识重点介绍了x m l 数据模型查询语言 x m l 的常用编码 x m l 索引存储映射方案查询中的结构连接算法第三章介绍了数据管理方案的设计其中对方案设计的由来和目标进行了阐述同时还对存储方案和查询方案进行了介绍第四章针对目前x m l 存储方案不能有效地支持更新提出了一种映射方案x s c 并介绍了如何用x s c 方案来更新和发布x m l 最后将x s c 方案与别的方案进行了性能上的对比第五章介绍了小枝模式查询的处理过程分析了当前小枝模式匹配算法的不足在此基础上提出了一种非归并的小枝模式查询算法t w i g w m 并将t w i g w m 算法与几种常用算法进行了比较第六章介绍了此文提出的x m l 数据管理方案在o f f i c e 数据源上的应用实例第七章对所做的工作进行总结并对未来工作进行展望 6 一种改进的x m l 数据管理方案第二章x m l 数据管理概述第二章x m l 数据管理概述本章将介绍x m l 数据管理的相关知识 x m l 数据模型 x m l 查询语言 x m l 编码技术 x m l 索引技术 x m l 存储映射技术和x m l 查询技术 x m l 数据模型和x m l 查询语言是x m l 数据管理知识中的基础不同的编码方案对x m l 存储查询有很大的影响由于索引的设计主要是为了提高查询效率因此设计索引时的主要考虑冈素应该是查询底层的存储表示形式对上层的查询和优化有着重要的影响如何有效地存储x m l 文档已经是一个重要的问题关于查询方面目前的x m l 查询执行策略主要有两种基于导航的x m l 查询执行策略和基于连接的x m l 查询执行策略由于基于导航的查询策略重点在于结构概要类索引的设计因此本文重点介绍基于连接的查询策略下面进行详细介绍 2 1x m l 数据模型对x m l 数据进行有效地建模正确完全地反映x m l 数据的固有特征是对x m l 数据进行有效管理的基础当前的研究工作大都建立于图模型或者树模型之上图模型将x m l 数据看作一个复杂的图状结构 x m l 数据中元素之间元素和属性之间的联系在图模型中被抽象成有向边树模型将x m l 数据看作一棵有向的标签树 x m l 数据上元素之间元素和属性之间的联系被抽象成树上的有向边这两种模型都可以形象地表示数据其中树模型是描述x m l 数据最常使用的因此本文的研究也是基于该模型图2 1 表示一个x m l 文档实例及其对应的树模型在树模型中结点表示文档元素属性和文本数据等边表示两个结点之间的父子关系一个结点的路径是从文档根结点开始到该结点所经历的标签序列标签之间用分隔例如在图2 1 中 h e i g h t 结点的路径是 l i s t s l i s t g o o d s h e i g h t 结点是树模型中最基本的概念在树模型中共有七种类型的结点分别是文档结点元素结点属性结点文本结点名字空间结点处理指令结点和注释结点一个x m l 文档有一个唯一的文档结点称为根结点元素结点依次指向其它的元素结点属性结点文本结点等为了得到有效的x m l 文档还要确保文件中信息遵守的结构即需要一种用来描述x m l 文档中信息结构的机制这种机制定义了x m l 文档中元素的顺序元 7 第二章x m l 数据管理概述一种改进的x m l 数据管理方案 f a x m l 文档 0 1b o o k9 90 2p d a1 0 02 2 9 9 b 文档树图2 1x m l 文档及其对应的树模型素的嵌套关系和内容模型并建立了文档数据的数据类型 d t d d o c u m e n tb p e d e f i n i t i o n 文档类型定义可以满足上述要求它定义了x m l 文档的逻辑结构可以用直接写入或以外部链接的方式与x m l 文档相结合利用外部链接的方式可以让多个x m l 文档共同使用一个d t d d t d y u 出了可用在文档中的元素属性实体和符号表示法以及这些内容之间可能的相互关系例如 d t d 可以确切的规定每个g o o d s 元素只有一个n a n l e 子元素只有一个p r i c e 子元素这些规则都是在d t d 中定义的图2 2 表示图2 1 a 中x m l 文档对应的d t d d o c t y p el i s t s e l e 删ti i s t s 1 i s t 胗 e l e m e n th e i g h t p c d a t a p 图2 2x m l d t d 示例 8 一种改进的x m l 数据管理方案第二章x m l 数据管理概述 2 2x m l 查询语言现己提出的x m l 查询语言有很多种比如x p a t h 2 4 x q u e r y 2 5 和x m l q l 2 6 等这些查询语言有一个共同点就是通过路径表达式来实现对文档的查询本文主要介绍x p m h 语言 2 4 x p a t h 是f l q w 3 c 仓 j 建的它使用类似于u r l 的路径表示法在一个x m l 文档中进行导航 x p a t h 的主要部件是表达式其中最重要的表达式是定位路径表达式亦称为路径表达式每个路径表达式都是由一个或多个路径步组成路径表达式有绝对路径表达式和相对路径表达式两种绝对路径表达式以正斜杠开始它是从文档树的根结点开始定位路径相对路径表达式则直接从某个定位步开始定位路径以绝对路径表达式为例 x p a t h 的语法为阮砌 s t e p l s t e p 2 s t e p n 式2 1 中路径步s t e p 被定义为 2 1 st e p a x i s n o d e t e s t p r e d i c a t e 2 2 式2 2 中 a x i s 轴指定了向前或向后的方向每个轴都有一个基本结点类型对于属性轴基本结点类型是属性对于命名空间轴基本结点类型是命名空间对于其它轴基本结点类型是元素在x p a t h 中最常用的轴有 c h i m d e s c e n d a n t p a r e n t a n c e s t o r n o d e t e s t 结点测试用来对轴中的结点进行测试如果给定结点的测试值为t r u e 则保留在结果结点集中否则将它从结果结点集中删除可以使用结点名称或结点类型进行结点测试 p r e d i c a t e 谓词对原结果结点集进行筛选并生成新结果结点集路径表达式可以使用缩减句法实际上缩减句法比完整句法更常用因为它们更简洁例如地址路径g o o d s n a m e 是c h i l d g o o d s c h i l d n a m e 的缩写地址路径g o o d s i d 0 3 是c h i l d g o o d s a t t r i b u t e i d 0 3 的缩写地址路径l i s t s n a m e 是l i s t s d e s c e n d a n t o r s e l f n o d e c h i m n a m e 的缩写实际使用中的x p a t h 查询只用至u x p a t h 语言的一个子集或称之为片段其中一个较常用的x p a t h 片段包含孩子轴后裔轴仂谓词和结点测试下面举几个简单的例子说n j x p a t h 表达式的含义 9 第二章x i v l l 数据管理概述一种改进的x m l 数据管理方案 1 n a m e 选择所有的n a m e 元素不论n a m e 处在哪个层次 2 g o o d s i d 0 1 p r i c e 选择所有父元素是g o o d s 的叫c e 元素并n g o o d s 元素的i d 属性值为o l 2 3x m l 文档编码方案根据编码之间的关系可以将编码方案主要分为两类基于区间的编码和基于路径的编码基于区间的编码方案利用x m l 文档的有序特点通过某种访问顺序给文档中的每个结点赋予一个编码基于路径的编码方案则利用x m l 文档的嵌套特点给从文档根结点开始所能到达的每个路径上的结点赋予一个编码常见的编码方案设计在以下几个方面是不同的 2 7 1 所支持的结构关系例如包含关系文档位置关系 2 码的最大长度或平均长度 3 编码后的查询执行时间 4 插入操作导致的重新编码代价下面详细介绍几种编码方案 2 3 1 基于区间的编码区间编码方案的思想树丁中的每一个结点被赋予一个区间编码一个结点的区间编码包含它的后裔结点的区间编码即若结点u 是结点v 的祖先当且仅当 s t a r t u s t a r t v ae n d v e n d u 2 3 两个结点的区间编码之间关系要么完全包含要么完全不相交不可能出现其它情况第一种区间编码方案是d i e t z 编码 2 8 其编码规则树r 中的每一个结点被赋予一个由先序遍历序号和后序遍历序号组成的二元组由于树丁中的一个祖先结点u 在先序遍历中必然出现在它的后裔结点v 之前因此若u 是v 的祖先则 p r e u p r e v ap o s t v p o s t u 2 4 树丁中的任意两个结点之间的包含检测能够在常数时间内被计算对于该编码方案 p r e 或p o s t 均可作为结点的唯一标识一个d i e t z 编码示例如图2 3 所示 1 0 f 9 j 1 1 8 1 1 0 0 0 0 0 0 0 0 0 1 1 1 d i e t z 编码 z h a n g 编码 l i m o o n 编码位向量编码前缀编码素数编码图2 3x m l 数据的编码方案第二种区间编码方案是l i m o o n 编码1 1 6 它的编码规则 x m l 文档树丁中的每一个结点被赋予一个二元组其中 o r d e r 是结点的扩展先序遍历序号它的取值是非连续的为结点的插入预留序号空间 s i z e 为结点的后裔范围对于该编码方案必须满足如下两点 1 结点v 和其父亲结点u 有 o r d e r u o r d e r v ao r d e r v s i z e v o r d e r u s i z e u 2 5 2 兄弟结点u 和v 若在先序遍历中结点v 是结点u 的右兄弟则 o r d e r u s i z e u a 1 b e g i n 的第一个结点称为扫描点然后在内表d l i s t 中从扫描点开始顺序扫描对满足b e g i n a 1 e n d 条件的所有结点d 再判断是否满足条件若满足则产生连接结果结点对以l d 继续对外表a l i s t 中的第二个结点a 2 重复上面的步骤直到外表a l i s t 或内表d l i s t 中的结点连接完毕图2 7 是m p m g j n 算法内表操作示意图图2 7m p m g j n 算法内表操作示意图 s t a c k t r e e 算法 s t a c k t r e e 算法分为s t a c k t r e e d e s c 按后裔结点有序和s t a c k t r e e a n c 按祖先结点有序两种本文以s t a c k t r e e d e s c 算法为代表 s t a c k t r e e d e s c 算法的基本思想归并连接过程中从a l i s t 中得到一个新结点a 如果它是目前栈项结点后裔则日被压入栈若栈为空以也被压入栈从d l i s t 中得到的一个新结点d 如果它是目前栈顶结点的后裔那么它也是目前栈中所有结点的 1 8 一种改进的x m l 数据管理方案第二章x m l 数据管理概述后裔因此结点d 与栈中所有结点之问的连接结果可以被输出了如果结点d 不是目前栈顶结点的后裔则可以将栈顶结点出栈了并且判断d 是否是新栈项结点的后裔直到栈为空图2 8 是一个s t a c k t r e e d e s c 算法的执行过程左边是一个x m l 文档实例右边是算法执行过程图巾的查询语句是 a d l j幽u幽u l 且i 一址1 一l h 0 一阻阻皿l s ls 2s 3s 4s 5s 6s 7s 8s 9 s i a 1 进栈s 2 输出 a 1 d 1 s 3 a 2 进栈 s 4 输出 a 1 d 2 a 2 d 2 s 5 输出 a 1 d 3 a 2 d 3 s 6 a 2 出栈 s 7 a 3 进栈s s 输出 a 1 d 4 a 3 d 4 9 a 3 a l 出栈图2 8s t a c k t r e e d e s c 算法执行步骤 2 6 2 小枝模式的结构连接目前的研究将小枝模式看成一个整体进行模式匹配使得算法的效率有大幅度的提高根据是否需要归并操作小枝模式匹配分为两种第一种是基于归并的小枝模式匹配算法有t w i g s t a c k 算法 1 8 t s g e n e t i c 算法 4 9 1 i t w i g j o i n 算法 5 0 t w i g s t a c k l i s t 算法 5 1 和研a s t 算法 1 9 等第二种是非归并小枝模式匹配算法有t w i 9 2 s t a c k 算法 2 0 t w i g l i s t 算法 2 1 t w i g n m 算法 5 2 等下面重点介绍t w i 9 2 s t a c k 算法思想 t w i 9 2 s t a c k 算法 t w i 9 2 s t a c k 算法的基本思想后序遍历文档对于元素e 当且仅当它满足以查询结点e 为根的小枝时将其压入层次栈h s e e 是与e 对应的查询结点由于是后序遍历因此在访问e 之前已经访问过了p 的后裔在检查e 是否匹配e 的子小枝时只需要检查一个查询步即e m 其中m 是e 的子结点在检查查询结点或者压入元素时要注意维护层次栈的结构图2 9 是一个层次栈构造示例每个层次栈h s j 都由一个栈树序列组成 1 9 五舢i l 赴外八一 x m l 数据管理概述一种改进的x m l 数据管理方案 h s i d l x s l c j 图2 9 层次栈编码结构示例一个栈树s 丁是一个有序树其每一个结点是一个栈s 如h s a 邑含一个栈树而h s d 包含3 个栈树每个栈s 包含0 个或多个文档元素栈中每个元素是其之下元素的父亲 3 1 问题提出 x m l 数据可能以两种形态存在 1 存在于一颗内存树中 x m l 文档被读入内存并建立一棵形 t h d o m 树然后就可以周游这棵树来处理查询 2 存在于磁盘上的若干表或者文件中 x m l 文档在解析时已被分解到若干表或文件中查询x m l 时需要将数据文件和索引文件的某些数据块读入内存进行处理第一种方式虽然查询简单但是严重依赖于内存大小只能处理比较小的x m l 文档对于一般的x m l 文档需要使用第二种将x m l 文档分解到磁盘存储 x m l 数据的存储技术可以分为原生x m l 数据存储和基于关系的x m l 数据存储原生x m l 数据存储试图在物理存储格式上保持x m l 文档中独特的结构特征 x m l 数据无需经过映射物理结构与逻辑结构一致不会导致信息丢失但在技术上还是非常不成熟的研究的比较少而基于关系的x m l 数据存储将x m l 数据分解到若干关系表中在这种存储方式下可以充分利用关系数据库的成熟技术来管理x m l 数据 x m l 查询操作转化为一系列关系查询操作在技术上成熟可行但由于x m l 数据大都是半结构化数据而关系数据都是结构化数据因此需要映射映射需要有编码方案作为基础但映射之后 x m l 数据也会面临插入删除等更新问题数据一旦更新编码也要作相应的调整才能保证基于这个编码的各种索引和查询算法的正确性在编码的更新方面针对性的研究还不多主要是在研究编码方案的同时顺便考虑更新问题 5 3 5 7 可以支持更新的几种编码有 l i m o o n 编码作为全局编码可以在一定程度上实现x m l 文档的更新中o r d e r 的取值是非连续的目的是为结点的插入预留序号空间但是预留空间很大则造成存储浪费相反容易导致过多的重新编码 2 l 第三章数据管理方案设计一种改进的x m l 数据管理方案对结点的编码除了使用全局标识还可以使用局部标识使用局部标识比如使用兄弟结点序号对x m l 文档树中的结点进行编码其优缺点正好与全局编码相反文献 5 8 对其优缺点进行了详细了分析文中给出了将实数作为序号的指标集的思路利用实数可表示无穷精度的特点满足插入数据带来的结点序号的扩张但是由实数计算带来的结构关系计算的代价是提高查询处理性能所不容忽视的图3 1 表示当插入一个新结点时所引起结点编码的变化虚线结点表示新插入的结点虚线区域表示要重新编码的结点范围 a 全局编码 b 局部编码图3 1 全局编码局部编码更新文档示意图本课题提出的编码方案优势在于可支持文档的动态更新且具有局部编码更新的特点在经过映射之后当涉及文档的动态更新时不需要对已存在的结点进行过多的编码就可以及时的反映给用户这样节省了二次编码的时间提高了映射方案中文档更新的效率 x m l 查询处理中的连接是指以两个或多个元素列表为输入输出满足一定结构关系的符合查询语义的结点对或者结点向量列表与关系查询中的连接条件一般是关于值的约束不同这里的连接条件一般是关于结构的约束因而此种连接常称为结构连接目前关于结构连接的研究主要关注在多元的结构连接即小枝模式的结构连接小枝模式的结构连接将一个小枝模式视为整体无需分解和逐步连接省去了中间的许多开销但目前的小枝连接算法还主要集中在归并的结构连接当参与连接的结点数目不多时归并连接算法运行效率较好但当参与连接的结点数目非常多时归并连接要耗费很多的时间用于分支解的合并以保证输出的整体解正确例

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）一种改进的xml数据管理方案.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）一种改进的xml数据管理方案.pdf

文档简介

温馨提示

最新文档

评论

相关文档