下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据库存储研究与应用摘要xl广泛应用于eb数据的表示和交换,而海量xl数据的存储、处理对传统数据库提出了严峻的挑战,nativexl数据库应运而生,本文重点讨论了nxd数据库数据存储的几个方面,指出其有待进一步研究的问题。关键词xlnativexldatabase数据库随着internet进入社会生活的各个方面,电子商务等的广泛应用,关系型数据库在处理信息的复杂化,多样化,差异化,灵敏性,可读性等方面的缺乏日益明显。特别是目前ebservie的蓬勃开展,xl越来越多地活泼在数据交换和存储领域,其数据量指数级的增长,要求更有效的数据管理才能和更快、更准确的查询,而这是传统关系型数据库领域所没有涉
2、及到的,可以说是数据库开展的一个分水岭。(nativexldatabase)技术的出现给数据库研究界带来了宏大的时机,如何高效存储管理xl数据也自然成为研究的热点。一、xl和xl数据库xl是theextensiblearkuplanguage(可扩展标识语言)的简写,具有扩展性、自描绘性、自相容性等优点,成为internet上数据表示和数据交换的标准。对xl文档进展存取管理和查询的xl数据库分为两类:支持xl数据库管理系统xed和纯xl数据库管理系统nxd。xedxlenableddatabase是在原有关系数据库根底上扩展了xl支持模块,通过适当的xlapi对xl文档进展查询和修改,完成xl
3、数据和关系数据库之间的格式转换和传输。nxdnativexldatabase那么出如今xl数据处理领域内,是专门设计用于存储和管理xl文档的数据库,它以xl文档作为数据库的存储单元进展操作和管理,保持xl文档的树形构造,省掉了xl文档和传统数据库的数据转换过程。二、nxd的概述1.nxd定义rnaldburret在“xlanddatabases一文中给出有关nxd的定义。一个纯xl数据库是指:(1)相对于xl文档中的数据,定义了xl文档的逻辑模型,并且按照该模型来存储和检索文档。这样的模型至少应该包括元素、属性、pdata以及文档顺序。(2)就像关系数据库以行作为表的逻辑存储根本单位一样,nx
4、dbs以xl文档作为nxd的逻辑存储根本单位。(3)不要求有任何特殊的根本物理存储模型,它可以建立在关系的、层次的或面向对象数据库之上,或者使用诸如索引文件、压缩文件此类的专门存储格式。但在很多方面,xl应不同于关系模型和面向对象模型等数据模型,将xl映射到另一种数据模型常常引起“阻抗失配,并导致功能和性能上的局限。因此,业界提出nxd必须直接存储和处理xl数据。2.nxd特性纯xl数据库的特性有:(1)文件集(duentlletins):支持集合(lletin)的概念,集合级别上的查询,修改操作都会反映到集合内的每个文档中。(2)查询语言(querylanguages):目前主流的是xpat
5、h,但其存在不能分组,排序和连接等缺陷,因此xquery作为xpath的替代品,有希望成为纯xl数据库的专用语言。(3)更新和删除(updatesanddeletes):nxd绝大多数产品在这方面仍是薄弱环节。(4)事务、锁定和并发(transatins,lking,andnurreny);支持事务处理。锁定通常是对整个文档的,所以多用户并发性相对较低。(5)纯xl数据库提供良好的编程接口。(6)可以高效而准确的复原xl文档。三、nxd数据存储构造1.物理存储将元数据、xl数据、索引和统计数据如何放置在物理磁盘上永远是一个挑战性的问题,因为底层的存储表达对上层的查询处理和优化有着重要的性能影响
6、。纯xl数据库在物理上存储xl文档主要有三种方案:(1)字节流方式:即将xl数据转换为字节流,这种方式将文档转换为字节流,然后将其存储在文件系统的文本文件中或存储为数据库的blb字段中,然后在这些文件或字段上面加一些索引,通过这种方式来提供某些数据的功能,当存储和检索整个文档时,这种方式效率较高,并且可以准确地再现原来的xl文档,但缺点在于任何一次查询文档时都必须通过分析器处理后才能获得构造信息。(2)元模型方式:即按照某种物理模型存储xl文档,这里模型的不同,分为两种方案,一种是采用现有的关系数据库或面向对象数据库作为xl数据的存储库,在重组文档片段或不同文档时比拟快,但在逻辑层和物理层的数
7、据需要经过转换,因此会降低处理效率。另一种是为xl数据库设计专有的存储方案,如infnytedb采用的pd方式就是首先将文档转化为d构造,然将其映射到一些特殊的文件中。这种方案可以以一种比拟自然的方式来存储xl数据,防止物理层和逻辑层数据之间转换,但由于采用全新的存储方案,技术不够成熟。(3)混合型,这种方式又可以细分为两种类型:冗余型和杂交型。冗余型是指每份数据保持两份副本,一份基于文本方式存储,一份基于模型存储。这样可以同时利用两种方式的优点,但是两份数据很可能处于不一致的状态,且更新效率较低。杂交型存储方式中规定一个数据单元,粒度大于数据单元的局部以元模型方式存储,否那么以字节流方式存储
8、。在实际的纯xl数据库中用的比拟多的是基于元模型的方式和杂交方式。2.数据形式在传统的关系数据库中,形式严格地约束着数据的类型、操作和构造,数据完全对应于形式,数据的插入、查询、更新和存储都必须遵循形式的定义。而xl数据具有半构造化的特征,数据与形式信息之间并不具有完全对应的关系,此时形式仅仅是作为查询或者理解数据的一个说明,并不具有约束数据的功能。因此,如何在纯xl数据库中发挥xl形式的作用是一个需要研究的问题。3.存储粒度xl数据是一棵由各种节点组成的树,常见的节点包括元素(eleent)节点、属性(attribute)节点和文本(text)节点。但是nxd中,一条记录所对应的子树有多大、
9、包含多少个什么样的节点,这是nxd的存储粒度问题。记录的粒度分为三种:(1)结点级:一个结点就是一条记录。(2)子树级:xl文档的一个片段一个子树对应一个记录。目前,有两种划分子树的方法:根据物理块大小,使子树的大小与物理块大小相近,不需要文档形式信息的支持;根据逻辑意义划分子树,使子树成为一个比拟完好的逻辑单位,需要文档形式信息的支持。(3)文档级:一个xl文档是一条记录,文档是作为一个整体来操作的,不需要有dtd或xlshea等形式信息的支持。不同的粒度对存储空间和查询的支持各不一样。对同一个xl文档来说,记录的粒度越小,记录的数目就越多,记录之间的指针就越多,存储空间需要的也越多,从而记
10、录的存储效率较低,但小粒度的存储方法使每个元素和属性,包括文本都可以被单独查询、修改或删除,且对其他文档构造影响最小,具有最大的灵敏性,也无须利用文档的形式信息。记录的粒度越大,为了读取某一个节点需要读进的节点数就越多,更新时效率就越低,但是大粒度的存储方法不需要存储过多的逻辑指针和物理指针,可以节省存储空间,且重构整个文档会比拟快一些。因此,根据查询的要求如何确定xl数据的存储粒度也是一个挑战性的问题。4.存储顺序假如nxd中存储xl文档的记录粒度是狭义的节点或者子树,那么这些记录在物理空间中的组织方式就是记录的存储顺序问题,存储顺序是指记录在物理上的相邻关系。记录的存储顺序一般有以下几种:
11、(1)深度优先顺序存储,这是最常见的存储顺序。(2)广度优先顺序存储。(3)按某个条件簇集存储,将满足某个条件的所有记录存储在同一个物理块内或物理上相邻的物理块内。对于xl文档来说,将记录的节点按类型一样的记录簇集存储,虽然在物理存储上破坏了节点的顺序,但有利于数据查询和更新。根据存储粒度和存储顺序,将会产生以下几种详细的存储方法:基于元素的深度优先(deb)方法;基于子树的深度优先(dsb)方法;基于元素的广度优先(beb)方法;基于子树的深度优先(bsb)方法;基于元素的同类簇集(eb)方法;基于子树的同类簇集(sb)方法。如何确定nxd中记录的存储顺序,以及如何针对不同的应用选取不同的存
12、储方法,或者是针对不同的查询选择不同的存储方法,这些都是挑战性的问题。四、应用natix有着良好的存储系统,其记录内部的结点不完全是以字节流方式存储的文本。存储粒度上,natix有自己独特的划分子树的方式和分裂子树的算法,且记录子树的大小是可以动态确定的。物理上,xl文档映射成树的构造,在树构造中包含三种结点:(1)聚集结点:指树的内部结点。(2)文字结点:指页结点,内容可以是字符,图形,声音和视频等。(3)代理结点:实际上是记录之间联络的桥梁。下面以一个xl文档实例进展说明,见图1。xl文档映射的树状构造见图2。物理树的存储构造见图3。如:综上所述,纯xl数据库虽然在解决xl数据存储,高效处理和查询等方面较传统数据库有一定的优势,但是目前仍然存在很多具有挑战性的问题,这些问题给数据库研究人员提供了广阔的平台,也为我国在数据库研究方面赶超世界先进程度提供了机遇。相信随着xl更为广泛的应用于医疗、金融、电子政务、制造业及电子商务等领域,nativexl数据库的明天更美妙。参考文献:1aer-yahias,hs,lakshananlvs,etal.in
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国城市咖啡发展报告
- 《天然药物的开发》课件
- 养老保险的三大支柱
- 社区项目方案设计模板
- 两位数乘两位数笔算能力测试口算题带答案
- 家庭教育活动报告
- 《组织行为学》激励课件
- 严重精神病性管理工作培训
- 物联网产业发展现状智慧养老技术概论
- 音乐照护健康评估-老年康体指导 初 级 -1729733444183
- 人教版新教材高一上学期期末考试数学试卷及答案(共五套)
- 河道保洁服务投标方案
- 《网络游戏利与弊》课件
- 4.与食品经营相适应的主要设备设施布局操作流程等文件
- 法律文书校对规定
- 小学食堂结算统计表(午餐、晚餐都吃的学校适用)
- 海水的性质 说课课件 2023-2024学年高中地理人教版(2019)必修第一册
- 医院重点岗位工作人员轮岗制度
- CFM56-5B发动机VBV活门的钢丝软轴操控原理及软轴刚度研究
- Mysql 8.0 OCP 1Z0-908 CN-total认证备考题库(含答案)
- 带式输送机胶带安装
评论
0/150
提交评论