版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据库技技术领域域的发展展趋势1 泛数数据研究究2 国际际数据库库研究界界动态3 主流流技术发发展趋势势3.1 信息息集成3.2 数据据流管理理3.3 传感感器数据据库技术术3.4 XMLL 数据据管理3.5 网格格数据管管理3.6 DBMMS 的的自适应应管理3.7 移动动数据管管理3.8 微小小型数据据库技术术3.9 数据据库用户户界面1 泛数数据研究究的时代代数据库技技术从诞诞生到现现在,在不到到半个世世纪的时时间里,形成了了坚实的的理论基基础、成成熟的商商业产品品和广泛泛的应用用领域,吸引了了越来越越多的研研究者加加入,使得数据据库成为为一个研研究者众众多且被被广泛关关注的研研究领域域
2、.随着信信息管理理内容的的不断扩扩展和新新技术的的层出不不穷,数据库库技术面面临着前前所未有有的挑战战.面对新新的数据据形式,人们提提出了丰丰富多样样的数据据模型(层次模模型、网网状模型型、关系系模型、面向对对象模型型、半结结构化模模型等),同时也也提出了了众多新新的数据据库技术术(XMML 数数据管理理、数据据流管理理、Weeb 数数据集成成、数据据挖掘等等).回顾数据据库发展展之初,数据模模型是制制约数据据库系统统的关键键因素.E.FF Coodd 博士(119233-20003)提出的的关系模模型充分分考虑了了企业业业务数据据的特点点,从现实实问题出出发,为数据据库建立立了一个个坚实的的
3、数学基基础.在整个个计算机机软件领领域,恐怕难难以找到到第2 个像关关系模型型这样,概念如如此简单单,但却能能带来如如此巨大大市场价价值的技技术.关系模型型在关系系数据库库理论基基本成熟熟后,各大学学、研究究机构和和各大公公司在关关系数据据库管理理系统(RDBBMS)的实现现和产品品开发中中,都遇到到了一系系列技术术问题.主要是是在数据据库的规规模愈来来愈大,数据库库的结构构愈来愈愈复杂,又有愈愈来愈多多的用户户共享数数据库的的情况下下,如何保保障数据据的完整整性、安安全性、并发性性以及故故障恢复复的能力力,它成为为数据库库产品是是否能够够进入实实用并最最终为用用户接受受的关键键因素.Jimm
4、 Grray 在解决决这些重重大技术术问题,使RDBBMS成成熟并顺顺利进入入市场的的过程中中,发挥了了关键作作用.概括地地说,解决上上述问题题的主要要技术手手段和方方法是:把对数数据库的的操作划划分为“事务”的基本本单位,一个事事务要么么全做,要么全全不做(即ll-or-notthinng 原原则);用户在在对数据据库发出出操作请请求时,需要对对有关的的不同数数据“加锁”,防止不不同用户户的操作作之间互互相干扰扰;在事务务运行过过程中,采用“日志”记录事事务的运运行状态态,以便发发生故障障时进行行恢复;对数据据库的任任何更新新都采用用“两阶段段提交”策略.以上方方法及其其他各种种方法被被总称
5、为为“事务处处理技术术”.E.F Coddd 和和Jimm Grray 在关系系模型和和事务处处理技术术上的创创造性思思维和开开拓性工工作,使他们们成为这这一领域域公认的的权威,并于分分别于119811 年和和19998 年年成为图图灵奖获获得者.在成熟的的关系DDBMSS 产品品行销于于世之后后,数据库库的研究究困惑于于如下的的问题:DBMMS 本本身的研研究是不不是已经经没有问问题了?新的处处理要求求在哪里里?旗帜鲜鲜明地提提出这一一思考的的是VLLDB220000 会议议,会议的的主题是是“Brroaddeniingtthe Dattabaase Fieeld”,会议议的论文文设置也也截
6、然分分为两类类,即“coore dattabaase tecchnoologgy”和和“innforrmattionn syysteemsiinfrrasttruccturres”,体现现了在对对传统问问题关注注的同时时,着力寻寻求信息息系统创创新途径径中所存存在的数数据管理理问题.而信息息系统创创新途径径的根本本前提是是Webb 时代代的到来来.于是,在Webb 大背背景下的的各种数数据管理理问题成成为人们们关注的的热点,我们不不妨把它它笼统地地称为“泛数据据”研究.所谓“泛泛数据”是相对对原本人人们所关关注的企企业业务务数据而而言的.这是Weeb 时时代的到到来带给给人们的的新问题题.“泛
7、数数据”研究“泛”在两个个方面:X-daata: XMML ddataa (XXML Dattabaasess), strreammingg daata (Sttreaaminng DDataabasses),X-coompuutinng: griid ccompputiing (Grrid Dattabaasess), sennsorr neetwoork (Seensoor aatabbasees), P22P ccompputiing (P22Pdaatabbasees), ubbiquuitoous/perrvassivee coompuutinng UUbiqquittouss/Pe
8、ervaasivve DDataabasses),目前,“泛数据据”研究的的根本问问题是它它能否产产生与关关系模型型和事务务处理技技术比肩肩的成果果.“泛数数据”深层次次的问题题何在?“泛数数据”对现有有DBMMS 体体系结构构变革的的需要在在哪里?这一切切需要我我们深思思熟虑,是研究究数据库库所不能能回避的的.本文基于于这一想想法,结合国国际相关关会议的的情况,本文讨讨论目前前数据库库研究领领域中最最热门的的几个研研究方向向的发展展现状、面临的的问题和和未来趋趋势.希望能能给数据据库研究究者尤其其是正在在进入数数据库研研究领域域的人员员一些启启发.本文讨讨论的问问题只是是数据库库研究领领域中
9、的的一部分分,观点也也可能存存在偏颇颇之处,但我们们相信分分析和预预测数据据库发展展动态的的工作,对促进进中国数数据库技技术的研研究和应应用水平平的提高高具有重重要的意意义.2 国际际数据库库研究界界动态每隔几年年,国际上上一些资资深的数数据库专专家就会会聚集一一堂,探讨数数据库的的研究现现状、存存在的问问题和未未来需要要关注的的新的技技术焦点点,其中包包括:119899 年在在Laggunaa Beeachh,Caaliff. 1 ,19990 年和19995 年在Paalo Altto,CCaliif. 2,3 , “Lagguniita”,19996 年在Caambrridgge,MMa
10、sss. 4和和19998 年年在Assiloomarr,Caaliff. 5的的研讨会会,20003 年的聚聚会在LLoweell,Masss. 6举行,共有255 位资资深数据据库学者者参加.他们来来自不同同国家和和地区,有着不不同的研研究兴趣趣,学者们们就数据据库研究究的现状状和将来来的走向向展开了了深入的的讨论,提出了了一些重重要的观观点.与会的学学者集中中讨论了了信息的存储、组织、管理和访问等问问题.这些问问题受新新型应用用、技术术趋势、相关领领域的协协同工作作和领域域本身的的技术变变革所驱驱动.信息的的本质和和来源在在不断变变化,每个人人都意识识到Innterrnett,Weeb,
11、自自然科学学和电子子商务是是信息和和信息处处理的巨巨大源泉泉.同时,另一个个巨大的的信息源源即将到到来,即廉价价的微型型传感器器技术使使得大部部分的物物体可以以实时上上报它们们的位置置和状态态.这类信信息能支支持对移移动对象象的状态态和位置置的监视视等应用用.伴随新的的制约与与机会,传感信信息的处处理将会会引发许许多新环环境下的的极有趣趣味的数数据库问问题.在应用用领域,Intternnet 是目前前主要的的驱动力力,特别是是在支持持“跨企业业”的应用用上.在历史史上,应用都都是企业业内部的的,可以在在一个行行政领域域内进行行完善的的指定和和优化.但是现现在,大部分分企业感感兴趣的的是如何何与
12、供应应商和客客户进行行更密切切的交流流,以便提提供更好好的客户户支持.这类应应用从根根本上说说是跨企企业的,需要安安全和信信息集成成的有力力工具.由此产产生的新新问题需需要数据据库研究究人员去去解决.越来越重重要的另另一个应应用领域域是自然然科学,特别是是物理科科学、生生物科学学、保健健科学和和工程领领域,这些领领域产生生了大量量复杂的的数据集集,需要比比现有的的数据库库产品更更高级的的数据库库的支持持.这些领领域同样样也需要要信息集集成机制制的支持持.除此之之外,它们也也需要对对数据分分析器产产生的数数据管道道进行管管理,需要对对有序数数据进行行存储和和查询(如时间间序列、图像分分析、网网格
13、计算算和地理理信息),需要要世界范范围内数数据网格格的集成成.除了在信信息管理理领域我我们遇到到的这些些挑战之之外,在传统统的DBBMS 相关的的问题上上,诸如数数据模型型、访问问方法、查询处处理代数数、并发发控制、恢复、查询语语言和DDBMSS 的用用户界面面等主题题也面临临着巨大大的变化化.这些问问题过去去已经得得到充分分研究,但是技技术的发发展不断断改变其其应用规规则.比如,磁盘和和RAMM 容量量的不断断变大,存储每每个比特特数据的的花费不不断降低低等.虽然访访问次数数和带宽宽也在不不断提高高,但是它它们不像像前者发发展得那那样快,不断变变化的相相对比率率要求我我们重新新评估存存储管理
14、理和查询询处理代代数.除此之之外,处理器器cacche 的规模模和层次次的提高高,也要求求DBMMS 算算法能够够适应ccachhe 大大小的变变化.上述只只是由于于技术变变迁诱导导的根据据新情况况对原有有算法重重新评价价的两个个例子.另一个推推动数据据库研究究发展的的动力是是相关技技术的成成熟.比如,在过去去的几十十年里,数据挖挖掘技术术已经成成为数据据库系统统重要的的一个组组成部分分.Weeb 搜搜索引擎擎导致了了信息检检索的商商品化,并需要要和传统统的数据据库查询询技术集集成.许多人工工智能领领域的研研究成果果也和数数据库技技术融合合起来,这些新新的技术术使得我我们可以以处理语语音、自自
15、然语言言,进行不不确定性性推理和和机器学学习等.Loweell 报告66认为为,我们注注意到了了许多新新的应用用,新的技技术趋势势以及和和影响信信息管理理的相关关领域的的协作.整体上上,这些都都要求一一个和现现今我们们所拥有有的完全全不同的的信息管管理架构构,并需重重新考虑虑信息存存储、组组织、管管理和访访问等方方面的问问题.3 主流流技术发发展趋势势在这一部部分中,我们从从信息集集成、数数据流管管理、传传感器数数据库技技术、半半结构化化数据与与XMLL 数据据管理、网格数数据管理理、DBBMS 自适应应管理、移动数数据管理理、微小小型数据据库、数数据库用用户界面面等方面面分别讨讨论目前前数据
16、库库领域研研究方向向的发展展现状、面临的的问题和和未来趋趋势.3.1 信息集集成信息系统统集成技技术已经经历了220 多多年的发发展过程程,研究者者已提出出了很多多信息集集成的体体系结构构和实现现方案,然而这这些方法法所研究究的主要要集成对对象是传传统的异异构数据据库系统统.随着Innterrnett 的飞飞速发展展,网络迅迅速成为为一种重重要的信信息传播播和交换换的手段段,尤其是是在Weeb 上上,有着极极其丰富富的数据据来源.如何获获取Weeb 上上的有用用数据并并加以综综合利用用,即构建建Webb 信息息集成系系统,成为一一个引起起广泛关关注的研研究领域域.信息集成成系统的的方法可可以分
17、为为7 :数据仓仓库方法法和Wrrappper/Meddiattor 方法.在数据仓仓库方法法中,各数据据源的数数据按照照需要的的全局模模式从各各数据源源抽取并并转换,存储在在数据仓仓库中.用户的的查询就就是对数数据仓库库中的数数据进行行查询.对于数数据源数数目不是是很多的的单个企企业来说说,该方法法十分有有效.但对目目18225前出出现的跨跨企业应应用,数据源源的数据据抽取和和转化要要复杂得得多,数据仓仓库的方方法存在在诸多不不便.目前比较较流行的的建立信信息集成成系统的的方法是是Wraappeer/MMediiatoor 方方法88,9 .该方法法并不将将各数据据源的数数据集中中存放,而是
18、通通过Wrrappper/Meddiattor 结构满满足上层层集成应应用的需需求.这种方方法的核核心是中中介模式式(meediaateddschhemaa) 10 .信息集集成系统统通过中中介模式式将各数数据源的的数据集集成起来来,而数据据仍存储储在局部部数据源源中,通过各各数据源源的包装装器(wwrappperr)对数数据进行行转换使使之符合合中介模模式.用户的的查询基基于中介介模式,不必知知道每个个数据源源的特点点,中介器器(meediaatorr)将基基于中介介模式的的查询转转换为基基于各局局部数据据源的模模式查询询,它的查查询执行行引擎再再通过各各数据源源的包装装器将结结果抽取取出来
19、,最后由由中介器器将结果果集成并并返回给给用户.Wraappeer/MMediiatoor 方方法解决决了数据据的更新新问题,从而弥弥补了数数据仓库库方法的的不足.但是,由于各各个数据据源的包包装器是是要分别别建立的的,因此,WWeb 数据源源的包装装器建立立问题又又给人们们提出了了新的挑挑战.近年来来,如何快快速、高高效地为为Webb 数据据源建立立包装器器成为人人们研究究的热点点111144 .不过,这这种框架架结构正正受到来来自3 个方面面的挑战战6 .第1 个挑挑战是如如何支持持异构数数据源之之间的互互操作性性(innterropeerabbiliity).信息息集成必必须在多多至数百
20、百万的信信息源上上穿梭进进行,这些数数据源的的数据模模型、模模式、数数据表现现和查询询接口各各不相同同.数据库库界已经经对联邦邦式的数数据系统统做了多多年的研研究,其中最最早的报报告针对对这个问问题做了了广泛的的讨论1 .然而,语义的的相异性性这个痛痛苦的问问题依然然存在.由不同同人设计计的任何何两个模模式都不不会是相相同的.它们会会有不同同的单位位(例如工工资,一种以以欧元计计算,而另一一种以美美元计算算),不同同的语义义解释(也以工工资为例例,一种仅仅指档案案工资,而另一一种是指指包含了了各种津津贴的总总收入),对于于相同的的事务还还会有不不同的名名字(对同一一个人,可能一一种用的的是笔名
21、名,而另一一种用的的是原名名,例如鲁鲁迅和周周树人).能够够在网络络标准上上进行配配置的语语义相异异性的解解决方案案依然是是难以捉捉摸的.我们必必须认真真和集中中地对待待这个问问题,否则跨跨企业的的信息综综合只会会停留在在幻想上上.语义Weeb的上上下文方方面的研研究也存存在着相相同的问问题.吸收相相关领域域的研究究成果对对解决这这一问题题是很重重要的.另一个挑挑战是如如何模型型化源数数据内容容和用户户查询.目前广广泛采用用的技术术有两种种.LAAV(llocaal-aas-vvieww)方法法利用全全局谓词词集合描描述多个个数据源源内容视视图和用用户查询询.当给定定某用户户查询时时,中间件件
22、系统通通过综合合不同的的数据源源视图决决定如何何回答查查询.这种方方法可看看做利用用视图回回答查询询,目前已已有一些些研究成成果,它亦可可应用于于数据仓仓库或查查询优化化等领域域.GAAV(gglobbal-as-vieew)方方法假设设用户查查询直接接作用于于定义在在源数据据关系上上的全局局视图.人们主主要关注注的是在在这种情情况下如如何提供供高效的的查询处处理.第三个挑挑战是当当数据源源的查询询能力受受限时,如何处处理查询询和进行行优化?例,Ammazoon.ccom 数据源源可以被被看作是是提供书书的信息息的数据据库,但是,我们不不能随便便下载其其上所有有的书籍籍信息.事实上上,我们只只
23、能填写写Webb 搜索索表格查查询数据据源并返返回结果果.很少的的组织会会允许外外部实体体来抽取取自己运运行系统统中的所所有数据据,所以这这些数据据必须留留在源端端,在查询询的时候候才会被被访问.如何模模型化和和计算具具受限查查询能力力的数据据源,如何生生成查询询计划和和优化查查询的研研究工作作正在展展开115117 .这里我们们给出信信息集成成中一些些需要进进一步研研究的问问题.其一,早早期的中中间件系系统采用用集中式式架构.近来,一种数数据库应应用需求求正在显显现,它要求求支持共共享分布布的、基基于站点点(siite)的环境境下的数数据集成成.在这种种环境中中,网络中中自主的的站点互互相连
24、接接交换数数据和服服务.这样,每个站站点既是是中间件件,又是数数据源.一些项项目已经经成立并并正在研研究这种种新的架架构下的的问题9,110 .其二,更多的的研究者者正在注注意如何何利用清清洁的数数据(ccleaansiing datta)来来处理数数据源的的异构性性6 .一个特特殊的问问题称为为“daata linnkagge”,其含义义为有效效和高效效的标示示和链接接冗余的的记录.不同的的数据源源经常包包含表示示真实世世界同一一实体的的多个近近似但并并不相等等的冗余余的记录录或属性性.例如“中科院院”和“中国科科学院”,或者者“中国北北京”和“北京”.不同的的表示可可能源于于排版错错误、拼
25、拼写错误误、缩写写或者其其他原因因.当从Weeb 页页面上自自动抽取取无结构构或者半半结构化化文档时时,这个问问题变得得特别尖尖锐.对多数据据源的数数据集成成,我们需需要在进进一步处处理之前前首先清清洗数据据.近来已已有一些些关于数数据清洗洗和链接接的工作作.其三,XXML 数据的的出现给给数据集集成带来来更多需需要解决决的问题题.其四,正如前前面提到到的那样样,传感器器网络和和新的量量子物理理学和生生物科学学将产生生巨大的的数据集集合.这些传传感器和和数据集集合分布布在世界界各地,这些数数据源能能够动态态地来往往,这一点点也打破破了传统统的信息息集成范范畴.从体系结结构实现现的角度度出发,信
26、息集集成技术术经历了了如下33 个发发展阶段段7 :单个的的联邦系系统、基基于组件件的分布布式集成成系统和和基于WWeb Serr vii cees 的的信息集集成系统统.Innterrnett 的迅迅速普及及和广泛泛应用对对计算机机技术的的发展产产生了深深刻的影影响,桌面应应用正在在向网络络应用转转移,从网上上获得的的不仅是是信息,还包括括程序和和交互式式应用(即服务务),操作作界面将将在浏览览器层面面上得到到统一,兼容性性由网络络标准技技术实现现(如SOAAP,UUDDII 和WSDDL 等等).在Webb Seer vvi cces的的框架下下,使用一一组Weeb SSer vi ces
27、s 协议议,构建信信息集成成系统.对每个个数据源源都为其其创建一一个Weeb SSer vi ce,然后使使用WSSDL 向服务务中心注注册.当要构构建一个个新的集集成应用用时,集成端端首先向向注册中中心发送送查找请请求,收集并并选择合合适的数数据源,然后通通过SOOAP 协议从从这些数数据源获获取数据据.这种方方法克服服了上述述两种方方法的缺缺陷,具有完完好封装装、松散散耦合、规范协协议和高高度的集集成能力力等特性性.因此,基于Weeb SSer vi cess 的信信息集成成方案是是构建WWeb 数据集集成系统统较为理理想的体体系结构构.3.2 数据流流管理测量和监监控复杂杂的动态态的现象
28、象,如远程程通信、Webb 应用用、金融融事务、大气情情况等,产生了了大量、不间断断的数据据流.数据流流处理对对数据库库、系统统、算法法、网络络和其他他计算机机科学领领域的技技术挑战战已经开开始显露露.这是数数据库界界一个活活跃的研研究领域域,包括新新的流操操作、SSQL 扩展、查询优优化方法法、操作作调度(opeerattor schheduulinng)技技术等6 .数据流管管理与数数据库管管理在多多个层面面上存在在差异.见表1.Tabll e 1 CComppariisonn off daatabbasee annd ddataa sttreaam表1 数数据流与与数据库库对比Dataa
29、 sttreaam DDataabasseModeel TTuplle ssequuencce TTuplle sset/baggDataa duurattionn Trranssiennt PPerssisttenttQuerry RReall-Tiime, coontiinuoous queeriees OOff-Linne, onee-tiime queerieesQuerry eevalluattionn Onne ppasss ArrbittrarryQuerry aanswwer Appproxximaate ExaactQuerry pplann Fiixedd Addaptti
30、vee扩展数据据库管理理系统若若直接支支持数据据流类型型就会面面临众多多问题.首先,在数据据库中,数据是是稳定的的,持续的的,而查询询是暂时时的.在数据据流中则则正好相相反:数据是是动态的的,而查询询是实时时稳定的的.这就需需要增强强数据库库查询处处理能力力,支持复复杂的实实时查询询需求.面临的问问题主要要有以下下几点.其一,数据流流环境中中的选择择、投影影,特别是是连接和和聚集操操作具有有新的含含义.如何扩扩展查询询语言SSQL 的表达达能力以以便支持持数据流流查询.其二,引入滑滑动窗口口机制可可以把无无限的数数据流转转换为有有限的关关系.但窗口口的长度度、个数数等特性性影响查查询的准准确性
31、.尤其是是在做连连接和聚聚集操作作时,不但要要处理现现在的数数据,还要兼兼顾历史史和将来来的数据据.如何仅仅用一次次扫描实实现上述述操作,并保证证查询的的实时和和有效是是数据流流查询处处理面临临的关键键问题.其三,若在有有限的空空间不能能支持数数据流的的精确聚聚集操作作,引入近近似操作作机制是是必须的的和可接接受的.利用样样本、直直方图或或者结构构信息统统计数据据流的的的研究工工作正在在展开.其四,如何考考虑数据据流的查查询优化化问题.考虑到数数据流速速(daata ratte)的的情况,数据流流查询优优化的目目的应为为获得最最大的查查询数据据流速,即单位位时间的的数据流流量,而不是是以往考考
32、虑的代代价最小小的查询询计划.基于流流速的查查询优化化的研究究工作也也是目前前数据流流研究的的热点问问题.商业微传传感器设设备即将将出现,使得新新型的DDBMSS 的“监视”应用变变得可能能.数据流流的监控控应用需需要有能能够基于于数据流流间的复复杂关系系区分正正常或反反常活动动(如网络络入侵或或电信欺欺诈监测测等)的成熟熟的实时时查询.可以通通过传感感器给每每个重要要的对象象都加上上一个标标签,这样就就可以实实时地报报告这个个对象的的状态或或者位置置.比如说说,人们会会在笔记记本电脑脑或者投投影仪上上附加一一个传感感器,而不是是附上一一个财产产标签.在这种种情况下下,如果一一个投影影仪丢失失
33、或者被被窃,人们就就可以从从监视系系统中查查找其下下落.这样的的监视系系统能不不断地接接收从传传感器发发来的“信息流流”,信息息流给出出了系统统感兴趣趣的对象象信息.这种信信息流在在高性能能数据输输入、时时间序列列功能、历史消消息窗口口以及高高效率队队列处理理方面给给DBMMS 提提出了新新的要求求.DBBMS 产品也也将尝试试提供对对这种监监视应用用的支持持,其方法法应该是是通过将将流处理理的功能能移植到到传统的的结构数数据框架架上.Web Serr vii cees 自自然也产产生数据据流,松散结结合的系系统相互互交换大大量的商商务数据据,如订单单、零售售事务等等.这些数数据以XXML 格
34、式表表现,产生持持续的XXML 数据流流.具有高高效处理理XMLL 数据据流的查查询能力力,从不间间断的XXML 数据流流中匹配配、抽取取和转换换部分数数据流以以驱动后后台商务务应用,是Webb Seer vvi cces 的核心心.XML 流处理理的特点点是XMML 文文档的节节点一次次性地按按照某种种遍历的的顺序流流过.因为每每次面对对的总是是单个的的节点(元素、属性或或texxt),所以需需要将必必要的数数据有效效地缓存存,以返回回结果.如何协协调缓存存容量和和查询效效率之间间的平衡衡,是目前前XMLL 流处处理需要要解决的的问题之之一.目前,查询XMML 数数据流的的研究包包括Xffi
35、ltter 188 ,Yfiilteer 19 ,XXMLTTK 20 ,XXSQ 211 ,XSMM 222等等.处理的的方法一一般是将将XPaath 转化成成一个有有限自动动机模型型,有固定定的初始始节点和和终节点点,当走到到有限自自动机的的终点时时,表示XPPathh 查询询被匹配配.比较复复杂的自自动机模模型可以以支持包包含双斜斜杠(/)和和*或带多多个谓词词的XPPathh 语句句,有的还还支持集集函数.XMLL 流处处理需要要解决的的另一个个问题是是处理同同时出现现的大量量复杂路路径查询询.有的研研究提取取相似的的XPaath 查询并并综合到到一个结结构中,同时计计算共享享路径以以
36、避免重重复操作作,可以大大大提高高处理的的效率.数据流本本身的流流速和流流量的增增长,传感器器数据流流和XMML 数数据流的的出现是是对传统统的数据据流处理理提出的的挑战.部分研究究者正致致力于将将数据流流融入数数据库管管理系统统中的工工作.另一部部分研究究者则欲欲开发普普遍适用用(NiiagaaraCCQ,SStannforrd SStreeam, Teeleggrapph, Aurroraa)或者者专用的的(Giigasscoppe)数数据流管管理系统统.3.3 传感器器数据库库技术随着微电电子技术术的发展展,传感器器的应用用越来越越广泛.可以使使小鸟携携带传感感器,根据传传感器在在一定的
37、的范围内内发回的的数据定定位小鸟鸟的位置置,从而进进行其他他的研究究;还可以以在汽车车等运输输工具中中安装传传感器,从而掌掌握其位位置信息息;甚至于于微型的的无人间间谍飞机机上也开开始携带带传感器器,在一定定的范围围内收集集有用的的信息,并且将将其发回回到指挥挥中心.当有多个个传感器器在一定定的范围围内工作作时,就组成成了传感感器网络络.传感器器网络由由携带者者所捆绑绑的传感感器及接接收和处处理传感感器发回回数据的的服务器器所组成成.传感器器网络中中的通信信方式可可以是无无线通信信,也可以以是有线线通信.现在,在在研究机机构和商商业公司司中都有有对传感感器网络络的研究究.WIINS NG 是S
38、ennsorria 公司设设计的传传感器网网络结构构.该网络络结构包包括处理理传感器器数据的的服务器器、与服服务器直直接相连连的可以以将传感感器收集集的数据据传送到到服务器器的网关关节点和和作为传传感器网网络神经经末梢的的各个收收集信息息的传感感器.各个收收集信息息的传感感器之间间可以相相互传递递数据.在该网网络中,信息是是通过无无线通信信的方式式传递的的.Smmartt Duust Mottes 是U.CC.Beerklley 设计的的微型传传感器网网络结构构,该网络络结构运运行在一一个立方方毫米级级的小盒盒子里,主要包包括收集集数据的的传感器器和处理理数据的的服务器器.各个节节点之间间通过
39、激激光传递递信息.在传感器器网络中中,传感器器数据就就是由传传感器中中的信号号处理函函数产生生的数据据.信号处处理函数数要对传传感器探探测到的的数据进进行度量量和分类类,并且将将分类后后的数据据标记时时间戳,然后发发送到服服务器,再由服服务器对对其进行行处理.传感器器数据可可以通过过无线或或者光纤纤网存取取.无线通通信网络络采用的的是多级级拓扑结结构,最前端端的传感感器节点点收集数数据,然后通通过多级级传感器器节点到到达与服服务器相相连接的的网关节节点,最后通通过网关关节点,将数据据发送到到服务器器.光纤网网络采用用的是星星型结构构,各个传传感器直直接通过过光纤与与服务器器相联接接.传感器节节
40、点上数数据的存存储和处处理方法法有两种种:第1 种类类型的处处理方法法是将传传感器数数据存储储在一个个节点的的传感器器堆栈中中,这样的的节点必必须具有有很强的的处理能能力和较较大的缓缓冲空间间;第2 种方方法适用用于一个个芯片上上的传感感器网络络,传感器器节点的的处理能能力和缓缓冲空间间是受限限制的:在产生生数据项项的同时时就对其其进行处处理以节节省空间间,在传感感器节点点上没有有复杂的的处理过过程,传感器器节点上上不存储储历史数数据;对于处处理能力力介于第第1 种和和第2 种传感感器网络络的网络络来说,则采用用折衷的的方案,将传感感器数据据分层地地放在各各层的传传感器堆堆栈中进进行处理理.传
41、感器网网络越来来越多地地应用于于对很多多新应用用的监测测和监控控.在这些些新的应应用中,用户可可以查询询已经存存储的数数据或者者传感器器数据,但是,这些应应用大部部分建立立在集中中的系统统上收集集传感器器数据.因为在在这样的的系统中中数据是是以预定定义的方方式抽取取的,因此缺缺乏一定定的灵活活性.新的传感感器数据据库系统统需要考考虑大量量的传感感器设备备的存在在,以及它它们的移移动和分分散性.因此,新的传传感器数数据库系系统需要要解决一一些新的的问题.主要包包括:(1) 传感器器数据的的表示和和传感器器查询的的表示:Corrnelll 大大学的CCOUGGAR 模型、Ruttgerrs 大大学
42、的WWebDDustt 系统统、Waas hhi nngt on 大学的的Saggress 系统统都对这这两个问问题进行行了研究究.在COUUGARR 系统统中,每一个个传感器器表示成成一个AADT,每一个个信号处处理函数数与一个个ADTT 函数数相联系系,该ADTT 函数数对于传传感器收收集到的的数据输输出一个个与传感感器所在在的位置置相关联联的序列列,COOUGAAR 采采用关系系数据库库的表来来存储这这些信息息.COOUGAAR 采采用主动动方式的的持续查查询,当在查查询过程程中有新新的数据据产生时时,这种查查询方式式会自动动增加对对新产生生的数据据的查询询.Saagrees 系系统主要
43、要包括两两部分,第1 部分分是设备备信息管管理器,主要存存储传感感器的设设备信息息和作为为属性的的描述性性规则等等;第2 部分分是查询询翻译器器,主要采采用ECCA 模模型对数数据进行行查询和和更新.(2) 在传感感器节点点上处理理查询分分片:传感器器资源的的有限性性,要求我我们必须须有效地地处理各各个节点点上的查查询.(3) 分布查查询分片片:产生和和传输传传感器数数据都需需要花费费代价,必须考考虑单个个节点的的查询效效率和网网络传输输代价的的平衡.而且,与传统统的分布布式查询询所不同同,在传感感器数据据库中,没有全全局的优优化信息息,传感器器是移动动的,而且源源数据是是动态的的,这些都都是
44、需要要考虑的的问题.(4) 适应网网络条件件的改变变:在传感感器网络络中,大量的的数据查查询必须须处理传传感器之之间或者者传感器器与前端端服务器器之间的的数据流流.数据流流引擎和和数据流流操作符符是对这这种大流流量数据据进行控控制的主主要方法法.另外,基于传传感器数数据的本本质和网网络的可可能拥塞塞,对一个个查询分分片来说说需要决决定下一一个要执执行的数数据流操操作符,这就是是自适应应查询处处理需要要考虑的的问题.(5) 处理站站点失败败和传输输失败的的情况:传感器器网络中中必须考考虑站点点或者传传输失败败的情况况.(6) 传感器器数据库库系统:传感器器数据库库必须利利用系统统中的所所有传感感
45、器,而且可可以像传传统数据据库那样样方便、简洁地地管理传传感器数数据库中中的数据据;建立可可以获得得和分配配源数据据的机制制;建立可可以根据据传感器器网络调调整数据据流的机机制;可以方方便地配配置、安安装和重重新启动动传感器器数据库库中的各各个组件件等.3.4 XMLL数据管管理目前大量量的XMML 数数据以文文本文档档的方式式存储,难以支支持复杂杂高效的的查询.用传统统数据库库存储XXML 数据的的问题在在于模式式映射带带来的效效率下降降和语义义丢失.一些Naativve XXML 数据库库的原型型系统已已经出现现(Taaminnon,Lorre,TTimbber,OriienttX(中中国
46、人民民大学开开发)等).XXML 数据是是半结构构化的,不像关关系数据据那样是是严格的的结构化化数据,这样就就给Natiive XMLL 数据据库中的的存储系系统带来来更大的的灵活性性,同时,也带来来了更大大的挑战战.恰当的的记录划划分和簇簇聚,能够减减少I/O 次次数,提高查查询效率率;反之,不恰当当的划分分和簇聚聚,则会降降低查询询效率.研究不不同存储储粒度对对查询的的支持也也是XMML 存存储面临临的一个个关键性性问题23 .当用户定定义XMML 数数据模型型时,为了维维护数据据的一致致性和完完整性,需要指指明数据据的类型型、标示示,属性的的类型,数据之之间的对对应关系系(一对多多,多对
47、多多等)、依赖赖关系和和继承关关系等.而目前前半结构构化和XXML 数据模模型形成成的一些些标准(如OEMM,DTTD,XXML Schhemaa 等)忽视了了对这些些语义信信息和完完整性约约束方面面的描述述.ORRA-SSS 24模型扩扩展了对对象关系系模型用用于定义义XMLL 数据据.这个模模型用类类似E-R 图图的方式式描述XXML 数据的的模式,对对象象、联系系和属性性等不同同类型的的元素用用不同的的形状加加以区分分,并标记记函数依依赖、关关键字和和继承等等.其应用用领域包包括指导导正确的的存储策策略,消除潜潜在的数数据冗余余,创建和和维护视视图及查查询优化化等.在XMLL 数据据查询
48、处处理研究究中,存在下下列焦点点问题:第1,如如何定义义完善的的查询代代数.众所周周知,关系数数据库统统治数据据管理领领域长盛盛不衰的的法宝就就是描述述性查询询语言SSQL 和其运运行基础础关系代代数.关系代代数的目目的之一一是约束束明确的的查询语语义,之二是是用于支支持查询询优化.关系代代数的优优势来自自简单明明确的数数据模型型关系系,具有完完善的数数学基础础和系统统的转换换规则.而XMLL 数据据模型本本身具有有的半结结构化特特点是定定义完善善的代数数运算的的最大障障碍.XXML 查询语语言中的的不确定定性是另另一个难难以克服服的困难难.目前提提出的XXqueery Forrmall Se
49、emannticc 标准准基于FFuncctioon LLangguagge 的的思想,为查询询优化带带来了新新的困难难.第2,复复杂路径径表达式式是XMML 查查询语句句的核心心,必须将将复杂、不确定定的路径径表达式式转换为为系统可可识别的的、明确确的形式式.面向对对象数据据库中的的模式支支持的分分解方法法,不适应应处理没没有模式式或者虽虽有模式式信息但但模式本本身为半半结构化化和不确确定性的的XMLL 路径径分解的的情况.并且,XXML 数据的的存储和和索引方方法与面面向对象象数据库库不同,而这正正是影响响路径分分解的重重要因素素.第3,XXML 数据信信息统计计和代价价计算.传统的的对值
50、的的统计对对XMLL 查询询是不够够的.XXML 数据本本身缺乏乏模式的的支持,使对数数据结构构信息的的统计显显得更加加重要.XMLL 数据据中的数数值分布布在类似似树状结结构的树树叶上,即使相相同类型型的数据据,由于半半结构化化特点,其分布布情况也也可能完完全不同同.因此,需要把把对结构构的统计计信息和和对值的的统计信信息结合合到一起起,才能得得到足够够精确的的统计信信息.对XMLL 查询询代价的的计算可可以分为为两个层层次:上层为为对查询询结果集集大小的的估计.给定XPPathh 路径径,忽略方方法的不不同,只估计计返回路路径目标标结点结结果集的的大小.这种方方法普遍遍用于路路径分解解后确
51、定定查询片片段的执执行次序序.下层为为执行时时间的估估计.给定查查询片断断,估计不不同的执执行算法法所需时时间代价价.这种方法法用于确确定查询询片段的的执行方方法.目前,XXML 数据索索引按照照用途可可分为33 种:简单索索引、路路径索引引和连接接索引.简单索索引包括括标记索索引、值值索引、属性索索引等.路径索索引抽取取XMLL 数据据的结构构,索引具具有相同同路径或或者标记记的结点点用于导导航查询询时缩小小搜索的的范围.连接索索引在元元素的编编码上建建立特定定的索引引结构来来辅助跳跳过不可可能发生生连接的的节点,从而避避免对这这些节点点的处理理.可以利利用的索索引结构构包括BB+树、改进的
52、的B+树255,266、R 树和和XR 树277等.利用索索引提高高查询效效率实际际上是空空间换时时间的做做法.如何针针对不同同的查询询需求建建立、使使用和维维护合适适的索引引是研究究者面临临的一个个问题.另一个个问题是是,不同的的索引,索引目目标也不不相同,如何在在一个查查询中综综合地使使用不同同的索引引.随着XMML 数数据在电电子商务务中的广广泛应用用,XMML 数数据更新新需求迫迫切,更多的的研究者者开始关关注如何何动态地地维护索索引以适适应不断断的数据据更新的的问题.对于XMML 数数据的更更新操作作,无论在在语言,还是在在操作方方法上都都没有一一个统一一的标准准.更新操操作从逻逻辑
53、上是是指:元素的的插入、删除和和更新.更新包包括模式式检查、结点定定位、存存储空间间的分配配和其他他辅助数数据的更更新,比如索索引、编编码等.在XMLL 文档档中插入入数据的的问题需需要移动动所有插插入点后后面的数数据.为了解解决这个个问题,引入了了空间预预留方法法,在数据据存储时时,根据模模式定义义预留一一部分空空间给可可能的插插入点.当有数数据插入入时,如果预预留空间间足够,则无须须数据移移动.如果预预留空间间不够,则在新新申请的的页面中中插入数数据,原有数数据也不不需要移移动.与此同同时,为以后后的数据据插入预预留了更更多的空空间.针对不不同的存存储策略略,数据更更新的方方法也不不同,非
54、簇聚聚存储方方法在更更新时无无须在物物理上保保持数据据的有序序性,更新代代价较小小.簇聚存存储方法法在更新新时需要要更多的的无关数数据移动动以维护护簇聚性性.因此,对更新新频繁的的数据,不宜采采用簇聚聚存储方方法.XML 数据处处理面临临的未解解决的问问题还包包括:首先在在查询处处理上,是导航航处理还还是基于于代数的的一次一一集合的的处理?这一直直是XMML 查查询优化化研究的的焦点,而如何何在一个个系统中中把二者者有机地地结合起起来以提提高效率率的研究究还很不不充分.目前对对XMLL 数据据查询的的各种不不同的执执行方法法之间的的孰优孰孰劣的比比较工作作还刚刚刚开始,并未形形成共识识性的规规
55、则.由于XMML 数数据本身身的灵活活性,找到一一些普遍遍适用的的规律是是很困难难的.在今后后的一段段时间内内,相信会会有更多多的研究究工作在在这方面面展开.其次,实例化化视图作作为查询询优化的的一个重重要手段段并未在在XMLL 查询询优化研研究中得得到足够够的重视视.最后,NNatiive XMLL 数据据库是否否是合适适的XMML 数数据处理理解决方方案?如果是是的话,如何做做到XMML 数数据与传传统数据据库数据据的互操操作?这些都都是有待待进一步步研究的的问题.3.5 网格数数据管理理6,28,29简单地讲讲,网格是是把整个个网络整整合成一一个虚拟拟的巨大大的超级级计算环环境,实现计计
56、算资源源、存储储资源、数据资资源、信信息资源源、知识识资源和和专家资资源的全全面共享享.目的是是解决多多机构虚虚拟组织织中的资资源共享享和协同同工作问问题.在网格环环境中,不论用用户工作作在何种种“客户端端”上,系统均均能根据据用户的的实际需需求,利用开开发工具具和调度度服务机机制,向用户户提供优优化整合合后的协协同计算算资源,并按用用户的个个性提供供及时的的服务.按照应应用层次次的不同同可以把把网格分分为3 种:计算网网格,提供高高性能计计算机系系统的共共享存取取;数据网网格,提供数数据库和和文件系系统的共共享存取取;信息服服务网格格则支持持应用软软件和信信息资源源的共享享存取.高性能计计算
57、的应应用需求求使计算算能力不不可能在在单一计计算机上上获得,因此,必须通通过构建建“网络虚虚拟超级级计算机机”或“元计算算机”获得超超强的计计算能力力,这种计计算方式式称为网网格计算算.它通过过网络连连接地理理上分布布的各类类计算机机(包括机机群)、数据据库、各各类设备备和存储储设备等等,形成对对用户相相对透明明的虚拟拟的高性性能计算算环境,应用包包括了分分布式计计算、高高吞吐量量计算、协同工工程和数数据查询询等诸多多功能.网格计计算被定定义为一一个广域域范围的的“无缝的的集成和和协同计计算环境境”.网格格计算模模式已经经发展为为连接和和统一各各类不同同远程资资源的一一种基础础结构.网格计计算
58、有两两个优势势,一个是是数据处处理能力力超强;另一个个是能充充分利用用网上的的闲置处处理能力力.为实现现网格计计算的目目标,必须重重点解决决3 个问问题:其一,异构性性.由于网网格由分分布在广广域网上上不同管管理域的的各种计计算资源源组成,怎样实实现异构构资源间间的协作作和转换换是首要要问题.其二,可扩展展性.网格资资源规模模和应用用规模可可以动态态扩展,并能不不降低性性能.其三,动态自自适应性性.在网格格计算中中,某一资资源出现现故障或或失败的的可能性性较高,资源管管理必须须能够动动态监视视和管理理网格资资源, 20004,115(112)从从可利用用的资源源中选取取最佳资资源服务务.数据网
59、格格保证用用户在存存取数据据时无须须知道数数据的存存储类型型(数据库库,文档,XXML)和位置置.涉及的的问题包包括:如何联联合不同同的物理理数据源源,抽取源源数据构构成逻辑辑数据源源集合;如何制制定统一一的异构构数据访访问的接接口标准准;如何虚虚拟化分分布的数数据源等等.目前,数据网网格研究究的问题题之一是是:如何在在网格环环境下存存取数据据库,提供数数据库层层次的服服务,因为数数据库显显然应该该是网格格中十分分宝贵且且巨大的的数据资资源.数据库库网格服服务不同同于通常常的数据据库查询询,也不同同于传统统的信息息检索,需要将将数据库库提升为为网格服服务,把数据据库查询询技术和和信息检检索技术
60、术有机结结合,提供统统一的基基于内容容的TOOP-KK 数据据库检索索机制和和软件4345 .信息网格格是利用用现有的的网络基基础设施施、协议议规范、Web 和数据据库技术术,为用户户提供一一体化的的智能信信息平台台,其目标标是创建建一种架架构在OOS 和和Webb 之上上的基于于Intternnet 的新一一代信息息平台和和软件基基础设施施.在这个个平台上上,信息的的处理是是分布式式、协作作和智能能化的,用户可可以通过过单一入入口访问问所有信信息.信息网网格追求求的最终终目标是是能够做做到按需需服务(serrvicce oon ddemaand)和一步步到位的的服务(onee cllickk
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 19077-2024粒度分析激光衍射法
- 河南省部分名校2024-2025学年高三上学期11月阶段性测试(三)(期中)生物 含答案
- 旋喷桩法地基加固方案-建筑实操
- 2023年中考物理总复习:压强(原卷版)
- 2025新译林版英语七年级下Unit 6 Beautiful landscapes单词表
- 南充2024年06版小学四年级英语第1单元真题
- 2024-2025学年六年级语文上册第四单元检测试卷(B)(有答案)
- 2024-2025学年八年级语文上册期末专项复习:综合性学习+口语交际【考点清单】
- 2023年显微镜资金筹措计划书
- 强化团内活动-转化学生思想
- 2023年阜阳职业技术学院人才招聘笔试真题
- 第三单元名著导读《骆驼祥子》整本书阅读教学设计+2023-2024学年统编版语文七年级下册
- 2024年中级电工考前必刷必练题库500题(含真题、必会题)
- 《第二单元测试卷》(单元练习)-2024-2025学年六年级上册数学北师大版
- 2024年员工向公司借款合同标准版本(六篇)
- 部编语文五上《父爱之舟》说课:聚焦场景抓细节-探究真心品真情
- 《PLC应用技术(西门子S7-1200)第二版》全套教学课件
- 小学语文阅读校本课程设计方案
- DB3301-T 1139-2024 地理标志产品 千岛湖鲢鳙
- 劳动一年级上册(人民版)第十课《我帮爸妈择择菜》(教学设计)
- 揿针操作规程
评论
0/150
提交评论