版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 数据库技术领域的发展趋势 1 泛数据据研究2 国际数数据库研研究界动动态3 主流技技术发展展趋势3.1 信息集集成3.2 数据流流管理3.3 传感器器数据库库技术3.4 XMLL 数据据管理3.5 网格数数据管理理3.6 DBMMS 的的自适应应管理3.7 移动数数据管理理3.8 微小型型数据库库技术3.9 数据库库用户界界面1 泛数据据研究的的时代数据库技术术从诞生生到现在在,在不到到半个世世纪的时时间里,形成了了坚实的的理论基基础、成成熟的商商业产品品和广泛泛的应用用领域,吸引了了越来越越多的研研究者加加入,使得数据据库成为为一个研研究者众众多且被被广泛关关注的研研究领域域.随着信信息管
2、理理内容的的不断扩扩展和新新技术的的层出不不穷,数据库库技术面面临着前前所未有有的挑战战.面对新新的数据据形式,人们提提出了丰丰富多样样的数据据模型(层次模模型、网网状模型型、关系系模型、面面向对象象模型、半半结构化化模型等等),同时也也提出了了众多新新的数据据库技术术(XMML 数数据管理理、数据据流管理理、Weeb 数数据集成成、数据据挖掘等等).回顾数据库库发展之之初,数据模模型是制制约数据据库系统统的关键键因素.E.FF Coodd 博士(119233-20003)提出的的关系模模型充分分考虑了了企业业业务数据据的特点点,从现实实问题出出发,为数据据库建立立了一个个坚实的的数学基基础.
3、在整个个计算机机软件领领域,恐怕难难以找到到第2 个像关关系模型型这样,概念如如此简单单,但却能能带来如如此巨大大市场价价值的技技术.关系模型在在关系数数据库理理论基本本成熟后后,各大学学、研究究机构和和各大公公司在关关系数据据库管理理系统(RDBBMS)的实现现和产品品开发中中,都遇到到了一系系列技术术问题.主要是是在数据据库的规规模愈来来愈大,数据库库的结构构愈来愈愈复杂,又有愈愈来愈多多的用户户共享数数据库的的情况下下,如何保保障数据据的完整整性、安安全性、并并发性以以及故障障恢复的的能力,它成为为数据库库产品是是否能够够进入实实用并最最终为用用户接受受的关键键因素.Jimm Grray
4、 在解决决这些重重大技术术问题,使RDBBMS 成熟并并顺利进进入市场场的过程程中,发挥了了关键作作用.概括地地说,解决上上述问题题的主要要技术手手段和方方法是:把对数数据库的的操作划划分为“事务”的基本本单位,一个事事务要么么全做,要么全全不做(即ll-or-notthinng 原原则);用户在在对数据据库发出出操作请请求时,需要对对有关的的不同数数据“加锁”,防止不不同用户户的操作作之间互互相干扰扰;在事务务运行过过程中,采用“日志”记录事事务的运运行状态态,以便发发生故障障时进行行恢复;对数据据库的任任何更新新都采用用“两阶段段提交”策略.以上方方法及其其他各种种方法被被总称为为“事务处
5、处理技术术”.E.F CCoddd 和Jimm Grray 在关系系模型和和事务处处理技术术上的创创造性思思维和开开拓性工工作,使他们们成为这这一领域域公认的的权威,并于分分别于119811 年和和19998 年年成为图图灵奖获获得者.在成熟的关关系DBBMS 产品行行销于世世之后,数据库库的研究究困惑于于如下的的问题:DBMMS 本本身的研研究是不不是已经经没有问问题了?新的处处理要求求在哪里里?旗帜鲜鲜明地提提出这一一思考的的是VLLDB220000 会议议,会议的的主题是是“Brroaddeniingtthe Dattabaase Fieeld”,会议的的论文设设置也截截然分为为两类,即
6、“coore dattabaase tecchnoologgy”和和“innforrmattionn syysteemsiinfrrasttruccturres”,体现了了在对传传统问题题关注的的同时,着力寻寻求信息息系统创创新途径径中所存存在的数数据管理理问题.而信息息系统创创新途径径的根本本前提是是Webb 时代代的到来来.于是,在Webb 大背背景下的的各种数数据管理理问题成成为人们们关注的的热点,我们不不妨把它它笼统地地称为“泛数据据”研究.所谓“泛数数据”是相对对原本人人们所关关注的企企业业务务数据而而言的.这是Weeb 时时代的到到来带给给人们的的新问题题.“泛数数据”研究“泛”在
7、两个个方面:X-datta: XMLL daata (XMML DDataabasses), sstreeamiing datta (Strreammingg Daatabbasees),X-commputtingg: ggridd coompuutinng (Griid DDataabasses), ssenssor nettworrk (Sennsorr attabaasess), P2PP coompuutinng (P2PPdattabaasess), ubiiquiitouus/ppervvasiive commputtingg Ubbiquuitoous/Perrvassivee
8、Daatabbasees),目前,“泛泛数据”研究的的根本问问题是它它能否产产生与关关系模型型和事务务处理技技术比肩肩的成果果.“泛数数据”深层次次的问题题何在?“泛数数据”对现有有DBMMS 体体系结构构变革的的需要在在哪里?这一切切需要我我们深思思熟虑,是研究究数据库库所不能能回避的的.本文基于这这一想法法,结合国国际相关关会议的的情况, 本文讨讨论目前前数据库库研究领领域中最最热门的的几个研研究方向向的发展展现状、面面临的问问题和未未来趋势势.希望能能给数据据库研究究者尤其其是正在在进入数数据库研研究领域域的人员员一些启启发.本文讨讨论的问问题只是是数据库库研究领领域中的的一部分分,观点
9、也也可能存存在偏颇颇之处,但我们们相信分分析和预预测数据据库发展展动态的的工作,对促进进中国数数据库技技术的研研究和应应用水平平的提高高具有重重要的意意义.2 国际数数据库研研究界动动态每隔几年,国际上上一些资资深的数数据库专专家就会会聚集一一堂,探讨数数据库的的研究现现状、存存在的问问题和未未来需要要关注的的新的技技术焦点点,其中包包括:119899 年在在Laggunaa Beeachh,Caaliff. 1 ,19990 年和19995 年在Paalo Altto,CCaliif. 2,3 , “LLaguunitta”,19996 年年在Caambrridgge,MMasss. 4和和
10、19998 年年在Assiloomarr,Caaliff. 5的的研讨会会,20003 年的聚聚会在LLoweell,Masss. 6举行,共有255 位资资深数据据库学者者参加.他们来来自不同同国家和和地区,有着不不同的研研究兴趣趣,学者们们就数据据库研究究的现状状和将来来的走向向展开了了深入的的讨论,提出了了一些重重要的观观点.与会的学者者集中讨讨论了信信息的存储、组织、管理和访问等问问题.这些问问题受新新型应用用、技术术趋势、相相关领域域的协同同工作和和领域本本身的技技术变革革所驱动动.信息的的本质和和来源在在不断变变化,每个人人都意识识到Innterrnett,Weeb,自自然科学学和
11、电子子商务是是信息和和信息处处理的巨巨大源泉泉.同时,另一个个巨大的的信息源源即将到到来,即廉价价的微型型传感器器技术使使得大部部分的物物体可以以实时上上报它们们的位置置和状态态.这类信信息能支支持对移移动对象象的状态态和位置置的监视视等应用用.伴随新的制制约与机机会,传感信信息的处处理将会会引发许许多新环环境下的的极有趣趣味的数数据库问问题.在应用用领域,Intternnet 是目前前主要的的驱动力力,特别是是在支持持“跨企业业”的应用用上.在历史史上,应用都都是企业业内部的的,可以在在一个行行政领域域内进行行完善的的指定和和优化.但是现现在,大部分分企业感感兴趣的的是如何何与供应应商和客客
12、户进行行更密切切的交流流,以便提提供更好好的客户户支持.这类应应用从根根本上说说是跨企企业的,需要安安全和信信息集成成的有力力工具.由此产产生的新新问题需需要数据据库研究究人员去去解决.越来越重要要的另一一个应用用领域是是自然科科学,特别是是物理科科学、生生物科学学、保健健科学和和工程领领域,这些领领域产生生了大量量复杂的的数据集集,需要比比现有的的数据库库产品更更高级的的数据库库的支持持.这些领领域同样样也需要要信息集集成机制制的支持持.除此之之外,它们也也需要对对数据分分析器产产生的数数据管道道进行管管理,需要对对有序数数据进行行存储和和查询(如时间间序列、图图像分析析、网格格计算和和地理
13、信信息),需要世世界范围围内数据据网格的的集成.除了在信息息管理领领域我们们遇到的的这些挑挑战之外外,在传统统的DBBMS 相关的的问题上上,诸如数数据模型型、访问问方法、查查询处理理代数、并并发控制制、恢复复、查询询语言和和DBMMS 的的用户界界面等主主题也面面临着巨巨大的变变化.这些问问题过去去已经得得到充分分研究,但是技技术的发发展不断断改变其其应用规规则.比如,磁盘和和RAMM 容量量的不断断变大,存储每每个比特特数据的的花费不不断降低低等.虽然访访问次数数和带宽宽也在不不断提高高,但是它它们不像像前者发发展得那那样快,不断变变化的相相对比率率要求我我们重新新评估存存储管理理和查询询
14、处理代代数.除此之之外,处理器器cacche 的规模模和层次次的提高高,也要求求DBMMS 算算法能够够适应ccachhe 大大小的变变化.上述只只是由于于技术变变迁诱导导的根据据新情况况对原有有算法重重新评价价的两个个例子.另一个推动动数据库库研究发发展的动动力是相相关技术术的成熟熟.比如,在过去去的几十十年里,数据挖挖掘技术术已经成成为数据据库系统统重要的的一个组组成部分分.Weeb 搜搜索引擎擎导致了了信息检检索的商商品化,并需要要和传统统的数据据库查询询技术集集成.许多人工智智能领域域的研究究成果也也和数据据库技术术融合起起来,这些新新的技术术使得我我们可以以处理语语音、自自然语言言,
15、进行不不确定性性推理和和机器学学习等.Lowelll 报报告66认为为,我们注注意到了了许多新新的应用用,新的技技术趋势势以及和和影响信信息管理理的相关关领域的的协作.整体上上,这些都都要求一一个和现现今我们们所拥有有的完全全不同的的信息管管理架构构,并需重重新考虑虑信息存存储、组组织、管管理和访访问等方方面的问问题.3 主流技技术发展展趋势在这一部分分中,我们从从信息集集成、数数据流管管理、传传感器数数据库技技术、半半结构化化数据与与XMLL 数据据管理、网网格数据据管理、DBMS 自适应管理、移动数据管理、微小型数据库、数据库用户界面等方面分别讨论目前数据库领域研究方向的发展现状、面临的问
16、题和未来趋势.3.1 信信息集成成信息系统集集成技术术已经历历了200 多年年的发展展过程,研究者者已提出出了很多多信息集集成的体体系结构构和实现现方案,然而这这些方法法所研究究的主要要集成对对象是传传统的异异构数据据库系统统.随着Innterrnett 的飞飞速发展展,网络迅迅速成为为一种重重要的信信息传播播和交换换的手段段,尤其是是在Weeb 上上,有着极极其丰富富的数据据来源.如何获获取Weeb 上上的有用用数据并并加以综综合利用用,即构建建Webb 信息息集成系系统,成为一一个引起起广泛关关注的研研究领域域.信息集成系系统的方方法可以以分为7 :数据仓仓库方法法和Wrrappper/M
17、eddiattor 方法.在数据仓库库方法中中,各数据据源的数数据按照照需要的的全局模模式从各各数据源源抽取并并转换,存储在在数据仓仓库中.用户的的查询就就是对数数据仓库库中的数数据进行行查询.对于数数据源数数目不是是很多的的单个企企业来说说,该方法法十分有有效.但对目目18225前出出现的跨跨企业应应用,数据源源的数据据抽取和和转化要要复杂得得多,数据仓仓库的方方法存在在诸多不不便.目前比较流流行的建建立信息息集成系系统的方方法是WWrappperr/Meediaatorr 方法法8,9 .该方法法并不将将各数据据源的数数据集中中存放,而是通通过Wrrappper/Meddiattor 结构
18、满满足上层层集成应应用的需需求.这种方方法的核核心是中中介模式式(meediaateddschhemaa) 10 .信息集集成系统统通过中中介模式式将各数数据源的的数据集集成起来来,而数据据仍存储储在局部部数据源源中,通过各各数据源源的包装装器(wwrappperr)对数数据进行行转换使使之符合合中介模模式.用户的的查询基基于中介介模式,不必知知道每个个数据源源的特点点,中介器器(meediaatorr)将基基于中介介模式的的查询转转换为基基于各局局部数据据源的模模式查询询,它的查查询执行行引擎再再通过各各数据源源的包装装器将结结果抽取取出来,最后由由中介器器将结果果集成并并返回给给用户.Wr
19、aappeer/MMediiatoor 方方法解决决了数据据的更新新问题,从而弥弥补了数数据仓库库方法的的不足.但是,由于各各个数据据源的包包装器是是要分别别建立的的,因此,WWeb 数据源源的包装装器建立立问题又又给人们们提出了了新的挑挑战.近年来来,如何快快速、高高效地为为Webb 数据据源建立立包装器器成为人人们研究究的热点点111144 .不过,这种种框架结结构正受受到来自自3 个方方面的挑挑战66 .第1 个挑挑战是如如何支持持异构数数据源之之间的互互操作性性(innterropeerabbiliity).信息息集成必必须在多多至数百百万的信信息源上上穿梭进进行,这些数数据源的的数据
20、模模型、模模式、数数据表现现和查询询接口各各不相同同.数据库库界已经经对联邦邦式的数数据系统统做了多多年的研研究,其中最最早的报报告针对对这个问问题做了了广泛的的讨论1 .然而,语义的的相异性性这个痛痛苦的问问题依然然存在.由不同同人设计计的任何何两个模模式都不不会是相相同的.它们会会有不同同的单位位(例如工工资,一种以以欧元计计算,而另一一种以美美元计算算),不同同的语义义解释(也以工工资为例例,一种仅仅指档案案工资,而另一一种是指指包含了了各种津津贴的总总收入),对于于相同的的事务还还会有不不同的名名字(对同一一个人,可能一一种用的的是笔名名,而另一一种用的的是原名名,例如鲁鲁迅和周周树人
21、).能够够在网络络标准上上进行配配置的语语义相异异性的解解决方案案依然是是难以捉捉摸的.我们必必须认真真和集中中地对待待这个问问题,否则跨跨企业的的信息综综合只会会停留在在幻想上上.语义Weeb的上上下文方方面的研研究也存存在着相相同的问问题.吸收相相关领域域的研究究成果对对解决这这一问题题是很重重要的.另一个挑战战是如何何模型化化源数据据内容和和用户查查询.目前广广泛采用用的技术术有两种种.LAAV(llocaal-aas-vvieww)方法法利用全全局谓词词集合描描述多个个数据源源内容视视图和用用户查询询.当给定定某用户户查询时时,中间件件系统通通过综合合不同的的数据源源视图决决定如何何回
22、答查查询.这种方方法可看看做利用用视图回回答查询询,目前已已有一些些研究成成果,它亦可可应用于于数据仓仓库或查查询优化化等领域域.GAAV(gglobbal-as-vieew)方方法假设设用户查查询直接接作用于于定义在在源数据据关系上上的全局局视图.人们主主要关注注的是在在这种情情况下如如何提供供高效的的查询处处理.第三个挑战战是当数数据源的的查询能能力受限限时,如何处处理查询询和进行行优化?例,Ammazoon.ccom 数据源源可以被被看作是是提供书书的信息息的数据据库,但是,我们不不能随便便下载其其上所有有的书籍籍信息.事实上上,我们只只能填写写Webb 搜索索表格查查询数据据源并返返回
23、结果果.很少的的组织会会允许外外部实体体来抽取取自己运运行系统统中的所所有数据据,所以这这些数据据必须留留在源端端,在查询询的时候候才会被被访问.如何模模型化和和计算具具受限查查询能力力的数据据源,如何生生成查询询计划和和优化查查询的研研究工作作正在展展开115117 .这里我们给给出信息息集成中中一些需需要进一一步研究究的问题题.其一,早期期的中间间件系统统采用集集中式架架构.近来,一种数数据库应应用需求求正在显显现,它要求求支持共共享分布布的、基基于站点点(siite)的环境境下的数数据集成成.在这种种环境中中,网络中中自主的的站点互互相连接接交换数数据和服服务.这样,每个站站点既是是中间
24、件件,又是数数据源.一些项项目已经经成立并并正在研研究这种种新的架架构下的的问题9,110 .其二,更多的的研究者者正在注注意如何何利用清清洁的数数据(ccleaansiing datta)来来处理数数据源的的异构性性6 .一个特特殊的问问题称为为“daata linnkagge”,其含义义为有效效和高效效的标示示和链接接冗余的的记录.不同的的数据源源经常包包含表示示真实世世界同一一实体的的多个近近似但并并不相等等的冗余余的记录录或属性性.例如“中科院院”和“中国科科学院”,或者“中国北北京”和“北京”.不同的的表示可可能源于于排版错错误、拼拼写错误误、缩写写或者其其他原因因.当从Weeb 页
25、页面上自自动抽取取无结构构或者半半结构化化文档时时,这个问问题变得得特别尖尖锐.对多数据源源的数据据集成,我们需需要在进进一步处处理之前前首先清清洗数据据.近来已已有一些些关于数数据清洗洗和链接接的工作作.其三,XMML 数数据的出出现给数数据集成成带来更更多需要要解决的的问题.其四,正如前前面提到到的那样样,传感器器网络和和新的量量子物理理学和生生物科学学将产生生巨大的的数据集集合.这些传传感器和和数据集集合分布布在世界界各地,这些数数据源能能够动态态地来往往,这一点点也打破破了传统统的信息息集成范范畴.从体系结构构实现的的角度出出发,信息集集成技术术经历了了如下33 个发发展阶段段7 :单
26、个的的联邦系系统、基基于组件件的分布布式集成成系统和和基于WWeb Serr vii cees 的的信息集集成系统统.Innterrnett 的迅迅速普及及和广泛泛应用对对计算机机技术的的发展产产生了深深刻的影影响,桌面应应用正在在向网络络应用转转移,从网上上获得的的不仅是是信息,还包括括程序和和交互式式应用(即服务务),操作作界面将将在浏览览器层面面上得到到统一,兼容性性由网络络标准技技术实现现(如SOAAP,UUDDII 和WSDDL 等等).在Webb Seer vvi cces的的框架下下,使用一一组Weeb SSer vi cess 协议议,构建信信息集成成系统.对每个个数据源源都为
27、其其创建一一个Weeb SSer vi ce,然后使使用WSSDL 向服务务中心注注册.当要构构建一个个新的集集成应用用时,集成端端首先向向注册中中心发送送查找请请求,收集并并选择合合适的数数据源,然后通通过SOOAP 协议从从这些数数据源获获取数据据.这种方方法克服服了上述述两种方方法的缺缺陷,具有完完好封装装、松散散耦合、规规范协议议和高度度的集成成能力等等特性.因此,基于Weeb SSer vi cess 的信信息集成成方案是是构建WWeb 数据集集成系统统较为理理想的体体系结构构.3.2 数数据流管管理测量和监控控复杂的的动态的的现象,如远程程通信、Web 应用、金融事务、大气情况等,
28、产生了大量、不间断的数据流.数据流处理对数据库、系统、算法、网络和其他计算机科学领域的技术挑战已经开始显露.这是数据库界一个活跃的研究领域,包括新的流操作、SQL 扩展、查询优化方法、操作调度(operator scheduling)技术等6 .数据流管理理与数据据库管理理在多个个层面上上存在差差异.见表1.Tabl e 11 Coompaarisson of dattabaase andd daata strreamm表1 数据据流与数数据库对对比Data strreamm DaatabbaseeModell Tuuplee seequeencee Tuuplee seet/bbagData
29、 durratiion Traansiientt PeersiisteentQueryy Reeal-Timme, conntinnuouus qquerriess Offf-LLinee, oone-timme qquerriessQueryy evvaluuatiion Onee paass ArbbitrraryyQueryy annsweer AApprroxiimatte EExacctQueryy pllan Fixxed Adaaptiive扩展数据库库管理系系统若直直接支持持数据流流类型就就会面临临众多问问题.首先,在数据据库中,数据是是稳定的的,持续的的,而查询询是暂时时的.
30、在数据据流中则则正好相相反:数据是是动态的的,而查询询是实时时稳定的的.这就需需要增强强数据库库查询处处理能力力,支持复复杂的实实时查询询需求.面临的问题题主要有有以下几几点.其一,数据流流环境中中的选择择、投影影,特别是是连接和和聚集操操作具有有新的含含义.如何扩扩展查询询语言SSQL 的表达达能力以以便支持持数据流流查询.其二,引入滑滑动窗口口机制可可以把无无限的数数据流转转换为有有限的关关系.但窗口口的长度度、个数数等特性性影响查查询的准准确性.尤其是是在做连连接和聚聚集操作作时,不但要要处理现现在的数数据,还要兼兼顾历史史和将来来的数据据.如何仅仅用一次次扫描实实现上述述操作,并保证证
31、查询的的实时和和有效是是数据流流查询处处理面临临的关键键问题.其三,若在有有限的空空间不能能支持数数据流的的精确聚聚集操作作,引入近近似操作作机制是是必须的的和可接接受的.利用样样本、直直方图或或者结构构信息统统计数据据流的的的研究工工作正在在展开.其四,如何考考虑数据据流的查查询优化化问题.考虑到数据据流速(datta rratee)的情情况,数据流流查询优优化的目目的应为为获得最最大的查查询数据据流速,即单位位时间的的数据流流量,而不是是以往考考虑的代代价最小小的查询询计划.基于流流速的查查询优化化的研究究工作也也是目前前数据流流研究的的热点问问题.商业微传感感器设备备即将出出现,使得新新
32、型的DDBMSS 的“监视”应用变变得可能能.数据流流的监控控应用需需要有能能够基于于数据流流间的复复杂关系系区分正正常或反反常活动动(如网络络入侵或或电信欺欺诈监测测等)的成熟熟的实时时查询.可以通通过传感感器给每每个重要要的对象象都加上上一个标标签,这样就就可以实实时地报报告这个个对象的的状态或或者位置置.比如说说,人们会会在笔记记本电脑脑或者投投影仪上上附加一一个传感感器,而不是是附上一一个财产产标签.在这种种情况下下,如果一一个投影影仪丢失失或者被被窃,人们就就可以从从监视系系统中查查找其下下落.这样的的监视系系统能不不断地接接收从传传感器发发来的“信息流流”,信息息流给出出了系统统感
33、兴趣趣的对象象信息.这种信信息流在在高性能能数据输输入、时时间序列列功能、历历史消息息窗口以以及高效效率队列列处理方方面给DDBMSS 提出出了新的的要求.DBMMS 产产品也将将尝试提提供对这这种监视视应用的的支持,其方法法应该是是通过将将流处理理的功能能移植到到传统的的结构数数据框架架上.Web SSer vi cess 自然然也产生生数据流流,松散结结合的系系统相互互交换大大量的商商务数据据,如订单单、零售售事务等等.这些数数据以XXML 格式表表现,产生持持续的XXML 数据流流.具有高高效处理理XMLL 数据据流的查查询能力力,从不间间断的XXML 数据流流中匹配配、抽取取和转换换部
34、分数数据流以以驱动后后台商务务应用,是Webb Seer vvi cces 的核心心.XML 流流处理的的特点是是XMLL 文档档的节点点一次性性地按照照某种遍遍历的顺顺序流过过.因为每每次面对对的总是是单个的的节点(元素、属属性或ttextt),所所以需要要将必要要的数据据有效地地缓存,以返回回结果.如何协协调缓存存容量和和查询效效率之间间的平衡衡,是目前前XMLL 流处处理需要要解决的的问题之之一.目前,查询XMML 数数据流的的研究包包括Xffiltter 188 ,Yfiilteer 19 ,XXMLTTK 20 ,XXSQ 211 ,XSMM 222等等.处理的的方法一一般是将将XP
35、aath 转化成成一个有有限自动动机模型型,有固定定的初始始节点和和终节点点,当走到到有限自自动机的的终点时时,表示XPPathh 查询询被匹配配.比较复复杂的自自动机模模型可以以支持包包含双斜斜杠(/)和和*或带多多个谓词词的XPPathh 语句句,有的还还支持集集函数.XMLL 流处处理需要要解决的的另一个个问题是是处理同同时出现现的大量量复杂路路径查询询.有的研研究提取取相似的的XPaath 查询并并综合到到一个结结构中,同时计计算共享享路径以以避免重重复操作作,可以大大大提高高处理的的效率.数据流本身身的流速速和流量量的增长长,传感器器数据流流和XMML 数数据流的的出现是是对传统统的
36、数据据流处理理提出的的挑战.部分研究者者正致力力于将数数据流融融入数据据库管理理系统中中的工作作.另一部部分研究究者则欲欲开发普普遍适用用(NiiagaaraCCQ,SStannforrd SStreeam, Teeleggrapph, Aurroraa)或者者专用的的(Giigasscoppe)数数据流管管理系统统.3.3 传传感器数数据库技技术随着微电子子技术的的发展,传感器器的应用用越来越越广泛.可以使使小鸟携携带传感感器,根据传传感器在在一定的的范围内内发回的的数据定定位小鸟鸟的位置置,从而进进行其他他的研究究;还可以以在汽车车等运输输工具中中安装传传感器,从而掌掌握其位位置信息息;甚
37、至于于微型的的无人间间谍飞机机上也开开始携带带传感器器,在一定定的范围围内收集集有用的的信息,并且将将其发回回到指挥挥中心.当有多个传传感器在在一定的的范围内内工作时时,就组成成了传感感器网络络.传感器器网络由由携带者者所捆绑绑的传感感器及接接收和处处理传感感器发回回数据的的服务器器所组成成.传感器器网络中中的通信信方式可可以是无无线通信信,也可以以是有线线通信.现在,在研研究机构构和商业业公司中中都有对对传感器器网络的的研究.WINNS NNG 是是Sennsorria 公司设设计的传传感器网网络结构构.该网络络结构包包括处理理传感器器数据的的服务器器、与服服务器直直接相连连的可以以将传感感
38、器收集集的数据据传送到到服务器器的网关关节点和和作为传传感器网网络神经经末梢的的各个收收集信息息的传感感器.各个收收集信息息的传感感器之间间可以相相互传递递数据.在该网网络中,信息是是通过无无线通信信的方式式传递的的.Smmartt Duust Mottes 是U.CC.Beerklley 设计的的微型传传感器网网络结构构,该网络络结构运运行在一一个立方方毫米级级的小盒盒子里,主要包包括收集集数据的的传感器器和处理理数据的的服务器器.各个节节点之间间通过激激光传递递信息.在传感器网网络中,传感器器数据就就是由传传感器中中的信号号处理函函数产生生的数据据.信号处处理函数数要对传传感器探探测到的的
39、数据进进行度量量和分类类,并且将将分类后后的数据据标记时时间戳,然后发发送到服服务器,再由服服务器对对其进行行处理.传感器器数据可可以通过过无线或或者光纤纤网存取取.无线通通信网络络采用的的是多级级拓扑结结构,最前端端的传感感器节点点收集数数据,然后通通过多级级传感器器节点到到达与服服务器相相连接的的网关节节点,最后通通过网关关节点,将数据据发送到到服务器器.光纤网网络采用用的是星星型结构构,各个传传感器直直接通过过光纤与与服务器器相联接接.传感器节点点上数据据的存储储和处理理方法有有两种:第1 种类类型的处处理方法法是将传传感器数数据存储储在一个个节点的的传感器器堆栈中中,这样的的节点必必须
40、具有有很强的的处理能能力和较较大的缓缓冲空间间;第2 种方方法适用用于一个个芯片上上的传感感器网络络,传感器器节点的的处理能能力和缓缓冲空间间是受限限制的:在产生生数据项项的同时时就对其其进行处处理以节节省空间间,在传感感器节点点上没有有复杂的的处理过过程,传感器器节点上上不存储储历史数数据;对于处处理能力力介于第第1 种和和第2 种传感感器网络络的网络络来说,则采用用折衷的的方案,将传感感器数据据分层地地放在各各层的传传感器堆堆栈中进进行处理理.传感器网络络越来越越多地应应用于对对很多新新应用的的监测和和监控.在这些些新的应应用中,用户可可以查询询已经存存储的数数据或者者传感器器数据,但是,
41、这些应应用大部部分建立立在集中中的系统统上收集集传感器器数据.因为在在这样的的系统中中数据是是以预定定义的方方式抽取取的,因此缺缺乏一定定的灵活活性.新的传感器器数据库库系统需需要考虑虑大量的的传感器器设备的的存在,以及它它们的移移动和分分散性.因此,新的传传感器数数据库系系统需要要解决一一些新的的问题.主要包包括:(1) 传传感器数数据的表表示和传传感器查查询的表表示:CCornnelll 大学学的COOUGAAR 模模型、RRutggerss 大学学的WeebDuust 系统、WWas hi ngtt onn 大学学的Saagrees 系系统都对对这两个个问题进进行了研研究.在COUUGA
42、RR 系统统中,每一个个传感器器表示成成一个AADT,每一个个信号处处理函数数与一个个ADTT 函数数相联系系,该ADTT 函数数对于传传感器收收集到的的数据输输出一个个与传感感器所在在的位置置相关联联的序列列,COOUGAAR 采采用关系系数据库库的表来来存储这这些信息息.COOUGAAR 采采用主动动方式的的持续查查询,当在查查询过程程中有新新的数据据产生时时,这种查查询方式式会自动动增加对对新产生生的数据据的查询询.Saagrees 系系统主要要包括两两部分,第1 部分分是设备备信息管管理器,主要存存储传感感器的设设备信息息和作为为属性的的描述性性规则等等;第2 部分分是查询询翻译器器,
43、主要采采用ECCA 模模型对数数据进行行查询和和更新.(2) 在在传感器器节点上上处理查查询分片片:传感器器资源的的有限性性,要求我我们必须须有效地地处理各各个节点点上的查查询.(3) 分分布查询询分片:产生和和传输传传感器数数据都需需要花费费代价,必须考考虑单个个节点的的查询效效率和网网络传输输代价的的平衡.而且,与传统统的分布布式查询询所不同同,在传感感器数据据库中,没有全全局的优优化信息息,传感器器是移动动的,而且源源数据是是动态的的,这些都都是需要要考虑的的问题.(4) 适适应网络络条件的的改变:在传感感器网络络中,大量的的数据查查询必须须处理传传感器之之间或者者传感器器与前端端服务器
44、器之间的的数据流流.数据流流引擎和和数据流流操作符符是对这这种大流流量数据据进行控控制的主主要方法法.另外,基于传传感器数数据的本本质和网网络的可可能拥塞塞,对一个个查询分分片来说说需要决决定下一一个要执执行的数数据流操操作符,这就是是自适应应查询处处理需要要考虑的的问题.(5) 处处理站点点失败和和传输失失败的情情况:传感器器网络中中必须考考虑站点点或者传传输失败败的情况况.(6) 传传感器数数据库系系统:传感器器数据库库必须利利用系统统中的所所有传感感器,而且可可以像传传统数据据库那样样方便、简简洁地管管理传感感器数据据库中的的数据;建立可可以获得得和分配配源数据据的机制制;建立可可以根据
45、据传感器器网络调调整数据据流的机机制;可以方方便地配配置、安安装和重重新启动动传感器器数据库库中的各各个组件件等.3.4 XXML 数据管管理目前大量的的XMLL 数据据以文本本文档的的方式存存储,难以支支持复杂杂高效的的查询.用传统统数据库库存储XXML 数据的的问题在在于模式式映射带带来的效效率下降降和语义义丢失.一些Naativve XXML 数据库库的原型型系统已已经出现现(Taaminnon,Lorre,TTimbber,OriienttX(中中国人民民大学开开发)等).XXML 数据是是半结构构化的,不像关关系数据据那样是是严格的的结构化化数据,这样就就给Natiive XMLL
46、数据据库中的的存储系系统带来来更大的的灵活性性,同时,也带来来了更大大的挑战战.恰当的的记录划划分和簇簇聚,能够减减少I/O 次次数,提高查查询效率率;反之,不恰当当的划分分和簇聚聚,则会降降低查询询效率.研究不不同存储储粒度对对查询的的支持也也是XMML 存存储面临临的一个个关键性性问题23 .当用户定义义XMLL 数据据模型时时,为了维维护数据据的一致致性和完完整性,需要指指明数据据的类型型、标示示,属性的的类型,数据之之间的对对应关系系(一对多多,多对多多等)、依赖赖关系和和继承关关系等.而目前前半结构构化和XXML 数据模模型形成成的一些些标准(如OEMM,DTTD,XXML Schh
47、emaa 等)忽视了了对这些些语义信信息和完完整性约约束方面面的描述述.ORRA-SSS 24模型扩扩展了对对象关系系模型用用于定义义XMLL 数据据.这个模模型用类类似E-R 图图的方式式描述XXML 数据的的模式,对对象象、联系系和属性性等不同同类型的的元素用用不同的的形状加加以区分分,并标记记函数依依赖、关关键字和和继承等等.其应用用领域包包括指导导正确的的存储策策略,消除潜潜在的数数据冗余余,创建和和维护视视图及查查询优化化等.在XML 数据查查询处理理研究中中,存在下下列焦点点问题:第1,如何何定义完完善的查查询代数数.众所周周知,关系数数据库统统治数据据管理领领域长盛盛不衰的的法宝
48、就就是描述述性查询询语言SSQL 和其运运行基础础关系代代数.关系代代数的目目的之一一是约束束明确的的查询语语义,之二是是用于支支持查询询优化.关系代代数的优优势来自自简单明明确的数数据模型型关系系,具有完完善的数数学基础础和系统统的转换换规则.而XMLL 数据据模型本本身具有有的半结结构化特特点是定定义完善善的代数数运算的的最大障障碍.XXML 查询语语言中的的不确定定性是另另一个难难以克服服的困难难.目前提提出的XXqueery Forrmall Seemannticc 标准准基于FFuncctioon LLangguagge 的的思想,为查询询优化带带来了新新的困难难.第2,复杂杂路径表
49、表达式是是XMLL 查询询语句的的核心,必须将将复杂、不不确定的的路径表表达式转转换为系系统可识识别的、明明确的形形式.面向对对象数据据库中的的模式支支持的分分解方法法,不适应应处理没没有模式式或者虽虽有模式式信息但但模式本本身为半半结构化化和不确确定性的的XMLL 路径径分解的的情况.并且,XXML 数据的的存储和和索引方方法与面面向对象象数据库库不同,而这正正是影响响路径分分解的重重要因素素.第3,XMML 数数据信息息统计和和代价计计算.传统的的对值的的统计对对XMLL 查询询是不够够的.XXML 数据本本身缺乏乏模式的的支持,使对数数据结构构信息的的统计显显得更加加重要.XMLL 数据
50、据中的数数值分布布在类似似树状结结构的树树叶上,即使相相同类型型的数据据,由于半半结构化化特点,其分布布情况也也可能完完全不同同.因此,需要把把对结构构的统计计信息和和对值的的统计信信息结合合到一起起,才能得得到足够够精确的的统计信信息.对XMLL 查询询代价的的计算可可以分为为两个层层次:上层为为对查询询结果集集大小的的估计.给定XPPathh 路径径,忽略方方法的不不同,只估计计返回路路径目标标结点结结果集的的大小.这种方方法普遍遍用于路路径分解解后确定定查询片片段的执执行次序序.下层为为执行时时间的估估计.给定查查询片断断,估计不不同的执执行算法法所需时时间代价价.这种方法用用于确定定查
51、询片片段的执执行方法法.目前,XMML 数数据索引引按照用用途可分分为3 种:简单索索引、路路径索引引和连接接索引.简单索索引包括括标记索索引、值值索引、属属性索引引等.路径索索引抽取取XMLL 数据据的结构构,索引具具有相同同路径或或者标记记的结点点用于导导航查询询时缩小小搜索的的范围.连接索索引在元元素的编编码上建建立特定定的索引引结构来来辅助跳跳过不可可能发生生连接的的节点,从而避避免对这这些节点点的处理理.可以利利用的索索引结构构包括BB+树、改改进的BB+树255,266、R 树和和XR 树277等.利用索索引提高高查询效效率实际际上是空空间换时时间的做做法.如何针针对不同同的查询询
52、需求建建立、使使用和维维护合适适的索引引是研究究者面临临的一个个问题.另一个个问题是是,不同的的索引,索引目目标也不不相同,如何在在一个查查询中综综合地使使用不同同的索引引.随着XMML 数数据在电电子商务务中的广广泛应用用,XMML 数数据更新新需求迫迫切,更多的的研究者者开始关关注如何何动态地地维护索索引以适适应不断断的数据据更新的的问题.对于XMLL 数据据的更新新操作,无论在在语言,还是在在操作方方法上都都没有一一个统一一的标准准.更新操操作从逻逻辑上是是指:元素的的插入、删删除和更更新.更新包包括模式式检查、结结点定位位、存储储空间的的分配和和其他辅辅助数据据的更新新,比如索索引、编
53、编码等.在XMLL 文档档中插入入数据的的问题需需要移动动所有插插入点后后面的数数据.为了解解决这个个问题,引入了了空间预预留方法法,在数据据存储时时,根据模模式定义义预留一一部分空空间给可可能的插插入点.当有数数据插入入时,如果预预留空间间足够,则无须须数据移移动.如果预预留空间间不够,则在新新申请的的页面中中插入数数据,原有数数据也不不需要移移动.与此同同时,为以后后的数据据插入预预留了更更多的空空间.针对不不同的存存储策略略,数据更更新的方方法也不不同,非簇聚聚存储方方法在更更新时无无须在物物理上保保持数据据的有序序性,更新代代价较小小.簇聚存存储方法法在更新新时需要要更多的的无关数数据
54、移动动以维护护簇聚性性.因此,对更新新频繁的的数据,不宜采采用簇聚聚存储方方法.XML 数数据处理理面临的的未解决决的问题题还包括括:首先在在查询处处理上,是导航航处理还还是基于于代数的的一次一一集合的的处理?这一直直是XMML 查查询优化化研究的的焦点,而如何何在一个个系统中中把二者者有机地地结合起起来以提提高效率率的研究究还很不不充分.目前对对XMLL 数据据查询的的各种不不同的执执行方法法之间的的孰优孰孰劣的比比较工作作还刚刚刚开始,并未形形成共识识性的规规则.由于XMML 数数据本身身的灵活活性,找到一一些普遍遍适用的的规律是是很困难难的.在今后后的一段段时间内内,相信会会有更多多的研
55、究究工作在在这方面面展开.其次,实例化化视图作作为查询询优化的的一个重重要手段段并未在在XMLL 查询询优化研研究中得得到足够够的重视视.最后,NNatiive XMLL 数据据库是否否是合适适的XMML 数数据处理理解决方方案?如果是是的话,如何做做到XMML 数数据与传传统数据据库数据据的互操操作?这些都都是有待待进一步步研究的的问题.3.5 网网格数据据管理6,228,229简单地讲,网格是是把整个个网络整整合成一一个虚拟拟的巨大大的超级级计算环环境,实现计计算资源源、存储储资源、数数据资源源、信息息资源、知知识资源源和专家家资源的的全面共共享.目的是是解决多多机构虚虚拟组织织中的资资源
56、共享享和协同同工作问问题.在网格环境境中,不论用用户工作作在何种种“客户端端”上,系统均均能根据据用户的的实际需需求,利用开开发工具具和调度度服务机机制,向用户户提供优优化整合合后的协协同计算算资源,并按用用户的个个性提供供及时的的服务.按照应应用层次次的不同同可以把把网格分分为3 种:计算网网格,提供高高性能计计算机系系统的共共享存取取;数据网网格,提供数数据库和和文件系系统的共共享存取取;信息服服务网格格则支持持应用软软件和信信息资源源的共享享存取.高性能计算算的应用用需求使使计算能能力不可可能在单单一计算算机上获获得,因此,必须通通过构建建“网络虚虚拟超级级计算机机”或“元计算算机”获得
57、超超强的计计算能力力,这种计计算方式式称为网网格计算算.它通过过网络连连接地理理上分布布的各类类计算机机(包括机机群)、数据据库、各各类设备备和存储储设备等等,形成对对用户相相对透明明的虚拟拟的高性性能计算算环境,应用包包括了分分布式计计算、高高吞吐量量计算、协协同工程程和数据据查询等等诸多功功能.网格计计算被定定义为一一个广域域范围的的“无缝的的集成和和协同计计算环境境”.网格格计算模模式已经经发展为为连接和和统一各各类不同同远程资资源的一一种基础础结构.网格计计算有两两个优势势,一个是是数据处处理能力力超强;另一个个是能充充分利用用网上的的闲置处处理能力力.为实现现网格计计算的目目标,必须
58、重重点解决决3 个问问题:其一,异构性性.由于网网格由分分布在广广域网上上不同管管理域的的各种计计算资源源组成,怎样实实现异构构资源间间的协作作和转换换是首要要问题.其二,可扩展展性.网格资资源规模模和应用用规模可可以动态态扩展,并能不不降低性性能.其三,动态自自适应性性.在网格格计算中中,某一资资源出现现故障或或失败的的可能性性较高,资源管管理必须须能够动动态监视视和管理理网格资资源, 20004,115(112)从从可利用用的资源源中选取取最佳资资源服务务.数据网格保保证用户户在存取取数据时时无须知知道数据据的存储储类型(数据库库,文档,XXML)和位置置.涉及的的问题包包括:如何联联合不
59、同同的物理理数据源源,抽取源源数据构构成逻辑辑数据源源集合;如何制制定统一一的异构构数据访访问的接接口标准准;如何虚虚拟化分分布的数数据源等等.目前,数据网网格研究究的问题题之一是是:如何在在网格环环境下存存取数据据库,提供数数据库层层次的服服务,因为数数据库显显然应该该是网格格中十分分宝贵且且巨大的的数据资资源.数据库库网格服服务不同同于通常常的数据据库查询询,也不同同于传统统的信息息检索,需要将将数据库库提升为为网格服服务,把数据据库查询询技术和和信息检检索技术术有机结结合,提供统统一的基基于内容容的TOOP-KK 数据据库检索索机制和和软件4345 .信息网格是是利用现现有的网网络基础础
60、设施、协协议规范范、Weeb 和数数据库技技术,为用户户提供一一体化的的智能信信息平台台,其目标标是创建建一种架架构在OOS 和和Webb 之上上的基于于Intternnet 的新一一代信息息平台和和软件基基础设施施.在这个个平台上上,信息的的处理是是分布式式、协作作和智能能化的,用户可可以通过过单一入入口访问问所有信信息.信息网网格追求求的最终终目标是是能够做做到按需需服务(serrvicce oon ddemaand)和一步步到位的的服务(onee cllickk iss ennouggh).信息网网格的体体系结构构、信息息表示和和元信息息、信息息连通和和一致性性、安全全技术等等是目前前信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 海鲜购销合同范本模板示例
- 借款合同协议格式
- 技术开发与服务协议
- 玻璃原片采购交易价目表
- 借款合同中的抵押条款
- 重新签订的合同协议
- 农产品选购合同格式
- 展览活动承包合同
- 文化传播公司内容创意与市场推广策略方案设计方
- 智慧城市管理
- 110kV升压站构支架组立施工方案
- 何以中国:公元前的中原图景
- 【中药贮藏与养护问题及解决对策4000字(论文)】
- 自然环境对聚落的影响
- 2023-2024学年天津市部分地区六年级数学第一学期期末综合测试试题含答案
- 河南省洛阳市偃师区2023-2024学年四年级数学第一学期期末经典模拟试题含答案
- 小学生预防性侵讲稿
- 人工智能算法贝叶斯算法
- 外墙外保温监理实施细则
- 剪映使用课件s
- B2B电子商务网站调研报告
评论
0/150
提交评论