(计算机软件与理论专业论文)关系型与xml数据库格式转换方法及应用.pdf_第1页
(计算机软件与理论专业论文)关系型与xml数据库格式转换方法及应用.pdf_第2页
(计算机软件与理论专业论文)关系型与xml数据库格式转换方法及应用.pdf_第3页
(计算机软件与理论专业论文)关系型与xml数据库格式转换方法及应用.pdf_第4页
(计算机软件与理论专业论文)关系型与xml数据库格式转换方法及应用.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机软件与理论专业论文)关系型与xml数据库格式转换方法及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理上大学硕士学位论文摘要w e b 资源的复杂化、多样化,数据量的日趋庞大对网络的传输能力提出更高的要求,对不同平台、不同格式的数据源进行数据集成和数据转化等成为远程教学急需解决的问题。另外,从繁多复杂的数据中获得有用的信息也成为迫在眉睫的问题。x m l 数据库的数据模型可以是树、图等层次数据模型,而传统的关系数据库是以关系数据模型理论为基础的,所以x m l 的数据结构比关系数据库更具有表现力,它能够对诸如网页等半结构化数据进行有效的存取和管理,而且更加便于对层次化的数据进行操作。x m l 数据库能够在应用中管理x m l 数据和文档,一个x m l 数据库是x m l 文档及其部件的集合,并通过一个具有能力管理和控制这个文档集合本身及其所表示信息的系统来维护。x m l 数据库不仅是结构化数据和半结构化数据的存储库,像管理其它数据一样,持久的x m l 数据管理包括数据的独立性、集成性、访问权限、视图、完备性、冗余性、一致性以及数据恢复等。x m l 是一种可扩展的、自描述数据格式。n e t 提供支持x m l 的数据接口。n e t与x m l 结合是本文中异构数据库相互转换,远程教学和数据挖掘的解决方案。本文首先对x m l ,远程教学技术和w e b 的半结构化数据特点做了简单介绍;接着对关键技术;x m l 与关系数据库之间的相互转换进行了深入的研究,阐述了转换过程中的原理、思想等重点问题,提出了通用的转换规则,着重介绍了基于模型驱动的转换算法;同时还介绍了基于x m l 的数据挖掘技术,在n e t 环境下数据绑定的过程,并提出了一个远程教学的模型。介绍了模型的结构、功能和技术实现。本文将主要研究:基于x m l 的数据挖掘、关系数据库和x m l 数据库问数据格式转换、同时将x m l 在远程教学进行应用。关键词:x m l ;异构数据库;远程教学;数据挖掘;对象关系模型人连理一【大学硕十学位论文m o t h o d sa n da p p l i c a t i o no ff o r m a tt r a n s f o r m a t i o nb e t w e e nr e l a t i o n a ld a t a b a s ea n dx l md a t a b a s ea b s t r a c tt h ec o m p l i c a t i o n ,d i v e r s i f i c a t i o no fw e br e s o u r c e sa n dt h ei n c r e a s i n gq u a n t i t yo fd a t ap r o p o s e dah i g h e rr e q u e s tt ot h en e t w o r kt r a n s m i t t i n gc a p a b i l i t y t h e r e f o r et h ed a t ai n t e g r a t i o na n dt r a n s f o r m a t i o no ft h ed a t af o r c eo nd i f f e r e n tp l a t f o r m sh a v eb e c o m et h eu r g e n tp r o b l e mo fl o n g - d i s t a n c et e a c h i n g o nt h eo t h e rh a n d ,o b t a i n i n gu s e f u li n f o r m a t i o nf r o mt h ec o m p l e xa n dv a r i o u sd a t ah a sb e c o m et h ee x t r e m e l yu r g e n tp r o b l e m t h ex m ld a t a b a s em a yb em o d e l so fd a t aa n dc h a a ,w h i l et h et r a d i t i o n a lr e l a t i o n a ld a t a b a s ei sb a s e do nt h e o r yo fr e l a t i o n a ld a t am o d e l ,t h e r e f o r et h ex m lc o n s t r u c t i o no fd a t ah a st h ee x p r e s s i v ef o r c ec o m p a r e dt ot h er e l a t i o n a ld a t a b a s e ,i tc a nc a r r yo nt h ee f f e c t i v ed e p o s i ta n dm a n a g e m e n tt ot h eh a l fs t r u c t u r i z e dd a t as u c ha st h eh o m e p a g e ,m o r e o v e rb r i n gc o n v e n i e n c et ot h e t h eo p e r a t i o no fh i e r a r c h i c a ld a t a t h ex m ld a t a b a s ei ss u p p o s e dt oo p e r a t et h ex m ld a t aa n dt h ed o c u m e n t si nt h ea p p l i c a t i o n ,o n ex m ld a t a b a s ei st h es e to fx m ld o c u m e n t sa n dt h e i rp a r t a n di sm a i n t a i n e dt h r o u l g l la ni n f o r m a t i o ns y s t e mh a v i n gt h ea b i l i t yt om a n a g ea n dc o n t r o lt h i sd o c u m e n ts e ta sw e l la si t se x p r e s s e di n f o r m a t i o n t h ex m ld a t a b a s ei sn o to n l yt h es t m c t u r i z e da n dh a l f - s t m c t u f i z e dd a t am e m o r yb a n k ,l i k em a n a g i n go t h e rd a t a s ,a b i d i n gx m ld a t am a n a g e m e n ti n c l u d e sd a t ai n d e p e n d e n c e ,i n t e g r a t i o n ,a c c e s sa u t h o r i t y , v i e w , c o m p l e t e n e s s ,r e d u n d a n c y , u n i f o r m i t ya sw e l la sd a t ar e c o v e r ya n ds oo n x m lw h o s ed a t ai n t e r f a c ei ss u p p o r t e db y n e ti sa l le x p a n d a b l e ,s e l f - d e s c r i p t i v ed a t af o r m a ta n dt h ec o m b i n a t i o no f n e ta n dx m li st h es o l u t i o nt ot h ei n t e r c o n v e r s i o no ft h ei s o m e r i s md a t a b a s e ,l o n g - d i s t a n c et e a c h i n ga n dd a t am i n i n g t h eb r i e fi n t r o d u c t i o nh a sb e e nm a d ei nt h i sp a p e rf i r s to nx m la n dt h ec h a r a c t e r i s t i c so ft h el o n g - d i s t a n c et e a c h i n gt e c h n o l o g ya n dt h es e m i s t r u c t u r e dd a t a i nt h ef o l l o w i n gp a r t ,t h ek e yt e c h n o l o g y t h es t u d yo nt h ei n t e r c o n v e r s i o nb e t w e e nx m la n dt h er e l a t i o n a ld a t a b a s e- h a sb e e nc o n d u c t e dt h o r o u g h l y b e s i d e st h a t ,1e l a b o r a t et h ep r i n c i p l e sa n dt h o u 【g h t si nt h es w i t c h i n gp r o c e s s ,p r o p o s et h eg e n e r a lt r a n s l a t i o nr u l e ,i n t r o d u c ee m p h a t i c a l l yt r a n s f o r m a t i o na l g o r i t h mb a s e do nt h em o d e la c t u a t i o n ,t h ed a t am i n i n gt e c h n o l o g yb a s e do nt h ex m la n dt h ed a t ab i n d i n gp r o c e s su n d e rt h e n e te n v i r o n m e n t ,a n dp r o p o s eal o n g d i s t a n c et e a c h i n gm o d e l a tl a s tij n t r o d u c et h es t r u c t u r e t h ef u n c t i o na n dt h et e c h n o l o g yr e a l i z a t i o no ft h em o d e la sw e l l 关系型与瑚l 数据库格式转换方法及麻刚t h em a i ns t u d yp o i n t so ft h i sp a r p e r :t h i sa r t i c l ew i l ls t u d ym a i n l y :d a t am i n i n gb a s e do nx m lt r a n s f o r mo ft h ed a t af o r m a tb e t w e e nt h er e l a t i o n a ld a t a b a s ea n dx m ld a t a b a s e ,x m la p p l i c a t i o ni nt h el o n g d i s t a n c et e a c h i n g k e yw o r d s :x m l ;h e t e r o g e n e o u sd a t a b a s e s :d i s t a n c et e a c h i n g ;d a t am i n i n go j e c t r e l a t i o nm o d e li v 独创性说明作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。作者签名:霆纽日期:边:! :2大连理t 人学硕+ 学位论文大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。作者签名宣塑导师签名:左泓年月日大连理,j :大学硕十学位论文1绪论1 1 课题研究的背景当今w e b 技术的发展一日千里,从而使w e b 成了最大的环球信息资源库。其丰富的信息资源给人们的学习和生活带来了极大的便利。基于w e b 的远程教育迅速的发展起来。但由于w e b 资源的复杂化、多样化,数据量的r 趋庞大对网络的传输能力也提出更高的要求。因此对不同平台、不同格式的数据源进行数据集成和数据转化等等成为了远程教学急需解决的问题。此外,如何从繁多复杂的数据中获得有用的信息也成为迫在眉睫的问题。这一系列的问题就是本课题研究的背景。1 2x m l 国内外的研究现状与发展趋势x m l1 0 版本标准己于1 9 9 8 年制订,并且针对诸如金融和医药等许多特殊行业的该语言标准也已完成,据不完全统计已经有多达3 5 0 项。当整个互联网的信息在x m l的平台上整合应用,现在信息海洋的杂乱无章就会得到根本的改善。微软与i b m 携手推出下一代x m l 的标准规范;占据互联网数据库市场绝大份额的o r a c l e ,也将其主打产品的最新版本与x m l 紧密融合;对x m l 的支持几乎成为每一个支持i n t e r n e t 软件系统的必备功能。而在诸如此类的动作当中,最为引人瞩目的莫过于微软力推的n e t 计划,它所采用的基础平台就是x m l 。垄断者的选择,无疑又为温度极高的x m l 世界增添了重重的砝码。有专家预计,数据库厂商不久就将推出自己的n a t i v e x m l 数据库,以满足基于w e b的电子商务对x m l 数据处理的需求。在未来的一年中,会有更多的网络应用支持并采用x m l 技术和平台,在此基础上,第三代互联网轮廓凸现。未来的w e b ,将在高度统一,开放的数据标准之下,透过无所不在的应用终端,展开随时随地的移动交换和计算,提供个性化的界面、规范化的流程和数据质量的保证。总之,x m l 的需求j 下在扩大,新的应用包括采用x m l 标签的i n t e m e t 搜索引擎、必须快速输出结果的电子商务系统、带x m l 标签的电子数据交换、数据重复使用和内容个性化。作为处理上述应用的一环,与x m l 有关的数据库需求也将快速增长。1 3国内外远程教育的发展状况在美国几乎所有的大中小学都已接入i n t e m e t ,并不同程度地开展远程教育:据美国联邦教育部国家教育统计中心对中等教育机构远程教育的调查,2 0 0 1 2 0 0 2 年,美国5 0 2 0 所大学中有1 6 9 0 所提供远程教育课程,占高等学校总数的3 4 。约1 6 6 万学生注关系型与x m l 数据库格式转换方法及应h j册接受各种形式的远程高等教育,占所有类型高校在校生总数( 约为1 4 3 4 万) 的1 1 6 ,预计到2 0 0 6 年底,8 0 以上的美国大学将在传统教学方式中引入远程教育。英国计划在2 0 0 6 年年底以前,建立全国教育网络,把全国的学校免费与i n t e r n e t连通,给每个学生配备电子邮件地址。至今,英国全国各级学校都建立了自己的网上学校。在同本远程教育大多用在校内研究生和高校之间的课程交流上,主要利用i s d n 和a t m 网络进行远程的双向的电视教学,同时注重多媒体教材的建设并积极开展网上教学实验。亚洲、欧洲、美洲、大洋洲的许多国家,也都在积极发展现代远程教育。在我国,远程教育已经成为网络技术最重要的应用领域之一。继几年前中国教育科研网和众多校园网的建成和应用之后,教育部又批准了清华大学、北京邮电大学、浙江大学、湖南大学等3 0 多所远程教育试点单位。截至2 0 0 2 年初,试点高校网络教育学院在校生达2 4 万人,已开设8 个大类5 1 个专业,组织了近3 0 0 门课程和一批素材库、案例库,网络教育的覆盖面已达3 1 个省、自治区和直辖市。依托与互联网的中小学网校正在逐渐建立。截至1 9 9 9 年底,我国开展信息化教育的中小学已达1 0 万所,其中高中、初中、小学各占三分之一,部分有条件的中小学实现了计算机联网,个别城市中主要的中小学已经连入c e r n e t 。据估计,到2 0 0 6 年底,全国将有1 5 0 所中学建立示范校园网,初步形成中小学教育和家庭教育服务的虚拟“中小学教育教学网”。此外,在成人教育方面,我国各地原有的远程教育系统正在向网络转移,形成多种媒体共存的新格局。1 4 基于x m l 的异构数据转换由于远程教育所涉及的数据比较繁多,而且由于地点的不同,所应用的数据存储介质也大不相同。因此,需要对异构的数据统一化,基于x m l 的各种优点,因此我选用x m l 。虽然,当前流行的大型数据库( 如0 r a c l e ,s q l s e r v e r 等) 提供了x m l 的存储策略,但是只能在本数据库中实现存储,而且各数据库的存储策略不同,有些只提供从关系数据库到x m l 数据的提取。其他一些小型数据库( 如m y s q l ,a c c e s s ) 并未实现,因此不具有通用性。因此我设计了基于对象关系模型驱动的x m l r d b 转换原型系统,该转换原型系统使得用户能以可视化和可配置的方式来定义x m l 和数据库之间的映射方式,将为用户提供完整的数据库和x m l 的解决方案,提供双向的转换,既解决基于x m l 的发布,又能提供从x m l 数据到数据库的存储机制,你可以通过它在任何的平台中连接到任何通用的数据库,提供多个数据源的数据获取以及从x m l 数据到不同数据库的转换,在本研究一2 一大连理 :大学硕十学何论文中,主要通过此模块将各种异构的数据转换为x m l 数据提供给w e b 使用,并将w e b 上操作的数据转换到各种异构数据库中。1 5 本论文主要完成的工作( 1 ) 基于模型驱动实现x m l 与关系数据库的转化,从而实现对异构数据库的转换。解决由于远程教育所涉及的数据比较繁多,而且地点的不同,所应用的数据存储介质也大不相同,而导致数据不能共享的问题。( 2 ) 根据模糊挖掘算法,创建试题分类模块,实现对x m l 试题文档中的试题进行分类并存储为x m l 文档。( 3 ) 根据远程教育的需要,方式和方法。结合现代的教育需求,实现基于x m l 的远程教育系统。关系型与) ( m l 数据库格式转换方法及应川2x m l 数据挖掘与远程教学简介2 1 发展x m l 的背景及x m l 的特性i n t e r n e t 的发展将人们带入了一个信息爆炸的时代。但网上信息的海量和无组织性使得它只是一个杂乱无章的信息仓库,在进行信息检索时常常发生“信息迷向,因而人们希望能够得到更加“智能化”的信息服务。h t m l 文档着重描述w e b 页面的显示格式,它不容易被解析、检索以及“智能化”的处理,与之相关的基于关键词的检索技术虽然已经相对成熟,但却很难满足“智能化信息服务的需要。在新需求的推动下,人们提出了一种着重描述w e b 内容的可扩展标记语言x m l ( 可扩展标记语言,e x t e n s i b l em a r k u pl a n g u a g e ) 。x m l ( 可扩展标记语言,e x t e n s i b l em a r k u pl a n g u a g e ) 是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ,通用标识语言标准) 的一个子集,它是一套定义语义标记的规则,这些标记将文档分成许多部件并对该部件加以标识。它也是元标记语言,能够用来定义与特定领域有关的、具有语义信息的、结构化的标记语言的句法,从而有利于信息的表达和结构化组织,使数据检索和处理更加有效。x m l 的基本思想是:用标记表示数据的意义,而不是像h t m l 仅仅用来规定数据的显示方式。x m l 将内容和形式相分离具有很重要的意义:那些将数据以x m l 格式编码的w e b 服务和应用程序可以迅速地以一种简单、有效的格式提供这些数据信息,这些w e b 服务和应用程序之问也可以很容易地进行交互,并且可以通过x m l 等对同一数据内容提供多种数据表示形式。x m l 突破了h t m l 的固定标记集合的约束,用户可以根据需要定义任何一种标签来描述文档中的数据元素i m j 。x m l 之于数据正如j a v a 之于程序,将使数据与平台和厂商无关。这一能力正在推动一波x m l 中问件应用,1 9 9 9 年初开始随处可见。x m l 本身可以提供标准化的数据库和电子表格的交换格式。x m l 具有以下4 个主要特点:( 1 ) 简单性:x m l 的严格定义和规则使得人和机器都能够更容易地阅读x m l 文档。由于x m l 文档是建立在基本嵌套结构的基础之上,所以当新的细节被增加,结构变得越来越复杂时,开发人员并不需付出很大代价来表示复杂的结构。( 2 ) 扩展性:开发者可以根据不同的需要来创建自己的d t d ,为不同的应用定制不同的标一记集。( 3 ) 操作性:x m l 可以在多种平台上使用。并且x m l 文档的结构是相容的,所以一4 一大连理j :人学硕十学何论文分析文档的解析器可以很容易地建立。( 4 ) 开放性:结构良好的x m l 文档可以被容易地进行语法分析。即使各个用户建立特定的与其他用户不同的x m l 应用,但x m l 中的数据仍可以被其它的应用使用【4 1 。x m l 的主要优点是:( 1 ) 支持异质系统问的相互通信。x m l 使用的是公开、非专有格式,不受知识产权的限制。x m l 的开放性决定了它可成为异质系统之间进行交流的媒介,各系统只要装有x m l 解析工具,便可理解以x m l 为中介由其它系统传送的信息并加以利用,而不用考虑对方的信息格式和使用特殊的软件而完成跨平台的交流,这有力地促进了电子商务和w a p 的发展。( 2 ) 保值性。x m l 是s g m l 的精简网络版。s g m l 是一种有着十几年历史的国际标准,是一种用标记来描述文档资料的通用语言。它当初设计的目标之一就是为文件提供较长的寿命,以保证新版的文书编辑软件能够对旧版的文件忠实地再现。x m l 保留了这个特性,它是自描述的、使用非常简单的数据格式,可以用纯a s c i i 文本来书写。同时,与压缩文件和串行的j a v a 对象不同,即使丢失一部分数据仍是可以读取的。( 3 ) 结构化和集成的数据。由于x m l 是数据驱动的标识语言,文档中所有的内容几乎都是数据和数据结构,只有关于x m l 解析器不以数据为主。因而,x m l 很容易进行精确检索,并可以根据多种来源集成数据并将其作为一个文档来显示。数据可以进行重新排列,数据的各部分可以根据用户的操作隐藏或显示,这有利于信息仓库的集成处理。总之,x m l 是元标记语言,用户可以定义自己需要的标记。它描述的是文档的结构和语义而不是页面元素的格式化。很多商业性组织和研究机构都致力于相关技术的研究,x m l ,x s l ,x p a t h ,x m l 模式,d t d ,p i ,x s l t ,x s p ,j a x p t m ,s a x ,d o m等术语的相继出现,x m l 已经显示出了强大的生命力,它的发展必将促进网络质的飞跃f 】。2 2x m l 简介x m l 推荐标准1 0 版于1 9 9 8 年2 月由w 3 c 发布,在短短的几年里,x m l 以惊人速度在广大的设计人员中传播开来。x m l 可以说是最新的网络发展的语言,x m l 具有h t m l 所欠缺的巨大的伸缩性和灵活性,使用者可以根据需要自行标记来描述各种数据,从而使数据表示的内容更丰富,随着i n t e m e t 的飞速发展,h t m l 开始对更多的网络设计要求显露出力不从心的疲态,特别是在电子商务方面的应用。x m l 也就是在这种大环境下孕育而生的。简要地讲,x m l 是一种描述型的标记语言,与h t m l 同为s g m l ( 标准通用标一记语言,一种功能十分强大但也非常复杂的标记语言,是i s o 8 8 7 9关系型与x m l 数据库格式转换方法及应用国际标准1 的一种应用。设计之初,x m l 的目标之一是取代h t m i 为新出现的复杂的w e b 应用提供标准的i n t e r n e t 语言。然而,由于x m l 在可扩展性、可移植性和结构性等方面的突出优点而且它也有非常强大的数据支持功能,它的应用范围早已突破了h t m l 所达到的范围。x m l 的发展有力地推动了i n t e m e t 尤其是电子商务的发展,x m l 有利于数据交换和传递的特性为电子商务,尤其是b 2 b 带来了革命性的冲击。x m l 在电子商务的内容定义和信息交换这两个重要方面起重要作用。例如,网上商务协会c o m m e r c e n e t 定义通用于多种商业事务的数据元素,而开放的、基于文本的x m l 非常适合于服务器之间交换事务信息。x m l 所采用的标准技术最适合w e b 开发,应用于i n t e r n e te d i ( e l e c t r o n i cd a t ai n t e r c h a n g e ,电子数据交换) ,则可以得到真正w e b 风格的e d i x m l e d i 。x m l 支持结构化的数据,可以更详细地定义某个数据对象的数据结构。而且x m i _ e d i 引进了模板概念,解决了e d i 存在的主要问题映射问题。模板描述的不是消息的数据,而是消息的结构以及如何解释消息,能做到无须编程就可实现消息的映射。x m l 的另一个好处是大大降低了数据管理和交换的成本。传统的e d i 是通过使用s m t p 和f t p 来进行数据格式转换的,而x m l 具有一套统一的数据格式,它使数据管理和交换的成本更低。m i c r o s o f t 建议x m l d a t a 方案,使用x m l 写x m l 元数据,快速开发x m l 应用,并简化对结构和内容的确认。x m l 为w e b 数据带来了结构化、智能化和互操作性,将会引发w e b 查询技术、w e b 数据库技术以及w e b 数据交换技术的全面革新,b 2 c 和b 2 b模式的电子商务的数据将更加容易交换。总之,x m l 所具有的新特性将推动电子商务的发展,改变数据的交换方式1 6 1 。今天,x m l 在很多领域中崭露头角,这其中包括传统的数据库技术的范畴。例如,人们开始考虑用x m l 文档来存储、组织和管理i n t e r n e t 上浩如烟海的庞大信息资源。下面先对x m l 作个简要的介绍。2 3x m l 与h t m l 的区别( 1 ) 信息提供者能够根据需要自行定义新的标识及属性名;( 2 ) 文件结构的嵌套可以复杂到任意程度;( 3 ) x m l 文件可以包括一个语法描述,使应用程序可以对此文件进行结构确认;( 4 ) x m l 有最大限度的表示力、易用性和易懂性。符合w 3 c 的h t m l 3 2 规范的文件可以非常容易地被转换为x m l 文件,从数据库生成的文件也可以被转成x m l 文件。x m l 文档中引入了“文档类型声明”( d o c u m e n tt y p ed e c l a r a t i o n s ) 。d t d 使文档一6 一大连理工人学硕十学位论文可以与分析器交流关于它的内容的元信息。元信息包括:被允许的标注的次序和嵌套,属性值和它们的类型以及默认值,可能引用到的外部文件的名字和它们是否包含x m l可能包含的一些外部数据( 非x m l ) 的格式,以及可能遇到的实体。d t d 的出现,赋予了x m l 文档可扩展性、结构性和可验证性。正因为如此,x m l具备了类似于数据库的一些性质,人们可能利用x m l 来组织和管理信息。与此同时,又可以与h t m l 一样在浏览器中方便地表示,在i n t e r n e t 上高效地传递和交换。考虑到与h t m l 的兼容,d t d 并不是x m l 文档必须的成份。具有d t d 的x m l 文档称作“v a l i d ”,否则就是“w e l l f o r m e d 。目前,处理x m l 文档的方式主要有s a x 与d o m 两种。s a x ( s i m p l e a p if o rx m l )是一种基于流的、以事件处理方式工作的接口。d o m ( d o c u m e n to b j e c tm o d e l ) 则是在对x m l 文档进行分析后,在内存中建立起一个完整的树的结构,然后在此基础上进行各种操作。简单地比较来看,s a x 对系统资源要求低,速度快,但对文档的操作是只读的;d o m 的处理能力强大,但要求大量的系统资源,尤其是对于大的文档。x m l 目前正在成为各种数据特别是文档的首选格式。由于它具有标记不同字段( f i e l d ) 的能力,使得搜索变得更简单和动态化,从而把企业准备扔进废纸篓的文件变成了进行数据挖掘的宝藏。x m l 把内容从演示格式中解放出来,使材料可以多次重复使用。这样一来,同样的内容可以分别用于新闻发布、白皮书、宣传册、演示和w e b 页面。对那些需要把不兼容的系统融合在一起的企业,x m l 可以充当公共传输工具,以中性格式进行数据传输。此外,x m l 还可以处理各种数据,包括文本、图像和声音,并且可以由用户进行扩展以处理任何特殊类型的数据。x m l 的特性使之成为在线和离线数据的共同语言。x m l 是一种表意而非表形的元语言。采用不同的显示页( s t y l e s h e e t ) 就可以做到同一数据源却有不同途径的显示结果。它是i n t e m e t 的标准语言,因而具有跨操作平台、跨区域的特点,是网络世界里的一种“世界语”,由于用x m l 所写的文件能为机器所解读,因而使得网络世界罩“服务器对服务器( s e w e rt os e r v e r ) ”的应用成为可能,从而奠定了i n t e m e t 应用自动化的基础。围绕着x m l 已经形成了一大批新的技术及标准。目前,x m l 数据已逐渐用于实际应用。可以预见,今后的一段时间内,x m l 数据将爆炸性地递增而出现在i n t e m e t 世界里。而x m l 数据的大量应用在呼唤着新型数据库系统的面世。目前对x m l 的研究主要有两个方面:( 1 ) 利用x m l 与半结构化数据的相似性,在原先半结构化数据的研究成果上支持x m l 的存储和查询功能。关系型与x m l 数据库格式转换方法及应用( 2 ) 利用传统关系数据库已有的研究成果,实现x m l 文档到关系数据库记录之间的转换,从而实现利用关系数据库存储、查询x m l 数据的功能。( 3 ) 利用半结构化数据库技术实现x m l 的存储,实现x m l 数据的存储和查询。这种方法实现起来比较彻底,重新开始建筑数据库,则以前关系数据库的成果很难运用到,这种方法的工作量比较大。( 4 ) 利用关系数据库实现,虽然可以实现数据库,但其存储前后的转换工作是比较繁杂的。为了消除半结构化数据与二维数据之阳j 的差别,其转换工作使原有半结构化数据部分信息丢失。数据查询结束后,还要将二维数据转变为x m l 数据的多层嵌套格式。总的来说,这种方法不直接。但其建筑在商业关系数据库基础上,实现工作相对其它方法来说要轻松i7 。2 4x m l 与关系数据库的结构关系要存储和获取数据,可以使用一个数据库,常用的数据库模型有三种,分别为( 关系型数据库、网状数据库、层次型数据库) ,目前广泛使用的是关系型数据库。各种商用的数据库管理系统对于数据的存贮和表示方法各不相刚引,在目前以互联为主的网络时代里,各种数据的交换和相互的转化是不可避免的。如图2 1 所示:图2 1 异构数据库之间转化f i g 2 1h e t e r o g e n e o u sd a t a b a s e si n t e r t r a n s f o r m a t i o n本文以x m l 为异构数据库模型之间转化的中间格式,这对于不同的数据库,只要以x m l 为标准编写数据库与x m l 之问的转换即可,这样极大地降低了开发成本,实现了线性成本的数据转换模式。如图2 2 所示:一8 一人连理i :人学硕士学位论文图2 2 异构数据库转换模型f i g 2 2m o d e lo fh e t e r o g e n e o u sd a t a b a s e si n t e r t r a n s f o r m a t i o n在关系数据库模型中,数据库是关系的集合。每一个关系就是由若干个带有同样属性的元组组成的集合,并且通常一个关系都用一个二维的表格来表示,即数据库是由一个个的表构成的。对于每一个表,通常由多条记录组成,每一条构成的。对于每一个表,通常由多条记录组成,每一条记录代表一个数据。记录的集合构成记录集。每一条记录由若干的字段组成,字段有着各种属性,比如数据类型、是否允许空、是否是主键等。对于数据库中的各个表之间,可能存在着依赖关系,这些依赖关系靠外键进行定义。关系数据库一般h q - - 层模型组成1 9 】,每个字段的值是原子的,不包含一系列值。如图2 3所示:图2 3 关系数据库的三层模型f i g 2 3t h r e e l a y e rm o d e lo fr e l a t i n a ld a t a b a s ex m l 数据模型与关系型数据模型有很大的区别,可以是任意深度的树。x m l 与关系模型之间结构的关键问题是如何定义有效的映射。本文中根据关系数据库与x m l 的关系,可以将表格映射为x m l 的元素名称,将字段映射为属性,表格中的每一行可以对应一个空元素,字段值对应相应的属性值。一9 一加关系型与x m l 数据库格式转换方法及应用2 5 远程教育的概念与发展远程教育( d i s t a n c ee d u c a t i o n ) 是从2 0 世纪后半叶逐渐发展起来的一种新型的教育形式,它是一种教与学在物理时空位置上相互分离的教育形式,近几年来,随着计算机网络技术和多媒体数字技术的高速发展,远程教育被赋予了新的内涵;它以学习者为主体,以计算机技术、多媒体技术、通信技术和i n t e r n e t 网络等高新技术为主要教学手段和传播媒体,运用图像、文字、动画、音频和视频相结合的一种新型的交互式网络教育方式。远程教育的发展可以归纳为三个阶段:( 1 ) 第一代远程教育认为是传统的函授教育。函授教育起源于1 9 世纪,1 8 4 0 年英国函授教育的始祖萨克皮特曼把速记教程第一次通过邮局寄给学生。1 8 4 9 年,英国伦敦大学首创校外学位制度,允许英国和英联邦各国任何高等学校的学生报考伦敦大学的学位课程,并为注册报考者提供函授教学。因此,1 8 4 9 年可以看作世界上远程教育的诞生年代。中国的函授教育起源于1 9 世纪的5 0 年代,至今仍在成人教育中发挥着很大的作用。( 2 ) 第二代远程教育是利用广播、卫星为媒体传送教学内容的教育形式。电视无疑是2 0 世纪的变革技术,而有线电视的普及可以说又将教育节目带入了千家万户。1 9 2 0年,英国马可尼公司所属的电台首创了教育广播节目。1 9 2 1 年,美国联邦政府向盐湖城大学发放了第一个广播教育特许证。1 9 4 5 年,美国威斯康星大学通过联邦通信委员会( f c c ) 建立了第一家教育电视台,这是世界上第一次出现的电视教育。1 9 6 9 年,英国开放大学的创建是第二代远程教育的重要里程碑,为远程教育争取到了合法地位,并证明了远程教育现实可行。7 0 年代后,世界各地掀起了兴办远程教育的热潮。我国的电视教育以1 9 7 8 年成立的中央广播电视大学为标志,随后的2 0 多年得到了突破性的大发展。基于现有的广播电视网络和卫星传输技术,覆盖面广,收听、收视率高,有着雄厚的物质基础和广泛的群众基础。但是,这种远程教育存在着与教育规律相违背之处:首先,这种教育只能实现单向信息传输,学生的学习状况不能反馈;其次,这种教育是非实时和非交互的,学生与教师不能同步参与教学活动,不能互相交流和讨论;此外,这种教育不符合个性化教育思想。( 3 ) 以现代化信息技术为标志构成的远程教育则属于第三代远程教育,我们称之为现代远程教育。现代远程教育是将信息技术作为一种先进的工具平台,将信息技术和现代教育思想有机结合起来。与前两代远程教育相比,它除具备教与学相互分离的特征外,更体现了个性化教育。现代远程教育几乎融入了8 0 年代以来所有通信信息领域的最新技术,建立在计算机技术、网络技术、多媒体技术、双向电子通信技术与教育传播理论,大迮理工人学硕+ 学位论文现代学习理论紧密结合的基础上,以交互性、网络化、实时性、综合性和适应性为基本特征,这些新的技术和理论体系给新的教育模式带来了强大的技术支持和发展契机,将一个全新的新一代教育方式和教学模式展现给2 1 世纪。2 6 实行远程教育的理论基础正如前面介绍的那样,现代信息领域各种新技术的迅速发展和演变,给远程教育体系带来了强大的技术支持,同时各类教育传播理论也为远程教育开辟更广泛、更合理的教育模式提供了强有力的理论支持。归结起来,这些教育传播理论主要包括:行为主义:行为主义认为,人们的学习在很多情况下是一种尝试、错误的过程:在这个过程中,学生接收某种刺激,并对刺激做出某种反应。当刺激和反应的结合带来某种满足时,这种结合将会得到加强,否则这种结合就会削弱。这种基于刺激反应的学习理论称为s r 理论。基于这种理论,有人提出一种程序学习及程序教学的教学方法。这种方法要求在学生接受刺激,做出反应后,教师应对学生的反应给予一定的反馈,以增强教学效果。认知主义:认知主义强调内部的思维在学习中的作用。认知主义者认为,学生的学习是在具有一定逻辑结构的学习资料与学生本身所具有的某种认知结构相互关联、相互作用的过程中进行的。学生的认识水平、认知特点、认知心理,对学生的学习有着重要的影响。因此在教学过程中,一方面要认真研究学生的认知结构和认知特点,另一方面要认真研究知识的结构特点,将知识以学生容易接受和理解的方式呈现给学生,并以适当的方式进行教学支援和控制,以促进学生实现有效的学习。建构主义:建构主义者认为人们对事物的认识与个体先前的经验有关,个体的认识过程就是个体与环境相互作用的过程。个体通过同化和顺应两种方式来建构知识;同化就是把环境因素纳入个体已有的结构之中,丰富和加强个体的结构体系,这是认识结构数量的扩充。顺应就是个体的知识结构发生变化,以适应环境,这是认识结构性质的变化。同化和顺应是个体在认识过程中,对他的先前经验知识与环境相互作用的反应。个体通过他们来完成将认识事物建构为自己的知识。建构主义者认为,知识不是通过教师的传授得到的,而是通过学生个体在与环境的相互作用中自行建构的。因此,在教学过程中,学生应处于中心地位,教师是学习的支援者。他们还提出了情景化学习、认识学徒、锚定式学习等教育理念。不难看出,行为主义更多的是强调外部事件对学习的影响,而作为学习的主体学生始终处于一种被动的地位,像早期的教育形式多以这种理论作为指导,产生了“填鸭式”的教育方式。认知主义则与行为主义不同,它更多的是强调学生自身的认知能力对学习关系型与x m l 数据库格式转换方法及应用的影响,强调教学必须充分考虑学生的实际情况和知识的内在特点。建构主义强调学习主体学习的过程即是与环境相互作用的过程,它不光强调学习者的主体地位,还强调外部事件对学习者的影响力,这对于现今的远程教育形式的实行提供了重要的理论依据。我们需要认识到开发一个设计良好的学习环境对学习者的学习具有很大的作用,因此,在开发远程教育系统的过程中,我们始终需要坚持建构主义的理论。2 7 数据挖掘定义从技术上讲,数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。知识的定义从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。从应用上讲,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论