(计算机软件与理论专业论文)基于xml的远程教学技术研究与应用.pdf_第1页
(计算机软件与理论专业论文)基于xml的远程教学技术研究与应用.pdf_第2页
(计算机软件与理论专业论文)基于xml的远程教学技术研究与应用.pdf_第3页
(计算机软件与理论专业论文)基于xml的远程教学技术研究与应用.pdf_第4页
(计算机软件与理论专业论文)基于xml的远程教学技术研究与应用.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机软件与理论专业论文)基于xml的远程教学技术研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文将主要研究:基于x m l 的远程教学问题、基于x m l 的数据挖掘 以及数据之间格式转换,后两者将成为本文研究的重点。 x m l 是一种可扩展的、自描述数据格式。n e t 提供支持x m l 的数据 接口。n e t 与x m l 结合是本文中异构数据库相互转换,远程教学和数 据挖掘的解决方案。 本文首先对x m l ,远程教学技术和w e b 的半结构化数据特点做了简 单介绍;接着对关键技术- x m l 与关系数据库之间的相互转换进行了深 人的研究,阐述了转换过程中的原理、思想精髓等重点问题,提出了通 用的转换规则,着重介绍了基于模型驱动的转换算法;同时还介绍了基 于x m l 的数据挖掘技术,在n e t 环境下数据绑定的过程,并提出了一 个远程教学的模型。介绍了模型的结构、功能和技术实现。并分析有待 改进之处,作为将来研究方向的参考。 关键词:x m l ,异构数据库,远程教学,数据挖掘,对象一关系模型 a b s t r a c t t h i sa r t i c l em a i n l yr e s e a r c h :d i s t a n c et e a c h i n gb a s e dx m l ,d a t a m i n i n gb a s e dx m la n dt h ec o n v e r s i o no fd a t af o r m a t l a t t e rt w ow i l l b e c o m ei m p o r t a n tp o i n tw h i c ht h i sa r t i c l ew i l ls t u d y x m li sa ne x t e n s i v ea n ds e l f - d e s c r i p t e dd a t af o r m a t n e tp r o v i d e st h e i n t e r f a e ew h i c hs u p p o r tx m l n e tw i t ht h ex m lu n i o ni si nt h i sa r t i c l et h e i s o m e r i s md a t a b a s ei n t e r c o n v e r s i o n ,t h e c o o p e r a t i o n s t u d i e sa n dd a t a m i n i n gs o l u t i o np l a n t h i sa r t i c l ef i r s ti n t r o d u c e dt h ex m l ,t h ed i s t a n c et e a c h i n gt e c h n o l o g y a n dt h ew e bh a l fs t r u c t u r ed a t ac h a r a c t e r i s t i c a f t e rt h a t ,r e s e a r c hd e e p l y t h ei m p o r t a n tt e c h n o l o g y :t h ei n t e r c o n v e r s i o nb e t w e e nx m la n dt h e r e l a t i o n a ld a t a b a s e ie l a b o r a t e di nt h ep r i n c i p l eo fs w i t c h i n gp r o c e s s ,t h e 也o u g h te s s e n c ea n ds oo n 。p r o p o s e dt h eg e n e r a lt r a n s f o r m a t i o nr u l e , i n t r o d u c e dt h ec o n v e r s i o na l g o r i t h mb a s e do nt h em o d e la c t u a t i o ne x t e n s i o n b e s i d et h a t ,ii n t r o d u c et h et e c h n o l o g yo fd a t am i n i n gb a s e do nx m l ,t h e p r o g r e s so fd a t ab a n d i n gu n d e r 。n e te n v i r m e n ta n dp r o p o s e dad i s t a n c e t e a c h i n gm o d e l i n t r o d u c et h es t r u c t u r e ,t h ef u n c t i o na n dt h et e c h n i q u eo f t h em o d e l a n dt h ea n a l y s i si m p r o v e m e n t i n gp l a c eb e c o m e st h er e f e r e n c eo f s t u d yd i r e c t i o n k e yw o rds :x m l ,h e t e r o g e n e o u sd a t a b a s e s ,d i s t a n c et e a c h i n g ,d a t a m i n i n g ,o b j e c t - r e l a t i o nm o d e l 长春理工大学硕士学位论文原创性声明 本人郑重声明:所呈交的硕士学位论文,基于x m l 的远程教学技术研究与应用是本人在指导教师的指导 下,独立进行研究工作所取得的成果。除文中已经注明引 用的内容外,本论文不包含任何其他个人或集体已经发表 或撰写过的作品成果。对本文的研究做出重要贡献的个人 和集体,均已在文中以明确方式标明。本人完全意识到本 声明的法律结果由本人承担。 作者签名:至盔由塑幽年三月丛日 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学 硕士、博士学位论文版权使用规定”,同意长春理工大学 保留并向国家有关部门或机构送交学位论文的复印件和 电子版,允许论文被查阅和借阅。本人授权长春理工大学 可以将本学位论文的全部或部分内容编入有关数据库进 行检索,也可采用影印、缩印或扫描等复制手段保存和汇 编学位论文。 作者签名:至揖 乙型3 年j 月篡日 指导导师签名:显这塾竺丝1 年上月丝日 第一章绪论 1 1 课题研究的背景 当今w e b 技术的发展一日千里,从而使w e b 成了最大的环球信息资 源库。其丰富的信息资源给人们的学习和生活带来了极大的便利。基于 w e b 的远程教育迅速的发展起来。但由于w e b 资源的复杂化、多样化, 数据量的日趋庞大对网络的传输能力也提出更高的要求。因此对不同平 台、不同格式的数据源进行数据集成和数据转化等等成为了远程教学急 需解决的问题。此外,如何从繁多复杂的数据中获得有用的信息也成为 迫在屑睫的问题。这一系列的问题就是本课题研究的背景。 1 2x m l 国内外的研究现状与发展趋势 x m l1 0 版本标准已于1 9 9 8 年制订,并且针对诸如金融和医药等许 多特殊行业的该语言标准也已完成,据不完全统计已经有多达3 5 0 项。 当整个互联网的信息在) 【m l 的平台上整合应用,现在信息海洋的杂乱无 章就会得到根本的改善。微软与i b m 携手推出下一代x m l 的标准规范; 占据互联网数据库市场绝大份额的o r a c l e ,也将其主打产品的最新版 本与x m l 紧密融合;对) ( m l 的支持几乎成为每一个支持i n t e r n e t 软件 系统的必备功能。而在诸如此类的动作当中,最为引入瞩目的莫过于微 软力推的n e t 计划,它所采用的基础平台就是x m l 。垄断者的选择,无 疑又为温度极高的x m l 世界增添了重重的砝码。 有专家预计,数据库厂商不久就将推出自己的n a t i v e x m l 数据库, 以满足基于w e b 的电子商务对x m l 数据处理的需求。在未来的一年中, 会有更多的网络应用支持并采用x m l 技术和平台,在此基础上,第三代 互联网轮廓凸现。未来的w e b ,将在高度统一、开放的数据标准之下, 透过无所不在的应用终端,展开随时随地的移动交换和计算,提供个性 化的界面、规范化的流程和数据质量的保证。总之,x m l 的需求正在扩 大,新的应用包括采用) ( m l 标签的i n t e r n e t 搜索引擎、必须快速输出 结果的电子商务系统、带x m l 标签的电子数据交换、数据重复使用和内 容个性化。作为处理上述应用的一环,与) ( m l 有关的数据库需求也将快 速增长。 1 3 国内外远程教育的发展状况 在美国几乎所有的大中小学都已接人i n t e r n e t ,并不同程度地开展 远程教育;据美国联邦教育部国家教育统计中心对中等教育机构远程教 育的调查,2 0 0 1 2 0 0 2 年,美国5 0 2 0 所大学中有1 6 9 0 所提供远程教育 课程,占高等学校总数的3 4 。约1 6 6 万学生注册接受各种形式的远程 高等教育,占所有类型高校在校生总数( 约为1 4 3 4 万) 的1 1 6 ,预计 到2 0 0 6 年底,8 0 以上的美国大学将在传统教学方式中引入远程教育。 英国计划在2 0 0 6 年年底以前,建立全国教育网络,把全国的学校 免费与i n t e r n e t 连通,给每个学生配备电子邮件地址。至今,英国全 国各级学校都建立了自己的网上学校。 在日本远程教育大多用在校内研究生和高校之间的课程交流上,主 要利用i s d n 和a t m 网络进行远程的双向的电视教学,同时注重多媒体 教材的建设并积极开展网上教学实验。 亚洲、欧洲、美洲、大洋洲的许多国家,也都在积极发展现代远程 教育。 在我国,远程教育已经成为网络技术最重要的应用领域之一。继几 年前中国教育科研网和众多校园网的建成和应用之后,教育部又批准了 清华大学、北京邮电大学、浙江大学、湖南大学等3 0 多所远程教育试 点单位。截至2 0 0 2 年初,试点高校网络教育学院在校生达2 4 万人,已 开设8 个大类5 1 个专业,组织了近3 0 0 门课程和一批素材库、案例库, 网络教育的覆盖面已达3 1 个省、自治区和直辖市。依托与互联网的中 小学网校正在逐渐建立。截至1 9 9 9 年底,我国开展信息化教育的中小 学已达1 0 万所,其中高中、初中、小学各占三分之一,部分有条件的 中小学实现了计算机联网,个别城市中主要的中小学已经连人c e r n e t 。 据估计,到2 0 0 6 年底,全国将有1 5 0 。所中学建立示范校园网,初步 形成中小学教育和家庭教育服务的虚拟“中小学教育教学网”。此外, 在成人教育方面,我国各地原有的远程教育系统正在向网络转移,形成 多种媒体共存的新格局。 1 4 基于x m l 的异构数据转换 由于远程教育所涉及的数据比较繁多,而且由于地点的不同,所应 用的数据存储介质也大不相同。因此,需要对异构的数据统一化,基于 x m l 的各种优点,因此我选用x m l 。虽然,当前流行的大型数据库( 如 o r a c l e ,s q l s e r v e r 等) 提供了) ( m l 的存储策略,但是只能在本数据库中实 现存储,而且各数据库的存储策略不同,有些只提供从关系数据库到x m l 数据的提取。其他一些小型数据库( 如m y s q l ,a c c e s s ) 并未实现,因此不 具有通用性。 因此我设计了基于对象一关系模型驱动的x m l r d b 转换原型系统, 该转换原型系统使得用户能以可视化和可配置的方式来定义) ( m l 和数据 库之间的映射方式,将为用户提供完整的数据库和x m l 的解决方案,提 供双向的转换,既解决基于x m l 的发布,又能提供从x m l 数据到数据库的 存储机制,你可以通过它在任何的平台中连接到任何通用的数据库,提 供多个数据源的数据获取以及从x m l 数据到不同数据库的转换,在本研 究中,主要通过此模块将各种异构的数据转换为x m l 数据提供给w e b 使 2 用,并将w e b 上操作的数据转换到各种异构数据库中。 1 5 本论文主要完成的工作 1 、基于模型驱动实现x m l 与关系数据库的转化,从而实现对异构 数据库的转换。解决由于远程教育所涉及的数据比较繁多,而且地点的 不同,所应用的数据存储介质也大不相同,而导致数据不能共享的问题。 2 、根据模糊挖掘算法,创建试题分类模块,实现对】( m l 试题文档 中的试题进行分类并存储为) ( m l 文档。 3 、根据远程教育的需要,方式和方法。结合现代的教育需求,实 现基于x m l 的远程教育系统。 第二章x m l 、数据挖掘与远程教学简介 2 1 发展x m l 的背景及x m l 的特性 i n t e r n e t 的发展将人们带入了一个信息爆炸的时代。但网上信息 的海量和无组织性使得它只是一个杂乱无章的信息仓库,在进行信息检 索时常常发生“信息迷向”,因而人们希望能够得到更加“智能化”的 信息服务。h t m l 文档着重描述w e b 页面的显示格式,它不容易被解析、 检索以及“智能化”的处理,与之相关的基于关键词的检索技术虽然已 经相对成熟,但却很难满足“智能化”信息服务的需要。在新需求的推 动下,人们提出了一种着重描述w e b 内容的可扩展标记语言x m l ( 可扩 展标记语言,e x t e n s i b l em a r k u pl a n g u a g e ) 。 x m l ( 可扩展标记语言,e x t e n s i b l em a r k u pl a n g u a g e ) 是 s g m l ( s t a n d a r d6 e n e r a l i z e dm a r k u pl a n g u a g e ,通用标识语言标准) 的一个子集,它是一套定义语义标记的规则,这些标记将文档分成许多 部件并对该部件加以标识。它也是元标记语言,能够用来定义与特定领 域有关的、具有语义信息的、结构化的标记语言的句法,从而有利于信 息的表达和结构化组织,使数据检索和处理更加有效。x m l 的基本思想 是:用标记表示数据的意义,而不是像h t m l 仅仅用来规定数据的显示方 式。) ( m l 将内容和形式相分离具有很重要的意义:那些将数据以) ( m l 格 式编码的w e b 服务和应用程序可以迅速地以一种简单、有效的格式提供 这些数据信息,这些w e b 服务和应用程序之间也可以很容易地进行交 互;并且可以通过) ( m l 等对同一数据内容提供多种数据表示形式。) c m l 突破了h t m l 的固定标记集合的约束,用户可以根据需要定义任何一种 标签来描述文档中的数据元素0 1 。 x m l 之于数据正如l a v a 之于程序,将使数据与平台和厂商无关。 这一能力正在推动一波) ( m l 中间件应用,1 9 9 9 年初开始随处可见。删l 本身可以提供标准化的数据库和电子表格的交换格式。 ) ( m l 具有以下4 个主要特点: ( 1 ) 简单性:x m l 的严格定义和规则使得人和机器都能够更容易地 阅读x m l 文档。由于x m l 文档是建立在基本嵌套结构的基础之上,所以 当新的细节被增加,结构变得越来越复杂时,开发人员并不需付出很大 代价来表示复杂的结构。 ( 2 ) 扩展性:开发者可以根据不同的需要来创建自己的d t d ,为不 同的应用定制不同的标一记集。 ( 3 ) 操作性:x m l 可以在多种平台上使用。并且x m l 文档的结构是 相容的,所以分析文档的解析器可以很容易地建立。 4 ( 4 ) 开放性:结构良好的) ( m l 文档可以被容易地进行语法分析。即 使各个用户建立特定的与其他用户不同的x m l 应用,但x m l 中的数据仍 可以被其它的应用使用。 ) ( m l 的主要优点是: ( 1 ) 支持异质系统间的相互通信。x m l 使用的是公开、非专有格式, 不受知识产权的限制。x m l 的开放性决定了它可成为异质系统之间进行 交流的媒介,各系统只要装有x k l l 解析工具,便可理解以x m l 为中介由 其它系统传送的信息并加以利用,而不用考虑对方的信息格式和使用特 殊的软件而完成跨平台的交流,这有力地促进了电子商务和w a p 的发 展。 ( 2 ) 保值性。x m l 是s 酬l 的精简网络版。s g m l 是一种有着十几年历 史的国际标准,是一种用标记来描述文档资料的通用语言。它当初设计 的目标之一就是为文件提供较长的寿命,以保证新版的文书编辑软件能 够对旧版的文件忠实地再现。捌l 保留了这个特性,它是自描述的、使 用非常简单的数据格式,可以用纯a s c i i 文本来书写。同时,与压缩文 件和串行的j a v a 对象不同,即使丢失一部分数据仍是可以读取的。 ( 3 ) 结构化和集成的数据。由于x m l 是数据驱动的标识语言,文档 中所有的内容几乎都是数据和数据结构,只有关于x m l 解析器不以数据 为主。因而,x m l 很容易进行精确检索,并可以根据多种来源集成数据 并将其作为一个文档来显示。数据可以进行重新排列,数据的各部分可 以根据用户的操作隐藏或显示,这有利于信息仓库的集成处理。总之, ) 【m l 是元标记语言,用户可以定义自己需要的标记。它描述的是文档的 结构和语义而不是页面元素的格式化。很多商业性组织和研究机构都致 力于相关技术的研究:y j d l ,x s l ,x p a t h ,f d j l 模式,o t d ,p i ,x s l t ,x s p j a x p t m ,s a x ,d o m 等术语的相继出现,) ( m l 已经显示出了强大的生命力, 它的发展必将促进网络质的飞跃* ,。 2 2x m l 简介 ) ( l l 推荐标准1 0 版于1 9 9 8 年2 月由w 3 c 发布,在短短的几年里, ) 【m l 以惊人速度在广大的设计人员中传播开来。x m l 可以说是最新的网 络发展的语言,x i j l 具有h t m l 所欠缺的巨大的伸缩性和灵活性,使用 者可以根据需要自行标记来描述各种数据,从而使数据表示的内容更丰 富,随着i n t e r n e t 的飞速发展,h t m l 开始对更多的网络设计要求显露 出力不从心的疲态,特别是在电子商务方面的应用。x m l 也就是在这种 大环境下孕育而生的。简要地讲,x m l 是一种描述型的标记语言,与h t m l 同为s g m l ( 标准通用标一记语言,一种功能十分强大但也非常复杂的标 记语言,是i s 0 - 8 8 7 9 国际标准) 的一种应用。设计之初,删l 的目标之 一是取代h t m i 为新出现的复杂的w e b 应用提供标准的i n t e r n e t 语言。 5 然而,由于) ( m l 在可扩展性、可移植性和结构性等方面的突出优点而且 它也有非常强大的数据支持功能,它的应用范围早已突破了h t m l 所达 到的范围。 x m l 的发展有力地推动了i n t e r n e t 尤其是电子商务的发展,x m l 有 利于数据交换和传递的特性为电子商务,尤其是b 2 b 带来了革命性的冲 击。x m l 在电子商务的内容定义和信息交换这两个重要方面起重要作用。 例如,网上商务协会c o m m e r c e n e t 定义通用于多种商业事务的数据元 素,而开放的、基于文本的x m l 非常适合于服务器之间交换事务信息。 x m l 所采用的标准技术最适合w e b 开发,应用于i n t e r n e t e d i ( e l e c t r o n i cd a t ai n t e r c h a n g e ,电子数据交换) ,则可以得到真正 w e b 风格的e d i x m l e d i 。x m l 支持结构化的数据,可以更详细地定 义某个数据对象的数据结构。而且) ( m l e d i 引进了模板概念,解决了 e d i 存在的主要问题一映射问题。模板描述的不是消息的数据,而是消 息的结构以及如何解释消息,能做到无须编程就可实现消息的映射。x m l 的另一个好处是大大降低了数据管理和交换的成本。传统的e d i 是通过 使用s 们p 和f t p 来进行数据格式转换的,而x m l 具有一套统一的数据 格式,它使数据管理和交换的成本更低。m i c r o s o f t 建议x m l d a t a 方案, 使用) ( l l 写x m l 元数据,快速开发x m l 应用,并简化对结构和内容的确 认。x m l 为w e b 数据带来了结构化、智能化和互操作性,将会引发w e b 查询技术、w e b 数据库技术以及w e b 数据交换技术的全面革新,b 2 c 和 b 2 b 模式的电子商务的数据将更加容易交换。总之,x m l 所具有的新特 性将推动电子商务的发展,改变数据的交换方式m 。 今天,x m l 在很多领域中崭露头角,这其中包括传统的数据库技术 的范畴。例如,人们开始考虑用x m l 文档来存储、组织和管理i n t e r n e t 上浩如烟海的庞大信息资源。下面先对x m l 作个简要的介绍。 2 3x m l 与h t m l 的区别 ( 1 ) 信息提供者能够根据需要自行定义新的标识及属性名; ( 2 ) 文件结构的嵌套可以复杂到任意程度; ( 3 ) x m l 文件可以包括一个语法描述,使应用程序可以对此文件进行 结构确认; ( 4 ) x m l 有最大限度的表示力、易用性和易懂性。符合w 3 c 的h t m l 3 2 规范的文件可以非常容易地被转换为x m l 文件,从数据库生成的文件也 可以被转成x m l 文件“。 x m l 文档中引入了“文档类型声明”( d o c u m e n tt y p ed e c l a r a t i o n s ) 。 d t d 使文档可以与分析器交流关于它的内容的元信息。元信息包括:被 允许的标注的次序和嵌套,属性值和它们的类型以及默认值,可能引用 到的外部文件的名字和它们是否包含x m l 可能包含的一些外部数据( 非 6 ) ( m l ) 的格式,以及可能遇到的实体。 d t d 的出现,赋予了x m l 文档可扩展性、结构性和可验证性。正因 为如此,x m l 具备了类似于数据库的一些性质,人们可能利用) ( m l 来组 织和管理信息。与此同时,又可以与h t m l 一样在浏览器中方便地表示, 在i n t e r n e t 上高效地传递和交换。考虑到与h t m l 的兼容,d t d 并不是 ) ( m l 文档必须的成份。具有d t d 的x m l 文档称作“v a l i d ”,否则就是 “焉e 1 1 一f o r m e d ”。 目前,处理x m l 文档的方式主要有s a x 与d o m 两种。s a x ( s i m p l ea p i f o rx m l ) 是一种基于流的、以事件处理方式工作的接口。d o m ( d o c u m e n t o b j e c tm o d e l ) 则是在对x m l 文档进行分析后,在内存中建立起一个完 整的树的结构,然后在此基础上进行各种操作。简单地比较来看,s a x 对系统资源要求低,速度快,但对文档的操作是只读的;d o m 的处理能 力强大,但要求大量的系统资源,尤其是对于大的文档。 x m l 目前正在成为各种数据特别是文档的首选格式。由于它具有标 记不同字段( f i e l d ) 的能力,使得搜索变得更简单和动态化,从而把企 业准备扔进废纸篓的文件变成了进行数掘挖掘的宝藏。x m l 把内容从演 示格式中解放出来,使材料可以多次重复使用。这样一来,同样的内容 可以分别用于新闻发布、白皮书、宣传册、演示和w e b 页面。对那些需 要把不兼容的系统融合在一起的企业,x m l 可以充当公共传输工具,以 中性格式进行数据传输。此外,x m l 还可以处理各种数据,包括文本、 图像和声音,并且可以由用户进行扩展以处理任何特殊类型的数据。) ( m l 的特性使之成为在线和离线数据的共同语言嘲。 x m l 是一种表意而非表形的元语言。采用不同的显示页( s t y l e s h e e t ) 就可以做到同一数据源却有不同途径的显示结果。它是i n t e r n e t 的标 准语言,因而具有跨操作平台、跨区域的特点,是网络世界里的一种“世 界语”,由于用) ( m l 所写的文件能为机器所解读,因而使得网络世界里 “服务器对服务器( s e r v e rt os e r v e r ) ”的应用成为可能,从而奠定了 i n t e r n e t 应用自动化的基础。 围绕着x m l 已经形成了一大批新的技术及标准。目前,) ( m l 数据已 逐渐用于实际应用。可以预见,今后的一段时间内,) ( i i l 数据将爆炸性 地递增而出现在i n t e r n e t 世界里。而x m l 数掘的大量应用在呼唤着新 型数据库系统的面世。 目前对) 【m l 的研究主要有两个方面: ( 1 ) 利用x m l 与半结构化数掘的相似性,在原先半结构化数据的研 究成果上支持x m l 的存储和查询功能。 ( 2 ) 利用传统关系数据库已有的研究成果,实现捌l 文档到关系数 据库记录之间的转换,从而实现利用关系数掘库存储、查询x m l 数据的 7 功能。 ( 3 ) 利用半结构化数据库技术实现x m l 的存储,实现煳l 数据的存 储和查询。这种方法实现起来比较彻底,重新开始建筑数据库,则以前 关系数据库的成果很难运用到,这种方法的工作量比较大。 ( 4 ) 利用关系数据库实现,虽然可以实现数据库,但其存储前后的 转换工作是比较繁杂的。为了消除半结构化数据与二维数据之间的差 别,其转换工作使原有半结构化数据部分信息丢失。数据查询结束后, 还要将二维数据转变为x m l 数据的多层嵌套格式。总的来说,这种方法 不直接。但其建筑在商业关系数据库基础上,实现工作相对其它方法来 说要轻松。1 。 2 4x m l 与关系数据库的结构关系 要存储和获取数据,可以使用一个数据库,常用的数据库模型有三 种,分别为( 关系型数据库、网状数据库、层次型数据库) ,目前广泛使 用的是关系型数据库。各种商用的数据库管理系统对于数据的存贮和表 示方法各不相同“,在目前以互联为主的网络时代里,各种数据的交换 和相互的转化是不可避免的。如图2 1 所示: 图2 1 异构数据库之间转化 本文以x m l 为异构数据库模型之阃转化的中间格式,这对于不同的 数据库,只要以x m l 为标准编写数据库与x m l 之间的转换即可,这样极 大地降低了开发成本,实现了线性成本的数据转换模式。如图2 2 所示: 8 图2 2 异构数据库转换模型 在关系数据库模型中,数据库是关系的集合。每一个关系就是由若 干个带有同样属性的元组组成的集合,并且通常一个关系都用一个二维 的表格来表示,即数据库是由一个个的表构成的。对于每一个表,通常 由多条记录组成,每一条构成的。对于每一个表,通常由多条记录组成, 每一条记录代表一个数据。记录的集合构成记录集。每一条记录由若于 的字段组成,字段有着各种属性,比如数据类型、是否允许空、是否是 主键等。对于数据库中的各个表之间,可能存在着依赖关系,这些依赖 关系靠外键进行定义。关系数据库一般由三层模型组成“”,每个字段的 值是原子的,不包含一系列值。如图2 3 所示: f i c l d n丘c l d l 图2 3 关系数据库的三层模型 j ( 1 l l 数据模型与关系型数据模型有很大的区别,可以是任意深度的 树。x m l 与关系模型之间结构的关键问题是如何定义有效的映射。本文 中根据关系数据库与蹦l 的关系,可以将表格映射为) ( m l 的元素名称, 将字段映射为属性,表格中的每一行可以对应一个空元素,字段值对应 相应的属性值。 2 5 远程教育的概念与发展 远程教育( d i s t a n c ee d u c a t i o n ) 是从2 0 世纪后半叶逐渐发展起来 的种新型的教育形式,它是一种教与学在物理时空位置上相互分离的 教育形式,近几年来,随着计算机网络技术和多媒体数字技术的高速发 9 展,远程教育被赋予了新的内涵:它以学习者为主体,以计算机技术、 多媒体技术、通信技术和i n t e r n e t 网络等高新技术为主要教学手段和 传播媒体,运用罔像、文字、动画、音频和视频相结合的一种新型的交 互式网络教育方式。远程教育的发展可以归纳为三个阶段: 1 第一代远程教育认为是传统的函授教育。函授教育起源于1 9 世 纪,1 8 4 0 年英国函授教育的始祖萨克皮特曼把速记教程第一次通过 邮局寄给学生。1 8 4 9 年,英国伦敦大学首创校外学位制度,允许英国 和英联邦各国任何高等学校的学生报考伦敦大学的学位课程,并为注册 报考者提供函授教学。因此,1 8 4 9 年可以看作世界上远程教育的诞生 年代。中国的函授教育起源于1 9 世纪的5 0 年代,至今仍在成人教育中 发挥着很大的作用。 2 第二代远程教育是利用广播、卫星为媒体传送教学内容的教育形 式。电视无疑是2 0 世纪的变革技术,而有线电视的普及可以说又将教 育节目带入了千家万户。1 9 2 0 年,英国马可尼公司所属的电台首创了 教育广播节目。1 9 2 1 年,美国联邦政府向盐湖城大学发放了第一个广 播教育特许证。1 9 4 5 年,美国威斯康星大学通过联邦通信委员会( f c c ) 建立了第一家教育电视台,这是世界上第一次出现的电视教育。1 9 6 9 年,英国开放大学的创建是第二代远程教育的重要里程碑,为远程教育 争取到了合法地位,并证明了远程教育现实可行。7 0 年代后,世界各 地掀起了兴办远程教育的热潮。我国的电视教育以1 9 7 8 年成立的中央 广播电视大学为标志,随后的2 0 多年得到了突破性的大发展。基于现 有的广播电视网络和卫星传输技术,覆盖面广,收听、收视率高,有着 雄厚的物质基础和广泛的群众基础。但是,这种远程教育存在着与教育 规律相违背之处:首先,这种教育只能实现单向信息传输,学生的学习 状况不能反馈:其次,这种教育是非实时和非交互的,学生与教师不能 同步参与教学活动,不能互相交流和讨论:此外,这种教育不符合个性 化教育思想。 3 以现代化信息技术为标志构成的远程教育则属于第三代远程教 育,我们称之为现代远程教育。现代远程教育是将信息技术作为一种先 进的工具平台,将信息技术和现代教育思想有机结合起来。与前两代远 程教育相比,它除具备教与学相互分离的特征外,更体现了个性化教育。 现代远程教育几乎融入了8 0 年代以来所有通信信息领域的最新技术, 建立在计算机技术、网络技术、多媒体技术、双向电子通信技术与教育 传播理论,现代学习理论紧密结合的基础上,以交互性、网络化、实时 性、综合性和适应性为基本特征,这些新的技术和理论体系给新的教育 模式带来了强大的技术支持和发展契机,将一个全新的新一代教育方式 和教学模式展现给2 1 世纪。 1 0 2 6 实行远程教育的理论基础 正如前面介绍的那样,现代信息领域各种新技术的迅速发展和演 变,给远程教育体系带来了强大的技术支持,同时各类教育传播理论也 为远程教育开辟更广泛、更合理的教育模式提供了强有力的理论支持。 归结起来,这些教育传播理论主要包括: 行为主义:行为主义认为,人们的学习在很多情况下是一种尝试、 错误的过程:在这个过程中,学生接收某种刺激,并对刺激做出某种反 应。当刺激和反应的结合带来某种满足时,这种结合将会得到加强,否 则这种结合就会削弱。这种基于刺激一反应的学习理论称为s r 理论。 基于这种理论,有人提出一种程序学习及程序教学的教学方法。这种方 法要求在学生接受刺激,做出反应后,教师应对学生的反应给予一定的 反馈,以增强教学效果。 认知主义:认知主义强调内部的思维在学习中的作用。认知主义者 认为,学生的学习是在具有一定逻辑结构的学习资料与学生本身所具有 的某种认知结构相互关联、相互作用的过程中进行的。学生的认识水平, 认知特点、认知心理,对学生的学习有着重要的影响。因此在教学过程 中,一方面要认真研究学生的认知结构和认知特点,另一方面要认真研 究知识的结构特点,将知识以学生容易接受和理解的方式呈现给学生, 并以适当的方式进行教学支援和控制,以促进学生实现有效的学习。 建构主义:建构主义者认为人们对事物的认识与个体先前的经验有 关,个体的认识过程就是个体与环境相互作用的过程。个体通过同化和 顺应两种方式来建构知识:同化就是把环境因素纳入个体已有的结构之 中,丰富和加强个体的结构体系,这是认识结构数量的扩充。顺应就是 个体的知识结构发生变化,以适应环境,这是认识结构性质的变化。同 化和顺应是个体在认识过程中,对他的先前经验知识与环境相互作用的 反应。个体通过他们来完成将认识事物建构为自己的知识。建构主义者 认为,知识不是通过教师的传授得到的,而是通过学生个体在与环境的 相互作用中自行建构的。因此,在教学过程中,学生应处于中心地位, 教师是学习的支援者。他们还提出了情景化学习、认识学徒、锚定式学 习等教育理念。 不难看出,行为主义更多的是强调外部事件对学习的影响,而作为 学习的主体学生始终处于一种被动的地位,像早期的教育形式多以这种 理论作为指导,产生了“填鸭式”的教育方式。认知主义则与行为主义 不同,它更多的是强调学生自身的认知能力对学习的影响,强调教学必 须充分考虑学生的实际情况和知识的内在特点。建构主义强调学习主体 学习的过程即是与环境相互作用的过程,它不光强调学习者的主体地 位,还强调外部事件对学习者的影响力,这对于现今的远程教育形式的 实行提供了重要的理论依据。我们需要认识到开发一个设计良好的学习 环境对学习者的学习具有很大的作用,因此,在开发远程教育系统的过 程中,我们始终需要坚持建构主义的理论。 2 7 数据挖掘定义 从技术上讲,数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、 有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们 事先不知道的、但又是潜在有用的信息和知识的过程。 知识的定义从广义上理解,数据、信息也是知识的表现形式,但是 人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作 是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结 构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形 和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以 是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现 的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可 以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对 数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策 支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技 术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和 工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热 点。 从应用上讲,数据挖掘是一种新的商业信息处理技术,其主要特点 是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化 处理,从中提取辅助商业决策的关键性数据。 简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析 本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于 科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复 杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现, 商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收 集的,而是由于纯机会的( o p p o r t u n i s t i c ) 商业运作而产生。分析这些 数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价 值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数 据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经 过深层分析,获得有利于商业运作、提高竞争力的信息“叭。 1 2 第三章x m l 文档与关系数据库之间格式转换 3 1 传统关系数据库 关系数据库( r d b ) 开始产生于7 0 年代,发展到今天己经具有完备的 理论基础、简洁的数据模型、透明的查询语言和方便的操作方法等许多 优点。在关系型数据库中数据被以行和列的形式来存储,这一系列的行 和列被称为表,一组具有特定关系的表便组成了数据库。在关系数据库 中各数据项之间用关系来组织,关系( r e l a t i o n s h i p ) 是表之间的一种连 接,通过关系,可以更灵活地表示和操纵数据;另外,用户可以非常方 便地用结构化查询语言( s q l ) 来检索数据库中的数据。 一个关系型数据库通常包含下列组件: ( 1 ) 客户端应用程序( c l i e n t ) ( 2 ) 数据库服务器( s e r v e r ) ( 3 ) 数据库( d a t a b a s e ) s q l 是客户端( c l i e n t ) 通往服务器端( s e r v e r ) 的桥梁,c i l e n t 用 s q l 来向s e r v e r 端发送请求,s e r v e r 返回c 1 l e n t 端要求的结果“”。 传统关系型数据库管理系统在处理结构化数据和数值信息等方面 是很成功的,如今在金融、电信、证券以及各种企业的数值计算统计、 实时事物处理领域发挥着巨大的作用。但对于) ( m l jh t m l 等为代表的非 结构化数据,由于其数据种类繁多和结构复杂,擅长处理结构化数据的 传统关系数据库在处理大量存在于各种媒体的非结构化数据( 如图形、 图像、声音等) 时,其信息系统显得难以胜任。x l l 数据库( x m l d b ) 应运 而生,与传统的关系数据库相比,瑚l d b 擅长于处理半结构化的信息, 特别适合表达层次型的数据,具有良好的灵活性,能够较好地满足当前 企业发展各种i n t e r n e t 应用的需要。当前,关系数据库在各类商业应 用中占有主导地位,与此同时,随着i n t e r n e t 技术和数据库技术的发 展,大量采用x m l 标签的i n t e r n e t 搜索引擎、必须快速输出结果的电 子商务系统、带x m l 标签的电子数据交换、数据重复使用和内容个性化 等等新的应用层出不穷。作为处理上述应用的关键一环,对) ( m l 数据库 的需求正在不断地快速增长。如何一方面利用现有关系数据库的丰富资 源和管理经验,另一方面又利用删l d b 的优点发展i n t e r n e t 应用,就 成为一个亟待解决的问题n ”。 3 2x m l 数据库 x h i l 数据库是一个能够在应用中管理x m l 数据和文档的数据库系 统,一个) ( m l 数据库是) 【m l 文档及其部件的集合,并通过一个具有能力 管理和控制这个文档集合本身及其所表示信息的系统来维护。x m l 数据 库不仅是结构化数据和半结构化数据的存储库,像管理其它数据一样, 持久的x m l 数据管理包括数据的独立性、集成性、访问权限、视图、完 备性、冗余性、一致性以及数据恢复等。 x m l 在数据库中的应用需要借助如图3 1 所示的三层架构来实现。 在这种模式下,一般会有一个代理程序运行于中间层,通过它来访问数 据库管理系统中的数据并输出x m l 文档。代理程序充当了在客户端应用 与底层数据库之间传递数据信息的工具,它可以进行双向的基于事件的 数据更新。也就是说,客户端的数据变化如数据的插入、删除、修改等 可以通过代理程序反映到底层数据库,而数据库的更新也能够通知到客 户端。这种机制类似于传统的三层结构,唯一的区别是传输过程中的数 据都是捌l 格式的“。 图3 1 煳l 在数据库中的应用模式 可以充当代理程序的软件大致可分为3 类,即中间件、) ( m l 服务器 和内容管理系统。中间件需要配合现有的数据库一起使用,它是一种用 来在数据库( 通常是关系数据库或面向对象数据库) 和x m l 文件之间传 输数据的软件。大部分的中间件都是使用3 a v a 编写并且通过j d b c 访问 关系数据库。目前很多公司已经提供了这类软件,比如s t o n e b r o o m 公 司的a s p 2 x m l o r a c l e 公司的x m ls o lu t i l i t yf o rj a v a 等。s p 2 x i d l 是一个o l ec o m 组件,用来在) ( m l 文档和任意0 d b c 或者o l ed b 数据源 之间传输数据。当把数据从数据库存入) ( m l 文档时,用户使用一个 s e l e c t 语句,输出包含a s p 2 x m l 自定义的标志。当把数据从x m l 文档 传给数据库时,) ( m l 文档中必须包含有a s p 2 x m l 自定义的标志,中间件 处理时要使用到这些标志。a s p 2 x m l 组件可以在a s p 脚本中使用,也可 以作为一个普通的组件使用。 x m l 服务器把数据库和中间件结合在一起,通过协调实现数据的存 取和应用分布式的应用进行数据交互。它提供数据的存储与提取功能, 并且要求数据是) ( m l 格式的,在数据处理上采用的也是与传统数据库完 全不同的技术。目前己经有很多产品实现了) 【m l 服务器的功能,如 d a t a c h a n n e l 公司的d a t a c h a n n e l s e r v e r4 1 ,s o f t w a r ea g 公司的 t a m i n o ,e x c e l o n 公司的e x c e l o n 等,但在应用的范围及功能上,这些 产品是各不相同的u ”。 尽管) ( m l 数据库和传统的关系数据库在功能上都是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论