




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、北京工业人学硕士学位论文xml文档转换技术研究及应用姓名:刘红艳申请学 位级别:硕士专业:计算机应用指导教师:华平澜20040501摘要摘要随着i n t e r n e t和信息技术的发展,信息技术应用和基础设施的离散化趋势越來越 明显。不同企事业单位信息化建设的程度及方式存在巨大差异,使各信息系统问的 数据交换与整合产生诸多困难。全球经济一体化进程的不断深入与企业市场化程度 的不断提高,无论是企业内部、企业与企业z间、政府部门、还是个人z间都需要 一种技术来实现可行的、低成本的应用集成或协作。html作为一种简单易用的 标记语言,极大的推动了 internet的发展。但是随着interne
2、t应 用的展开,html已经不能满足人们的需要。xml作为下一代i n t e r n e t语言,具有极大的灵活性、可扩展性和简单性。xml是冃前数据交换的主流语 言。以xml作为数据交换榕式需要xml文档转换技术的强力支持,因此xml 文档转换技术对于利用xml构建数据交换平台具有重要意义。木文从xml的主 要技术特征和原理出发,研究了主耍儿种xml文档转换技术模型,包括xml文 档和对象的转换模型、xml文档和关系型数据库的转换模型、以及xml到xm l的转换模型。本文最后讨论x m l文档转换技术模型在数据交换引擎中的应用。 关键字:xml ;文档转换;d om; xslt; jdbc
3、;北京工业人学工学硕 士论文一_ i _ 皇 the d e v e lop i ng o ft i o n techno logy, thi o n technology a p pr u c t u r e is moreandr e e and mode o f d i f _in tern e s c a t t1 i c a t imore e f e r e n te gs,information con structionabstract w ietand inforero f informonand infravident.the de n t e r p r i s ei s
4、 di f f e r e ns y s t i o n i s more o f e n t e r p r i i n e s s inter vernment d e o n all n e e d a a s i b 1 e and 1n o m i c i n t e g r a ta n d t h e degree1 e v a t e d , s 0 bust o business, go person t o p e r st o imp 1 e m e n t f eapplication int egrat iona nd cbeing a simplemuche com
5、 s a t i fromt, which makes data exchange andintegra t i o n i s difficult between a inf ormation system and anotherinforma tionm. w o r 1 d e c o d m o r e deep market i s e r , bus i n e s s r t m e n t , and e c h no loty w e r cost 01 laboration. being a simple m a r k u guage,html contributes m
6、uch t o the 1 o p m e n t of the internet. but for t h pl i c a t e d a p p 1 i ca t ioi 1, htmlca rpt s f y the demand o f people. inherited sgmlcs t anda rdgene ra 1 i z e d ma r k u p l a n g u age), xml (ex ten s i h 1 e ma r k u p lan g u a g e 5) hthe charactert yi nd ax m 1a sy.extensibili h
7、e m a i nstre 1 a s forma tsupportx m 1i ssties o n d simp ata e x c a e x c h an gi o n . so h n o 1 o g y ting d p e r , w e c i p 1 e n t e c hata ei n t ro f xml,n o 1 o g yn t very i m p x c h a n g e o d u c et hand w e modeldocument t t r a n s f o r t a n t1 a t f o r m,sformationi n c 1 u d
8、 ib j e c t ,) t to xmlf 1 e x i b i 1 i t ene s s.xml i s t g e . us i n g x m n e e d s s t r o format i o n tec true i s p a p r i n1 m a i t r a nr a n s r m a t for c oi ne character a d is c us sseveo fx m 1 d ocumen gxml d ocume(ml documentdocument, w ee appl ication o f x m 1 m a t i o n mod
9、el i n data y word: xml: documentt o r d b , xml d o c u m e n finally discuss t h document transfor exchange engine k e transform; dom: x s lt:独创性声明本人声明所呈交的论文是我个人在导师指导f进行的研究工作及 取得的研究成果。尽我所知,除了丈中特别加以标注和致谢的地方外,论文中不包 含其他人己经发表或撰写过的研究成果,也不包含为获得北京工业人学或其它教育 机构的学位或i f牡而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均己在沦文中作了明
10、确的说明并表示了谢意。签名:到! i鱼期 们p乍6 r 关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规 定,w:学校有权保留送交论文的复e件允许论文被查阅和借阅;学校可以公布 论文的全部或部分内容,可以采用影印、缩印或具他复制手段保存论文。(保芳穆 畚脑谓饷夸窄淖衿卮斯娑2?签名:冢。一 2 r 4幻导师签名笙至i囤日期:之! 旦丝!。£绪论第1章绪论1 1课题背景随着internet和信息技术的 发展,信息技术应用和基础设施的离散化趋势越来越明显。组织拥有的信息资源和 服务也逐渐呈现岀异质(heterogeneous)、分布(d i s t r i b u
11、 t e d ) 动态变化的(d y n a m i c )、松散耦合(loose 一coup led)、甚至自治的(a utonomous)等一系列新特点。所以,传统的 集成应用观点已经无法适用。而企业在现有的系统(legacy system) 已经投入了大量的财力物力,各种系统上运营着不同类型的业务。各个系统之间相 互孤立,无法实现数据的共享和协作,亟需一种技术來实现可行的、低成本的企业 内部的应用集成。政府在整个社会的信息化进程屮也发挥着举足轻重的作用,越来 越多的政府业务和服务将通过网上的方式提供给大众和其他组织。政府门户(es p)需要集成各个下属机关的公共服务(psd),这种集成需
12、要一种可靠、可行、 低成本的技术來完成。技术的发展述促使了信息的全球化。信息以前所未有的方式 在几乎全球范围内进行生产、共享、交互与传播。信息交互的广泛性和便利性大大 加速了全球一体化的进程,使得国家间、企业间的联系越来越紧密。企业间的协作 和业务整合也面临着紧迫性。如何使这些千差万別的企业和组织进行业务协作也是 一个现实的问题。个人信息服务也是一个重要环节,人需要参与到各种业务当中, 并且对这些事务进行规划和管理。个人信息管理和信息沟通也需要这样一种技术: 方使、轻载、支持异步方式的集成技术。所以,无论是即时消息(instant message),企业应用集成(e a i ),企业间协作(b
13、 2 b),电子政务 (e-go v e r nme n t )等很多方面都需要类似的技术。其中关键技术就是 数据交换。html作为一种简单易用的标记语言,极大的推动了 interne t的发展。但是随着i n t e r n e t应用的展开,html已经不能满足人们的 需要。xml作为下一代interne t语言,具有极大的灵活性、可扩展性、 自描述性和简单性。xml作为一北京工业大学t学硕士论文种可扩展性标记语 言,其自描述性使其非常适用于不同应用间的数据交换,而且这种交换是不以预先 规定一组数据结构定义为前提,因此具备很强的开放性,具有广阔的应用前景。x ml作为h前数据交换的主流语言
14、,以xml作为数据交换格式需要xml文档转 换技术的强力支持,因此研究xml文档转换技术对于利用xml构建数据交换平 台具有重要意义。12数据交换的研究现状由于不同企事业单位信息化建设的程 度及方式存在巨人差异,所以使各信息系统间的数据交换与整合产生诸多困难。随 着全球经济一体化进程的不断深入与企业市场化程度的不断提高,企业内部、不同 企业间、政府部门间的数据交换与信息整合的自动化处理需求口益迫切。目前能够 解决异构平台数据交换的产胡国际上有b e a s y s的weblog i c和i bm 的 w e b s p h e re 等,weblogic 和 w e b s p h e r e
15、 均采用 j a v a,支持j2ee、jdbc、j n d i o此类产品功能完善但价格昂贵,不具有 国内的自主产权。国内的数据交换平台大多为专用平台,可能是银行的跨行数据交 换平台或者海关、口岸的数据交换平台,或者专为证券、政府提供服务。他们一般 是狭义的数据交换平台,不提供开放的数据接口、动态装载和良好的二次开发,也 不是透明的数据交换平台。如方正易畅i n f o h u b安全信息交换平台、联想网 上审批系统方案中的数据交换接口、用友e r p-nc证券行业解决方案中提供数 据交换平台。我们首都信息发展股份有限公司的北京网络多媒体实验室主要是针对 电子政务领域,还可应用于eai、b2
16、b、以及个人即时消息服务屮进行的相应 研发。1 3数据交换的应用领域(1 )应用于企业应用集成(e a i ),实现各 系统z间数据的集成管理 传统的集成方式,往往通过零星的“点对点”连接,将众多 的“信息孤岛"联系起來,以便在不同的系统之间交换信息。这种点对点的方式效率 很低,而冃每一个连接都需要单独开发相应的接口程序,缺少灵活性,集成的成本 巨大,而且很难保证数据的及时传递和一致性。数据交换平台可以作为不同系统之 间交换数据的通用接口,能够将业务流程、应用软件、硬件和各种标准联合起來, 在两个或更多的企业应用系统之间实绪论现无缝集成,使它们像一个整体一样进行 业务处理和信息共享。
17、(2 )应用于电子政务我国电子政务项1=1屮所存在的缺乏 系统总体规划、政务应用系统存在”信息孤岛"等实际情况。数据交换平台通过建立 统一的数据交换模式,对各个已有或将有的应用系统包括办公自动化系统、关系型 数据库应用系统及其他应用系统中的数据进行交换和处理,实现数据和信息的交换 与集成,在此基础上可以将数据以统一的格式在门户上对外发布;或者将数据传输 到另一个系统中去再利用,从而消除信息孤岛问题。(3 )作为企业与企业的数据 网关随着互联网的发展,网络办公、电子商务、电子政务、跨企业的供应链管理、电子支付纷纷出现,这些系统都需要安全、快捷地实现内部管理系统和外部w阴系 统交换数据,
18、商业企业与生产企业、上下游企业之间也需要进行人量的实时数据交 换,而且出于安全考虑,不可能允许对方相关系统直连。应用数据交换平台,可以 实现内外系统之间灵活的数据交换,平台可以对不同标准、不同格式数据进行翻译。 同时,平台可以对内部系统和外部系统进行隔离,通过平台本身的安全机制,保证 数据的安全性。14本研究课题的来源及主耍研究内容 本课题依托于北京网络多 媒体实验室承担的电子政府公共服务平台的研究和开发课题。电子政府公共服务平 台以公共服务门户和公共服务集成平台为核心,通过internet向社会公众 和企业提供一系列的电子公共服务。公共服务集成和开发平台是一个以数据获取、 转换、可靠传递和资
19、源管理为基础,以业务流程的调度为核心,以应用集成为支撑 的公共服务运行平台和开发平台。它是整个公共服务平台的核心,承担数据交换、 应用集成、业务流程处理、业务逻辑实现等功能。数据交换:公共服务平台将以数 据获取支撑,重点对数据获取、存储、共享、转换、路由、传输、格式标准等进行 研究。以期通过对各类政务系统屮信息和数据资源的有机整合来为公众服务和政务 决策提供支持。本文从xml的主要技术特征和原理出发,研究了主要几种xml 文档转换技术 北京工业人学工学硕士论文模型,包括xml文档和对象的转换模 型、xml文档和关系型数据库的转换模型、以及xml到xml的转换模型。本 文最后讨论xml文档转换技
20、术模型在数据交换引擎中的应用。15论文的内容 安排论文第二章介绍与xml文档转换相关的一些技术,如xml. s c h e m a 和dtd、d om、x s l以及x p a t h等。论文第三章详细介绍三种xml文 档转换模型。即xml文档与对象z间的转换模型、xml文档与关系型数据库z 间的转换模型、xml文档与xml文档z间的转换模型。论文第四章介绍三种x ml文档转换模型在具体项目数据交换引擎中的应用。论文最后总结本文内 容,并提出有待研究的问题。文档转换相关技术简介第2章文档转换相关技术简 介 2. 1 xml 简介 xml (extensible ma r k u p l a n
21、 g u a g e可扩展标识语言)是出w3c (互联网联合组织)于1 9 9 8年2月发布的 标准。同样是sgml的一个简化子集,它将sgml的丰富功能与html的易 用性结合到we b的应用屮,以一种开放的自我描述方式定义了数据结构,在描述 数据内容的同时能突出对结构的描述,从而体现出数据z间的关系。这样所组织的 数据对于应用程序和人类都是友好的、可操作的。根据我们对x扎的理解,其有下 列特性:1 )可扩展性。xml是设计标记语言的元语言,而不是html这样的 只有一个固定标记集的特定的标记语言。正如j a v a让使用者声明他们自己的类, xm l让使用者创造和使用他们口己的标记而不是h
22、 t ml的有限词汇表。可扩展 性是至关重要的,企业可以用xml为电子商务和供应链集成等应用定义口己的标 记语言,甚至特定的工业界一起来定义该领域的特殊的标记语言,以创建在该领域 内信息共享与交换的基础。2 )灵活性。html很难发展,因为它是格式、超文 本和图形用户界面语义的混合,耍同时发展这些混合在一起的功能是很困难的。而 xml提供了一种结构化的数据表示方式,使得用户界面分离于结构化数据。在x m l中,可以使用样式表,如xslcextensible styleshee t language,可扩展样式表语言)和css (cascading s t y 1 e sheets,层叠样式表)
23、,将数据呈现到浏览器中。另外,xml文档之间的超链接功能由独立的x ll (extensible linking l a n g u a g e ,可扩展链接语言)来支持。所有这些方面都可以互相独立地改进并 发展。所以,we b用户所追求的许多先进功能在x札环境下更容易实现。3) 口 描述性。xml文档通常包含一个文档类型声明,从而xml文档是自描述的,不 仅人能读懂xml文档,而且计算机也能处理。xml文档中的数据可以被 任何能 够对xml数据进行解析的应用所提取、分析、处理,并以所需格式显示。xml 表示数据的方式真正做到了独立于应用系统,并且这些数据能重用。所以xml适 合开放的信息管理
24、。因为它的自描述性,文档里的数据可以由xml能使的北京工 业大学工学硕士论文_ i i 一 e 一_ ( x m la w a r e )应用来创建、杳询和更新,跟处理传统的关系型数据库面向对象数据库里 的数据类似。xml甚至还能用来表示那些以前不被看作文档但是对传 统的数据库 来说乂过于复杂而难以处理的数据。所以,xml文档被看作是文档的数据库化和 数据的文档化。除上述特性以外,xml具有简明性。它只有sgml约2 0%的 复朵性,但具有sgml提供的约8 0 %的功能,同完整的sgml相比,xml 简单得多,易学、易用并 且易实现。另外,xml的诞生也吸收了人们多年來在w e b上使用ht
25、ml的经验,正如html开辟了一种计算机用户能浏览i n t e r n e t文档的途径,xml将成为人们读和写的世界语。所有这一切将使xml 成为数据表示的一个开放标准,这种数据表示独立于机器平台、捉供商、和编程语 言。它将为数据交换带来新的机遇。 2. 2剖析xml文档剖析xm 1文档的 最好办法是浏览一个典型示例文档,然后再对齐部分进行解释。所以我选择了下面 x m l 文档 v? x m 1 v e r s i on=”l. 0 e n c o d i n g =”u t f一 8,5? > <? xml 一 stylesheet type =” t e x t / x
26、s l"h ref =?, show book, xs 1,? > <? doctype c a t a 1 o g s y s t e m" catalog. dtd,?><!catalog 1 a stu i:)di a t e d 2 0 0 0 22 0 2 > v c at a1 0 gxm1ns"h ttp : / / w w w. e x am p 1 e . co m / cata1 0g/<b00d1d =”b k 1 0 1 ”> <author>&# 71 : ab ercr0mb
27、1eki m</ a u t h o r >< t i t 1e >xmld ev e10pers/:uide</title > < g en r e >comp uter</genre><price>44.9 5 < / p ri c e >< p u b 11c-date>20 0 0 1 0 0 1 < /p u b 1 ic 一 d a te >< descr1pt10n> <! c d a t a an in de p t h1 0 0k atc
28、reat1ngxml, u s i ngv,>,>a n d & am p :</descr1pt1o n>文档转换相关技术简介< / bo o k >< / icata10g)该xml文档总体上包括两部分:序言和文档元素。序言包括xml声明、处理指 令和注释;而文档元素包括各种元素、属性、文本内容、字符和实体引用、c d a ta区等。(1) xml声明xml声明是以” v? xml”开始的,上面例了中 的 xml 声明为 <? x m 1 v e r s i o n 1. 0” encoding =,ptf -8-? > ( 2
29、 )处理指令 处理指令可以用来向应用程序处理不受xml规则限制 的信息,前面例子中 <? x m 1 stylesheet type text/x s 1 h r e f =" s h o w一 book, xs 1?,?> <? doctype c a t a 1 o g system44 catalog. dtd”?> 是处理指令(3 )注释 注释以< ! 一开始,以>结束,< 1 一 catalog last u p d a t e d 2 0 0 0 2 2 0 2 ->( 4 )元素元素构成了xml文档的主要结构,通常包括元素
30、名称、开始标记、结束标记等。元素中还有属性,属性为描述元素提 供了额外的信息。(5)属性属性使用“名称一值”对在元素上添加信息,女nv b o o d id=”bkl0 1”> ( 6 )文本内容 元素的开始标记和结束标记z间 的文字称为"文本内容”,如v genre>comdu t e r</genre>(7) c da ta区在cdata区内,所有的标记和实体引用都被忽略,而被x m l处理程序一视同仁地当作字符数据对待。当需耍在xml文档中显示包含标记 的文木时,就可以使用c dat a区。如v! cdata an jn dept h look a t
31、creating appl icat ions w i t h x ml, u s i n g <,>, >o (8)命名空间xml命名空间是解决多义性 和名字冲突问题的方案。如i: x m 1 n s =j, http: / / w w we x a m p 3 s o h e m a 和 dtd xml 只说明数 据的结构而并不关心数据是如何具体描述的、数据是否正确。xml文档的强制性 结构化需求是通过dt d (文档类型说明)或xml s c h e ma來实现的。xm l s c h e ma是用一套预先规定的xml元素和属性创建的,这些元素和属性定 义了文档的结构和
32、内容模式。相应的一套精巧的规则指定了每个s c h e m a元素 或者属性的合法用途。如果违反这些规则解析器就会拒绝解析你的s c h e m a以 及任何同它相联系的文档。使用dtd虽然在指定许可的元素、需要的元素以及给 定xml文档中如何组织元素等方面给我们以较大的方便,但是,一旦你想针对特 定元素施加数据类型就会遇到麻烦了。dtd规范严格地定义了结构,但只支持相 对功能较弱的内容类型规范,而对强制性结构化却无计可施,xml schema 不仅可以让你定义xml文档的结构而且还允许你约朿文档的内容,这就不同于d t d 了。另外,一个xml schema 口身就是一个xml文档,其基于标
33、签的 语法比d t d屮的特殊字符要清楚多了。所以xml s c h e m ak有强制文档内 容和结构的能力,它是xml世界中的一种不但重要而且强大的新标准。”2. 4 don document object m o d e 1 (文档对彖模型)简称为d 0m,是对we b文档进行应用开发、编程的应用程序接口(api)。作为w3 c 公布的一种跨平台、与语言无关的接口规范,d0m提供了在不同环境和应用屮的 标准程序接口,可以用任何语言实现。d0m采用对象模型和一系列的接口来描 述xm l文档的内容和结构,即利用对 象把文档模型化。这种对象模型实现的基本 功能包括:描述文档表示和操作的接口;
34、接口的行为和属性;接口之间的关 系以及互操作。d0m对结构化的xml文档进行解析,文档屮的指令、元素、实 体、属性等所义档转换相关技术简介有内容个体都用对彖模型表示,整个文档的逻 辑结构类似一棵树,生成的对彖模型就是树的节点,对彖同时包含了方法和属性。 其后对文档的所有操作都是在对象树上的进行。利用d0m,开发人员可以动态地 创建xml文档,遍历结构,添加、修改、删除内容等等。其面向对象的特性,使 人们在处理xml解析和关的事务时节省大量精力,是一种符合代码重用思想的强 有力编程工具。1 2 . 5 x s l x s l也就是可扩展样式表语言(e x t e ns i b 1 e stylesheet language) o 最开始,w 3 c 准备创 建一种样式表语言,称为可扩展样式表语言(xsl),很快人们发现,在xml 文档上操作的样式表语言需要两类主要的功能:也就是与表示和附加信息相关的功 能,将数据转换为特定类型的结果树。后來,x s l语言中用于表示(或者格式化 方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T/ZHCA 031-2024淋洗类化妆品温和性评价重建表皮模型组织活力法
- T/ZHCA 020-2022化妆品修护功效测试体外人源成纤维细胞迁移能力测试方法
- 2025衢州学院辅导员考试试题及答案
- 卫生和健康大会
- 2025贵州财经大学辅导员考试试题及答案
- 2025甘肃开放大学辅导员考试试题及答案
- 中医常见疾病科普指南
- 病理学绪论课件
- 大学班团活动设计方案
- 职业卫生工作场所检测要点解析
- 初中英语语法、词汇及固定搭配训练100题-含答案
- 网课智慧树知道《人工智能引论(浙江大学)》章节测试答案
- 中考物理压强与浮力压轴题20道(解析版)
- 2024年江苏省镇江市丹阳市中考物理二模卷
- 标准吞咽功能评定量表
- MOOC 中国传统艺术-篆刻、书法、水墨画体验与欣赏-哈尔滨工业大学 中国大学慕课答案
- 风险和机遇识别、评价及控制措施表
- (新版)高级经济师《高级经济实务》(工商管理)考试题库(含答案)
- 唐宋名家词智慧树知到期末考试答案2024年
- MOOC 大学生创新创业教育-云南大学 中国大学慕课答案
- 端午节放假安全知识 主题班会课件
评论
0/150
提交评论