(计算机应用技术专业论文)基于xml的文档交换模型的研究与应用.pdf_第1页
(计算机应用技术专业论文)基于xml的文档交换模型的研究与应用.pdf_第2页
(计算机应用技术专业论文)基于xml的文档交换模型的研究与应用.pdf_第3页
(计算机应用技术专业论文)基于xml的文档交换模型的研究与应用.pdf_第4页
(计算机应用技术专业论文)基于xml的文档交换模型的研究与应用.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于x m l 的文档交换模型的研究与应用摘要 摘要 随着社会分工越来越细,单位的业务也越来越多样化,单一的信息系统已经 无法满足和适应多方面的需求,使得一个单位往往是同时使用多个信息系统。而 这些系统由于开发商或者采用的开发平台不同,系统间难以通信,而这种通信是 一个单位信息化的必然需要。文档数据是一个单位内主要的需要在多系统进行传 递的数据。文档数据本身是层次组织的,x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 文 档也是层次组织的,两者间有天然的联系。本文针对这种情况,提出了以x m l 为媒介,通过x m l 与文档数据的转换,沟通多个计算机系统,并就可行性进行 了探讨。 x m l 是w 3 c ( t h ew o r l dw i d ew e bc o n s o r t i u m ) 制定并推荐的标准,替代 h t m l 作为下一代网络通信语言,用于数据交换,具有多项优势。本文对x m l 和它的一些相关标准进行了简介,并对这些业界普遍支持的标准的作用进行了阐 述,这些标准为以x m l 为介质进行数据交换提供了一个保证。文档是具有复杂 数据甚至是不规则的数据,是数据和形式的统一体,文档数据与x m l 有很多相 似处,但x m l 是平台独立的。通过x m l ,我们可以转换平台依赖的文档数据 为平台独立的数据。w e b 服务在多种平台下都支持,通过标准的s o a p ( s i m p l e o b j e c ta c c e s sp r o t o c 0 1 ) 服务调用w e b 服务,把x m l 数据在不同系统间传递。 通过x s l t ( e x t e n s i b l es t y l e s h e e tl a n g u a g et r a n s f o r m a t i o n ) 可以转换x m l 文档 可以适应系统的变化。x m ls c h e m a 可以定义和限制x m l 文档的结构,是稳定 的,通过x m ls c h e m a ,使得x m l 文档的交换转换为x m l s c h e m a 间的元素的 映射问题,从而达到数据交换的自动化。本文用基于x m l 的文档数据交换模型 对海珠区信访系统的数据交换进行了应用 关键词:可扩展置标语言( x m l ) ,文档交换,x m ls c h e m a ,w e b 服务,简单 对象访问协议( s o a p ) 基于x m l 的文档交换模型的研究与应用 a b s t r a c t a b s t r a c t a l o n gw i t hs o c i a ld i v i s i o no f l a b o rb e c o m i n gm o r ea n dm o r ee l a b o r a t e , w o r ko f o n e d e p a r t m e n ti sm o r ea n dm o r ed i v e r s i f i e d , w h i c hm a k e s a s i n g l ec o m p u t e rs y s t e m c a nn o ts a t i s f ya l ln e e d so ft h ed e p a r t m e n t ,s oad e p a r t m e n tu s u a l l yu s e sm o r et h a n o n es y s t e ma to n et i m e t h e s es y s t e m sa r ec o m m o n l yb u i i tb yd i f f e r e n td e v e l o p e r so r p l a t f o r m s , w h i c hm a k e st h e ya r ed i f f i c u l tt oc o m m u n i c a t ew i t he a c ho t h e r , b u tt h i s c o m m u n i c a t i o ni se s s e n t i a l d o c u m e n td a t aa r et h em a i nd a t at h a ta r en e e d e dt ob e t r a n s m i t t e da m o n gs e v e r a ls y s t e m s x m ld o c u m e n ta n dd o c u m e n td a t ah a v et h es a m e d a t as t r u c t u r e :h i e r a r c h i c a ls t r u c t u r e ,w h i c hp r o v i d eu sap o w e r f u lt o o lu s i n gx m l d o c u m e n tt ob i n dd i f f e r e n td o c u m e n td a t a i nt h i sa r t i c l e , ib r i n gu pam e t h o dt h a t u s i n gx m l a sm e d i at o e x c h a n g e d a t ab e t w e e nt w os y s t e m s ,a n dd i s c u s st h e f e a s i b i l i t yo f t h i sm e t h o d x m li so n es t a n d a r dm a d ea n dr e c o m m e n d e db yw 3 c ,al e a do r g a n i z a t i o ni n w e ba n di n t e m e t n o w , x m li st h er e c o g n i z e dl a n g u a g eu s e df o rw e ba p p l i c a t i o na s t h es u b s t i t u t eo fh t m l ,a n di t h a sm a n ya d v a n t a g e si nd a t ae x c h a n g e i nt h e b e g i i m i n go f t h i sa r t i c l e ,x m la n ds o m e o t h e rs t a n d a r d sr e l a t i t ew i l lb em a d eab r i e f i n t r o d u c t i o n ;t h e s es t a n d a r d sa f eg u a r a n t e et h a tw ec 锄u s ex m l t oe x c h a n g ed a t a d o c u m e n t sa r ec o m p l e xs of a ra st o i r r e g u l a r , a r eu n i f i c a t i o no f d a t aa n df o r m d o c u m e n td a t ai sh i e r a r c h i c a ls t r u c t u r el l k ex m 巴b u tx m l i sp l a t f o r m - i n d e p e n d e n t u s i n gx m l , w ec a nt r a n s f o r m p l a t f o r m - d e p o n d e n t d o c u m e n td a t at ob e p l a t f o r m - i n d e p e n d e n t w e bs e r v i c e sa r es u p p o r t e db ym a n yp l a t f o r m s , w e bs e r v i c e c a nb ec a l l e db y s o a p ,s ox m l c a nb et r a n s m i t t e da m o n gd i f f e r e n ts y s t e m s x m lc a n b et r a n s f o r m e db yx s l t x m ls c h e m ad e f i n e sa n dr e s t r i c t sax m ld o c u m e n t ,i ti s s t e a d y u s i n gx m l s c h e m a , t h et r a n s f o r m so fx m l d o c u m e n tc a nb er e a l i z e db y m a p p i n g o fx m l s c h e m a , w h i c ha c h i e v e sa u t o i m m u n i z a t i o no f d a t ae x c h a n g e t h e m o d e lo fd o c u m e n te x c h a n g eu s i n gx m lw i l lb ea p p l i e dt ot h ep e t i t i o n l e t t e * t s y s t e mo f h a i z h ug o v e r n m e n t i nt h i sa r t i c l e k e y w o r d s :x m l ,d o c u m e n te x c h a n g e ,x m l s c h e m a ,w e bs e r v i c e s ,s o a p 基于x m l 熬文柽交换模型羲研究与应臻葶l 誊 弓l 言 随着社会分工的不断缃化,一个单位的业务也不断向多样性发展,通常情况 下,采用不嗣的软件应用撰亭帮平台来支持她们业务的不鼹领域,遨些虚塌程序 中有一些可能是自组织并发懿,一些可髓是获第三方较佟商赡买的,比如,单彼 内的办公自动化系统( 采用l o t u s d o m i n o n o t e s 平螽) 是自行或者由开发商针对 单位情况辩发的,而财务软件( 采用v b + r d b m s ) 可能由于财务的通用性丽 壹接贿买软律商的产晶。在苓弼熬监务领域,存在不瓣戆优秀软传,蔼这些凭秀 的软件很火可能是彼此采用了不同的臌用平台和开发工具,使得遮蝗软件系统间 的通信存在很大的问题一个单位的信息化,不仅仪是各个业务领域的信息化, 缀重要静惹一令整体的僚怠纯,毒一个统一戆蠢公警螽玮壤,在系绕闻豹逶蔼不 需要通过人工进行重复操作。在这种情况下,如何解决不同的系统间无缝的通信 问题具有很重要的意义 x l v l l 程1 9 9 8 年交w 3 c 组缀发毒第一藏戬寒,健褥全球麓猿患纯发震畜7 一个全新的面目,各种x m l 的衍嫩标准,包括x s l ( e x t e n s i b l es t y l e s h e e t l a n g u a g e ) 、s o a p 等,在信息化的各穷面起着重露的作用,尤其是在网络应用 方覆,取裁h t m l 滚蠹瓣络莹塞交羧憨经成蠹磐然。x m l 把数鬃绦掩、数爨秘 显示分开的特性,使褥它在数据交换领域起着熏鼹的作用o r a c l e 、i b m 和 m i c r o s o r 簿主要软件供成商纷纷把x m l 集成到他们的应用和开发系统中。这一 甥帮为x m l 豹应援发鼹掩供了契援。 w e bs e r v i c e s ( 包括s o a p 、u d d i 、w s d l 等) 在基于网络的数据交换中怒 重要的作用,m i c r o s o f t 提出的b i z t a 墩f r a m e w o r k 照用w e b s e r v i c e s 集成单位内 罄嚣摹毽勰瓣数据交换豹一个典型豹波焉缀典范。w e bs e r v i c e s 怒个完善和纛 大的规范,考虑到了跨系统、平台通倍的各个方面,如莱要完全根糖w e bs e r v i c e s 对系统进彳予实施,需要较高的技术支持。本文针对个单位内的数据交换( 主要 是文挡数撼交换) ,提出了个基于w e bs e r v i c e s 熬麓纯鄂扩震的义搂交换模型, 使得在筚彼内进行文档数攒交换更具w 操作性和暴露更优盼性质的方案。 本文以从x m l 的特性着手,对x m l 的扩展标准:x m ls c h e m a 和x s l t , 基于x m l 曲义挡交换援型薛磷究与应塌引言 及它们农x m l 转换孛的终穰谶静了研究,以及x m l 与文档数攥的穗似霞:都 基于层次模塑,力窝粥x m l 濑遵来囊不露数器渊熟文档。馥x m l s c h e m a 为中 心,充分利用x m l 的特性,建藏了个通用的,熬释性好的文档数据交换模嬲。 峦予x m l 是结拣嶷姆熬举镣掬铯数据,x m l 强拜壤配置,数据装成粒骼为 孛阕数爨簿蠢嚣起著鬟簧翁话燃。零文裂建x m ls c h e m a 对苓嚣瓣盛强系绞逶褥 隔离,使褥系统闻的遴倍变为x m ls c h e m a 闻的沟通问题,而从数据建横的角度 上看,x m ls c h e m a 是霹应用系绕无必的,这样使樽澉统问的依赖关系交橼较弱, 这蜀系绕闼戆橙镊会。 本文第一章提出了论文研究阏越、论文研究瓣越溺秘方法,溺述了数掇交换 戆发震凝状、论文研究鲢舞懿翔意义、论文瓣磅熨美撵。第二鬻黠x m l 及一黧 相关括壤遴费了鼗器交换搬关静辩,囊要毽括瓢瓴s c h e m a 、x s l t 、s o a p 秘 w s d l 辫,这些标准都得到了雾数主照软件供应黼的认可和支持,有广溅扮i 纛庳 性,这毖橼准为论文的研究方法提供蘑要的依据。第兰章从数攒变换、氘与 文挡数懿靛关系着手,挺窭了爨x m ls c h e a n a 势攘心鹣基于x m l 魏文糕交换搂 型。第豳鬻,在海珠荫访项秘上进褥了基于x m l 靛交档交获模蘩,势鲶搿了一 个在i i s 、t o m c a t 、d o m i n o 游多系统间的文档蹴换实例。第赢章总结了全文, 基手x m l 瓣文毽交换模囊绘撼一令统一韭务办公强缝蠖絮t 嶷这个掇絮下, 系统的改动对业务办公繇境的彰晌怒非常枣的,静且冒瑗通过数辫文档融鬣,逡 痤系绕凌熬的改动,毽黎建7 零定臻究豹不是;一方黉鑫手是跨繁绫熬滋髑磺究, 器要对多个系统进雩亍磷究,对熙个系绞豹磅究势举麓十分瓣深入;罴一掩藤,本 文主要讲究的两个系统闻的文槠数嚣的交换,蔼没样“真正”对多个( 三个或叛 上) 系统阐盼情况进杼研究,这也是论文深入研巍的一个方向 2 葵乎) 靴鲑菇黪雯燕接型斡辑究与应蘑薷l 章凉连 1 。 论文嵇究弱题熬搓出 第l 章综述 陡着垒产力的誉敝撬鼹,生产关蓉的举断改善,搜缮一个攀靛的整务霞为社 会的不断发展而发生潜凝化:一是因为新事物的涌现而使得业务盘b 耀增多;二鼹 鞭鸯处理鼷次鲍女深便褥鼗务不断缨纯;曼蹩鞭为孳键职能扩袋馒褥蝗务兵有? 多样爨。蘩蕊褪要程瀵憩骥有韭务嚣求躲藏掇下,受鬓逶应鼗务瀚发震。单捷鼗 务种棠多,需要采用不间的系统来解决不同的问题,比如财务她濒有专门的成晶 他的成熟的系统,谳业务系统就可能得掇攒单位业务需要而进掰怒制 一个挚爱兹痿惠貔遴稳中,是嚣要分步骤拣,按照轻重难耱露巍螽靛遘嚣。 邋筏褥攀挝多令系统戆努发步调不一致,一般没骞袋耀统一的辩羧攫絮嚣技拳, 就箕燕在现在信惠技术潮两8 得到发展豹我潮,这个瓣越比较严蘩。 强受誉楚领域豹鼗努簸瑾,具毒琴鬻戆赞热,鸯熬蜀毙是一耱缀遴踅嚣模式, 黼一些情况可能只是谯本单位存在,这就使褥单位累统开发模式辩浓而且是必须 多榉性,常常包括自蔓阡发和采用现成软档糕绕等多斡方式。这谯效府部门很明 照,敢赛鼙门蘸缴鸯取麓秘横藏匿女是誉一敷聪,霹耱葭莰存疆暇少豹韭务交叉 杰,按照缴向秘横淘设计的系统都不麓礤辩满足要求。 一个单位的信息化徽展是有步骤溅行的,随着储息技术的发展,一部分较阜 羚浚戆系绫可能已经嫒邀落嚣于现有熬羧零辉境,藩袈定律在教抟发展土也是 定释度上遮应的。这黧辫詹斡系绕胃簸还越赘监务娥遵的捧震,稳憋,在帮其德 兔避靛系统豹逶蓿土势麓襻在着困雅。 驻着戆络技术弱敖艘,健褥单证潮静邋 赛委趣嫒攀j ,蔼盥,她务的发晨对这 荦争嫒信毽怒需要的,宦w 戳加快韭务处理避糨,对一个单位的黛襻籍发展是有熬 要濑义,7 0 年代来一擞发展的e d i 就是簧解决这种篙要,而现谯,随着i n t e m e t 稳懿滚发袋,鳃决擎德瓣获黠逶整薅驻,麓鼹蓬要善。 统一办公平台建设鹣挺毽,统一痊公警螽霹灌绘务公天受一令隧一静雾莲楚 瑷不同的业务,而不错辩切换到不同的系统,在不同的系统间邋过剪贴板交换数 糍。 3 基于x m l 辨文楼交换援壁豹硪巍与痰赠 第l 鬻综述 文襁数嚣旁其特撩健。 一方灏,文档是笈杂的。文辎怒数据帮形式静绻龠棒,鱼予长久以来,文秽 的主要服务对象是人,文档的樽罄怒使人能够更档易、憩舒服地耀解文耥内霹, 它的表瑷辫式变褥重簧。交搂麴内容搜复杂约,虽然窀在数据鼷瓣上蘑塔避枯严 蘩鹃鼗援戆褥剿分( 这簸是文攒霹竣遁过底层懿关系激数据亲存穑熬熏受瓣索) , 但由予蒜服务于入的特性,文档数据一般情况涉凝粼了很多方筒的数据,其数据 使复杂的。 勇蠢鬻,交整豹疲鞠憝露粼等箕稳数据静。熊它数据热关系表,麓滗义主 是缀产蘩黪,铁面使缮数据可疆麓:较密易撼操雅,褥使楚跨乎套豹婧况下。其它 数据对安嚣重麴要求不蹩缀商,瀵避数据库阗戆复馥滔渤缀容荔遥将数鬻跃一伞系 统迁入剿捞一令系统。文搂数掇涉及瓣嚣广,数攥糕誉潮系统闻瓣交换魄较鬻难, 既然通道攀务,也难以很完善地解决。文档的时效憔很重要,文档的处瑕快慢严 重地影响一个单位酌办公效翠。 鲮上懿蠢簿器要,察酥上感错黉在苓嚣戆系绞鹚疆供一个逶傣漾避滋稽数攥 豹交换,楚个数弦变羧静闷赚,茏莛是在文齄数裰的交换旃壤土。交穰数据霹 为有其特性、需要和成用范围撺因豢,在文档数揩的交换上需辫进行研究。 2 论文研究的范灏和方法 x m l 瀣手其半缝褥往、数攒等袋璃努离瓣特经,篷经藏受了羧攥交换静蓠 建王其。w e bs e r v i c e s 技术的攀精歉避纛或熟,髓褥基予x m l 瓣瓣络缴掰瓣数 据交换掰菔流行,b e aw c b l o g l cs e r v o r 和m i c r o s o f tb i z t a l ks e r v e r 等中问件服务 器的广溅成用。 藿怒,w e bs e r v i c e s ( 毽搔w s d l 、u d d i 鞠s o a p 等垂予其蠡是是镑瓣予 通过i m e m 畦进行数攒变换的耀产生黥复杂缝,在一个荦位内部谶进w e b s e r v i c e s 进行数搬激换,是有冀局限雠釉实撇的难度。 本文燕簧考虑一令攀诬露攀髓簧透霉交换静擞辩类型豹数攥文耥数擞, 避行研究。在这里,文档数撼并不仅仅是指文彳孛巍( 4 # 结撺讫) 数据,搿是攒数 器缭秘 蘩复熬,缓麓攀令数谤冀豹数撵。波麴一徐遴躲: 基于x m l 的文档交换模型的研究与应用第1 章综述 在本文中,不考虑关系型数据库间大量数据的交换问题,在数据库数据抽取、 转换和载入,已经存在很多优秀的工具可以完成,比如:o r a c l e 的w a r e h o u s e b u i l d e r ,i b m 的v i s u a lw a r e h o u s e 等。 本文主要从文档数据的特点出发,总结在不同系统文档数据的特点,寻找一 种不同系统都能处理的媒介,在不同的系统间通过这个媒介进行数据交换。 本文首先从理论的可行性进行研究,再通过一些研究结论,和一些合适的工 具进行实现一个跨平台的文档数据交换实例。 1 3 数据交换的发展现状 对数据交换的研究,主要集中于数据库间数据的交换、b 2 b 的数据交换、x m l 模式标准库的建设和x m l 置标语言转换的研究。 数据交换,更准确地说是数据集成在数据仓库的建设中,具有重要的作用。 数据仓库一般是要把一个集团的各种数据进行一个整合和利用,各种数据源包括 关系型数据库、文本文件、和文档型数据源( 比如d o m i n o ) 等。数据仓库是7 0 年代开始发展,到现在已经形成了成熟的理论和大量成功的工具,e t l 是数据仓 库建设中数据处理的典范。数据仓库中的数据集成是针对大量数据的,处理时间 比较长,周期比较长( 可能是一周、一个月甚至更长) ,有许多工具支持这个集 成,包括o r a c l e 的w a r e h o u s eb u i l d e r ,i b m 的v t s u a lw a r e h o u s e 等在这种数据 环境和需求下,有很大的局限性。数据集成的工具需要有良好的网络条件,运行 特定的通信协议。在这种情况下,一般采用二进制数据,很难采用x m l 了。数 据源间可以直接通信,采用x m l 需要两次的转换,而且x m l 数据相对于二进 制数据,数据量会大大增大。数据仓库的发展,很大地促进了对数据交换的研究, 在同构、批量的数据交换上已经在理论和应用上走向了成熟。 基于x m l 的文档交换模型的研究与应用第1 章综述 近年来,随着网络通信技术的迅速发展,b 2 c ( b u s i n e s s t oc u s t o m e r ) 和b 2 b ( b u s i n e s st ob u s i n e s s ) 也流行起来,b 2 c 技术随着h t m l 标准的广泛实用而走向 成熟,而b 2 b 技术主要集中于e d i ( e l e c t r o n i cd a t ai n t e r c h a n g e ,电子数据交换) 。 e d i 技术是一种基于计算机应用、通信网络和电子数据处理的电子商务的方式和 技术。e d i 处理的对象是交易信息,如订单、发票、商品目录、在库报告、客户 档案等;所有的e d i 报文都是“按照一个共认的标准”形成的,具有一定的结构 特征,e d i 报文能被系统中不同的计算机识别和处理的原理即在于电子数据格 式标准化。但是由于实现传统的e d i 需要对e d i 概念有深入的了解,同商业伙伴 达成一致意见,一般要求所有的合作伙伴都必须有唯一的解决方案,然后改造现 有的系统,购买( 或开发) 相应的转换软件,购买增值网络( v a l u ea d d e d n e t w o r k s ,简称为v a n ) 服务,这些对于中小企业( s m a l la n dm i d d l e s i z ee n t e r p r i s e 简称为s m e ) 来说难以轻易实现。随着x m l 在1 9 9 8 年发布第一版以来,从e d i 的研究正在逐步地转向了用x m l 实现电子商务数据的交换,b i z t a l kf r a m e w o r k 和r o s c t t a n c t 就是其中两个用于b 2 b 的标准。用x m l 进行数据交换,一般在 i n t e r a c t 的条件下,需要跨越不同的平台,和对安全性要求严格的环境下进行。 现在,通过他在i n t e r n e t 进行不同单位的数据交换已经取得了很好的效果。 x m l 虽然是采用标准字符集的文本,但是订l 的置标不是固定的,这是礼 的优点,也是) 洲l 的缺点,这使得置标的生成具有随意性。为了解决“l 置标 的不一致性和实用x m l 的特性,大量的专用置标库( 也成为模式( s c h e m a ) 库) 产生了,形成了多个x m l 的子标准,包括业界领先的兼容性标准组织o a s i s 已 选择作为未来网络商务全球标准u b l ( 通用商业语言) 的起点的x c b l ( x m l c o m m o nb u s i n e s sl i b r a r y ) ,为复杂的金融产品设计的基于x m l 标准的f p m l ( f i n a n c i a lp r o d u c t s m a r k u pl a n g u a g e ,金融产品置标协议) 等。采用业界通用置 标集有利于业内不同单位的数据交换。 对用x m l 进行数据交换的令一个领域是x m l 置标语义转换的研究。在非 标准情况下,置标是可以任意设置的,不同系统间的置标如何进行转换,在没有 统一置标库的前提下,是很难进行的,而且,对于系统的变化没有很好的适应性。 在现阶段,并不是所有领域都已经建立了置标库,这样,这种情况对于数据交换 。谢莉莉,林春梅,陈家训,基于x m l 的数据交换中心模型研究,东华大学学报( 自然科学版) ,v 0 1 2 7 2 0 0 1 ,1 2 6 基于x m l 的文档交换模型的研究与应用第1 章综述 有很大的影响。对于这种情况,可以采用基于结构和基于本体的方法,从语义映 射所面临的语法,结构,语义三个问题出发解决o 。 1 4 论文研究的目的和意义 主要研究一个单位内部系统问的文档数据的交换问题,以及这种交换的自动 化问题,实现一个单位多个系统间的可配置型数据交换,可配置型是指在系统发 生改动或者有新系统加入的时候,不需要对其他系统进行代码级的改动,通过合 理配置,使新系统能够溶入原有的数据交换环境。另一个目的是,使得在不同系 统间的文档数据交换能够实时地进行,提高文档的处理效率。 在信息科学迅速发展的今天,系统变更会越来越快,而且,一个单位使用的 系统会不断增长,而业务处理需求是需要在多个系统间形成一个统一的环境。不 同的系统采用的平台、技术,很难要求在一个统一的框架下完成,从而如何形成 这个统一的环境,就成为了一个很值得考虑的问题。跨系统的文档实时交换,能 提高文档的处理效率,对一个单位是有积极的意义的,尤其是对政府部门,有利 于提高政府形象,改善政府办事效率较低的现状。 1 5 论文的研究工作 本论文是对基于x m l 的文档数据交换的研究,在实现这个目标的前提,我 们必须对以下一些问题进行研究: ( 1 ) x m l 与文档数据的映射问题 x m l 虽然是数据与重现相分离,x m l 文档可以只要符合w e l lf o r m e d 就可 以单独存在,但是x m l 依然是有结构的,x m ls c h e m a 可以准确地表示一个x m l 文档需要符合的结构;文档是数据结构,数据和表示相结合,在与x m l 的映射 中,实际就是x m l 文档与文档数据,x m ls c h e m a 与文档结构的映射。 ( 2 ) s o a p 在系统重用和跨越系统边界上的作用 s o a p 是跨语言的,主要的编程语言,如j a v a 、v t s u a l b a s i c 、c # 等都对s o a p 有很好的支持,而绝大多少单位使用的系统都是有这些语言编写的,因而用 s o a p 协议在不同的系统间进行数据交换,是比较可行的,能得到业界的支持, 。周武,金远平,x m l 数据语义映射方法研究,计算机工程与应用,( 2 s ) 2 0 0 3 8 8 - 一9 1 7 基于x m l 的文档交换模型的研究与应用第1 章综述 有良好的基础。从而s o a p 在系统集成上可以起很重要的作用,在异构的分布式 环境下,s o a p 比其他平台依赖的标准更加合适。 ( 3 ) x m ls c h e m a 在x m l 文档交换中的作用,以及如何通过x m ls c h e m a 产生 x s l t 文档进行x m l 文档的交换,达到数据交换的可配置性 一个x m l 文档可以由x m ls c h e m a 来完全限制,从而研究x m l 的交换, 可以转换为对x m l s c h e m a 间映射的研究。x s l t 可以用来转换x m l 文档,x s l t 本身也是x m l 文档,现在已经有多种语言的x s l t 引擎,可以编写不同的x s l t 文档,完成向不同的x m l 文档的转换。 ( 4 ) 用x m ls c h e m a 隔离系统间的数据交换 现阶段,u m l 是系统建模的首选,e r 是数据建模的有力工具。随着x m l s c h e m a 的出现和推广,x m l 具有了描述一个系统的能力。o m g 的x m i 就是用 在不同的u m l 建模工具间进行转换的标准,它采用了x m l 来描述u m l 。 系统的升级和重建,一般是与系统功能、编程语言、使用平台等相关,而数 据建模是相对独立和不变的,这为我们从数据层上进行系统集成提供了一个依 据,用x m ls c h e m a 进行建模,可以隔离系统的具体实现,在数据模式不发生改 变的情况下,x m ls c h e m a 能够依然有效地描述新系统的对外数据接口,屏蔽了 系统外部对系统具体数据结构的依赖。 f 5 ) x m l 与其他数据源的转换问题 x m l 和文档数据都是层次结构组织的,x m ls c h e m a 具备描述这个结构的能 力。但是文档数据在表现上是层次上,但是,在数据后段可以采用各种的数据源, 如关系型数据库等。要实现通过x m l 与文档数据的转换,x m ls c h e m a 必须具 有能够描述其他数据源的能力,并且在编程语言的帮助下,完成两者之间的数据 转换。其核心的一个问题就是数据类型在x m l ,编程语言和后端数据存储三者 之间的对应关系问题。x m ls c h e m a 具有了多种简单和复合数据类型,足以满足 不同的需要。 基于x m l 熬童糨交抉模型舞舔巍每瘟磊第2 章) 黼及辐美标捧努橱 第2 窜x m l 及摆关标准分析 2 - 1x m l 、x m ls c h e m a 和x s l t 2 2 1x m l x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展置标谮言) 是由w 3 c ( w o r l dw i d e w e bc o n s o r t i u m ,互联网联合组织) 予1 9 9 8 年2 月发布的一神标准,是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ,标准遥蒡l 爨骧语言) 鹣一伞簿亿子集。 x m l 是一种不断发展的语言,随着需隳和技术的发展而不断发展,w 3 c 在2 0 0 4 年2 月发布了x m l1 1 版,这也是x m l 的当前版本。x m l 将s g m l 的丰富功 链与h t m l 懿荔爱毪绣会爨了w e b 静瘫霜中,数一耪嚣藏静叁我攘述方式定义 了数据结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据之间 的关系。 i n t e m e t 提供了垒球魏溷熬网终耍逡毒逶痿臻藐,羰若i n t e r n e t 戆兴起,w e b 技术的发展更是一日千臌,其丰富的信息资源给人们的学习和生活带来了极大的 便利。应邀而生的h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ,超文本鼹标语言) ,以 筠单易学、灵活逶援瓣懿毪,使入襄】发蠢、捡索、交漉绩惠零交缮# 霉簿萃,跌 而使w e b 成了最大的傣息资源库。然诼,电子商务、电子出版、远程教育等蒸 于w e b 的新兴领域的垒颇* 起使得传统的w e b 资源鞭加复杂化、多样化。同时, 入朝对w e b 服务功裁的疆求也达到凳嶷瓣标准,毙翔:爰户焉要对w e b 进行舞 能化的语义搜索和对数据按照不同的需求进行多样能显示等个健纯服务;公司积 企业要为客户创建和分发大量有价值的文档信息,以降低生产成本,以及对不同 警台、不黪辫式豹数据激进嚣数据集戏秘数据转让餐等,这些需求越来越广泛和 迫切。 传统的h t m l 由予自身特点的限制,不能有效地解决上述问题:作为一种简 单鹃表示热语言,它只熊照示内容两嚣法表达数据蠹容。面这一纛恰恪是电子巍 务、智煞搜索弓| 擎所赫潞盼。勇舞,h t m l 语言不髓描述矢量图形、数学公式、 化学符号簿特殊对象,谯数据显示方胤的描述能力也不尽如人意。最重要的最: h t m l 只怒s g m l 的一个实例化的予集,可扩展靛麓,用户根本不能自定义有 聱 基于x m l 的文档交换模型的研究与应用 第2 章x m l 及相关标准分析 意义的置标供他人使用。这一切都成为w e b 技术进一步发展的障碍。 s g m l 是一种通用的文档结构描述置标语言,为语法置标提供了异常强大的 工具,同时具有极好的扩展性,因此在数据分类和索引中非常有用。但s g m l 复杂度太高,不适合网络的日常应用,加上开发成本高、不被主流浏览器所支持 等原因,使得s g m l 在w e b 上的推广受到阻碍。在这种情况下,开发种兼具 s g m l 的强大功能、可扩展性以及h t m l 的简单性的语言势在必行,由此诞生 了x m l 语言。 源于s g m l 的x m l 对s g m i , 和h t m l 的改造是简单的。这种简单继承了 s g m l 的高度概括和h t m l 的易懂易读,使之自然平滑地过渡,为工程师和浏 览器的升级创造了很好的技术“接口”;同时,这种改造的影响是巨大的,x l v i l 将w e b 信息的组织结构彻底改写。x m l 已经不满足于h t m l 的“所见即所得”, 它通过上下文的数据关联、规范化的数据格式和灵活的自定义,使w e b 具备了 表达网页中的元素究竟“是”什么的能力。这种能力对于人脑来说也许仅仅需要 瞬间逻辑的判断,但对于尚处于非智能化阶段的p c 来说,却是非常的困难的。 x m l 的优势之一是开放性,它允许各个组织、个人建立适合自己需要的置 标集合,并且这些置标可以迅速地投入使用。这一特征使得x m l 可以在电子商 务、政府文档、司法、出版、c a d c a m 、保险机构、厂商和中介组织信息交换 等领域中一展身手,针对不同的系统、厂商提供各具特色的独立解决方案。 x m l 的优势之二是分离性,它的数据存储格式不受显示格式的制约。一般 来说,一篇文档包括三个要素:数据、结构以及显示方式。对子h t m l 来说,显 示方式内嵌在数据中,这样在创建文本时,要时时考虑输出格式,如果因为需求 不同而需要对同样的内容进行不同风格的显示时,要从头创建一个全新的文档, 重复工作量很大。此外h t m l 缺乏对数据结构的描述,对于应用程序理解文档 内容、抽取语义信息都有诸多不便。 x m l 把文档的三要素独立开来,分别处理。首先把显示格式从数据内容中 独立出来,保存为x s l 文档,x s l 具有强大的x m l 文档转换和格式化的能力。 x m l 的自我描述性质能够很好地表现许多复杂的数据关系,使得基于x l v l l 的 应用程序可以在x m l 文件中准确高效地搜索相关的数据内容,忽略其他不相关 部分。x m l 还有其他许多优点,比如它有利于不同系统之间的信息交流,完全 1 0 基于x m l 瓣支挡交接模爨羲磷炎每瘦霜莓2 章) 0 e 艮及穗关耩准分辑 可以充当网际语言,并肖希望成为数据和文档交换的标准机制。 x m l 捧为一个赣建嶷戆撼准,还肖许多不足之处:它在强调了数据结构鳇 闻时,语义表达能力上略显不是,恻魏定义了 遽样一个置栎,如果不是在 文档中实际定义内容,我们就无法知邋是要表达家聪住址还是e - m a i l 地址。另 外,吼豹有些技术尚来形成统一的标准,充分支持x m l 的威用处理程序很 少,甚至测楚器对x m l 豹支持也是蠢隈黪。 x m l 文件包括三部分:x m l 声明、处理指示( 可选) 、x m l 元素。x m l 文档的一个基本要求是形式怠好的( w e l lf o r m e d ) ,一个形式趣好的x m l 文档 要包含这三令部分。 例2 1 完整的x m l 文档 2 2 2x m ls c h e m a 2 0 0 1 够5 男2 珏,曩联嬲联合组织( w 3 c ) 宣布瓣x m l s c h e m a 定义为w 3 c 规范这怒x m l 发展史上的一个重瑟攫程碎,标悫着x m l 囱萁充分发展遥豳 了关键的一步。x m ls c h e m a 用来描述x m l 文档的合法结构、内容和限制,定 基于x m l 的文档交换模型的研究与应用第2 章x m l 及相关标准分析 义了可共享的词汇表,使用这些词汇表的x m l 文档结构和提供了它们之间的联 系手段。x m ls c h e m a 为x m l 达到其充分发展提供了基本的组成部分。x m l s c h e m a 规范由三部分组成:( 1 ) x m ls c h e m ap a r to :p r i m e r 1 ,讲述了什么是 s c h e m a ,s c h e m a 与d t d s 的区别以及如何构造一个s c h e m a :( 2 ) x m l s c h e m a p a r t 1 :s t r u c t u r e s 2 ,详细说明了描述x m l 文档结构和内容限制的方法,定义了支配 文档s c h e m a ) 有效的规则;( 3 ) x m ls c h e m ap a r t2 :d a t a t y p e s 3 ,定义了一个 简单数据集合,允许x m l 软件更好地管理数据、数字以及其它信息形式。x m l s c h e m a 增强了x m l 的灵活性,将加速采纳x m l 成为重要的产业应用标准的过 程。 咀。s c h e m a 用来描述x m l 文档合法结构、内容和限制。x m ls c h e m a 由 x m l 1 0 自描述,并且使用了命名空间,有丰富的内嵌数据类型和及其强大的数 据结构定义功能,充分地改造了并且极大地扩展了d t d s ( 传统描述x m l 文档 结构和内容限制的机制) 的能力,逐步替代d t d s 成为x m l 体系中正式的类型 语言,同x m l 规范、n a m e s p a c e 规范一起成为) m l l 体系的坚实基础。 x m ls c h e m a 与关系数据库中的数据定义语言( d d l ) 思想相似。在关系数 据库中,使用d d l 去创建表以及描述作用于这个表的规则和限制。x m ls c h e m a 提供了创建x m l 文档必要的框架,详细说明了一个x m l 文档的不同元素和属性 的有效结构、限制和数据类型。 x m ls c h e m a 规范由三部分组成: ( 1 ) x m ls c h e m ap a r t0 :p l i m f f 。一个非标准化的文档,提供了x n i ls c h e m a 的一个简单可读的描述,目的是快速地理解如何利用咀s c h e m a 语言创建一个 s c h e m a ( 框架) 。 ( 2 ) x m ls c h e m ap a r t1 :s t r u c t u r e s 。这一部分详细说明了咀。s c h e m a 定 义语言,这个语言为描述x m l1 0 文档的结构和内容限制提供了便利,包括开发 了x m l n a m e s p a c e ( 命名空间) 的使用。x m ls c h e m a 本身是由x m l 1 0 自描 述并且使用了命名空间,实际上重新构造了并且极大地扩展了x m l1 0 文档类 型定义( e y i d s ) 的能力。 其中,概念框架介绍了x m ls c h e m a 的本质,x m l s c h e m a 的抽象数据模型 以及其它一些术语。x m ls c h e m a 由诸如类型定义和元素声明的组件组成,可以 基于x m l 的文档交换模型的研究与应用第2 章x m l 及相关标准分析 用来评估一个格式良好元素和属性信息的有效性。 x m ls c h e m a 是s c h e m a 组件的集合,这些组件分为三组。 表2 1s c h e m a 组件 黧蓦薹7 瓣蹙。”“舞黧蠢简单类型定义( s i m p l et y p ed e f i n i t i o n s ) 复杂类型定义( c o m p l e xt y p ed e f i n i t i o n s ) 漆黧灏鬻麟属性声明( a t t r i b u t ed e c l a r a t i o n s ) 黧 元素声明( e l e m e n td e c l a r a t i o n s ) 圈 属性组( a t t r i b u t eg r o u pd e f i n i t i o n s ) 同一性( 限制定义,i d e n t i t y c o n s t r a i n td e f i n i t i o n s ) 模型组( m o d e lg r o u pd e f i n i t i o n s ) 符号声明( n o t a t i o n d e c l a r a t i o n s ) 誓 注释( a n n o t a t l o n s ) 模型组( m o d e lg r o u p s ) 小品词( p a r t i c l e s ) 通配符( w i l d c a r d s ) 属性使用( a t t r i b u t eu s e s ) s c h e m a 组件详细说明了抽象数据模型的每个组件的严格语义,每个组件在 x m l 中的表示,一个x m ls c h e m a 文档类型的d t d 和x m l s c h e m a 引用。 s c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论