(计算机应用技术专业论文)智能文档关键技术研究.pdf_第1页
(计算机应用技术专业论文)智能文档关键技术研究.pdf_第2页
(计算机应用技术专业论文)智能文档关键技术研究.pdf_第3页
(计算机应用技术专业论文)智能文档关键技术研究.pdf_第4页
(计算机应用技术专业论文)智能文档关键技术研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 传统的文档( 静态文档) 主要承载内容的格式描述信息,以显现为主要目的。 智能文档则可以容纳文档中的数据内容与格式信息( 式样) ,并指定操作行为, 文档因此兼备静态的信息表示与动态的处理能力,功能得到极大增强。 本课题主要研究智能文档的体系结构和实现方式。课题采用模型一视图一 控制器架构模式来构造智能文档体系结构。智能文档包括三部分描述信息:格 式信息、用户数据和文档操作行为其中格式信息用于显现,用户数据是文档 的逻辑内容,操作行为定义文档的动态内容,包括用户界面控件和动作响应。 为使文档达到开放性和可交换性的目标,对于模型组件和视图组件,采用的是 基于x m l 的文档来描述,控制器组件基于w e bs e r v i c e s ,同样采用了基于x m l 的文档来描述文档操作,文档处理器通过解析文档操作描述文件来完成服务的 调用及回调处理。为验证上述架构,本课题实现了一个原型系统,可为文档增 加内容片断的加密、解密、签名和验证等操作。其中,作为控制器的文档处理 器加载自定义智能标记以及o f f i c e 插件;模型组件包括文档对象模型、文档操 作行为解析器和w e bs e r v i c e s 访问器;视图组件定义文档处理器的用户界面及 文档显示格式。智能标记和o f f i c e 插件的处理程序作为模型组件和视图组件沟 通的桥梁。 从办公文档格式规范来说,目前办公文档格式中仅限于静态的数据内容和 格式信息描述,本文的主要贡献是,基于m v c 架构模式提出了一种实现智能文 档的方法,通过向文档中添加基于w e bs e r v i c e s 文档操作描述文件,在静态信 息的基础之上增加了文档的动态处理能力,从而扩展了文档自身的描述能力, 同时采用x m l 来描述文档的数据内容、格式信息和文档操作,做到三者的有机 统一。 该课题的研究有助于智能文档的应用,为之找到合理的实现方式;同时, 研究成果可为中文办公软件文档格式标准支持智能文档提供有益的借鉴。 关键词智能文档;文档格式;文档操作 a b s t r a c t c o n v e n t i o n a ld o c u m e n t s ,i e ,s t a t i cd o c u m e n t sw h i c hm a i n l yc o n t a i nd a t aa n d f o r m a ta r ef o rt h ep u r p o s eo fp r e s e n t a t i o n w h e r e a sf o rs m a r td o c u m e n t s ,a d d i t i o n a l o p e r a t i o nb e h a v i o r sc a nb es p e c i f i e d ,t h u st h ed o c u m e n th a st h ea b i l i t i e sf o r p r e s e n t i n gb o t hs t a t i c d a t aa n dd y n a m i cp r o c e s s i n g ,a n dt h u st h ef u n c t i o no f d o c u m e n ti se n h a n c e dg r e a t l y n l i sr e s e a r c hi sf o c u s e d0 1 1t h ea r c h i t e c t u r ea n di m p l e m e n t a t i o nm e t h o d o l o g yo f s m a r td o c u m e n t m o d e l v i e w - c o n t r o l l e rm o d e li sa d o p t e da st h eb a s i ca r c h i t e c t u r et o b u i l ds m a r td o c u m e n ts y s t e m s as m a r td o c u m e n ti sc o n s i s t e do ft h r e ep a r t s :f o r m a t i n f o r m a t i o n ,u s e r sd a t aa n do p e r a t i o n ,w h e r ef o r m a ti n f o r m a t i o ni sf o rp r e s e n t a t i o n , u s e r sd a t ac o m p o s e st h el o g i c a lc o n t e n to fd o c u m e n t , a n do p e r a t i o ni sf o rg e n e r a t i n g d y n a m i cc o n t e n t so fd o c u m e n tw h i c ha r eu s u a l l ya s s o c i a t e dw i t hw i n d o w sc o n t r o l s , e g ,e v e n t sa n dc a l l b a c k s i no r d e rt om a k ed o c u m e n to p e na n di n t e r o p e r a b l e ,x m l i su s e df o rd e s c r i b i n gm v - cc o m p o n e n t a sf o rc o n t r o l l e rc o m p o n e n t ,i ti sb a s e do n w e bs e r v i c e s ,a n dt h eo p e r a t i o ns e m a n t i c si sd e s c r i b e di nas e p a r a t e df i l e b yp a r s i n g t h ef i l e ,t h ed o c u m e n t p r o c e s s o rc a ni n v o k et h er i g h ts e r v i c ea n dp r o c e s st h er e s u l l a p r o t o t y p es y s t e mi sd e v e l o p e di nt h i sr e s e a r c ht ot e s t i f yt h eo v e r a l ls t r u c t u r e p r o p o s e d , w h i c hc a na d da d d i t i o n a la b i l i t i e st ot h ed o c u m e n t , e g ,t oe n c r y p ta n dd e c r y p td a t as e g m e n t s ,t os i g na n dv e r i f yt h ed o c u m e n t , e t c i nt h ep r o t o t y p es y s t e m , s m a r t t a g sc a nb ea d d e di n t ot h ed o c u m e n tp r o c e s s o ri e ,t h ec o n t r o l l e r ;am s o f f i c e 2 0 0 7a d d i nc a nb el o a d e da st h ev i e we x t e n s i o n t h em o d e lc o m p o n e n ti sr e s p o n s e f o ra n a l y s i so fx m ld a t a , o p e r a t i o nb e h a v i o rd e s c r i p t i o n ,a sw e l la sw 的s e r v i c e i n v o c a t i o n t h ev i e wc o m p o n e n ti sr e s p o n s ef o rd e f i n i n gu s e ri n t e r f a c ea n d d o c u m e n tp r e s e n t a t i o n t h es m a r tt a gt o g e t h e r 、析廿lt h eo f f i c ea d d - i ni sp e r f o r m e da s t h eb r i d g eb e t w e e nm o d e la n dv i e w a sf o rt h ed o c u m e n tf o r m a t , c u r r e n t l yi tm a i n l yc o n t a i n st h es t a t i cd a t aa n d f o r m a ti n f o r m a t i o n t h ec o n t r i b u t i o no ft h i sr e s e a r c hi n c l u d e s :i tp r o p o s e sam e t h o d i i a b s t r a c t t oi m p l e m e n ts m a r td o c u m e n tw h i c hi sb a s e do nm v cm o d e l a d d i n ga d d i t i o n a l d o c u m e n to p e r a t i o nd e s c r i p t i o nf i l ew h i c hi sb a s e d0 1 1w e bs e r v i c e st od o c u m e n to n b a s i so fi t ss t a t i cc o n t e n t ,i tc a l le x t e n dd e s c r i p t i o na b i l i t yo fd o c u m e n tw h e r e a sk e e p e a c ho f t h e mt oc o e x i s ti n d e p e n d e n t l y t h er e s u l to b t a i n e di nt h i sr e s e a r c hs h o u l db eh e l p f u lt ot h es m a r td o c u m e n t a p p l i c a t i o n ,m o r e o v e r , i tc a nb ean i c ei n p u ti n t ot h ec h i n e s en a t i o n a ld o c u m e n t f o r m a ts t a n d a r dw h i c hw a sj u s te s t a b l i s h e d ,i e ,h o wu o fc a l li n c o r p o r a t es m a r t d o c u m e n ta b i l i t y k e yw o r d s m a r td o c u m e n t ;d o c u m e n tf o r m a t ;d o c u m e n to p e r a t i o n i i i 学位论文版权使用授权书 本人完全了解北京机械工业学院关于收集、保存、使用学位论文 的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和 电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、 缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以 及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名:跏& 令砬 年月 日 ( 注:非保密论文无需签字) 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名:寸:垦令箍 年月日年月日 硕士学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 签名:沮伶雀豆签名:杀致分槌 年月 e 1 第1 章绪论 1 1 课题来源 第1 章绪论 课题来源为国家电子政务标准体系建设一期工程项目“中文办公软件文档 格式规范 ,同时也是信息产业部电子发展基金资助的预先研究课题。 1 2 智能文档技术研究现状分析 传统的文档主要承载内容的格式描述信息,以显现为主要目的。智能文档 则可以容纳文档中的数据内容与格式信息( 式样) ,并指定操作行为,文档因此 兼备静态的信息表示与动态的处理能力,功能得到极大增强。 智能文档是近年发展起来的技术,目前对于智能文档的理解上尚存在差异。 智能文档早期来源于文档自动识别和基于知识的信息检索【1 5 】,近年,智能文档 深受a d o b e 和m i c r o s o l 患公司产品理念的影响,概念逐步清晰起来。以a d o b e 公 司为代表的观点认为:智能文档通过将纸质文档的优点与安全、计算、路由、 错误检查和数据验证等领域功能强大的业务逻辑相结合,从而简化了这些关键 业务的信息交流【6 j 。以m i c r o s o f t 公司为代表的观点认为,传统意义上的文档主 要作用是提供信息,这样的文档可看作静态文档。而智能化的文档将是动态的, 不仅能够提供信息给读者,还能够即时响应读者的操作要求【7 1 。这里的操作不单 指对文档本身的操作,还要包含根据文档所处的场景进行的操作。 综合上述观点,智能文档体现出下述共同特点: 仍以办公软件为主要处理工具; 文档支持用户的数据内容和操作行为,易于与业务逻辑相结合,与工作 流等应用集成: 支持处理系统基于语境的、动态的处理能力。 近年信息处理技术的发展呈现出两个方向:一个是以文档为中心的方向。 目前几乎所有的办公软件,包括m i c r o s o ro f f i c e 、a d o b ep d f 、方正c e b 电子 公文以及书生s e p 等都是这个方向的产物。另一个是以数据为中心的方向,国 内外的数据库和信息系统产品都可看作是这个方向的产物。这两个市场都是巨 第1 章绪论 大的。前者造就了m i c r o s o f t 、a d o b e 这样的软件巨人;后者不但造就了o r a c l e 这样的公司,也为相当数量的系统开发商提供了生存空间。 随着i n t e r n e t f i n t r a n e t 的发展,以大量的事务处理构筑在w e b 为基础的应用 之上,计算模式从面向过程、面向对象逐步发展到面向文档的计算【8 l 。从技术角 度来说,随着可扩展置标语言x m l 应用的兴起,文档的记录格式越来越多地采 用x m l 来描述。例如,o a s i s 的o p e nd o c u m e n tf o r m a t w ,m i c r o s o f t 的o f f i c c o p e nx m lf o m “1o 】等等。采用x m l 描述文档,能够通过定义文档类型定义 ( d o c u m e n tt y p ed e f i n i t i o n ,d t d 或s c h e m a ) 来规范文档的记录格式,可对其 进行验证,并大大增强文档格式的交换能力。x m l 也促使了文档显现格式与内 容的分离,这一方面有助于保持相对稳定的文档逻辑内容信息,使其不受排版 风格的影响,各种应用还可定义与各自领域的s c h e m a 来规范如何描述文档的逻 辑内容,并与其他的应用系统集成。另一方面,格式与内容的分离也使得相同 类型的文档只需一次排版便可具有一致的显现格式,大大降低了排版的工作量。 然而,作为办公文档,一方面要尽可能支持所见即所得的友好的编辑风格,这 要求格式与内容混合编排:另一方面最好还能支持文档格式与内容的分离以支 持应用集成。前者代表的是文档为中心的技术路线,后者代表的是数据为中心 的技术路线。 在一个相当长的时期,这两个路线并行不悖。虽然从市场利益上,办公软 件市场的厂商和数据市场的厂商无时无刻不在相互渗透。特别是以文档为中心 的厂商一直在寻找一种技术,可以让文档和数据结合起来,以便挟文档领域的 优势进入数据市场。x m l ( e x t e n s i v em a r k u pl a n g u a g e ,可扩展置标语言) 技术 的出现终于给文档为中心的厂商带来了机会,它可以让文档和数据互相沟通, 形成以x m l 为基础的智能文档。于是,文档市场的厂商在智能文档上纷纷倾力 投入:m i c r o s o f t 力推i n f o p a t h 智能表单( 智能文档的一种) ,a d o b e 以7 0 0 0 万 美元收购北美另一家智能文档开发商,并把以前的e p a p e r 产品线都更名为智能 文档,国内的书生公司在推出智能文档的同时,开发了文档处理语言u o m l , 力图使文档可以像数据库一样进行管理和访问。这些都说明了智能文档的重要 性。 因此,无论是从市场还是技术角度来说,x m l 技术的发展为上述两种技术 路线的融合带来了可能,而融合的产物则是智能文档。 m i c r o s o f t 早在o f f i c ex p 发布的时候便提供了智能标记( s m a r t t a g ) 的功能 2 第1 章绪论 和包含智能化特性的某些任务窗格操作【l 。智能标记从无线射频识别( r a d i o f r e q u e n c yi d e n t i f i c a t i o n , r f i d ) 技术借用而来,是超链接功能的进一步扩展 1 2 - 1 5 】。智能标记是一些组件,它可以自动识别文档中某些类型的信息,并将信 息链接到其他应用程序。这样,用户无需在多个应用程序之间切换,就可以把 o 伍c e 中的数据传递到其他应用程序。智能标记指的是那些被识别和标记为特殊 类型的数据。每个智能标记由两部分组成,即识别器和操作组件。识别器用于 确定何时需要智能标记。它可识别某些类型的文本,例如按照预定义列表或者 匹配某些模式类型的内容,这些文本指示用户可以采取某个操作。操作组件显 示操作选项,并在需要时执行相应的操作。例如电子邮件地址识别器可具有一 个操作组件,允许用户向该地址发送邮件,或者将其添加到用户的联系人列表 中。因为商务活动需要不断变化和发展,所以智能标记的操作组件要用新的或 扩展的操作进行更新。 随着m i c r o s o f to f f i c es y s t e m2 0 0 3 的推出,新版本中得到加强的重要特性就 是对x m l 的支持和文档的智能化操作。利用o f f i c e2 0 0 3 中的智能文档、智能 标记、智能表单处理的i n f o p a t h 和进行信息搜索的信息检索服务,可以在一定程 度上实现提高工作效率,达到文档处理的智能化和自动化的目标【l6 1 7 】。o f f i c e 2 0 0 3 中提供了对x m l 的广泛支持,而智能文档就是在x m l 基础上发展而来的。 从本质上来讲,智能文档是对x m l 置标功能的进一步体现。通过在m i c r o s o f t o f f i c es y s t e m 中引入用户定义的x m ls c h e m a ,并与文档内容绑定,可以将逻辑 数据与文档的显现格式分开,这样可以使w o r d 、e x c e l 等应用方便地读取外部数 据库信息,将其放入文档中的相应位置,或让其他应用程序重复使用这些数据 内容。o f f i c e2 0 0 3 智能文档的基础是x m l 架构,智能文档可看作是对添加了 x m l 标记的数据定义相关操作,而进行操作的宿主程序则是w o r d 、e x c e l 等办 公软件。除了文档所具有的智能标记以外,m i c r o s o f t 还提供了应用程序编程接 口( a p i ) 以方便开发人员针对特定需求建立自己的智能标记。 1 3 本项研究所作的主要工作及意义 本课题将主要研究智能文档技术的体系结构,文档的记录格式如何适应智 能文档等关键问题。主要内容如下: 从m v c ( m o d e l - - v i e w - - c o n t r o l l e r ) 架构模式的角度出发,构建合理的 3 第1 章绪论 智能文档的体系结构。 研究文档操作的表示方法,此表示方法将基于w e bs e r v i c e s 。 设计并实现原型系统验证此模型的可行性。 智能文档代表了文档技术未来的发展方向,具有广泛的应用前景。国产软 件企业在未来智能文档领域的建树,不仅关系到企业自身的发展前景,在某种 程度上也影响着国产软件行业今后的发展。特别是,中国目前正在制定中文办 公软件国家标准,其核心是“中文办公软件文档格式规范。本项课题的研究成 果将会为智能文档技术的发展提供良好的基础,具有一定的现实意义和应用前 景。 1 4 论文结构安排 本文的第二章介绍了与课题相关的背景知识。第三章首先介绍m v c ( m o d e l v i e “o n t r o l l e r ) 架构模式,然后结合m v c 介绍智能文档体系结构,提出 在文档格式中添加文档操作行为描述文件,以增加文档的动态处理能力。第四 章结合m v c 介绍文档操作行为的表示方法。第五章介绍原型系统的总体设计, 分别介绍原型系统的服务端、客户端设计。第六章介绍原型系统实现,主要介 绍实现原型系统的关键问题,而后介绍了原型系统的用户界面及操作过程示例。 第七章为结论部分,对本项研究的成果作了简单总结,并指出了该技术目前尚 存在的不足之处和进一步工作的方向。 4 第2 章相关技术背景 第2 章相关技术背景 本课题将实现的原型系统包括服务端和客户端两部分。服务端以w e b s e r v i c e s 的形式提供基于x m l 的文档加密、解密和文档签名、验证等安全服务; 客户端通过向文档中添加文档操作描述文件,文档处理器通过解析该文件,完 成对文档安全服务的调用和回调。在原型系统中服务端使用了w e bs e r v i c e s 技 术;客户端构建在o f f i c e2 0 0 7 之上,对o f f i c e 进行插件开发。此外,还使用了 基于x m l 的办公文档格式,以及办公软件m i c r o s o f to f f i c e2 0 0 7 等。下面就相 关技术做一简要介绍。 2 1基于x m l 的办公文档格式 近年来,办公文档格式已经完成从封闭的、二进制文档格式向开放的、基 于x m l 的文档格式的过渡,基于x m l 的文档格式已经成为主流办公软件的默 认文档格式。目前主流的办公文档格式标准主要有0 d f 、0 0 x m l 和u o f 三种。 o d f t g j 是办公应用程序开放文档格式的简称( 即o p e nd o c u m e n tf o r m a tf o r o f f i c ea p p l i c a t i o n s ) ,是基于x m l 的文档格式,主要用来存储和转换那些可 编辑的办公文档,支持包括文字处理、电子表格、演示文稿、制表制图和图形 编辑等办公软件应用。0 d f 目前由结构化信息标准促进组织( 即o a s i s ) 负责维 护。2 0 0 6 年5 月,o d f 成为正式国际标准( 即i s o i e c2 6 3 0 0 2 0 0 6 ) u o f 1 8 j 即“标文通 是我国推荐性国家标准( g b t 2 0 9 1 6 2 0 0 7 ) ,全称中 文办公软件文档格式规范。它是以中文办公软件需求为出发点,在分析、借鉴 国际相关标准的基础上,结合我国国情,从实际应用出发,制定出的针对文字 处理文档、电子表格和演示文档三种主要文档格式的描述体系。 最后就是o o x m l 1 ”1 】( o f f i c eo p e nx m lf o r m a t ) 。o o x m l 是欧洲计算机制 造商协会( e c m a ) 的标准,标准起草者是m i c r o s o r 公司。是m i c r o s o f to f f i c e2 0 0 7 的默认文件格式。该格式标准覆盖了m i c r o s o f to f f i c e2 0 0 7 的各个基本组分,如 w o r d 的w o r d p r o c e s s i n g m l 、e x c e l 的s p r e a d s h e e t m l 、p o w e r p o i n t 的 p r e s e n t a t i o n m l 等,同时也增加了用于矢量图形( d r a w i n g m l 和v m l ) 、文件属 5 第2 章相关技术背景 性、参考资料、数学元素、自定义x m l 数据属性等的支持包。 由于支持u o f 的办公软件上不够成熟,而o d f 支持用户数据和智能标记 的能力较弱,本课题的原型系统构建在o f f i c ew o r d2 0 0 7 之上,并使用了o o x m l 文档格式标准中的w o r d p r o c e s s i n g m l 。 o o x m l 是基于x m l 语言和z i p 开放打包结构的办公文档格式。在o o x m l 中,定义了o p e np a c k a g ec o n v e n t i o n ( 开放打包约定,以下简称o p c ) ,它定义 了一种通过标准z i p 文件存储应用程序数据及其相关资源的结构化方法。这种 新的打包技术已应用于2 0 0 7o f f i c es y s t e m 应用程序。它是一个开放标准,因此 o p c 提供的容器技术使开发人员无需对自定义二进制容器文件进行编码。同时 它还支持很多增强功能,其中包括可寻址u r i 、m i m e 类型、关系构架和身份 验证。在o p c 中规定了以下三个主要概念: 文档容器项。文档容器项对应一个z i p 包,也就是一个o f f i c e 文档文件。 部件项。每个部件项都对应包解压后的一个文件。 关系项。关系项指定文档部件的集合如何组合为一个文档。这种方法指 定了源部件和目标部件之间的连接。关系在文档包中存储为x m l 部件, 例如r e l s r e l s 文件。 o o x m l 文档对应文档容器,每一个文档容器由多个部件组成,每个部件描 述了文档的不同部分,除了少数代表图形的二进制文件或内嵌o l e 对象,大多 数部件采用x m l 文件形式,这些部件相互之间通过关系部件协同工作。o o x m l 格式继承并扩展了以往文件格式的功能,可以与早期的版本o f f i c e2 0 0 0 x p 2 0 0 3 实现良好的兼容,并采用了压缩技术,减小了文件尺寸。 最基本的w o r d p r o c e s s i n g m l 文档包含如下元素: d o c u m e n t - - 主文档的根元素,它定义了主文当的开始和结束。 b o d y - - d o c u m e n t 元素的子元素,定义了文档的主体部分。 p - - p a r a g r a p h ,代表一个段,p 元素中包含一至多个r ( r u n ) 元素。 r r u n ,代表句,r 元素中包含一至多个t ( t e x t ) 元素。 t t e x t ,代表文档中一段文本。 示例如下所示: ( w :b o d y 6 第2 章相关技术背景 h e l l o jw o r l d h e l l o jw o r l d ( w :b o d y 在原型系统的设计与实现中,主要使用w o r d p r o c e s s i n g m l 的m a i nd o c u m e n t 部件( 主文档部件,即d o c u m e n t x m l ) 。 此外,w o r d 中提供书签功能。书签是字处理文档用来快速定位文档中某个 位置的标记信息,通常在需要标记的位置使用书签开始( b o o k m a r k s t a r t ) 和书签 结束( b o o k m a r k e n d ) 标签来标识该书签所定位的内容。如果要在上述x i v i l 的 第一个 h e l l o ,w o r l d c w :r ( w :b o o k m a r k s t a r tw :i d = ”o ”w :n a m e = ”b o o k m a r k ” ( w :t h e l l o jw o r l d ( w :t h e l l o jw o r l d 在原型系统中通过使用书签开始和书签结束标记来标注被文档操作影响的 文档节点集合。 2 2w e bs e r v i c e s 技术 随着i n t e m e t 的发展,基于w e b 的应用数量以惊人的速度增长。在w e b s e r v i c e s 出现以前,由于各个组织、机构之间平台的互异性,分布式网络应用面 7 第2 章相关技术背景 临的一个重大问题是各种平台之间的互操作性太差。w e b 服务标准( w s d l 、 s o a p 和u d d i ) 的出现解决了这个问题。w e b 服务并不仅仅是一种技术,更是 一种应用框架,一种系统架构的方式。它的优势在于互操作性,它允许在一个 平台上用一种语言编写的应用程序可以使用在另一个完全不同的平台上以完全 不同的语言编写的应用程序的服务,真正实现了与系统平台和编程语言独立的 特性。本节主要介绍w e bs e r v i c e 体系结构、核心规范及它的主要特点。 2 2 1 体系结构 本小节分别从w e b 服务角色和w e b 服务协议栈这两个角度介绍w e b 服务的 体系结构。 2 2 1 1w e bs e r v ic e 角色 在w e bs e r v i c e 体系结构中共有三个主要的角色:服务提供者,服务请求者 和服务注册中心1 2 2 1 。如图2 1 所示: 图2 1 w e b 服务角色 其中,服务提供者需要实现服务并在i n t e r n e t 上提供服务,也可以将服务发 布到服务注册中心。服务请求者通过查询服务注册中心获取服务地址,而后向 服务发送x l v i l 请求来使用已有的w e b 服务。服务注册中心是一个逻辑上集中 式的服务目录,以便于提供者发布服务和请求者查询服务。 8 第2 章相关技术背景 2 2 1 2w e bs e r v ic e 协议栈 w - e bs e r v i c e 协议栈【捌主要由四层组成,如图2 2 所示: 发现 u d d i 描述 w s d l x m l 消息接发x m l - r p c s o a p 传输h t t rs m t p , f t p 图2 2 w e bs e r v i c e 协议栈 其中,服务传输层负责应用程序间传输消息,主要包括超文本传输协议 ( h t r p ) ,简单邮件传输协议( s m t p ) 和文件传输协议( f 1 1 p ) 。x m l 消息接 发层负责用普通的x m l 格式编码信息,使服务器和客户端都能理解消息。目前, 这一层包括基于x m l 的r p c ( l 1 心c ) 和简单对象访问协议( s o a p ) 。服 务描述层负责描述w e b 服务的公共接口,由w e b 服务描述语言( w s d l ) 处理。 服务发现层负责将服务集中到一个公共的注册中心,并提供服务发布和查找功 能。这一层通过通用描述、发现和集成( u d d i ) 来处理。 2 2 2w e bs e r v i c e 核心规范 在介绍了w e b 服务体系结构之后,本小节介绍w e bs e r v i c e 核心规范,包括 s o a p ,w s d l 和u d d i 。 简单对象访问协议【2 3 】( s i m p l eo b j e c t a c c e s sp r o t o c o l ,s o a p ) ,是一种轻量 的、简单的、基于x m l 的协议,它被设计成在w e b 上交换结构化的信息。s o a p 可以构建在多种传输协议之上,包括超文本传输协议( h t t p ) ,简单邮件传输 协议( s m t p ) ,多用途网际邮件扩充协议( m i m e ) 。它还支持从消息系统到远 程过程调用等大量的应用程序s o a p 使用基于x m l 的数据结构和超文本传输 协议( h t t p ) 的组合定义了一个标准的方法来使用i n t e m e t 上各种不同操作环境 中的分布式对象。 9 第2 章相关技术背景 s o a p 消息基本上是从发送端到接收端的单向传输,但它们常常结合起来 执行类似于请求应答的模式。所有的s o a p 消息都使用x m l 编码。一条 s o a p 消息就是一个包含有一个必需的s o a p 的封装包,一个可选的s o a p 标头和一个必需的s o a p 体块的x m l 文档。 把s o a p 绑定到h 1 曙提供了同时利用s o a p 的样式和分散的灵活性 的特点以及h t t p 的丰富的特征库的优点。在h t t p 上传送s o a p 并不是说 s o a p 会覆盖现有的h 1 即语义,而是h t t p 上的s o a p 语义会自然的映射 到h t t p 语义。在使用h t t p 作为协议绑定的场合中,r p c 请求映射到 h t t p 请求上,而r p c 应答映射到h t t p 应答。然而,在r p c 上使用s o a p 并不仅限于h 1 叩协议绑定。 2 2 2 2w s d l w s d l 2 4 l ( w e bs e r v i c ed e s c r i p t i o nl a n g u a g e ) w e b 服务器描述语言是用x m l 文档来描述w e b 服务的标准,是w e b 服务的接口定义语言,由a r i b a 、i n t e l 、i b m 、 m s 等共同提出,通过w s d l ,可描述w e b 服务的三个基本属性: 1 ) 服务做些什么服务所提供的操作( 方法) 。 2 ) 如何访问服务和服务交互的数据格式以及必要协议。 3 ) 服务位于何处协议相关的地址,如u u 。 w s d l 文档以端口集合的形式来描述w e b 服务,w s d l 服务描述包含对一 组操作和消息的一个抽象定义,绑定到这些操作和消息的一个具体协议,和这 个绑定的一个网络端点规范。 w s d l 文档中的主要元素作用分别为: 1 ) t y p e s :定义了w e b 服务使用的所有数据类型集合,可被元素的各消息 部件所引用。它使用某种类型系统( 一般地使用x m ls c h e m a 中的类型 系统) 。 2 ) m e s s a g e :通信消息数据结构的抽象类型化定义。使用t y p e s 所定义的 类型来定义整个消息的数据结构。 3 ) o p e r a t i o n :对服务中所支持操作的抽象描述。一般单个o p e r a t i o n 描述了 一个访问入口的请求响应消息对。 4 ) p o r t t y p e :对于访问入1 2 1 点所支持操作的抽象集合。这些操作可以由一 1 0 第2 章相关技术背景 个或多个服务访问点来支持。 5 ) b i n d i n g :包含了如何将抽象接口的元素( p o r t t y p e ) 转变为具体表示的细 节,具体表示也就是指特定的数据格式和协议的结合;特定端口类型的 具体协议和数据格式规范的绑定。 6 ) p o r t :定义为协议数据格式绑定与具体w 曲访问地址组合的单个服务访 问点。 7 ) s e r v i c e :代表所描述的w e b 服务,子元素包括相关服务访问点。 可见,p o r t t y p e ( 与m e s s a g e 和t y p e 元素的细节相结合) 描述了w 曲服务是什 么,b i n d i n g 元素描述了如何使用w e b 服务,p o r t 及s e r v i c e 元素描述了w e b 服 务的位置。 2 2 2 3u d d l 统一描述、发现和集成协议 2 5 ( u d d i ,u n i v e r s a ld e s c r i p t i o n ,d i s c o v e r ya n d i n t e g r a t i o n ) 是一套基于w 曲的、分布式的、为w - e b 服务提供的信息注册中心的 实现标准规范,同时也包含一组使企业能将自身提供的w e b 服务注册以使得别 的企业能够发现的访问协议的实现标准。 u d d i 核心由两个部分组成。第一,u d d i 是一个建立业务和w e b 服务的分 布式目录的技术规范。数据存储在特定的x m l 格式中,u d d i 规范包括搜索已 有数据和发布新数据的a p i 细节。第二,u d d i 业务注册中心( b u s i n e s sr e g i s t r y ) 是u d d i 规范的一个完全操作实现。 u d d i 中捕获的数据主要分为三类:第一,“白页( w h i t ep a g e s ) ”描述了提供 w e bs e r v i c e 的公司的一般信息,如业务名称,联系信息等。第二,“黄页( y e l l o w p a g e s ) ”包括有关公司或公司提供的服务的一般分类信息,如行业,产品等最 后,“绿页( g r e e np a g e s ) ”包括w e b 服务的技术信息。一般包括指向外部规范的指 针和调用w ,e b 服务的地址。 2 2 3w e bs e r v i c e 主要特点 w e bs e r v i c e 的主要目标是跨平台的可互操作性。为了达到这一目标,w e b s e r v i c e s 完全基于x m l ( 可扩展置标语言) 、x s d ( x m ls c h e m a ) 等独立与平 第2 章相关技术背景 台、独立于软件供应商的标准,是创建可互操作的、分布式应用程序的最佳选 择。w e bs e r v i c e s 技术本身就有如下特点: 1 ) 使用标准协议规范,作为w e b 服务,其所有公共的协约完全需要使用 开放的标准协议进行描述、传输和交换。这些规范的绝大部分将最终由 w 3 c 或o a s i s 作为最终版本的发布方和维护方。 2 ) 高度可集成能力,由于w e b 服务采取简单的、易理解的标准协议作为 组件界面描述和协同描述规范,完全屏蔽了不同软件平台的差异,无论 是c o r b a 、d c o m 还是e j b 都可以通过这一种标准的协议进行互操作, 实现了在当前环境下最高的可集成性。 3 ) 完好的封装性,w e b 服务是部署在w e b 上的组件,自然具备组件的良 好封装性,对于使用者而言,他能且仅能看到该对象提供的功能列表 4 ) 松散耦合,w e b 服务是一种分布式组件。当一个w e b 服务的实现发生 变更的时候,调用者是不会感到这一点的,对于调用者来说,只要w e b 服务的调用界面不变,w e b 服务的实现任何变更对他们来说都是透明 的。对于松散耦合而言,尤其是在i n t e m e t 环境下的w e b 服务而言,需 要有一种适合i n t e m e t 环境的消息交换协议。而x m l s o a p 正是目前最 为适合的消息交换协议。 2 3智能文档 目前,国内外各家公司陆续推出自己的智能文档产品及解决方案,包括 m i c r o s o f t 智能文档,o p e n o f f i c e o r g ,a d o b e 以及国内的方正c e b 和书生。本节 主要介绍m i c r o s o f t 智能文档体系结构和o p e n o f f i c e o r g 体系结构。 2 3 1m i e r o s o f t 智能文档体系结构 在o f f i c ex p 发布的时候m i c r o s o f t 提供了s m a r tt a g ( 智能标记) 的功能和 包含智能化特性的某些任务窗格操作,在发布o f f i c e 2 0 0 3 时正式提出智能文档 的概念。m i c r o s o f t 将智能文档定义如下t 智能文档是在现有文档基础上加上执 行动作的能力,通过x m l 扩展提供的语义定义文档中各个部分的逻辑关系以及 对应的动作( a c t i o n ) ,再与后台的某种服务器协作,来完成一个业务流程。这中 1 2 第2 章相关技术背景 间x m l 是核心。 智能标记是一些组件,它可以自动识别o f f i c e 中某些类型的信息,并将信 息链接到其他应用程序。这样,用户无需在多个应用程序之间切换,就可以把 o f f i c e 中的数据传递到其他应用程序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论