




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于语义web的股票信息系统框架的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 万维网w w w 的产生和发展改变着社会生活的各个方面。随着我国经济的 持续发展,在经济发展中具有重要地位的股市也受到万维网发展的影响,其信息 表示方式也呈现多元化发展的趋势,基于万维网的股票信息系统应运而生,并通 过快捷、全面的资讯在推动股市的发展中扮演着越来越重要的角色。但是,现有 的股票信息系统无法克服信息海量性导致的性能降低,用户能否高效的获取信息 在很大程度上取决于用户的经验及查询关键字的选择;而以让计算机能够“理解 和处理”现有w w 3 v 仅能显示的数据,并为人们提供各种智能服务w w w 的语 义w e b 的出现,为解决现有股票信息系统的不足带来了契机。本文从这一契机 出发,利用基于语义w e b 的7 层架构,结合w i n d o w s 服务、w e b s e r v i c e 、a g e n t 、n e t 多线程分布式处理以及s q l a g e n tj o b 等现有技术,设计并构建了一个基于语义 w e b 的股票信息系统框架。具体研究工作如下: 通过对国内外语义w e b 研究现状的分析,结合语义w e b 的概念,阐述了语 义w e b 七层架构的定义及具体实现中的要点。 在分析、明确股票信息系统所应具备的基本功能基础上,构造了股票信息系 统( s i s ) 中的本体;并遵循语义w e b 的七层结构体系,构造出s i s 系统架构。 从s i s 的系统架构出发,详细分析了w e b 接口层中连接组件、用户组件以 及股票信息组件的设计及实现。对于连接组件,从w e bs e r v i c e 的交互机制及面 向服务的w e bs e r v i c e 设计模式两方面描述了该组件的设计及实现。对于用户组 件,基于用户与s i s 的交互流程,结合x m l 及x m ls c h e m a ,描述了用户组件 的工作流程。对于s i s 的核心股票信息组件,从n e t 多线程分布式处理以及 s q l a g e n t j o b ,详细分析了该组件的设计思路以及运作方式。 此外,结合r d f 及o w l 描述语言,详细分析了语义w e b 层中本体的构造 及实现;结合a g e n t 分析了本体间各个功能关联以及本体的交互,并给出了一个 交互实例用于验证本体设计的可行性和正确性。 最后对基于语义w e b 的股票信息系统的研究工作进行了总结和进一步的展 望。 关键词:语义w e b ,股票信息系统,x m l ,本体 a b s t r a c t t h ew o r l dw i d ew e bh a sc h a n g e dt h ew a y p e o p l ec o m m u n i c a t ew i t he a c ho t h e r a n dt h ew a yb u s i n e s si sc o n d u c t e d a c o m p a n yw i t ht h ed e v e l o p m e n to fe c o n o m i c , m a n yi n n o v a t i o n sw e r ec a r r i e do u ti n s t o c km a r k e t , a n dt h ea p p e a r a n c eo fs t o c k i n f o r m a t i o ns y s t e mb a s e do n 、) l r 、7 l r 、) l rw a st h em o s tr e p r e s e n t a t i v ea m o n gt h o s e i n n o v a t i o n s t h e s es t o c ki n f o r m a t i o ns y s t e m sp r o v i d ea ne a s yw a yf o rp e o p l et og e t t h en e e d e di n f o h o w e v e ri ti sc l e a rt h a tt h ec u r r e n ts y s t e mh a v eb e e nt h eh u g c s u c c e s si tw a s ,a n dt h e r ea r es o m ep r o b l e m s :h i g hr e c a l l , l o wp r e c i s i o n ;l o wo rn o r e c a l l ;r e s u l t sa l eh i g h l ys e n s i t i v et ov o c a b u l a r y , e t c i ti st h es e m a n t i cw e bt h a t o v e r c o m e st h ed i s a d v a n t a g e sw h i c hw i l le x t e n dt h ei n f o r m a t i o np r o c e s s i n gc a p a c i t y t oa l l o wm a c h i n eu n d e r s t a n d i n ga n d i n f e r e n c e ,s u p p o r t i n g m o r es o p h i s t i c a t e d s o f t w a r ea p p l i c a t i o n s i nt h i sp a p e r , c o m b i n i n gt h ew i n d o w sa p p l i c a t i o ns e r v i c e , s q l a g e n tj o b ,n e ta s y n c h r o n o u sc a l l b a c k , c o n s t r u c t e das e m a n t i cw e bb a s e ds t o c k i n f o r m a t i o ns y s t e m t h ed e t a i li sa sb e l o w : a f t e ra n a l y z i n gt h er e s e a r c hs t a t u sa n dc o n c e p to fs e m a n t i cw e b ,t h e7l a y e rc a k e a n d k e yp o i n to fs e m a n t i cw a s i l l u s t r a t e d b a s e do nt h ef u n c t i o no fac l a s s i cs t o c ki n f o r m a t i o ns y s t e m , t h eo n t o l o g ya n d a r c h i t e c t u r eo fs t o c ki n f o r m a t i o ns y s t e m ( s i s ) w a sc o n s t r u c t e d f r o mt h ea r c h i t e c t u r e ,t h e3c o m p o n m e n t si nw e b l a y e rw e r ed i s c u s s e di nd e t a i l f o ro o n n e 虻t o rc o m p o n m e n t ,t h ei n t e r a c t i o no fw e bs e r v i c ea n dt h es e r v i c eo r i e n t e d d e s i g nm o d e lw e r eu s e d f o ru s e rc o m p o n m e o t ,t h ex m lb a s e dm e c h a n i s mw a s i n v o l v e dt of o r mt h i s c o m p o n m e n t f o rt h e k e r n e lo fs i s s t o c ki n f o r m a t i o n c o m p o n m e n t , b a s e do nt h ea p p l i c a t i o no fm u t i t h r e a da n ds q la g e n tj o b ,t h e i m p l e m e n to ft h i sc o m p o n m e n ti sd i s c u s s e di nd e t a i l w i t ht h er d fa n do w l , t h eo n t o l o g yw a si m p l e m e n t e da n dt h ea g e n ta n dc l a s s d i a g r a mw e r es h o w nt oi l l u s t r a t et h ef u n c t i o no fs y s t e m ,a n da ni n f e r e n c ei n s t a n c e w a sg i v e nt op r o v et h ev a l i d a t i o no f o u rs y s t e m f i n a l l y , t h er e s e a r c ho nt h es i sb a s e ds e m a n t i cw e bw a ss u m m a r i z e d ,a n dt h e d e v e l o p m e n tt r e n do ft h es i s b a s e ds e m a n t i cw e bw a sd i s c u s s e d k e y w o r d s :s e m a n t i cw e b ( s w ) ;s t o c ki n f o r m a t i o ns y s t e m ; e x t e n d e dm a r k u pl a n g u a g e ( x m l ) ;o n t o l o g y 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 研究生躲盟日期:基翌 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留、 送交论文的复印件,允许论文被查阅和借阅;经作者同意学校可以公佰论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 繇牛新签乒丝同 期:塑:量兰 武汉理工大学硕士学位论文 第1 章绪论 1 1 论文研究的目的和意义 近些年来,随着互联网技术的飞速发展,小至人们的交互方式,大至社会 的商业、经济等各个领域,都受到了互联网技术的影响。作为经济领域一个重 要组成部分的股票,也得益于互联网技术的发展,其信息更容易被人们所获取, 其传播更容易被人们所认知。 在互联网还没有普及发展的年代,要获取股票信息,一般都是通过专门的 股票信息机或者是通过媒体,如电视,报刊等。在这种情况下,虽然人们仍然 可以获取到其所需的相关信息,但是用户的自主性受到了相当大的限制,人们 只能被动的接受股票信息发布机构所发布的信息,而无法通过第三方的途径获 取更多其所需的信息。 在互联网普及并发展后,这一现象得到了很大的改观。除了已有的常规方 式,人们可以通过网络上的各个股票网站自由的获取自身想得到的一切信息。 互联网成为了股票信息的一种高效便捷的载体。现阶段,通过网络,主要有两 种方式来获取股票信息:一种是通过安装在本机上的专用股票软件访问w e b 服 务器来获取信息,如证券之星,大智慧财经平台等;另一种则是直接通过像新 浪财经、y a h o o 财经等专门的w e b 财经站点来获取信息。这两种方式虽然能满足 用户的信息需求,但是它们都存在着一些不足。以股票软件为例,由于它是以 单机程序的形式安装在计算机上,因此也就固化了系统中的信息表示方式,缺 乏灵活的表示机制,难以满足各类不同用户对于信息的不同需求。对于财经网 站,虽然用户可以通过网站内的搜索功能来获取与自己相关度较高的信息,但 是由于这些信息并没有以一种逻辑方式加以组织,计算机并不能理解并处理这 些信息,这就导致了用户需要对从网站上获取的信息进行人工筛选,难以高效 并有效的获取信息。 存在这些问题的原因在于万维网现在采用的超文本标记语言( h y p e rt e x t i d a r k u pl a n g u a g e ,简称h t h i l ) ,网页上的内容设计成专供人类浏览的,而非供 计算机理解和处理的,因此无法为用户提供自动处理网上数据的功能。此外, 万维网是按“网页的地址”,而非“内容的语义”来定位信息资源的,网上所有 信息都是由不同的网站发布的,相同主题的信息分散在全球众多不同的服务器 上,又缺少有效工具能将不同来源的相关信息综合起来,因此形成了一个个信 武汉理工大学硕士学位论文 息孤岛,查找自己所需的信息就比较困难。因此计算机只能被动的展现这类型 股票信息,无法处理在用户看来是非常普通的常识性股票知识,更不能处理随 用户不同而变化的个性化股票知识、随地域不同而变化的区域性股票知识等等。 因此,如何有效快速的从海量的数据中提取信息,如何更方便的传递、交流以 及获取信息,成为了网络信息研究的一个热点。这也就促成了语义w e b 的出现。 语义w e b 并非一个独立的w e b ,而是当前w e b 的延伸,其目标是让计算机能 够“理解和处理”现在的w e b 仅仅能显示的数据,并为人们提供各种智能服务。 早在1 9 9 8 年,万维网之父t n nb e r n c r s l e e 就给出了对于语义w e b 的构想“语 义w e b 是现有w e b 的扩展,信息的含义在语义w e b 环境下能够很好的加以定义, 使得计算机和人能够更好的协同工作。或者说,语义w e b 的目标是让w e b 上的 信息能够被机器理解,从而实现w e b 信息的自动处理,以适应w e b 资源的快速 增长,更好的为人们服务。”本文正是从这一构想出发,以语义w e b 为基础构建 一个能根据用户的不同需求智能的获取网络上的股票信息,并将其有效展现给 用户的一个股票信息系统s i s ( s t o c ki n f o r m a t i o ns y s t e m ) 。 论文研究旨在将融合了智能技术的语义w e b 架构引入到现有的股票信息系 统中,力图构建一个可以根据不同用户的需求,提供有效信息的股票信息框架。 论文研究的意义:从理论上看,将新一代w e b 技术和现有的股票信息框架 相结合,把人工智能技术、语义w e b 技术以及股票信息三者加以融合应用,不 仅拓宽了股票信息系统的研究领域,还有利于积累许多与语义w e b 技术相关的 重要经验。从实际情况看,随着我国经济的持续发展,股市在经济发展中的作 用日益彰显,而股市的载体股票信息,它所受的关注度也会大大提高,因此, 在这样的大环境下构建一个基于语义w e b 的股票信息系统,具有十分广阔的经 济前景。同时,本系统是建立在计算机与经济这两门学科基础之上的,对于交 叉学科知识技术的应用也具有一定的意义。因此,构建一个基于语义w e b 的股 票信息系统框架,这一立题具有一定的理论及现实意义。 1 2 语义w e b 体系结构 语义w e b 的创始人t h n b e m e r sl e e 对语义w e b 的定义是语义w e b 是一个网, 它包含了文档或文档的一部分,描述了事物间的明显关系,且包含语义信息, 以利于机器的自动处理【1 l o 尽管对语义w e b 的理解与描述不同,但仍能从这些 描述与理解中看出语义w e b 的一些基本特征: 语义w e b 不同于现在w w w ,它是现有w w w 的扩展与延伸。 现有的w w w 是面向文档而语义w e b 则面向文档所表示的数据。 武汉理工大学硕士学位论文 语义w e b 将更利于计算机理解与处理,并将具有一定的判断、推理能 力。 语义w e b 被认为是当前w e b 的延伸,是从最基本的网络资源逐级扩展得来 的,在不同的层次上加人了对资源的描述,本体的概念,以及逻辑等,这使得 语义w e b 比现在的网络拥有丰富得多的语义,并且这些语义是可以由机器来自 动处理的1 2 。信息被用更好的定义里现,使计算机更好地帮助人们工作。语义 w e b 中的数据被定义和联接用一种能被用于更有效发现,更自动化,综合和通 过应用再次利用【3 】。语义w e b 不同于现存的万维网,其数据主要供人类使用, 新一代w w w 中将提供也能为计算机所处理的数据,这将使得大量的智能服务 成为可能1 4 j 。 语义w e b 研究活动的目标是:开发一系列计算机可理解和处理的表达语义 信息的语言和技术,以支持网络环境下广泛有效的自动推理【5 l 。 语义w c b 是对未来w e b 的展望。在语义w c b 中,信息被赋予明确的含义, 使得机器自动处理和集成w e b 上的信息更为容易 6 1 。语义w e b 将构建于x m l 自定义标签模式的能力以及r d f 灵活的描述数据的方式上【7 l 。语义w c b 需要在 r d f 之上增加的第一个层次是一种能够对w c b 文档中的术语含义进行形式化描 述的本体语言。语义w c b 提供了一个通用的框架,允许跨越不同应用程序、企 业和团体的边界共享和重用数据i s 。语义w e b 是w 3 c 领导下的协作项目,有大 量研究人员和业界伙伴参与。语义w e b 以资源描述框架( r d f ) 为基础。r d f 以x m l 作为语法、u r i 作为命名机制,将各种不同的应用集成在一起【9 】。 互联网的创始人t i mb e m e r s l e e 在x m l 2 0 0 0 大会上提出了语义w e b 的概 念和七层的体系结构: 第一层为u n i c o d e 和u r i ,它是整个语义w e b 的基础,u n i c o d e ( 统一 编码) 处理资源的编码,u r i ( 统一资源定位器) 负责标识资源; 第二层是x m l + 名空间+ x m l 模式( x m l + n s + x m l s c h e m a ) ,用于 表示数据的内容和结构; 第三层是r d f + r d f 模式( r d f + r d f s c h e m a ) ,用于描述资源及其类 型; 第四层是本体词汇层( o n t o l o g yv o c a b u l a r y ) ,用于描述各种资源之间的 联系; 第五层是逻辑层( l o g i c ) ,在下面四层的基础上进行逻辑推理操作; 第六层是验证层( p r o o f ) ,根据逻辑陈述进行验证以得出结论; 第七层是信任层( t r u s t ) ,在用户问建立信任关系【1 0 1 。 3 武汉理工大学硕士学位论文 语义w e b 的体系结构如图1 - 1 所示: i - r u i e s t r u s t 、 d a t ap r o o f 墨 3 瓜j 、 ,l o g i c c 、 d a t a 婴 s e r f - i 们 d e s c 1 o n t o l o g yv o c a b u t a r y 焉 基 d o c 。i r d f + r d f s c h e m a 2 1 黛q f 一 ”。 一”懑 x m l + n s + x m l s c h e m a i 0 - 誊:i h - 一一u n ic o d e ”焉鬟戮隧f l 翻黼霾 图1 - 1 语义w e b 的体系结构图 1 2 1u r i 和u n i c o d e 层 在语义w e b 体系结构中,该层是整个语义w e b 的基础,其中u r i 负责资源 的标识,u n i c o d e 负责处理资源的编码。它成功解决了万维网上资源的定位和跨 区域字符编码的标准格式问题。 u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r s ) 是一个h e m e t 标准,它和万维网常用的 统一资源定位符u r l 以及统一资源名称u r n 的区别在于u r i 泛指所有以字符 串表示的网络资源,包含了u r l 和u r n 。w e b 上可用的每种资源h t m l 文 档、图像、视频片段、程序等,由u r i 进行定位。u r i 一般由三部分组成:访 问资源的命名机制、存放资源的主机名和资源自身的名称,由路径表示。 另外,由于语义w e b 的最终目的是要构建一个全球信息网络,因此它才采 用u n i c o d e 作为字符编码的解决方案。u n i c o d e 是一个字符集,这个字符集中所 有字符都用两个字节表示,可以表示6 5 5 3 6 个字符,基本上包括了世界上所有 语言的字符。数据格式采用u n i c o d e 的好处就是它支持世界上所有主要语言的混 合,并且可以同时进行检索。常用的u n i c o d e 编码方式有两种:u t f 8 以及 u 1 1 f - 1 6 。 u t f - 8 是一种不等幅的编码方式,u t f - 8 编码的字节长度取决于所要编 4 武汉理工大学硕士学位论文 码的字符在i s o1 0 6 4 6 中的编码值。 u t f - 1 6 也是u n i c o d e 的变形表示方式的一种。它的目的是维持双八位 的编码方式,同时也用一些特殊的双八位来表示i s o1 0 6 4 6 中非基本多 文种平面( b m p ) 中的一些字符。 1 2 2x m l 、n a m e s p a c e 、x m ls h c e m a 层 本层在u r i 和u n i c o d e 之上,是x m l 及相关技术层。这一层通过x m l 的 特性,实现了文档对自身结构的描述,实现了跨应用的语法互操作层,这是传 统的h t m l 语言所无法完成的。通过使用x m l 将网络信息的表现形式、 数据结构和内容分离。, x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是一个精简的s g m l ( s t a n d a r d g e n e r a l i z e dm a r k u pl a n g u a g e ) ,它综合了s g m l 的丰富功能与h t m l 的易用 性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。n s ( n a m es p a c e ) 即命名空间,由u r i 索引确定,目的是为了避免不同的应用使 用同样的字符描述不同的事物。 1 9 9 8 年2 月1 0 日,w 3 c 正式批准公布了应用于w e b 上的语言可扩展 标识语言x m l 。x m l 并不是一个独立的,预定义的标识语言它是一种元语言, 即用来描述其它语言的语言。x m l 语言可以让信息提供者根据需要,自行定义 标记及属性名,也可以包含描述法,从而使x m l 文件的结构可以复杂到一定 程度。x m l 是一种具有数据描述功能、高度结构性、可扩展性的语言,它已经 得到了广泛的应用,被称之为第二代网络语言。x m l 具有如下的一些特点: 可扩展性:x m l 则允许用户自己定义标签。x m l 的扩展性和灵活性允 许它描述任何种类的数据。 多源数据的集成:x m l 能够使不同来源的结构化的数据很容易地结合 在一起。 平台独立性:x m l 之于数据正如j a v a 之于程序,它将使数据不仅是平 台无关的,而且是厂商无关的。 本地计算和处理:x m l 格式的数据发送给客户后,客户可以用应用软 件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数 据,而不仅仅是显示它。 数据的多样显示:h t m l 描述数据的外观,而x m l 描述数据本身。由 于数据显示与内容分开,x m l 描述的数据允许指定不同的显示方式, 使数据更合理地表现出来。本地的数据能够以客户的选择动态地表现出 5 武汉理工大学硕士学位论文 来。c s s 和x s l 以及x s l t 为数据的显示提供了开放的机制。 面向对象的特性:x m l 的文件是以树状方式存储,同时也有属性,这 非常符合面向对象方面的编程,而且也体现了以对象方式存储。 x m l 的上述特点决定了通过x m l 可以对复杂的信息加以规范化定义和描 述,并且在互联网上进行数据的传输及有效的访问。 x m l 文档有格式良好和有效性两种约束。格式良好适合于所有的x m l 文 档,即满足x m l 标准中对于格式的规定。而当x m l 文档满足一定的语义约束 则称该x m l 文档为有效的x m l 文档。x m l s c h e m a 是d t d ( d o c u m e n t t y p e d e f i n i t i o n ) 的替代品,是用来描述x m l 元素和属性的,它本身采用 x m l 语法,但比d t d 更加灵活,提供更多的数据类型,能更好地为有 效的x m l 文档服务并提供数据校验机制。x m l s c h e m a 包括属性和元素 类型说明,是可以为x m l 元素和属性提供数据的类型校验模,它可以 规定一套特定文档的结构或模型。 正是由于x m l 灵活的结构性、由u r i 索引的n s 而带来的数据可确定性以 及x m ls c h e m a 所提供的多种数据类型及检验机制,使其成为语义w e b 体系结 构的重要组成部分。 但是,x m l 是底层的数据交换格式,它只是解决了文档内容的次序,结构 的问题,并没有解决文档内容的语义及联系问题,标签的具体含义的定义和互 操作要交给上一层去解决。 1 2 3r d f 、r d fs c h e m a 层 x m l 层的上一层是数据互操作层:r d f 、r d fs c h e m a 层。资源描述框架 ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,简称r d f ) 是一种描述互联网上的信息资源 的一种语言,它专门用于表达关于w e b 资源的元数据,比如w e b 页面的标题、 作者和修改时间,w e b 文档的版权和许可信息,某个被共享资源的可用计划表 等。r d f 本身并没有规定语义,但是它为每一个资源描述体系提供一个能够描 述其特定需求的语义结构的能力。从这个意义上说,r d f 是一个开发得元数据 框架。这个元数据框架定一中描述及其可理解得数据语义的数据模型。 r d f 基于这样的思想:用w e b 标识符( 称作统一资源标识符,u n i f o r m r e s o u r c ei d e n t i f i e r s 或u r i s ) 来标识事物,用简单的属性( p r o p e r t y ) 及属性值 来描述资源。这使得r d f 可以将一个或多个关于资源的简单陈述表示为一个由 结点和弧组成的图( g r a p h ) ,其中的结点和弧代表资源、属性或属性值。其目标 是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优 6 武汉理工大学硕士学位论文 势,进行基于w e b 的数据交换和再利用。r d f 解决的是如何采用x m l 标准语 法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器 可理解的信息。如果把x m l 看作为一种标准化的元数据语法规范的话,那么 r d f 就可以看作为一种标准化的元数据语义描述规范。 r d f 主要包括下面的三个对象类型: 资源( r e s o u r c e ) :资源可能是整个网页,网页的一部分或页面的全部集 合,也可以是不能通过w e b 直接访问的某个对象。 特性( p r o p e r t i e s ) :特性是描述某个资源特定的方面、特征、属性或关 系。 声明( s t a t e m e n t s ) :一个特定的资源和特性名称加上该特性的值一起构 成了一个r d f 声明。 在r d f 中任何声明的基本结构是一个三元组的集合,每个三元组由一个主 体、一个谓词和一个客体组成。一系列这样的三元组被称为r d f 图,这可以用 具有一个节点和有向边的图来表示,在图中每个三元组用一个节点边节点的连 接表示( 故称之“图”) 。每个三元组表示由节点连接表示的事务之间的关系一 个陈述。每个三元组有三部分: 主体:表示r d fu r i 涉及到的节点或一个空节点。 客体:表示被r d fu r i 所涉及到的节点。 谓词( 也称为属性) :它表示一个关系。边的方向很重要,它总是指 向客体。 r d f 三元组的断言说明一些关系,这是由谓词表示的,在三元组的主体和 客体表示的事物之间的关系。r d f 三元组的断言的总和就是断言图中所有的三 元组,因此r d f 图的含义就是对应所有图中三元组包含的陈述的关联( 逻辑合 取) 。 r d fs c h e m a 使用一种机器可以理解的体系来定义描述资源的词汇,其目的 是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对w e b 资源的描述。r d f s c h e m a 只是提供了描述一种这些类和特性的能力,并且可以 暗示某些类和特性期望合在一起使用。换句话说,r d fs c h e m a 为r d f 提供了 一个类型系统。 , 由于r d f 和x m l 的表现方式类似,因此它们的作用很容易被混淆,但是 实际上,在语义w e b 中,它们之间的有着明确的分t :r d f 解决如何无二义性 的描述资源对象的问题。r d f 通过基于x m l 语法的明确定义的模型来帮助建立 语义协定( r d f s ) 和语法编码( x m l ) 之间的桥梁,并以此来实现元数据的互 武汉理工大学硕士学位论文 操作能力。 1 2 4 本体层 由于r d f r d f s 对特定应用领域的词汇的描述能力比较弱,需要进行扩张, 这也就导致了在r d f 层之上,还需要定义一个扩展层:本体层。 本体( o n t o l o g y ) 一词在人工智能界已经有相当的知名度了,原本是一个哲 学上的概念,用于研究客观世界本质【1 1 l 。目前本体已经被广泛应用到包括计算 机科学、电子工程、远程教育、电子商务、智能检索、数据挖掘等在内的诸多 领域【1 2 1 。它是一份正式定义名词之间关系的文档或文件。一般w e b 上的本体包 括分类和一套推理规则。分类是用于定义对象的类别及其之间的关系;推理规 则是提供进一步的功能,完成语义w e b 的关键目标即机器可理解【埘。本体的最 终目标是精确地表示那些隐含( 或不明确的) 信息。各种文献中对本体层的定 义有许多差异,t r g r u b e r 等人对本体给出的定义得到了许多同行的认可,即 本体是概念化的显示规范【1 4 1 。 w e b 本体语言o w l ( w e bo n t o l o g yl a n g u a g e ) 是语义w e b 的一个组成部分 【1 5 】。这项工作的目的是通过对增加关于那些描述或提供网络内容的资源的信息, 从而使网络资源能够更容易地被那些自动进程访问1 1 6 1 。由于语义网络固有的分 布性,o w l 必须允许信息能够从分布的信息源收集起来。其中,允许本体间相 互联系,包括明确导入其他本体的信息,能够部分实现这样的功能。 o w l 是一种定义和实例化w e b 本体的语言。本体这个术语来自于哲学,它 是研究世界上的各种实体以及他们是怎么关联的科学m 。一个w e b 本体可能包 含了类,属性和他们的实例的描述【埘。本体和x m ls c h e m a 的区别是它是一种 知识表示,而不是一种消息格式。大多数来自工业界的w e b 标准包含了一个消 息格式和协议规范的组合。 这一层在r d fs c h e m a 进行基本的类特性描述后,更进一步的描述了术语 和它们之间的联系,并且可以利用已有的本体建模语言来对领域知识进行建模, 定义一些面向领域的共享词汇。 1 2 5 逻辑、验证、信任层 逻辑层( l o g i cl a y e r ) 负责提供公理和推理规则。逻辑层一旦建立,便可以 通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性 1 1 9 。这一点就和万维网中的t c p i p 协议的模型中每一层都会针对不同的硬件和 软件系统采用不同的实现类似。 8 武汉理工大学硕士学位论文 在逻辑层之上,通过验证层( p r o o f l a y e r ) 交换以及数字签名,建立一定的 信任关系,从而证明语义w e b 输出的可靠性以及其是否符合用户的要求 2 0 1 。o w l 怎么和上层的逻辑、验证和信任层结合是当前语义w e b 研究的热点之一,o r l ( o w l r u l el a n g u a g e ) 就是典型的工作,就是语义w e b 上的信任机制【2 ”。 语义w e b 的体系结构正在建设中,当前国际范围内对此体系结构的研究还 没有形成一个令人满意的严密的逻辑描述与理论体系,这些都还需要时间以及 通过开发具体应用来进一步完善。 1 3 国内外研究现状 从国外研究情况来看,自从t u n b e r n e r s - l e e 在1 9 9 8 年首次提出了语义w e b 的概念,并在x m l 2 0 0 0 大会上给出了语义w e b 的体系结构【笠l ( 主要包括基于 x m l 的资源描述框架r d f 和本体o n t o l o g y 这两个关键部分) 后,各国学者对 语义w e b 的研究便不断发展和深入。 从2 0 0 0 年开始,一些吸取语义w e b 概念的商业应用模型便以浮出水面,它 们都可以向用户提供个性化的网络服务。例如惠普的e - s e r v i c e s 平台,它允许客 户进行自我服务,使客户通过w e b 、i n t e r n e t 、i n t r a n e t 或e x t r a n e t 与企业交互。 在e s e r v i c e s 的世界中,一些资源仍然留在网上,而更多的资源将在“幕后”起 作用,自动地和整个事物链连接在一起。智能化及开放化是e - s e r v i c e s 与现有万 维网的最大区别【矧。这将使整个互联网为你服务。另一个基于语义w e b 的成功 商业应用则是微软的b i z t a l k 框架,它将x m l 语言作为描述计算机之间传送数 据的中间平台,任何个人或组织都能下载框架用以具体实现或者向网站递交 x m l 大纲,为应用工具和基础软件供应商提供了明确的设计目标,有助于建立 下一代电子商务和应用集成产品。此外,在i b m 的e b u s i n e s s 应用平台【2 5 】以及 s u n 公司的开放式网络环境等商业平台中也都或多或少找到一些和语义w e b 相 关的设计思想。 同时,在学术领域,由t i mb e m e r s l e e 自己领导的i e e es t a n d a r du p p e r o n t o l o g ys t u d yg r o u p 和欧洲由d i e t e rf e n s e l 领导的o n t o w e b 等组织在语义万维 网研究领域处于领先地位并推出了一系列的语言、方法和工具,如r d f 编辑器, p r o t 6 9 6 本体设计工具等。在此基础上,一些学者对语义w e b 的研究也取得了一 定的成果。理论研究发面,德国的d a n i e lo b e d e 等人专注于基础研究,提出了 基于语义w e b 的a p p l i c a t i o ns e r v e r 的概念,尝试为开发基于语义w e b 的应用而 设计一个基本的服务组件,提高开发者在构建r d f 及o n t o l o g y 阶段的效率i 捌。 s t a n d f o r d 大学与麻省理工学院的语义w e b 相关学术机构也创建了一个编辑r d f 9 武汉理工大学硕士学位论文 以及o n t o l o g y 的u i 编辑工具p f o t 西,开创了语义w e b 界面化应用的新阶段1 2 7 1 。 此外,美国的d i e t e rf e n s e l 等人则从人工智能的角度,详细论证了语义w e b 的 智能性,为语义w e b 的发展打下了良好的理论基础i 捌。在应用研究方面:加拿 大的c o n c o r d i a 等人构造了一个基于语义w e b 的逻辑推理引擎r a c e r ,该引擎以 s e r v i c e 方式存在,提供2 个a p i ,支持d a m l + o a l ,r d f 及o w l 等常用的语 义w e b 描述语言 2 9 1 。芬兰的o l e n ak a y k o v a 等人就提出了一个针对工业信息的 基于语义w e b 架构的自适应信息框架。在该框架内,基于x m l 的信息通过 r d f s 重新组织后,实现了海量信息间的互操作性,为实现计算机能够“理解和 处理”信息这一目标奠定了基础。同时,英国h p 实验室的c h r i s 也提出了一个 基于语义w e b 的抽象化应用框架【3 1 1 。明确了设计及实现语义w e b 应用的概念模 型,扩充了基于o w l 本体推理语言的应用开发,将w e bs e r v i c e 与语义w e b 相 结合,极大的扩充了语义w e b 的应用领域。 然而与国外相比,国内对语义w e b 的研究相对较迟,但是随着时间的推移, 语义w e b 的研究已经引起了学者的高度重视,研究内容越来越广泛和深入。 清华大学,复旦大学,浙江大学,东南大学,北京理工大学,北京邮电大 学,上海交通大学等多所高校都从各个不同方面及层次对语义w e b 进行了大量 的研究。 在基础研究方面,清华大学的梁邦勇等人构建了一个基于语义w e b 的网络 推荐模型3 2 】。该模型自动采集被标注网页上的语义信息,利用网页中的标注信 息和相应的本体概念对网页进行分类,将分类结果存放在数据库中。同时,在 这个模型下,用户的兴趣存放在d a m l 文件中,通过用户兴趣和网页类别的匹 配,就能够给用户推荐需要的网页。并且他们还将向量机技术引入该语义w e b 的网络推荐模型,对于目前语义w e b 的研究来说是一个大胆的尝试。同时,复 旦大学的曹志松等人对于将语义w e b 引入有效的w e b 信息检索也进行了相当的 研究,提出了一系列基于r d f 表示w e b 信息的规范化表述。 在本体研究方面,北京邮电大学的邓芳结合信息检索和b 2 b 电子商务的具 体应用,阐述了本体在语义w e b 中的应用研究 3 3 1 。浙江大学的林菡等人构建了 基于o w l 的网页视觉结构本体1 3 4 1 。该本体摆脱了以往领域本体仅在网页内容上 辅助挖掘的局限,充分的挖掘了网页的视觉信息和结果信息,结合视觉重要性 判定的领域知识本体来辅助w e b 检索。武汉工业学院的张琳也对本体和x m l 的非结构化信息语义表示机制进行了一系列研究,提出一种用于分布式环境的 非结构化信息语义表示机制,通过本体到x m ls c h e m a 的映射算法将本体提供 的共享概念模型、继承以及推理机制等语义w e b 元素融入到x m l 的语法规则 1 0 武汉理工大学硕士学位论文 中,提高x m l 信息的语义互操作性【3 5 1 。 在应用研究方面,北京理工大学计算机科学系人工智能实验室在2 0 0 3 年底 实现了一个面向企业门户网站的语义w e b 体系结构,提出页面代理的概念及其 作用与功能结构【蚓。同时,他们还设计了一个旅游信息系统,在该系统中使用 u m l 建立了旅游领域的o n t o l o g y ,并以几个旅游门户网站为信息源建立了旅游 领域的语义w e b 数据库【3 7 l 。上海交通大学计算机科学工程系也于2 0 0 4 年末发表 了关于语义w e b 信息处理平台设计与实现的相关论文,提供了用p f o 话9 6 建立基 于本体的w e b 信息处理平台的相关经验i 姗。同时,东南大学和浙江工业大学的 高校也对基于语义w e b 的各类应用进行了相应的研究。 此外,一些学术团体对于语义w e b 的研究也表现的也十分活跃,如中国x m l 论坛等。 然而,从我们查阅到的相关文献来看,基于语义w e b 体系结构采用b ,s 网 络体系结构的股票信息系统在国内外很少有人研究。在高速发展的当今中国, 经济的蓬勃发展极大地推动了股票市场的发展,表明股票信息系统的用户群有 着巨大的发展潜力,所以研究方向有着很大的实用价值和一定的理论价值。 1 4 本文研究的主要内容 本文主要完成了以下几个方面的研究工作: ( 1 ) 在深入分析、探讨语义w 曲的特点和七层体系结构基础上,构造出股 票信息系统s i s 的语义w e b 的体系框架,并在u r i 、x m l + x m l s c h e m a 、r d f 4 - r d fs c h e m a 、0 w l + o w l s c h e m a 和股票本体的语义w e b 体系结构基础上, 提出股票信息系统s i s 的两大层次:w e b 接口层以及语义w e b 层。 ( 2 ) 分别针对s i s 中的w e b 接口层及语义w e b 层,详细论述s i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数学六年级下册六 正比例和反比例教案
- 2024年中考数学真题分类汇编(全国):专题22 图形的相似(31题)(学生版)
- 人防工程防护设备安装与销售合同
- 液化天然气销售及采购合同
- 酒店员工培训手册
- 掌握跨境担保合同外汇登记操作要点
- 实训室安全培训
- 皮革制品养护业务拓展与合作伙伴寻找考核试卷
- 林木育种与生态工程设计考核试卷
- 石材矿山的资源勘探技术考核试卷
- 2025世界防治哮喘日知识讲座专题课件
- 粮食安全时政试题及答案
- 2025年03月四川成都农业科技中心公开招聘笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 农村兄弟林地协议书
- 大学英语四级考试2024年6月真题(第1套)翻译
- 2024年郑州铁路职业技术学院单招职业技能测试题库必考题
- 2024北京房山区高一(下)期中数学试题及答案
- 2025年03月国家机关事务管理局所属事业单位公开招聘应届毕业生14人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 全过程工程咨询投标方案(技术方案)
- 旅拍店合伙人协议书范本
- 《华为基本法》全文(完整版)
评论
0/150
提交评论