




已阅读5页,还剩57页未读, 继续免费阅读
(计算机软件与理论专业论文)语义web在英语语音文件检索中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北走学硕士学位论文摘要 语义w e b 在英语语音文件检索中的应用研究 摘要 语义w e b 为信息检索提供r 一种新方法。目前,基于本体的信息检索已经成为本体 研究和应用的热点。本文介绍了多媒体搜索引擎的工作原理,叙述了检索引擎的系统结 构以及各模块的具体实现,讨论了多媒体检索引擎的特点和潜在应用价值。 论文研究了语义w e b 技术在信息检索领域的应用,在信息表示的层次上解决了传统 的基于关键词检索中存在的奇全率和查准率不高的问题。论文详细介绍了从m p e g 一7 本 体的构建到系统各个模块最终实现的全过程以及演示。并通过与传统基于关键词的检索 方式的比较,阐述了使用语义w e b 技术实现信息检索的优势。 最后对论文工作进行了总结和展望,指出了本系统中存在的不足和待改进之处,并 论述了语义w e b 技术在今后的广阔应用前景。 关键词:本体;语义w e b :信息检索;m p e g 7 东北大学硕士学位论文 r e s e a r c ha n d a p p l i c a t i o n o fs e m a n t i cw e bo n e n g l i s hs p e e c h f i l er e t r i e v a l a b s t r a c t s e m a n t i cw e bp r o v i d e san e ww a yf o ri n f o r m a t i o nr e t r i e v a l c u r r e n t l y , o n t o l o g y b a s e d i n f o r m a t i o nr e t r i e v a lh a sa l r e a d yb e c o m et h ef o c u so fr e s e a r c ha n da p p l i c a t i o no fo n t o l o g y t h i sp a p e ri n t r o d u c e st h ep r i n c i p l eo fm u l t i m e d i as e a r c he n g i n e ,n a r r a t e si t sa r c h i t e c t u r ea n d i m p l e m e n t a t i o no f e a c hf u n c t i o nm o d u l e s ;f i n a l l yd i s c u s s e s i t sc h a r a c t e ra n dp o t e n t i a l a p p l i c a t i o nv a l u e t h i sp a p e rs t u d i e dt h ea p p l i c a t i o no fs e m a n t i cw e bi ni n f o r m a t i o nr e t r i e v a lf i e l d ;i nt h e l a y e r so fi n f o r m a t i o np r e s e n t a t i o nr e s o l v e dt h ep r o b l e mo fl o wp r e c i s i o na n dr e c a l le x i s t e di n t r a d i t i o n a lk e y w o r d b a s e dr e t r i e v a l t h ep a p e ri n t r o d u c e dt h ep r o c e s so fb u i l d i n gm p e g 一7 o n t o l o g ya n di m p l e m e n t a t i o no f e a c hs y s t e mm o d u l e sa n dd e m o n s t r a t e di ti nd e t a i l t h r o u g h c o m p a r i n gw i t ht r a d i t i o n a lk e y w o r d b a s e dr e t r i e v a lm e t h o d ,t h ea d v a n t a g e o fi n f o r m a t i o n r e t r i e v a lu s i n gs e m a n t i cw e bt e c h n o l o g yw a se x p a t i a t e do n f i n a l l yt h ea u t h o rs u m m a r i z e d t h ep a p e rw o r ka n dm a d ea l le x p e c t a t i o no ni t ,p o i n t e do u t t h ed i s a d v a n t a g e so ft h i ss y s t e m ,a n dd i s c u s s e dt h ew i d ea p p l i c a t i o np r o s p e c to fs e m a n t i c w e bi nt h ef u t u r e k e yw o r d s :o n t o l o g y ;s e m a n t i cw e b ;i n f o r m a t i o nr e t r i e v a l ;m p e g - 7 独创性声明 本人声明所呈交的学位论文足在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 意。 学位论文作者签名: 中三话, 日期: b 。;z 细 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北人学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 学位论文作者签名: 日期: 另外,如作者和导师不同意网卜- 交流,请在下方签名;否则视为同意。 学位论文作者签名: 签字日期: 导师签名: 签字门期: 东北大学硕士学位论文第一章绪论 第一章绪论弟一早三百了匕 1 1 问题的提出及研究意义 要想听得多、说的好,就需要有大量的相关资料,特别是自己感兴趣的多媒 体的语音资料。这些资料仅仅靠个人的积累和购买是很有限的,且成本太高。互 联网上各种资源都是十分丰富的,例如在g o o g l e 上我们搜索“英语语音学习资料” 的结果是4 3 1 ,0 0 0 项记录,搜索“英语学习资料”的结果是2 ,5 1 0 ,0 0 0 项记录。在 如此多的搜索结果中要想找到我们需要的结果可以说是很困难的事情,而且这些 大部分都是文本格式的结果,多媒体格式的搜索结果是很难的。 在现代信息社会中,上网查找所需的资料已成为人们获取信息的重要手段之 一。随着多媒体技术和i n t e r n e t 技术的飞速发展,网络上可用的多媒体信息急剧增 加,这些信息以多种格式存在,主要有图像、音视频等。随之人们对使用搜索引 擎工具检索多媒体信息提出了越来越高的要求。目前i n t e r n e t 上提供的多媒体搜索 引擎大多采用文本检索方式,如b a i d u ,g o o g l e ,y a h o o ,a h a v i s t a 等著名的搜索引 擎。但是,图像、音视频包含的信息量丰富,文本描述有时不能恰如其分地反映 其中的语义,用户也不能对查询要求用文字合理描述,导致检索出的结果往往不 能很好地符合用户的需求。鉴于此,基于内容的检索技术已成为人们研究的热点 之一,其主要方法是依据多媒体内容的底层特征作为多媒体信息的索引,计算查 询示例和目标媒体对象的特征相似距离,按相似度匹配进行检索。由于基于内容 的检索有着广泛的需要,并有着较好的市场前景,因而也引起了国际标准化组织 的关注。继m p e g 一1 ,m p e g 2 和m p e g 4 之后m p e g ( m o v i n gp i c t u r ee x p e r t sg r o u p , 移动图像专家组1 又制定了一个困际标准m p e g 7 。m p e g 一7 对各种不同类型的多媒 体信息进行了标准化描述,并将该描述与所描述的内容相联系,以实现快速有效 的搜索。m p e g 7 只标准化了多媒体信息的内容描述,而描述的生成与描述的使用 ( 包括搜索引擎、检索处理1 都不在m p e g 一7 标准之内,目的是为了m p e g 7 n e 够更 广泛地被应用;而且引入了竞争机制,能够针对不同的应用领域产生更好的特征 抽取算法和搜索引擎。m p e g 7 的出现,将会大大地促进多媒体信息的分析、存储、 检索、过滤等领域的研究,同时也使得人们可以像目前在互联网上检索文本信息 一样检索多媒体信息【“。 对于个人、商家、企业、乃至一个民族或国家而言,谁能掌握信息的主动权, 谁就能在现代竞争中处于有利地位。信息搜索技术能帮助人们从浩瀚的数据中抽 东北大学硕士学位论文 取出对用户有用的信息,能极大的节省用户多频查询事件。调查显示,目前有6 82 的人经常使用搜索引擎,它是目前仅次于电子邮件的网络应用。同时,科学证明, 搜索引擎是未知状态下发现有效信息的最有效方式。这些数据足以表明,先进的 信息检索即使对于网民和商业用户,来晚,都是极其具有实用价值的。 对于多媒体搜索而言,从理论上讲,无论是通过宽带,还是通过有线电视, 集成p c 和t v 功能的网络视频播放平台f i 趋成熟。查找和观看多媒体节目将成为 广大用户的迫切需求,因此,可查寻图像、声音、图片和电影的多媒体搜索引擎 是未来搜索服务的一个新方向。 从应用上看,有线电视和电信运营商以及卫星公司都将其触角伸向视频领域, 通过p c 、机顶盒或个人数字视频录像机,为用户提供互动的点播服务。互联网正 在成为多媒体娱乐平台,用户要在网络上消费更多的娱乐内容,视频搜索开始成 为一大焦点,而搜索引擎必需提供定向搜索服务,以满足用户的不同需求。 1 2 国内外研究现状及其分析 1 2 1 多媒体信息检索研究现状 对于多媒体结构化信息,主要针对文本的传统的信息检索方法( 基于外部特征 和基于文本描述1 无法揭示和表达多媒体信息的实质内容和语义关系,既便能利用 文字对多媒体信息进行描述,也难以充分揭示和描述信息中有代表性的特征,并 带有很大的主观性。因此,如何把握多媒体信息的内在特征,从内容标记入手, 探索全新的检索方法和技术,最终实现“v i s u a l ( a u r a l ) a c c e s st ov i s u a l ( a u r a l ) m a t e r i a l ”构成了当今检索人员严肃思考的主题。 基于内容的多媒体检索方法: ( 1 ) 基于内容的图像检索:对于图像检索,常用的内容特征主要包括:颜色、 纹理、形状等。 颜色检索。在颜色检索中运用的关键技术包括:颜色的表示、颜色特征的提 取和基于颜色的相似度芾。颜色特征的提取主要有互补颜色空间直方图、直方图 交叉法、直方图距离比较法、二次型距离算法等。因为颜色具有定的稳定性所 以是基于内容的图像检索中应用最广泛的特征。 纹理检索。纹理特征主要包括粗糙性、规则性、线条相似性、凸凹性、方向 性和对比度。纹理检索的方法手要有共生矩阵法、k l 变换、多分辨率分析、纹理 谱分析等方法。由于难以描建。刈纹理的检索一般采用示例查询方法。纹理检索 东北大学硕士学位论文 第一章绪论 在图像分析和识别中起着重要的作用,被广泛应用1 。i 象云图、卫星遥感图像等。 形状检索。形状检索的基础是图像边缘的提取。常用的形状检索方法主要有 两种:针对图像边缘轮廓线进行的检索和针对图形矢量特征进行的检索。 f 2 1 基于内容的视频检索:视频又称动态图像,是一组图像按时间的有序连续 表现,它的表示与图像序列、时间关系有关。视频序列主要由镜头组成;镜头由 一系列连续的帧组成,帧是一幅静态的图像,是组成视频的最小单位;一般场景 音有多个镜头。而幕是由一系列相关的场景组成的,表达一个完整的事件。视频 检索的方法主要有三种:基于关键帧的检索、基于运动的检索和浏览。 基于关键帧的检索。因为关键帧通常是一幅图像,因而可以采用与图像检索 相似的方法。 基于运动的检索。它基于镜头和视频对象的时间特征来检索。包括检索摄像 机的移动、场景移动、运动方向和运动幅度等特征。 浏览。对视频进行分类分组,然后通过浏览选择。 ( 3 ) 基于内容的音频检索:音频数据一般用音量、音调、音强、带宽、音长和 音色等属性来描述。其中音量、音调、音强、带宽和音艮特性易于通过技术手段 进行信息化建模,而对音色的处理较为复杂。在检索前,首先对音频数据建立索 引,索引可以基于韵律、和音、旋律以及其它的感知或声学特征。基于内容的音 频检索就是将输入的字符序列和音频数据库中的字符序列相匹配。常用的音频检 索方法有:赋值查询、示例查询和组织浏览查询。 赋值查询。用户指定某些声学持征的值或范围来查询。 示例查询。用户提交一个示例声音,针对一个或多个特征。查出所有与示例 相似的音频数据。 组织浏览查询。对声音进行分类分组,然后通过浏览选择。 目前有代表性的音频检索系统有美国加利福尼亚有限责任公司开发的m u s c l e f i s h 系统1 2 j 。 1 2 2 问题分析 传统检索技术都是基于关键字的语法匹配和全文检索技术,主要借助于目录、 索引和关键字等方法实现。此技术的优点是简单、快捷和容易实现,但其中存在 五个突出的问题【3 】: ( 1 ) “忠实表达”问题。由于在大多数情况下用户很难通过简单的几个关键词 东北大学硕士学位论文第一章绪论 在图像分析和识别中起着重要的作用,被广泛应用十气象 图、卫星遥感图像等。 形状检索。形状检索的基础是削像边缘的提取。常用的形状检索方法主要有 两种:针对图像边缘轮廓线进行的检索和针对图形矢量特征进行的检索。 ( 2 ) 基于内容的视频检索:视频又称动态图像,是组图像按时涮的有序连续 表现,它的表示与图像序列、时间关系有关。视频序列主要由镜头组成;镜头由 一系列连续的帧组成,帧是一幅静态的图像,是组成视频的最小单位;一般场景 音有多个镜头。而幕是由一系列相关的场景组成的,表达一个完整的事件。视频 检索的方法主要有三种:基于关键帧的检索、基于运动的检索和浏览。 基于关键帧的检索。因为关键帧通常是一幅图像,冈而可以采用与图像检索 相似的方法。 基于运动的检索。它基于镜头和视频对象的时间特征来检索。包括检索摄像 机的移动、场景移动、运动方向和运动幅度等特征。 浏览。对视频进行分类分组,然后通过浏览选择。 ( 3 1 基于内容的音频检索:音频数据 般用音量、音调、音强、带宽、音长和 音色等属性来描述。其中音量、音调、音强、带宽和音长特性易于通过技术手段 进行信息化建模,而对音色的处理较为复杂。在检索前,首先对音频数据建立索 引,索引可以基于韵律、和音、旋律以及其它的感知或声学特征。基于内容的音 频检索就是将输入的字符序列和音频数据库中的字符序列相匹配。常用的音频检 索方法有:赋值查询、示例查询和组织浏览查询。 赋值查询。用户指定某些声学持征的值或范围束禽询。 示例查询。用户提交一个示例声音,针对一个或多个特征。查出所有与示例 相似的音频数据。 组织浏览查询。对声音进行分类分组,然后通过浏览选择。 目前有代表性的音频检索系统有美国加利福尼亚有限责任公司开发的m u s c l e f i s h 系统1 2 1 。 1 2 2 问题分析 传统检索技术都是基于关键字的语法匹配和全文榆索技术,主要借助于目录、 索引和关键字等方法实现。此技术的优点是简单、快捷和容易实现,但其中存在 五个突出的问题【3 l : r 1 ) “忠实表达”问题。由于在大多数+ t 箭e tj t j 户很难通过简单的几个关键词 r 1 ) “忠实表达”问题。由于在大多数情况下用户很难通过简单的几个关键词 东北大学硕士学位论文 第一章绪论 来忠实的表达自己的检索意图,那么表达的困难从而导致了检索质量难近人意。 ( 2 ) 无法准确揭示信息的实质内容。用关键字标识的内容,常常不能允分揭示 源信息的实质内涵。 ( 3 ) 检索算法采用词形匹配而非词义匹配。一义多词( 同义词) 现象的普遍存 在,导致了传统信息检索的查全率难以保证,而一词多义( 多义词1 现象则导致了在 检索结构中包含大量的无效信息,使得查全率也难以满足。在西文中,还存在此 行变化的问题( 如时态、单复数等) 。这些问题都是基于关键词匹配的检索算法中所 无法避免的。 f 4 1 “词汇孤岛”问题。在人的大脑中,概念并不是孤立存在的,它总是与其 它概念之间存在着千丝万缕的联系,真实这种联系造就了五彩缤纷的现实世界而 在传统的信息检索中,这种词汇之间的语义联系是很难描述的。 ( 5 1 片面追求高的查全率导致检索结果的数量过于庞大,用户根本没有时间和 精力检索到所有结果。 基于文本的多媒体检索技术可以追溯到7 0 年代末,他通过对多媒体进行手工 注解,然后利用文本检索技术进行关键字检索。但是基于文本的多媒体检索方式 存在着两大难题。一是手工注解的工作量太大,对于大的多媒体库需要有完全自 动化或半自动化的方法;二是由于多媒体包含的丰富内涵远非少量文本注释所能 表达,这直接导致了文本注解不可避免的主观性和不精确性,也决定了这种方法 无法单独完成多媒体检索的艰巨任务。 数据模型是描述视频内容的核心问题,尽管国内外研究者已经提出诸如时态 区间代数视频数据模型、基于时态区间和运动轨迹的混合模型、通用视频数据模 型、基于视频应用及生成的分段视频模型、面向对象的视频数据模型等,但由于 视频数据的内容综合性( 包含声、视内容及语义) 、结构复杂性( 非格式化) 及时空多 维结构,要用一个恰当的数据模型把现实世界的视频反映到信息世界及机器世界 是一个非常复杂的问题。归结起来,已有研究成果中存在以下问题:模型中对视 频切片的操作定义比较完备,但没有提供有效获耿所需视频切片的手段;有些模 型中有一定的内容描述功能,但很难在普遍性和面向领域的特定性取得致;文 本或对象及知识等表示方法确实具有表达复杂关系的能力,但语义知识表示的差 别使得更大范围内的( 如基于i n t e r n e t ) 的视频资源共享很难实现。 东北大学硕士学位论文 第一章绪论 1 - 3 本文研究的目的和研究内容 1 3 1 研究目的 造成上述问题的实质在于传统的检索方法所采用的只是基于语法层面上字、 词的简单匹配,而缺乏对知识的表示、处理和理解等能力。解决这些问题的关键 在于把信息加速从基于关键字的语法匹配提升至基于知识( 或上下文) 层面的语义 匹配。因此,本文的主要研究目的就是通过赋予待检索信息的具体语义内涵,来 解决传统信息检索过程中存在的问题,以提高检索的质量和效率。 1 3 2 研究内容 总上所述,“语义多媒体信息检索”研究具有很高的学术理论意义和非常广泛 的应用前景。本文在莳人的研究基础上,主要作了一下几个方面的工作: ( 1 ) 深入分析了各种传统信息检索技术的优缺点; ( 2 ) 针对传统信息检索技术的缺点和不足,提出将语义w e b 技术应用到信息 检索中的新思想,建立了语义信息检索的体系结构; ( 3 ) 深入研究了语义信息检索系统模型中所涉及的本体构建、语义推理等关键 技术; ( 4 ) 用o w l 本体语言建立m p e g 7 本体; ( 5 ) 耐用j e n a a p i 和j w n l 等,开发实现了基于语义w e b 的语义多媒体检索 系统; ( 6 ) 弗对该系统的进行了分析和评价,针对该系统中一些尚存的问题提出了改 进的思路和方法。 1 4 本文的章节安排 全文共由六章组成。第一章为信息检索技术综述。其中阐述了信息检索的概 念、目钧和意义,简要介绍了评价信息检索技术的性能参数,并着重分析了目前 国内外信息检索技术的研究现状,针对信息检索领域尚存的问题,提出了本文的 研究目的和研究内容。 第二章介绍了语义w e b 的框架体系。文中本部分着重研究了w e b 的信息组织 结构、发展历程以及下一代w e b 的相关概念、组成和体系结构,并简要介绍了构 建在语义w e b 之上的应用。 东北大学硕士学位论文第一章绪论 第三章提出了基于语义w e b 的语义信息检索技术。介绍_ r 语义信息检索系统 的设计思想、体系结构、框架模型和信息检索的系统流程。 第叫章则主要针对语义信息检索体系结构中的若干关键技术进行了深入的研 究,并提出了有效的解决方案,为语义多媒体检索实验系统的顺利实现奠定了良 好的基础,这些关键技术主要包括:领域本体构建、信息资源收集、语义推理; 为了让m p e g 7 易处理,重用,能和别的领域协作,m p e g 一7 的元数据属于也需 要j h j 一种本体语言描述,本体语言是机器可以理解的语言。本文描述了如何用 o w l 语言构架这样的一个本体。并且解释这个本体如何被使用,如何在语义网上 被别的组织使用。结合m p e g 一7 多媒体描述,使多媒体内容的内涵和外延通过 个普通的理解。 第五章讲的是系统的实现。在前面理论分析的基础上,我们以m p e g 一7 多媒 体为语义检索对象,设计开发了英语语音文件检索系统,本文这一部分主要介绍 了该系统的开发实现过程,其中包括提出问题、需求分析、系统结构设计、开发 平台和工具的选取,详细介绍了在该系统中所涉及的本体组织结构,并描述了英 语语音文件检索系统所实现的功能,最后对该系统的性能做了迸一步的分析。 第六章是对全文工作的总结。其中指出并分析了该系统中尚不完善的部分, 对将来的工作进行了展望。 东北大学硕士学位论文 第二章语义w e b 研究 2 1 弓f 言 第二章语义w e b 研究 w e b 创始人t i mb e r n e r s l e e 将w e b 的演化分为两个阶段1 4 j ,在第一个阶段, w e b 应该是一个有利于人们相互合作的强大工具。w e b 最初十年的发展基本上实 现了这个目标:它以h t m l 页面的方式向人提供了大量的信息。在第二个阶段, 这种合作应该延伸到机器。也就是说,连接到w e b 上的机器也应该能够分析w e b 上的所有数据一一包括内容、链接以及人与机器之间的交互。如何实现w e b 的第 二阶段目标正是目前学术界研究的热点。实现这一目标的难点在于传统的h t m l 语言本身的固有缺陷,这种标记语言的标签集只是对内容的显示格式做了标记, 书局的表现格式和数据糅合在一起,缺乏针对数据内容的标签数据的表现格式和 数据糅合在一起,缺乏针对数据内容的标签i5 1 。h t m l 语言的这种特点决定了w e b 上的信息内容很难被机器所理解。从而制约了一些需要对w e b 上的海量数据进行自 动化处理应用的开发。研如:搜索引擎很难在查准率和查全率这两方面同时有所 突破。搜索到的页面也只是和搜索关键字相匹配的页面,造成一方面遗漏大量内容 相关的页面,另外一方面找到太多不相关页面1 6 1 ;一些对w e b 页面内容的提取程 序只能针对特定站点的固定格式,从中提取一些感兴趣的信息,如果站点的格式 稍有变化,内容提取程序也要做相应的调整【7 】。虽然近年来在自然语言处理( n l p ) 、 机器学习等领域对文本内容的理解等方面做出了大量的努力,提出了基于概率、 向量空间等各种方法来加强对文本相关性的理解,但是从效果上看,还很难让人 满意【引。w e b 上海量的数据要求以一种能够理解数据语义的方式进行交换和管理, 当前基于h t m l 的w e b 技术却很难满足要求。 近年来出现的w e b 新标准一一可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e , x m l ) 最大的特点在于用户可以根据需要制订能够反映数据内容的标签,实现数据 内容和数据表现方式的分离【“1 2 l 。x m l 及其相关的技术,使传统w e b 上的信息内 容从面向人浏览转为同时面向计算机自动处理迈出了非常重要的一步。面向计算 机自动处理的前提是机器可以理解数据的内容或者说对描述了数据内容的一些概 念的理解。人类理解了某个事物意味着他能够将这个事物与其它早已熟知的事物 相联系,而机器能够理解某个概念是指机器能够执行一些和这个概念相关的查询 或其它操作。语义w e b 就是一个由大量机器可以理解的数据所构成的一个分布式 东北大学硕士学位论文第二章语义w e b 研究 的体系结构,在这个体系结构中,数据之间的关系通过一些术语表达,这些术语之 间又形成一种复杂的网络联系,计算机能够通过这些术语得到数据的含义,并且 可以在这种联系上应用逻辑来进行推理,从而完成一些原来不能直接完成的工作。 2 2 语义w e b 的概念 语义w e b 是当前w e b 的扩展,它的信息有给定的定义信息,能更好的让计算 机和人协同工作。它的理想目标是在w e b 上定义数据,并且可以在不同的应用中 被更有效的发现、处理、整合、重用不同的资源。尤其是语义w e b 包含的资源不 仅仅当前网页中有的媒体数据( 例如网页,图片,音频等等) ,还包括其他物体,如 人,地点,组织和事件等等。 还有,语义w e b 不仅包含资源之间的单一的关系( 超连接) ,还有很多不同在 上面提到的不同类型的资源的关系。在语义w e b 中,网页中所蕴含的语义信息能 使计算机完成大部分的自动化处理工作,例如软件代理程序通过网页中的语义可 以为用户完成复杂的旅行计划制定等任务,即从当前“机器可阅读”的w e b 扩展 为“机器可理解”的语义w e b 。t i mb e r n e r s l e e 没有给出语义w e b 的严格数学定 义,只是在和当代w e b 的对比中,给出了如下的描述:语义w e b 并不是一个从无 到有、孤立发展的w e b ,而是对当前w e b 的延伸和扩展,语义w e b 上的信息具有 定义良好的含义,计算机能根据概念的定义声明和逻辑推理规则发现资源对象的 含义,使得机机之问以及人一机之间都能够更有效地合作处理;在语义w e b 中定 义和链接的数据能被各种不同的应用以更为有效的方式查询、重用和集成。总结 起来,语义w e b 具有以下几个显著特征: ( 1 ) 文档对象v s 现实世界对象:语义w e b 不仅是个存储文档对象集合( 如 网页、图片、视频音频等) 的网络,它更是一个描述现实世界对象资源关系的网络, 例如人地点事件等。在图2 1 中,我们有这些对象,如巴黎城市,音乐家y o y om a , 一个拍卖活动等等。在第二个例子中,我们有人物e r i cm i l l e r ,w 3 c 语义活动, w 3 c 组织,柏林,俄亥俄州等。 ( 2 1 人可读v s 机器可读:图2 2 中,中描述了一个有关“e r i cm i l l e r ”的资 源对象。从其和其它资源之间的关系可以得出:“e r i cm i l l e r ”并不是一个普通的 字符串,其表示的是人。有很多人叫e r i cm i l l e r 。它表示的仅仅表示其中的一个人。 语义w e b 的一个突出的优点是在这些资源中包含丰富的机器可读的信息。比较图 2 2 和e r i cm i l l e r 的主页f h t t p :w w w w 3 o r g p e o p l e e m ) 。e r i c 的主页包含更多的人 东北大学硕士学位论文第二章语义w e b 研究 可以阅读的信息,但是相应的机器可读的部分怎么在浏览器中显示哪? 另一方面, 图2 2 中的数据,基本上全是机器可读的。用机器可以读的语言,这里陈述了e r i c 是一个人,e r i c 在w 3 c 工作等等。 w 图2 1 和y o y o m a 相关的语义w e b 片断 f i g 2 1as e g m e n to ft h es e m a n t i cw e bp e r t a i n i n gt oy o y om a _ _ 一_ 习卜一 w 3 cl e e hr e p o r t sw 3 cs t a f f w 3 co r g a n i z a t i o n 图2 2 在语义w e b 中与e r i cm i l l e r 相芙的片断 f i g 2 2as e g m e n to f t h es e m a n t i cw e bp e r t a i n i n gt oe r i cm i l l e r f 3 ) h t m l 和语义w e b 的关系:语言w e b 是当前w e b 的扩展。如图2 2 所示, 在语义w e b 和h t m l 文档中有丰富的联系。当前网页包含语义w e b 的组成部分是 可能的。然而,语义w e b 并不适用这些联系。我们假定r o b o t s 会收集这些组成部 分并用于语义w e b 。 ( 4 ) 分布式扩展性:语义w e b 的另一个重要方面是不同的网站可能包含某资 源的一部分。如图2 1 所示,很多不同的资源都有关于y o y o 和相关资源的数据。 根据上面的描述,人们可以给语义w e b 下这样的定义:语义w e b 就是机器可 东北大学硕士学位论文 第二章语义w e b 研究 以理解数据含义的下一代w e b ,其上的“语义”信息蕴含在各个资源节点的逻辑 联系中。a m a z o n 和c d n o w 有关于他的相册的数据,e b a y 有关于拍卖相关的数据, 入场券有关于他音乐会的数据,a i i m u s i c 有关于他出生的数据等等。每一个站点 都可以发布关于y o y om a 的数据,而不用得到任何权威的认可。例如,他们可以 在语义w e b 上以分布的形式扩展任何资源。这种分布式扩展式是语义w e b 重要的 一个方面。 从语义w e b 的发展起源来看,语义w e b 是人工智能领域和互联网技术相互结 合的产物。人工智能领域中的知识工程研究从孤立的知识库系统逐渐发展到基于 i n t r a n e t 、e x t r a n e t 的信息系统集成,最后扩展到整个i n t e r n e t ,在这个研究过程中, 逐渐加深了对知识表示和推理的认识,并总结出了一些新的描述和推理方法。另 一方面,w e b 经过十几年的发展,积累的海量数据需要一种新的、机器可以自动 完成的方式来处理和管理。因此,当两个领域的积累都比较成熟,而且有了需求, 就必然会走向结合。语义w e b 建立的基础,是知识的概念化和形式化以及相应的 逻辑推理,它和人工智能有着深厚的渊源关系。因此,许多分析都需要从人工智 能领域的角度来考察。但是由于两者的应用环境不同,还存在着一些差异。例如: 从人工智能的智能系统,要求共同遵守一些公共概念的完全一致的定义,并且一 般都有它们各自狭义的、特有的用于信息推理的规则集合。尽管数据能够从一个 系统转换到另一系统,但由于系统问的推理规则通常以完全不同的形式存在,而 致使一个系统的规则不能为其他系统所重用。从这一点上来看,传统的人工智能 系统是一种集中、孤立f 专有1 的系统。同样,语义w e b 也是以知识的概念化表示 为基础展开的。语义w e b 中的知识,就是一系列有关资源对象的建模描述,资源 是一个非常广泛的概念,它可以是网站、网页、甚至网页的某一个部分的内容, 通过采用某种形式化的符号表达式对资源之间的关系进行刻画。 w e b 的本质特性便是其广泛性和全球性。超文本链接的威力在于“任何事物 之间都可以相链接”。因此,语义w e b 和传统的人工智能系统存在本质的不同,它 本身要符合w e b 的分散性和通用性。知识的表示本身可能是由众多的独立团体或 个人,以各种各样的方式来提供,而这些知识却又要求能够被各种各样的应用实 现共同理解,并且在一定的逻辑规则的指导下进行推理。所以语义w e b 上的知识 具有创建上的分散性,同时又具有应用上的通用性。这是语义w e b 和传统的人工 智能系统的一个非常重要的区别。 2 - 3 语义w e b 的组成 东北大学硕士学位论文第二章语义w e b 研究 2 3 1 语义w e b 体系结构 信息资源根据其所处层次的不同,可以被划分成不同的阶或者势,其中现实 世界中未经加工处理的信息属于零阶,在整个信息层次结构中处于最底层;网页 资源信息处在第一阶;在对h t m l 页面经过初次加工之后,所获取的网页标引或 索引信息处在第二阶:有关信息资源对象的元数据或模式信息则是属于第三阶的 信息;而逻辑推理、真值证明等信息理应拥有更高的阶值,在信息层次结构中, 阶值越低的信息越具体详实,较适合于人为处理;阶值越高的信息其抽象程度越 高,则更适合于机器的自动化处理。当代w e b 上的信息是杂乱的、无序的( 或者说 是非矢量的1 ,将数据内容和表现形式混在一起,其中不同“阶”的信息没有被区 别对待,这就导致了人们在信息使用上的困难。因此,语义w e b 首要解决的问题 就是建立起合理的信息层次结构,使其上面的信息是结构良好且有序的。t i m b e r n e r s l e e 在x m l 2 0 0 0 大会上描述了语义w e b 的基本体系结构( 如图2 _ 3 所示) , 在本节的剩余部分中,将对语义w e b 的层次结构做一个详尽的介绍和描述。 幽2 - 3 语义w e b 体系结构酗 f i g 2 3al a y e r e da p p r o a c ht ot h es e m a n t i cw e b 2 3 2u r i 和u n i c o d e ( 编码层1 w e b 环境下的各应用之间不可避免地需要相互通信,直接或间接地以机器可 读的格式传递信息。这些信息中很大一部分是对w e b 上资源的描述,因此,首先 应该以明确的方式来标识这些资源对象。语义w e b 采用统资源标识符u r i 东北大学硕士学位论文 第二章语义w e b 研究 ( u n i f o r mr e s o u r c ei d e n t i f i e r ) 来标识资源及其属性,u r i 是一个i n t e r n e t 标准,记 载于r f c 2 3 9 6 中。它和w e b 常用的统一资源定位符u r l ( u n i f o r mr e s o u r c el o c a t o r ) 以及统资源名称u r n ( u n i f o r mr e s o u r c en a m e ) 1 1 3 i 的区别在于u r i 能表示所有可 以字符串作为标识符的资源信息,它既能表示网络可达的资源,又能描述网络不 可达的资源,u r l 和u r n 都是u r i 的子集。另外,由于语义w e b 的最终目的是 要构建一个全球信息的网络,在这个网络 二应能涌盖各种语言和文字的信息资源, 所以它采用u n i c o d e 作为字符的编码解决方案。这一层位于语义w e b 中的最底层, 是整个语义w e b 的基石,它成功地解决了w e b 上资源的定位和跨地区字符编码格 式的问题。 2 3 3x m l 、n a m e s p a c e 和x m l s c h e m a ( 语法层1 说起当代互联网的蓬勃发展,h t m l 的确立下了赫赫战功。可是,h t m l 在 制定之初就蕴藏了许多危机,随着w e b 的不断发展,这些危机不但没有减弱,反 而越来越突出,甚至己然成为制约h t m l 继续发展的障碍。归纳起来,h t m l 语 言主要存在以下几个方面的问题: f 1 ) 数据内容和数据表示不分,这是h t m l 最大的问题所在。同样的数据值 可能存在多种不同的显示风格,这就导致了形式各异的h t m l 描述,使得以数据 内容为目标的搜索引擎难以有效的开展工作: ( 2 1h t m l 内部的结构性和条理性较差。由于h t m l 在制定之初,并没有对其 语法结构做出严格的规定,加之各种浏览器的纵容,导致现在即便是那些所见即 所得工具自动生成的h t m l 文件,可能在语法上也会错误百出,这就使搜索引擎 很难根据规范的h t m l 语法来分析和提取网页信息: ( 3 ) h t m l 的标签固定僵化,用户不能自行扩展,导致很多的特殊信息无法表 示,这就使得h t m l 很难满足信息共享最大化的要求。 源于对h t m l 语言现存问题的分析,人们在语义w e b 发展之初,就决定将 x m l 作为其语法层。和h t m l 一样,x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 也是一种 置标语言,都属于s g m l 的子语言集。但x m l 最大的特点在于它是一种可扩展 的( e x t e n s i b l e ) 镯标语言,它并不像h t m l 那样,提供一组事先定义好的标签,而 只是提供了一个标准,根据这个标准,用户可以根据实际需要定义自己的置标语 言,并为你的这个置标语言规定它特有的一套标签。准确的说,x m l 是一种源置 标语言,它允许你根据它所提供的规则,制定各种各样的置标语言,并可以通过 东北大学硕士学位论文第二章语义w e b 研究 文档类型定义( d a t a t y p e d e f i n i t i o n ,d t d ) 或x m l s c h e m a 来约束这些标签的内部 组织结构。但另一方面,由于x m l 标签可以由用户自行定制,这样就可能会造成 标签命名冲突的情况,为了解决这个问题,w 3 c 的x m l 小组制定了有关命名空 间( n a m e s p a c e ) 的标准【1 4 d5 1 。例如:用户可以声明如下 标签定义: 它表明a u t h o r 这个标签是在k 所代表的n a m e s p a c e :h t t p :f o o b a r c o m x m l c u s t o m e r d t d 中详细声明的。这样即使其他人也自定义了a u t h o r 标签,只要它们的 n a m e s p a c e 不同,也不会造成命名冲突。因此,这一层通过x m l 的特性,实现了 文档对自身结构的描述,实现了跨应用的语法互操作层,这是传统的h t m l 语言 所无法完成的。但有一点值得注意, 这个标签对人来说很容易理解,但是 对计算机而言,x m l 中的 标签和h t m l 中的 标签并没有本质上的区 另唾,因为计算机并不能真正理解 标签的含义。也就是说,x m l 是底层的 数据交换格式,它只是解决了文档内容的次序、结构等语法上的问题,并没有解 决文档内容的语义、联系等问题。对标签具体含义的定义和互操作需要交给语义 w e b 的上层去解决。 2 3 4r d f 和r d f s c h e m a ( 元数据层1 x m l 提供了w e b 数据编码的语法依据,而r d f ( r e s o u r c ed e s c r i p t i o n f r a m e w o r k ) 则规定了相关资源的语义描述框架。正如其名,r d f 并不是一种新的 语言,而是一个开放的元数据描述框架,它属于语义w e b 中的元数据层。在r d f 资源描述框架中主要涉及到以下三个概念【1 6 , 1 7 】: ( 1 ) 资源( r e s o u r c e ) :资源泛指可通过u r i 标识的任何事物,包括:网络可达 资源f 如一份电子文档、一个图片、一个w e b 服务等) ,和网络不可达资源,如具 体的物理对象( 人、公司、在图书馆装订成册的书籍等) 和抽象概念实体( 作者) 等: ( 2 ) 特性( p r o p e r t y ) = 特性是描述某个资源的性质、特征、属性或关系; ( 3 ) 陈述( s t a t e m e n t ) :陈述是有关具体资源对象特性的具体描述,通常可用形 如 的三元组来描述,其中s 表示一个待描述的资源对象、p 表示该资源 的特定方面或刻面( f a c e t ) ,o 则表示该资源s 在特性p 上的取值,o 可以是其它的 资源对象也可以是平凡文字,如字符串等。 任何复杂的系统都可以通过合理的分解操作,简化成一组三元组( 或陈述) 集 合。r d f 是基于这一思想的:被描述的事物( r e s o u r c e ) 具有一些属。l 生( p r o p e r t i e s ) , 东北大学硕士学位论文第二章语义w e b 研究 而这些属性各有其值( v a l u e s ) ,资源可以通过枚举该资源的相灭属性及属性取值来 描述。r d f 通过特定的术语来区分陈述中的各个组成部分,确切地说,在资源陈 述中用于识别资源对象的部分则称之为陈述的主体,而用于区分所陈述中资源对 象不同特性( 譬如:作者,创建同期,语种等等) 的那部分称为谓词,用于表示各个 属性耿值的那部分叫做陈述的客体。基于r d f 的资源描述是由若干条资源陈述 ( s t a t e m e n t ) 组成,并把这些陈述用特定的语法( 如x m l ,n 3 等1 表示出来。 图2 4 中描述了一个u r i 为h t t p :w w w e x a m p l e o r g i n d e x :h t m l 网页资源的相 关信息,图中的资源陈述通过三元组描述后得到: i m p :“磺 图2 4h t t p :w w w e x a m p l e o r g i n d e x h t m l 包含的信息 f i g 2 4r e l a t ei n f o r m a t i o no fh t t p :w w w e x a m p l e o r g i n d e x h t m l 图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 术后常见并发症护理
- 江汉大学《英语修辞与写作》2023-2024学年第一学期期末试卷
- 郑州电力高等专科学校《写作与沟通》2023-2024学年第二学期期末试卷
- 长沙市重点中学2025届高考数学试题金榜冲刺卷(一)含解析
- 四川省广安市邻水县2025届数学四下期末质量检测试题含解析
- 神木职业技术学院《Pthon数据分析与挖掘基础》2023-2024学年第二学期期末试卷
- 沈阳市大东区重点达标名校2024-2025学年中考语文试题押题卷含解析
- 四川外国语大学成都学院《智能制造创新创业实训智造创新工场认知与数据管理》2023-2024学年第二学期期末试卷
- 皖北卫生职业学院《建筑与环境设计方法》2023-2024学年第二学期期末试卷
- 辽宁轻工职业学院《新能源汽车》2023-2024学年第二学期期末试卷
- 三只小猪的真实故事
- (高清正版)T-CAGHP 031—2018 地质灾害危险性评估及咨询评估预算标准(试行)
- 第九章 放射线对人体影响
- 屋面防水翻新改造工程施工方案(全面完整版)
- 教案(餐巾折花)
- 产品平台与CBB_技术管理PPT课件
- 有限公司章程(AB股架构).docx
- 北京市中小学生天文知识竞赛复习题库
- GJB300797静电标准doc
- 《把课堂还给学生》论文
- 输电线路安全文明施工方案
评论
0/150
提交评论