基于Semantic Web的个性化网络导航机制_第1页
基于Semantic Web的个性化网络导航机制_第2页
基于Semantic Web的个性化网络导航机制_第3页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于SemanticWeb的个性化网络导航机制

1网络信息资源导航的现状遍布全世界的主机和服务器,错综相联的超媒体资源,这是互联网为我们所构建的一个巨大而丰富的电子信息空间。它无疑是现代社会最重要的信息获取手段,但是它的开放性、分布性、无序性以及惊人的发展速度也为人们对信息资源的利用带来了困难。正如在大海中行驶的船只需要导航系统确定方位一样,要想在茫茫的信息海洋中有效获取有用信息,也必须拥有便捷有效的信息导航技术。一般来说,www网络中常用的信息导航方式有三种:一是利用门户网站的分类索引;二是利用网络搜索引擎;三是利用网站的相关链接。但是目前这三种信息导航方式的效果都不尽如人意。分类索引所覆盖的网络站点范围太小,更新较慢,难以适应网络的快速增长,而且分类标准的不统一和不规范常常影响到用户对站点所属的判断,造成导航失败。搜索引擎虽然是目前主要的网络信息检索工具,但是通过简单的逻辑运算检索到的结果往往是数量庞大且鱼目龙杂,充斥着大量的无用和重复信息。网站的相关链接是指符合当前网站内容主题的内部和外部信息资源的超链接,这种导航方式虽然简单直接,但是信息量非常有限,而且对外部信息的链接常常出现错链和假链,即使是内部信息,也常常因为组织和描述方式的影响,造成用户的“资源迷向”。

用户在信息空间中的“迷航”会使他们感到厌倦而丧失获取信息的信心,分析其原因,主要包括以下几个方面[1,2]:

(1)网络的巨大信息量使人们必须依赖于自动化的处理技术。但是目前因特网的各个网端的技术支持环境比较复杂,信息资源的内容范围、组织结构和存储方式各不相同,呈现出分散、无序、变幻多端的特点,这使自动信息处理技术的应用困难重重。因此要提高信息导航的效率和质量,必须先解决资源异构的问题。

(2)网络信息空间中的数据大多以半结构化和非结构化的形式存在,对信息资源的内容缺乏形式化的语义描述,而且大部分资源间的链接也没有反映语义关系,这使得机器很难对网络信息空间进行深层次的理解和处理,对信息的自动导航也无法像人工操作那样准确有效。

(3)目前的网络导航系统缺乏个性化的信息服务。由于知识背景的差异和一词多义等方面的原因,不同的网络用户之间、用户与系统设计者之间对于问题和信息内容可能会具有不同的理解与认识,当用户按照自己的思路查找信息时,他所选择的导航路径可能是错误的或者低效的。因此信息导航必须考虑具体用户的特殊性,有针对性地提供导航服务。

(4)网络导航系统的设计缺乏规范。门户网站各自依据不同的标准建立自身的分类导航系统,网站的划分随意性较大,常常引起用户的困惑。一些著名的信息搜索引擎也各自采用不同的检索规则,有些系统不能利用历史信息或者不提供二次检索,给用户的使用带来不便。另外,在网站内部的导航系统设计上,也存在着导航结构不合理,导航要素不完整,导航界面不统一等问题。这些都可能造成用户的导航障碍。

由此可见,造成信息“迷航”问题的主要原因在于缺乏信息空间的合理组织和有效的导航机制,这也是第二代web网络技术难以克服的困难。为此,人们正在研制第二代web网络——SemanticWeb,它以结构化信息表示为主,为网络导航研究开辟了新天地。2SemanticWeb技术TimBernersLee在1998年提出了SemanticWeb的概念。2001年2月,W3C组织正式推出SemanticWebActivity,使网络环境下的语义处理技术研究渐入佳境。SemanticWeb研究活动的目标是开发一系列可由计算机理解和处理的语义表示语言和技术,通过显式的语义表示和领域本体将网络信息空间编织成为一个巨大的机器可读的知识网络,以支持自动化的信息访问和知识管理,实现高质量的网络信息服务。目前关于SemanticWeb的研究主要集中在网络信息资源及其内容的语义和语义关系表征,基于语义的数据自动分析、理解和处理,不同应用领域和系统间的数据自动交换、转换和复用[3]。SemanticWeb虽然是现有web网络的延续,但在信息导航方面具有许多普通web没有的优势。SemanticWeb中的节点既可以代表物理页面,也可以代表知识实体;SemanticWeb中网页的内容不但可以被人理解,而且可以被机器理解;SemafiticWeb中的链接不再是任意的,而是遵循一定的语义关系。通过SemanticWeb技术,可以改变现有网络松散的数据结构,将信息资源结构化并赋予含义,使网络信息的整合和自动处理都变得更加容易[4]。

2.1本体

所谓本体(Ontology),实质上是描述特定应用领域知识的公认的术语集。关于奉体的定义,比较著名的观点是“本体是概念模型的一个显式的规格说明”和“本体是共享概念的一个形式化的规格说明”,其中,“概念模型(Conceptualization)”是指通过对某个客观现象的相关概念进行辨析和提取而获得的关于该现象的抽象摸型;“显式(Explicit)”是指对所使用的概念的类型,以及这些概念在应用上的约束都给予明确的说明;“形式化(Formal)”表示本体以计算机可读的形式存在;“共享(Share)”表示本体中反映的是共同认可的知识”[5]。

本体通常表达为一组对象(概念)、关系、函数、定理和实例。本体中的对象类按照等级关系组织成基本的结构体系。等级关系包括例化(is-a)关系、类属(kind-of)关系和整部关系(part-of)。上层的对象类为父类,下层的对象类为子类。对象类具有各自的属性,并可依据父子关系继承。对属性的取值对象、取值范围、取值基数等都可以加以限制,还可以对属性的交换性、对称性、传递性、唯一性等进行定义。除了等级关系,本体中的对象类间还可以具有其他语义关系,形成语义网络形式的概念模型。本体是机器自动推理和智能化高级信息服务的基础,对网络而言,一个简单的本体的典型例子就是网络的分类索引(如Yahoo!的分类目录)。本体的应用对于提高网络导航的精度和效率具有重要的意义[1,4)。

2.2RDF和RDFS

RDF是由W3C开发的元数据描述机制,其目的主要是为元数据在网络上的编码、交换和重用提供一个基础。它允许在XML的基础上以一种标准化的、互操作的方式对数据语义进行定义[4],提供了一个描述web资源的数据模型。RDF包含描述资源的属性和关系的声明。资源是任何用URl(UniformResourceIdentifier)唯一标识的实体对象。资源具有属性,属性则具有一定的值,该值可能是简单的字符串或数字,也可能是自身也具有属性的其他资源。这样,资源、资源属性和属性值构成了RDF声明中的三元关系模式,任何本体或描述性元数据都是这种三元关系模式的具体体现”[1,7]。

为了描述元数据元素间的复杂语义关系,W3C进一步定义了RDFS(RDFSchema)。它可以看成是一个本体定义语言,用来建立概念类体系结构、属性层次和类关系。3基于SemanticWeb的智能导航机制SemanticWeb的出现为网络信息导航提供了新的研究思路,SemanticWeb技术是解决无序网络空间中“迷航”问题的关键技术。基于SemanticWeb的智能导航是一种以结构化、语义化的概念知识网络为基础,自动形成个性化导航结构的方法。它分为两个方面,一是基于SemanticWeb的信息组织,即利用参考本体对各信息源进行语义描述和整合;二是基于SemanticWeb的个性化导航结构模型的构建,即在有序语义组织的基础上,构造用户语义模型,并据此建立导航结构。图1显示了基于SemanticWeb的智能导航机制的概念结构[8]。

3.1基于SemanticWeb的信息组织

基于SemanticWeb的信息组织的基本思想是,将来自于多个异构信息源中的数据整合到一个语义统一的参考本体中。参考本体是通过分析领域中的各个信息资源集合,提取公共概念、属性和关系而构建的本体,它为所有信息资源提供统一的概念集合和通用语义。

信息整合的方法是先分别将各个信息源中的数据转换为通用的数据模型,然后建立各个数据模型和参考本体之间的映射关系。网络中的信息源具有各种各样的数据格式,其中大部分是HTML页面,有的包含表格和列表。另外还有XML文档、RDF文档以及关系数据库文档等。为了解决分布式异构信息源的语法相异问题,需要将数据转换为公用的数据模型格式,例如RDF。对于非RDF格式的信息数据,可以利用外覆包(wrapper)技术将其自动地转换为基于RDF的数据模型。外覆包对特定格式的数据文档进行解析,并采用RDF声明对其内容进行标注。下面是三种常用的外覆包:

(1)HTML外覆包。由于HTML页面属于半结构化的信息数据,因此HTML外覆包采用的是半指导性的标注方法。即预先手工标注一组HTML页面,然后对新的HTML页面进行结构分析,将新页面与标注页面进行比较,从中提取相关信息。HTML外覆包还可以处理异构的XML文件[1]。

(2)XML外覆包。根据DTD和Schema所定义的XML文档的内容结构和内容元素,建立概念集与DTDSchema之间的映射关系,从而自动地将XML文献中的DTD内容元素标记转换为对应的概念集元数据标记。

(3)关系数据库外覆包。将关系数据库中的数据元素和二维数据关系映射到概念集中,形成语义基础,以便从关系数据库中自动创建RDF声明。

由于不同的信息提供者可能会使用不同的词表来标注数据,因此在建立通用数据模型后,还必须在信息数据源和参考本体之间建立概念和关系的映射,以消除语义差别。根据RDF声明,在参考本体中注册相关内容的来源,使参考本体成为一个知识内容的集成文件。另外,采用基于本体的元数据发现和漫游技术,探测相关的RDF声明,可以自动地添加新的信息资源[8]。4结束语网络信息的利用状况不容乐观,迫使人们努力探索更为先进更为成熟的导航理论、方法和技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论