版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息组织第8章
语义网环境下的信息组织语义网环境下的信息组织语义网的目标是通过给万维网上的文档添加能够被计算机所理解的语义信息,让计算机能够“理解”分布在网上的信息和知识,并在“理解”的前提下更好地处理、利用这些信息和知识。语义网技术可以引导人们进行语义层次上的信息分类、信息标引、信息整合等方式的信息组织,实现一个有序的信息空间。资源描述框架(ResourceDescriptionFramework,RDF)是语义网信息描述与表示的基础;本体是语义网中信息组织的核心体系。本章首先介绍语义网中的信息描述与表示格式RDF、语义网中的信息建模方式OWL本体、语义网知识组织系统表示语言SKOS,然后举例说明在语义网环境下如何采用OWL本体对领域知识进行建模,如何采用RDF语言基于本体对信息进行语义描述,如何将描述好的信息在网络上发布为可访问的关联数据,如何基于关联数据对分散、异构的信息进行关联和集成。Contents目录01语义网概述02语义网信息描述和表示03语义网信息组织模式04基于语义网的知识组织系统05关联数据06基于知识图谱的信息组织方法1语义网概述1语义网概述Web非结构化、非语义化的信息表示形式,只能供人类阅读和理解,而计算机并不能“理解”Web的内容,并在“理解”的前提下处理和利用这些信息。对于当前Web在信息表达、组织、检索中存在的严重缺陷与不足,语义网应运而生。011998年9月,Web的发明者TimBerners-Lee(蒂姆·伯纳斯·李)在他的“Web设计笔记”中首次提出了语义网(SemanticWeb)的设想,即“一个在某种程度上类似全局数据库的数据之网(WebofData)022001年5月,Berners-Lee及其合作者在ScientificAmerican杂志上发表了题为TheSemanticWeb(语义网)的论文,系统论述了下一代万维网架构语义网的蓝图,这篇论文同时被认为是语义网诞生的标志。03Berners-Lee在综合了语义网研究领域最新成果的基础上,于2000年在XML大会上首次提出了语义网体系结构对语义网的主要支撑技术及其依赖关系分层进行描述,为语义网的具体实现提供了理论和技术基石。042006年,Berners-Lee进一步提出了“关联数据”的概念,即在网络上发布、共享、连接各类数据、信息和知识的一种方式,是推荐的语义网最佳实践。051语义网概述语义网的整个体系结构分为七层:底层的
URI为语义网的资源提供了统一标识,Unicode则解决了语义网的跨语言问题;扩展标识符语言(eXtendedMarkupLanguage,XML)为语法层,提供了语义网的句法基础和编码方式;资源描述框架(RDF)为数据层,是语义网的基石;本体层(Ontology)则为语义网的资源描述提供了语义,是语义网的核心;逻辑层(Logic)
提供了公理和推理规则;证据层(Proof)用于提供认证机制;信任层(Trust)则是为了保证信息交换的安全而设计的,负责提供信任机制。其中,前四层已经有了具体的实施标准与规范,RDF和OWL本体是构建语义网的关键,后三层尚停留在概念层面,还没有具体的实现技术。语义网体系架构2语义网信息描述和表示2.1RDF
简介语义网信息描述与表示的基础是资源描述框架(RDF)。RDF是一种资源描述语言,用于
对
Web上的资源进行语义化和形式化的描述,是语义网技术体系的基石。RDF定义了一个简单的数据模型,通过主体(Subject)、谓词(Predicate)、客体(Object)的三元组结构来描述资源。RDF是与语法无关的,可以建立在不同语法基础上,如可以通过图、三元组、自然语言文本、XML、JSON等方法对RDF数据进行序列化表示,其中最重要的是建立在XML语法上的RDF/XML表示格式。图8-2是用RDF描述Web资源的一个实例,分别用图、三元组、XML、自然语言来描述同一RDF数据,这个RDF数据中包含两个三元组。图
8-2用
RDF描述
Web
资源的一个实例主体(Subject)谓词(Predicate)客体(Object)资源(Resource)/Book/InformationOrganization属性(Property)
dc:creator资源(Resource)/Person/YeJiyuan资源(Resource)/Book/InformationOrganization属性(Property)
dc:title文本(Literal)"InformationOrganization"图
8-2所示的
RDF
图使用三元组表示2.1RDF简介使用
RDF/XML语法表示为如下一段代码。用自然语言表达是:
资源(图书)“http:///Book/InformationOrganization
”的“dc:creator”属性的值是“http:///Person/YeJiyuan”;资源“http://www./Book/InformationOrganization”的“dc:title”属性的值是“InformationOrganization”。2.1RDF简介资源泛指所有采用URI(UniformResourceIdentifier,统一资源标识符)标识的资源,URI具有两个子集:URL(UniformResourceLocator,统一资源定位符)和URN(UniformResourceName,统一资源名称)。属性是一种特殊的资源,用来描述资源的某特定方面——通常是资源的元数据,如作者、标题等。属性可以是自定义的,也可以是通过类似XML中的命名空间机制来引用在其他方案中已定义的属性。陈述(Statement)是由一个特定资源、资源的一个特定属性及该属性的属性值组成的三元组,即由RDF三元组的主体、谓词、客体共同组成的一个语句。一个陈述可以通过复合形成高阶语句,如“'资源<>'的'dc:title'属性的值是'南京大学信息管理学院主页'”。如果把上述句子看作一个资源,就会有下面的复合语句:“叶继元说'资源<>'的'dc:title'属性的值是'南京大学信息管理学院主页'”。为了表示这种高阶语句,RDF使用了具体化(Reification)机制。相应的RDF/XML代码如下。2.2RDF
序列化表示格式目前,RDF有多种序列化格式,大致可分成
4种。XML类型:包括RDF/XML、RDF/XML-ABBREV和Trix三种格式,均采用XML编码,是面向机器阅读和处理的格式。N3(Notation3)类型:包括N3、Turtle、N-Triples、N-Quads和TriG格式,均采用纯文本表示,具有良好的可读性,是面向人类用户的格式。JSON(JavaScriptObjectNotation)类型:包括RDF/JSON和JSON-LD,均采用JSON兼容的格式表示。嵌入式类型:包括Microformats、eRDF和RDFa,均采用XML标签的形式将结构化的RDF三元组数据嵌入XHTML网页,目的是增强当前Web网页对RDF数据的支持,其中RDFa是W3C推荐标准。以自然语言陈述“ThereisaPersonidentifiedbyhttp:///People/EM/contact#em,whosefullnameisEricMiller,whoseemailaddressisem@,andwhosetitleisDr.”为例,不同的RDF序列化格式表示如下。RDF/XML的格式表示如下:Turtle格式表示如下:N3格式表示如下:2.2RDF序列化表示格式2.3RDF评价RDF和XML是互为补充的,而不只是对某个特定类型数据的规范表示,XML和RDF的结合,不仅可以实现数据基于语义的描述,也充分发挥了XML与RDF的各自优点,便于Web数据的检索和相关知识的发现。3RDF是以一种建模的方式来描述数据语义的,这使得RDF可以不受具体语法表示的限制。但是RDF仍然需要一种合适的语法格式来实现RDF在Web上的应用。2RDF希望以一种标准化、互操作的方式来规范XML的语义。XML文档可以通过简单的方式实现对RDF的引用。通过在XML中引用RDF,可以将XML的解析过程与解释过程相结合。1RDF语义表达能力依然非常有限。RDF只提供了描述单个资源语义信息的能力,而没有提供描述特点领域的语义能力。因为RDF无法描述领域知识,无法抽象领域模型,所以还需要RDFSchema或者OWL等进一步定义机器可理解的语义。4XML
只是一种语法规则,本身无法表示机器可理解的语义,为此
W3C
推荐以
RDF
标准来解决
XML
的语义局限。2.4RDF数据的存储随着万维网上越来越多的RDF数据出现,如何存储RDF数据变得至关重要。RDF主要有以下5种存储方式。①基于内存的存储:直接将RDF数据存储在计算机内存中,处理速度快,查询效率高,但是存储具有不可持久性,而且受内存大小的限制。②基于文件的存储:直接以RDF/XML文档的形式存储RDF数据,方式简单,容易实现,但是查询不便,尤其当文件比较大时,查询效率低。③基于关系型数据库的存储:通过不同方式将RDF三元组中的实体资源和文字值映射到关系型数据表中,实现RDF数据的持久化存储。利用成熟的关系型数据库管理系统,不需重新开发,易于实现,但是关系型数据结构与RDF三元组数据结构差异颇大,查询效率比较低,代表性系统有JenaSDB和Virtuoso。④原生RDF数据存储系统:专门针对RDF三元组结构而开发的存储器,查询效率高,安装灵活方便,可扩展性好,是当前的主流RDF存储方式,代表性系统有4Store、AllegroGraph、JenaTDB等。⑤基于图数据库等各种NoSQL数据库的存储:近年来,随着大数据的热潮,一些新型NoSQL数据库技术逐渐发展,其中包括图数据库(如Neo4j),RDF数据本身就是一种图数据,采用NoSQL存储具有天然优势,未来具有良好的发展前景。2.5RDF查询语言SPARQLSPARQL
主要包含两部分:SPARQL
查询语言和SPARQL
协议,前者定义了面向
RDF数据模型的查询语言句法和语义,后者采用Web服务描述语言(WebServicesDescriptionLanguage,WSDL)2.0定义了将SPARQL查询传输到SPARQL查询处理服务并向查询实体返回查询结果的方法。SPARQL查询是基于图模式(GraphPattern)的匹配。一个基本图模式是一组三元组模式(TriplePattern)的集合。三元组模式可看作主体和(或)宾体未知的RDF三元组,未知的主体或宾体采用变量表示(如?Person、?homePage)。一个基本图模式中的三元组模式通过共有变量连接起来,构成一个连通的有向图。在匹配时,SPARQL查询的基本图模式匹配RDF图中的一个子图。图为查询“全名为EricMiller的人的主页”的图模式匹配。(a)待查询的
RDF数据(b)
SPRARQL查询的图模式2.5RDF查询语言SPARQLSPARQL查询有如下4种形式。①SELECT:从RDF数据中查询符合条件的特定信息,类似关系型数据库的SQL查询。②CONSTRUCT:为每个查询结果输出一个RDF图,即将查询结果直接构建成RDF图。③ASK:查询RDF数据集中是否有与查询模式相匹配的数据,如果查询的图模式在数据集中有匹配,那么查询将返回“yes”,否则返回“no”。④DESCRIBE:返回一个RDF图,其中包含与查询模式相匹配的节点的相关信息。在上述4种查询中,SELECT查询是最常用的查询形式。SPARQL查询在句法上与Turtle非常相似,唯一的区别是三元组模式中包含未知的变量。例如,查询“全名为EricMiller的人的主页”的SPARQLSELECT查询语句如下。2.5RDF查询语言SPARQL除了SPARQL查询语言,SPARQL还包含一组协议。SPARQL协议定义了如何通过HTTP协议将一个SPARQL查询及更新请求发送给一个SPARQL服务,如何将这些请求映射为HTTPGET或POST操作,以及对应这些请求的HTTP响应。通过SPARQL协议,用户可以在SPARQL查询客户端远程执行查询,将查询推送到SPARQL服务器执行查询并将查询结果返回给查询客户端,如图8-4所示。图8-4通过SPARQL协议远程执行SPARQL查询3语义网信息组织模式3.1本体简介本体是语义网中信息组织的核心体系,但并不像哲学意义上那样抽象和理论化,是实实在在的信息描述的语言工具。本体定义为“共享概念模型的明确的形式化规范说明”,这个定义的具体含义由4个概念组成。概念化(conceptualization):指将客观世界中的一些现象抽象出来得到的模型,是客观世界的抽象和简化。明确(explicit):即明确定义所使用的概念及概念的约束。形式化(formal):即精确的逻辑表述,能够被计算机读取、理解和处理。共享(shared):指本体描述的概念应该是某个领域公认的概念。3.1本体简介根据
Perez等人对本体建模的研究,
本体可由以下
5部分构成。①类(Class):也称为概念,
一般用于描述领域内具有相同属性或行为的一类对象的概
念,
如“人”是一个类,“教师”和“工程师”是“人”的子类,也是一个类。类的这种层级
关系将本体中的概念组织成一个系统结构。②关系(Relation):是指领域中类与类、实例与实例之间的联系,
表示领域中概念或实
例之间的交互作用,如
is-Child-of、a-Kind-of、IsA等关系。③实例(Instance):是指领域内某一特定的对象,根据本体颗粒度的不同,
对实例的界
定也不同。
“张三”是“教师”的实例,
“李四”是“工程师”的实例,
他们也都是“人”的
实例,所以继承了“人”的各种属性。④函数(Function):一种特殊的关系。如
mother-of关系就是一个函数,其中,mother-
of
(x,y)表示
y是
x
的母亲,显然
x可以唯一确定其母亲
y。⑤公理(Axiom):领域内一些常识性知识的描述,是永真事实的描述。在应用本体的语
义关系来进行逻辑推理时,这些规则能够发挥一定的作用。例如,
“人是动物”就是公理。3.2本体的类型根据不同的分类标准,可以将本体分成多种。常用的本体主要有以下几种。①领域本体(DomainOntology):包含特定领域概念、术语及关系的本体,主要用于特定领域的应用,如经济类本体、建筑本体等。②通用本体(GenericOntology):覆盖了若干领域或者具有通用性,也被称为核心本体或顶级本体。它包括的是关于世界的一般性知识和概念,如时间、空间等。因此,通用本体可以跨学科领域使用,比较有代表性的通用本体当数CYC。③应用本体(ApplicationOntology):为某一特定的应用而建立的本体。例如,在某个数字图书馆的建设过程中,可以建立该图书馆的数字资源的本体,应用于该图书馆的信息表示与检索中。④任务本体(TaskOntology):描述的是特定任务或行为中的概念及概念之间的关系。任务本体与解决问题的方法相关,主要研究可共享的问题求解方法。这里的推理方法与领域无关,任务本体主要涉及动态知识,而不是静态知识,定义通用任务和推理活动,如诊断等。3.3本体的功能本体对领域知识进行了一种表述,统一了领域内的术语和概念,便于人与机器、机器与机器之间的交流,从而增加知识共享、知识重用的程度。本体在信息组织方面的功能如下。①信息描述方面,本体是关于领域知识的共同理解和描述,这使得基于本体的信息资源组织建立在语义层面而非语法层面,是以信息或知识的内容和本质特征为依据进行的组织。②信息检索方面,本体具有良好的概念层次结构和对逻辑推理的支持,因而在信息检索特别是在基于知识的语义检索中得到了广泛应用。本体通过概念之间的关系来表达概念语义,因此能实现基于本体的语义检索,避免当前信息检索因为字面检索而造成的低效率问题。③语义网方面,本体面向计算机和网络的特点及形式化的描述使其能够更好地满足网络信息资源组织的需要,尤其是语义网信息组织的需要,所以它成为语义网体系框架中的一个主要层次。本体能够准确地描述概念及概念之间的内在关联,并能通过逻辑推理获取概念之间蕴涵的关系,具有很强的表达概念语义和推理的能力,更适用于语义网环境中的信息组织和检索。3.4本体与传统受控词表的比较本体与传统受控词表相比有许多相似之处,如继承了分类表的等级关系、叙词表的词汇控制等。两者之间的相似之处总结如下:①本体本质上也是一种受控词表。②都是概念及概念关系的集合。③都是人们为便于实现人机或计算机之间的交流而制定的一致性标准,都能达到信息描述和提高信息检索效率的目的。④都可以看作知识体系和结构的表现,都对词汇或概念实施了语义上的控制。⑤都适用于某一专业领域范围。3.4本体与传统受控词表的比较但本体也有许多不同于传统受控词表的地方,具有面向计算机交流的特点,主要区别如表所示。比较内容本
体传统受控词表主题词表分
类
表概念模型面向对象的认识世界的方法面向概念的信息表示与检索方法面向学科的信息表示与检索方法组成元素通常由类、属性、实例组成,有时包
括函数和公理语词及词间关系类目及类目关系标识URI
唯一资源标识语词类号或类目概念关系表达几十种、上百种关系等同、等级、相关三种关系包含、并列、交替、相关等关系形式化程度较高较低较低层级体系存在,较为混乱,没有统一标准有的存在,基本采用学科分类存在,存在学科分类适用对象机器为主,人为辅人为主,机器为辅人为主,机器为辅应用提供语义检索和知识发现信息内容的主题表示与检索信息内容的分类表示与检索3.5本体描述语言01RDF通过类、属性和属性值来描述资源,但是RDF本身并不能定义这些描述词汇,因此需要一种定义应用程序专用的类和属性的方法。RDFS
(ResourceDescriptionFrameworkSchema,资源描述框架模式)就是在RDF基础上制定的RDF词汇描述语言。02OIL、DAML、DAML+OIL虽然没能成为最终的推荐标准,并最终不再使用,但需要看到它们对于网络本体表示语言的重要贡献,这主要表现在:第一,它们是第一批建立在XML、RDF(S)标准上的网络本体表示语言,这与先前的低级网络本体表示语言(如SHOE、XOL等)有着本质的不同,体现了现行网络构架向语义网构架发展的努力;第二,它们第一次将描述逻辑引入本体表示,成为赋予本体语言正规语义和推理支持的一种有效手段;第三,它们的开发为后来OWL的开发积累了宝贵的经验(许多OIL、DAML的开发人员进一步参与了OWL的开发),提供了坚实的基础,并且为后来OWL得到广泛的认同和应用做出了贡献。03OWL(WebOntologyLanguage,网络本体语言)是W3C在2004年制定的一种本体表示语言标准[3]。OWL语言比RDFS语言提供了更多建模语言,拥有清晰的、形式化的语义,能够为客观世界的描述提供更加丰富的知识表示和推理能力。3.5本体描述语言4、OWL22009年10月,W3C推出OWL新版本。OWL2与原有的OWL兼容,即所有OWL1本体依旧是有效的OWL2本体。OWL2添加了一些新特征,具体表现在以下5方面。①增加了句法糖,也就是一些句法扩展,使得OWL2在不扩展语言表达能力的情况下对用户更加友好且容易使用,例如,提供了DisjointUnion和DisjointClases这两种更加简洁的快捷方式来声明类不相交。②增加了对属性的建模元语,例如,对属性的额外约束、属性的不相交性、属性链(PropertyChain)和键(Key)等,以及增强的属性表达能力,如属性的自反性(Reflexive)、非自反性(Irreflexive)和非对称性(Asymmetric)等。③扩展的数据类型,包括更多由OWL2提供的内置数据类型,如rational(有理数)、real(实数)、boolean(布尔值)、dateTimeStamp(日期时间戳)等,也允许用户在创建本体时自定义数据类型。④简单的元建模能力,提供了双关语(Punning)功能,即相同的名称在某些限制下可用于不同类型的实体(如类、对象属性、数据类型属性、数据类型等)。⑤扩展的注释能力,用户可以给公理添加注释,给注释属性添加定义域和值域信息,给注释自身添加注释。3.5本体描述语言4、OWL2OWL2有两种为本体赋予语义的方式:直接语义(directsemantics)和基于RDF的语义(RDF-basedsemantics)[1]。直接语义以描述逻辑的方式直接将语义赋予本体结构;基于RDF的语义是RDFS语义的扩展,将OWL2本体看作RDF图,直接给RDF图赋予语义,从而间接地通过到RDF图的映射给本体结构赋予语义。采用直接语义的本体被称为OWL2DL本体,采用基于RDF语义的本体被称为OWL2Full本体。OWL2DL可看作OWL2Full的句法限制版,通过限制OWL2、RDF、RDFS建模元语的使用方式,获得可计算性。出于不同用途和计算的复杂性,OWL2DL包含3种子语言。OWL2EL:具有较强的表达能力,主要用于需要超大规模本体的应用或者为了保证性能可以牺牲表达力的应用。OWL2QL:主要用于需要相对轻量级本体且具有大量实例数据的应用,允许通过关系型查询直接访问数据。OWL2RL:在有限地牺牲表达能力的条件下极大地改善推理能力,主要用于需要大规模推理的应用。3.5本体描述语言4、OWL2图8-5OWL2各子语言之间的关系3.6本体的构建1.本体构建原则本体构建的基本原则概括起来包括5项。①清晰(Clarity):本体必须有效地说明所定义术语的意思。定义应该是客观的、与背景独立的。当定义可以用逻辑公理表达时,它应该是形式化的。定义应该尽可能完整。所有定义应该用自然语言加以说明。②一致(Coherence):本体应该是一致的,也就是说,它应该支持与其定义相一致的推理,所定义的公理及用自然语言进行说明的文档都应该具有一致性。③可扩展性(Extendibility):本体应该为可预料到的任务提供概念基础,应该支持在已有的概念基础上定义新的术语,以满足特殊的需求,而不需修改已有的概念定义。④编码偏好程度最小(Minimalencodingbias):概念的描述不应该依赖于某一种特殊的符号层的表示方法,因为实际的系统可能采用不同的知识表示方法。⑤本体约定最小(Minimalontologicalcommitment):本体约定应该最小,只要能够满足特定的知识共享需求即可。这可以通过定义约束最弱的公理及只定义通信所需的词汇来保证。3.6本体的构建2.本体开发工具目前,最流行的本体编辑工具是由美国斯坦福大学生物医学研究中心和医学院联合开发的开源软件Protege编辑器。除了Protege,还有其他本体编辑工具,如斯坦福大学知识系统实验室的Ontolingua和OntopriseGmbh公司的商业软件OntoStudio等。2011年12月,欧盟研究项目NeOn发布了免费的本体工具包NeOnToolkit2.5,基于商业软件OntoStudio,但进行了扩展。3.本体构建方法本体构建方法研究主要是从知识工程的角度探讨本体的构建方法,也称为本体工程。本体工程的主要特点是强调构建本体时要按照一定的规范和标准。本体工程中比较有名的包括TOVE法、METHONTOLOGY法、骨架法(SkeletalMethodology)、KACTUS法、SENSUS法、DEF5法和七步法等,其中以骨架法和七步法应用最为广泛。3.6本体的构建3.本体构建方法(1)骨架法骨架法由MikeUschold和MichealGruninger提出,又称为Enterprise法,专门用来创建企业建模过程中的本体。骨架法流程如图8-6所示。图8-6骨架法流程①确定本体应用的目的和范围:根据研究的领域或任务,建立相应的领域本体或任务本体,领域越大,所建本体越大,因此需限制研究的范围。②本体分析:定义本体所有术语的意义及其之间的关系,需要领域专家的参与。对该领域越了解,所建本体就越完善。③本体表示:以本体表示语言对本体进行描述。④本体评价:按照对本体表示的清晰性、一致性、完整性、可扩展性,对所建立的本体进行评价,如果符合要求就进入本体建立,否则返回第二步重新进行本体分析。⑤本体的建立:对所有本体按以上标准进行检验,符合要求的以文件形式存放,生成OWL、RDF等格式的本体文件。3.6本体的构建3.本体构建方法(2)七步法七步法由斯坦福大学医学院开发,主要用于领域本体的构建。①确定本体的专业领域和范畴。领域知识往往十分庞大,本体不可能包括所有的概念,因此,在建立本体之前,必须先确定本体将覆盖的专业领域、范围和应用目标等。②考查复用现有本体的可能性。共享和复用是本体的特点,建立本体的目的也是为了解决知识的共享和复用问题,因此,在设计和建立本体之前,应该考虑是否有已经建立好的本体供复用。③列出本体中的重要术语。领域本体是描述概念及概念与概念之间关系的,应列举出该领域中的所有概念及对该概念的详细解释。④定义类和类的等级体系。通常采用自顶向下法(Top-down)、自底向上法(Bottom-up)和综合法。通过等级体系将领域概念进行分类组织,用于描述领域概念间的类属关系,并将本体中的概念模块化。⑤定义类的属性。概念的分类层次结构体现了分类概念之间的一种继承关系,除了继承关系,在我们构建的领域本体中还可以根据需要定义其他的关系。针对每个概念,要列出它所有可能的属性,每个属性都有对应的属性值。⑥定义属性的分面。属性的分面可用来描述属性值的类型、允许的取值、取值的个数(基数),以及属性其他的一些特征。⑦创建实例。确定类的实例首先需要选取一个概念类,然后添加属于该类的具体实例,最后为实例添加具体属性值。3.7基于本体的信息组织实例1.本体构建首先,参考斯坦福大学医学院七步法本体构建原则,基于DC元数据标准构建一个书目元数据本体(命名空间前缀为co)。为了充分展示本体构建的各方面,尽量给出类和属性的各种设置,其中有些并不是完全必须的。①确定本体的专业领域和范畴该本体属于图书馆领域,是描述文献资源书目信息的一个基本模型,定义了文献资源的核心属性,文献资源之间以及与其他资源(如知识组织资源、个人、组织机构、地点)之间的相互关系。②考查复用现有本体的可能性在图书馆领域,DC元数据标准和DCTERMS元数据术语是描述书目信息的主要标准规范。书目信息中会涉及人物、组织机构、时间、地点、概念等信息,可复用相关本体中的定义。③列出本体中的重要术语在书目本体中,最重要的术语是“文档”,是图书馆中各类文献资源的统称,具体有图书、论文、学位论文、图像等,还有描述文献书目信息的术语。3.7基于本体的信息组织实例1.本体构建④定义类和类的等级体系该本体的核心类是“文档(Document)”,表示承载信息的内容载体,可以是纸质印刷型,也可以是数字型。该类可包含多个子类,分别代表不同类型的文档,如图书(Book)、论文(Article)、图像(Image)、学位论文(Thesis)等。每个子类还可拥有更低层级的子类,如论文还可进一步分为期刊论文(JournalArticle)和会议论文(ConferenceArticle)。除了文档(Document),还有与之密切相关的其他类,包括代理(Agent)、时间(PeriodofTime)、地点(Place)、概念(Concept)。这些类直接复用自上面所说的相关本体。表8-2列出了书目元数据本体中的主要类及其子类。3.7基于本体的信息组织实例1.本体构建⑤定义类的属性文档类(co:Document)的属性全部复用自DC元数据标准中的15个核心元数据元素。其中,范围(dc:coverage)元素被分解为两个属性:时间范围(dcterms:temporal)和空间范围(dcterms:spatial)。文档类的所有属性以及属性的类型和值域如表8-3所示。代理类(foaf:Agent)的属性则直接复用FOAF本体中定义的部分属性,如表8-4所示。属性分为数据类型属性和对象属性,后者就是类与类之间的关系。3.7基于本体的信息组织实例⑤定义类的属性该本体中的主要类及相互间关系如图8-7所示。1.本体构建图8-7书目元数据本体中的主要类及相互间关系3.7基于本体的信息组织实例1.本体构建⑥定义属性的分面首先,该本体中的一些属性具有逆属性。例如,文档(co:Document)类中,其“关系(dc:relation)”属性具有两个子属性:包含(dcterms:hasPart)和替代(dcterms:repalces),这两个属性均具有相应的逆属性“被包含(dcterms:isPartOf)”和“被替代(dcterms:isRepalcedOf)”。逆属性的定义如下。3.7基于本体的信息组织实例1.本体构建⑦为类和属性添加注释属性(AnnotationProperties)除了数据属性和对象属性,该本体中还有另一种属性,称为注释属性。注释属性的作用是对本体中的类、属性和个体(即实例)进行注释说明。OWL本体中有5个预定义的注释属性可以直接使用,对本体中的类、属性、个体提供注释信息。书目元数据本体中co:Document类的注释属性如表8-5所示。3.7基于本体的信息组织实例2.基于本体的信息集成本体构建的最后一步是实例构建。基于构建的书目元数据本体可以将不同类型、不同格式的书目信息转换为统一的RDF数据,也就是本体的实例,由此可以实现异质书目信息的集成。下面以《信息资源管理理论》一书为例,将来自图书馆书目数据库的MACR元数据和来自万方数据库的NoteFirst[1]两种元数据转化为统一的RDF格式的元数据,来实现不同类型元数据的集成。该书的MACR元数据显示如下:3.7基于本体的信息组织实例2.基于本体的信息集成该书的NoteFirst的元数据显示如下:3.7基于本体的信息组织实例2.基于本体的信息集成针对同一本书的两种不同格式的元数据,基于书目元数据本体,可将这种元数据都转换成相同的RDF格式表示,显示如下:4基于语义网的知识组织系统4.1SKOS语言简介SKOS(SimpleKnowledgeOrganizationSystem,简单知识组织系统)是在语义网框架下对知识组织系统进行语义化描述的一个模型,是W3C于2005年制定的一个推荐标准,旨在采用机器可读可理解的RDF语言表示知识组织系统,使之适应网络环境下信息资源组织的需要。在图书馆及相关领域,知识组织系统(KnowledgeOrganizationSystem,KOS)是指采用不同类型的语义关系进行组织和结构化的概念体系,既包括在传统纸质和普通电子环境下产生和应用的地名表、术语表、分类法、叙词表、主题词表等受控词表,也包括在网络环境下新出现的本体和语义网络(SemanticNetwork),是对信息资源进行组织和整理的重要工具。SKOS可以视为RDFS和OWL在知识组织系统表示这一特定领域的一个应用,用于在网络环境下描述分类法、叙词表、主题词表、术语表等概念体系,能够以一种机器可理解的方式表达词表的结构与概念,以供共享和重用。需要说明的是,SKOS并不是一种正式的知识表示语言,而只是提供一种轻量级的、直观的语言用于开发和共享知识组织系统。4.1SKOS语言简介1.SKOS建模元语(1)概念概念(skos:Concept)是SKOS最基本的建模元语,被定义为一个OWL类,用来声明或定义某个资源是一个概念性(Conceptual)资源,即知识组织系统中的一个“概念”。图8-8为定义“Love”是一个SKOS概念。相应的RDF/XML代码表示如下。4.1SKOS语言简介1.SKOS建模元语(2)概念体系通常情况下,知识组织系统中的概念并非孤立的,而是与其他概念相联系的,共同形成一个集合或一个体系。一个概念体系就是指具有语义关系的一系列概念的集合。概念体系的定义采用建模元语<skos:ConceptSchema>来实现,被定义为一个类。相应的RDF/XML代码如下。4.1SKOS语言简介1.SKOS建模元语(3)词汇标签词汇标签是用来为概念添加某种词汇标签,包括以下属性:首选标签(skos:preLabel)、可选标签(skos:altLabel)和隐藏标签(skos:hiddenLabel)。首选标签是SKOS概念在给定语言下的首选词汇标签。可选标签是SKOS概念在给定语言下可以选用的其他词汇标签。隐藏标签是SKOS概念不可见的一种词汇标签。相应的RDF/XML代码如下。4.1SKOS语言简介1.SKOS建模元语(4)注释属性注释属性为概念提供某些相关注释,包括如下建模元语:注释(skos:note)、定义(skos:definition)、范围注释(skos:scopeNote)、范例(skos:example)、历史注释(skos:historyNote)、编辑注释(skos:editorialNote)和变更注释(skos:changeNote)等。其中,skos:note是其他6个属性的父属性。(5)语义关系语义关系是指SKOS概念间的相互关系,主要包括相关关系和上下位关系,有如下建模元语:语义关系(skos:semanticRelation)、相关关系(skos:related)、上位传递关系(skos:broaderTranstive)、上位关系(skos:broader)、下位传递关系(skos:narrowerTranstive)和下位关系(skos:narrower),它们均是OWL对象属性。4.1SKOS语言简介1.SKOS建模元语(5)语义关系图8-11为“Birds”“Animals”和“Ornithology”三个概念的语义关系,即“Animals”是“Birds”的下位概念,“Ornithology”是“Birds”的相关概念。相应的RDF/XML代码如下。4.1SKOS语言简介1.SKOS建模元语(6)概念集合当知识组织系统中的一组概念在某些方面有相似性或相关性时,可能需要将其集合起来使用,形成概念集合。相关建模元语包括概念集合(skos:Collection)、有序概念集合(skos:OrderedCollection)、集合成员(skos:member)、集合成员列表(skos:memberList)。其中,<skos:Collection>和<skos:OrderedCollection>是OWL类,前者用来声明一个一般概念集合,后者则用于声明一个有序的概念集合,因此后者是前者的子类。(7)概念映射关系不同概念框架中的概念之间可能存在着内在的关系,为了互操作性,需要在不同概念体系中的概念间建立映射,SKOS提供了相应的建模元语,包括映射关系(skos:mappingRelation)、准确匹配(skos:exactMatch)、上位匹配(skos:broadMatch)、下位匹配(skos:narrowMatch)及相关匹配(skos:relatedMatch),其中后四者是前者的子属性。4.1SKOS语言简介2.SKOS评价SKOS是一套建立在RDFS语言基础上的知识组织系统表示语言,简练、实用且有良好的扩展性,是当前知识组织系统语义化表示的主流方式。SKOS的重要意义在于,为当前受控词表的语义化表示和网络化应用提供了一套解决方案,这将大大促进受控词表的编制与利用,有着广阔的应用前景。SKOS的主要问题在于,它能表示的语义关系还比较有限,远少于受控词表标准Z39.19中定义的数量——当然,这个问题可以通过新增词汇来解决。另一个潜在问题是SKOS的推理机制还比较薄弱——虽然SKOS以表示受控词表等轻量级知识组织系统为主要目标,但这种薄弱的推理能力可能在一定程度上影响SKOS的使用效果。4.2SKOS语言应用实例1.AGROVOC词表的SKOS表示AGROVOC是一个多语种农业叙词表,涵盖了农业、林业、渔业、食物安全及其他相关学科领域中的词汇,可以说是目前农业领域最有影响力的受控词表。该词表由联合国粮食及农业组织(Food&AgricultureOrganization,FAO)和欧洲共同体在20世纪80年代初开发,主要作用是将信息标引标准化,从而使得信息检索更加简单且准确,从而为用户提供最准确的信息资源。2010年,W3C正式推出SKOS语言后,FAO改用SKOS和SKOS-XL语言对AGROVOC词表重新进行了语义化描述。图8-12为AGROVOC词表的SKOS模型。为了实现对传统格式AGROVOC词表的语义化转换,FAO采用Java语言开发了一个基于Web的多语言本体概念构建和维护工具,称为AGROVOCConceptServerWorkbench,以帮助分布在全球各地的AGROVOC词表的维护者们合作构建农业领域的多语言本体和词汇系统。图
8-12AGROVOC词表的
SKOS模型4.2SKOS语言应用实例2.LCSH词表的SKOS表示LCSH(LibraryofCongressSubjectHeadings,美国国会主题标题表)是美国国会图书馆编制的一部大型综合性标题表。LCSH是目前世界上规模最大、应用最广泛的标题表,在检索语言的发展史上和当今图书馆主题编目工作中占有重要地位。早期的LCSH是以机器可处理的MARC形式存在的,后来转为MARCXML编码形式。表8-6为LCSH词表中MARC字段与RDF属性之间的映射关系。4.2SKOS语言应用实例2.LCSH词表的SKOS表示下面为采用SKOS语言描述的LCSH词表中一个主题词的RDF/XML代码。4.2SKOS语言应用实例3.《汉语主题词表》的SKOS表示对于简单的叙词表,采用SKOS语言足以进行描述。但是对于《汉语主题词表》这类比较复杂的叙词表,常包含比较复杂的成分,如组配概念、族项、组面等,则需要对SKOS语言进行一定程度的扩展,新增某些特定词汇(类或属性)才能够实现无损语义化转换。表8-7列出了《汉语主题词表》中的词汇属性与SKOS属性之间的映射关系,其中SKOSEX前缀表示定制扩展的词汇。4.2SKOS语言应用实例3.《汉语主题词表》的SKOS表示基于表8-7中的映射关系,采用SKOS语言将该叙词信息转换为RDF数据,其RDF/XML代码如下。4.2SKOS语言应用实例3.《汉语主题词表》的SKOS表示图8-13为《汉语主题词表》中的一个叙词实例“固定资产”。图8-13《汉语主题词表》中的一个叙词实例5关联数据5.1关联数据简介“关联数据”是由万维网的创始人TimBerners-Lee于1996年在他的“DesignIssuesfortheWorldWideWeb”笔记中首次提出的概念,是指通过可解引用的URI(DereferenceableURI)地址在Web上展示、共享、连接数据的一种方式。关联数据的两个基本宗旨是:采用RDF数据模型在Web上发布结构化数据,采用RDF链接连接来自不同数据源的数据。关联数据必须遵循以下四个基本原则:使用URI标识符命名任何事物。URI标识符必须是HTTPURI地址,任何人都可以访问这些名称标识。访问某个标识名称时,采用RDF、SPARQL等标准提供有用的信息。
包含指向其他URI地址的链接,使人们可以发现更多的相关事物。5.1关联数据简介关联数据自提出以来受到了计算机和信息领域的极大关注,许多个人和组织机构采用关联数据作为发布结构化数据的一种途径,从而构成了一个称为“关联开放数据(LinkedOpenData,LOD)云”的全球开放数据空间。截至2021年5月,构成LOD云的数据集已经达到1301个,如图8-14所示。整个关联数据云以DBPedia(Wikipedia的RDF的版)为核心,囊括了地理、政府、媒体、生命科学、图书馆、用户生成内容等领域的数据以及部分跨领域数据。图8-14关联开放数据(LOD)云5.2关联数据中资源的命名及访问机制在关联数据中,所有实体对象或抽象概念(如文献资源、个人、组织机构、地点、事件、术语等)都必须采用唯一的HTTPURI标识符进行命名,但是它们的URI地址不能被HTTP直接解引用。它们在Web架构中被称为非信息资源,以区别于传统文档Web中URI地址能够被HTTP直接解引用的信息资源(如网页、图片或其他数字媒体格式等)。对于非信息资源,Web架构提供了两种方式来解决其在Web上的访问问题:HashURI和303URI。对于一个非信息资源,303URI方式需要命名三个相关的URI地址:
①资源本身的URI地址;②资源元数据的RDF/XML表示;③资源元数据的HTML表示。但是,采用303重定向访问的一个主要缺点是需要两次HTTP请求才能获取一个非信息资源的描述,因此会造成访问延迟。5.3关联数据发布方法目前,关联数据的发布主要有以下5种方式。①以静态RDF/XML文件发布关联数据:利用Web服务器(如ApacheHTTP服务器)的URL重写功能和HTTP内容协商机制将非信息资源(实体对象或抽象概念)的URL地址重定向到描述它的信息资源(如HTML或RDF/XML文档)的URI地址,HTML或RDF/XML文档采用离线的方式预先手工或自动创建。这种方式通常用于发布小型的RDF词表,但是对于大数据量并不适用,因为需要预先生成大量的HTML或RDF/XML文档。②采用服务器端脚本发布关联数据:通过服务器端脚本(如PHP)基于后台的关系型数据动态地生成HTML或RDF/XML文档(需通过ARC类库),或者通过SPARQL终端直接从RDF存储器中获取RDF数据,然后利用服务器端脚本或者脚本与Apache服务器的URL重写功能相结合实现非信息资源URL地址到相应的信息资源表示(HTML或RDF/XML文档)的重定向。③以RDFa格式发布关联数据:采用RDFa格式将RDF三元组内嵌在XHTML网页中,然后利用Web服务器的重定向功能将非信息资源的URL地址重定向到描述它的XHTML网页(针对HTML浏览器),或者重定向到从XHTML网页中提取出的RDF/XML文档(针对RDF浏览器)。5.3关联数据发布方法④从RDF存储器发布关联数据:用RDF三元组存储器(如Jena、Sesame、AllegroGraph等)直接存储RDF数据,这些存储器通常带有一个SPARQL终端(如Jena的Fuseki),能够支持基于Web的SPARQL查询和结果显示,但是无法在浏览器中访问非信息资源的URI地址。此时可在RDF存储器的SPARQL终端的前端放置一个关联数据界面(如Pubby),将不可解引用的URI地址转换为能够被HTTP解引用的,实现关联数据显示。⑤从关系型数据库发布关联数据:利用现成的工具将存储在关系型数据库中的关系型数据直接发布为关联数据。最广泛使用的工具是D2R服务器(将关系型数据库发布在语义网上的工具)能够帮助用户在关系型数据库结构和RDF术语间建立映射,对关系型数据生成一个关联数据视图,支持RDF浏览器对关系型数据的关联数据化显示和SPARQL终端对关系型数据的查询。类似的工具包括小型的开源工具Triplify和商业软件OpenLinkVirtuoso。⑥通过包装已有的应用或WebAPI发布关联数据:通过构建关联数据包装器将目前已有的多个应用或WebAPI包装到一个语义网访问界面中,使得原本需要用户通过不同的应用或API访问的数据能够通过这个统一的界面以关联数据的形式进行访问。包装器的作用是将用户对URI地址的请求转换成对各应用或API的查询,然后将各自返回的查询结果进行集成并转换成RDF格式发送给用户。5.4关联数据的访问对关联数据的访问有两种途径:一种是浏览方式,另一种是查询方式。浏览方式是在Web浏览器中直接输入某个实体或概念的URI标识符浏览其RDF元数据信息,还可沿着其中的RDF链接继续访问其他相关资源,如同在传统文档Web中沿着超链接访问其他网页,但不同的是:在关联数据中显示的是结构化的RDF数据而非HTML文档。这种访问方式适合对关联数据进行网络状发散式浏览,实现在不同数据集间的无缝跳转,但不适于查询特定的内容。下面以图书《数字图书馆的知识组织系统:从理论到实践》的RDF书目元数据为例,说明关联数据的浏览过程。采用RDF/XML格式的该书的书目数据如下。5.4关联数据的访问①在Web浏览器中输入该图书的URI标识符<http://hostname/webapp/book/004106310>,浏览器显示RDF格式表示的图书的书目元数据,如图8-15所示。图8-15图书的RDF元数据描述浏览方式5.4关联数据的访问②点击该图书的作者(dcterms:creator)标识符<http://hostname/webapp/person/WangJun>,链接到作者的RDF元数据,如图8-16所示。图8-16作者的RDF元数据描述浏览方式5.4关联数据的访问③点击图书主题(dcterms:subject)“数字图书馆”的URI标识符<http://hostname/webapp/CT/concept/DigitalLibrary>,链接到《汉语主题词表》对“数字图书馆”概念的RDF描述,如图8-17所示。图8-17《汉语主题词表》对“数字图书馆”概念的RDF描述浏览方式5.4关联数据的访问④点击“数字图书馆”的上位概念(skos:broader)“/vocab/CCT_CT_v2.0/Library”,链接到《汉语主题词表》对“图书馆”概念的RDF描述,如图8-18所示。图8-18《汉语主题词表》对“图书馆”概念的RDF描述浏览方式5.4关联数据的访问查询方式是通过SPARQL查询检索关联数据中的特定内容。其检索结果界面与通常的文献书目数据库(如中国知网、OPAC系统)类似,不同的是:返回的检索结果均是可以点击访问的,用户可以沿着RDF链接继续访问其他相关资源,如文献→出版地、文献→主题→相关概念。这种访问方式既适合对特定文献资源进行检索,又能够基于检索结果进行发散式浏览,是一种比较理想的图书馆关联数据访问方式。但普通用户构建SPARQL查询的难度比较大,系统应提供表单式查询模板供用户输入查询信息并自动生成SPARQL查询。下面以从关联数据化的书目数据集中查询主题为“信息检索”的图书为例,显示关联数据的查询过程。5.4关联数据的访问①在查询界面中输入SPARQL查询,查询主题(dcterms:subject)为“信息检索(InformationRetrieval)”的图书。查询方式5.4关联数据的访问②检索结果显示所有符合该查询条件的图书URI标识符和题名(如图8-19所示),这些标识符已经被自动映射成HTTP可解引用的关联数据的URI地址。查询方式图8-19书目关联数据检索结果显示5.4关联数据的访问③点击其中《网络信息资源检索与利用》图书的链接,则以关联数据形式显示该图书的RDF书目元数据,如图8-20所示。④点击该书的出版地(core:placePublished)“南京”,跳转到geoNames数据库中的相应页面,该数据库已经全部发布为关联数据,点击可显示具体的RDF数据,如图8-21所示。查询方式图8-20一条检索记录的详细RDF书目元数据图8-21关联的geoNames数据库中有关“南京”的RDF描述5.5关联数据应用实例近年,语义网技术在图书馆学领域得到了全面而广泛的应用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 含子女抚养的离婚协议书模板
- 企业运营管理咨询协议样本
- 2024工程挖掘机租赁合同标准范文
- 新住宅按揭贷款合同样本
- 2024录制合同模板
- 2024广告刊登协议范本
- 动物医院聘用合同2024年
- 省级代理合作协议书的注意事项
- 我国自学考试网上辅导协议书样本大全
- 2023年高考地理第一次模拟考试卷-(河北A卷)(全解全析)
- 空调安装施工方案及空调安装现场管理办法
- 甘肃省黄金矿产资源概况
- 诊所消防安全应急方案
- 译林版一年级上册英语全册课件
- 中小学德育工作指南考核试题及答案
- 净现值NPV分析和总结
- 国网基建各专业考试题库大全-质量专业-中(多选题汇总)
- LTC流程介绍完整版
- 饲料加工系统粉尘防爆安全规程
- 一年级上册美术课件-第11课-花儿寄深情-▏人教新课标
- 植物的象征意义
评论
0/150
提交评论