下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论图书馆构建语义网的技术与体系结构
1989年3月,该web由w3c负责人sim贝尔在巴西的欧洲粒子物理实验室开发。它经历了从web1.0到web2.0、web3.0甚至web4的发展过程。根据“2008年语义技术大会”的一份宣传资料,Web演变的趋势是:Web1.0是万维网,作用是连接信息,主要包括网页搜索引擎、网站、数据库、文件服务器等;Web2.0是社会网,作用是连接人,引入了博客、社区、RSS、维基、社会化书签、社会化网络等概念;Web3.0是语义网,作用是连接知识,由本体、语义查询、人工智能、智能代理、知识结点、语义知识管理等构成;至于Web4.0,则是未来无所不在的网,作用是连接情报,但具体内容目前还不太清楚。针对Web的发展,目前图书馆界对名为社会网的Web2.0论述较多,以致还产生了Lib2.0等概念,而对名为语义网的Web3.0的论述则相对较少,至于Lib3.0等概念几乎还没形成。根据“如果说从Web1.0到Web2.0是一种理念的转变,那么从Web2.0到Web3.0则是技术引领互联网”之观点,笔者试从国内外语义网技术体系结构的论述来看语义网今后可能对图书馆尤其是对数字图书馆的影响。1技术squeTechnology(技术)一词最早由希腊词techne(艺术、手工艺器)和logos(词、言语)组成,意味着“熟练”和“巧妙”。17世纪,technology一词开始出现在英文中,主要用来指艺术的应用。20世纪之后,technology一词不仅作为方法和工艺等的指称,也作为程序、思想、工具和装备的指称。美国学者哈维·布鲁克斯对technology所作的表述是:“技术就是运用科学知识以可复制的方式来解决问题。”可见,可复制性是technology的一大重要特征。我国《辞海》则从最本质意义上解释了“技术”一词的内涵:一是泛指根据生产实践经验和自然科学原理而形成的各种工艺操作方法与技能;二是指除操作技能外,包括相应的生产工具和其他物质设备,以及生产的工艺过程或作业程序和方法。由此可见,技术一词既包括生产工具及其他物质装备等“硬”技术,也包括根据生产实践经验和自然科学原理而形成的各种工艺流程、加工方法、制度要求、劳动技能及诀窍等“软”技术;技术不但包含操作方法、技能、工具、设备、程序等要素,而且具有针对需要解决的具体问题而对上述要素统筹谋划的含义。Architecture(体系结构)在希腊语里意指“主要建造者”或“主制作者”。这个术语用来描述这么一种人,他能根据客户的需求来设计和建造形式和功能都很独特而实用的结构。设计师的作用除了为满足客户的需求而建立一种概念化的、独一无二的设计结构外,还有引导客户使其改变需求和设想的特殊责任。在韦伯词典中,体系结构的定义是“作为一种意识过程结果的形态或框架;一种统一或有条理的形式或结构;建筑的艺术或科学”。因而,体系结构的建立通常会建立一个共有的远景,并考虑外部约束、客户需求、内部约束、技术约束等,通过有条理的逻辑推理来最终实现该结构。此外,也有机构将体系结构定义为“一种方法”、“一种视图”、“一种技术组合”或“一种规划蓝图”。而ANSI/IEEE1471-2000则将体系结构定义为:“一个系统的基础组织,集合它的组件,这些组织内部、组件内部和组织与组件间的关系和环境,以及管理设计和改造的原则。”概言之,体系结构即为结构、模块、组件、标准以及它们之间的关联和组织原则,或体系结构提供了一种将大型信息系统结构化描述的术语,能够有机地将应用、业务和战略进行整合,一般通过视图(View)或模型(Model)来实现。2语义网技术体系结构为了实现Web信息服务的自动化与智能化目标,语义网的研究者们开发了许多新技术并提出了一系列的技术标准。一直致力于语义网技术研究并一直关注着语义网技术发展的TimBerners-Lee,于2000年在综合了语义网最新研究成果的基础上,提出了以下一个由分层结构组成、功能逐层递增的7层模型(见图1)。总体来说,在这个技术结构体系中,Unicode和URI是语义网对象编码和标识的基本手段,XML、名称空间和XMLSchema是语义网上语法互操作的标准,RDF和RDFSchema用来描述和定义语义网上的资源,本体用来提供一个描述公理的框架,逻辑层为证明和信任提供逻辑基础,证明层执行规则并做出相应的评估,信任层为应用程序是否信任一个给定的证明提供检测机制,而数字签名则用来检测文档的改动情况,是增强Web安全的手段。上述TimBerners-Lee的技术体系结构后来成为人们对语义网的共识。但是语义网的理论和技术是不断发展的,所以其技术体系结构也不能一成不变。如在W3C网站上,我们看到的语义网技术体系结构图就呈以下形式(见图2)。与前TimBerners-Lee提出的语义网技术体系结构相比,该语义网技术体系结构明显具有以下4个特点:(1)在Unicode和URI层增加了用于补充URI的IRI(InternationalizedResourceIdentifier,国际资源标识符)。目前,IRI标准还处于提议阶段,但由于其国际化目标以及它能支持人们用自己的语言来定义网络资源,所以无疑将会替代URI而成为语义网未来的标识符标准。(2)将XML、名称空间和XMLSchema层中的XMLSchema提出,并与XML查询语言(Query)一同构成能够表达不同领域元数据的第3层。(3)在本体层上增设了一个规则/查询(Rules/Query)层,因为语义网使用标准的网络本体语言来描述信息仅仅完成了本体最基本的性质描述,而更多的本体数据性质可能需要更强的本体描述能力———规则(Rule)来描述。此外,语义网还需要本体查询与管理语言(Query)来对本体数据进行询问和基本的推理处理。(4)为了确保信息安全,在信任层中增加了加密技术(Encryption)。其实,基于TimBerners-Lee的语义网技术体系结构,人们还可根据对其的不同理解而作不同的层次划分。比如BernardoCuencaGrau就将TimBerners-Lee语义网技术体系结构中的RDF提升到了本体层,并提出了另外一种简化而可行的语义网层次结构。而MichaelKifer等人则在分析TimBerners-Lee的7层结构图的基础上,提出了如下一个更为可行和稳定的层次结构,并详细解释了其各层之间的逻辑关系(见图3)。3语义网技术体系结构国内张晓林认为,为了开放描述和组织信息内容的各个层次及其相互关系,我们需要一系列相互支持的方法、技术和系统。图4就是张晓林借用上述语义网技术体系结构对这个体系的一种描述。与图1的语义网技术体系结构不同,图4共有9层内容组成。其中,图4由下往上的第1至第3层与图1的第1至第3层大同小异。图4由下往上的第4层是图1所没有的内容,该层内容表示利用XML/RDF/RDFS对各应用领域的实际元数据集进行规范描述,这些元数据集的描述对象可能是信息对象(描述结果此处用Metadata)或信息资源结合(描述结果此处称CollectionLevelDescription)。图4由下往上的第5层虽然与图1由下往上的第4层内容大致相同,但图4由下往上的第5层内容表示利用XML/RDF/RDFS对信息内容或信息资源体系的知识组织体系(例如叙词表、分类法)等进行规范描述,从而建立起网络知识组织体系(NKOS,NetworkedKnowledgeOrganizationSystems),以及对信息内容的语义关系网络及其推理规则进行规范描述,从而建立起计算机可理解的概念集(Ontologies)。图4由下往上的第6层是对图1由下往上的第5层内容的扩展,即图4由下往上的第6层内容表示利用XML/RDF/RDFS对信息服务和信息系统运行的管理控制机制及其推理分析规则进行规范描述。图4由下往上的第7和第8层是图1所没有的内容。其中,图4由下往上的第7层内容表示利用XML/RDF/RDFS对信息系统(或信息交流体系)架构进行规范描述,形成开放描述的信息架构(InformationArchitecture);而图4由下往上的第8层内容则表示利用XML/UML(UniversalModelingLanguage)对信息交流和信息服务过程进行规范描述。图4由下往上的第9层内容则将图1由下往上的第6和第7层内容合二为一,其内容表示以上的所有描述将通过基于XMLSignature的数字签名方式进行认证,而这些签名和认证又将依靠可靠的法律、经济和社会运作规则来形成可靠和有效的认证与信任机制。如前所述,语义网的技术体系结构人们可以根据对其的不同理解而作不同的层次划分。如果说以上语义网技术体系结构都过于庞杂的话,那么以下潘小进等人从语义网的标记语言角度来讨论的语义网层式结构则显得简单明了(见图5)。在这个层式结构中,(1)Unicode层将上层的数据转换成与平台无关的标准Unicode码流;(2)每个概念由URI定义,URI相当于一个名字空间,只要符合W3C的规范,任何人都能表达它们的概念,语义网的统一逻辑语言将这些概念连到Web上,指向同一个URI的概念必然是相同的,并且为整个Web所共享;(3)XML层提供对数据表示的通用语法支持,并且由于是建立在现有的XML标准之上,语义网与当前的Web技术可以实现很好的沟通;(4)利用XML的语法,RDF/RDFS定义了可扩展的面向对象的类型系统,提供了词汇的定义能力,允许开发者为领域模型定义特定的词汇表、属性以及词汇间的关系,能够描述Web资源的元数据;(5)本体是不同Web应用之间共享信息的知识基础,OIL是为描述本体而建立的形式化系统,通过扩展RDFSchema的建模原语,可有效地实现OIL,并与下层很好地兼容(DAML则是美国DARPA研制的语义网语言,包含了使Web内容更加被机器可理解的语言、技术和工具)。其次,在这个层式结构中,上层将下层的语言机制作为本层的支撑语言,通过分析器,从合法有效的下层描述中抽取出本层所能理解的模型,实现更多的语义处理功能。因此,语义网是向下兼容的。当用RDF(S)表达OIL时,当应用只有RDF分析器时,能够部分解释该本体内的类结构,只要忽略形如带oil:名字空间前缀的元素即可,但分析器能够完全解释该本体内的所有实例,因为这只是语法相关。由于Web上的海量信息不可能在短时间内全部建立语义标记,而且语义的标记方法也在不断发展,这种向下的部分可解释性为语义网的发展提供了良好的基础。4语义网中的元数据和本体技术比较以上这些不同的语义网技术体系结构可以看出,语义网的主要层级结构还是基于TimBerners-Lee提出的7层结构。而通过图5我们则可更清晰地看出,XML、RDF和本体是语义网7层体系结构中的最为关键的技术,因为像语义网体系结构中的Unicode和URI层这样的技术是毫无争议的,而对于逻辑层以上的技术研究目前还处于发展之中。这一点正与储荷婷等人的观点一致,即根据TimBerners-Lee,语义万维网包括元数据层、模式层和逻辑层3层结构。其中,元数据层提供共同的数据模型,目前W3C推荐的标准是RDF;模式层通过对类和类的层次结构的定义实现对信息的抽象和概念化,目前W3C推荐OWL作为万维网本体系统语言;逻辑层提供智能代理,依据本体系统进行推理。换言之,在语义万维网中,信息都用相关本体系统中定义的词汇标注成RDF格式;智能代理则通过读取本体系统来“理解”被标注的信息,依据概念在本体系统中的定义进行推理,从而更好地完成有关任务。而马张华等人则认为,目前语义网的应用系统主要是使用已建立的本体或元数据,针对特定领域的网络资源数据进行语义标注;用户对语义网应用系统进行询问,系统结合本体推理对有关的询问作相应的处理,并把结果呈现给用户。由此可见,对图书馆尤其是对数字图书馆产生直接影响的是语义网中的元数据和本体技术。刘炜在今年《现代图书情报技术》第3期“元数据与语义技术和社会性应用”专辑中认为:随着Web2.0和语义万维网(有人称之为Web3.0)的发展,网络资源的细粒度化、语义化和更广泛的开放链接呈现出加速发展的趋势……作为数字资源揭示和利用的一项重要技术,元数据正向实现机器自动处理的方向发展:语义的自动提取、映射的自动生成、内容的自动发现、服务的自动协同等,成为计算机科学、网络信息组织和数字图书馆的研发热点。在上述专辑中,刘炜举荐翻译的《将图书馆目录纳入语义万维网》(内容涉及题名、人名规范档,作者是瑞典国家图书馆的MartinMalmsten)和《LCSH,SKOS和关联数据》(内容属于主题规范档,作者为美国国会图书馆的EdSummers等人)特别值得一读。因为这两篇论文展示了将传统规范书目数据进行格式转换,并利用关联数据(LinkedData)技术提供开放的元数据服务。由于采用了新的架构和格式对书目数据重新组织(例如转换成RDF格式,引入FRBR本体,以SKOS编码等),使书目系统能够提供种类繁多的新颖服务(如按照各种方式聚类,权威数据的参照引证等),使人们看到了数据开放和普遍链接的潜力,让古老的图书馆数据重新焕发出新的活力。至于本体,之前图书馆界对之也不陌生。因为从本质上讲,图书馆界在用的叙词表其实就是一部语义词典(概念的实例),在此基础上再利用有关分类法(概念以及概念间的关系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 邢台学院《插画》2022-2023学年第一学期期末试卷
- 信阳师范大学《操作系统》2023-2024学年第一学期期末试卷
- 意外伤害和应急处理
- 西华大学《素描人像》2021-2022学年第一学期期末试卷
- 西北大学《素描实验》2021-2022学年第一学期期末试卷
- 西华大学《健康管理法律法规》2020-2021学年第一学期期末试卷
- 毕业设计论文模板 基于GPU二维可分离卷积运算
- 比选文件施工组织设计
- 《傅里叶小波变换》课件
- 一带一路产业发展环境透析、市场全景评估及发展趋势预测报告(智研咨询)
- 年产万吨天然饮用水生产项目可行性研究报告
- YY/T 0793.4-2022血液透析和相关治疗用液体的制备和质量管理第4部分:血液透析和相关治疗用透析液质量
- YS/T 682-2008钌粉
- GB/T 5976-2006钢丝绳夹
- 江村经济解读
- GB 142-2013坑木
- 数量关系课讲义
- 物品借用、归还登记表
- 艺术设计专业的职业生涯规划
- 2023年西藏开发投资集团有限公司招聘笔试题库及答案解析
- 部编版五年级语文上-句子专项课件
评论
0/150
提交评论