语义出版应用与研究进展.docx_第1页
语义出版应用与研究进展.docx_第2页
语义出版应用与研究进展.docx_第3页
语义出版应用与研究进展.docx_第4页
语义出版应用与研究进展.docx_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语义出版应用与研究进展 摘 要 对目前语义出版相关的标准与规范、出版物关联数据集现状、语义出版流程与技术需求,以及语义出版的应用场景等进展情况进行全面梳理,说明语义出版物相对于传统出版物具有的优势,也指出目前语义出版面临的诸多问题及挑战,如数据集利用率低、缺乏成熟的语义出版流程和平台、自动化程度和用户体验仍有待提升等。因此,需要有针对性地解决语义网和出版等领域各自现有的问题,才能更好地促进语义出版发展。 关键词 语义出版 数字出版 关联数据 研究进展 中图分类号 G237 文献标识码 A 文章编号 1009-5853 (2016) 03-0033-07 Applications and Research Progress in Semantic Publishing Xu Lei (School of Information Management, Wuhan University, Wuhan, 430072) Abstract In this paper, standards and norms relevanted to semantic publishing, situation of linked dataset of publications, semantic publishing process and its technical requirements are discussed comprehensively, also including semantic publishing application scenario at presblications comparing with traditional ontic publishing field, such as low usage of publication dataset, lack of mature semantic publishing process and platform, and low degree of automation, and user experience is yet to be promoted, and so on. Therefore, we need to solve specific problems in the areas of semantic web and publishing respectively to promote the development of semantic publishing betg Linked data Research progress 1 引 言 语义出版(Semantic Publishing)是借助信息技术对传统数字出版物进行语义标注、语义关联等富语义化操作并形成语义出版物的一系列过程。相对于传统出版物,语义出版物的互联与交互性更强,具有精确查询、阅读便利等诸多优势,近年来已引起学术界和产业界的关注。语义出版的概念最早由肖顿(Shotton)在2009年正式提出,他认为语义出版是指那些增强已出版的期刊文献的内涵意义的过程,以便利科学文献的自动发现、使文献之间产生语义关联、提供对文献内部数据的动态访问接口,同时也便利文献之间的数据集成。目前学术出版是语义出版技术应用最广泛的领域之一,肖顿最初也将语义出版的定义定位在学术出版领域,不过从目前的发展形势来看,语义出版已经引起诸多领域越来越多的重视。语义出版相关的技术(简称语义出版技术)相对于传统的数字出版技术而言,具有更强的资源组织能力,能够对出版物资源进行更细粒度的标注与结构化,同时将与出版物有关的事物,如出版社、作者、相关出版物、内容中提及的实体信息等与该出版物互联,极大地减轻读者阅读过程中对外部信息获取的负担,带给读者更强的阅读交互体验。从长远来看,语义出版技术的应用也减轻了编辑人员、出版机构、读者、作者之间在各个出版流程中对出版物元数据的交互需求。本文主要从语义出版的相关标准与规范、出版物关联数据集的利用、语义出版流程及参与者角色定位、语义出版的应用现状等几个方面对语义出版目前的发展状况进行梳理,总结存在的问题,并提出解决对策及发展方向。 2 语义出版相关标准与规范 语义出版物的制作过程,需要对数字资源内容进行不同程度的标注、分割、重组、关联等结构化操作,为了便于不同出版物之间的语义互操作,一般需要相应的标准或元数据等来规范语义出版物的制作过程。由于语义出版技术主要来自互联网与语义网领域,有大量的标准、元数据、词汇、语言框架可利用,如XML、RDF、OWL等表达语言,这些语言作为顶层框架有助于资源共享与互操作的规范化。如RDF是W3C制定的专门用于资源描述的标准语言,也是目前关联数据(linked data)采用的主要格式之一,在数字出版及其他众多领域中被广泛使用。其他在数字出版领域应用比较多的语言,还有如Sch等微语义表达方式,它们大都通过在网页等文档中嵌入结构化标签的方式在一定程度上实现文档的语义和语义化。 语义出版作在为数字出版的一个子集,在广义上,数字出版标准和语义出版标准的区别有时并不明显,一般认为凡是涉及出版物结构化与关联操作,以及更深层次的实体标注等相关词汇集合都是语义出版标准及规范的范畴。W3C早在2013年6月25日就启动了数字出版计划,支持面向数字出版产业的Web平台,在开放Web平台的开发者和出版产业之间搭建桥梁。目前,(X)HTML、CSS、SVG、SMIL、MathML等语言及其他各种Web APIs等已经广泛服务于电子书读者、电子书的阅读设备、电子期刊与在线教育资源。 另外,数字出版兴趣组(Digital Publishing Interest Group)作为W3C面向数字出版生态系统专家的论坛,是数字出版相关标准的主要制定者。2014年12月4日,该兴趣组发布了数字出版注释用例(Digital Publishing Annotation Use Cases)的工作组备忘,简称Web注释,希望在不同的Web信息片段之间建立联系。现在,用户可以通过各种Web站点内置的工具、外部的Web服务,或特定Web注释客户端的特定功能来对在线资源进行评价互动。当读者阅读电子图书时,可以通过这些工具和服务来增加批注,分享阅读体会,或在一段文字上圈点来标出重点。同样,在线图片、视频、音频、地图、社会媒体等各种不同应用形式都可以使用该注释。 另一个语义出版相关规范的制定工作是2015年7月由W3C发布的WAI-ARIA模块首个公开工作草案。该规范扩展了无障碍Web应用技术并针对数字出版定义了一个角色、状态及属性的本体(Ontology)。通过提供不包含在基础语言(如HTML)中的语义,该规范使得自动化处理与无障碍访问支持变得更为容易。该标准草案和Web注释是W3C近期制定的语义出版的技术规范,其处理技术已经深入文档中的知识片段、知识点之间的关联,甚至已经用到本体这一核心的语义技术,可见W3C对语义出版的支持力度之大。 除了上述介绍的一些语义出版的规范外,表1给出了其他被广泛使用的语义出版技术相关的领域词汇、元数据和本体,并简要说明其内容及局限。 SPAR全称是Semantic Publishing and Referencing,一个出版领域的本体,几乎包含了出版过程的所有方面,如文档描述、书目数据标识、文献引用类型及统计(CiTO/C4O)、书目参考(BiRO)、文档区块及状态(DoCO/PSO)、作者角色及贡献(PRO)、文献发布工作流(PWO)等。该本体的构建过程参考了其他已有本体,如FRBR、DC、SKOS等,并以本体模块的形式集成,目前提供OWL 2 DL语言实现。 3 出版物关联数据集 在语义网领域有大量的语义数据集合,称为关联数据,有时也称为关联数据云图,这些数据集合一般采用RDF或OWL的语言表示,并通过一定的规则在网络上发布以供用户研究和使用。关联数据将所有的资源对象,包括术语、概念等抽象事物,都进行统一编码,以保证资源的可定位性,同时将资源进行广泛互联,使得资源的获取与发现更为便利精确。关联数据云图中,有大量各个领域的数据集,目前国际上已公布的关联数据约860亿三元组,并仍在快速增长。关联数据云图涵盖领域主要包括生命科学、出版物、社会网络、地理数据、政府数据、媒体数据、语言、用户产生数据(UGC)以及跨领域等,其中出版物在整个关联数据云图中也占有很大比例。 3.1 出版物关联数据概况 关联数据云图中的出版物数据集主要来自图书馆的书目数据、期刊文献的题录数据、档案馆的资料数据等。其中一部分由数据提供者提供以及来自Billion Triple Challenge 2012 dataset数据集,还有一部分则源于由上一部分数据作为种子在网络上抓取的关联数据集。以2014年8月30日的关联数据集为例,整个云图中共有约1000个数据集,其中出版物数据集占整个数据集总数的10%左右,是排在政府数据集之后第二大关联数据集合。由于出版物关联数据比较多,本文选取几个有代表性的数据集予以介绍,如表2所示。 3.2 出版物关联数据集分析 仍以2014年8月30日的关联数据集为例,本文从数据集的词汇使用、数据的内容与关联、数据描述、数据获取、数据的来源信息等几个角度对出版物关联数据集合作了简单分析,以了解该数据集目前的状况。 在数据集的词汇使用方面,整个出版物数据集中,使用最多的三个谓词是owl:sameAs、dct:language、rdfs:seeAlso ,其中dct:language是该领域比较特有的谓词词汇,全球不同国家的出版物所使用的语言是有差异的,dct:language在出版物数据集中比较常见,用于标注出版物内容所使用的语言。owl:sameAs、rdfs:seeAlso谓词在数据集中主要用来关联不同的数据集合。在使用术语词汇方面,除了rdf, rdfs和owl等在所有数据集中较为常见外,出版物数据集中较常见的术语有dcterm(http:/ptp:/p其中,dcterm 是Dubolin Core元数据词汇,foaf是一个关于人、网络信息之间关系的语言词汇,bibo是一个书目数据本体词汇,这也正符合出版物数据的领域特点。 从关联数据集的内容与关联程度看,对出版物领域而言,数据集的内容主要是关于出版物的基本信息,内容包括图书的书名、作者、出版社、ISBN、价格、期刊刊号、期刊名、编委、发行机构、论文的作者、题目、摘要、关键词、发表时间、发表期刊等。数据集的关联信息很少有深入到出版物的内容层面或词汇层面。由于这些关联数据集一部分是由传统的出版物元数据、数据库等转换而来的,导致这些关联数据中有效实体链接并不多,实际的关联程度并不高。虽然在整个数据集中,出版物数据集的个数较多,但其包含的三元组个数却不是最多的。这意味着出版物数据集的平均三元组包含量比较少。 从数据集的描述上看,由于关联数据很多,为了便于用户获取,关联数据一般要求在提交数据时提供关于数据集的概要描述,如数据集的提交时间、作者、三元组数量、数据样本以及数据访问或获取方式等,用户通过该描述可以获知该数据集的基本信息,进而决定是否需要使用以及如何获取这些数据。W3C还推荐使用VoID标准来对关联数据集进行规范描述。出版物数据集在数据描述上整体表现较好,基本对所有数据都进行了简要描述,但提供标准的VoID的描述方式较少。 从数据获取的角度看,这些关联数据集合可通过直接下载的方式获取,或者通过一种类似于SQL的SPARQL查询服务来按需获取,这也是语义技术的标准实现。通过实际测试发现,提供SPARQL查询服务的数据集并不多,或者这些查询服务并不可用,这是整个关联数据云图中都存在的问题。 从数据的来源与许可信息看,在关联数据中有相应的数据来源(Provenance)和使用许可(Licensing)信息。从目前整个关联数据的情况来看,这些信息在数据集中的使用较少,数据提供者并不重视数据的来源和许可,虽然目前关联数据都向用户开放查询和下载,但对用户而言,他们不知道这些数据是由哪个人或哪个机构提供,进而不能确认这些数据集的质量,同时由于不含有许可信息,对于数据的使用是否会侵犯知识产权也无从可知。 4 语义出版流程 传统出版过程是由选题、组稿、编辑、校对、装帧设计、出版发行等一系列环节组成的完整流程。语义出版属于数字出版的范畴,数字出版过程颠覆了传统的单一介质的线性出版流程,它以内容管理为核心,形成以内容为核心的业务管理模式。由于数字出版当前正处于探索发展的高峰期,还没有一套业界比较认可和成熟的数字出版流程体系,但一个总的原则是该流程体系要围绕数字内容的策划、创作、结构化处理、发布、营销进行。图1是数字出版中的语义出版流程示意图。 在数字资源的收集加工阶段,除了传统的各种文档、图片、视频、电子书等素材收集、数字化、格式转换、分类与结构化处理操作外,语义出版过程还需要采用语义技术标准对数字资源进行组织、语义描述,甚至直接利用语义知识库。比如构建、收集本体数据,并对数字资源进行粗略标注,如果没有相应的标注词汇集合,可能还会涉及数字资源的碎片化、结构化操作,以有效进行资源片段、知识元的重组。 在数字内容制作阶段,一般采用协同编辑、自动排版技术或平台,同时语义出版过程需要专业编辑参与资源的语义化加工过程,当然也需要界面设计与排版等技术人员的参与。由于语义出版物的语义化过程也是一种创作过程,同样需要进行内容审核,以检查语义内容是否正确或处理得当。内容的语义加工包括语义标注、语义关联等诸多细节,标注的内容可以是出版物元数据、内容标签、关键词、实体信息等。这一过程需要解决标注词汇的歧义、标注深度等实际问题。 语义出版物的最终形式可以是电子书、网页、App等形式,因此可以使用目前数字出版的一套网络营销方案,如出版物网络购买、阅读权限设置、提供用户交互功能等。另外,在目前的语义出版应用中,将数字出版物进行自动语义处理也比较常见,如在一些浏览器上安装自动化插件,当浏览出版物内容时,插件将自动对内容进行语义化处理等操作,或者在浏览平台上提供可语义操作的功能选项,由用户决定是否对浏览的内容进行语义化处理。该类型的语义出版物的形成是在数字出版物制作完成以及发布后自动进行的,它并不需要编辑人员在出版物制作过程中进行语义操作,由于其主要依赖于实体识别与关联等语义技术的自动化程度,因此自动化语义处理的结果可能存在错误。 语义出版最明显的特征是数字内容得到更深入的加工与制作,包括数字资源的语义化预处理、数字内容的语义加工和审核。编辑人员的作用得到加强,除了传统的编辑审校、数字出版平台的操作使用外,语义出版中编辑人员还增加了更多具有 “创造性”的工作,比如数字内容的语义标注、抽取领域词汇、建立内容中实体之间的关联等。该过程需要编辑人员具备更专业的领域知识。对数字内容进行结构化处理,尤其是细粒度的处理,如词汇级别,对领域知识的需求将更为迫切,也导致编辑流程变得更为细化,需要根据领域进行编辑人员的细分。同时,由于编辑人员工作量的增加,语义处理流程有必要进行平台化集成设计以减轻编辑人员的工作负担。另一方面,借助互联网越来越便利的交互能力,读者也可以参与语义出版物的创作过程,借助数字阅读平台,读者可以对数字资源进行个性化操作,如让用户在阅读过程中给出版物添加语义标注信息,并交给后台审核,从而形成越来越丰富的数字产品,这是当前流行的采用众包方式进行语义出版物制作的过程。这种创作方式也将极大减少编辑人员的工作量。 5 语义出版的应用场景 语义出版技术给用户带来的阅读体验的提升是巨大的,由于出版物经过丰富的语义标注与关联,用户在阅读过程中,可以无障碍地理解资源内容进行非线性阅读。特别是在学术出版领域中,对于专业性特别强的文献,通过提供丰富的语义信息,读者能够快速理解文献背景知识等相关信息。同时,语义出版物将关于一个主题的详尽信息进行交叉引用,就可以使用逻辑规则进行知识推断。例如,读者可以询问“平凡的世界的作者是哪一年出生的?”“信息简史中提到的鼓是哪个国家的?”“列举某抗生素有副作用的所有文献”等问题。 在学术界,欧洲语义网大会(Extended Semantic Web Conference,ESWC)从2011年开始组织语义出版物(Semantic Publication)研讨会,国际语义网大会(International Semantic Web Conference,ISWC)同年举办了首届关联科学(Linked Science)研讨会,这两个研讨会是语义出版中重要的前沿会议。由于语义技术的逐渐普及,语义出版也逐渐得到众多学者关注,目前已经涌现许多关于语义出版的典型应用。 语义出版技术在学术出版领域中的应用最广,它极大促进了学术研究的开展,且容易和新的商业模式进行打包组装,使资源更容易被发现。如使用关联数据技术发布OA期刊及相应的科学数据9-10,将学术会议信息发布为关联数据,使用语义出版技术进行科学文献的自动推送,对科学文献进行语义标注,提取文献中的引言、背景、假设、模型、分析方法与结果等13-15;还有通过DBPedia、DBLP关联数据集合获取待查询作者的真实URI,并通过一个关于作者的“概念集成框架”映射作者的简介、学术、贡献等信息,以便于找到学术交流与合作的对象;以及为科研人员建立语义Wiki,便于科员人员之间的交流;使用语义出版技术建立科研工作流、分析文献之间引用的目的 等。同时为了使科学文献的语义处理规范化,也出现了各种标注模型与规范,如纳米出版物、模块内容对象等。学术出版领域的语义出版平台也很多,表3中列举了其中一些。 除了学术领域,语义出版还在教育和多媒体出版中广泛使用,如使用语义技术对电子书进行语义标注,以辅助师生在教学过程中快速灵活地学习。BBC的音乐平台使用Musicbrainz元数据来丰富音乐家的简历信息,用于提升用户的视听体验,以及使用语义出版技术加速体育赛事的报道。还有使用RDF语言对电子书进行结构化组织,满足对电子书章节的删改、重组与查询需求等应用。 6 语义出版面临的困境及发展方向 语义出版物的出现,打破了传统纸质和电子出版物内容的静态性,促进了内容的流动,减少了内容数据之间的摩擦,使得读者获取知识的体验不再是传统的线性模式,也不是目前移动互联网所带来的碎片化模式,它是一种更为体系化的多元模式。这种模式下读者不再觉得阅读体验枯燥单调,也不再出现知识获取过程中的知识漂移。语义出版是数字出版中一个很有前景的发展方向,不过就目前的情形来看,语义出版领域仍面临一些严峻的问题,需要面对并加以解决。 首先,目前语义出版的数据集并没有被很好地利用起来。前文提到语义出版物数据集很多,但这些数据集存在关联深度浅、规范化描述少、查询服务端可用性差、来源和许可信息提供少、更新维护不及时等问题,导致这些数据集使用率并不高也没有发挥应有的价值。出版物数据集的质量保证是语义出版的基石,未来对出版物关联数据集有待深入利用和挖掘,在扩展这些数据集时,除了自动抽取互联网上的数据外,也需要逐步加大对专有数据集的转换与开放,以及对现有数据集的持续维护,以保证出版物数据集的质量,提高数据集的使用频率。目前在学术出版领域逐渐普及的CrossRef、DOI等规则就是很好的做法,它让所有的资源都可定位标识,使得关联数据的集成准确性提升,减少由于数据转换与迁移造成的资源链接的准确性差、更新难度较高的问题。 其次,目前语义出版过程中自动化程度很低。语义出版物的制作属于资源的深度加工,它带给编辑人员的工作量是巨大的,亟需要一套自动或半自动的语义出版物设计平台来缓解编辑环节的压力,甚至革新出版物的生产模式,如采用众包的方式。如果不将这个问题解决好,它将严重制约语义出版的发展。需要在未来投入更多的精力,包括海量语义数据的集成与更新、存储与检索、以及本体构建与推理技术、实体抽取、关联发现、语义消歧、自动标注等文本挖掘与处理技术,还有内容资源加工、结构化、多媒体资源处理、数字版权保护等数字出版技术。出版领域在引入或使用这些技术时,要根据实际的需求及资源特征有选择有改造性地使用这些技术。 最后,语义出版物的最终表现形式或用户体验仍有待加强。目前语义出版在学术研究领域内发展迅猛,但整个出版行业要推进语义出版的发展,需要大众都能够体验语义出版带来的好处。目前语义出版产品或平台除了专业性太强外,一般作为网络应用的辅助功能,用户体验的提升并不明显,语义出版物仍需要设计满足用户需求的展示平台。语义出版物更重视资源的互联,在语义网环境下,如何制作优质的语义出版物,提升用户体验,需要综合考虑多方面要素。比如在出版物设计过程中,全面考虑出版物作者的权威性、内容资源的质量及其在社交网络中被分享、转发、点赞的情况等,从而给用户带来全新的阅读体验。 当然,语义出版目前仍处于探索阶段,除了上述几个亟待解决的问题外,诸如语义出版物的发布机制、关联标准、来源、隐私和信任信息等方面也是语义出版在发展过程中需要面对的。另外,语义出版放在数字出版大环境下,数字出版面临的版权保护、数据安全、商业模式、行业标准等现状也是语义出版需要面临的。同时,我们也看到,中国在语义出版标准的制定、出版物关联数据集的贡献、语义平台的设计上已经严重落后于其他国家,这是我们未来需要努力的方向。 注 释 Shotton D. Semantic publishing: the coming revolution in scientific journal publishingrmats: What They Are and How To Use Them EB/croformats-what-they-are-and-how-to-use-them/ W3C DIGITAL PUBLISHING ACTIVITY EB/BLISHING ANNOTATION USE CASES NOTE PUBLISHED EB/ FIRST PUBLIC WORKING DRAFT: DIGITAL PUBLISHING WAI-ARIA MODULE EB/ LinkingOpenData EB/ommunityProjects/LinkingOpenData LODStatsEB/inked Datasets with the VoID Vocabulary EB/- Hallo M, Lujan-Mora S, Chavez C. AN APPROACH TO PUBLISHING SCIENTIFIC DATA OF OPEN-ACCESS JOURNALS USING LINKED DATA TECHNOLOGIES A, Borst T, Tochtermann K. Exposing Data From an Open Access Repository for Economics As Linked Datau A, Eckert K, et al. What is in the proceedings? Combining publishers and researchers perspectivesJ/OL .2015-10-12.http://Vol-1155#paper-01 Hajra A, Latif A, Tochtermann K. Retrieving and ranking scientific publications from linked open data repositoriesC/Proceedings of the 14th International Conference on Knowledge Technologies and Data-driven Businsis System of Scientific Publications Based on the Ontology Approach . , 2013 (8): 31-40 Garcia-Castro L J, Llavori R B, Rebholz-Schuhmann D, et al. Connections across Scientific Publications based on Semantic AnnotationsC/SePublor scholarly electronic publishingC/ SePublal. Discovery and Construction of Authors Profile from Linked Data (A case study for Open Digital Journal)C/Learchers with a Semantic Literature Management WikiC/ SePubllhajjame K, et al. Workflow-centric research objects: First class citizens in scholarly discourseC / SePubl. Towards the Automatic Identification of the Nature of CitationsC/SePubl et al. Exploring the Gen

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论