科技文献多维语义索引的设计、实现及应用,文献检索论文_第1页
科技文献多维语义索引的设计、实现及应用,文献检索论文_第2页
科技文献多维语义索引的设计、实现及应用,文献检索论文_第3页
科技文献多维语义索引的设计、实现及应用,文献检索论文_第4页
科技文献多维语义索引的设计、实现及应用,文献检索论文_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

科技文献多维语义索引的设计、实现及应用,文献检索论文摘要:[目的/意义]文章从科技文献检索应用的背景出发,提出了当前检索系统没有能知足广大科研工作者的语义检索需求,为了解决这一问题,提出了多维语义索引的新思路。[方式方法/经过]首先在总结归纳国内外相关研究中主要的语义索引构建方式方法的基础上得出了要采用的构建方式方法,然后具体介绍了多维语义索引的设计思路和整体框架,最后以面向物理领域科技文献为例,介绍了其详细实现流程。[结果/结论]从怎样针对科技文献内部细粒度知识及其之间的关联关系揭示的角度验证了多维语义索引在语义检索实际应用中的良好效果。本文关键词语:科技文献检索;多维语义索引;细粒度;构建方式方法;本体;自然语言处理技术;Abstract:[Purpose/significance]Basedontheapplicationofscientificliteratureretrieval,wefoundthatcurrentscientificliteratureretrievalsystemcannotmeetthesemanticretrievalneedsofthemajorityofscientificresearchers.Inordertosolvethisproblem,weproposedanewideaformultidimensionalsemanticindexingofscientificliterature.[Method/process]Basedonpreviouslyprevalentmethodsofsemanticindexingconstruction,weproposedanewconstructionmethodandillustratedthedesignideaandtheoverallframeworkofthemultidimensionalsemanticindexingorientedtothescientificliterature.Finally,thespecificimplementationprocesswasintroducedwiththephysics-orientedscientificliteratureasanexample.[Result/conclusion]Thegoodeffectofmultidimensionalsemanticindexinginthepracticalapplicationofsemanticretrievalisverifiedfromtheperspectiveofhowtorevealfine-grainedknowledgewithinscientificliteratureandtheassociationrelationshipsbetweenthem.Keyword:scientificliteratureretrieval;multidimensionalsemanticindex;fine-grained;constructionmethod;ontology;naturallanguageprocessingtechnology;科技文献检索是广大科研工作者研究经过中不可或缺的一项工作,在电子文献资源高速增长的时代,传统的文献检索系统查询效果往往难以知足用户的语义检索需求。究其原因,这些检索系统一般以整篇文献为单位揭示文献的粗粒度知识,没有能对文献内部细粒度知识进行深切进入语义理解与揭示,这样导致其检索结果不尽如人意。因而怎样实现文献内部细粒度知识的语义检索成为学者们研究的重点问题,这个问题的解决能够使科研工作者快速把握其主要知识内容,对于揭示华而不实的科学知识具有重大意义。为此,本文尝试从揭示文献内部细粒度知识的角度出发,研究面向科技文献的多维语义索引的构建思路及实现经过,并将其应用到语义检索系统中。本文主要针对其设计思路、实现经过以及实际应用效果进行阐述。1、语义索引构建方式方法相关研究近年来,语义索引领域的相关研究得到国内外学者的广泛关注。语义索引的研究牵涉信息检索、人工智能、数据挖掘等诸多领域,相关的应用实践较为丰富,综合看来主要采用了3种实现方式方法:1〕基于词表和知识管理技术。词表和知识管理技术包括分类与词表管理、本体管理、知识图谱等。从资源组织的角度来看,基于词表和知识管理技术构建语义索引就是基于已有的词表、本体和知识图谱对文档进行语义描绘叙述,再对语义描绘叙述后的文档构建语义索引。GoPubMed[1]利用Gene本体和MeSH词表对PubMed文献进行语义标引,为标引出来的生物医学概念建立语义索引,在检索经过中,用户可通过阅读与检索词相关的生物医学概念来规范检索输入。Buscaldi等[2]介绍了一种通过本体标注文档中概念的语义检索系统YaSemIR,不同领域下的本体都适用这个系统。于晓巍结合本体和索引技术,设计出基于本体的文本标引系统,并提出了基于本体的途径索引和倒排索引结合的语义索引方式方法[3]。Google基于知识图谱〔KnowledgeGraph〕里描绘叙述的人、地点、物体间的互相关系构建语义索引[4]。SpringerNature基于科研图谱〔SciGraph〕里描绘叙述的科研赞助机构、科研项目、会议、科研单位和出版物的信息建立语义索引[5]。2〕基于隐语义索引。隐语义索引(LatentSemanticIndexing,LSI)又称为潜在语义索引,它是利用统计方式方法计算得到文档中词汇之间的上下文语义关系,并为其构建语义索引。Roger等考虑了词语对的关联性,并根据关联性强度快速地构建了一个潜在语义索引分析系统[6]。莫海波在支持向量机分类算法和改良的K-近邻算法的基础上,利用隐语义索引对文档进行分类[7]。3〕基于自然语言处理技术。自然语言处理技术〔NLP)包括命名实体辨别、关系抽取、文本分类等。从智能化处理角度来看,基于自然语言处理技术构建语义索引通常指对文档进行语义标注,然后再为语义标注后的文档构建语义索引。Yan等提出了一种利用卷积神经网络〔CNN〕学习语义表示来解决生物医学抽象索引的新模型,并设计了生物医学抽象文档语义索引的比拟实验,在MEDLINE数据集上的实验结果表示清楚,该模型比传统模型具有更好的性能[8]。Quertle[9]是一个关系驱动的生物医学文献检索工具,它首先使用自然语言处理技术从生物医学文献中抽取生物医学实体(如疾病、基因、药物)以及实体之间的一般或特殊关系,然后建立语义关系索引、本文关键词语索引和辅助索引三种索引,用于查找用户输入的检索词和提问,并返回检索结果。NCBI,NLM,NIH推出的LitVar是基于2700万PMC内容摘要和180万PMC全文进行语义标注,利用BiocXML格式处理了全部PubMed内容摘要和PMC全文,然后使用实体标记提取所有变异及其相关实体〔即基因、疾病、化学和物种〕等信息,最后为提取的实体及归一化关系构建语义索引[10]。伦敦大学/南京大学推出的SemEHR是基于自然语言处理技术标注电子健康档案〔EHR〕数据,然后针对这些数据开创建立SemEHR语义索引[11]。通过以上分析,国内外对构建语义索引方式方法的研究主要集中在基于本体和基于自然语言处理技术。这两者都有其缺乏之处:基于本体的方式方法无法充分揭示蕴含在特定领域科技文献内部的丰富语义信息;基于自然语言处理技术的方式方法成本比拟高,而且语义索引质量好坏取决于选用的自然语言处理技术。因而,本文决定结合这两者构建语义索引,详细思路是:通过自然语言处理技术对科技文献进行语义标注,挖掘出本体中没有描绘叙述的知识对象以及知识对象之间的知识关系,这对基于本体的方式方法是一个很好的补充。整个思路实际上是综合考虑了两者的优势互补,基于自然语言处理技术构建的语义索引能够补充基于本体构建的语义索引,补充后的基于本体构建的语义索引又能够更好地提升自然语言处理技术的性能,获得愈加丰富的文献内部语义信息,进而反过来更新基于自然语言处理技术构建的语义索引。这样,两者都得到不断的补充、更新,构成互利互助,进而构建更细粒度、更丰富的语义索引。2、面向科技文献的多维语义索引的设计科技文献里蕴含着丰富的语义知识,科技文献的知识组织能够根据下面四个维度进行组织:文献单维呈现无法揭示语义知识进而无法实现语义检索的缺乏,根据上述四个维度设计的多维语义索引,将科技文献内部丰富的语义知识以及知识之间丰富的关联关系等深层信息,利用多维语义索引重新组织,在检索结果中以多维分面的方式充分揭示出来。根据上述多维语义索引构建的科技文献检索系统详细的检索查询思路是:遵循用户使用流程,从检索本文关键词语出发,查询知识对象索引对输入本文关键词语进行语义辨别和语义消歧,确定文献中的知识对象及其所属的范畴和类型;然后查询文献索引得到包含元数据及相关知识内容的文献信息;接着查询句子索引确定知识对象所属的语步类型以及句子共现术语;最后查询知识关系索引,发现检索词和文中知识对象的组合搭配关系;这些索引之间并不是独立的关系,每查询一个索引就会得到一个特定的检索结果集,最终返回给用户一个检索结果交集。根据以上思路,本文设计的面向科技文献的多维语义索引整体框架如此图2所示。图2面向科技文献的多维语义索引架构图3、面向科技文献的多维语义索引的实现3.1、工具的选型以及本体的选择当下用于构建索引的工具主要有Solr和ElasticSearch两种,Solr和ElasticSearch各有优缺点。结合本文的实际应用场景分析,科技文献检索相对来讲时效性要求不是那么高,更偏向于传统搜索应用,另外Solr的分面搜索的优点更能知足本文设计多维语义索引的需求,因而选择利用Solr来构建多维语义索引。通过利用Solr的分面机制设计多维语义索引,能够充分开掘揭示科技文献内部的丰富语义知识,进而知足用户对语义检索的需求。在本体选择上,由于笔者需要构建物理领域科技文献语义检索系统,选取的是物理学本体ScienceWise。ScienceWise本体包含了物理学术语及其范畴〔分为4个一级范畴和47个二级范畴〕、16种语义关系〔分为通用语义关系和领域特定语义关系〕等。3.2、文献索引的构造文献索引构造的主要字段为paperId〔文章Id〕、title〔标题〕、author(作者〕、publishTime(发布时间〕、abstract〔内容摘要〕、objects〔包含的术语〕、methods〔方式方法〕、objectives〔目的〕、results〔结果〕、conclusions〔结论〕、background〔背景〕等。与传统文献索引的区别在于这里还包含了语步辨别内容,因而在检索结果展示界面能够进行传统内容摘要和构造化内容摘要的双重呈现,能够让用户迅速了解某篇文献的整体内容。3.3、句子索引的构造句子索引构造的主要字段为paperId〔文章Id〕、content〔句子内容〕、moveType〔句子所属语步类型〕、objects〔包含的术语〕、sentenceOrder〔在内容摘要中的顺序〕等。与传统的句子索引不同,这里的句子索引里包含了句子所属语步类型,通过语步类型能够在检索结果界面揭示有哪些方式方法里包含了检索本文关键词语,哪些结论里包含了检索本文关键词语等,进而让用户迅速了解研究主题的整体研究脉络。3.4、知识对象索引的构造知识对象索引的主要字段为paperId〔文章Id〕、objectName〔术语名称〕、isScienceWise〔能否是ScienceWise本体规范术语〕、topCategory〔在ScienceWise中所属的一级范畴〕、secondCategory〔在ScienceWise中所属的二级范畴〕、weight(知识对象权重〕等。这里术语与一般的科技文献检索系统里的主题词不同,它通过ScienceWise赋予了术语特定的语义信息,将这些术语划分到其细粒度的物理领域。另外,知识对象权重是指知识对象在科技文献中的所占比例,权重越高,这个知识对象就越能代表科技文献。传统的TF-IDF权重计算方式方法通过词频统计信息反映了知识对象对文档的表示出,但它没有考虑到知识对象的语义信息,而科技文献中的知识对象之间存在着特定的知识关系,知识对象存在于哪种语步类型,这些都是知识对象语义信息要考虑的方面,因而计算知识对象权重应该是在传统的TF-IDF权重计算方式方法的基础上综合考虑知识关系权重以及语步类型权重。它是对传统TF-IDF权重计算方式方法的改良,弥补了TF-IDF权重计算方式方法在语义方面的缺乏,而且在检索词与知识对象无关时,能够自动调整为传统的本文关键词语检索。根据传统的TF-IDF权重计算方式方法,知识对象在文档中的权重为:式中,p表示知识对象在文档中出现的次数;q表示文档的知识对象总数;N表示文档总数;表示包含该知识对象的文档数,当所有文档都不包含该知识对象时,分母为0,因而这里分母要加上1。在科技文献中,知识对象间搭配关系的不同,比方连接、组合、修饰,它们对知识对象语义信息的奉献大小也会不一样。本文用知识对象间的知识关系权重来表示不同类型的知识关系对知识对象语义信息的奉献比例,在[0,1]范围内赋值。本文选取10万篇来自arXiv数据库的物理领域科研论文作为初始数据集进行语义标注,通过对语义标注结果进行统计分析,华而不实,修饰关系共有236051组,连接关系共有169962组,组合关系共有195928组,三者比例约为1:0.7:0.8,因而本文采用的知识关系类型及分配权重如表1所示。表1知识关系类型及分配权重在文档中,知识对象有N个的知识关系,表示为,另外,的分配权重为,则知识对象的知识关系权重为。那么,知识对象在文档中的知识关系权重能够表示为:知识对象权重还要考虑语步类型权重,语步类型主要有目的、方式方法、结果、结论、背景这5种类型,每种语步类型对知识对象语义信息的奉献大小也不一样,同样,在[0,1]范围内赋值。同理,通过对语义标注结果进行统计分析,目的共有158692句,方式方法共有190964句,结果共有175898句,结论共有191195句,背景共有133837句,五者比例约为0.8:1:0.9:1:0.7,因而其语步类型及分配权重如表2所示。表2语步类型及分配权重在文档中,知识对象有N个的语步类型,表示为,另外,的分配权重为,则知识对象的语步类型权重为。那么,知识对象在文档中的语步类型权重能够表示为:知识对象的知识关系权重和语步类型权重两者在对知识对象权重的奉献上同等重要。因而本文采用的知识对象权重的计算公式能够表示为:3.5、知识关系索引的构造本文参考知识图谱RDF三元组的表示出方式将知识关系用三元组S-P-O表示,华而不实,S代表三元组主语,P代表三元组谓语、O代表三元组宾语。为了揭示知识关系,本文在知识关系索引中增加了SP字段〔主语和谓语的搭配〕以及PO字段〔谓语和宾语的搭配〕,当输入检索词为主语S时对PO字段分面揭示,当输入检索词为宾语O时对SP字段分面揭示。另外,还增加一个知识关系类型字段relationType,通过这个字段能够从检索词搭配角度多方位呈现知识对象之间的知识关系。知识关系索引构造如表3所示。表3知识关系索引构造3.6、多维语义索引的查询以上内容分别讲述了多维语义索引的构造,多维不是多个,这几个索引之间并不是独立的关系,它们都有一个共同的字段paperId。因而,要想实现多维语义索引的分面揭示,查询的时候要对查询结果根据共同字段paperId来进行综合,其详细实现步骤能够分为五步:1〕查询知识对象索引,获取匹配的知识对象,并能够得到一个paperId集合;2〕查询文献索引,获取文献元数据相关信息,并能够得到一个paperId集合;3〕查询句子索引及文献索引,获取句子共现术语以及文章共现术语,并能够得到一个paperId集合;4〕查询句子索引,获取检索词在文章中的知识关系〔连接关系、修饰关系、组合关系、语法关系〕,并能够得到一个paperId集合;5〕最终将上述paperId集合并取其交集,即为返回给用户的最终结果。其实现步骤核心代码如此图3所示。图3多维语义索引的查询4、实际应用效果基于上述设计思路和实现经过,本文设计和实现了物理领域科研论文自动语义标注检索系统。该系统选取10万篇来自arXiv数据库的物理领域科研论文作为初始数据集,华而不实,对于检索词darkmatter,一共发现4643篇文章,其检索结果界面如此图4所示。图4检索darkmatter结果页面如此图4左侧分面导航所示,系统通过检索词的搭配关系分面揭示了检索词darkmatter的知识关系,能够帮助发现潜在知识。还能够通过检索词出如今内容摘要中的位置分面发现文章内容摘要中背景中包含检索词的句子有2138个,结论中包含检索词的句子有1427个,结果中包含检索词的句子有1292个,方式方法中包含检索词的句子有887个,目的中包含检索词的句子有905个。通过这个分面揭示了检索词darkmatter的整体研究脉络,进而辅助用户在科研选题时在目的、方式方法、结论等方面的创新性提供快速的参照。本文结合了基于本体和自然语言处理技术构建语义索引,图4也具体表现出了这两者的优势互补,前面两个分面已经展示了基于自然语义处理技术构建的语义索引,本体概念范畴分面则从基于本体构建语义索引的角度揭示了检索词所属的物理学科范畴,为用户迅速了解其范畴提供了参考借鉴。另外通过内容摘要中高亮显示的知识对象能够跳转到该知识对象在ScienceWise本体中的相关关系界面,如此图5所示。该图展示了该知识对象在本体中与其他物理学概念的相关关系,主要由两类关系组成:入关系和出关系,华而不实入关系指入该概念的相关关系,出关系是该概念指出的相关关系。例如,对于知识对象darkmatter,华而不实一条出关系为DarkmatterisapartofBSMphysics,表示darkmatter与概念BSMphysics存在isapartof关系,该关系的方向是从darkmatter指向BSMphysics。通过构建这些相关关系语义索引能够让用户通过本体里相关关系去发起下一步检索,让用户发现更多相关的内容,这个是单独基于自然语言处理技术构建语义索引无法知足的。图5知识对象在本体中的相关关系下载原图本文还从分面角度调研了几种主流的科技文献检索系统,它们大多从科技文献的外部特征进行分面揭示,也有少部分检索系统针对文献中的相关主题进行分面揭示。而本文设计开发的物理领域科研论文自动语义标注检索系统主要是从科技文献内部的语义知识进行分面揭示,通太多维度的分面揭示方式能够充分开掘揭示既有语义关系和潜在语义关联,进而知足科研工作者的语义检索需求。5、结论在传统的检索系统不能知足科研工作者语义检索需求的背景下,多维语义索引的构建对知足其语义检索的迫切需求具有重要的实用价值。本文围绕这个问题展开研究,给出了多维语义索引的设计思路和实现经过,验证了其在语义检索实际应用中的良好效果。在将来的工作中将进一步优化索引,并推广到其他不同的领域中。□作者奉献声明:张敏,论文撰写及修改。丁良萍,论文校对。刘欢,数据整理。以下为参考文献[1]DOMSA,SCHROEDERM.GoPubMed:exploringPubMedwiththegeneontology[J].Nucleicacidsresearch,2005,33(WebServerissue):783-786.[2]BUSCALDID,ZARGAYOUNAH.YaSemIR:yetanothersemanticinformationretrievalsystem[C].ProceedingsoftheSixthInternationalWorkshoponExploitingSemanticAnnotationsinInformationRetrieval.SanFrancisco,2020:13-16.[3]于晓巍.基于本体的文本标引的研究与实现[D].沈阳:沈阳工业大学,2018.[4]DAVIDA.谷歌语义搜索[M].程龚,译.北京:人民邮电出版社,2021:156.[5]SpringerNatureSciGraph[EB/OL].[2021-01-05]..forest.naihescn/researchers/scigraph.[6]ROGERBB.Anempiricalstudyofrequireddimensionalityforlarge-scalelatentsemanticin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论