词语相似度算法的分析与改进_第1页
词语相似度算法的分析与改进_第2页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、駆酬中国学木期刊网.qikanwang.nel词语相似度算法的分析与改进摘要:对现有的词语相似度算法进行分析,提出种基于知网,面向语义、可扩展的词语相似度计算方法,通过对实验结果进行分析,所提出的词语语义相似度计算方法比以前的方法更好,在计算词语相似度时,准确率更高。关键词:词语相似度算法;义原相似度计算;概念词的相似度计算;非概念词的相似度计算在建立主观题评分模型时,要判断句子的相似度,计算句子的相似度时,首先要处理的就是词语的相似度计算工作。目前对词语的相似度计算人们已经做了大量的研究,提出了一些较有代表性的计算方法。主要包括以下几种:1)基于字面信息的词语相似度计算这种算法的核心内容是:

2、中文词语的构成句子中,一般较核心的内容都放在句子的后面。句子后面的词语在句子中所起到的作用比靠前的词语大。因此在对句子进行分析时需要给后面的字或词赋予较高的权值。假设a和b分别代表两个词语,按照此算法,词语之间的相似度计算公式可以表示为公式1。使用字面信息作为相似度计算的算法较简单,实现起来也方便。但该算法准确率不高,尤其是对于语义相似的词语更是难于处理。2)基于词林的词语相似度计算对于以同义词词林作为语义分类体系进行词语相似度计算的研论文发表专家一J中国学木期刊网%ww.qikanwangPnei究,王斌和章成志都曾作了相关探讨1。其核心思想是使用两个词语的语义距离来表示词语间相似度。当处理

3、对象是一个词组或短语时,首先将其切分为义类词,并将义类词在词林的树状结构中提取出相关的语义编码,并对两个词语的语义编码进行相似度计算。基于词林的词语相似度计算较好的解决了语义相似、词形不同的词语相似度计算,但由于语义词典的完备性问题,必然会存在部分不在语义词典中的词语而无法处理。3)基于知网的词语相似度计算知网以概念作为描述对象,从关系层次上揭示词语的概念含义,并建立了概念关系网络,包含词语属性以及属性间关系2。刘群、李素建从知网的关系描述出发,研究了同一个词义所具有的多个义原间的关系,并试图计算出这些义原在计算相似度时所起到的作用,并根据这种思想提出了使用知网的语义信息来计算词语相似度的算法

4、。该算法在计算概念词的相似度时较准确,但在计算概念词与非概念词,非概念词与非概念词的相似度时,准确率不高。为克服这些问题,我们采用知网作为语义资源,结合信息论中的相关理论,提出了一种面向语义的、可扩展的、多策略混合的词语相似度计算模型。1义原相似度计算词语的相似度计算,最终还是要计算各词语的义源相似度。在知网中,所有词语都包含义原信息,应用知网进行相似度计算时,第论文发表专家一J中国学木期刊网以ww.qikanwangPnel步就是要计算义原的相似度。文献中刘群从两个义原的距离出发,按照相似度的计算过程给出了一个计算词语间相似度的公式3,如公式2所示:公式2中和表示两个义原;是和在知网中义原层

5、次上的路径长度,是一个可调节的权值参数。但是,此方法中的取值大小没有固定的判断方法,而且以距离的倒数作为相似度的计量基准也不能全面的表示出词语的相似度信息。我对刘群提出的义原相似度进行改进,先给出义原深度的概念:定义1:义原深度,指义原在知网的语义层次体系中所处的层数信息,记为。定义2:重合度,指知网中的两个义原和在深层含义中拥有相同祖先结点的路径长度,记为。定义3:相异度,指知网中两个义原和在义原层次中沿着父节点逐层上移,直到两个节点相遇所走过的最短路径长度,记为从相异度的定义可知它与语义距离相同。根据上面的义原深度、重合度以及相异度对义原的定义,我们使用下面的公式3来计算义原间的相似度:从公式3可看出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论