基于义原空间的文本相似度计算_第1页
基于义原空间的文本相似度计算_第2页
基于义原空间的文本相似度计算_第3页
基于义原空间的文本相似度计算_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于义原空间的文本相似度计算

舆论是指围绕中介性社会事件的发生、发展和变化,以及人们对社会管理者的社会政治态度。它是大众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。而网络舆情则指的是民众通过互联网所表达的社会政治态度,相比传统媒体,具有较强的即时性和偏差性,即由于网络具有较强的虚拟性,未实现全部发言者实名制,并且规则限制较少无法形成有效监督,网络自然成为一些网民情绪宣泄的最理想空间。目前的网络舆情分析系统,大都采用基于向量空间模型(vectorspacemodel,VSM)的文本分析技术,通过对特征词进行词频分析实现的。这种技术方法具有分析速度快、实现简单等优点,但这类方法是建立在文本的词语都是相互独立、没有交集的理想状态下,并未考虑到现实生活中,语言之间存在的相关性与相似性,因此许多文本采用基于向量空间模型无法做出很好的判断。为解决此问题,肖志军等在VSM模型的基础上进行了改进,提出了广义向量空间模型(generavectorspacemodel,GVSM),其主要思想是利用词语之间的相似性,消除模型特征项中交集,并采用布尔代数中的最小项将文本在由维度的空间中表示出来,最后通过计算义原向量之间的夹角余弦值的方式,对文本的相似度进行求解。GVSM虽然对VSM进行了改进,但其仍是以语义为基础的,缺少语义的GVSM将难以处理一词多义、异词同义的情况,而且基于语义的计算通常是较为复杂的,这将影响海量的文本处理。这样,传统的仅对特征词进行词频分析极易产生的“语义漂移”现象,使网络舆情分析系统效率十分有限。本文根据GVSM的思想,把文本通过《知网》的义原空间向量进行表示,进而实现文本相似度的计算。计算方法是以《知网》义原空间向量为基础的,由于义原是已知的,所以,概念的义原向量、短语的义原向量可以事先计算并保存,后期无需做重复的计算,而且新算法采用的是《知网》的知识库,无需再建立新的语义库。通过实验数据表明,新算法在文本相似度计算方面要优于VSM和GVSM。1计算文本相似度《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。随着知识库不断的更新和扩展,现在已更新至2013版。《知网》定义中的“概念”是用作对词语语义的一种描述,在我们的语言中有的词语可以“一词多义”,同样,一个词语也可以由几个“概念”来进行表达。对“概念”进行表达的词汇就是义原,义原是对词语语义的一种描述,因为一个词可以拥有多个词义,所以每一个词也就可以具有多个义原。对义原的描述是通过知识表示语言(KDML)来进行的,而KDML所采用的基本词汇即为义原,义原是描述一个概念的最小语义单元。文本之间的相似度可以通过计算文本中所包含特征词的相似度进行表达,同样,《知网》中各词语之间的相似度亦可以通过计算义原之间的相似度进行表达。在基于《知网》的关联词表建立过程中,词语相似度是计算的关键。词语的相似度就是两个词语在不同的上下文中可以互相替换使用且对文本的句法语义结构不起任何影响作用。两个词语如果在不同的上下文中可以互相替换且不改变文本句法语义结构的可能性越大,两者的相似度就越高,否则相似度就越低。在对于义原相似度的计算中,不同的学者给出了不同角度的计算方法,例如刘群等最先从距离角度提出了语义相似度计算方法,李峰等则在信息量角度提出了语义相似度计算方法。2基于知识网络文本相似性的计算2.1义原向量和特征向量的量根据广义向量空间模型的设计思路,我们把《知网》中的每个义原视作N维空间中一个独立且不存在正交的单位向量。义原空间是义原向量生成的子空间。义原向量可做如下表示其中,P是义原P所对应的义原向量,j是N维空间的一组正交单位基,εi是义原向量P在j方向的投影,n为特征向量个数。对于义原之间的相似度是通过义原向量之间的夹角余弦值进行表示的,因此,也可以通过义原的内积对两个义原向量之间的相似度表示如下Pm,Pn分别为任意两个义原向量,根据《知网》的定义可知,义原向量为义原空间中的单位向量,因此,|Pm|=|Pn|=1,义原之间的相似度即是两个义原向量的内积。2.2有条件设施形式法上义原相似度表1《知网》知识库存在词语W1和W2,对于词语W1有n个义原:C11,C12,…,C1n对于W2有m个义原:C21,C22,…,C2m为降低计算时间复杂度,两个词语W1、W2之间的相似度为各个义原相似度中的最大值,即两个义原之间的相似度计算为其中,βi(1≤i≤4)是可调节的参数,且有β1+β2+β3+β4=1,且有β1≥β2≥β3≥β4,Simi(C1,C2)代表义原C1和C2义原相似度,Sim1(C1,C2)~Sim4(C1,C2)分别为第一基本义原相似度、其他辅助基本义原相似度、关系义原相似度和符号义原相似度,它们对总体的相似度所起的影响力依次减弱。在此,我们把义原看作是N维空间中的某一个向量,通过线性组合的形式对概念向量进行表示,根据义原被定义的重要程度确定各部分的义原向量的权重。概念的义原向量可表示为其中,S为概念S所对应的概念向量,pn为概念向量组成中义原的个数,εw为义原向量Pw所对应的系数。P1为概念向量S的第一独立义原向量,即由唯一的独立义原向量组成,β1是其权重;P2为概念向量S的其他独立义原向量,由其他原独立义原向量进行相加表示,β2是其权重;P3为概念向量S的关系义原向量,由关系义原与它描述的独立义原或者词语的义原向量相加表示,β3是其权重;P4为概念向量S的符号义原向量,由描述符号修饰的独立义原或者词语的向量相加表示,β4是其权重。2.3短语义原向量计算短语可以有多个“概念”对其进行表示,那么,这个短语就包含多个概念,因此,对短语义原向量的计算,通过对所包含的概念义原向量进行加权取平均计算,对短语的义原向量进行表示其中,W为短语的义原向量,snum为短语W包含概念的个数,Si:W为中的一个概念,wn为义原向量W中包含的义原个数,εw为义原向量P所对应的参数。2.3特征项权重系数我们首先去除文本中的停用词和虚词,然后再统计文本中的特征项以及对应的频率。采用加权技术TF-IDF对每个特征项权重系数进行计算,再通过特征项向量构成的文本向量把文本表示出来,并将特征项向量与对应的义原向量进行替换,最后,得出文本的义原向量为其中,D为文本的义原向量,wnum:为D中特征项的个数,dn为文本向量中包含义原的个数,εw为义原Pw对应的系数。2.4文本相似性的计算通过公式(2)及公式(5),我们可以推得文本的相似度,推导过程如下其中,PiPj为两个义原向量的内积。3实验结果及分析为验证经过文本语义相似度比较后的网络舆情系统处理效果,本文分类文本使用搜狗实验室提供的中文文本分类语料库,根据戴媛等对舆情主题指标分类方法,对舆情主题进行了详细分类,最终确定了14个大类。在此,我们选取了其中的自然灾害、三农、公共卫生、医疗、社会公共安全以及和谐社会六类主题的不同文本,分别对应文本集1至6,每类主题选取150篇文本作为实验测试数据,选取其中的50篇文本为训练文本,其余的100篇为聚类文本,进行文本聚类对比测试。最后,采用计算F-度量值的方法对新算法、VSM、GVSM的效果的进行测试评判,F-度量值是将查准率和召回率进行融合的平衡指标。设ni是类别i的文本数目,nj是聚类j的文本数目,nij是聚类j中隶属于类别i的文本数目,则查准率P(i,j)、查全率r(i,j)和F-度量值F(i,j)分别定义为对于实验参数的确定是参考李峰等及江敏等在各自的语义相似度计算测试中所采用参数设置的值,再根据本实验验证的效果进行调整。最后确定的实验参数设置值为β1=0.5,β2=0.2,β3=0.17,β4=0.13。根据特征项权重计算公式对特征项集合进行选取。tt为特征项出现在训练文本集中的总次数,其值越大表明特征项表征该类别的能力越强;ti为特征项在训练集合类别出现的个数,数目的值越大表明特征项表征该类别的能力越弱;td为特征项中的文本数目,其值越大表明特征项表示文本类别的能力越弱。最后采用K-means聚类算法进行测试,实验结果分别如图1~3所示。其中纵坐标为效果值,横坐标为6个文本集。通过对3种算法的准确率、查全率和F-度量值的对比,可以看出新算法在文本集3、4、5、6上效果要优于VSM和GVSM,但在文本集1与2上却表现的与VSM和GVSM基本相同。通过进一步分析发现,文本集1对应的主题是自然灾害,文本集2对应的主题是三农。在这两类主题文本中,都包含有明显的特征项词,例如“水旱”、“地震”和“现代农业”,大多数与自然灾害或三农有关文本都包含这些高频词,在此种情况下,采用VSM和GVSM相对比较合适。文本集3对应的主题是公共卫生,文本集4对应的主题是医疗,这类文本的内容范围很广且具有明显特征项的词汇较少,此种情况采用新算法效果较为明显。而在文本集5对应的主题是社会公共安全,文本集6对应的主题是和谐社会,新算法效果与GVSM接近,但优于VSM,这两类主题文本中虽具有一定的常用特征词,但不如文本集1和文本集2的明显。通过以上分析可以看出,基于《知网》义原向量空间的新算法,在进行语义相似度计算方面,其效果要优于GVSM与VSM,但在具有明显特征项的文本集中其效果与GVSM和VSM基本持平,不具有明显的优势。综上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论