基于VSM的论文相似度检测方法研究_第1页
基于VSM的论文相似度检测方法研究_第2页
基于VSM的论文相似度检测方法研究_第3页
基于VSM的论文相似度检测方法研究_第4页
基于VSM的论文相似度检测方法研究_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于VSM的论文相似度检测方法研究1 背景随着计算机技术和网络技术的飞速发展,特别是INTERNET应用的普及,互联网已经成为人们传递和交流信息的重要平台。在网上信息量迅速膨胀的同时,网络搜索引擎、自动分类、信息抽取等信息技术也在研究和成熟之中,为人们高效、准确地获取信息提供了有利的保证。网络信息资源以文本、图像、视频、音频等形式存在,在我国,据中国互联网发展统计报告,文本信息占网上资源的70这些电子形式的数据为广大学者和师生提供丰富的信息资源和便利的交流机会,促进科学技术的发展。与此同时,电子资源获取的便利及电子资源本身简单的“复制"“粘贴"功能,为学术论文的抄袭与剽窃等

2、不道德行为提供了方便。我国学术论文抄袭现象频频发生,引起社会各界的广泛关注。为防止学术论文抄袭,端正学术风气,进行中文学术论文复制检测技术的研究非常有意义。现在,在我国应用比较良好的中文学术期刊数据库,包括中国知网的中国学术期刊网、万方数字化资源系统和重庆维普资源系统,收录了全国大部分有价值的中文学术期刊的学术论文、各高校的学位论文、重要会议论文等学术资源,并提供了高效的论文检索和下载平台。以中国知网为例,目前就全文学术期刊来说,其收录期刊的总共有八千多种,总共收录从1979年至今的两千万篇论文全文,并以每天几千篇的速度增长。所以,论文抄袭识别如果仅仅靠人工来做,工作量巨大,效果也没有办法保证

3、,必须在技术上研究学术论文的非法复制防止和检测技术,进行自动的文本复制检测。论文复制防止和检测技术的应用,也有利于论文数据库的查重、去重工作,提高数据库检索效率1。2 向量空间模型(VSM首先提一下文本相似度计算。文本相似度计算是指利用计算机自动计算文本间的相似度,文本相似度是表示两个或多个文本之间匹配程度的一个度量参数,相似度越大表明文件相似程度越高。在自然语言处理领域,在统计学的方法中文本的表示主要采用VSM模型,这种方法认为每篇文本都包含一些用概念词表达的揭示其内容的独立属性。这些概念属性构成了文章的主体,同时这些属性可以看成一个维数,文本可以表示成这些维数的集合。对需要比较相似度的文本

4、进行分析,根据文本中的词语将文本映射为,z维空间向量,然后通过比较向量间的余弦系数确定文本间的相似度,余弦值越大其相似度越高2。向量空间模型(VSM是20世纪60年代末由Salton等人3提出来的,可先用一个高度概括的向量来表示一篇文本,将文本集概括成一个向量集,然后通过对文本集对应的向量集进行相关的分析,达到对文本相似度的判定的目的。这是一种基于统计的方法,利用文本在特征集合上的分布来近似表示语义。现己成为最经典、最实用的文本表示方法。2.1 关于相似度检测的几个概念文档D(Document:泛指文档或文档中的一个片段(如文档中的标题、摘要、关键词、正文等4。特征项T(Term:指出现在文档

5、中能够代表文档性质的基本语言单位(如字、词等,这样一个文档D就可以表示为D(t1,t2,tn,其中n就代表了特征项的数量。特征项权重wk(Term Weight:指特征项tn能够代表文档D能力的大小,体现了特征项在文档中的重要程度。这样文档D的向量可以表示为D(wn1,wn2,,wnm,其中wn1,wn2,,wnm分别代表文档D特征项t1,t2,tn的特征项权重。相似度S(Similarity:指两个文档内容相关程度的大小,当文档以向量来表示时,可以使用向量文档向量间的距离来衡量,一般使用内积或夹角的余弦来计算,两者夹角越小说明相似度越高。2.2 基于VSM的相似度计算方法用VSM方法将文档表

6、示成向量后,在基于向量的信息检索中,有许多种计算相似度的方法,常用的相似度计算方案有内积、Dice系数、Jaccard系数和余弦系数5。设Di=(d1i,d2i,dmiT,Dj=(d1j,d2j,dmjT。(1) 内积Di与Dj之间的相似度用内积表示如下:Sim(Di,Dj)= (1.1)(2) Dice系数文档Di与Dj的Dice系数定义为:Sim(Di,Dj)= (1.2)(3) Jaccard系数文档Di与Dj的Jaccard系数定义为:Sim(Di,Dj)= (1.3)(4) 余弦系数文档n与Dj之间的相似度用余弦系数表示,公式如下:Sim(Di,Dj)= (1.4) 在该模型中,通过

7、向量的形式,把对文本的处理简化为向量空间中向量的计算,使问题的复杂度大大降低。而权重的计算既可以用规则的方法手工完成,又可以通过统计的办法自动完成,也正是因为把文本以向量的形式定义到实数域中,才使得模式识别和其他领域中的各种成熟的计算方法得以应用,极大提高了自然语言文本的可计算性和可操作性。所以说,文本的形式化表示方法一一向量空间模型是基于文本处理的各种应用得以实现的基础和前提6。图1是文本表示的模型。基于VSM模型可设计并实现针对文档相似度的比对机制。每个文档都可表示成一个向量,如图2,文档D1,D2是两个相似度比较的文档,可以通过相似度计算公式计算出它们之间相似程度。当然,也可以利用这个模

8、型,扩展到多个文档,把计算结果从大到小排序,同时规定一个代表相似度高的阈值,如果大于阈值则文档间相关程度高,如果小于阈值则文档间相关程度低。 图1文本表示逻辑模型 图2 文档VSM及相似度3 文档处理3.1 特征项选择词或短语是组成文本的最小单位,也是最方便采用的特征,在文本处理过程中,将文本集合中的每个文本实行分词处理后,无论文本用向量空间模型还是概率统计模型来表示,每个特定的特征词对应一个维数,并且含有大量干扰项和无用项的特征向量。如果要全部地将这些向量的信息进行统计并直接用这种特征向量进行相似度的判定或分类,算法的计算复杂度相当大,算法的时效性会非常差;同时由于大量干扰项对有用特征项的抑

9、制作用,对相似度的判定和分类精度造成负面影响。反而会因信息量的不足或丢失引起分类结果不准确。有实验表明真正具有分类作用的特征项只占总特征项的不到107。因此,需要对文本特征进行筛选,选出最能代表文本类别的特征,达到对特征集维数进行有效缩减,这个过程就是特征选择。它是文本分类中的一个重要环节。通过特征选择可以大大减少特征集合中的特征数,降低文本向量的特征维数。还可以把那些类别区分性强的特征挑出来,而把那些信息量少、类别特征不明显的特征项删除掉。这样既提高了处理速度,又提高了准确率8。3.2 特征项选择算法特征选择是构造一个评价函数,对初始向量中的每个特征进行独立的评估,针对每个特征对应的一个评估

10、分值大小进行排序,再选取预定数目的特征子集。选取多少个特征最佳以及采用什么评价函数都需要针对具体问题通过实验来决定。目前,已经有了很多函数,并进行了深入的调研和比较,总结出每种方案的适用范围和效果,一些常用的特征评估函数有文档频率DF、互信息MI、信息增益IG、期望交叉熵CE、CHI统计、文本证据权和优势率、特征强度等9。根据公式(1.4)所示,Sim(Di,Dj)表示文档之间相似度,其中Di代表文档库中的单个文档,Dj为查询文档,为文档库文档中的第k个特征的权重,同理,为查询向量中的第k个特征的权重。其实相似度是一个很复杂的概念,在不同的具体应用中,其含义有所不同。我们可以把两篇文档的相似度

11、定义为一个在0,l之间的数值,0代表两篇文档不相似,1代表两篇文档完全相似,两篇文档之间的相似度的值越大表示它们就越相似10。4 结语利用成熟的VSM相似度计算模型和相应技术构建论文相似性计算的原型模型,在实际测试中发现,要实现更加精准的相似度计算很大程度上依赖相似度算法上的优化。参考文献:1 程克敏,基于文本结构和内容的中文论文复制检测系统研究D,硕士论文。合肥工业大学,2007.52周炎涛,唐剑波,吴正国基于向量空间模型的多主题Web文本分类方法J计算机应用研究,2009,25(1:1421443Salton G,Yang C S.On the specification of term

12、values in automatic indexingJ.Journal of Documentation,1973,29(4):351372categorizationIn Proceedings of the Third Annual Symposium on DocumentAnalysis and Information Retrieval(SDAIR94,19946吴栋,滕育平中文信息检索引擎中的分词与检索技术计算机应用。200424(7:128-1317 Christof Muller,Iryna GurevychIntegrating Semantic Knowledge into Text Similarity and Information RetrievalProceedings of International Conference on Semantic computing,Dec20078 孙麟,牛军钰基于领域相关词汇提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论