一种非线性词频因子关键词权值计算法.doc_第1页
一种非线性词频因子关键词权值计算法.doc_第2页
一种非线性词频因子关键词权值计算法.doc_第3页
一种非线性词频因子关键词权值计算法.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精品论文一种非线性词频因子关键词权值计算法吴诗贤 重庆工商大学计算机科学与信息工程学院,重庆 (400067) e-mail: 摘要:统计了 500 篇 cnki 论文关键词词频分布及逆文本频数因子分布,发现传统的tf-idf 文档关键词权值计算方法中线性词频因子与语言实际有较大差异,在此基础上,提 出了一种基于非线性词频因子的改进关键词权重计算法,该方法的显著特点是:随着词频的 增大,该词作为关键词的可能性也增大,但增长是非线性的,增量逐渐趋近于 0。评价实验 结果表明该方法具有较高的抽取精度。关键词:tf-idf;权值;非线性;词频 中图分类号:tp3911. 引言关键词抽取技术可广泛应用于信息检索、文本分类/聚类、信息过滤、自动摘要、自动 标引等各种智能文本信息处理领域,具有极大的应用价值,已成为中文信息处理技术的一个 重要领域,吸引了大量学者从事相关研究,提出了许多抽取算法。常用的关键词抽取技术大 多基于统计方法,通过确定候选词的权重,从中筛选出权重较大者作为最终的关键词。因此, 候选词权重的确定就成为文档关键词抽取的核心。候选词的权重是由它反映文档主题的重要 性决定的,能够较好反映文档主题的词语将被赋予较大的权值。目前,在传统权值计算方法 之外,也出现了一些新的基于新型模型的计算方法,并取得了较好效果。1,2但从实现的简单 性、实用性以及关键词抽取的精度等综合来看,关键词抽取的主要方法还是以tf-idf关键 词抽取法为代表的依赖词频统计的方法。2. tf-idftf-idf(term frequency -inverse document frequency)的概念被公认为信息检索中最重 要的发明,它最早由剑桥大学的斯巴克-琼斯提出、后经著名信息检索大师康乃尔大学的萨 尔顿多次写文章推广,逐渐成为信息处理领域的基本概念之一。tf-idf的主要思想是:如果某个词或短语在一篇文档中出现的频次(tf)高,并且在 其他文档中出现的频率的倒数(idf)也高(即在其他文档中出现的频率低),则认为此词 或者短语具有很好的文档主体特征表征能力,这样的词或者短语应该给它们赋予较高的权 重,则其作为表征该文档主题的关键词的可能性就高。tf-idf方法常用于关键词抽取以及文档分类等领域。利用tf-idf概念进行关键词抽取 时,候选词t重要性(权值)的基本计算公式为:n - 1 -wt = tf idf= n(t , d ) log df (t )(1)其中,wt 表示候选词t的权重,n( t,d) 表示词t 在目标文档d中的出现频次, n 表示训练文 档集合中总的文档数, df( t) 表示训练文档集合中包含t的文档数。这样,以词频因子tf和逆文本频数因子idf的乘积作为词t的关键词权重,既突出了文档 中出现频数较高的词,又消去了在各文档中出现次数都很高的常用词的影响,具有简单直观, 处理速度快等优点,但在理论上和实际运用中还有一些局限性。3在tf-idf中,候选词的权 值与词频之间的关系按线性关系来处理,这与语言的实际情况是存在很大差距的,一般情况下,在同一文档中出现若干次的词比出现一次的词更可能反映文档主题,但显然不能说其为主题词的可能性就是只出现一次词的若干倍。可具体用什么关系来代替基本tf-idf中的简 单线性关系呢?为了研究合适的词频因子,下面将首先进行关键词词频分布统计研究。3. 非线性词频因子统计方法:从cnki随机下载500篇学术论文(不算正文中未出现的关键词,共含关键词2270个),统计在各篇文章正文中出现1次25次及26以上次数的关键词数量,并计算各频 次关键词的平均idf和平均wt,结果如表1所示。表1 关键词统计表词频n(t,d)12345678910111213关键词个数17816415714914012695837982556048平均idf100918479827567606156535147平均wt100182252316410450469480549560583612611表1 关键词统计表(续)词频n(t,d)14151617181920212223242526及以上关键词个数635742413228333824301822426平均idf45514443383740353236283327平均wt630765704731684703800735704828672825注:各词频关键词平均idf是以词频为1的关键词的平均idf为100为基准归一处理后的值。对于各种频次的关键词,从统计意义上说,其平均wt应该大致相等,但从表1可以看出, 统计结果与此存在相当大的差异,由于表1中的平均wt是据式(1)计算所得,这实际上也 反映了利用公式(1)计算候选词权重与语言实际存在着较大的差距。因此,为了使计算所 得权重能更好地反映候选词表征文档主题的能力,有必要对式(1)进行改进。首先根据统计数据作出逆文本频数因子idf曲线,然后以达到使wt相等(即tfidf=常 值)为目标,作出了期望词频因子tf曲线,如图1所示。图1 期望词频因子示意图从上图可以看出,期望词频因子曲线可以近似拟合成n(01),由此,可将候选词权 重计算公式改进为:- 4 - nwt = tf idf = n(t , d ) log ,01(2)df (t )其中,的具体取值与文档长度相关联,文档越短,取值越大,反之亦然。4. 评价实验从cnki随机下载已经给出关键词的50 篇文档作为测试语料,以公式(1)、公式(2) 两种权重计算方法进行测试。公式(2)中取1/3,对每一篇文档,设定抽取的关键词个数 与该文档作者给出的关键词个数相等。将试验结果归为“好”、“可”、“差”3个等级进行统计。 其中,“好”表示抽取准确率达到80%或以上,“可”表示抽取准确率达到40%以上80%以下, 而“差”则表示抽取准确率低于40%。结果如表2所示。抽取准确率的计算公式为:抽取准确率 =关键词命中数 作者给出的该文档关键词数(3)其中,这里的“关键词命中”定义为:与作者给出的关键词完全相同或是同/近义词。表2 改进前后实验结果对比好可差平均抽准率公式(1)22%(11)36%(18)42%48.3%公式(2)26%(13)38%(19)36%55.6%从上面的实验结果可以看出,在取1/3时,改进后的关键词权重计算公式较大程度地提高了关键词自动抽取效果:平均抽准率提高约7个百分点,可接受抽取率(“好”+“可”)提高 了6个百分点。5. 结束语本文提出了基于非线性词频因子的改进tf-idf算法,虽然还未考虑词的位置等因素, 文档关键词的抽取实验也取得了较好的结果,当然,由于种种原因,统计及实验对象只限于 已给出关键词的部分学术论文,在其它场合效果如何,还有待实验验证,但已能说明从改善 词频影响因子的角度出发进行提高关键词自动抽取效果的研究还有潜力可挖,若进一步研究 探索更好的非线性词频因子参数的取值规律、并多层次地综合考虑位置、词性等更多的因 素,关键词抽取效果应该还会有较大的提高。参考文献1 yang wenfeng. chinese keyword extraction based on max-duplicated strings of the documents c. proceedin- gs of the 25th annual international acm sigir conference on research and development in information retrieval tampere, finland, 2002: 4394402 李素建等. 关键词自动标引的最大熵模型应用研究j. 计算机学报, 2004, 27(9): 119211973 j thorsten. a probabilistic analysis of the rocchio algorithm with tf-idf for text categorization. in:proc of the 14th int1 conf on machine learning (icml97), 1997, 143151a keyword weight calculation method based on nonlinearword-frequency factorwu shixiancomputer science and information engineering college, chongqing technology and businessuniversity, chongqing (400067)abstractin this paper, some statistics for keywords of 500 cnki papers is completed, we believe that linearword-frequency factor is one of the reasons of lower keywords extraction precision. on this basis a new keyword extraction method based on nonlinear word-frequency factor is presented, the possibility that candidate word become keyword growing with the word-frequ

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论