特征词提取方法汇总_第1页
特征词提取方法汇总_第2页
特征词提取方法汇总_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1. 最简单的方法是利用词性进行特征提取。利用NLP分词及词性标注技术对用户评论进行解析,从中提取名词或名词短语来作为候选特征词。此方法的优点是处理速度快,但缺点同样很明显,受限于NLP固有缺陷,分词准确率不高,导致这种方法的准确率也不够理想。2. 为进一步提高准确性,除了词性,我们还可以利用一些固定模式进行特征词提取。14提供了一种基于规则的半自动化方法,人为选出几种模式,得到候选的特征词,再进行人工选择,剔除非特征词。这种方法的优点是可以在仅利用词性的基础上进一步提高准确率,且方法简易实现;缺点是准确率严重依赖模式的选择。3. LiuBing1提出基于关联分析的特征提取方法。首先对语料库进

2、行词性标注,提取出每个句子中所有名词或名词短语作为一个transaction,而其中每个名词或短语作为一个item,利用关联分析方法,得到频繁集。再删除不是特征词的频繁集。利用关联分析法可找到频率较高的特征词,但找不到低频率的特征词。基于上述思想,利用高频特征词找到对应的观点词,然后利用观点词找出附近低频特征词,可以提高召回率。4. 文献13提出一种利用互信息(PMI)的特征提取方法。该方法首先提取出频率高于某一阈值的名词或名词短语来作为候选特征词,然后利用搜索引擎计算出候选特征词与产品的互信息(PMI,Point-wise Mutual Information),依此确定特征词与该产品的相关

3、性。PMI如下所示:其中f代表候选特征词,d代表某种关系的指示词。Hits代表搜索引擎的命中个数,PMI越高,f与某产品的指示关系d程度越高。5. 9首先利用Penn Treebank18提取出基础名词短语(BNP),将这些BNP作为候选特征词,接下来分别用混合模型(Mixture Model)和可能性测试模型(Likelihood Test)进行特征选择。6. 我们利用TF-IDF提取TD-IDF值大于阈值的特征词作为特征词集合。TF-IDF公式如下:ni,j代表词i在文档dj中出现的频率;knk,j代表文档dj中所有单词出现的频率。|D|表示语料库中的文件总数。TFIDFij=tfij*i

4、dfiTF-IDF倾向于过滤掉常见的词语,而保留重要的词语。为了进一步改进试验效果,在此基础上选出IFIDF大于阈值的特征词。7. 基于观点挖掘的产品可用性建模与评价中,作者提出特征观点对抽取算法,即抽取产品评论中产品特征(Feature)和相应观点词(Opinion)组成的特征观点对(F,O)。该算法的优势在于不需要人工标注任何数据。1) 首先利用分词技术得到分词及词性标注,根据评论语料库来统计词语的词频,来生成词典;2) 抽取产品评论中产品特征(Feature)和相应观点词(Opinion)组成的特征观点对(F,O)。3) 利用词语相似度来计算观点词的情感倾向。通过计算观点词Oi和正面词汇集P-words=pw1,pwm以及负面词汇集N-words=nw1,nwn的相似度来判断,正面词汇集和负面词汇集选择的是知网提供的情感分析用语词语集。相似度计算方法是利用大规模语料库进行计算,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论