文本情感分析_第1页
文本情感分析_第2页
文本情感分析_第3页
文本情感分析_第4页
文本情感分析_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文本情感分析教师:亢华爱北京信息职业技术学院目录Contents文本情感分析概述1PART概述概述又称为倾向性分析和意见挖掘,是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。比如,从电影评论中分析用户对电影的喜恶,或者从商品评价中分析用户对商品的“价格”“易用性”等属性的情感倾向。文本情感分析情感极性(倾向)分析情感程度分析主客观分析概述情感分析情感极性分析的目的在于,对文本进行褒义、贬义、中性的判断,比如对于“喜爱”和“厌恶”这两个词,就属于不同的情感倾向。概述常见的情感极性分析方法主要分为两种主要通过制定一系列的情感词典和规则,对文本进行段落拆解、句法分析,计算情感值,最后通过情感值来作为文本的情感倾向依据基于情感词典基于机器学习大多会把问题转换成分类问题来看待,是将目标情感分为两类:正、负,或者是根据不同的情感程度划分为1〜5类,然后对训练文本进行人工标注,进行有监督的机器学习过程。概述最简单的情感极性分析的方式就是情感词典,其实现的大致思路如下(1)对文本进行分词操作,从中找出情感词、否定词以及程度副词。(2)判断每个情感词之前是否有否定词及程度副词,将它之前的否定词和程度副词划分为一组。如果存在否定词,则将情感词的情感权值乘以-1;如果有程度副词,就乘以程度副词的程度值。(3)将所有组的得分加起来,得分大于0的归于正向,小于0的归于负向。概述有这么一句商品评价:“这款蓝牙耳机的款式比较好看,操作也比较简单,不过音质真的太烂了,耳塞也不好用。”只要出现一个积极词就加1,岀现一个消极词就减1。此时,这句话的情感分值为:1+1-1+1=2,这表明商品评价属于一条好评,很明显这个分值是不合理的。按照上面的思路,就是要先找出这句话中的情感词积极的情感词有:“好看”、“简单”、“好用”消极的情感词有:“烂”概述比如,“太”表达的情感度更强,可以将情感分值设为x4,“比较”这个词表达的程度没有前面的强,可以将它的情感分值设为x2。此时,这句话的情感分值为:(1x2)+(1x2)-(1x4)+l=l。我们来看看这些情感词前面有没有程度词进行修饰,并且给不同的程度一个权值。概述如果岀现的是单数,则情感分数值就x-1,如果是偶数,则情感分数值应该反转变为x1。这句话中在“好用”的前面只有一个“不”字,所以其情感分值应该为x-1。此时,这句话的情感分值为:(1x2)+(1x2)-(1x4)+(1x-1)=-1,这表明商品评价属于一条差评。不过,在“好用''一词的前面还有一个“不”字,所以在找到情感词的时候,需要往前找否定词,还需要数一下这些否定词出现的次数。使用情感词典的方式虽然简单粗暴,但是非常实用,不过一旦遇到一些新词或者特殊词,就无法识别出来,扩展性非常不好。概述基于机器学习模型进行情感极性分析朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法思想基础对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别概述nltk.classify模块中提供了用类别标签标记的接口,其内置的NaiveBayesClassifier类实现了朴素贝叶斯分类算法,该类中有一个类方法train()语法格式train(cis,labeled_featuresetsestimator=ELEProbDist)上述方法主要用于根据训练集来训练模型,其中labeled_featuresets参数表示分类的特征集列表。2PART文本情感分析文本情感分析为了能够让读者更好地理解,接下来,通过一个简单示例来演示如何基于NaiveBayesClassifier类实现文本情感极性分析。假设,现在有如下一些有关评论的英文文本,每个所表达感情倾向的程度都不一样,具体代码如下。文本情感分析接下来,导入专门用来预处理文本的模块,并且定义一个负责预处理文本的函数pret_text(),以便于处理多个测试文本,具体代码如下。上述函数中,先将文本按照空格划分为多个单词,然后将这些单词还原成基本形式,并根据英文的停用词表删除停用词,最后将剩下的单词以字典的形式进行返回,其中字典的键为单词,字典的值为True,代表着单词存在于预处理后的文本中。文本情感分析然后,将上述待训练的文本经过预处理之后,为其设定情感分值,即将积极情感词的分值设为1,将消极情感词的分值设为-1,根据这些训练数据构建一个训练模型,具体代码如下。文本情感分析在训练文本中,前三个句子中都有表示积极情感的词汇,比如“wonderful”“like”“well”,因此分值设为+1,而后两个句子里面包含了一些表示消极情感的词汇,比如“not”bad”,因此设分值为-1。根据这些训练文本构建了一个训练模型,意思是比如某个句子中岀现了这个模型中的积极情感词汇,就将情感分值置为1,否则就把情感分值置为-1文本情感分析为了验证刚刚创建的情感模型是否可行,下面是一些测试的结果,具体代码如下。从输岀的结果中可以看出,根据训练的模型已经能够准确地辨识出部分带有情感色彩的固定单词,比如,like

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论