




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
微博热点话题情感分析的算法设计综述目录TOC\o"1-2"\h\u6315微博热点话题情感分析的算法设计综述 1157661.1热点话题情感分析算法流程 1214211.2构建微博基础情感词典 272481.3构建修饰词词典 354681.3.1否定词词典 357071.3.2程度副词词典 3246951.4语义规则分析 4101061.1.1词语多元组 4318841.1.2句型规则 4284041.1.3句间规则 5130751.5话题情感计算 5如何判别文本的情感极性在自然语言处理领域中是一个复杂的研究问题,其中情感词的正负倾向是情感极性很重要的判断依据。传统基于情感词典的方法分析文本时,最常用的方法是将文本中出现的词语和情感词典进行对比,若在情感词典中出现则标注情感词的极性并赋予权值,之后利用文本中情感词的累加计算文本极性。基于情感词典的方法简单快速,但是单一的只考虑情感词而忽略文本语义,不能根据语境进行判断,误差很大,并不能满足如今对微博文本情感分析的准确度要求。1.1热点话题情感分析算法流程为了尽可能全面的考虑对微博情感的影响因素,本文对能够影响微博情感的修饰词和句型结构也进行分析。对于情感词,本文将能够改变情感词极性和强度的否定词、程度副词等进行分析,根据修饰词和否定词之间的搭配构建词语多元组。对于微博的句型结构,微博文本可以根据标点符号划分为若干个复句,复句又可以划分为若干个分句,本文分别分析了复句的句型规则和分句的句间规则对微博文本情感的影响,从情感词和语义规则两方面对微博文本的情感极性进行研究,算法设计流程图如4-1所示:图4-1情感分析算法的流程图Fig.4-1FlowChartofSentimentAnalysisAlgorithm1.2构建微博基础情感词典文本中的情感词是情感分析处理的基础,通常情感词和整条文本的情感极性密切相关,因此需要在文本中提取。在文本分词之后,可以将待定词和情感词典的逐词对比进行获取。对于微博的情感分析研究,情感词典的完备性和情感特征提取准确性是正相关的,情感特征提取的质量会直接对实验结果造成影响。国外的情感分析取得了很多成果,和国外研究进展相比,我国情感分析起步较晚,加上中西方表达方式存在的巨大差异,国外研究学者的成果并不能直接套用,因此需要针对中文来进行定向研究。虽然近些年研究人员在情感词典的构造上取得了一些成果,但并没有一部完备性高且适用于各个领域的情感词典适用于极性分析,因此结合微博语料的文本特点,需要构建微博情感词典来进行文本情感极性研究。基础情感词典适用于多领域。根据国内的情感词典取得的研究成果,在知网HowNet情感词典为基础上,将常用情感词典进行整合去重、手工过滤歧义词等处理,得到一个相对完备且较通用的情感词典,然后将情感词典中的情感词按照极性分别设为1和-1,作为本文研究的基础情感词典,如表4-1所示。表4-1基础情感词典的组成Tab.4-1CompositionofBasicSentimentDictionary序号词典名称正向负向1知网HowNet词典456643702NTUSD词典281082763大连理工词典库186107044中文褒贬义词典556744695褒义词词典507606贬义词词典034957学生褒贬义词典7289428本文词典488962551.3构建修饰词词典1.3.1否定词词典否定词本身没有情感倾向,但如果文本中存在否定词,情感倾向就不能仅仅依靠基础情感词典,因此本文在情感基础词典的基础上引入了否定词词典。依据否定词一般左邻情感词的特性,本文只考虑否定词对紧跟的首个情感词的影响。情感词的极性经过否定词的修饰后可能会发生改变,不仅如此,还需要考虑否定词的存在的数目,如果为奇数,则极性反转;如果为偶数,不考虑极性变化,则计算的情感权值与情感词典中匹配到的词语情感极性相同,具体计算公式如式(4-1)。 (4-1)其中,为否定词的个数。本文整理出否定词词典并赋予权值,示例如表4-2所示。表4-2否定词词典示例Tab.4-2NegativeDictionaryExample否定词权值个数不、没、无、非、莫、弗、毋、勿、未、否、别、無、休、不曾、未必、没有、不要、难以、未曾-1191.3.2程度副词词典在文本情感分析中,程度副词本身没有情感倾向,考虑到实际微博文本情感的计算过程中,情感词不仅有极性判别的要求,还需要考虑到话题情感强度。文本的情感词经过程度副词的修饰后,虽然情感极性不发生改变,但是情感强度会由于程度副词的影响而增强或减弱。因此本文引入程度副词词典对基础情感词典加以补充。在文本中存在一个程度副词修饰多个情感词或多个程度副词修饰一个情感词的情况,按照修饰词左邻情感词的特性,本文只考虑对紧跟的首个情感词的影响。本文根据知网程度副词词库构建了一个程度副词词典,根据蔺璜等[64]人的理论,按照强度分为极量、高量、中量和低量的分级,对其赋上了相应的权值,示例如表4-3所示。表4-3程度副词词典示例Tab.4-3ExampleAdverbDictionary等级权值个数程度词词典示例极量299最、无比、卓绝、过分、极度、绝对、完全高量1.542很、大为、非常、格外、分外、相当、实在中量1.237较、比较、较为、愈发、越、还要、越来越低量0.841稍、不太、略加、一点、有些、有点、稍许1.4语义规则分析1.1.1词语多元组在分析词语的粒度中,修饰词都位于情感词之前且距离接近,本文将修饰词和情感词最大距离设置为3,这些修饰词不同程度的影响着文本的情感极性和情感值。因此本文根据基础情感词、程度副词和否定词的搭配关系构造词语多元组,利用权值累乘的规则来进行词语多元组的值计算。词语多元组存在四种组合形式:(1)只有情感词;(2)含有一个或多个否定词和情感词;(3)含有一个或多个程度副词和情感词;(4)含有程度副词、否定词和情感词。1.1.2句型规则微博文本的句型规则分析的是复句的句型结构对整条微博情感极性的影响。若一条微博文本可以根据标点符号划分为若干个复句,其中为微博文本的复句,其权值为。根据对微博数据的统计,用户在发布微博时常用的句型句式主要有四种,即陈述事实或看法的陈述句、表达感慨含义的感叹句以及蕴含疑问语气的疑问句和反问句。(1)感叹句一般以感叹号结尾,表达的是用户对某人或事物的感叹,具有加强语气的作用,因此本文将设为2;(2)反问句一般以问号结尾且句尾有“吗”之类的反问标志词,表达用户强烈的质疑情绪,能够将整个复句的情感极性发生反转,因此本文将反问句的设为-1.5;(3)疑问句结尾的标点符号与反问句相同,但是句尾不存在反问标志词,只是单纯的表达用户的疑问,对复句的情感强度和情感极性没有影响,因此本文将疑问句的设为0;(4)陈述句一般以句号或除上述符号之外的其他标点符号结尾,是微博文本中最常见的一种句式表达,对情感的强度和极性影响不大,因此本文将设为1。1.1.3句间规则一条复句可以划分为若干个分句,分句的句间规则分析的是分句之间的关系,微博文本最常见的句间关系主要有三种,分别为转折语句、递进语句和假设语句。分句用集合表示为,表示微博文本中的句间语义规则对微博分句的分句权值。(1)转折转折语句中的转折词会导致文本的极性发生反转,如“虽然……但是”等,因此需要对转折词进行研究。转折前接词(如“虽然”)是为了强调转折后的文本,转折后接词(如“但是”)之后的情感才是用户真实的情感表达。当复句中不存在转折前接词,只存在转折后接词,则包含转折词的分句前的权值皆是0,及之后的权值皆是1;当复句只存在转折前接词,后面不存在后接词进行强调,则包含转折词的分句的权值是1,之后的分句皆是0;当一个复句中包含了成对的转折词,则包含转折后接词的分句后的关系权值皆是1,之前的分句权值是0。(2)递进句间规则在进行文本情感分析时,递进语句表达的是情感上的递进,如“甚至”、“更加”等,是对情感的加强,并不会对文本情感的极性产生影响。当复句中存在递进词,则递进词所在分句之前的所有分句权值都设为1,之后的分句权值都设为1.5。(3)假设句间规则微博用户使用假设句是表达对某一事物或看法的一种假设,如“倘若……那么”等,强调的主要部分集中在文本的前半分句,后半分句的情感强度会相对较弱。若复句中不存在假设前接词(如“倘若”),则假设后接词(如“那么”)所在的分句之前的分句权值都设为1,之后的分句权值设为0.5。若复句中出现表示否定的假设连接词(如“倘若不”),则假设后接词所在分句之前的分句权值都设为-1,之后的分句权值都设为-0.5。1.5话题情感计算本文将常见情感词典进行整合构建了基础情感词典,为了尽可能全面的获取微博情感特征,之后又新增了否定词词典和程度副词词典对其进行补充,根据搭配构造了词语多元组。之后通过语义规则对基于情感词典的方法进行改进,分析了文本的句型规则和句间规则。若用表示用户在微博上发布的一条微博文本,表示根据标点符号切分出的复句,为其的权值,表示句间语义对分句的分句权值,表示文本中的词语多元组,为情感词在基础情感词典中的情感权值,则微博文本极性可以从词语、分句、复句三种粒度进行分析。(1)在词语级别,根据基础情感词、程度副词和否定词的搭配关系构造词语多元组,以权值累乘的规则计算词语多元组情感值,多元组的计算过程如公式(4-2)所示。 (4-2)其中,表示程度副词的权值,表示否定词的权值。(2)在分句级别,根据句间的语义规则,分句情感值的计算过程如公式(4-3)所示。 (4-3)(3)在复句级别,首先累加所有分句的情感值,然后将该累加值与句型关系权值相乘,得到的结果即为该复句的情感权值,计算过程如公式(4-4)所示。 (4-4)(4)整条微博文本数据的情感权值为各复句的累加,计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大方天麻林下仿野生种植技术应用的环境条件和详细步骤分析
- 湖北省武汉市二中广雅中学2024-2025学年九年级下学期3月月考化学试题(原卷版+解析版)
- 新未来大学英语 视听说教程1(智慧版) 听力脚本 Unit 1
- 建筑电气系统修缮技术方案
- 2025年自动化X光检查机项目合作计划书
- 中西医结合外科学知到课后答案智慧树章节测试答案2025年春广州中医药大学
- 2025年双层客房车项目发展计划
- 医院外出进修、培训及参加学术会议的管理规定
- 江西省上饶市2023-2024学年高二下学期期末考试语文试题2
- 2017-2018学年人教课标高一英语必修4试题Unit5Themeparks单元测试题2
- 玻璃工艺学第4章 玻璃的性质
- 四川省药械集中采购及医药价格监测平台操作指引
- 精品市政道路施工测量方法及测量方案
- 室内采暖管道安装施工工艺标准规范标准
- 小型手推清扫车毕业设计说明书课件
- 监理大纲(范本)
- 受拉钢筋抗震锚固长度Lae
- 2018年湖北省襄阳市中考物理试卷
- 《沉淀滴定法》PPT课件.ppt
- 波程差与光程差
- 常用测井曲线符号及单位(最规范版)
评论
0/150
提交评论