




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于情感情感词典的情感分析国内外文献综述目录TOC\o"1-2"\h\u3210基于情感情感词典的情感分析国内外文献综述 1224661.1基于情感词典的情感研究现状 1213761.2基于机器学习的情感研究现状 37545参考文献 5互联网的快速发展丰富了人们的业余生活,越来越多的人们选择互联网通过来关注国内外的时事热点并借助社交平台表达自己的想法和意见[4],这些携带了网民情感的文本数据蕴含着巨大的价值,对于个人形象维护、商业决策和舆情监控有着重要意义。因此,很多致力于自然语言处理的学者都对网络文本进行研究并根据文本极性进行情感分类,近些年来逐渐成为研究热点。文本情感分类的重点是去判断文本所表达的情感极性,而微博也是使用文本对观点进行表述,因此,对微博文本进行情感分类仍是基于传统的文本情感分析。目前对文本进行情感分析的研究方式主要是基于情感词典的情感研究方法和基于机器学习的情感研究方法。1.1基于情感词典的情感研究现状基于情感词典的研究方法主要思路是先标注词典中的情感词语,分为包括正向(积极)和负向(消极),对情感词语赋予相应权值,接着利用情感词典将文本中的正向和负向情感词语数目和权值进行累加并判断文本极性。情感词典的基础形态是褒贬二元词典,是词语经过时代的变迁产生情感含义,经过学者们不断的研究而创建的。由于国外对文本情感研究开始较早,现有的通用情感词典资源较为成熟,如意大利信息科技研究所发布的SentiWordNet词典[5][6]、哈佛大学建立的GeneralInquirer(GI)词典[7]、MPQA词典[8]、普林斯顿大学实验室的WordNet词典等。国内中文情感词典的完备性参差不齐而且数量很少,常用的主要有知网发布的HowNet词典[9]、台湾大学研究的简体中文词典[10]以及其他研究者的情感词典。SentiWordNet是在WordNet的基础上构建的,主要是将WordNet中的词语注释作为词语特征,并标注出了词语极性和权值,在英文情感分析中得到了广泛应用。GI情感词库中包含了1915个褒义词和2293个贬义词,为了适应更多的应用场景,分别对情感极性、情感强度和词性做了标注。HowNet词典是由知网公布的常识知识库,其中包含了中文和英文的正负情感词和程度词。台湾大学自然语言实验室的研究人员将国外GI词典中的情感词进行翻译,结合中文网络情绪词典CNSD,经过研究者的筛选整合得到,更适合网络环境下的情感分析。1997年,Hatzivassiloglou等人[11]在计算机语言会议上最早提到了英文情感词语的研究,他们在整理华尔街日报语料库时发现英文文本中连词连接的形容词表达的情感倾向是一致的,转折词连接的形容词情感倾向是截然相反的,从而对连词连接的形容词展开了文本的情感研究,在此基础上首次提出了根据语料库作为实验材料来构建情感词典的方法。2003年,Nasukawa等人[12]首次对情感倾向性分析的概念进行了诠释。他指出情感分析也可以称之为观点挖掘,目标是挖掘出人们在文本中所想要表达的情感信息并判断情感信息的正负向。为了进行理论验证,他们首先利用包含了3513个极性词的情感词表对文本进行词语匹配,然后对匹配到的情感词进行个数统计,最后提出了利用极性词表可以提高情感特征提取的效果。2005年,Wilson[13]认为情感分析的任务是提取出含有情感极性的情感信息,并详细阐述了词语极性的自动判别和英语文本上下文依赖的问题,针对长距离搭配形成的特征短语在情感分析中的作用进行了研究,系统的分析了不同的特征提取方法和分类学习算法对倾向性判别的影响。2009年,王素格等人[14]从现有的中文情感资源中选择了五种具有代表性的情感词典进行融合,构建了相对完善的情感词表并对词表中的词赋予对应的权值,最后利用线性加权组合的方法构造出判断语句极性的分类函数,从而实现对文本的情感倾向分类。2010年,杨鼎等人[15]在进行中文文本情感分类时,以携程网的宾馆评论作为实验数据库,使用情感词典和朴素贝叶斯对文本进行情感特征选择,研究表明,在进行特征选择时情感词典可以获取到更多的情感信息,从而使情感分类取得更好的效果。2011年,Maite等人[16]在利用情感词典进行文本倾向性的研究中,对多种可能影响文本情感的因素进行了分析,考虑到语气词和否定词对文本情感的影响,通过量化和设置门限值的方法来计算词语、句子、篇章的情感倾向性。2012年,王振宇[17]针对情感词在文档中出现次数少,导致不能有效情感识别的问题,使用知网HowNet词典作为基准词集,选择点互信息法(PointwiseMutualInformation,PMI)对待定词进行极性判别,对HowNet词典进行扩充,从而减小低频情感词误差较大所带来的影响。2013年,Weichselbraun[18]为了解决手工建立情感词典耗费人力较大的问题,提出了一种半自动化构建英文情感词典的方法。该方法将众包算法(Crowd-sourcing)和机器学习相结合为情感词赋权值并进行词典的拓展,之后将该词典应用在了情感分类之中取得了较好的效果。2013年,Li[19]针对歧义情感词和国内词典数目少的问题,使用机器翻译系统对英文情感分析取得的成果进行翻译,结合中文特征,利用标签传播算法对文本中词语的情感值进行计算,构建了一个覆盖领域相对较广的中文情感词典。2014年,Rao等人[20]为了能够向读者提供个性化信息推送服务,使用了三种剪枝优化算法构建了一个无关语言和细粒度的社会情感词典,利用该词典进行社会情绪检测和新闻报道情感预测。2015年,Karanasou等人[21]从Twitter平台获取实验数据,重点对评论文本中的比喻句做了情感研究,根据英文文本表达的句法规则对比喻和非比喻的评论文本进行标注,利用现有的SentiWordNet情感词典对情感词赋权值,之后和WordNet词典计算词语相似度,最后利用进行语句情感分析取得了较好的效果。2015年,梁亚伟[22]将情感词、连接词和支持向量机相结合,考虑到表情对该条文本情感分析的影响并利用文本情感曲线的方法计算表情情感强度,完成了自动构建表情情感词典,从而判别微博文本的情感极性。2016年,刘德喜[23]从微博平台获取数据并利用中科院NLPIR中文分词系统进行数据处理构成微博数据集,通过PageRank算法搭建基础情感词的量化图模型,从而判断出基础情感词的褒贬含义,并运用到情感分类之中完成情感词分类,这是根据分类思想首次使用和语言无关的通用情感词选择方法。2018年,闫晓东等人[24]通过对藏文文本进行研究,提出了一种基于藏文情感词典的藏文文本情感分类方法,首先通过人工标注将藏文情感词语按照极性构建词典,然后利用情感词典和修饰词组的搭配规则生成情感短语,最后设计评分规则计算情感短语的情感值,判断藏语文本的情感倾向性。2019年,He[25]在中文基础情感词典的构建研究中考虑到文本语义的影响和情感词典构建问题,设计了一种利用文本语义自动构建情感词典的算法模型,利用知网HowNet词典和SentiWordNet词典作为种子词典,通过对文本进行语义分析完成了情感词典的自动构建,之后用于情感分析,取得了较好的效果。2020年,薛兴荣等人[26]提出了一种基于语义词典的网络评论文本情感分类方法,首先对网络数据进行采集处理,然后使用基于词典的无监督分类方法对获取到的网络文本数据进行极性值计算,实验结果表明基于词典的情感识别方法对于网络评论文本的分类结果准确度较高。1.2基于机器学习的情感研究现状2002年,Turney等人[27]首次使用了一种基于互信息的篇章级情感分类方法。首先从Epinions平台上选取了手机、电影等不同领域的410条评论作为实验数据集,以基础情感词语作为基准词抽取文本中包含情感的短语,然后计算所有情感短语的互信息,最后根据全部情感短语的平均情感值作为情感分类的依据。虽然该方法实现简单,但是依赖褒贬词库,而且词语的含义可能也会随着语境的不同而改变。2005年,Pang等人[28]将有监督的机器学习方法应用在了情感分析上,采用布尔权值法对英文电影评论进行文本表示,然后使用了最大熵模型、支持向量机和朴素贝叶斯三种方法进行分类实验,实验结果表明,支持向量机在电影评论情感分类的效果优于其他两种。2007年,Shami等人[29]在比利时的VUB大学实验室将四个实验数据库分为两组,分别采用K近邻(K-nearestNeighbour,KNN)等三种机器学习方法和两种特征提取技术对语音数据集进行情感识别。实验表明,用一组数据库进行训练,另一组数据库进行测试的方法并不理想,但将两组数据库结合,取其中部分数据用于训练,另一部分用于测试可以取得较好的效果。2008年,Ye等人[30]使用了三种机器学习方法对旅游评论文本进行分类测试,分别是朴素贝叶斯算法NB、支持向量SVM和基于文本特征的N-gram模型,实验结果表明支持向量机SVM的准确度要更高。但是当实验数据集规模逐渐扩大,三种机器学习方法的准确度都能达到80%以上。2010年,Davidov等人[31]利用Twitter评论的数据作为实验数据,通过使用标签和表情符号作为情感标签,提出了一种基于KNN算法对Twitter文本数据进行情感分类,这种方法需要的人力注释成本较小。2010年,Zhou等人[32]针对半监督深度网络分类中标记数据获取难度高的问题,引入了主动深度网络(Activedeepnetwork,ADN)的概念。即在对数据文本进行半监督分类中,应用主动学习来选取待标记的数据进行标记并用于解决情感分类问题,实验表明主动学习深度网络在文本情感分类中取得了良好的分类效果。2013年,Socher[33]对向量空间矩阵VSM和递归神经网络(RNN)等方法做了对比实验后,在RNN的基础上提出了语义依赖树递归神经网络(SDT-RNN),该方法将图像和文本映射到相同空间,通过在神经网络模型中引入语义依存树来进行语义分析。将该方法应用在情感分类中可以得到远高于递归神经网络的准确度。2014年,冀俊忠等人[34]对文档级文本情感分类进行了研究,提出了一种知识语义权值特征和朴素贝叶斯相结合的情感分类算法,该算法首先使用特征选择的方法来对文档情感词进行特征提取,并根据词语的语义重要程度赋予不同权值,然后加入到建立的朴素贝叶斯分类器中,实验表明该算法提高了文档级文本情感分类的准确度。2015年,Karanasou等人[35]以Twitter文本为实验数据,从句法和形态特征两个方面对比喻句进行情感分析,利用情感词典对词语赋予权值和计算相似度,并预测细粒度的情感评分,最后使用朴素贝叶斯,决策树和SVM三种分类算法进行实验,结果表明具有SVM分类器可以取得更好的效果。2015年,Jin等人[36]研究发现用户对金融市场的积极性和市场波动存在关联,但是该领域情感分析研究仍然相对较少的问题对金融领域文本进行情感分析,利用支持向量机和依存句法相关性进行金融文本情感分析,取得了较好的效果。2016年,Xu等人[37]在使用LSTM进行长文本极性判断时,为了解决处理长文本时情感信息流失的问题,通过引入缓存机制来模拟计算机的缓存cache功能,设计了一种对记忆单元进行改进的缓存长短时记忆神经网络,该方法按照遗忘率之间的差异划分为若干数目的分组,在循环单元中能够更完整的保留长文本的情感语义信息。2016年,朱宪莹[38]使用微博文本作为实验数据将各种特征提取方法进行了实验对比,针对传统特征选择方法未考虑语义对极性影响的问题,采用多种特征提取方法将文本各层次的语义特征相融合,构建多特征融合的特征向量,实验结果表明,利用层次结构情感分类方法构建的多特征融合的特征向量,在对微博文本进行情感分析时能有效提高微博情感分类的准确性。2019年,吴洁等人[39]针对文本分析时评论人主观情感倾向容易被忽略的问题,对现有的微博情感分类方法进行改进。他们将评论人观点携带的情感进行建模得到情感值,再将微博文本表示成特征向量后作为长短期记忆网络(LongShort-TermMemory,LSTM)的输入,然后将LSTM的输出情感值一起输入到全连接层,最后在Softmax层得到文本极性分类的结果,实验表明,和传统方法相比该方法在情感分类可以实现更好的效果。然而,机器学习在对微博进行情感分析时却存在不足[40]:其一,由于机器学习的准确度和训练语料质量呈正相关,只有在规模足够大且正确标注的实验数据下才能满足准确度要求;其二,新浪微博自2009年上线至今,每天会产生超过1亿条的海量文本数据,并且微博受众主要是国内的年轻群体,博文充斥着大量的表情符号和口语化表达,微博内容涉及到社会的各个领域,因此依靠人力难以对这些数据进行及时筛选及标注;其三,机器学习受训练语料领域的限制较大,如文本涉及的领域不同,在一个语料环境下训练的分类器并不能适用于所有领域,泛化能力较差;而基于情感词典的情感分析算法依旧是非常具有代表性的分析算法,因此本文选择基于情感词典的情感分析方法。参考文献:参考文献张敏.网络传播的困境与协商民主的规制——桑斯坦《网络共和国:网络社会中的民主问题》的评述与思考[J].领导科学,2015,622(29):13-15.董光恒.积极情绪和消极情绪对冲动控制过程影响差异的ERP研究[C].中国心理学会.第十一届全国心理学学术会议论文摘要集.中国心理学会:中国心理学会,2007:200.MedhatW,HassanA,KorashyH.Sentimentanalysisalgorithmsandapplications:Asurvey[J].AinShamsEngineeringJournal,2014,5(4):1093-1113.曹毅梅,李真奇.微博舆论对热点事件发展的影响[J].新闻爱好者,2020(01):47-49.EsuliA,SebastianiF.SentiWordNet:APubliclyAvailableLexicalResourceforOpinionMining[C].ProceedingsoftheFifthInternationalConferenceonLanguageResourcesandEvaluation.Genoa,Italy,2006:417-422.BaccianellaS,EsuliA,SebastianiF.SentiWordNet3.0:AnEnhancedLexicalResourceforSentimentAnalysisandOpinionMining.[C].InternationalConferenceonLanguageResourcesandEvaluation,Lrec2010,17-23May2010,Valletta,Malta.DBLP,2010:83-90.GriebWE.Thegeneralinquirer:Acomputerapproachtocontentanalysis:PhilipJ.Stone,DexterC.Dunphy,MarshallS.Smith,DanielM.Ogilvie,withassociates.TheMITPress,Cambridge,Massachusetts,1966.651pp.plusxx[J].InformationStorageandRetrieval,1968,4(4):375-376.WilsonT,Wiebe,Hoffmann.Recognizingcontextualpolarityinphrase-levelsentimentanalysis[C].ProceedingsoftheConferenceonHumanLanguageTechnologyandEmpiricalMethodsinNaturalLanguageProcessing.Vancouver,Canada,2005:347-354.Neviarouskaya,Alena,HelmutPrendinger,andMitsuruIshizuka.SentiFul:Alexiconforsentimentanalysis[J].IEEETransactionsonAffectiveComputing.2011.2(1):22-36.BlairGoldensohnS,HannanK,McDonaldR,etal.Buildingasentimentsummarizerforlocalservicereviews[C].ProceedingsoftheWWW2008Workshop:NLPintheInformationExplosionEra.Beijing,China:NLPIX,2008:200-207.HatzivassiloglouV,McKeownKR.Predictingthesemanticorientationofadjectives[C].ProceedingsoftheThirty-FifthAnnualMeetingoftheAssociationforComputationalLinguisticsandtheEighthConferenceoftheEuropeanChapteroftheAssociationforComputationalLinguistics.AssociationforComputationalLinguistics,1997:174-181.Nasukawa,Yi,Jeonghee,Tetsuya,Bunescu,Razvan.Sentimentanalyzer:extractingsentimentsaboutagiventopicusingnaturallanguageprocessingtechniques[C].ThirdIEEEInternationalConferenceonDataMining(ICDM),MelBourne,Florida,USA,IEEEPress,2003:427-434.TheresaWilson,JanyceWiebe.RecognizingContextualPolarityinPhrase-LevelSentimentAnalysis[C].ProceedingofConferenceonHumanLanguageTechnologiesandEmpiricalMethodsinNaturalLanguageProcessing.Morristown:ACL,2005:347-354.王素格,杨安娜,李德玉.基于汉语情感词表的句子情感倾向分类研究[J].计算机工程与应用,2009,45(24):153-155.杨鼎,阳爱民.一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J].计算机应用研究,2010,27(10):3737-3739.Taboada,Maite,BrookeJ,TofiloskiM,etal.Lexicon-basedmethodsforsentimentanalysis[J].ComputationalLinguistics,2011,37(2):267-307.王振宇,吴泽衡,胡方涛.基于HowNet和PMI的词语情感极性计算[J].计算机工程,2012,38(15):187-189,193.WeichselbraunA,GindlS,ScharlA.ExtractingandGroundingContext-AwareSentimentLexicons[J].IEEEIntelligentSystems,2013,28(2):39-46.LiSS,SuYan.Chinesesentimentdictionaryconstructionmethodbasedonbilingualinformationandlabelpropagationalgorithm[J].JournalofChineseInformationProcessing,2013,27(06):75-81.RaoY,LeiJ,WYL,etal.Buildingemotionaldictionaryforsentimentanalysisofonlinenews[J].WorldWideWeb,2014,17(4):723-742.KaranasouM,DoulkeridiscC.DsUniPi:anSVM-basedapproachforsentimentanalysisoffigurativelanguageontwitter[C].InternationalWorkshoponSemanticEvaluation,Denver,Colorado,2015:709-713.梁亚伟.基于情感词典的中文微博情感分析模型研究[J].现代计算机,2015(18):13-17.刘德喜.情感词扩展对微博情感分类性能影响的实验分析[J].小型微型计算机系统,2016,37(5):957-965.闫晓东,黄涛.基于情感词典的藏语文本句子情感分类[J].中文信息学报,2018,32(2):75-80.YuqiansiHe.ChineseSentenceEmotionClassificationMethodBasedonSemanticAnalysis[C].InstituteofManagementScienceandIndustrialEngineering.Proceedingsof20197thInternationalEducation,Economics,SocialScience,Arts,SportsandManagementEngineeringConference(IEESASM2019).InstituteofManagementScienceandI
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纤维支气管镜肺泡灌洗治疗小儿重症肺炎的临床效果观察
- 驾校安全协议书(2篇)
- 宁波十校2025届高三3月联考地理试卷(含答案)
- 暑假去旅游创意画
- 2025年热敏型CTP版项目合作计划书
- 2025年关于小马过河标准教案
- 腰椎结核术中护理查房
- 2025年《机电工程管理与实务》考试备考宝典:基础知识点库与典型试题
- 2025年护士执业资格考试题库:护理教育与培训护理外科护理历年真题及解析
- 2025年小学教师资格《综合素质》教育资源整合试卷含答案分析
- 国家公务员考试准考证模板
- 西北大学本科学生课程成绩评分转换标准
- 固定资产盘点管理规定完整版
- 江苏扬州市梅岭小学二年级数学下册期末复习卷(一)及答案
- 旅游客源地旅游需求与预测课件
- 专升本英语阅读理解练习
- 安徽大学计算机考研复试题
- 高考作文答题卡(作文)
- 《城市规划设计计费指导意见》2017修订稿
- 防排烟工程课程设计
- 海泰电子病历系统-(医生)用户手册
评论
0/150
提交评论