




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于情感分析和Transformer的谣言检测研究的国内外文献综述目录TOC\o"1-2"\h\u9948基于情感分析和Transformer的谣言检测研究的国内外文献综述 1150731.1引言 1215601.2基于传统机器学习的谣言检测 2249411.1.1基于文本内容的谣言检测 2250431.1.2基于用户行为的谣言检测 334601.1.3基于时间序列的谣言检测 3217531.1.4基于传播模型的谣言检测 4275031.3基于深度神经网络模型的谣言检测 5154161.3.1基于循环神经网络模型的谣言检测 5156931.3.2基于卷积神经网络模型的谣言检测 540841.3.3结合卷积神经网络和循环神经网络模型的谣言检测 6178551.3.4基于生成对抗网络的谣言检测 6196601.4研究现状总结 626954参考文献 71.1引言谣言是一种特殊的社会现象,它已伴随了人类社会千余年,有学者认为谣言与人类的集体记忆和社会情形相关。我们无法预测谣言的发生和结束,它具有偶然性和突发性。一直以来,国内外许多专家学者对谣言的产生、特性以及传播方式做了大量的研究,在心理学、社会学等多个领域中,对谣言的定义都是不同的,目前,关于“谣言”,并没有一个明确的概念。谣言是通过刻意歪曲、虚构或编造某一事实所产生一种与事实不符的信息,百度百科[2]将“谣言”定义为没有相应事实基础,却被捏造出来并通过一定手段推动传播的言论,另一种说法[49]将谣言定义为一种非正式官方的、在某一范围、某一特定人群和某一时期内传播的包含虚假成分的信息。由此可以看出,谣言可能是完全没有事实依据凭空产生的,也可能包含一定的真实成分,并非完全虚假。由于互联网的迅速发展,现代谣言并不在局限于一定区域、一定人群和一定时期内传播,网络谣言的传播范围广,传播速度快,传播途径多,传播时间长,且具有反复性。本文中所讨论的谣言是指那些没有真实凭证、刻意捏造的或者有部分事实依据,却被造谣者故意夸大扭曲的、偏离了事实真相的消息。谣言检测的目的在于能够及时有效的发现谣言并遏制其传播,降低谣言造成的社会危害和不良影响。当前许多社交平台针对谣言的检测方法依赖于用户的揭发检举和相关专家或官方部门的证实,然而这种方法效率低下,无法实现谣言实时检测。因此,一种自动识别谣言的方法成为了近几年研究的热门方向。针对社交网络中的谣言泛滥问题,学术界进行了大量的研究与探索,大多数研究者将谣言检测看作一个二分类问题,目前谣言检测包括两个发展阶段:早期基于传统机器学习的谣言检测和基于深度神经网络模型的谣言检测。1.2基于传统机器学习的谣言检测早期的谣言检测工作主要侧重于从文本内容、用户行为、时间序列和传播结构中提取谣言特征,用有监督的方式从标记数据中训练分类器,该方法重点在于选取具有高区分度的谣言特征,因此基于传统机器学习的谣言检测方法可按谣言的特征将其分为以下四类:基于文本内容的谣言检测、基于用户行为的谣言检测、基于时间序列的谣言检测和基于传播模型的谣言检测。1.1.1基于文本内容的谣言检测基于文本内容的谣言检测方法主要利用该事件的文字描述信息,从中提取文本内容特征,用于训练谣言分类器。其中文本内容特征主要包括词汇特征(Lexicalfeatures)、语法特征(Grammaticalfeatures)、句法特征(Syntacticfeatures)、语义特征(Semanticfeatures)和主题特征(Themefeatures)。Qazvinia等人[3]选取了句法特征和词汇特征来检测谣言,使用词袋模型提取了文本词汇的一元词汇特征和二元词汇特征,进一步提取了文本词汇的一元词性特征和二元词性特征,通过对收集到的数据进行分类标注,验证了浅层文本内容特征和微博元素特征在谣言检测中的区分度和有效性,通过集成分类器和贝叶斯分类器输出Twitter数据的类别。Gayo-Avello等人[4]和Castillo等人[5]认为虚假信息与真实信息在内容模式上存在不同,大多数谣言是被编造出来的,其目的在于误导民众,为更好地吸引公众注意在内容模式上具有极强的夸张性,与真实信息相比,谣言文本的长度普遍较短。Castillo等人[5]基于Twitter数据,针对谣言的内容模式,提取了内容、用户、话题和传播四类特征共68个,选取了其中最具区分度的15个特征,并构建的J48决策树对Twitter平台上特定的新闻主题信息的真实度进行了评估,最终识别准确率达到了86%。除了词汇特征或语义特征外,一些研究者提出了另外可以反映谣言文本内容特性的主题特征。Wu等人[6]基于新浪微博数据,利用主题模型从谣言消息、其作者以及其响应的统计信息中提取特征,形成话题级别的特征向量,构建一种基于图核的混合支持向量机分类器,最终谣言检测准确率达到了91.3%。Home等人[7]认为,真假新闻在整体的标题结构和标题中专有名词的使用上有明显区别,假新闻的受众人群是那些不太可能阅读标题以外内容的受众,于是在假新闻的标题中会包含更多内容来吸引大众的注意,作者通过提取标题结果的主题特征,并结合语言的文体特征构建了假新闻检测模型,并取得了良好的效果。1.1.2基于用户行为的谣言检测随着对文本内容研究的越来越全面,更多的文本内容特征被挖掘,在谣言检测准确率上也得到了一定程度的提高,但在现实社交网络中,信息的传播主要依靠用户之间互动,因此社交网络中用户关注,转发,评论等用户行为特征可作为谣言检测的依据,于是有研究者提出了一种基于用户行为的谣言检测方法。Morris等人[8]提出通过提取Twitter用户行为特征,实现虚假信息检测任务。Liang等人[9]认为谣言发布者的行为可能会与普通用户不同,一篇谣言帖子可能会产生与普通帖子不同的反应,提取了5个用户行为新特征,并结合文本内容特征和传播模型特征共同构建决策树分类器,在新浪微博数据上验证了该文方法和特征的有效性,同时发现发布谣言的用户会在短时间内关注大量的人以此提高自身的关注量。Zhang等人[10]利用用户在微博中的影响力,提出的消息的隐式特征和浅层特征相结合的自动谣言检测方法,提取了社会影响、意见转发影响、消息的匹配程度等与用户影响力相关的特征,并结合流行倾向、评论的情感极性和内部和外部一致性构建的分类器,提升了谣言识别精度。Mohammad等人[11]提出用户的对推文的意见可以反应新闻的真实性,在Twitter数据中对推文的立场和情感进行了注释,通过提取文本深层语义特征,并利用支持向量机判断评论文本用户的情感倾向,达到识别谣言的目的。Shu等人[12]认为社交媒体上的用户资料与假新闻之间存在一定关系,通过挖掘用户资料信息中有用的特征,选两组用户群体为代表,其中包括一部分有经验的用户,他们有判别谣言的能力,另一部分无经验的用户,他们缺乏判别谣言的能力,通过对比两组用户群体资料特征,揭示了他们区分假新闻的潜力。Yang等人[13]提出了一种在无监督的谣言检测方法,该方法基于用户在社交媒体上的参与度,通用朴素贝叶斯捕获用户可信度、新闻真实性和用户意见之间的关系。并加入两个随机变量用户可信度和新闻真实性,来判断新闻的真实性。1.1.3基于时间序列的谣言检测Friggeri等人[14]认为谣言有效的检测信号特征和传播模式都可能随着时间的推移而发生变化。当前大部分研究者都是通过设置一个任意的时间窗口来研究谣言的传播,这种设置固定观察点的方式很难捕获谣言的传播模式,因此一部分研究人员采用基于时间序列的谣言检测方法。Kwon等人[15]提出了可利用谣言的时间序列特征进行谣言检测,于是Kwon等人基于Twitter数据提出了时间序列拟合模型,总结推文数量随时间变化特点,实现了谣言识别。Ma等人[16]认为谣言文本内容、传播结构和用户行为会随时间的变化而变化,通过扩展时间序列特征的种类,构建了基于动态时间序列的支持向量机分类器。Kwon等人[17]在2017年提出了将时间序列特征与用户、语义和传播结构等有效特征相结合的方法,构建了谣言检测系统,记录了谣言传播的不同时间窗口的检测效果,据统计数据显示,用户特征和语义特征在谣言传播初期就具有较好的分类效果,而传播结构特征和时间序列特征在长期窗口中才可取得较好的分类效果,因此验证了时间序列特征在谣言检测中的有效性。1.1.4基于传播模型的谣言检测此外,还有一种方法通过谣言信息传播模型实现谣言检测任务。Gupta等人[18]提出了一种基于事件图优化的可信度分析方法,在将Twitter事件、推文和相关用户组成的多类型网络上进行可信度传播实验,通过正则化的方法在新的事件图上更新事件可信度分数,从而增强信任分析,最终实现Twitter数据的信息分类。JinF等人[19]提出可使用流行病的传播模式描述谣言的传播,通过描述twitter中由新闻和谣言引起的信息级联,证明了该方法在捕捉这些事件中的扩散是准确的,并说明该方法可以与其他使用内容建模的谣言检测策略有效地结合起来。JinZ等人[20]认为对于一个新闻事件来说,可以从不同的尺度表征新闻事件,于是提出了一种分层传播模型,将这些实体与它们的语义关联和社会关联联系起来后,每个实体的可信度值在这个网络上传播,通过将这个传播过程表述为一个图优化问题,使用迭代算法最终得出全局最优解。Liu等人[21]认为谣言与非谣言在社交媒体环境中的传播模式是有系统差异的,基于这一假设,提出了一种基于异构用户表示的谣言识别信息传播模型,通过谣言和非谣言传播模式的差异来区分它们,实验结果表明,基于异构用户表示的新信息传播模型能够有效区分谣言与可信社交媒体内容。Ma[22]从微博的传播结构入手,首先用传播树对微博帖子的扩散进行建模,然后,提出了一种基于核的传播树核方法,通过比较传播树的结构的不同来区分谣言与非谣言,最后实验结果表明了该文提出的基于核的方法能够更快、更准确地检测出谣言。Kim等人[23]认为谣言的传播取决于用户之间的话题兴趣的一致性,构建了基于贝叶斯非参数模型,计算用户话题兴趣之间的相似度,该模型重点关注新闻话题是否一致,扩展了分层狄利克雷过程对新闻主题的建模,并引入贝叶斯高斯过程潜变量模型来发现同质性值,通过在一个真实的社交网络数据集上训练模型,找到了新闻故事的同质价值,这些同质价值与它们的真实性标签及其内容密切相关。1.3基于深度神经网络模型的谣言检测近年来,随着深度学习技术的蓬勃发展,神经网络模型成为了解决传统基于手工提取特征问题的主要方法,神经网络模型可实现对深层次特征的自动学习,大大提高了检测的效果和效率,于是从此开启了基于深度神经网络的谣言检测时代。程亮[24]等人提出了基于BP神经网络和冲量项的微博谣言检测模型,改进传统识别谣言方法检测性能的不足,实验结果表明该方法在谣言检测的准确率上有所提高。1.3.1基于循环神经网络模型的谣言检测Ma[25]等人利用循环神经网络(RNN)对转帖进行建模,从基于时间序列的内容特征中捕获隐藏表示。实验结果表明该深度学习模型能自动挖掘处于时间序列的内容特征,从而提高了模型的分类能力。Prashanth等人[26]构建了基于循环神经网络的谣言检测模型,提取了Twitter数据单词向量和字符向量,为了提高数据的鲁棒性,使用数据增强技术扩展了训练数据集,提升了宏观平均精度值。Chen等人[27]将自动编码器与循环神经网络结合构造了无监督的深度学习模型,并引入用户行为这一重要特征提高了模型的检测性能。Li等人[28]提出了一种基于深层双向的门控制循环单元(D-Bi-GRU)谣言检测方法,通过多层双向的门控制循环单元,自动学习用户响应信息在事件流中的前向序列表示和后向序列表示,探究网络用户群体对事件或信息的响应随时间的变化情况。1.3.2基于卷积神经网络模型的谣言检测Yu等人[29]提出了循环神经网络对谣言早期检测效果不明显。因此,该文采用卷积神经网络构建谣言检测模型。实验结果显示该模型在谣言早期检测中表现出良好的效果。刘政等人[30]同样使用卷积神经网络构建谣言检测模型,基于微博事件,将输入事件向量化,通过卷积神经网络提取微博文本的深层语义特征,并利用卷积神经网络的特点提取了微博局部特征,与其他算法对比,证明了该方法准确识别谣言事件效果更优。1.3.3结合卷积神经网络和循环神经网络模型的谣言检测李力钊等人[31]结合了卷积神经网络(CNN)和门控循环单元(GRU)的优点,通过将微博数据句向量化,采用卷积神经网络并结合门控循环单元的实验模型,分别提取微博数据的局部特征和全局特征,进而实现微博谣言检测。结果表明,该模型具有良好的谣言识别性能。Liu等人[32]提出了一种基于新闻传播路径分类的谣言早期检测模型,该模型根据新闻传播路径构建多元时间序列特征,序列包含了参与传播新闻的用户特征,使用卷积神经网络捕获用户变化的局部特征,并结合循环神经网络模型捕获全局特征,最终实现假新闻检测。Guo等人[33]提出了一种结合社会信息的分层神经网络(HSA-BLSTM),首先建立了表征学习的层次双向长短时记忆模型,然后通过注意力机制将社会语境整合到网络中,将重要的语义信息引入到框架中,从而实现更稳健的谣言检测。1.3.4基于生成对抗网络的谣言检测Ma等人[34]提出了基于生成对抗学习的方法检测Twitter上的谣言。其中的生成器和判别其通过循环神经网络搭建,由鉴别器作为分类器,而生成器通过产生冲突的噪声来提高鉴别器的分类性能,使谣言文本生成器和鉴别器在对抗性上互相增强,以提高模型的鉴别能力。李奥等人[35]在Ma的基础上,提出了一种改进生成对抗网络的谣言检测方法,其中将生成器中的RNN网络换成Transformer结构,实现文本语义特征的提取,判别器采用基于双向LSTM深度网络分类模型,并加入注意力机制来解决循环神经网络长距离依赖缺陷,从而提高了模型对谣言的判断能力,分别在新浪微博和Twitter数据集上验证了该方法的有效性。1.4研究现状总结基于传统机器学习的谣言检测是手工提取特征,并结合机器学习的方法构建分类器。这一方法的重点在于提取能够明显区分谣言与非谣言的特征集以及特征处理,主要从内容、传播以及用户等方面提取谣言特征,结合机器学习的方法实现谣言识别,这种方法在谣言检测中初具成效。但是,该方法依赖人工提取特征,效率低费用高,手工设计的特征泛化性能较差,往往只适用于特定的场景,且缺乏从谣言文本内容中提取的深层次表征。基于深度神经网络的谣言检测模型可自动学习有效的特征,克服了手工特征在提取特征工作上的繁琐和场景局限性问题。深层神经网络的提出是对传统特征选择和提取模式的突破,深度神经网络克服了特征稀疏的问题,采用连续化的词向量表示文本,自动提取具有高区分度的特征,模型的准确率往往较高,目前用于谣言检测的效果比较好。然而神经网络模型容易过拟合、参数较多导致训练速度较慢,循环神经网络存在梯度消失和不容易平行化的问题,LSTM和GRU虽然可以缓解梯度消失的问题,但不能彻底解决,基于卷积神经网络的谣言检测模型更侧重于提取局部特征,但对特征理解不足,没有记忆功能。另外,深度学习的方法是使用神经网络自动学习有效的特征来进行谣言检测。然而谣言检测模型通常是通过随机初始化模型参数来进行模型的训练,这种随机初始化模型参数的缺陷在于当数据集过大时,模型相当于从头开始训练,训练速度会较为缓慢;训练数据集较小时,对于较为复杂的神经网络模型可能无法到达预期的效果。另外,早期所使用的预训练模型,比如Word2Vec属于一种静态技术,即单词的词向量仅局限于当前它所处的上下文中,当应用场景改变时,单词的词向量无法做出相应的变化,这就导致了多义词的词向量表示困难。针对以上问题,本文提出来基于情感分析和Transformer模型的早期微博谣言检测方法。首先采用一种动态词向量表示方法,利用XLNet预训练对模型部分参数赋予有效初始值,加快了模型训练速度,同时解决了多义词的词向量表示问题;然后利用Transformer模型中的多头注意力机制解决了长文本远距离依赖问题,从全局提取了微博内容的深层语义;最后融合微博评论的情感特征,进一步提升了谣言检测的准确率。参考文献QazvinianV,RosengrenE,RadevDR,etal.Rumorhasit:IdentifyingMisinformationinMicroblogs[C]//ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.AssociationforComputationalLinguistics,2011.Gayo-AvelloD,MetaxasPT,MustafarajE,etal.Predictinginformationcredibilityintime-sensitivesocialmedia[J].InternetResearch,2013.CastilloC,MendozaM,PobleteB.Informationcredibilityontwitter[C]//Proceedingsofthe20thinternationalconferenceonWorldwideweb.ACM,2011:675-684.WuK,YangS,ZhuKQ.Falserumorsdetectiononsinaweibobypropagationstructures[C]//2015IEEE31stinternationalconferenceondataengineering.IEEE,2015:651-661.HorneBD,AdaliS.Thisjustin:Fakenewspacksalotintitle,usessimpler,repetitivecontentintextbody,moresimilartosatirethanrealnews[C]//EleventhInternationalAAAIConferenceonWebandSocialMedia.2017.MorrisMR,CountsS,RosewayA,etal.Tweetingisbelieving?:understandingmicroblogcredibilityperceptions[C]//ProceedingsoftheACM2012conferenceoncomputersupportedcooperativework.ACM,2012:441-450.LiangG,HeW,XuC,etal.RumorIdentificationinMicrobloggingSystemsBasedonUsers’Behavior[C].IEEETransactionsonComputationalSocialSystems,2015,2(3):99-108.ZhangQ,ZhangS,DongJ,etal.AutomaticDetectionofRumoronSocialNetwork[M].NaturalLanguageProcessingandChineseComputing,SpringerInternationalPublishing,2015.MohammadSM,SobhaniP,KiritchenkoS.Stanceandsentimentintweets[J].ACMTransactionsonInternetTechnology(TOIT),2017,17(3):26.ShuK,WangS,LiuH.Understandinguserprofilesonsocialmediaforfakenewsdetection[C]//2018IEEEConferenceonMultimediaInformationProcessingandRetrieval(MIPR).IEEE,2018:430-435.YangS,ShuK,WangS,etal.Unsupervisedfakenewsdetectiononsocialmedia:Agenerativeapproach[C]//Proceedingsof33rdAAAIConferenceonArtificialIntelligence.2019.FriggeriA,AdamicLA,EcklesD,ChengJ.Rumorcascades//Proceedingsofthe8thInter
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 艺术仓储与物流行业跨境出海战略研究报告
- 智能合约行业跨境出海战略研究报告
- 光储农业应用行业跨境出海战略研究报告
- 嘉峪关市第一人民医院招聘专业技术人员笔试真题2024
- 艺(美)术展览AI应用行业跨境出海战略研究报告
- 运动心理咨询室行业跨境出海战略研究报告
- 身体心理素质教育AI应用行业跨境出海战略研究报告
- 五年级语文下册复习课时安排
- 能源行业技术培训与安全措施
- 企业财务管理中信息技术应用能力提升心得体会
- 2025年浙江省杭州市拱墅区中考语文模拟试卷含答案
- 原发性高血压护理措施
- 人工智能基础(Python实现)-课件 第8章 生成式大模型应用
- 2024年安徽宁马投资有限责任公司招聘10人笔试参考题库附带答案详解
- 纪检监察审查调查业务培训
- 《变频器原理及应用》课件
- 2024年中考模拟试卷英语(苏州卷)
- 摄像服务行业品牌建设研究-深度研究
- 游戏人物立绘课程设计
- 人像摄影基础课件
- JT-T-1045-2016道路运输企业车辆技术管理规范
评论
0/150
提交评论