版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2016年4月19日,习近平总书记在网络安全和信息化工作座谈会上提到:“网络空间是亿万民众共同的精神家园。网络空间天朗气清、生态良好,符合人民利益。网络空间乌烟瘴气、生态恶化,不符合人民利益。谁都不愿生活在一个充斥着虚假、诈骗、攻击、谩骂、恐怖、色情、暴力的空间。”党的十八大以来,习总书记高度重视网络生态建设,强调要营造一个风清气正的网络空间。网络虚假信息凭借数据挖掘、人工智能、深度伪造等技术手段,可以实现文字、图片、音视频的随意嫁接、篡改和生成,可能会扰乱社会公众的日常生活,影响社会舆论走向,甚至会对国家政治和意识形态安全造成恶劣影响。《2018年虚假新闻研究报告》显示,在线社交网络是网络虚假新闻的主要“温床”,涉及体育、法治、教育、文化、财经等多个领域,分布领域之广为历年之最。随着社交媒体的发展,社交网络中的信息呈指数级增长,而在这些信息中很有可能隐藏着各种各样的虚假信息,这些消息通过微博、社交软件、论坛、新闻站点等各类平台以极快的速度传播着。与传统媒体,如报纸、电视等相比,在社交媒体上浏览或发布信息往往更及时、成本更低。与此同时,大量未经证实的信息以前所未有的速度传播,影响舆论,欺骗大众,对社会造成恶劣的影响。由于数据量越来越大,发现这些虚假信息变得越来越困难,而传统依赖人工举报和审核的方式只能检测出其中的一小部分,大量虚假信息并没有被检测出来,而且由于数据量庞大,依赖人工的方式难以发现海量数据环境下的虚假信息。随着人工智能(Artificial
Intelligence,AI)产品的应用和流行,越来越多的人依赖AI辅助开展工作。用户不用花费大量的时间在网络上寻找所需要的内容,ChatGPT便可以给出高质量的回答和内容,这将极大地增加用户的黏性。但是,这些AI工具在带给人们工作便利的同时也可能会产生和传递错误的信息和观点,一旦被别有用心的人利用将产生不可估量的后果。目前,ChatGPT暴露出的一些问题已经引起了国内外广大学者和工业界的关注和广泛讨论,甚至有人担心这项技术的缺陷可能会导致虚假信息越来越多。虚假信息之所以如此泛滥,一方面是因为虚假信息往往与真实信息融合在一起,是不完全错误的信息,容易混淆视听,而普通大众缺乏对虚假信息的判断能力,从传播链上无法阻碍虚假信息的传播;另一方面是因为虚假信息一般是别有用心之人为了达到某种目的而利用大众心理故意编造的,由于利用了大众的从众心理和兴趣爱好,一定程度上会加速虚假信息的传播。社交网络的不断推广和应用加速了虚假信息的传播,虚假信息已经成为网络空间安全应用所普遍关注的热点和难点问题,引起了不同领域学者的广泛关注,复杂网络、传播学、社会学、心理学、人工智能等多个学科领域的学者从不同的角度揭示了虚假信息的传播机理,研究了提升虚假信息的检测准确率的方法,以更好地在现实生活中帮助人们鉴别虚假信息。在产业应用方面,Snopes、Politifact、ABCNews、FactC和FullFact提供了事实核查功能,以保证新闻质量,提升媒体公信力。Facebook与独立的事实核查机构合作,依靠人工智能工具开发虚假信息检测产品,以识别和限制虚假新闻的传播;美国兰德公司开发了一种基于人机混合智能的方案,以验证网络新闻的真实性;腾讯推出了事实查证平台“较真”,可查证医疗卫生、社会新闻等消息,但查证过程主要依赖人工;中科睿鉴研发了基于内容的人工智能识谣平台“睿鉴识谣”,提供伪造识别和虚假判断等功能,但最终的认证分析还需人工辅助。学术界和产业界仍需共同努力,不断提升虚假信息检测的准确率和效率,还网络空间一片清朗。本文后续章节的内容安排如下:首先介绍了虚假信息的定义;其次介绍了虚假信息研究使用的数据集及评价指标;再次从内容特征和上下文特征两个方面对虚假信息检测的方法进行了详细描述;最后,对虚假信息检测技术进行了总结,讨论了不同检测技术的适用场景,并对未来的工作进行了展望。1虚假信息检测1.1
相关概念了解虚假信息的概念和分类可以更好地实现虚假信息的检测和治理。很多学者参考《牛津应用词典》对虚假信息的定义,认为虚假信息(FakeInformation)是“错误的信息”(Misinformation)或“具有误导性的信息”(Disinformation)。维基百科中指出Misinformation是指不正确或误导性的信息,不管是否有意误导。Disinformation是指故意误导或有偏见的信息,一般是为了欺骗人们而故意传播的虚假信息,尤其指政府机构故意发布的虚假信息。有些学者则认为虚假信息是指利益双方为了达到一定目的而故意制造出来误导人们的信息,信息内容本身具有一定的表面性和片面性。综合以上观点,不管是否有意误导,只要是能够被证明为假的信息应该都属于虚假信息。虚假信息的产生可能是因为当事人的认知有限或被表面现象所蒙蔽,与是否故意误导无关。例如,新冠疫情期间的一些虚假信息可能仅仅是因为发布者的认知片面所导致的,并非故意误导大众。因此,网络虚假信息既包含错误的信息(Misinformation),也包括具有误导性的信息(Disinformation),是指通过网络传播的不准确、不真实或具有误导性的网络信息。在学术研究中,与虚假信息概念类似的还有谣言和虚假新闻。谣言往往没有特定来源,通常是指不可靠的、未经证实的,但结果可能为真也可能为假的信息。谣言是对人们感兴趣或觉得重要的事情未经证实的阐述,谣言具有不确定性、时效性和主观性。例如,新冠疫情初期在网络上传播的很多信息都属于谣言。虚假新闻是指以传播虚假信息来误导大众,带来政治、经济利益的新闻,是一种具有明显传播意图的虚假信息,例如,2016年美国大选出现的大量虚假新闻。综上所述,虚假信息、谣言、虚假新闻之间具有一定的联系,但也存在一定的差别。区别这些概念,掌握这些概念的特征有助于更好地提升检测的效能。虚假新闻是虚假信息的一种,是被编辑成了新闻的形式进行发布和传播,是有意制造出来误导大众的。谣言和虚假信息之间存在一定的交集,结果被认定为假的谣言属于虚假信息。虚假新闻因为形式为新闻,因此与谣言存在本质上的差异。虚假信息、谣言、虚假新闻之间的关系如图1所示。图1虚假信息、谣言、虚假新闻的关系1.2公开数据集在虚假信息检测研究中,研究者整理并公开了大量的数据集,包括中文数据集和英文数据集,旨在促进虚假信息研究的发展。但是,这些数据集以英文数据集居多,中文数据集相对来说要少一些。这些数据集主要是从现有的主流社交媒体中收集的,例如新浪微博、Twitter、Facebook等。现有的公开数据集如表1所示。表1 虚假信息公开数据集Weibo21是在新浪微博中收集的首个中文多领域虚假新闻检测数据集,该数据集收集了从2014年12月到2021年3月,涉及科技、军事、教育等9个领域的数据,共包括4488条虚假新闻和4640条真实新闻,包括文本和图像数据。虚假疫情新闻数据是北京市经济和信息化局、中国计算机学会大数据专家委员会联合主办的“科技战疫·大数据公益挑战赛”中提供的数据,是一个多模态虚假新闻检测数据集,包含文本和图片两种模态的信息,共有14930条虚假新闻。中文谣言数据是在新浪微博不实信息举报平台抓取的中文谣言数据,包含与微博原文相关的转发与评论信息。数据集包含两部分:第1部分包含从2009年9月4日至2017年6月12日的31669条谣言;第2部分包含微博原文与微博原文相关的转发和评论信息,数据集中共包含谣言1538条和非谣言1849条。COVID-19虚假新闻由SusanLi等人收集,共收集了1164篇有关COVID-19的新闻文章和社交网络帖子,其中有575篇虚假新闻。Fakeandrealnewsdataset是由ClémentBisaillon在kaggle上发布的美国大选新闻真假分类数据集,包括20826篇真新闻和17903篇假新闻。fact_checking_01为2021年人民网主办的“人工智能算法挑战赛”赛事一的数据,每条数据包括作者和文本内容数据,数据标签根据虚假程度分为6个类别,分别为极度虚假、虚假、大部分虚假、半真半假、大部分真实、真实。该数据集共有18013条数据,其中有15846条虚假信息。FakeNewsNet由PolitiFact和GossipCop两个数据集组成,包括新闻内容和社交上下文,新闻内容包括作者、标题、正文、图片、视频,社交上下文包括用户画像、关注、粉丝等。PolitiFact共有1056篇文章,其中虚假文章432篇。GossipCop共有22865篇文章,其中虚假文章6048篇。BuzzFeedNews为2016年美国大选期间相关的虚假新闻分类数据集,共有2528篇新闻,其中901篇为虚假新闻。BuzzFace数据集是在BuzzFeedNews的基础上整理得到的数据集,包括文本、图像和视频数据,共有2282篇文章,其中虚假文章有2018篇。LIAR数据集是从事实核查网站PolitiFact收集的数据集,包括内容本身、内容来源及正文。共有12743条数据,其中有虚假信息10690条。1.3评价指标虚假信息检测算法常用的评价指标包括精确率(Precision)、召回率(Recall)、(F1score),因此,需要使用混淆矩阵进行计算。混淆矩阵中真阳性、真阴性、假阳性、假阴性的定义如下。(1)真阳性(TruePositive,TP):待预测信息为虚假信息,预测结果为虚假信息。(2)真阴性(TrueNegative,TN):待预测信息为真,预测结果为真。(3)假阳性(FalsePositive,FP):待预测信息为真,预测结果为虚假信息。(4)假阴性(FalseNegative,FN):待预测信息为虚假信息,预测结果为真。根据以上定义,精确率、召回率、可以定义为:(1)精确率P表示预测结果正确的虚假信息数量TP占总的被识别为虚假信息的比例,其表达式为:例如,共有10个待检测的样本,预测为假的有8个,其中预测正确的有6个,则精确率为66.67%。(2)召回率R表示识别出的虚假信息数量TP占总的虚假信息样本数量的比例,其表达式为:例如,共有10个待检测的样本,其中共有虚假信息6个,预测为假的有8个,这8个包含样本中的6个虚假信息,也就是说,所有的虚假信息都被识别了,则召回率为100%。(3)F1指标综合了精确率和召回率两个指标,给予其相同的权重,其表达式为:2基于内容特征的虚假信息检测方法基于内容特征的虚假信息检测主要利用自然语言处理等技术挖掘虚假信息中的内容和图像等特征,以进行虚假信息检测。在进行文本特征提取时,首先需要将文本内容处理成机器能够理解的形式,主要采用词频-逆向文件频率(TermFrequency–InverseDocumentFrequency,TF-IDF)、Word2Vec、来自变压器的双向编码器表示(BidirectionalEncoderRepresentationsfromTransformers,BERT)[18]等方式进行文本数据处理;其次基于处理好的文本向量利用传统机器学习方法和深度学习方法进行特征提取和模型训练,以进行虚假信息检测。2.1传统的机器学习方法传统的机器学习方法进行虚假信息检测时,先对原始数据进行预处理,然后进行特征提取和特征选择,最后使用朴素贝叶斯、支持向量机(Support
VectorMachine,SVM)、决策树等算法构建分类模型,其流程如图2所示。图2传统机器学习方法传统的基于机器学习的虚假信息检测方法主要依赖人工进行特征提取。讨论了各种利用机器学习检测虚假新闻的方法。提出了一种基于机器学习的虚假新闻检测模型,利用集成学习对支持向量机模型进行集成,提升了虚假新闻的分类准确率。陈燕方等人提出了一种基于文本情感特征的虚假信息检测模型。通过构建负面情感词库对虚假信息文本进行分析,并构建贝叶斯和支持向量机模型,取得了比较好的实验效果。但是,传统的机器学习方法严重依赖特征工程,不仅耗时且需要针对不同的数据集进行特征提取,存在不够灵活、可扩展性较差的问题。2.2深度学习方法由于深度学习技术的出现和应用,可以自动地从虚假信息样本中提取出学习特征来进行虚假信息检测,并能够自动地捕获文本内容潜在语义特征,检测效率和准确率都有一定程度的提升。利用深度学习进行基于内容特征的虚假信息检测的框架如图3所示。图3深度学习检测框架利用深度学习进行基于内容特征的虚假信息检测,首先需要将文本内容处理成机器能够理解的形式,其次将处理后的文本向量输入神经网络进行训练,最后训练好的模型就可以用来进行虚假信息检测。Chen等人[23]提出了一种基于循环神经网络(RecurrentNeuralNetwork,RNN)的深度注意力模型,将注意力嵌入到递归神经网络中,以捕获信息随时间变化的特征。还有学者将卷积神经网络(ConvolutionalNeuralNetworks,CNN)、BERT、长短期记忆网络(LongShort-TermMemory,LSTM)等模型应用到虚假信息检测中。此外,还有学者利用图片和文本之间的多模态特征进行虚假信息检测,其框架如图4所示。图4多模态虚假信息检测框架在针对多模态数据进行虚假信息检测时,一般是将文本特征、图片特征、图文相似特征进行拼接,利用图片和文本之间的语义特征来提升检测的准确率。提出了一种多模态虚假新闻检测框架,利用VGG19提取图像特征,利用BERT提取文本特征。在另外一篇文献中,利用VGG提取图像特征,利用XLNET提取文本特征。利用VGG和Text-CNN提取图像和文本特征。这些文献都是使用不同的方法提取图像和文本特征,然后将图像特征和文本特征进行拼接,进行虚假信息检测。考虑了图片中的文本信息特征、图像特征、原文文本特征,实现虚假新闻的检测。提出从新闻的不同模态和不同角度提取特征,并通过自举多元表征及优化多模态特征学习方法实现具有更高准确率和一定解释性的虚假新闻检测方案。3基于社交上下文特征的虚假信息检测方法上文介绍的基于内容特征进行虚假信息检测的方法大多数是有监督的学习方法。有监督的学习方法准确率较高,但是需要大量的标签数据进行学习。当标签数据比较少或者没有标签时则需要人工进行数据标注,或者采用无监督或半监督的学习方法,而人工进行数据标注耗时耗力,难以实施。基于社交上下文特征的虚假信息检测主要基于信息在社交网络中传播和交互所产生的外部特征进行虚假信息检测,这些外部特征有信息的传播结构、用户行为和来源可信度等,因此可以基于社交上下文信息实现无监督或半监督的虚假信息检测。基于上下文的虚假信息检测框架如图5所示。图5基于上下文的虚假信息检测框架3.1基于传播网络的方法虚假信息传播的深度、大小、最大或平均宽度等特征都会显著区别于真实信息。因此,可以利用用户的社交网络结构或虚假信息在社交网络中的传播特征实现虚假信息检测。薛海涛等人提出了一种融合传播链中的用户属性和消息内容的虚假信息检测模型,利用node2vec对用户结构进行特征表示,基于用户属性、传播结构和消息内容特征实现虚假信息检测。Yang等人利用RNN和CNN对谣言的传播和评论进行建模,将两个特征拼接进行谣言检测。基于传播网络提出了一种基于主动学习的虚假信息检测方法,该方法是基于对抗主动学习的图神经网络,其包括一个分类器和一个选择器。分类器使用标记数据和未标记数据进行训练,以预测未标记信息的标签。选择器评估预测标签的质量,并根据查询策略从它们中选择高值候选节点。通过不断查询高值候选节点进行分类器的训练和调优,从而利用少量的标记数据就可以获得良好的性能。3.2基于信息来源的方法不可信的用户或平台发布的信息更有可能是虚假信息,可信度高的用户或平台发布的信息更有可能是真实的信息。基于此,可以通过对信息来源进行可信度评估来实现虚假信息的检测。信息来源可信度可以分为用户可信度、内容可信度和平台可信度。信息来源的评分由三者加权融合计算得到,将信息源的可信度和内容特征进行拼接输入神经网络,就可以实现虚假信息的检测。李璐旸提出了一种基于记忆神经网络的融合信息来源的虚假信息检测模型,将信息源的可靠度视为外部知识,运用记忆单元存储多个信息源的可靠度,作为长期记忆辅助信息可信度的预测。利用用户的历史发文信息计算用户的可信度,并结合新闻传播特征进行虚假新闻检测。3.3基于用户行为的方法用户行为包括评论、点赞、转发等,一般而言,虚假信息更有可能引起讨论,且评论中包含大量的文本信息可以利用。因此,可以利用用户行为实现虚假信息检测。利用源推文的短文本内容、社交上下文信息中的帖子评论内容、传播网络、转发用户序列及用户属性和行为等异构数据,通过注意力机制,对异构数据特征进行有效融合,实现虚假信息检测。分析了3个社会理论:(1)用户对不实言论的看法有更多不同的情感极性,不太可能是中性的;(2)社会偏见较大的用户分享的言论更有可能是假的;(3)不可信的用户更有可能传播不实言论。基于以上3个理论提出了一种弱监督虚假新闻检测方法,利用少量手工标注的数据和来自用户参与社交活动的不同来源的大量弱注释数据。引入启发式标记函数用以弱标记大量数据,同时由于并非所有弱实例都具有相同的信息量,引入标签加权网络(LabelWeightingNetwork,LWN)来建模这些弱标签的权重以进行优化学习,实现弱监督条件下的虚假信息检测。4结 语虚假信息一直是研究者们研究的热点问题,在基于内容的虚假信息检测方面,传统的机器学习方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论