




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向社交网络的谣言传播者行为检测研究与实现TOC\o"2-3"\h\z\t"标题1,1"1绪论 31.1论文的选题背景及目的 31.2国内外研究现状分析 31.2.1基于分类器的识别模型 31.2.2基于深度学习的识别模型 41.3论文研究方法 42谣言传播者行为检测技术基础 52.1社区发现 52.2集成学习 52.3特征分析 63案例呈现:面向微博平台的疫情谣言传播者行为检测系统 73.1系统应用于目标 73.2需求分析 73.3可行性分析 84检测系统详细设计 94.1功能划分 94.2用户管理模块 104.3数据管理模块 114.4文本标注模块 124.5文本标注核实与查询 134.6系统实现 145结语 15绪论1.1论文的选题背景及目的据CNNIC发布的第47次《中国互联网络发展状况统计报告》称,截止2020年底,中国网民人数达9.89亿,与2020年3月相比上涨8.6%,互联网普及率高达70.4%。并且,2020年我国互联网行业在抵御新冠肺炎疫情和疫情常态化防控等方面发挥了积极作用,成为2020年经济的主要增长行业。在互联网普及率不断增加,移动互联网使用程度持续深化的背景下,社交网站、网络直播等新媒体形式开始深入到人们的日常生活中,渗透到日常生活的方方面面。在这样庞大的用户群体和信息体量下,用户发布的内容就存在监管和控制困难的缺点,微博在给人们的生活带来便利的同时,也给网络谣言的传播带来了可乘之机。中国社科院发布《中国新媒体发展报告》称,六成以上的网络谣言来源于微博。网络谣言难辨真假、传播速度快且蛊惑性强,对正常的社会秩序极易造成不良影响。任由网络谣言肆意传播,会使人心涣散,社会动荡,更有甚者,一些网络政治谣言还会危害国家安全、损害国家形象,威肋社会安全和国家稳定。而谣言识别就是要准确并且及时的在传播过程中识别出谣言,并减少甚至杜绝谣言所带来的的社会危害和影响。因此,微博谣言的识别工作无疑具有重要的研究价值和社会意义。1.2国内外研究现状分析目前,国内外学者针对网络谣言的识别开展了丰富的研究,其中国外的研究起步较早,主要是基于twitter平台发布的谣言开展研究,而国内研究开展相对晚一些,主要是以新浪微博为平台进行研究。1.2.1基于分类器的识别模型大多数学者将谣言的识别看作一个有监督的二分类问题,使用传统的机器学习方法构建分类器进行谣言的识别。在基于分类器的谣言识别研究中,谣言的特征提取至关重要,这些特征可以主要归纳为内容特征、用户特征、传播特征以及其他特征,不同学者从不同层面对这些特征进行了分析提取。传统的机器学习方法主要包括贝叶斯分类、决策树、随机森林、支持向量机等,其中Wang(2011),Qazvinian(2011)等学者使用贝叶斯分类器对微博谣言建立识别模型。Wang等(201l)从tweet文本中提取出了@、#、URL等内容标签特征,同时从Twitter的用户关系中引入朋友的数量、粉丝的数量、用户的声望三个特征,选择贝叶斯分类方法进行实验,对twitt?r的垃圾信息进行识别。Qazvinian等(2011)通过TwitterMonitor工具利用关键字正则匹配的方式抽取了谣言相关的推文,分析用户对于这些谣言数据集的信任度,通过分析用户的不同行为,在文本特征、网络特征和传播特征上构建了贝叶斯分类器。此外还有一些学者将两种或者以上分类器结合,构造集成分类器的谣言识别模型,如毛二松等(2016)提取了基于内容、传播和用户特征的16个特征,然后构建以J48决策树为基分类器的集成分类器(decisiontreeensembleclassifier,DTEC)和以SVM作为基分类器构构建的集成分类器(supportvectormachineensembleclassifier,SVMEC),利用集成分类器对微博谣言进行检测,得出基于深层特征和集成分类器的方法能提高谣言检测的准确率的结论。1.2.2基于深度学习的识别模型在以上的研究中,基于分类特征的谣言检测方法取得了一定的成果。但这种手工提取特征的方式过于费时费力,且容易受到研究者的影响,特征提取的优劣往往直接影响实验结果的好坏。近年来,以神经网络为代表的的深度学习技术的发展为解决这一问题提供了新的方向,神经网络模型能够自动学习用户、文本、评论、传播等不同维度的特征,一定程度上解决了特征构造过于简单、表面、费时以及不够全面等问题。还有一些学者提出使用卷积神经网络的方法来构建模型,如Yu等(②017)测提出基于循环神经网络的方法存在缺陷,即它不适合用于谣言信息的实际早期检测,并且对最新输入产生了偏见,并提出了一种新的方法,基于卷积神经网络(convolutionalneuralnetwork,CNN)的卷积谣言信息识别(CAMI)方法。CAMI可以灵活地提取散布在输入序列中的关键特征,并在重要特征之间形成高级交互,从而有助于有效识别谣言信息并实现实用的早期检测。段大高等(2017)提出了一种融合用户属性和微博消息特征的神经网络识别模型,首先获取包括博主类别、博主活跃度、博主好友值、博主粉丝值和博主消息原创比在内的用户特征;然后使用word2vec训练得到中文词向量并使用卷积神经网络(CNN)提取文本特征,最后融合两种特征构建BP神经网络识别模型,对微博谣言进行识别。1.3论文研究方法文献资料法。在论文写作之前,笔者通过图书馆、互联网、电子资源数据库等途径查阅了大量的文献资料,获取相关研究信息,为设计本次写作提供思路与参考。归纳总结法。笔者通过前期调查到的资料进行分析,并整理、归纳出对本文有效的资料,进行论文的写作。描述性研究法。将搜集到的文献资料整编,研究分析得出自己的结论,在导师的指导下形成论文,修改定稿,使论文有参考价值与意义及对今后进一步深入学习方面起到一定指导作用。谣言传播者行为检测技术基础2.1社区发现社区是许多网络的属性,其中特定网络可能存在多个社区,根据社区节点集合间有无交集可以将社区分为重合型和非重合型。从形式上讲,社区结构可以定义为网络图中一组联系紧密的节点,它们具有较高的组内边缘密度和较低的组间边缘密度。对网络进行分析时,发现其中的社区可能具有重要的意义。如将一个大型社交网络按照某种标准进划分,发现具有共同兴趣爱好的人,从而使他们保持紧密的联系:还可以对划分后得到的结果做进一步的挖掘,分析各社区内所包含的信息。此外,社区发现]技术还可用于机器学习等领域,以检测具有相似特征的群组,并依据不同的原因提取这些群组。常见的社区发现方法大致可以分为两类:聚合法和分裂法,在聚合法中边被逐条的添加到只包含节点的图形中。分裂法则与聚合法相反,在分裂法中,边从完整图形中被逐个删除。由于给定网络中可以有任何数量的社区,且社区的大小可以变化,这些特征导致社区发现技术具有一定的难度。2.2集成学习在机器学习中我们期待学习出一个表现全面且稳定的模型,但现实中往往只能得到多个弱分类模型,即仅在某些方面表现良好的模型。集成学习3方法通过组合多种算法来获得比单独使用其中任何一种算法更好的性能。通常来讲,模型或特征的融合都可以或多或少的提高系统的性能,一般不会低于任何一个子模型或者子特征。例如:假设现在需要5个人去深山中完成科考任务,有以下两种分配的方案:①5名相关专业的人员。②2名相关专业人员,1名户外探险家,1名医生,1名军人。显然,第二种方案是更加合理的分配方式,因为各个角色所具备的特长都对任务的完成有帮助,并且彼此之间能形成较好的互补。同理,使用集成学习思想的模型,其子模型采用不同的特征用于训练,可以在数据上获得不同角度的表达能力,进而结合不同子模型的优点。集成学习不属于一种独立的机器学习算法,更多的是强调一种思想,通过融合弱的学习器来提高整体的学习能力以更好的完成任务,其结构如图2-1所示。图2.1集成学习结构图2.3特征分析为了检测出虚假的信息,在可信度识别与检测、垃圾评论检测等任务中,我们除了将谣言文本的传播作为切入口之外,还经常会考虑到用户在谣言文本传播所起到的关键作用。这类用户经常在媒体平台发布虚假谣言信息,干忧视听。所以本文会将博文用户的数据特征也做为特征向量加入到模型中,通过博文用户特征对谣言博文相关特征的影响,来达到增强或减弱谣言博文是否是谣言的几率。而博文的用户数据通常包括如下几大类,分别有博文用户的性别、账号是否认证、该用户发布的微博数量、粉丝数、关注数、注册时间等。由于用户发布的微博数量、关注数、粉丝数是一个连续数据,所以这一数据的取值通常会对整个模型的谣言分类结果造成重大影响,所以一般采用标准化、归一化1方法对其进行值处理,计算公式如式所示:其中x代表样本取值,min和max分别是样本的最小值和最大值。归一化操作旨在将样本使的取值介于[0,1]之间。用户的性别、账号认证与否用等特征也能通过离散化进行处理。通过用户注册时间、发微博数量等特征识别是否是“僵尸”用户,即这类微博账户是被不法分子为达到某种目的,在平台中进行申请的。一殷来说,这种用户的关注数量会远大于粉丝数量,而且都是未经认证的账号,账号发布的微博数量一般也比较少,只会在特定的时间段针对某种主题或者事件进行集中性发布微博。在各大自媒体平台中,发布谣言的用户通常为了谣言信息能够更快的传播出去,通常会在谣言信息文本上添加“不转不配做中国人”,“让身边更多的人知道”,“爱心人士接力”等字样,达到刺激微博用户去转发的目的,令他们去传播这些谣言博文。由于大多微博用户的具有这种盲从心里,导致真实的博文和谣言博文在转发量、评论量上正常来说具有较明显的差异。因此,在实验里对谣言文本的传播过程加入相关博文的传播数据等特征,壁如评论、转数量,并通过公式对其予以值处理。案例呈现:面向微博平台的疫情谣言传播者行为检测系统3.1系统应用于目标随着互联网媒体平台的发展,微博这一国内主流平台开始有着越来越重要的意义,微博从之前的传统社交媒体平台,转型成了用户获取信息的重要门户之一,每天都有着数以亿计的访问量。所谓事物的发展总是具有两面性,做博在为上亿用户提供便捷的信息访问的同时,也伴随着各种各样的谣言信息的迅速传播。在微博迅速崛起的同时,部分不法分子也开始利用起这份便利实现自己的一些私欲和不法利益,其中在最近一年多里的新冠疫情谣言就被大肆传播,然而这些谣言的传播无疑会对社会群众造成一定程度的社会恐慌,从而可能导致社会秩序的严重混乱。为了解决新冠疫情的传播,微博也开展了一系列的谣言检测与举报机制,例如官方成立的“微博辟谣”账号,有多名很有经验的实力编辑成员,对微博中发布的博文进行全天24小时的不停监控,力求把各种谣言扼杀在传播的过程中,不仅如此微博用户也可以就相关谣言进行谣言举报,官方根据相关举报进行谣言的检测与结果公示。腾讯也在“较真平台”就新冠谣言主题进行检测,并对相关谣言进行真假公布。但是这些人工谣言检测机制也有些许不足:(1)效率低下。新浪微博中每天的流量无疑是十分巨大的,然而仅靠人工进行谣言的识别与检测,不仅会浪费巨大的人力物力财力,而且检测效率也不是很高。(2)延时较高。正因为人工谣言检测效率低下,才导致对相关谣言实现结果检测前,有可能谣言博文己经开始了大规模的传播,并造成了一定的社会危害。(3)缺乏很好的数据交互功能。无论在哪一个数据平台,都未能提供对某一特定文本的来源、传播以及交互的具体信息,也不存在对数据的录入、保存以及方便的外部对接。针对上述问题,该文提出将数据、交互、检测结果进行系统性整合的方案,从微博等平台爬取新冠疫情数据,并对其中的文本数据进行数据特征提取并整合到谣言检测系统中,实现对谣言检测的智能化、自动化处理。目前的新冠疫情数据多为结构化数据,在分析时可以方便的进行特征抽取。针对这种状态本系统录入方式选择以数据导入为主,手工输入谣言文本为辅的方式,待数据导入完成之后,可采用人工标注与自动化标注方法相结合的方式进行数据谣言文本的标注,且系统兼具文本特征提取与数据展示等相关功能,从而更加方便合理的构建谣言检测平台。3.2需求分析本系统开发的需求主要来自于五个方面,第一、通过新浪微博接口实现自动化获取微博新冠疫情谣言数据,并存入系统中。第二、满足用户正常输入或者导入新冠谣言文本的需求,所采用的方式为手动输入和自动化导入相结合。第三、可以对指定的谣言文本进行手工标注或者基于文本分类的谣言分类算法的自动化标注。第四、可以对之前的数据进行数据审核,人工查阅之前的数据标注结果,如果存在标注问题,则可以手动进行结果的更新。第五、查看谣言文本的标注记录,用户可以在登录系统后对之前标注的文本的一些操作进行查阅,也可以翻看数据图实现对谣言文本数据的整体状况浏览。所以本系统兼具如下功能:(1)微博新冠疫情谣言数据爬取。对接微博数据爬取接口,能够根据有效关键词爬取相关谣言数据,并通过本系统将数据保存在本地。(2)数据导入、导出。本系统可以通过手动输入谣言文本和本地导入的方式将谣言数据导入到系统中,并保存在数据库。也能将系统检测识别的数据通过客户端导出到数据库中。(3)数据标注。本系统采用人工标注与系统执行谣言检测识别的自动化标注的方法相结合的方式。(4)标注结果审核。用户登录系统后,可查看之前的标注结果,并对有疑议的标注进行审核操作。(5)查看标注记录。用户登录系统后,可查看之前的标注记录。3.3可行性分析本系统的主要目的是通过微博提供的接口来爬取谣言数据(包括微博文本下本系面的评论、转发、点赞),然后将爬取到的数据通过特征提取达到离散化、数值化,并通过后台的算法模型进行谣言检测与识别,最后将分析得来的结果显示在前端页面。所以该系统的实现在技术上有以下几个难点:(1)数据爬取,即如何利用目前所知道的接口通过爬虫技术获取新冠疫情谣言文本。(2)后端如何构建系统平台。(3)前端页面展示。(4)将新冠疫情检测算法模型嵌入到系统中。具体开放接口如下表所示。表1部分新浪微博开放接口表接口名称链接作用微博m./api/container/getIndex获取微博文博数据评论接口/comments获取某条微博的评论列表点赞接口m./api/attitudes获取某条微博的点赞列表转发接口m.we/api/statuses/repostTimeline获取某条微博的转发列表不实信息平台/不实信息公布平台首先,在新冠疫情数据获取方面,由于新浪微博官方存在对外来爬虫的限制,所以本系统调用了新浪微博提供的官方接口(API),如表所示,这些接口封装了可直接部署在微博上的爬取按钮,可直接爬取对应谣言以及不实信息数据,通过对爬取的一些优化可以简化爬取操作。其次就是该新冠疫情谣言检测系统的后端使用的是目前主流的开发框架Django。首先,由于该框架是一个大型的开源项目并且使用了python作为其开发语言,这就使得该框架拥有着极其强大的功能,而且也具备python在开发上的便利性。其次,该框架具有很多的模板,这一点又降低了开发所带来的错误,并且使得其扩展性很强。同时,本系统的前端展示界面则主要使用pygt5+QtDesigner实现,PyQt5是一个用于创建GUI应用程序的跨平台工具包,它将Qt库与Pythor相融合。也就是说,PyQ5可以在允许使用Python语言的时候调用Qt库中的相关API。这样做的最大好处就是在保留了Q高运行效率的同时,极大的提高了前端的开发效率。QtDesigner是一款QT界面生成器,通过拖拉控件的方式,极大的提高了前端界面的开发。另外,在新冠疫情谣言检测的后台模块方面,本论文提出的融合用户评论特征和可变长度的时间序列的博文信息的谣言检测算法,可以嵌入到系统中,从而实现自动化新冠疫情谣言检测。综上来说,本系统在技术方面是完全可行的。检测系统详细设计4.1功能划分系统的主要功能分为以下几点:(1)实现新冠疫情谣言检测的前端界面,将会展示谣言数据的导入、导出,手动及自动化的新冠谣言数据的标注,以及历史操作记录。(2)实现新冠疫情谣言识别功能。(3)实现用户信息功能基于此,本论文开发了一个原型系统,主要包括用户信息登录、新冠疫情谣言数据爬取以及谣言识别算法的嵌入和数据标注核实及记录查询等几大功能模块。系统功能模块图如下图4-1所示:图4.1系统功能模块图系统的设计主要分为用户管理、疫情谣言数据管理模块、文本标注模块、谣言检测算法模块以及谣言文本标注及记录查询等模块。其中用户管理主要包括用户的登录、查看用户的个人主页等部分。疫情谣言数据管理模块包括导入从新浪微博爬取到的数据谣言数据,以及手动输入谣言文本最终将这些待处理的输入到数据库中。文本标注模块包括手动标注以及通过底层算法检测识别标注。谣言数据标注记录核实与查询模块则包括相应数据在标注之后可以进行核实查验,也可以对误识别操作进行查询观看。4.2用户管理模块本模块主要负责用户登录部分和展示用户详细信息。在用户登录模块,待用户输入个人账号信息,经查验准确之后便可进入系统界面。用户此时可以查询个人账户信息,也可以进行修改密码等相关操作。用户管理模块流程如图4.2所示:图4.2用户管理模块流程图4.3数据管理模块本模块主要负责新冠疫情谣言检测系统的数据管理,里面包括对新浪微博谣言数据的爬取、数据的导入与导出等工作。首先,本系统可以通过m.weibo.en/api/container/getIndex接口获得微博相应关键词的文本数据,这些数据都是以jso形式返回,并且每一条微博都会有一个对应id,然后系统会根据该id访问该条微博的具体内容,之后可以通过/comments/api/attitudes/api/statuses/repostTimeline来获取该条微博下面的评论、转发和点赞数据,这些数据同样以json文本的形式传入到系统后端。导入的数据可以通过系统己有的功能保存到数据库中。图4.3数据管理模块流程图4.4文本标注模块本模块主要负责对手动录入或者导入的谣言文本进行手动标注以及自动化标注处理。手动录入的谣言可以是基于自己对新冠疫情的一些事实的认知来进行相关谣言的标注,而自动化标注则需要通过调用底层新冠疫情谣言检测算法对谣言文本进行检测识别,进而得到该谣言文本的真假结果,从而达到自动化标注文本的目的。详细逻辑图如图4.4所示:图4.4文本标准模块流程图4.5文本标注核实与查询用户在手动输入谣言文本或者导入本地谣言文本进行自动化标注后,这些谣言文本的标注结果以及状态记录都会保存在本地数据库中,方便
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国乳白静电膜市场调查研究报告
- 9《作息有规律》(教学设计)2024-2025学年统编版(2024)道德与法治一年级上册
- 2024年小自考汉语言文学大纲解析试题及答案
- 食品安全员考试经典知识点试题与答案
- 2025至2030年中国GPS支架行业投资前景及策略咨询报告
- 第一章第一节地球的宇宙环境教学设计 -2024-2025学年人教版地理七年级上册
- 高中语文 第三单元 第8课 兰亭集序教学设计1 新人教版必修2
- 2024年电力行业常见问题试题及答案
- 2024-2025学年高中物理 第十三章 光 3 光的干涉教学设计2 新人教版选修3-4
- 小自考公共事业管理考试测验试题及答案
- 数字化赋能护理质量管理研究进展与价值共创视角
- 冲压模具设计与制造工艺考试复习题库(含答案)
- 2025牡丹江辅警考试题库
- 中华民族共同体概论知到课后答案智慧树章节测试答案2025年春丽水学院
- IATF16949认证审核指南
- 成都设计咨询集团有限公司2025年社会公开招聘(19人)笔试参考题库附带答案详解
- 电网工程设备材料信息参考价(2024年第四季度)
- 【MOOC】中央银行学-江西师范大学 中国大学慕课MOOC答案
- 电子产品生产工艺流程手册
- 部编版小学语文二年级下册第三单元集体备课教材分析
- QTZ1000塔机总体方案和平头式平衡臂结构设计及起升机构校核计算
评论
0/150
提交评论