下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
易班敏感词监测系统研究与设计蒋春华刘欢刘忆宁
【摘要】易班网是一款高校教育教学,生活效劳,文化娱乐的综合性互动社区网,其参与主体是高校老师和学生。文章提供了一种监测校园舆情的方案,该方案将网络爬虫和敏感词进行比照搜索来监控舆情方向。实验数据说明,通过网络爬虫技术可以很好的用来监测校园舆情。
【关键词】易班网;网络爬虫;敏感词
TheResearchandDesignaboutSensitiveWordsMonitoringSystemonEasyClassNetwork
JIANGChun-huaLIUHuanLIUYi-ning
〔SchoolofComputerandInformationSecurity,GuilinUniversityofElectronicTechnology,GuilinGuangxi541004,China〕
【Abstract】YiBannetworkisacomprehensiveinteractivecommunitynetworkwithfunctionofeducationandteachingincollege,lifeservices,cultureandentertainment.Aprogramisproposedtomonitorthepublicopinionofthecampus.Comparingthewebcrawlersandthesearchofsensitivewords,itcanmonitorthedirectionofthepublicopinion.Theexperimentaldatashowsthatwebcrawlerscanbeusedtomonitorthepublicopinionofthecampus.
【Keywords】YiBannetwork;Webcrawlers;Sensitivewords
0引言
随着科学技术的开展,信息技术逐渐走进千家万户。信息技术的开展给人们日常生活带来便利的同时,也给人们生活带来挑战。人们崇尚自由,在看不见的网络中发表着自己的观点,而不需要承担言论带来的责任。有些别有用心的人会引导网络言论,从而到达自己的目的。因此需要对网络言论进行监控,防止不明真相的参与者被别有用心的人引导。
在校大学生是网络言论的主力军,然而由于大学生普遍涉世未深,极易受到不实信息和敌对势力的蛊惑煽动,在虚拟网络世界里发表一些激进的观点和言论,影响校园和社会的稳定团结。为此,监测大学生的网上言论,通过大学生网上言论了解其心理思想和诉求是极其重要的。微博、贴吧、人人网等社交平台,无需实名注册,人员混杂,因此对这些平台上在校大学生进行网络舆情【1】监控十分困难。易班网是一款专门针对在校大学生开发的互动社区,需要实名注册。因此可以利用易班网对大学生进行网络言论监控【2】,从而了解大学生心理思想和诉求。利用易班网可以很好的了解当代大学生对于各种网络事件的观点【3】、舆论导向以及大学生的心理状态,有利于学校及时处理相关舆情事件、引导舆情的开展【4】。
1易班网络舆情监测方案
图1系统流程图
利用敏感词监测系统对于易班网络舆情监测进行调研,在系统开发过程中综合各方面因素,使用了Python2.7版本作为开发语言,MySQL5.1版本作为数据库存储系统,界面设计使用Django框架进行web展示。该系统主要包括了信息获取、信息处理、舆情分析和舆情预警等四个模块。程序运行流程如图1。
1.1信息获取
对于易班网络言论进行分析,发现用户言论主要集中在对文章的评论【5】,因此这一局部是信息获取的主要途径。由于每个学校都是有相对应的ID,因此我们只需要对本校对应的
ID域进行监控和爬虫爬取,从而获取到学校在易班网上所有的文章URL。对这些URL进行存储和网页爬取,获取文章信息以及文章下面的用户评论信息。易班网络的环境导致团队成员需要综合考虑各个方面,对爬虫进行了延时处理,即每隔一定的时间〔该时间可以由系统后台管理员设定〕对易班网进行爬虫爬取信息。由于爬虫在轮回爬取过程中,会遇到很多重复URL地址,为此,本系统在对爬虫爬取过程中做了去重处理,而且在入库处理时对文章和评论发表时间做了判断,以确保存储的数据是最新的且防止了重复数据入库。
1.2信息处理
信息处理模块主要是对获取到的用户评论信息进行入库处理。经过分析可知:易班网采用JSON格式的方式处理用户的评论数据。针对这种处理方式,对JSON数据进行了分析,将数据进行了分隔,对文章URL、文章下所有的评论人员的ID,评论内容、评论时间等字段内容进行了入库处理。
1.3舆情分析
舆情分析是舆情监控系统的关键模块。为了便于应对各种突发情况和管理员针对不同信息进行分析检索,系统管理员可以在后台自主设定舆情敏感词。系统利用这些敏感词和数据库中信息进行匹配,找出存在敏感词的评论,以及发表该评论的人员和文章的URL地址。匹配过程如下:建立敏感词数据库,将敏感词与获取的评论信息进行匹配查找,确定是否存在包含敏感词的言论。将包含敏感词的评论文章ID和评论信息存储下来,并且通过E-mail实时通知负责人员进行处理。
1.4舆情预警
互联网信息的传播速度很快,舆情的爆发时间也具有不可预料性,而管理人员不可能实时在线,因此,及时预警舆情是网络舆情监控系统不可或缺的功能。该系统的舆情预警主要通过发送E-mail到监控人员移动终端进行实现。当匹配到相关敏感词在文章评论中出现时,系统会自动向后台设定的邮箱地址发送预警邮件。预警邮件包含敏感词所在文章的网页地址,便于管理人员可以及时了解到舆情的动态,及时妥当处理相关问题【6】。
2结论
本系统利用网络信息技术来实现对易班网络的实时舆情监测,以解决传统人工监测时“人手缺乏、容易疏忽、效率底下〞等问题,可以更加及时的发现问题,净化校园网络环境,引导舆论导向,并且可以及时定位言论发布者,以便于做出相应处置。
【参考文献】
【1】王娟.网络舆情监控分析系统构建[J].长春理工大学学报〔高教版〕,2021,4:201-203.
【2】张珏.网络舆情预测模型与平台的研究[D].北京:北京交通大学,2021.
【3】J.Zeng,S.Zhang,C.Wu,etal..PredictiveModelforInternetPublicOpinion.FuzzySystemsandKnowledgeDiscovery,2021.FSKD2021.FourthInternationalConferenceon.IEEE,2021,3:7-11.
【4】滕云,陳玲.网络舆情特点的实证研究——基于高校BBS论坛的文本分析[J].山东社会科学,2021,3:181-186.
【5】D.Shen,Z.Chen,Q.Yang,etal..Webclassificationthroughsummarization[C].Proceedingsofthe27thannuali
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年杂志期刊项目规划申请报告模板
- 2024-2025学年延安市黄龙县三年级数学第一学期期末达标测试试题含解析
- 2024-2025学年忻州市岢岚县数学三年级第一学期期末联考试题含解析
- 2024-2025学年霞浦县数学三年级第一学期期末调研试题含解析
- 2025年果蔬设备项目规划申请报告
- 2024年版加工承揽保密条款3篇
- 2022年幼儿园中班安全教案7篇
- 学习委员工作总结(合集15篇)
- 2024年化工设备上门检修与安全评估协议3篇
- 银行员工辞职报告(13篇)
- 小学英语单词大全(含中文翻译)
- 经颅多普勒超声(TCD)
- 激励约束考核实施细则
- 高压蒸汽灭菌效果监测记录簿表(完整版)
- 作文考试专用稿纸 (A3完美打印版)
- 硝酸及液体硝酸铵生产行业风险分级管控体系实施指南
- 电厂一次调频试验方案
- 装修公司验收单
- 染色体标本的制作及组型观察
- 2003年高考全国卷.理科数学试题及答案
- 我国互联网企业价值评估的研究——以阿里巴巴网络公司为例
评论
0/150
提交评论