基于主题爬虫的三农舆情监测管理平台的开发与应用_第1页
基于主题爬虫的三农舆情监测管理平台的开发与应用_第2页
基于主题爬虫的三农舆情监测管理平台的开发与应用_第3页
基于主题爬虫的三农舆情监测管理平台的开发与应用_第4页
基于主题爬虫的三农舆情监测管理平台的开发与应用_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【摘要】近年来,涉农网络舆情事件突发、频发,对农业农村经济工作的影响日益深刻。建设三农舆情监测平台,密切关注“三农”网络舆情,有利于我们把握规律、发现问题、预判动向、有效应对,有利于我们抢占舆论制高点、掌握舆论主动权,为农业农村经济发展营造良好的舆论环境。本文主要分析了舆情系统的背景和发展现状,针对三农舆情平台的建设的架构、功能模块,以及在开发过程中所涉及到的网络爬虫技术、中文分词技术、文本特征提取技术、热词识别技术等进行分析和介绍,并通过案例进行分析。【关键词】三农舆情监测;大数据;信息采集;热点词1.引言随着互联网技术的迅猛发展和信息传播方式的深刻变革,全社会已置身于包罗万象、瞬息万变的网络舆论舆情新格局之中。某个突发事件在网上刚一曝光,即可迅速引爆全国舆论,把地区性局部性和带有某种偶然性的问题,变成全民围观的公共话题。中央对媒体宣传和网上舆论工作的一系列部署,表明了中央对营造网络好环境、占领舆论制高点、构建媒体新格局、传播网络正能量的高度重视。各级政府部门高度重视网络舆情工作,不断加大工作力度、完善工作手段、探索工作机制。网络舆情监测平台在政府部门正确应对网络舆情、妥善处置突发事件中发挥了重要作用,成为政府部门加强网络舆情工作的重要抓手。研究在基于主题爬虫技术研究的基础上,实现了三农舆情监测管理平台。该平台一方面提升工作技术手段以完成当前日益紧迫的舆情监测任务,另一方面为全面利用大数据技术开展“三农”舆情数据测监测和分析积累实践经验。平台通过监控网络重要的新闻站点、新浪微博、微信、重要论坛、博客来发现舆情信息。对发现的重大、敏感舆情通过专题进一步跟踪,通过各种数据源进行数据补充,为舆情的处置提供一定的依据。2

研究内容一般而言,舆情处理流程如图1所示,其中舆情系统主要负责发现重大舆情线索,全局掌控舆情散步、传播及扩散的态势,然后监控人员结合系统进行辅助研判,上报重大的舆情。图1

三农舆情处理流程围绕舆情处理流程,本着数据集中化、统计标准化、流程规范化、应用成熟化的建设原则,平台的总体架构设计如图2,分为数据采集、数据存储、数据分析和数据可视化呈现四大部分。图2平台的总体架构为了能够更好的保证数据和网络的安全性,对舆情平台服务器的使用进行了合理的分区,如图3所示,主要分为三个部分:采集服务器、数据库服务器和web服务器。数据库服务器又分为三个存储库:原始页面库、结构化元数据库和舆情结果库。原始页面库、结构化元数据库都是离线存储分析库,舆情结果库是一个在线数据库。数据写入单行延时都要控制在10毫秒内,读取高性能要保持在毫秒级别。根据应用需求,舆情结果可以设置TTL,只提供近期数据的查询,较老的舆情自动过期删除。图3

舆情服务器部署架构采集服务器主要用来采集平台所监控的站点数据,将数据实时发布到数据库服务器中。数据库服务器用来存储采集的元数据,并执行内容去重、无用信息过滤及关键信息提取等,同时响应web管理服务器的舆情查询。Web服务器主要用于部署平台,为了可以支撑海量数据存储(TB/PB级别),高并发访问(十万TPS~千万TPS),访问延时低,数据存储在选型上我们选用了NoSQL来解决海量数据的存储访问。同时一天内,不同时间段爬虫爬下来的网页数也会有明显波峰波谷,所以数据库需要可以弹性扩展和缩容。2.1基于主题的舆情数据采集技术数据采集是舆情工作的首要任务,主要包括对主流网络媒体、微博、微信、论坛以及博客上涉及涉农舆情信息的监测和自动抓取。平台采用主题爬虫技术实现了基于主题的舆情数据采集。主要原理是在搜索过程中只选择与三农相关的页面进行访问,在遍历web的时候,根据一定的网页分析算法过滤掉与三农主题无关的链接,保留有用的链接并将其放入等待抓取的url队列。为了保证对监控站点的信息采集做到不漏采,平台采用分布式的消息队列方式提高采集的并发度,流程如图4所示:图4主题爬虫的工作流程在舆情数据的采集策略上,为了防止对方网站的ip封禁,在进行数据采集时增加了ip代理,每次请求均会变化ip,降低网站的ip封禁;对重要的中央媒体、商业网站、地方重要站点等进行全站配置,并根据标记的更新频率调整采集频率;为了解决一些没监控站点的信息漏采,通过百度和360等搜索进行所有关键词的搜索结果进行采集,并与库中监控数据实时对比,来弥补定向监控的漏采问题;在采集时随着采集的数量越来越大,链接在入库的时候采用BloomFilter算法来提高判重的计算时间。2.2

舆情信息的处理与分析技术2.2.1网页去噪网页是采用html标记的一种半结构化数据,从网页标签中提取正文文本,网页自动摘要之前就需要进行一次页面的去噪。尤其是获取的网页中存在大量与我们所关心内容无关的导航条、广告信息、版权信息以及调查问卷等被称之为“噪音”的内容,这些内容对于内容的提链和特征数据(比如关键词、摘要、标题、正文等)的提取会造成很大的干扰,需要在使用前去噪。网页常见三种去噪方法:基于网页结构的方法、基于模板的方法和基于可视化的方法。在对现在这三类网页去噪方法进行了对比分析的基础上,综合应用这三类方法进行网页去噪。2.2.2特征提取特征提取主要包括实现半结构化/无结构化网络资源的元信息抽取,针对新闻、论坛、博客等数据源,实现标题、日期、作者、来源等要素全自动数据抽取实现社会网络中用户访问行为的要素分析与提取,如点击量、回复量、访问,IP、播放量等,实现按天和按时段的增量采集抽取。特征的抽取主要分为两步:第一步是在分词的基础上进行特征选择,第二步是在特征选择的基础上进行特征的二次变换完成抽取过程。本平台在具体实施的过程中采用N-Gram的算法对舆情信息进行特征提取并计算权重,然后利用SIPO本体对原始特征进行相应的抽取和转换,从而得到一篇文本的特征向量。2.2.3中文分词在进行文本主题分析之前,需要先利用中文分词预处理技术将中文文档中的内容切分成具有明确意义的词项。常用的分词算法主要是基于规则的和基于统计的,目前研究成果和成型的分词工具很多,比如中科院计算所的NLPIR、ansj分词器、哈工大的LTP、清华大学的THULAC、斯坦福分词器、Hanlp分词器、结巴分词、KCWS分词器、ZPar、IKAnalyzer等,目前这些工具被广泛的应用,应用效果也不错。中文分词的难点在于分词的标准、对于待切分字符串的有歧义、对于未收录的新词如何处理这三个问题。不论什么样的分词方法,优秀的词典必不可少,老的词典对新的文本进行分词,就会造成分词的结果一团糟。为了节省存储空间提高数据的采集效率,分词时会根据建设的停靠词库(主要是语气组词、介词、系动词、副词、连词)进行去噪。2.2.4内容去重去重包括网页抓取时链接的去重和正文内容相似的去重去除重复信息不仅能够节省资源,还能够给用户带来更好的体验。去重之前有的需要统计相同的一篇文章分别出现在哪些网站上面,总共出现了多少次这些,所以在提交监控时也需要让需要选择一下是否需要去重,如果用户需要看重复的内容这些就需要保留。关于网页去重的中文文献有很多,综合起来主要有下面几种方法:DSC算法(shingle)、DSC-SS算法、I-Match算法、Simhash算法、VSM模型、SCAM算法布尔模型,还有中文特有的特征码索引方法等。2.2.5主题相关性分析该模块主要通过关键词集的方法来确定主题,首先是将网页的标题和正文表示成向量的形式,通过中文分词得到一个主题网页的向量表示,通过与训练得到的主题向量进行相关度比较,按照设定的主题阈值来判断当前网页是否是相关网页,其中训练得到的每个关键词都拥有指定的权限值。权限的设置方法:手工设置和特征提取。特征提取是指给定一个和主题有关的网页集合,由程序自动提取这些网页里面共同的特征,并根据频率确定权值。手工设置的好处是实现简单,同时人的经验一般比较准确,跟实际情况不会出现大的偏差,缺点是可能有缺漏,权值的量化定义不够精确;特征提取的优点是权值量化定义精确,但要求选取用来提取特征的网页集合必须是很有达标性和全面概括性的,否则就可能出现很大的偏差。本系统根据实际情况使用手工设置一组关键词并分配权值。“三农”网络舆情千头万绪、错综复杂,应结合舆情平台的开发,做好“三农”网络舆情内容体系建设,确立重点突出、分类科学的舆情内容体系其中,一要做好“三农”网络舆情关键词整理、挖掘工作,二要做好“三农”网络舆情语料库分类、填充工作,三要针对各省需求做好有针对性的监测内容匹配工作。对于关键词的整理,除了结合长期的工作经验提取人工整理一批外,平台还以大量的词句段落作为基础学习材料,立足于建设精准的信息清洗能力,快速过滤垃圾信息、排除重复信息,对抓取的信息自动提取摘要、自动生成关键词,并进行精准的聚类和简洁的呈现,不断提升信息甄别清洗的效率和分类统计的准度。2.2.6舆情分析舆情分析是建立在信息采集和预处理的基础上,舆情分析的质量和深度直接影响舆情分析结果的准确度和可信度。2.2.7

自动摘要自动文摘的方法主要分为两类:extractive和abstractive。前者是目前最主流、应用最多、最容易的方法,后者相对来说更有一种真正人工智能的味道。还有另外一种分类方法是,单文档摘要和多文档摘要,前者是后者的基础,但后者不只是前者结果简单叠加那么简单。由于本平台采集的数据量较大,为了能够更快的为每篇文章快速提取摘要,采用了第一种抽取式的方法(TextRank),即通过抽取一篇文档中的一句或者几句话来概括一篇文章的核心思想。抽取型文摘,一般分为如下几个步骤:Step1.预处理:包括编码转换、断句等;Step2.特征提取:如分词、统计词频、关键词抽取、名实体识别、词语(语句)位置信息、段落结构信息等;Step3.语句权重计算:权重的决定因素包括词语位置(句首)、是否是指示性词语即第一或者最后这种、是否是名实体、是否在标题中、词的情感因素、ngram信息等;Step4.按计算权重对语句排序,根据比例抽取文摘句;Step5.根据语句在原文中出现的顺序重新排序,并对生成文摘进行润色,如:指代消解。3

舆情平台运行实例和结果分析3.1舆情监测数据范围平台立足于建设强大的信息抓取能力,针对不同网站平台的构架特点,进行覆盖全网的深度监测,实现可扩展的多通道高效采集技术为用户提供监控源配置功能,可以对监控源的优先级进行配置调整。平台的监测范围重点包括以下几种载体:新闻载体:由于新闻网站众多,为了能够更好的对站点进行管理和采集,将站点进行了分类:中央媒体:如新华网等,进行全时重点监测;商业门户:如新浪网、凤凰网等,进行全时重点监测;地方媒体:包括港澳台媒体,如红网、大公网等,监测范围延至县级媒体平台;国外中文媒体:如联合早报网等;行业网站:如三农在线等,关注一批影响力强、资讯量大的行业网站。论坛网站:如天涯等,关注一批网络知名度高、网民活跃度高的论坛网站;博客网站:如新浪博客等,建立一批需要常规监测的博主名单;微博网站:如新浪微博等,建立一批需要常规监测的微博大V名单;微信:对微信公众号的数据进行实时的监控;视频:针对广电媒体等重要的视频数据进行监控;App:针对重要的手机app数据进行监控。3.2热词分析热词提取对于监控和分析农业舆情具有重要意义,目前已有一定研究基础,但仍存在针对性差等问题,无法满足农业领域不同产业用户群的个性化需求。为此,和中国农业大学合作提出一种基于农业网络信息分类的热词自动提取方法[9],具体的处理流程见图5。首先采用多标记分类算法对文本语料进行分类,按分类类别构建语料库,然后采用基于信息熵的方法对每个类别分别提取热词候选词,最后采用基于时间变化的方法进行候选词热度计算,根据候选词热度排序结果得到热词。本文抽取农业网站上的15354条文本进行实验。结果表明,热词提取准确率达到90%以上,能够较高质量地提取农业热词,为不同农业用户群体发现和分析产业热点提供帮助。图5热词提取流程图3.3预警研判3.3.1舆情指数体系建设主要是通过对信息的首发媒体、转载数量、内容主题、跟帖数量、感情倾向、传播路径、演化趋势等属性维度进行权重分配和指标量化,合理设计、科学建立“三农”网络舆情指数指标体系。根据信息的舆情指数,对信息作出综合研判分析,为舆情信息预警提供科学依据。舆情指数如图6所示:图6舆情研判指数3.3.2关键词预警:预警规则:通过设置预警关键词,对包含预警关键词的信息进行预警报告。预警等级:实行三级预警等级,第一级黄色预警信息,即需要关注的信息;第二级橙色预警信息,即需要深度监测的信息;第三级红色预警信息,即需要应急处置的信息。其余未标明颜色的信息为普通信息。预警方式:采取弹窗、短信、邮件等多种方式进行自动预警或者人工预警。3.3.3预警预测根据历史舆情事件发生的规律,提前预知网络舆情转到线下的活动预测的方式有两种,一种是对历史数据进行拟合得到相应的预测模型进行舆情的趋势预测;另外一种则是对于三农上比较具有规律的舆情进行历史数据的统计分析,分析其规律数据,作为政府和企业决策的基础。3.3.4热点识别与追踪目前主流的热点追踪算法都采用文本聚类技术来实现,常见的六大聚类算法为:K-Means聚类、均值漂移聚类、基于密度的聚类方法、用高斯混合模型的最大期望聚类、凝聚层次聚类、图团体检测,但是这些基础的算法在处理大量的网页时,都很难精准聚合中心结果,本平台根据文章标题自动挖掘热点关键词,以关键词为线索进行话题的聚类,同时采用基于K-Means的增量聚类算法进行文本的聚类,经过实验对比漏报率下降到10.7%,误报率下降到了0.78%。本平台上舆情热点包括三类:1.突

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论