网络舆情监测方案设计_第1页
网络舆情监测方案设计_第2页
网络舆情监测方案设计_第3页
网络舆情监测方案设计_第4页
网络舆情监测方案设计_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实用标准文档第一章项目的背景及必要性项目背景近年来,网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使 人们开始认识到网络对社会监督起到巨大作用。如“5.12”汶川特大地震中传统媒体与新媒体的充分联动,又如“ 7.23”甬温线特别重大铁路交通事故中微博发挥的重要作用,再到 2012年此起彼 伏的社会群体事件。公共危机事件爆发时,犹如以石击水,相关信息在短时间内迅速传播,引起群众的广泛关注。一些非理性议论、小道消息或负面报道常常在一定程度上激发人们普遍的危机感,甚至影响 到群众对党和政府的信任,影响到消费者对某一企业品牌的认同。 如不及时采取正确的措施分析和 应对,会造成难

2、以估计的后果。随着互联网技术和应用的发展,网络舆情在数据体量、复杂性和产生速度等方面发生巨大变 化。网络舆情分析方法已超出了现有常用的分析框架,必须在大数据分析的思维下有所创新。本项目主要利用网络爬虫技术和大数据技术的融合应用,建立基于贵州交通行业网络舆情监 测平台。通过网络爬虫技术对各大新闻门户网站、微博、知名论坛、贴吧、博客、搜索引擎等舆情 信息采集,充分使用大数据技术对采集到的网络舆情信息进行挖掘与分析。实现重大负面舆情信息、突发事件实时预警,并根据舆情分布、影响力、发展趋势等进行分析和来源追踪。项目的必要性当前,网络舆情可以说是网络舆情管理的基础和晴雨表。以大数据观念变革传统网络舆情管

3、 理思维,准确把握网络舆情的内在特征及其在演化过程中的潜在规律,对于新形势下做好网络舆情管理工作具有重要的理论意义和实践价值0因此,贵州交通行业应采取各种有效措施做好网络舆情的应对工作。增加信息透明度,准确、 及时地发布权威信息,使谣言破灭, 从而有效引导舆论。建立权威专业的组织体系、加强互联网人 才队伍建设、采取适当的舆情引导与控制手段,是建立科学有效的舆情应对机制的必需。加强网络舆情分析与研判工作,区分不同性质的涉及本行业负面舆情,可以正确的为相关部门提供决策参考。 善与媒体沟通,借助媒体传达贵州交通行业的声音,掌握舆论引导主动权。第二章设计原则全面性对网络信息的获取要尽量做到全面,不漏掉

4、有价值的舆情信息。需要监控的站点主要分布于 门户网站、知名论坛、搜索引擎、博客、贴吧,微博等网络载体中。准确性已经获取到的网络信息形形色色、要对信息做进一步筛选,将最焦点的、最常用的、最需要 的、最关注的舆情信息做相应的分类展示,方便下一步工作。时效性舆情信息的第一时间获取、第一时间分析、第一时间展示、第一时间预警。网络信息的一大 特点就是传播快,出现重大事件后,相关部门必须第一时间了解到相关情况, 否则就会在整个事件 的处理上处于被动局面。易维护性整套解决方案的数据维护简单,容易操作,完全通过WEB方式完成,采用云技术,降低维护的技术难度,也减少了人为隐患的发生。安全、稳定、准确、及时文案大

5、全精心整理采用先进的算法,多个模块组成一个安全、稳定、准确、及时的网络舆情监测平台。方案在 总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而使整个方案组成合理,技术先进, 易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。第三章总体架构总体概述网络舆情监测平台采用J2EES术体系,前端采用Ajax开发技术,操作简单、易用、高效、稳 定。平台所有功能均采用纯 B/S结构设计,零客户端维护。实时采集网络舆情信息,如门户网站、知名论坛、搜索引擎、博客、贴吧,微博等,7*24小时为用户提供信息采集、信息处理、 信息编辑功能,实时掌握所关注的网络舆情信息,为贵州交通 行业相关部门

6、提供决策参考依据。业务流程网络舆情监测平台是针对互联网这一新兴媒体,通过对海量网络舆情信息进行实时的自动采 集、分析、汇总、监视、并识别其中的关键信息,及时通知到相关人员,从而第一时间应急响应, 为正确舆论导向及收集民众意见提供直接支持的一套信息化平台。第四章 本项目涉及的关键技术网络爬虫概念网络爬虫又被称为网页蜘蛛、网络机器人,在 FOAF社区中间,更经常的称为网页追逐者,是 一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、 自动索引、模拟程序或者蠕虫。网络爬虫工作原理WetB络爬虫系统一般会选择一些比较重要的、出度 (网页中链出链接数)较大的网站的U

7、RL 作为种子URL合。网络爬虫系统将这些种子集合作为初始 URL开始数据的抓取。由于网页中含 有链接信息,通过已有网页的 URL会得到一些新的URL可以把网页之间的指向视为一个森林,每 个种子URLM应的网页是森林中的一棵树的根节点。这样,WetW络爬虫系统就可以根据先广搜索算法或者先深搜索算法遍历所有的网页。由于 先深搜索算法可能会使爬虫系统陷入一个网站内部,不利于搜索比较靠近网站首页的网页信息,因 此一般采用先广搜索算法采集网页。WetW络爬虫系统首先将种子URLM入下载队列,然后简单地 从队首取出一个URLT载其对应的网页。得到网页的内容将其存储后,再经过解析网页中的链接信 息可以得到

8、一些新的URL将这些URL*入下载队列。然后再取出一个 URL对其对应的网页进行 下载,然后再解析,如此反复进行,知道遍历了整个网络或者满足某种条件后才会停止下来。云计算技术分布式计算是解决海量数据挖掘任务,提高海量数据挖掘的有效手段之一,在理论和实践上 已经获得证实。分布式计算包含了分布式存储和并行计算两个层面的内容,而云计算平台提供了分布式文件存储和并行的计算能力,因此很好地解决了这两个层面的内容。下面主要分析几个主流的分布式文件系统和分布式并行计算框架,以更好地构建云计算数据 挖掘平台的核心支撑能力。分布式文件系统有效地解决了海量数据存储问题,并实现了位置透明、移动透明、性能透明、 扩展

9、透明、高容错、高安全、高性能等关键功能。目前业界比较流行分布式文件系统有Google文件系统(GFS)、分布式文件系统(HDFSb文件系统(KFS),这3种分布式文件系统都是基于 Google 提出的分布式文件系统理论进行研发的。Google提出的GFS就是解决其海量数据存储和搜索、分析等问题,而和KFS是基于GFS论基础上实现的开源系统,并且在商业和学术领域得到了广泛的 应用。分布式并行计算框架对于高效完成数据挖掘计算任务极其重要,并且它对分布式计算的一些 技术细节进行了封装,例如数据分布、任务并行、任务调度、负载平衡、任务容错、系统容错等, 使用户不需要考虑这些细节,而只要考虑任务间的逻辑

10、关系。 这样不仅可以提高研发的效率, 还可 以降低系统维护的成本。目前典型的分布式计算框架有:精心整理MapReduc更提出的一个并行计算Ig架,它可以在大量PC机上并行执行海量数据的收集和分析任务。它把如何进行任务并行执行、如何进行数据分布、如何容错、网络带宽时延等问题的解决 方案编码,并封装在了一个库里面,使用户只需要执行数据运算即可,而不必关心并行计算、容错、 数据分布、负载均衡等复杂的细节。同时它又对上层应用提供良好简单的抽象接口。MapReduce要应用在搜索、数据仓库、数据挖掘领域。Pregel是Google提出的迭代处理计算框架,它具有高效、可扩展和容错的特性,并隐藏了 分布式相

11、关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框 架。Pregel的主要应用场景是大型的图计算,例如交通线路、疾病爆发路径、WE瓢索等相关领域。Dryad是微软硅谷研究院创建的研究项目,主要用来提供一个基于Windows操作系统的分布式计算平台,总体用来支持有向无环图类型数据流的并行程序。微软于年宣布,停止对Dryad进行 版本升级,转投Hadoop即MapReduce算框架。目前业界开源的云计算平台包含 HDF辞口 MapReduce为海量数据挖掘平台提供完备的云计算 支撑平台。舆情智能分析技术1)自动分类技术基于内容对经过双重过滤处理后的重要舆情自动分类,无需

12、人工干预,准确率达到95犯上。先设置分类关键词,每一个关键词都设置一个相应的优先级分值。对收集到的文章内容进行分析, 分别对标题和内容进行匹配,统计匹配的次数,然后根据设定好的关键字匹配模型对每个关键字进 行分值计算。分值超过一定分值的都将自动处理所对应的处理,匹配分值最高的关键字就自动分类。2)自动聚类技术基于相似性算法的自动聚类技术,自动对海量的无规则文档进行归类,把内容相近的文档归 为一类,并自动为其生成主题词,为确定类目名称提供方便。3)相似性排重技术采用“文章相似性技术”根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等 规则判断具有更强的准确性、实用性以及运行效率。采用中文

13、分词技术对文章关键字比较计算,得 出文章相似度,相似度高于0.75以上的文章系统默认处理为“已处理”,无需再进行任何操作,相 似度位于0.5-0.75之间的相似转载文章需要用户在页面进行再次确认,确保文章无漏处理。自然语言智能处理技术1)自动分词技术:以词典为基础,规则与统计相结合的分词技术,有效解决切分歧义。综合运用基于概率统计 的语言模型方法,分词准确性达到 99%。2)自动关键词和自动摘要技术对采集到的网络信息,自动摘取相关关键字,并生成摘要,并与快速浏览与检索。3)全文检索技术全文检索将传统的全文检索技术与最新的 WE瓢索技术相结合,大大提升检索引擎的性能指 标。还融合多种技术,提供丰

14、富的检索手段以及同义词等智能检索方式。网络舆情处理流程网络舆情监测主要由网络数据采集、数据处理、舆情分析与报告三大部分构成。舆情信息采 集对象主要以新闻门户网站、微博、论坛、博客、贴吧等,从海量的网页中采集数据为舆情分析提 供基础数据。第五章方案设计平台实现的主要功能.数据采集:根据用户设置的信息源对数据进行采集。.数据处理:1)信息预处理:去除网页中的广告、图片、链接等无价值、无需关注的信息。并自动识别标 题、来源、作者、发布时间、正文等信息。精心整理2)二次分析处理:利用“多重双向数据过滤模型”、知识库引擎、中文分词、全文检索、文本 自动摘要等,进行舆情过滤、自动分类、相似性排重、舆情分析

15、。3)数据统计:对信息处理结果作进一步统计分析,以图表方式展现给用户浏览。.信息管理1)系统配置:用于配置检索数据源和检索规则2)用户管理:配置用户登录账户和角色权限3)用户自定义设置:用户根据需要自行设置浏览的信息范围。.舆情浏览:根据系统配置和用户设置在网页上显示舆情信息。.舆情操作:用户可以手动操作舆情。如:设置属性、加入简报、收藏、上报等。.自动预警:经过分析出现重大负面信息时,系统将启动预警机制,迅速报警提示。网络拓扑结构网络舆情监测平台对目标网站进行舆情采集,通过防火墙将外网与内网隔离,从而保证内网 服务器的网络安全;经过一系列服务器群组对舆情数据清洗、过虑、分析后,最终以网页的方

16、式供 用户浏览。功能架构图舆情浏览舆情浏览包含了五个子模块:分类浏览、舆情来源、本地浏览、信息要素、舆情统计。最新舆情,r IJ 二L71实时展现最新获取到的舆情信息,通过正负舆情研判后,按时间进行倒排。分类浏览根据舆情内容分类,将舆情分类为正面舆情、负面舆情、突发事件等,根据用户选择的分类 显示舆情文章,默认显示所有舆情文章。舆情来源根据用户选择的来源网站显示舆情信息;默认显示所有网站的舆情信息。I .二本地浏览分为本省和省外显示舆情信息。本省:为登录账户所在省份,分支为本省所有城市;默认显示本省所有舆情信息;可根据用 户选择的城市分站点刷新显示舆情。省外:分支为除本省外国内其它省份,可根据

17、用户选择显示省外所有或指定省份的舆情信息信息要素舆情信息分页浏览,每页显示15条记录,通过第一页、上一页、下一页、最后一页进行翻页;每条记录显示舆情标题、摘要、高频词数、点击数、回帖数、来源网站、相似文章数、相关 文章数、发布时间;点击【查看原文】或者文章标题链接打开文章内容窗口查看详细。近期热点精心整理按舆情热度、点击数、回复数、转载数、时间对舆情数据进行排序。舆情统计在每一个舆情浏览都有显示舆情分析图,双击统计图,便可查看舆情统计数据。专题舆情专题舆情包含了四个子模块:专题浏览、专题舆情导出、领导相关舆情、热度分析。专题浏览通过用户自定义的舆情专题列表,用户可以轻松的区分和分类查阅专题舆情

18、。用户可以依据 舆情工作过程中的实际需要,定制完成后系统会对采集到的舆情信息自动进行归类并在后期自动更 新相关内容。通过舆情专题的功能轻松的把各种来源的信息,根据设置的敏感关键字,自动建立关联和聚类。专题舆情导出根据用户设置的过滤条件将舆情文章导出到 word文档中,可自定义文件名称和保存路径。领导相关舆情可根据用户选择的领导名字显示相关舆情文章。热度分析用户可以在专题中对很热门的事件进行进一步的细分和管理,比如对其中的某个事件、新闻 或帖子热度进行跟踪并通过其阅读和跟帖数量的变化描述其趋势。趋势分析专题热度:专题热度日增量、热度总趋势站点分布:所筛选数据的站点分布柱状图,根据每篇对应的站点名

19、称。载体分布:所筛选数据的载体分布饼状图,根据每篇文章对应的所属载体。地域分布:所筛选数据的地域分布柱状图,根据文章中出现地域词出现的频率。舆情过滤舆情过滤包含了五个子模块:时间过滤、来源过滤、排重过滤、热度过滤、显示过滤、舆情 排序。时间过滤根据选择的时间显示舆情信息。时间可选项:最近一天、最近三天、最近一周、最近一个月、 自定义。自定义时间:由用户设置起止时间,默认为所有舆情信息。来源过滤根据选择的来源网站类型显示舆情信息。来源选项包括:新闻、微博、论坛、博客、贴吧、 搜索引擎,默认为全部。排重过滤 精心整理按照文章排重显示舆情信息。可选项:文章排重、文章不排重。默认选项为:文章不排重。热

20、度过滤热度高的舆情信息优先显示,热度根据点击量和回复量来评定。点击量选项:全部,点击量 1000、点击量2000、点击量10000,默认全部;回复量选项:全部,回复量1000、回复量2000、回复量10000,默认全部;显示过滤显示/隐藏舆情信息的来源、摘要、高频词;显示选项:隐藏来源、隐藏摘要、隐藏高频词。 默认显示来源、摘要和高频词。当选择隐藏时,相应的选项变更为显示。舆情排序可根据网站、访问量、回复量、转载量、发布时间、相关文章、相似文章来排序。舆情操作舆情操作包含了八个子模块:设置文章属性、添加到舆情简报、添加到指定专题、添加到指 定类别、添加到收藏夹、添加到导控任务、添加到指定账户、

21、上报舆情。z f ? I ? 7设置文章属性f 1A 可将舆情文章属性设置为:正面、负面、重大负面、突发事件等。添加到舆情简报将舆情文章加入舆情简报中。添加到指定专题将舆情文章添加到指定的专题下。 I 1-: IJ/添加到指定类别将舆情文章添加指定的分类中。添加到收藏夹将舆情文章加入到个人收藏火中。添加到导控任务将舆情文章加入到指定的导控任务下。添加到指定账户 精心整理对账户作分析,将舆情文章纳入指定的账户类别下,账户类别分为疑似账户、关注账户、屏 蔽账户。上报舆情对负面、重大负面、突发事件舆情文章做上报处理。舆情报表舆情报表包含了六个子模块:舆情日报、舆情周报、舆情月报、舆情年报、舆情简报、

22、简报 格式。舆情日报主要是给用户一个当日详细的信息采集来源站点及具体数目,让用户清楚的了解采集到舆情 信息都来自哪些网站、各自有多少数量。舆情周报根据用户选择的周报显示舆情信息。舆情月报根据用户选择的月报显示舆情信息。舆情年报根据用户选择的年报显示舆情信息。舆情简报结合用户定义好的舆情模板格式自动生成 html浏览,而且用户也可以将这些指定的舆情文件 自动生成word文件并下载后编辑、打印。(,二 X 二尸简报格式用户可以根据本单位的工作习惯设置简报标题,字体、颜色、大小、单位名称、批示空行等 各种属性。舆情报警舆情报警包含五个子模块:首页报警、敏感报警、本地敏感报警、报警设置、报警任务。首页

23、报警针对舆情信息在首页位置出现的特殊意义和影响,网络舆情监测平台专门针对各大新闻网站(比如:新浪、搜狐、网易、腾讯、人民网等和本地有名的地方性门户) 、知名论坛、微博等首页 信息进行高效率监控,以非常迅速的方法扫描这些网站的首页,如果首页中出现了要监控的关键字, 则会以醒目的方式进行报警。敏感报警 精心整理在首页扫描完成后,平台会按照指定的采集任务在采集目标中采集舆情信息,采集到指定关 键词的舆情后自动对其中文件的内容进行中文分词并自动比照,如果发现文章中内容涉及到敏感 词,则以醒目的方式在“敏感报警”栏目中显示。本地敏感报警用户在使用过程中,往往处于指导意义会采集上级单位的舆情,同时出于借鉴

24、意义会采集同 类兄弟单位的舆情,这样舆情的总数就会比较多。通过用户设置的“地域、人名和机构”关键词分 析,对上述这些舆情进行了再次细分,把只与本地下属单位有关的舆情归纳到 “本地敏感”栏目中报警设置可以定义多个邮件、多个手机,可以定义任务启动时间、间隔和报警方式。报警任务用户可以根据自己的工作习惯和工作需要,定制报警任务。这些舆情的报警在指定的时间以 邮件或者短信的方式推送到用户的终端。用户设置用户设置包含四个子模块:方案设置、导出模板设置、修改密码、用户权限。K 7 / 方案设置1 a t、 i吟将用户常用搜索设置保存为搜索模板。模板内容包括:方案名称、关键字、排除关键词等。导出模板设置设置

25、文章导出时的格式、内容等规范。修改密码(,二 X 二尸用户修改个人登录密码,退出系统重新登录时将使用新的密码验证登录。 - -T., - IX /用户权限提供用户组管理的概念,系统管理员可以通过设置组织的权限和对组成员的管理来批量管理 用户的权限。舆情关键词维护舆情关键词维护包含三个子模块:采集搜索关键词维护、舆情预警关键词维护、排除关键词 维护。采集搜索关键词维护设置舆情过滤、权重和用户关键词,对舆情信息搜索采集时的关键词。舆情预警关键词维护用户可根据负面、重大负面、突发事件相应关键词进行设置。精心整理排除关键词维护非舆情信息的判定关键词设置。模块维护该平台具有非常好的开放性和灵活性,通过“

26、模块维护”可以非常方面的打造一个个性化的 舆情监测管理平台。用户可按专题、类别、收藏夹、领导人名等进行设置和维护。第六章 建设目标及效益建设目标我国正处于社会发展的转型期,各种社会矛盾不断涌现。鉴于交通行业职责特殊性 ,在与社会 各阶层的长期接触中极易被置于矛盾的风口浪尖上。任何涉及交通方面的负面信息,如果得不到及时有效的处理,在网络环境下都有可能成为舆情风暴,导致交通行业相关部门及工作人员形象受损 严重。关注热点,抓住难点,为领导决策参考服务,如何快速的实现网络舆情搜集处理工作,成为 当前舆情工作的当务之急。针对这些问题,建立网络舆情监测平台成功地实现了:针对互联网海量舆情自动实时的监测、自

27、动敏感内容分析和自动实时报警的功能。有效地解决了传统的以人工方式对舆情监测的实施难题。加快了网络舆论的监管效率,有利于组织力量展开信息整理、分析、引导和应对工作,提高了贵州交通相关部门对网络突发舆情的公共事件应对能力。有利于全面掌握民意,提高执政水平。及时了解和掌握社情民意,提高宣传思想工作的预见性、针对性、实效性。经济和社会效益有效的部署工作人员在实际工作中,网络舆情监测平台的运用,可以有效的进行工作人员部署,运用网络爬虫和 大数据技术替代人工浏览的方式,将会节省大量人力,并将负责分析互联网信息的人员从枯燥的重 复性的查看互联网信息的工作中解放出来,把更有效的人力投入到对舆情信息结果的处理和

28、防范等 重点上。降低人工对比分析误差在本项目运用中,通过该平台以大数据挖掘技术为基础,通过信息关联分析与共享、人工经 验知识分享与机器自动学习相结合的方式,实现对网络舆情信息的研判与事件综合分析预测,改变以人工操作带来的不便,提高了业务水平和工作效率。提高管理效能在该平台中针对互联网信息的虚拟性、隐蔽性、发散性、渗透性和随意性等特点,网络舆情 基于自然语言理解的文本挖掘技术,提高了交通相关部门对于网络舆情的应对能力和快速反应能 力,加强了对社会面信息的全面动态控制能力。建立网络舆情监测平台,实现了在一定范围内网站信息发布进行全面掌控,能够对各大新闻 网站、论坛、博客、微博、贴吧、搜索引擎等实时

29、监测、采集、内容提取及排重;并且对获取的信 息进行全面检索、主题检测、专题聚焦、相关信息推荐;按照业务需求定制信息分类规则;为用户 辅助编辑提供信息服务。如重大负面舆情,突发事件预警自动形成网络信息报告、 追踪已发现的信 息来源,及时发送到指定的监管人员手机或邮件中。 这对于随时随地掌握舆情信息;获得舆情信息精心整理热点、焦点和趋势分析;合理部署工作人员,提高人员的工作效能;实时通报最新舆情信息;更充 分了解社情民意都起到一定的推动作用。为领导提供决策依据网络舆情监测平台对采集到的舆情信息进行趋势分析,舆情分布、影响力查询等快速掌握舆 情发展动向,为领导提供决策作用。第七章网络舆情项目报价7.1项目总报价 本项目报价包含软件开发、软

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论