舆情监控管理系统方案_第1页
舆情监控管理系统方案_第2页
舆情监控管理系统方案_第3页
舆情监控管理系统方案_第4页
舆情监控管理系统方案_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

舆情管理系统设计方案目录目录一、背景概述3二、建设必要性4三、建设目标4四、核心技术5五、系统架构6六、工作流程7七、系统功能8信息采集8信息处理10舆情分析117.4舆情展示12八、应用效果13九、系统配置149.1网络带宽149.2运行环境14网络舆情监测系统解决方案网络舆情监测系统利用互联网信息采集技术、智能信息处理技术和全文检索技术;结合网络舆情的传播分析模型:对境内外网络中的新闻网页、论坛、贴吧、博客、微博等网络资源进展全网监控、定向采集和智能分析,把互联网读薄,读透,提供相关舆情、负面舆情、热点信息的发现、主题事件监测、分类监测、舆情实进预警、舆情监管、统计分析、辅助决策支持等多层次,多维度的舆情信息的服务,根据用户有网络舆情监测和定向追踪等信息需求,形成简报、报告、图表等分析结果,从而帮助用户与时掌握舆情动向.为领导和舆情工作部门提供信息参考和决策支持.一、背景概述随着互联网的快速开展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活.网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,涉军涉警事件更是成为局部网民炒作对象,通过这种网络来表达观占、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法无视的地步.可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器.网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过EES论坛、博客、新闻跟贴(回贴)、转帖等实现并加以强化.当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多元.对部队来说,如何加强对涉军涉警网络舆论的与时监测、有效引导,以与对网络舆论危机的积极化解,对维护部队声誉、促进部队健康开展具有重要的现实意义."网络舆情监控系统"是针对在一定的社会空间内,围绕涉军涉警事件的发生、开展和变化,民众对部队的态度天网络上表达出来意愿集合而进展的计算机监测的系统统称."网络舆情"是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和.网络舆情形成迅速,对社会影响巨大,加强互联网信息监管的同时,组织力量开展信息聚集整理和分析,对于与时应对网络突发的涉军涉警事件和全面掌握社情民意很有意义.二、建设必要性由于舆情有突发性,随机性,多样性等特点,传统舆情监控已经无法满足目前的形势需要,互联网舆情监测系统应运而生.各单位对于突发事件,如果有工具能与时监测发现舆情信息与其根源,与时做好危机公关,做好积极的舆论引导工作,处理还处在萌芽状态的舆情,就能控制势态开展,为企业和个人减少损失,挽回无形的、有形的损失.对于涉军涉警负面信息的监测,是舆情监测的重中之重,必须要有一个舆情发现快,信息全,信息准确,全天候自动监测系统.三、建设目标通过对传统媒体网络版(含中央媒体、地方媒体、市场化媒体、局部海外媒体)、新闻、网络社区/论坛/EES/、社交、QQ群、搜索引擎、视频、知道、贴吧、"意见领袖"的个人博客、微博等,进展多语言全年7決24小时监控与本单位相关的敏感信息,特别是负面信,在第一时间将信息通知到指定责任人,主动掌握舆情进展与未来趋势,为领导决策分析做支撑,为宣传部门提供舆情检测工具.四、核心技术1•垂直搜索垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进展一次整合,定向分字段抽取出需要的数据进展处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深〃,且具有行业色彩,相比拟通用搜索引擎的海量信息无序化,垂直搜索引擎如此显得更加专注、具体和深入。2•元搜索元搜索引擎〔MetasearchEngine〕,是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母〔Themotherofsearceengines)"。在这里,“元〃〔Meta〕为“总的〃、“超越〃之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎〃〔sourceEngine〕,或“搜索资源"〔searcingresources〕,整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术〃〔Meta-searchingtechnique],元搜索技术是元搜索引擎的核心。3•中文文本挖掘中文文本挖掘是一项综合技术,涉与数据挖掘、自然语言处理、计算语言学、信息检索与分类、知识管理等多个领域.将其用天文本数据中可以发现其隐含知识,即进展知识获取.中文文本挖掘出的数据源是文本数据,可以是Web页面、文本文件、Word和Exce1文件、PDF文件等形式的电子文档.在获取文本信息之前先对文本数据进展预处理,包括数据清洗,如去噪、去重;数据选择,即选择所需文本数据;文本切分,如中文分词、段落切分等.然后提取中文文本的特征信息,包括关键词(高频词)提取、术语(词组、短语)提取、基于模板的信息抽取、基于语义词典的概念转换、基于浅层句法分析的语法特征提取、基于浅层语义分析的语义特征提取、基于文本分类的文本类别信息获取等操作.4•信息聚类聚类是把一组样品按照相似划分为假如干类别,使属于同一类别的样品之间的距离尽可能小,而不同类别样品间的距离尽可能大,按照相似性进展聚合.贝叶斯聚类算法是一个典型的聚类式的层次聚类算法,使用后验概率作为最大化的目标函数,有非常好的聚类效果.使用聚类分析来做网络舆情监控的专题、热点事件、重点人与重点组织的处理.通过聚类分析,把不同类型的网络信息聚合在一起,用于分析各类别的传播热度.五、系统架构网络舆情监测系统利用互联网信息采集技术、信息智能信息处理技术和全文检索技术、对境内外网络中的新闻网页、论坛、微博、贴吧、博客、新闻评论等网络资源进展全网监测、定向采集和智能分析,把互联网读薄,读透.提供相关舆情、负面舆情、热点信息的发现、主题事件监测、分类监测、舆情实时预警、舆情监管、统计分析、辅助决策支持等多层次、多维度的舆情信息服务,根据用户的网络舆情监测和定向追踪等信息需求形成简报、报告、从而帮助用户与时掌握舆情动向.为领导和舆情工作部门提供信息参考和决策支持.网络舆情监控系统由信息采集、信息处理、舆情分析、舆情展示四局部组成.对武警部队而言,舆情监测的需求既有通用性,也有个性化的特点存在;网络舆情监测系统具有极大的扩展性,但凡需要对舆情、口碑关注的政府、企业、高校和其他组织机构都可以通过本系统进展量身打造,建立适合自己的舆情监测体系.网络舆情监控系统采用B/S结构相结合的系统架构,利用先进的系统架构,实现基于浏览器的客户端式.六、工作流程网络舆情监测系统的工作流程是:1.网络信息采集系统从互联网上采集新闻、论坛、博客、存储到舆情数据库中,并通过舆情搜索引擎对海量的舆情数据进展实时索引.2•舆情分析引擎负责对舆情数据库进展清洗、智能分析和加工.舆情分析引擎依赖于智能分析技术和舆情知识库.3•舆情服务平台把舆情数据库中经过加工处理的舆情数据发布到Web界面上并展示给用户.4•用户通过舆情服务平台浏览舆情信息,通过简报生成等功能完成对舆情的深度加工和日常监管工作.七、系统功能网络舆情监控系统,是将搜索引擎技术应用在部队舆论情报服务的一次创新.系统利用独有技术,能根据预定的监控关键词在实时发现重点媒体、论坛、博客、微博等里的舆情信息,并对信息与时报警.系统利用中文分词技术、自然语言处理技术、中文信息处理技术,对信息进展垃圾过滤、去重、相似性聚类、情感分析、提取摘要、自动聚类等处理,配合专业分析师生成详细的舆情分析报告.信息采集自动采集系统是舆情监测系统的核心与根底,因此评价一个舆情监测系统是否优秀的重要指标就是自动采集子系统能否将目标信息与时全面地采集到系统中.信息采集子系统的职责是对全部进展自动采集.系统内置重点有:新闻类门户:如新浪网、网易、人民网、雅虎……政府机构门户:如首都之窗、中国政府网、各地政府网……信息资讯:各地信息港、行业咨询网……交互性质:如强国论坛、天涯社区、西祠社区、网易区、新浪论坛、搜狐社区、BBS贴吧……传统媒体:人民日报、参考消息、中国日报、解放军报、各省市地区报纸、各地新闻网等媒体网络版(6)博客:新浪博客、腾讯博客、网易博客、博客中国、博客网•……(7)微博:Twitter、新浪微博、腾讯微博、网易微博、搜狐微博……视频:Youtube、优酷、土豆网、56视频、酷6网......搜索引擎:Google、BaiDu、Bing、、搜搜、有道……社交:FaceBook、Google、人人网、豆瓣、开心网、QQ群、QQ空间……信息采集了系统可以抽取所有新闻文章或主题贴或着最新主题贴内容,还可以抽取某个主题贴的所有回复贴或着最新回复贴的内容.即可指定某个目标进展监测,也可以不指定目标对于全球X围内进展监测,或着进展两者混合监测.即可以监测国内,也可以监测国外如BBC,N等.信息采集了系统还可以对于基于应用程序的聊天室程序监测,如QQ群聊天室.自主研发了专为舆情系统设计的智能网络爬虫(spider)系统,可以实现高质量和快速的抓取,还支持对新浪微博、腾讯微博、搜狐微博、网易微博等主要微博平台信息的实时抓取.舆情监测系统对于人工定义的重点站点的新闻、论坛、博客等实现全面的抓取,同时支持对主流新闻分页、评论内容的采集以与对论坛点击数、回贴数、回帖内容的抓取.智能爬虫系统还可以自动跟踪多个搜索引擎的搜索结果,对于系统抓取进展补充,确保信息全面无遗漏.本子系统可以部署在多台计算机上,实现高效的多线程同时并行处理,减少单一服务器采集压力.可自动处理并保存中文,英文,阿拉伯语,法文,德文,日语,韩语等多国语言,且有多国语言同时并存监测的实际案例.对于文章类型网页,可以无需配置,直接自动提取文章正文与标题,以与作者发布日期,来源等,自动去除广,栏目,等无关的垃圾内容.这个功能对于舆情监测非常重要,可以大大免除配置的负担.该功能经过我们的多年测试,对于绝大局部文章型页面都可自动准确识别.值守全天候自动采集可定时行,也可7*24小时运行,可设置采集时间间隔最短为1分钟基于机器学习的垃圾过滤机制可以自动过滤广告、水贴等无效垃圾信息.采用"文章相似性技术",根据文档内容的匹配程度确定是否重复•去重的级别;根据不同的需要特点分为:URL去重、标题去重、正文去重三个级别.HTML内容提取采用自主知识产权的HTML网页文本萃取技术自动提取任意复杂网页中的标题、内容、作者、发布时间等信息,自动跟踪文章分页;对于论坛信息自动分析主贴、回帖以与作者等信息.快照保存对于每个经过抓取和处理的网页,系统都存有一个纯文本的备份,方便用户快速浏览,也方便用户查看被删除的文章或帖子综合重要程度、文章出现位置、主题相关度、点击回复次数、传播数量以与用户自定义规如此等复杂参数计算的文章权重,加上基于自然语言处理技术的训练系统,能准确分析出重要舆情信息.系统可以对于一段时间(自定义X围)内的舆情信息走势进展分析展示,同时可以以不同的载体如论坛、新闻等分类呈现.自动分类与情感分析将自然语言处理技术〔SLP〕应用与舆情监测领域,对信息精准分类并自动做情感分析。相似文章算法基于自然语言处理技术,系统根据文章内容相似程度计算相似文章,方便获取同一内容文章的所有传播。爆发趋势分析对于重要的热点新闻信息,系统会进展分析和追踪,自动统计相关的新闻和论坛传播情况以与舆情的走势,进展爆发趋势分析。7.4舆情展示WEB客户界面基于云计算模式,用户可以使用WEB浏览器随时登陆系统,在客户界面对舆情状况进展全面的了解。客户界面包含了如舆情走势、舆情详细信息、最新微博信息、载体覆盖情况等主要内容,并以列表以与图表展示等可视化方式呈现,方便客户查看。导航栏清晰明了,方便用户查看各种分类;栏目定制功能,用户可以在首页自行删、减、增添所需要的功能模块。实时搜索功能,用户可以自定义搜索条件查看系统内抓取的最新

监测信息;支持关键词组分类、媒体类型分类、信息属性分类查看。舆情预警预警级别显示,显示当日舆情级别,方便用户整体把握,同时呈现预警信息走势和预警信息列表。建立多个舆情指示,对于突发舆情自动发出预警信号,在最短时间内通过短信或方式通知用户,辅助进展舆情干预和引导。舆情分析报告根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,并且可以到处生成为word、PDF等格式的本地文档。专业行业分析师辅助提供相关日报、周报、月报,方便客户对不同时段的重点和热点进展把握。对于突发事件提供详细的事件专题分析报告,对时间舆情数据进展有针对性的解读。八、 应用效果本系统对互联网进展实时的自动采集,分析,汇总,监视,并识别其中的关键信息,排除无用信息,与时通知到相关人员,从而为第一时间积极应急响应负面信息,是正确舆论导向提供工具,收集舆情信息的信息化系统。比拟指标人工检测采用本系统与时性不与时,随意性强每10分钟采集一次重点目标人工发现事件时间晚,比拟被动,人工通知到责任人自动主动发现事件,时间与时,主动通知责任人人力本钱需多人在工作时间,分别登陆各个,手上查阅,还要手上复制全年7*24小时无人值守,网络信息的获取工作完全由软件自动进展,检测人员只需在内网集中进展

黏贴,疲于奔命内容的浏览、挑选、分类、分析信息保存零碎,不可防止会出错准确,全面,便于事后追踪数据储存word文件,分散,很难管理,备份与恢复不方便。统存放在大型关系数据库中,集中管理,方便备份与恢复监测报告基于手工统计加估计,数据支持不充分针对各维度的自动化的统计分析,图文并茂,具有翔实统计数据支持,可以每日,每周,每月出报告监测效果覆盖片而,不与时,差强人意,浪费人力资源覆盖全面,实时,自动化,系统化|丄・上置9.1网络带宽根据采集板块的数量不同,要求的网络带宽也有所不同:300个板块以内建议至少5M,300-5000个板块建议在10M-15M;5000-10000个板块建议在15M-2041之间;另外,带宽与多线程访问有关系,如果带宽大如此可以调整线程个数,支持信息的更新快,如果带宽小如此调小线程数据量,信息更新相对较慢。9.2运行环境9.2.1网络爬虫服务器推荐配置一台网络爬虫服务器支持采集500个板块的信息,因此爬虫服务器配置的数量应根据需要采集板块的数量来定,如采集2800个板块需要6台服务器〔不能采用一合超高性能的服务器来代理,否如此采集周期会加长〕,爬虫服务器的配置要求如下表所示:配置项描述500个模块CPU内存4G硬盘320G操作系统MicrosoftWindows2003ServerMicrosoftWindowsServer2008R2

9・2・2WEB管理服务器推荐配置系统采用一台服务器进展WEB管理,配置由用户数量来定,具体配置如下:访问人数配置项描述300人以内CPU内存4G硬盘250G300-3000CPU双核至强内存8G硬盘500G3000-10000CPU内存8G硬盘1TB10000-20000CPU内存16G硬盘1TB20000以上CPU根据具体情况配置内存根据具体情况配置操作系统MicrosoftWindows2003ServerMicrosoftWindowsServer2008R2

数据库服务器推荐配置系统需一台数据库服务器,七配置根据采集板块的数量来定,建议采用磁盘阵列动态扩大容量,具体配置如下:采集板块数量配置项描述200以内CPU内存4G硬盘1TB200-1000CPU内存8G硬盘2TB1000-5000CPU内存8G硬盘3TB5000-10000CPU内存16G硬盘6TB10000以上CPU根据具体情况配置内存根据具体情况配置操作系统MicrosoftWindows2003ServerMicrosoftWind

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论