下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索引擎与舆情监测系统的区别
搜索引擎和舆情监测系统虽然有着一些共通之处,但是二者的设计初衷完全不同,我们要想要了解舆情监测需要哪种工具,就必须先要了解各种工具是为了解决什么问题而设计的,其工作原理又是什么。搜索引擎的核心价值在于快速地为用户找到所需要的内容,它是在大而全的收录的基础上,按一定算法评估页面内容的价值,并以倒序排列的方式呈现给用户。董敬一网络舆情研究认为,舆情监测系统的核心价值是第一时间获取与“我”相关的舆情信息。舆情监控重点强调的是第一时间、与“我相关”以及舆情价值。有一点需要注意的是内容价值和舆情价值完全是两回事,并不是所有的页面的信息都是舆情信息,技术站点、下载站点以及访问量极低的僵尸站点的信息就不是舆情信息。也有可能某一篇博文的内容价值很低,只有几句话几个图片,但是很有可能它的舆情价值却很大。搜索引擎与舆情监测系统的不同具体体现在:一、全网抓取与重点抓取搜索引擎的工作原理是先将所有互联网上它认为有用的页面先抓取到它的数据库中,然后对这些页面进行索引,最后使用户提交一个关键词时由系统在它自己的数据库中对这个关键词进行匹配,并将匹配结果以一种顺序展示给搜索者。整个互联网上的站点是海量的,并不是所有的网络站点上都会产生有价值的舆情信息,我们通过对近些年的网络热点事件进行观察就会发现,几乎所有的舆情事件最开始都是在有数的一些重点网站上产生的,例如新浪博客、天涯论坛、猫扑以及类似华龙网、辽一网这类地方网站,除了突发事件能够直接被门户关注之外,一般性事件都是经过这些网站的发酵之后,才被各大新闻门户关注,从而促使舆情爆发。所以舆情监控的重点,显然不是整个互联网,而是这些易于产生舆情事件的论坛、博客、社交网站、地方网站及新闻站点,例如大连西盈信息技术有限公司的西盈网络舆情监测系统就提供了一个3000个基础网站监测列表,几乎已经可以覆盖整个网络舆论场。舆情系统的重点抓取策略可以使信息抓取工作更加精准,有效的避免了信息噪音对系统正常运行的影响,从而提高后面的舆情分析系统的工作效率。二、内容价值与舆情价值搜索引擎的工作原理主要是判断网页的内容价值,判断内容价值这其中起主导作用的是链接分析技术,基本工作原理是,当搜索引擎发现有大量的高质量页面有链接同时指向某一个页面时,搜索引擎则认为这个页面很“重要”,从而将这个页面呈现给搜索者。链接分析技术显然不适用于舆情价值的判断。第一,链接分析技术存在盲区,近年来一些新兴的WEB2.0站点开始主动屏蔽搜索引擎的抓取,例如一些微博和SNS社交网站,而这些网站由于其传播速度快,恰恰是易于爆发舆情危机的地方。第二,链接分析技术无法判断该页面的舆情价值,例如某个论坛的某个贴子,可能只有几行文字配合几副图片,该页面对于搜索引擎来讲,内容的价值很低,但可能由于其文字内容和图片内容与网民利益切身相关,它可能具有很重要的舆情价值,但搜索引擎可能并不会对这个页面进行收录,或者该页面排名非常靠后,使人难以检索发现到,错过了舆情监控的最佳时机。以上搜索引擎在舆情工作中的两个致命缺陷,严重制约了舆情工作人员及时获取舆情信息的能力,被忽略的舆情信息很有可能发展爆发,产生严重后果。而舆情监测系统会考虑到如转发数、回复数、浏览量、传播速度这些更能反映舆情价值的参数,来判断一个信息是否具有舆情价值。三、被动收录与主动抓取由于搜索引擎索引的范围是整个互联网,海量数据的处理肯定无法做到时实监控,搜索引擎基于内容价值对各个网站有自己判断,对它认为质量高的网站收录速度会快一些,对它认为质量低的网站收录速度就会慢一些,而这种判断并不是基于对舆情价值的判断,所以仍然会产生舆情价值高的内容没有被索引或是已经过了很久才被索引,搜索引擎什么时间放出爬虫去抓取目标网站,以及收录目标网站的哪些页面,这对我们来说都只能被动等待,搜索引擎处于自身商业利益考虑,一般是不会100%抓取一个网站的内容的。还有一点,通常舆情信息都会发生在网站的内页,搜索引擎抓取网站内页后,在很长一段时间都不会对这个内页再次抓取,这样便很难跟踪这些舆情信息的变化趋势,例如对信息回贴、评论、浏览量和转载量的监控,这些都会对舆情监控工作带来严重影响。而舆情监控系统的监控范围是互联网上易于产生舆情信息的网站,由于监控目标非常精确,所以可以提高监控效率,舆情监控系统什么时候放出爬虫去抓取目标网站,完全由我们自己说了算,我们可以30分钟抓取一次,也可以1分钟抓取一次,也可以想抓取的时候就抓取,而且理论上可以做到对目标网站的100%抓取,包括对重点舆情信息的跟踪抓取,这种主动监控机制可以保证舆情工作者第一时间发现舆情信息,有效把握黄金4小时,引导舆情走向。舆情监控系统在重点监控网站以外也可以参考和跟踪搜索引擎的内容,可以做到统筹兼顾,万无一失。四、人工检索与软件聚合在没有舆情监控系统的年代,监控各个网站舆情信息,人工检索的工作量是很大的,例如判断一个信息的转载量,还要考虑其标题的变种,衍生内容,替代词、传播范围等等因素,而且很多私秘网站的内容在通用搜索引擎上还无法检索到,例如微博和一些SNS社区,还需要借助相关垂直搜索工具来检索信息,这些监控工作都需要持续跟踪,所以就需要不断的重复进行相关人工检索,这个工作效率就非常低了。软件就是为了解决人工重复劳动的问题,这些动作其实完全都可以借助专业的舆情监控系统来完成,例如董敬一网络舆情提供的专业舆情监控系统,可以对舆情信息进行深度分析,通过重点目标监测和元搜索引擎辅助监测,实现全网信息匹配,将全网各种舆情信息副本、衍生版本聚合在一个操作界面下,覆盖微博、SNS社区或其他私秘网站,帮助舆情监控工作者宏观把握舆情走势。五、主观判断与智能预警以前舆情工作者通过搜索引擎获取信息,都是通过自己的主观认识,评判一个舆情信息的价值,而这种主观认识,由于缺乏及时的具体数据支持,例如传播速度、转载量、回复量、正反面观点比例判断等等,经常会出现偏差,这就易于产生舆情误判。还有对一些新兴网络词语用在不同情景下的语意把握,完全凭主观学习和判断,这个难度就比较大。舆情监控系统拥有有效监控这些判断舆情价值参数的手段,就可以解决这些问题。舆情监控系统通过对历史舆情事件的研究,通常拥有自己的判断模型,什么条件达到什么预警级别、在什么时候预警,以何种方式预警,舆情监控系统都会有更科学的判断方法。舆情监控系统一般都会配备一个衍生词数据库,这个数据库通常具备自我学习功能,针对近些年互联网上陆续出现的一些网络词汇,例如神马、蒜你狠、坑爹、上墙、拼爹、你妹等等进行主动学习和收录,在不同的语境下做具体的语意分析,保证舆情监控不留死角,与时具进。除此之外,舆情监控系统通常都会集成一些专门为舆情工作者量身定制的贴心小功能,例如手机短信、邮件通知,可以让舆情工作者在非工作时间也能第一时间掌握网络舆情
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度物联网技术研发与许可合同
- 二零二四年度云计算服务租赁协议
- 二零二四年度内蒙城乡供水一体化工程承包合同
- 雇佣工人免责协议书
- 房屋居间合同返佣纠纷起诉状
- 二零二四年度健康管理与服务合同
- 二零二四年度影视特效分包合同2篇
- 2024年度软件开发合同服务内容扩展
- 二零二四年度知识产权保护与保密合同
- 二零二四年度文化传媒公司内容创作与传播合同
- 钢框架结构优秀毕业设计计算书
- 人身保护令申请书范文精选5篇
- 第四讲马克思主义的唯物辩证法课件
- 尿崩症护理查房
- 二年级语文上册 第八单元 集体备课+教材分析
- 2022秋国开农村社会学形考任务3试题及答案
- 《劳动关系协调员》教学计划及教学大纲
- 中国历史文化名城-南京课件
- 城市桥梁安全性评估规程DB50-T 273-2021
- 尾矿库在线自动监测系统解决预案
- 文华财经期货软件指标公式源码至尊波段王指标公式源码
评论
0/150
提交评论