下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分析:大数据下的舆情监测与预测
一、Web1.0与早期舆情监测与即时通讯类的网络应用不同,博客、个人空间、微博都具有一定的公共性质,并被统称为自媒体。自媒体的兴盛,使其成为热点舆情形成的重要推动者,而网络舆情也成为社会舆情的重要组成部分。自媒体几乎没有准入门槛,同时又具有匿名性,使用者的媒介素养良莠不齐,很容易产生各种失范现象;自媒体也不像传统媒体那样容易监督,对于失范现象难以追溯源头,同时给各方主体带来影响舆论、把控舆论走向的机会,使得网络舆情处于更加复杂的环境中。自媒体的网状结构又决定了网络舆情可以快速发酵,甚至在短时间内多次转向,因此更加难以监控和把握。而对自媒体勃兴之后网络舆情的监测,传统的现场调查、访问调查、问卷调查等方式收效不佳,早期曾经广泛使用的网络舆情监测手段也暴露出了越来越多的问题。早期的网络舆情监测,主要是针对Web1.0设计的。互联网发展至今经历了两个阶段:Web1.0和Web2.0。两者的主要区别并不在于技术规范或物理设备,而是用户之间以及用户和网络应用之间的交互方式。在Web1.0时代,互联网内容主要由各大网站生产,用户和网站的交互主要体现为寻找和接受相应的内容,用户之间也只能通过有限的方式进行散落联系。早期的网络舆情监测,就是针对这样层次的交互而设计。流程大致是:一、通过相关样本库,把需要监测的网页进行模板匹配,并设定为监测数据源;二、应用爬虫程序抓取数据,存储到本地,再进行数据的净化和简略的分析;三、利用简单的图表模板和文字描述,呈现监测和分析的结果。早期的网络舆情监测方式有一些原生的问题,譬如:一、由于处理能力有限,只能抽取部分样本进行监测,无法避免偶然误差;二、文本分析算法的准确度、监测对象和系统模板匹配的程度、对数据的净化,以及分析的算法等因素对于最后监测结果的准确度都有决定性的影响,无法避免系统误差;三、将监测的对象简化为独立的信息元,欠缺分析网络内容之间联系的能力和预测能力。早期的网络舆情监测方式,尽管有很多问题,对Web1.0时代的离散的网络内容和单向的交互方式来说还可以适用。随着互联网发展到了Web2.0时代,早期网络舆情监测方式的局限性表现得日渐明显,其监测功能已经弱化而无法适应新的舆论环境。二、大数据技术下的网络舆情监测Web2.0时代最突出的特征就是更紧密的网状结构。用户自主生成内容使网络内容生产者数量呈几何级增长,用户与网站之间双向交互,用户与用户之间也在进行多渠道、多层次的立体的交互。Web2.0的网络内容不再是离散的,具有强烈的“关系”属性。这种基于各种强弱关系的网状结构,也直接使网络舆情能够快速成型、发酵,短时间内可以多次转向。Web2.0时代的舆情监测,更关注“关系”,能够更快速、更准确地跟踪舆情变化。这正是早期网络舆情监测的缺陷。新的舆论环境,需要加强网络舆情的监测,而新的网络舆情,需要新的监测方式。大数据技术下的网络舆情监测,就是这样一种新的方式。自1980年以来,全球的数据存储能力每40个月就翻一倍。不断进行量级上的增加的庞大数据量和数据背后蕴藏的信息,带来了大数据时代。大数据通常指的是庞大、复杂,难以用传统的软件工具来分析处理的数据集。对大数据的处理,又牵涉到从数据抓取、整理、分析、共享、可视化到存储、传输等一系列问题。大数据集合常常来源于日常生活,与人的行动、交往有一定的同构性,部分条目直接附加了时间、地理等信息。可以说,在大数据的数据集合中天然蕴含着各种关系。因此,大数据集合能提供同数据量的若干小数据集合无法带来的新信息。人们可以通过数据挖掘寻找数据之间的联系,确立数据之间相关关系的规律,进而提供多方面的预测。显而易见,大数据处理技术的优势,正契合了Web2.0时代的特点。正因为大数据在挖掘数据之间的关系、进行发展趋势预测方面的能力,已经有很多机构借助其进行舆情监测和呈现,并取得了不俗的成绩。譬如在新闻业,就有不少国际传媒机构已经在各种项目中采用了大数据分析和数据可视化技术,如BBC以及《卫报》《华盛顿邮报》《纽约时报》等。三、大数据带来舆情预测的新可能“预测”本身就是大数据的一个重要应用。针对同一主题的海量数据进行分析,经过数据挖掘和建模后,可以得到相应的预测模型,进而预测将来的发展趋势。譬如奥巴马竞选团队,就在2012年竞选的多个环节运用了大数据技术,特别是在实时监测选民意向、预测投票情况方面。竞选团队每晚都会使用特制的模拟大选的模型,根据实时监测的选民意向模拟大选,并在第二天上午根据模拟结果对各州重新分配竞选资源。这种对舆情的实时监控和预测对奥巴马2012年总统连任起到了重要作用。麻省理工学院博士内森·凯乐斯的一项以2013年埃及爆发的民众抗议活动的大数据预测为主要案例的研究,获取了全球范围主流媒体新闻、政府出版物、社交媒体、博客等各种类型超过三百万个数据源的目标数据。其证明可以通过大数据技术和特定模型来发掘公众的情绪、态度变化,并最终预测以大型抗议活动为代表的大型公共事件的发生,包括事件即将发生的时间地点。而这还仅仅是一个开始。大数据有不同的来源,互联网中以自媒体为代表的各种原创内容持续爆炸式增长,各种移动通讯设备、可穿戴设备也在不停地产生和存储、传递各种数据,除此之外的数据来源还有麦克风、摄像头记录的音频、视频数据,运营数据,遥感数据等等。按照来源不同,数据大致可以分为三类,即以自媒体内容为代表的用户原创数据、各种经营活动中产生的运营数据(如销售记录、医疗记录等)、感知数据(如各种可穿戴设备获取的数据)。其中用户原创数据对舆情监测的重要性已经显现,而对其他数据来源的大数据分析、不同数据来源的融合分析,也蕴含着巨大的舆情预测潜力。与用户原创数据相比,感知数据和运营数据似乎与“舆情”没有直接联系。然而,舆情从来不是孤立地存在的,舆情的发酵、转向源于现实社会的事件和环境,舆情的发展又会影响现实活动。而感知数据和运营数据和人们日常生活具有同构性,甚至直接记录着人们的举动和身体变化。如可穿戴设备,已经可以检测使用者的心跳、体温、血液含氧量等数据,并通过模型分析使用者的情绪变化。而对位置移动、购买行为的相关数据的监测,以及基于这些数据对个人行动的预测,更是已经投入营销活动的应用。在这些感知数据、运营数据中可以获知人们的情绪、态度、日常行动的变化,也
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度智能家居系统设计合同
- 牙齿密封材料市场发展预测和趋势分析
- 2024年度借贷合同解除条件
- 2024年度数字图书馆建设与运营合同
- 2024年度原材料供应与彩板房建造合同
- 采矿钻机市场需求与消费特点分析
- 2024年度版权买卖合同详细文本
- 2024年度建筑工程公司施工合同
- 04版北京市一手房购买居间合同
- 皮肤伤口用药剂市场发展预测和趋势分析
- 产品研发与创新战略性合作协议书
- 北京邮电大学《计算机网络课程设计》2022-2023学年期末试卷
- 代理记账业务内部规范(三篇)
- 黑龙江大学《应用回归分析》2023-2024学年第一学期期末试卷
- 中层管理干部团队-执行力与领导力提升培训课件
- 2024年保密基础知识竞赛试题库及答案(共350题)
- 招聘笔试题与参考答案(某大型国企)
- 实验四 动态显示与矩阵式键盘实验 计科17-3BJ 李浩葳
- 专题08保护生物的多样性(综合题20道)(试卷版)
- 部编版道德与法治二年级上册第8课《装扮我们的教室》精美课件
- 2024年新高考Ⅱ卷高考英语真题(答案版)
评论
0/150
提交评论