网络舆论调查的方法和策略_第1页
网络舆论调查的方法和策略_第2页
网络舆论调查的方法和策略_第3页
网络舆论调查的方法和策略_第4页
网络舆论调查的方法和策略_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络舆论调查的方法和策略网络舆论成为整个社会舆论中越来越重要的组成部分。对网络舆论可以从促发因素、传播成本、持续时间、帖子公布等指标进行描述,对其测量则主要涉及抽样与内容分析。对网络舆论调查方法与策略的研究,不仅可以解决网络舆论研究面临的基础性问题,而且对实践操作起到理论指导作用。标签:网络舆论;抽样;内容分析一、绪言:从舆论到网络舆论舆论,又称民意(publicopinion),是特定社会系统中成年公民对社会的总的评价、态度以及对特定社会事件、人物所表达的意见和看法的集合。通常,舆论被认为是权力中心之外的人的意见,表现为公众——而非权力精英——对事物的综合看法。由于其所隐含的民意假设,舆论在民主社会里具有特殊的力量,往往成为诸多争论和决策的重要依据。但到底什么才算舆论,以及如何了解和测量舆论,却是一个经久不衰、历久弥新的话题。舆论的形态特点很大程度上取决于其赖以孕育产生的社会环境,特别是社会信息传播环境。随着互联网的普及,网络成为人们感受舆论、表达意见的又一重要平台。尤其值得注意的是,网络已经成为网民获取信息的主要途径,上网成为网民日常生活中不可缺少的重要部分。尤其重要的是,在各种网民最经常使用的功能中,包括了舆论的了解(浏览新闻、论坛/BBS/讨论组)和对社会舆论孕育、发展的参与(论坛/BBS/讨论组)等。随着Web2.0各种功能包括博客等的普及,网民对网络内容的贡献日益显著。与此同时,越来越多的主流媒体开始从博客等Web2.0的应用内容中寻找和发掘新闻素材和选题。换言之,网上的议程或者网络舆论,已经成为整个社会舆论中越来越重要的有机组成部分。由此可见,古老的舆论概念,在网络时代正被赋予全新的特点——无论是其表现形式还是产生、演变的方式,都深深带上了网络传播时代的烙印。网络舆论,是指公众(指网民)以网络为平台,通过网络语言或其他方式,对某些公共事务或焦点问题所表现出的意见的总和。目前,较常见的几种网络舆论的形式和平台主要有:各种网络新闻,BBS、博客、虚拟社区,各种即时通信如ICQ、QQ、网易泡泡、雅虎通、MSN)等。因此,本文所谓的网络舆论,主要包括两大部分:一是具有新闻媒体性质的网络新闻中所反映出来的舆论倾向,简称“网络新闻舆论”;二是以BBS论坛、博客等为平台而呈现出来的网民对社会上人和事的看法,简称“网民意见舆论”。需要注意的是,这里社会成员或网民的“意见”,仅指外显的表达出来的意见,虽然在实际上,网上通过文本呈现出来的意见集合,只是总体网民中一部分人的意见集合。换言之,那些没有在网上发言的网民,不管其对某些议题有没有看法和意见,都不在我们定义的“网民意见舆论”考虑之列。二、网络舆论的描述问题如上所述,网络舆论可以分为网络新闻舆论和网民意见舆论两部分。本文为了论述方便,我们以论述网民意见舆论为主。基本上,同样的论述也适用于网络新闻舆论。在进行具体的描述之前,有必要对网络舆论的定义进一步具体化。在前述定义即“公众(指网民)以网络为平台,通过网络语言或其他方式,对某些公共事务或焦点问题所表现出的意见的总和”中,从概念操作化定义(operationalization)的角度,可以对其进一步明确为以下选择之一:(1)某一个或一类网站(或论坛)上的网民对某些公共事务或焦点问题所表现出的意见的总和;(2)整个网上的网民对某些公共事务或焦点问题所表现出的意见的总和;(3)某一个或一类网站(或论坛)上的网民对特定问题所表现出的意见的总和;(4)整个网上的网民对某一特定问题所表现出的意见的总和。这里,一是对'网络舆论”一词中的“网络”的具体范围进行区分,即可以区分出是“整个网络”还是“特定网站”;二是对“网络舆论”一词中的“舆论”的范围进行具体的区分,即考察对象是网站上的“各种议题”还是“特定议题”。从研究设计的思路看,上述四种情形中,基本的情形是第三种,即'特定网站上的网民对某一特定议题所表现出的意见的总和”。为了使这种描述更为有效,有必要采用一套相对而言比较基础的、适用面较宽的话语或关键概念。本文认为,可以从以下这些角度来描述“特定网站上有关特定议题”的“网络舆论”:促发因素,传播成本,持续时间,增长速度,帖子分布,议题显著度,意见分布。以下对这些指标作一简单解释。1促发因素。它描述所考察的特定网站上的特定议题是如何出现的,其含义包括:有没有具体的现实事件作为促发背景;最先的帖子是原创帖子还是转贴或转载;如转载,是来自传统媒体还是其他论坛;论题是否源自本论坛;论题有无相关的超链接;等等。2传播成本。它描述论坛中网民对某一议题的了解程度或相关资料在网上的易得程度。某一议题如果不为人所了解,或者相关资料在网上不容易获得,发表有关这一议题的意见时,往往需要花较多的篇幅来阐述事件本身,这就意味着传播这一议题的成本较高。3持续时间。它描述论坛中某一议题从出现或者达到一定的议题显著度到消失或者小于一定的议题显著度之间所持续的时间。议题的持续时间的操作性定义可以根据具体的研究目的而定。需要注意的是,很多议题是间歇式的,可能会出现多次反复。把持续时间、增长速度和议题显著度结合起来考虑,往往能对议题的本质有较好的理解。4增长速度。增长速度的概念借用自创扩散理论中的扩散速度,它描述单位时间里一个论坛中就某一议题的帖子的增加量。这里需要对帖子的量进行一定的处理,即对不同长度、是否原创、不同的跟帖等赋予不同的权重,然后才能计算某一议题的增长速度。5帖子分布。帖子分布可以有多种描述角度,帖子的增长速度益线就是一种帖子按时间维度出现的分布。这里我们主要用它来描述某一论坛中的发帖者的集中度或发散度,它可以用特定议题的发帖者的发帖数量分布情况(如均值、标准偏差)等来表示。换言之,我们这里的帖子分布主要指帖子数量在论坛中不同的网友之间的分布。它对于我们了解论坛舆论的特点是非常有帮助的。6议题显著度。它描述在某一特定时间段中,有关特定议题的帖子占此时间段论坛中总帖子的百分比。这一指标所蕴含的基本假设是,不同议题在特定时点特定论坛上的受关注度既可能相互竞争,也可能相互促进。这个指标描述某一议题和其他议题之间的相互关系。7意见分布。它是对特定网站上有关特定议题的意见分布情况的描述,即在有关议题上有哪些主要的意见,这些意见在发帖者之间和帖子之间是如何分布的(集中度和发散度)。从上述这套用于描述网络舆论的指标体系可以看出,在我们的研究中,分析单元(unitofanalysis)涉及论坛、帖子和发帖者等不同层次。事实上,当一个论坛日发帖量很大时,我们对其进行舆论分析,必须通过抽样才能进行,这时,分析的层次是个体层面(individuallevel)的,分析单元为帖子和发帖者;但由于论坛本身是动态的,因此,我们往往需要同时关注或者记录帖子的发布时间,即按照时间序列来对论坛中的帖子变化情况和意见分布变化情况进行分析,这时,分析单元又变成了整个论坛,是一种集合层面的分析。在我们提出的7个指标中,除了上述第一个和第二个指标用以描述论坛的边界条件外,我们对论坛舆论的描述,涉及了以下5个方面的维度(dimensions);时间维度:反映某一议题的舆论在不同时间点上的变化情况;数量维度:反映某一议题帖子的多少;显著维度:反映某一议题帖子在论坛总帖子中的比例;集中维度:反映某一议题帖子在不同网友之间的分布;意见维度:反映某一议题帖子各种不同意见的分布情况。换言之,对一个论坛中某一议题的舆论的完整描述,至少涉及上述5个方面的情况,构成了一个五度空间。用数学语言表示,特定论坛某一议题的舆论可用以下函数表示:f(t,q,s,c,o)=0上式中,t表示时间,q表示帖子数量,s表示议题显著度,c表示集中度,o表示意见倾向。需要指出的是,网络舆论与传统的社会舆论相比,具有一系列重要特点。这些特点包括:网上意见表达具有可视性和累积性。换言之,网民在表达意见时,理论上,信息的获得是充分的,是可以自己加以切实'计算”的,而不需要像传统的社会舆论理论所描述的那样,需要猜测他人的意见倾向。网上意见的表达不对网民的现实社会处境产生任何影响。这当然主要是由于网上意见表达的匿名性,在理论上使得人们的意见表达更为真实。网上的意见群体和网民群体之间可能存在严重的偏差。换言之,在特定论坛,很多人只是“潜水者”,他们只是看客,没有参与意见交锋。他们对特定议题感兴趣并加以关注,但他们只是了解而已,至多也是下意识地寻找与自己看法相同或类似的帖子,却并没有发表意见的意向或行为。因此,如何判定论坛的网民总体乃是一个棘手的问题。网上意见表达的成本几乎是零,但并不是没有门槛。从理论上言,人们进行网上意见表达的成本主要就是发表意见期间所花费的上网费,这在今天已经是很微不足道了。但就特定论坛而言,是否有机会来到这个论坛,受到很多因素的影响,这些因素构成了人们在特定论坛就特定议题发表意见的“门槛”。事实上,这种“门槛”构成了特定论坛就特定议题而形成的舆论的结构性影响因素或系统层面的因素,它也许较之论坛内部不同发帖者之间的因素即个体层面的因素更为重要。完全有可能的是,一个论坛和另外一个论坛的注册网民之间在社会经济地位、价值观和生活方式方面有显著差异。这样的两个论坛之间在某一议题上的“组间差异”完全有可能超过每个论坛内部发帖者之间的“组内差异”。因此,在实际的网络舆论调查中,通常只了解特定网站或论坛上某一议题的舆论是不够的,我们需要对更大范围内的论坛或网站中有关同一议题的网民意见进行调查,以便对特定议题的网上总体舆论有较为全面的了解。因此,我们上面所介绍的对网络舆论的5个方面的描述策略,在实际的网络舆情测量中,还要至少增加另外一个维度,即同一议题在不同网站/论坛的舆论分布情况。三、网络舆论的测量问题对网络舆论有了一套描述的指标后,就可以对其进行测量。这里,我们讨论的例子是前述情形(4)所指的网络舆论,即某一议题在所关心的所有网络论坛上所表现出来的意见总和。对网络舆论的测量,主要涉及抽样问题和内容分析两大部分。以下分别述之。(一)抽样问题由于网络意见表达空间和容量的无限性以及各种表达空间的多样性,对某一议题的所有网上意见进行采集和分析是不可能也没有必要的,这就需要抽样。进行抽样,必须先确定总体。只有确定了所欲考察的范围,才谈得上抽样。从理论上言,抽样包括时空两个方面。时间维度上的抽样,即前述的时间点的选择。由于网络舆论的演变是动态的,不同时间点上,某一议题的传播成本、增长速度、帖子分布、议题显著度、意见分布等主要指标都会发生变化,因此,进行网络舆论检测,常常需要首先确定何时进行测量。随着舆论的演变和发展,我们可能需要对其进行跟踪检测,形成一组时间序列的测量结果。网络舆论调查最重要的抽样问题其实是“空间”维度的。所谓空间维度,即是对所关心的网站或论坛总体(网络空间)进行抽样(第一级抽样),然后对被抽中的网站或论坛内的新闻和帖子进行抽样(第二级抽样)。因此,网络舆论测量涉及多层抽样(multiple-levelsampling)技术。论坛抽样对论坛的抽样,首先要确定论坛总体,即我们关心的是什么范围的网上舆论。我们可以通过一些工具性网站,了解到国内各类重要论坛的基本信息。例如,在“中文站点排行榜”()上,可以了解到最新的各类网站/排行榜。但这里的问题仍然是,针对具体的议程,到底选择哪些网站/论坛一级的论坛空间呢?比如,以最近贵州省兴仁县县长遭灭门案为例,如果想要了解网民对该事件真相的看法,在“中文站点排行榜”中,从站点类别看,至少有以下几类可能是相关的(各类网站类别下所列具体网站排列基本上按其人气排行次序):门户搜索类。典型网站如百度、腾讯、新浪、搜狐、网易、雅虎中国、TOM等。论坛博客类。典型网站如博客中国、奇虎中文、移动个人空间、西祠胡同、中国博客、博啦、大旗网、西陆等。报刊传媒类。如凤凰网、人民网、央视网、联合早报网、中国经济网、大洋网、南方报业网等。新闻地方类。如新华网、千龙网、武汉热线、上海热线、东方热线、湖南在线、北青网、东方网、中新网等。如前所述,由于网站发展的多功能趋势,大多数有影响的网站都包含了不同规模的论坛,使得对论坛的抽样变得非常复杂,论坛空间或样本框的确定具有很大难度。通常,我们在考虑论坛抽样时,论坛的排名(反映其人气或注册网民、活跃网民或日发帖数等指标)是一个重要的考虑因素,但事实上.网站或论坛排名也有很多种,不同的网站根据其选定的指标以及计算方法,给出的排名也会不一样。由于论坛分布的复杂性,论坛抽样不应该机械地遵照某种抽样原理,而应该先根据要研究的问题具体分析,注意在大方向上加以把握。比如时政性议题的舆论调查,如果考察了国内中文网站几大论坛,是否再对某些影响不大的论坛进行考察,则差别不大。从这个意义上说,论坛一级的抽样,其实可以用主观抽样或目标抽样,由研究者根据研究目的和对论坛总体情况的了解来决定,一个基本的原则是所抽中的论坛应该对研究所关心的网上空间具有较好的代表性。当然,基于研究者主观判断的论坛抽样方案最好在实施之前征求一下同行研究者的意见,通过交叉效度验证(cross-valida-tion),尽量降低研究者主观判断带来的系统偏差。论坛抽样的最终结果,理论上应该是一系列来自不同网站或论坛的具体的论坛版。这些版组成一个样本空间,其所包含的帖子,在理想情况下,应该能够反映我们所关注的网上空间在某一议题方面的舆论情况。在实际的调查中,由于网上信息量巨大,因此,具体的网页信息收集工作通常是由电脑通过一定的程序软件来完成的,但其设计思路则是如上所述。从操作层面看,我们需要把上述最后一级的论坛抽样所确定各个论坛版面所对应的网址告诉电脑,让电脑的蜘蛛程序定期对这些论坛版面的内容进行采集跟踪。帖子的抽样选定了论坛样本之后,接下来就是帖子的抽样。通常,研究者需要单独建立一个数据库,对所有符合条件的帖子重新整理排列。所谓符合条件,主要是时间范围限制,即只能选录论坛上那些在研究者所关心的时间段中发布的帖子,包括那些并不与研究议题直接相关的帖子。有些研究者采用只选取与研究议题相关的帖子作为样本总体的做法,笔者认为这是有误导性的,因为它缺乏论坛总体议题分布结构的信息(即笔者提出的议题显著度信息),从而在判断特定议题在论坛中的重要性或显著性时缺乏依据,因此前述的“显著维度”便无法得到描述。当然,那样做会大大增加工作量。另外一个经常需要面对的问题是,对那些只简单地回复甚至只有“顶”“re”等片言只语的帖子的处理:对它们是否需要作为单独的帖子来对待?对待这个问题的一个方案是,在进行帖子抽样时,不是简单地以单篇帖子为单位,而是以主帖为单位来进行抽样。换言之,一个主帖,不管其后面有多少跟帖,都只作为一个整体对待,即帖子样本框以“主帖+跟帖”为个案(cases)。当然,在后面的帖子编码分析中,应该记录每个个案的跟帖数等数据。这样,理论上,我们已经可以建立基于帖子的抽样框了。接下来需要确定两件事,一是样本的大小,二是样本的结构是否有一定要求。由于网络舆论的特殊形式和内容的多样性,样本量的确定基本只能靠主观判断。样本量过大可能给研究带来过高成本,耗费过多人力和时间,样本量过低又可能造成研究的较大偏差,因此,只能在时间精力可及的范围内,尽可能地选取较合适的样本量。由于论坛中的帖子不像调查问卷那样整齐划一,因此,在后续的内容分析编码中,帖子的总数和有关变量的有效数据个数之间可能存在很大的差异。。为此,进行论坛内容抽样分析时,一般抽取的样本总是尽量大些。在论坛内容分析中,分析上千条甚至上万条帖子,并非罕见。(二)内容分析问题由于网络新闻中的舆论分析对象是新闻文本,相对比较简单,所以这里仍以论坛帖子为例,说明网络文本的内容分析。限于篇幅,这里我们只讨论网络文本内容分析的特殊性。确定帖子样本后,接下来的工作,就是对帖子进行内容分析。显然,这里的分析单元是帖子,包括主帖和跟帖。从大的方面言,帖子的内容分析应该遵循一般的内容分析原则,但论坛帖子的内容分析有其特殊性,主要体现在:帖子之间相互参照,表达上有很多省略和缩略之处。这使得传统的内容分析方法中,通过寻找关键词来判定有关编码表变量取值的方法面临挑战。如前所言,帖子之间存在大量“代言”现象,如何判定有关帖子在编码表变量上的取值,只能是通过语义分析,而不能简单地依靠主观的内容编码。另外,诸如帖子长度等数据的解读,也需要重新考虑。比如,某一个网民引用一段话,他既可能通过复制粘贴,也可以仅仅提供超链接。后种情况下,反映在帖子长度这一数据上,字数会少得多。如何对待无关帖子?所谓“无关帖子”,是指那些主题与所关注的议题无关,但仍然被抽中进入样本的帖子。对于这些帖子的编码,除了在议题相关变量上一律数据空缺外,在其他方面的编码数据,如发帖时间、帖子长度、发帖者信息等,仍应著录。这些数据,对于了解所关注的议题所处的“论坛环境”,即前述“帖子分布”“议题显著度”等指标仍有帮助。关于时间因素。如前所述,网络论坛抽样时的一个重要特点是帖子具有可视性和累积性,因此,在对帖子进行编码时,必须著录发帖时间这一项。由于我们的分析单元是包含跟帖的主帖,因此,在著录发帖时间时,应该设置多个变量,除了著录主帖的发帖时间外,还应该著录跟帖的时间或时间跨度。这些变量数据对于后续的分析是十分重要的,它将使集合层面的时间序列分析成为可能。帖子的权重问题。一个帖子的权重,至少和以下三方面的因素有关。一是这个帖子的长度或内容深度。一篇有独到见解和较多字数的原创帖,和一篇只有三言两语、显然带调侃色彩的帖子,其对相关主题的重要性,应该在赋值上有差别。二是帖子和主题的相关度。有些帖子虽然很长,但论述的内容和我们所研究的主题如果相关度不大,则其权重也应该降低。三是论坛或网站本身的显著度/人气以及品牌/公信力(credibility)。理论上,同样一篇帖子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论