微博的生命周期与数据的可计算_第1页
微博的生命周期与数据的可计算_第2页
微博的生命周期与数据的可计算_第3页
微博的生命周期与数据的可计算_第4页
微博的生命周期与数据的可计算_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

微博的生命周期与数据的可计算

1微博信息生命周期与传统文学相比,微博信息是公众创造的非正式和短的文学形式,强调了公众参与信息的即时披露、讨论和共享。微博信息的分析利用对各行业和领域都具有非常重要的意义。尽管各界已经意识到微博信息的重要性,但这类信息的挖掘分析尚在起步阶段。信息资源是一种具有生命周期的资源,其生命周期由一系列逻辑上相关联的阶段或步骤组成,体现了信息运动的自然规律。信息生命周期的研究是对海量信息进行科学管理的基础,个人、企业、政府或科研机构可以针对不同的阶段采取相应的管理措施,以保证信息在完整生命周期中管理绩效的最大化。微博通过发布而产生,经过公众的浏览、评论和转发进行传播,其内容具有很强的时效性,随着时间的流逝,内容逐渐陈旧,其关注度也会随之减弱。本文沿用传统信息生命周期的概念,利用“生命周期”来描述微博从发布到消亡的过程。微博营销、舆论引导、热点监测的实施都需要把握微博信息自产生到消亡整个生命运动过程中的特征与规律。越来越多的学者关注微博的发展过程及规律,他们利用社会网络分析、文本分析、用户行为分析等方法,进行了多方面的研究,包括对微博活跃性的表征分析、微博转发行为的影响因素分析、微博寿命的衡量及其预测等方面。1.1被转发的次数许多研究都对微博转发数进行了计量分析,F.Lardinois、T.Zaman、D.Barbagallo等都分别利用微博被转发的次数作为微博活跃性、流行性的表征。他们认为,微博获得的转发次数越多,其活跃程度越高。YangZi等从社会网络的角度深入分析了微博的转发行为,他指出用户会出于分享信息的目的进行微博转发,在转发过程中,微博信息保持活跃状态。KongShoubin等认为转发次数较高且流行程度高的微博的研究价值远远大于其他微博,因此选取转发数大于100的微博进行微博寿命的分析。1.2转发行为对微博传播的影响一些学者针对用户转发微博的行为的影响因素进行了研究,微博内容的情感倾向和发布时间、微博用户的社会特征等都被认为是与转发行为相关的因素。D.Barbagallo等和N.Naveed等分别利用文本分析法,提取了微博文本的情感倾向,研究结论表明微博文本内容的情感倾向会对微博传播产生一定的影响;E.Spiro等指出微博发布和该微博被转发的时间差受到发布者的社会特征、微博内容和发布时间等多种因素的影响。1.3微博转发与微博转发时间差以往研究中已有学者提到了“微博寿命(lifespan)”,但没有对它进行确切定义。KongShoubin等认为在微博转发序列完整的前提下,微博寿命是从它发布开始到获得95%转发数之间的时间差。ZhaoXun等认为Gamma分布能够代表Twitter中一条典型微博的寿命过程,她通过“负指数”模型函数(其中,N0代表初始的转发数,N(t)代表在t时刻获得的转发数)对转发序列进行非线性拟合求得系数b,并将微博寿命定义为τ=1/b。1.4微博转发行为KongShoubin等利用历史数据,对新发布微博的短时间内的转发数据与同一发布者的历史微博进行相似匹配计算,获得相似性Top-k微博的寿命,进而通过计算均值来预测新微博的寿命。M.Jenders等则通过探讨微博转发行为的影响因素,采用线性回归模型来预测微博的寿命和活跃程度。综上所述,虽然对微博寿命已经有了一定的研究,但定义并不明确,同时大部分研究较多地关注静态的微博内容或者微博转发影响因素,或者关注微博整体的活跃性以及微博寿命等,并未对微博生命周期中各时期微博的变化特点进行描述,且活跃程度与活跃时间的区分不够清楚。本文从微博生命周期的动态数据着手进行分析,从评论与转发数分布、微博生命周期的长度和微博半衰期等方面进行论证,试图对微博整个生命周期中的变化特点进行探究,理论层次上可以对传统文献计量学进行扩展,同时对于微博营销、舆论引导、疾病及灾害预警等实践工作的开展具有指导价值。2出运算的描述与表征本文从微博信息生命周期的表征量入手,以传统文献计量学为理论基础,提出相关假设,通过实证对假设进行验证,最后得出相应结论。主要包括以下方面:第一,微博信息生命周期的定义及特征分析。参考其他学者对微博寿命的定义,提出运算较为简单且更具可行性的定义。同时,本研究关注微博信息发布、获得评论与转发的整个动态过程,使用生命周期图对整个生命周期进行描述,并以此为基础展开分析。第二,微博信息生命周期的表征量论证。在对微博生命周期表征量的运用上,国外学者均只用到转发序列,这是由于研究采用的数据源Twitter没有提供评论功能,而新浪、腾讯等国内微博平台均具有评论功能。本文采用评论数作为微博信息生命周期的表征量,论证评论与转发的等价关系以及使用评论列表的优势。第三,微博信息与传统科技文献在生命周期上的差异分析。在假定微博与传统科技文献具有相似性的基础上,从标示量(引文数据与评论列表)、生命周期发展趋势、寿命及半衰期等方面探寻二者之间的差异,并探讨产生原因。3数据收集和处理3.1微博评论数据的确定为保证研究的可行性和科学性,需要在海量数据中选取某个范围的数据集。参考新浪微博的热点话题排名,本文选取“PM2.5”、“小时代”和“临武小贩之死”3个话题。利用新浪微博API获取带有这些标签的微博信息及其评论数据,见表1。这3个话题属于不同类型,“PM2.5”属于民生话题,“小时代”属于文娱类话题,“临武小贩之死”则属于社会突发事件,与前两者存在较明显差异。不同的话题类型中,微博信息的数量、活跃时间以及被评论数都有显著差异。因此,在确定微博信息采集的时间跨度时,考虑该话题持续时间和讨论热度。同时,为了保证微博评论列表的完整性,本文在原微博发布至少一个月之后再采集微博评论列表数据。根据经验及他人研究判断,几乎没有微博信息在一个月后还会被用户关注和评论,因此本文认为获取的评论数据是完整的,涵盖了微博信息的整个生命周期,这也是后续研究的基础。3.2数据的提取数据处理阶段主要包括预处理和统计分析。数据预处理主要是将采集到的微博数据进行主要分析字段提取(包括微博内容、评论等),剔除不相关数据,导入到数据库中进行保存;数据统计分析阶段需要从数据库中提取出相关字段数据,并利用SPSS和Origin软件统计和分析所获得的数据。4微博评论数和转发数分布对传统科技文献信息生命周期的讨论大多基于文献的引文规律。普赖斯论证了引文网络的度服从幂律分布,即文献的被引次数服从幂律分布。用户对微博进行评论和转发的行为,与传统科技文献的引文类似,都体现了源信息的影响力,同样可以用有向的网络图来表示,基于这一相似性,本文认为评论量和转发量也可以作为微博生命周期的表征量。图1中前两列分别为3个数据集中评论数和转发数的分布情况,横坐标为评论数或转发数加一的对数(部分微博此项为0,为计算对数作此处理),纵坐标为拥有相应评论数或转发数的微博的总数。从图1中数据的直观定性观测可以发现,微博的评论数和转发数大致呈现出幂律分布特征———大部分微博的评论数和转发数较少,少部分微博拥有较高的评论数和转发数,同时它们的分布还与二八定律相似,较多的评论转发数由少量微博产生。第三列为评论数和转发数的关系图,评论数和转发数分别构成横坐标和纵坐标,并对散点进行线性拟合,各话题的数据特征值见表2,不同的话题下,各统计项略有不同,幂指数的大小代表评论数和转发数分布的离散程度,当幂指数很小时,如小时代转发数的分布,更容易显示出幂律分布的胖尾特征。三组数据均有很高的皮尔逊相关指数,进一步说明评论数与转发数具有等效性,而相对于转发数据来讲,评论数据较易获取,所以本文在对微博生命周期的描述中主要运用了评论数据。5微博生命周期分析5.1微博寿命总体较短微博生命周期,简称微博的寿命,即衡量微博存活时间的指标。本文将微博寿命定义为:自微博发布到其最后一次被评论之间的时间差。对于从未被评论的微博,其寿命为0,讨论这类微博的生命周期是没有意义的,因此在数据集筛选时,选取了评论数大于0的微博,并依上述定义计算其寿命(单位:分钟),对其进行统计,得到图2(从左至右分别为PM2.5、小时代和临武小贩之死3个话题),横轴代表微博寿命,纵轴表示微博数量,各个话题下微博寿命的统计项见表3。从图2可以直观看出,无论在哪个话题下,图形左侧的方块较高,向右有迅速降低的趋势,说明大部分微博的寿命非常短,少量微博有相对较长的寿命。不同话题下,微博寿命略有不同。从表3可以看出,数据集内微博寿命最长的不超过36000分钟(25天),平均值在5000分钟左右(离散程度较大),与传统的科技文献相比要短得多。一方面说明微博确实为一种信息“快餐”,从发布到衰亡历时较短;另一方面,也验证了本研究数据采集时间最早在微博发布31天之后的合理性。通过上述统计发现微博的寿命普遍偏短,95%以上的微博寿命不足一天,究其原因,主要是由于微博平台上数据量巨大,内容覆盖面广,如果每条微博都有较长的寿命也就意味着每条微博都要长时间被讨论,但是人的关注度以及微博内容的新鲜感、微博内容的知识量等都大大限制了该微博被长期关注的可能,也就限制了其生命周期。尽管大部分微博寿命较短,但仍有少量微博受关注时间较长,通过对这部分微博进行统计分析,发现寿命长的微博并非都获得了较多的评论数,仅有少量微博获得的评论较多,而大部分寿命长的微博的评论数并不多,基本不超过100条评论。这说明活跃程度只会对微博生命周期产生一定的积极作用,可以使该微博获得更高的关注度,但并不是决定性因素,通过查看这些寿命较长微博的评论轨迹,发现有少数评论是在微博发布较长时间后发布的,正是这些少数的评论使得微博的寿命很长,而这少数评论的产生,有可能是新进粉丝对该微博产生了兴趣,也有可能是一些互粉用户对该话题的补充评论,还有可能是某些用户习惯长时间关注某条微博,并对其进行长期的关注等,这些都与微博自身以及用户影响力、用户的评论习惯等相关,情况较为复杂。5.2微博评论数对微博信息生命周期的影响文献计量学家布鲁克斯假设:科技文献的被引数量随时间推移的衰减过程近似服从负指数模型,当文献达到被引用峰值后,便开始经历文献老化的衰减过程,可以得到拟合度很高的负指数曲线。微博信息不同于科技文献,但二者在某些方面存在相似性,如它们都是被作者创建及公开发布的信息,读者可以通过某种方式表达对该信息的关注。同时,ZhaoXun也基于负指数定律提出了相应的预测模型。本文做出相应假设1:微博的评论和转发数随时间推移的衰减过程近似服从负指数模型,当评论和转发达到峰值后,微博信息便开始经历老化的衰减过程,可以得到拟合度很高的负指数曲线。5.2.1微博生命周期的类型为了验证假设1,本研究运用评论曲线图描述微博生命周期。以1分钟为单位时间,计算一个单位时间内某微博获得的评论数。利用单位时间内的频次绘制折线图,并初步统计和总结生命周期的形态。根据峰值的出现位置及多少,将微博生命周期分为负指数型、平缓型、爆发型和锯齿型4种类型,基本图样见图3。5.2.2微博评论数对微博生命周期的影响在初步统计中,评论数量不同的微博信息生命周期图呈现出较大差异,同时评论数较小的微博占了绝大部分。在分析评论数对微博信息生命周期特征的影响时,为使样本更具普遍性,以评论数的数量级为区分,对评论数大于0的微博进行分类,如表4所示:对各话题下各类别分别随机抽取10条微博(若总体小于10则全部作为样本)共104条微博的评论数据进行处理,结果见表5。大部分微博的生命周期图呈现出负指数型,这说明假设1具有一定的可信度;同时,不同评论数类型的微博在生命周期图类型分布上有着显著区别,评论数量级越高的微博,其生命周期为负指数型的可能性就越大,平缓型生命周期只分布在较低数量级(≤100)的微博中,尤其是在数量级为“1”的时候,所有微博信息生命周期图均呈现平缓型特点,爆发型和锯齿型在中数量级(≥1000)的数据中分布;各话题下微博的图形分布有所不同。5.2.3微博生命周期分布的成因本文认为形成上述分布的原因与微博自身以及微博用户行为等因素相关。评论量的数量级越高,其生命周期呈现负指数型的可能性就越大,一方面是由于微博承载的信息具有逐渐老化的趋势,在讨论量达到一个峰值之后,就像人们不会过多关注过时的新闻一样,用户对该微博的关注度逐渐降低,评论和转发行为逐渐减少;另一方面,默认情况下微博是按时间倒序排序的,用户更容易发现近期出现的话题,因此阅读并评论、转发这些时间较近的微博的几率要比时间较远的大得多。平缓型生命周期广泛存在于评论数较少的微博中,这类微博的内容一般比较常见或者不太容易引起激烈的讨论,用户的关注点比较分散,因此评论次数少且分散。爆发型生命周期图分布在各个类型的微博中,此类微博的热烈讨论期并不在微博发布时,与负指数型相比,峰值出现时期靠后。通过获取此类微博的原始数据,发现此类微博大部分都是在凌晨5时左右发布,此时在线人数较少,即使热门话题发布,也很难引起热烈关注,当大量用户开始登陆使用微博时,该微博可能已被其他信息所超越,需要用户深入浏览、阅读才能发现,而一旦某些用户发现并进行评论、转发等行为,该微博便会“爆发”,形成热门微博,即出现峰值,随后的发展则与负指数型类似。生命周期为锯齿型的微博具有多个峰值,但此类微博生命周期较短,无法进行大量对比研究分析,出现这种间歇型的“热议”的原因可能有以下两种情况:一是随着该微博发布者的粉丝人数增多,对该微博感兴趣的人群不断增多,新加入的粉丝可能会“翻出”以前的旧话题进行讨论;二是由于与该微博内容相似或相关的其他微博得到了热烈讨论,该微博在短时间内也被热议。这些结论还有待进一步地验证和分析。5.3微博活跃时间与活跃程度的关系微博的寿命是衡量微博活跃时间的量,而微博获得的评论数是衡量微博活跃程度的量,通常会认为活跃度越大的微博,其寿命应该越长,那么两者之间是否真地存在着线性关系呢?假设2:微博的活跃时间和活跃程度相关。以3组话题数据为基础,对微博的寿命和微博获得的评论数做相关性分析,无论是哪一个话题,其皮尔逊相关指数都极低(其皮尔逊相关指数分别为0.282、0.076、0.054),说明活跃程度与活跃时间之间并不存在较高的相关性,假设2并不成立。5.4“小时代”的微博评论现象特征根据以上研究,微博的寿命并不长,但热门微博的被评论数却可以达到惊人的量值,大部分微博的被评论数呈负指数分布,那热门微博在什么阶段达到被评论数的高峰,也就是说,微博在什么时间成为热门微博呢?由于评论数较小的微博峰值不明显,本文选择数据量较大的“小时代”话题下的数据进行分析和统计,用t表示微博被评论的峰值出现的时间,s表示微博的寿命,利用t与s的比值来衡量微博评论高峰出现的位置。分析结果见图4,大部分微博评论高峰出现在微博寿命的起始处,也就是说,微博的评论具有爆发性和集中性,且爆发的时间点多在微博寿命前期。6微博长期内在联系的研究戈斯内尔提出将“半衰期”作为信息老化的测度指标。文献半衰期是指某学科尚在利用的全部文献中较新的一半是在多长一段时间内发表的。普赖斯扩大了“半衰期”的使用范围,指出一篇文章的半衰期大约是1.5年,引用这篇论文的全部其他论文的二分之一是在该论文发表之后的1.5年内发表的。基于文献的半衰期,本文提出假设3:微博同样也有半衰期n分钟,也就是某微博的评论总量的二分之一,是在该微博发布之后n分钟内发布的,且所有的微博的半衰期均在n分钟左右。如图5所示,以临武小贩之死话题下的一条随机选取的微博为例,将其评论数针对时间的频次统计出来,以评论数百分比积累量为纵坐标,以评论时间为横坐标,以积累量为50%处对应的时间点为微博的半衰期,即图中所示的648分钟。对3个话题下所有评论数大于零的微博的半衰期进行统计分析,得到表6中的数据,可以看出,微博半衰期分布的离散程度较高,与科技文献不同,并不能用一个确定的数字来描述所有微博的半衰期,因此假设3并不成立,这与微博自身的性质是相关的,微博与科技文献不同,它只是人们用来传递信息、交流信息的工具,信息中有些内容只是用户自身的感慨或者现状的描述,可以被其他用户浏览、阅读,与科技文献的可利用性不同。微博信息的衰老与否,与用户的行为习惯、发微用户影响力等多种因素相关。7微博评论数和转发数是微博信息生命周期的重要标识微博在人们的社会生活中占有越来越重要的地位,本文基于文献计量理论提出的一系列假设,通过PM2.5、小时代和临武小贩之死3个话题下的数据实证对这些假设进行验证,得出了相应结论:第一,微博的评论数和转发数可以作为微博生命周期的表征量,它们服从幂律分布,即大部分微博的评论数和转发数较少,少量微博拥有较高的评论

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论