下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
微博客的发展现状与未来
1用户行为特征微博是创建网站的变革。在维基百科中,他被描述为“用户可以及时更新短文本并发布公共网站,允许用户阅读,或者只能由用户选择的组阅读”。用户可通过即时通讯工具、网页等终端发布、更新博文”。博客虽已成为一种有效的信息沟通与交流方式,但依然具有进入门槛,而微博客则将门槛降到最低。本文首先分析微博客的运行机制,再以“新浪微博”作为研究对象,提取数据样本,应用社会科学统计软件、表格处理软件和文本自动分类方法,挖掘“新浪微博”中用户行为特征;最后应用社会科学统计软件对表征用户关系的参数进行相关与回归分析,揭露“新浪微博”中用户关系的一般规律。2微博站点运营机制2.1关注与关注:作为“粉丝”的终身可逆过程用户之间的沟通交流基于一种“关注与被关注”的跟随机制,即用户可随时“关注”他人,成为他人的“粉丝”,其他用户也可“关注”自己,成为自己的“粉丝”,此过程为双向可逆过程。跟随机制使得用户以最简单的方式订阅信息、广播信息,形成一个个大小不一的传播节点。如图1所示:2.2风压发发发布转发式用户信息在发布的同时会被传送到跟随用户的接收终端(PC、PDA、手机等),跟随者接收后可及时作出评论,也可选择将消息继续转发出去,让更多的用户得以分享。在信息传播过程中,信源与信宿之间是一种“后背对前脸”的信息流动,可以一点对一点,也可以一点对多点,信息像广播一样同时传递给所有跟随者。3选取微博内容本文研究样本来自“新浪微博”的“随便看看”板块。“新浪微博”是由新浪公司开发的一款国内主流的微博产品,作为样本具有一定代表性。从2009年11月30日至2009年12月30日,在每天的19点至21点时段,随机选取该板块100条微博内容。对每条微博内容的处理过程为:提取发布者、发博途径、博文内容、博文转发数、博文评论数五项数据,再通过“发布者”链接至其个人主页,提取个人的关注数、粉丝数、博文数三项数据,上述八项数据组成一条记录。最终得到3000条记录作为样本,将样本记录保存为Excel文件。4用户行为特征分析4.1含链.文献检索的比例所有记录对应的3000条博文,有1176条被转发,1660条被评论,分别占总数的39.20%和55.33%。有些博文包含一个链接地址,指向新的页面,本文称之为含链博文。在含链博文中,被转发和评论的比例分别为37.30%和53.17%;剩余的不含链接博文,对应比例分别为39.47%和55.64%。如表1所示:上述数据说明不管是否添加链接地址,不管是可直接阅读的博文还是需要打开链接再阅读的博文,被转发率和被评论率基本持平。4.2更新内容介绍超过80%的用户通过新浪网页发布博文,通过手机网页和手机短信发布的用户分别占到11%和7%,另有少量用户借助手机彩信更新内容(见图2)。大部分用户习惯使用较传统的微博网站发布博文,其比例与国外微博网站(如Twitter)差别较大。据加拿大社会化媒体分析公司SysomosInc对Twitter网站的调查,有超过一半(55%)的Twitter用户使用工具而不是通过T发布信息;Twitter网站创立时间较早,拥有大量客户端插件,用户发博方式多种多样。4.3微博内容长度由于含链博文是由一个超链地址及少量说明性文字组成,进行博文长度分析的意义不大,因此将含链博文暂时剔除,对剩余的2622条博文进行长度分析。新浪微博规定每条博文最长不超过140个中文字长,每个汉字或中文标点符号为一个字长,每两个数字、字母或英文标点符号为一个字长。以此为标准,利用Excel文本统计函数计算每条博文长度;博文如包含英文单词或数字,以手工方式处理,一个单词或一组数字计一个字长。结果如图3所示:可以看出,包含10-20个字的博文所占比例最高。随着博文包含字数的增加,相应的博文数量逐渐减少,说明微博内容短小精致的特性迎合了大部分用户的需求。多数人发布微博内容远远低于140个字的最高限定。值得注意的是,也有一定数量的微博由140个字组成,表明其用户希望尽可能详细地进行自我表达;如果超出字数限定,他们可能发布含链博文。4.4微博数量与发博数关系约2100人(占样本总数的70%)已发博文数集中在200篇以内,约300人(占样本总数的10%)已发博文数在200到400篇之间。随着微博数量区间不断增大,对应的发博人数不断减小,整体呈现出比较明显的幂律特征。如图4所示:4.5充分发挥“两个使用”的频率,增加用户交流提取样本中的博文内容生成词频统计分析样本,采用武汉大学ROSTWordParser中文分词系统进行切词及词频分析。样本总长度为284988字,切词后得到74304个词语,删去没有实质意义或专指度很低的关键词及其频次,比如“是的”(1181次)、“多少”(105次)、“没有”(160次)、“还是”(118次)、“什么”(140次)等,将剩下关键词的频数阀值设定在20次,将每个词的频次记在表的同一行上,如表2所示:结果分析:①“今天”、“现在”、“昨天”、“最近”、“今年”、明年等词语突出时间概念,这与微博客注重随时沟通与分享的核心价值、注重信息传递过程中的时效性等特征相吻合。②“自己”、“大家”、“我们”、“你们”排序靠前,表明发布者倾向于以第一人称、口语化、较随意的形式进行自我表述。③“中国”、“北京”、“世界”、“上海”、“美国”、“广州”、“台湾”等词语反映的是一些热点城市或国际热点地区。也许因为大量用户来自北京、上海等发达地区,也许是用户更多关注热点地区问题,从目前的信息中无法推测,需要结合其他方法加以验证,这也是今后需进一步探索的内容。④“李宇春”、“哥本哈根”、“小沈阳”等词语的出现,表明可以借助微博客适度挖掘一段时间内的热点词汇或热点问题。5应用spearman相关分析及回归分析由于“博文转发数”、“博文评论数”、“关注数”、“粉丝数”、“博文数”等数据项不满足正态分布,本文应用Spearman相关系数对上述数据项进行相关性分析及回归分析。Spearman相关系数计算公式如下:rs=1−6∑i=1n(Ri−Qi)2n(n2−1)其中Ri表示xi在(x1,x2,...xn)中的秩,Qi表示yi在(y1,y2,...yn)中的秩。5.1吸引粉丝大量粉丝“新浪微博”的商业运作注重名人效应,用户中不乏各界名人,有些名人所发博文甚少,仅靠名人效应能吸引大量粉丝(如著名主持人何炅,博文数为1,粉丝数为17615),此类记录易对统计分析结果造成干扰。现将包含“名人认证”标识的记录删除,得到新的样本,共2102条记录。5.2数据分析结果相关分析是一种基于假设检验的统计分析方法,相关系数表明两变量之间的相关程度。一般情况下,相关系数绝对值≥0.8时,视为高度相关;0.5≤相关系数绝对值<0.8,视为中度相关;0.3≤相关系数绝对值<0.5,视为低度相关。显著性水平反映拒绝某一原假设时所犯错误的可能性。以下检验均设置显著性水平为0.01,即在原假设事实上正确的情况下,研究者接受这一假设的可能性为99%。本文采用社会科学统计软件SPSS,导入Excel文件中的样本记录,将“博文转发数”、“博文评论数”、“关注数”、“粉丝数”、“博文数”作为分析变量。由于“博文转发数”与“博文评论数”为某篇博文的属性特征,“关注数”、“粉丝数”、“博文数”为某用户的属性特征,因此将上述五变量分两组进行相关分析。对变量做散点图,初步判断有相关关系,再分组进行两两相关分析,分析结果见表3、表4。原假设为“相关系数为零”,经计算,统计量的相伴概率为0.000,低于0.01,因此可认定“相关系数为零”的可能性很低。表3所示转发数与评论数的Spearman相关系数为0.501,即博文的转发数和评论数之间存在中度相关关系。此分析表明,如果跟随者发现一篇有价值的博文,在选择转发的同时也很有可能评论一下博文内容,而且一篇博文被转发的次数越多,则被评论的次数也越多。表4中,关注数与粉丝数相关系数为0.723,相伴概率为0.000,正相关性为高度显著,表明一般情况下用户关注别人越多,就越容易引起别人的关注,使得自己的粉丝数增加;而随着粉丝数量的增长,自己也会更多地去了解自己的粉丝并关注自己的粉丝。关注数与博文数相关系数为0.613,相伴概率为0.000,正相关性为高度显著,表明用户关注别人的兴趣与写博文的兴趣成正比。粉丝数与博文数相关系数为0.833,相伴概率为0.000,表现出高度正相关性,表明随着发布博文数的增加,用户会吸引越来越多的粉丝关注自己,而伴随着粉丝数量的增加,用户写博文的欲望也会随之提高。正如SysomosInc公司对Twitter的调查所显示的:随着追随者人数越来越多,Twitter用户发Tweet的次数也更加频繁。为研究关注数对粉丝数、博文数之间相关关系的影响程度,进行偏相关分析。设置粉丝数与博文数为偏相关分析变量,关注数为偏相关分析控制变量,进行双侧检验,偏相关分析结果如表5所示:粉丝数与博文数的偏相关系数为0.494,其相伴概率为0.000。对比粉丝数与博文数普通相关系数0.833,可得关注数对于粉丝数和博文数的正相关关系有较大的影响。5.3粉丝数量分析回归分析是通过提供变量之间的经验公式定量描述变量间相关关系的数学过程。不仅可以利用概率统计知识对经验公式的有效性进行判定,还可以根据自变量的取值预测因变量的取值。粉丝数量是衡量一个普通用户在微博客中影响力的重要因素。设粉丝数为因变量Y,关注数为自变量X1,博文数为自变量X2,回归分析过程如表6所示:调整后决定系数为0.747,t检验的相伴概率为0.000,具有显著统计学意义。方差分析回归分析结果如表7所示:粉丝数与关注数、博文数的拟合结果为:Y=0.678X1+0.087X2+1.084,其中关注数和博文数的系数相伴概率均为0.000,有显著的统计学意义。为检验上述拟合结果,做标准化残差直方图(见图5)。残差符合正态分布,表明此回归模型是合适的。6用户关系特征的相关分析从本研究中可以看到,微博客网站入门门槛低、使用随意、方便快捷、注重时效、注重沟通与分享,这些特性迎合了用户的需求;超过10%的博文为含链博文以及一定数量的包含140个字的博文,表明将内容压缩在140个字以内并不能满足所有用户的需求,他们正在或者将要借助链接将跟随者引入博客、论坛或其他页面,因此微博客需要同博客、论坛等其他信息组织形式紧密结合,不断发掘信息资源的组织与利用方式,不断提高自身的生存能力;表征博文特征的转发数、评论数之间具有中度相关性,表征用户关系特征的关注数、粉丝数、博文数之间均具有高度正相关性,符合常规意义上人际交往的特性,体现出微博客在人际交往上的促进性,同时也为依托微博客网站进行社会化网络媒体经营提供了一定的借鉴,即尽量增加博文的被转发数,吸引更多人的评论与关注。积极地关注别人,保持较高的发文数量,就可以吸引更多的粉丝,获得更高的关注度,使得社会化网络媒体营销更加有效。从另一个角度看,超过八成的用户均通过网站入口发布博文,使得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年体育赛事临时租场合同
- 2024灯光亮化工程设计合同
- 2024年度劳务派遣服务合同(安装工人)
- 2024年建筑工程劳务分包协议书
- 深海剪影课件教学课件
- 2024年幕墙工程质量保修合同
- 2024年度新能源技术研发与转让合同
- 2024年度房产市场监管合同:不动产市场调控配合
- 2024年度观白活力中心房地产项目环境影响评估合同
- 2024年度塔吊配件采购供应合同
- 人教版2024八年级上册物理期中测试卷(含答案)
- 2024年普通高等学校招生全国统一考试·新课标卷(物理)附试卷分析
- 2024-2025学年北京版小学四年级上学期期中数学试题与参考答案
- 六年级上册道德与法治认识居民身份证人教部编版
- 新人教PEP版(三起)三年级上册英语全册课件(2024年新版教材)
- 音乐治疗导论智慧树知到答案2024年湖南科技大学
- 汽车行业新能源汽车动力系统技术创新方案
- 2024至2030年中国双碳产业园(零碳园区)规划建设与投资战略分析报告
- 葛根培训课件
- 跨平台游戏互操作性和可移植性
- 网课智慧树知道《文书学(四川大学)》章节测试答案
评论
0/150
提交评论