微博美妆博主影响力的多元回归分析_第1页
微博美妆博主影响力的多元回归分析_第2页
微博美妆博主影响力的多元回归分析_第3页
微博美妆博主影响力的多元回归分析_第4页
微博美妆博主影响力的多元回归分析_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、微博美妆博主影响力的多元回归分析摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以微博美妆视频po主月互动数为因变量,选取了5个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。关键字:多元线性回归逐步回归法微博影响力SPSS1引言自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。发现一个很有趣

2、的现象,微博上有许多视频博主,都经营着不同的类别,经常会有抽奖的活动,本人对微博视频博主的影响力究竟由什么因素决定十分好奇,因此本文选取微博美妆视频博主为对象进行分析,其中选取因变量为影响力,即月互动数,其中月互动数为微博评论与转发数总和。每个视频博主的月互动数都直接影响着视频博主的影响力以及之后的各方面收益,因此,研究什么与每月互动数有显著相关的影响至关重要。本文将以回归分析为方法,运用数理统计工具探求月互动数与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。2多元线性回归2.1多元线性回归简介在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就

3、是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下:如果随机变量y与m个普通变量“口勺/有关,且满足关系式:7=A+Axi+自七+凡心十£(2.1)左二0n£)f=b3其中,岛.鸟,鸟寓nd是与勺,可无关的未知参数,甘是不可观测的随机变量,"M。为)。式(2.1)为m元理论线性回归模型,其中屈/,自一凡为回归系数,、吃/为回归因子或设计因子。1Ao=1"一砌实际上反映了因子号&=12对观测值y的作用,因此也称自('=

4、12为因子号&=12,掰)的效应。通过对回归系数用(1=12一,网)进行最小二乘估计后,可以得到m元经验回归方程为:2风加1+兀马+凡/(2.2)AdhA六也称式(2.2)为m元线性回归方程。第为回归常数,也称回归系数,缘片忠称为回归系数。2.2逐步回归法在多元线性回归分析中,由于有多个自变量,回归自变量的选择成为建立回归模型的重要问题。通常,一方面,为获取全面信息总希望模型中包括的自变量尽可能多;另一方面,考虑到获取很多自变量的观测值的费用和实际困难,则希望模型中包含尽可能少而且重要的变量。因此,人们常根据某种规则对自变量进行筛选。本次选用的方法是逐步回归法。1)回归效果的显著性检验

5、y与变量'/线性相关的密切程度可以用回归平方和U在总平方和用R=仔中所占的比例来衡量。称为y关于5的样本复相关系数,R-入盟为样本决定系数。在多元线性回归的实际应用中,用复相关系数来表示回归方程对原有数据拟合程度的好坏。显然-1,其越接近1,回归方程拟合程度越高。2)偏F检验检验某个自变量对y的影响是否显著的正规方法是偏F检验设原回归方程(全模型)为:八An1rt6户I.rty=A+后再+耳心+-+自一1西_】+#内+后仪1+瓦小去掉变量入后的新回归方程(减模型)为:j)三科十01占+百工二十一一.-*必+通+1,+*&Xjm全模型的复相关系数的平方为产,减模型的复相关系数的平

6、方为骂定义濯二史-"。若的几乎为零,则说明x对y没有显著影响,反之则表示x又ty有其它变量不可替代的显著影响。检验假设:卜丧;=0;耳:A母*0当出口为真时,检验统计量为月=京盛=-4-斤(L龙一牌一1)对于给定显著性水平支,由样本计算出网的值,若月之居-式m-1)则拒绝月。,说明x对y有显著影响,应在减模型中引入自变量x;反之则应剔除x,使之成为减模型。3微博美妆视频博主影响力回归分析实例本次作业利用spssb件和逐步回归法,对原始数据进行了回归分析,并最终获得了最优”回归方程,解决这个问题。3.1数据收集及处理首先进行参考数据的选择,将直接实时从微博上收集数据,参考以往相关研究的

7、论文,归纳出可能影响微博博主的一些主要因素,其中,由于选择的是美妆视频博主,因此专业视频数量以及最热门视频播放数(万)也是一个很重要的指标,其中专业微博比=专业微博数微博数最后本文从中选取了粉丝数(人),金VS动数(人),抽奖数(个),专业微博比(%,最热门视频播放量(万)5个因素作为本次考查的重点,并对其与月互动数的相关关系进行分析。表3,1所示为所选取的随机抽取的美妆视频博主于2018年9月9日至2018年10月9日1月间月互动数与选取变量的数据汇总。表3.1微博美妆博主月互动数与相关变量数据表序号影响力(月互动数)粉丝数金V互动数抽奖数专业微博比最热视频播放量(万)1266.002413

8、340120.00%6.721295.001090350020.00%68.131541.0070583008.82%15.941951.001615810018.18%11352346.00176862107.69%38.666751.0011433220015.00%22979969.007748740145.41%131810934.0013399531214.29%807913090.0010343520855.56%23111031046.0010726426234.48008000000733.33%16081234750.0013710805250.00

9、%23161335440.0021784798022.39002462826008.57%83811544680.0055050410511.67%5571652010.0026351270542.11%8801763803.0021600004236.00%19601873629.0017794294546.1500507950201135.71%26442093550.0016176352721.21%22802195734.00318112202728.13%315422100305.00313755501423.08%53623107

10、480.00146893827107.64%60924124539.0026489833968.75%245625129455.00248594921024.14%26793.2建立回归模型过程为了研究月互动数与各种影响因素的关系,必须要建立二者之间的数学模型。数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。而实际生活中,影响月互动数的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立财政收入的数学模型往往是很难的。但是为了便于研究,我们可以建立财政收入与各影响因素的线性回归模型,模型如下:Y=aiXi+02X2+a3X3+%X4+osX5其中,y是因

11、变量,用是自变量,风是各个自变量的系数。各变量符号的定义见表3.2表3.2各变量符号定义表YXiX2X3X4X5影响力(月互动数)粉丝数金V互动数抽奖数专业微博比最热视频播放量(万)3.3线性回归的结果及分析利用统计数据建立回归模型,用SPS球件的线性回归分析功能,得到以下数据。首先在打开的线性回归”对话框中(图3.1),先从变量列表中选择因变量(影响力),以及自变量(粉丝数、金v互动数、抽奖数、专业微博比、最热视频播放量),再选择方法进入”。按下“ok后,就可得到分析结果,如表3.3所示。图3.1线性回归”对话框表3.3回归分析的SPSS俞出理敏已,的入已移除之悴颦.11马设伽施放(万).金

12、V互前依,抽矍,守山战目比.-b-Entra.廊曼殿:景炯力(月可印取),已翰人所有要求的建墩。皆红也摘驶;根型RR平方累整径R平方他率斜度能qP1.652a,726,65424911.40522二忸渊徜;常毂),最第视频播放重万).金v互劫鼓,抽斐.争业放博比,粉螳数暨甄敷分析口df平均值平方F13.123EM05624640707910.065OQOb殛走1.179E+101952057611074.302E+1Q24鼻屋赞般:影峋力(月耳诩*人自滞俏:(常tn,鼠都视新捕贰量(万:金卡耳动敬r抽餐,专业薇博比,检群教wa程甥非棚型匕俵教摞阜化伊朝T3悻节前步seta1*113273311

13、1130121.01C323粉蜡数.016.D0J69i2.72.013金V4动觐2666.641&9B.M口,3642.990,003抽奖2119726B527B0.32。2.225,030专业微博比4061.552332,201.15&1.22423S内?1.6143430,067,470,643a.整建初影胸力1月互动鼓J我们得到的第一个重要结果是五个自变量的回归系数a以及常数。于是,初步估计的回归函数为:影响力(月互动数)=-11327.331+0.16粉丝数+2686.641金V互动数+2119.726抽奖数+406.552专业微博比+1.614最热视频播放量3.3.

14、1 整体评价指标在此模型中,决定系数为R2=0.726,侑R=0.852是多维相关系数。修正后R刻0.654,残差的标准误差为24911.405=R2勺值说明72.6%的影响力波动由这五个自变量解释,对此次模型研究有相对较高额比例。其中F值为10.065,显著性为0.000,因而不存在接受零假设的问题。3.3.2 回归系数检验我们已得到回归系数,且“系数”表格中第二列给出了回归系数的标准误差,该标准误差用于计算t值和系数的置信区间如表3.4所示:表3.4置信区间95%和共线性统计量摄型口的竹行司.而共需性蜿舒资料F限上眼尤差V1F1(常的)457373412019.122黔皖的.004,029

15、487工。5m金V#动敢0057654567.516,9701C30构架125.51541139396961.436专业檄向比-288.9221102.01258511.175最逑规顿捕政早(月-5.556乱7g3,715L392表3.4显示了三个回归系数及常熟的置信区间(95%置信区间)。可以看出,五个回归系数中,变量金v互动数的系数具有最大的置信区间,因此它的估计是最不精确的。不过,常数的估计更不精确。其中,系数表中第五列为显著性检验。我们发现,前三个自变量都比通常要求的显著水平0.05低,因此,可以认为这三个自变量的影响都是显著的。而专业微博比与最热视频播放量的显著性较大。3.3.3 共

16、线性检验为了查明共线性,第一步应检验相关矩阵中回归自变量间可辨认的相关性(表3.5)。表3.5相关矩阵重日i-I-iIM戴,刘里展"胡利用立U1万111OQCmD1I31021,022,B427193OD口wn000.0434722.000033no3D437232960901Q510243351445307w4336122009612t577329M0527,5423U.旬纥蚁吊讷八敢由表中看,自变量中不存在显著的相关性,但是专业微博比与最热视频播放量的相关系数都大于0.5,接近于1。此时再检查容许度和方差膨胀因子(VIF)。根据现有的数值,未发现显著的共线性。根据上述步骤,因此不

17、考虑剔除自变量,最后进行残差分析。3.3.5残差分析检验设计随机误差项分布的线性回归模型前提时,我们要用到残差,因为随机误差项是不可观察的,表3.6中列出了残差相关统计资料。表3.6残差统计资料最小值最大值平均数檄隼偏差N?|测值-5644.4976116722.453147662.800035994.6312325残差-33713.1210960249.76953.0000022293.7734525襟型?|测值-1.4811.919.0001.00025探戳i差-1.3802.467.000.91325a残差统言十资料a.鹰燮数:影响力(月互动数)直方圈旭嗣榴隼化箱差=-3.47E-ia;

18、.=D.813图3.2标准化残差直方图限叫的Cumprdb翱案的CumProb施1血;理率化慢差的常物P-P留图3.3标准P-P图标准化残差的P-P图通过比较样本残差分布与假设的正态分布是否相同来检验残差是否符合正态分布,所有残差点都分布在对角的直线附近,说明残差的正态性假设基本成立。感漫理影啊力月里动故)图3.4标准化预测值图从图3.4的的影响力与其标准化残差散点图中可以看到,所有观测量随机地落在垂直围绕±2的范围内,预测值与标准化残差值之间没有明显的关系,所以回归方程应该满足线性关系与方差齐性的假设且拟和效果较好。3.5最优方程由以上多元回归分析可得各个分量的影响关系,从而得出最优”方程为:Y=-11327.331+0.16X1+2686.641X2+2119.726X3+406.552X4+1.614X5其中R2=0.726,F=10.065X1代表粉丝数,X2代表金V互动数,X3代表抽奖数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论