数学建模论文--微博影响力.doc_第1页
数学建模论文--微博影响力.doc_第2页
数学建模论文--微博影响力.doc_第3页
数学建模论文--微博影响力.doc_第4页
数学建模论文--微博影响力.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2012年合肥工业大学数学建模竞赛论文赛题编号(b)微博主影响力分析参赛队号:第18 队参赛队员: 2012年06月20日论文题目:微博主影响力分析摘要:微博作为近几年新兴的一种网络应用形式,在诞生不久就以强大的影响力和迅速攀升的用户数量引发了一场“微革命”。目前,微博已经成为国内外社交网络中的主流社交工具,对它的研究已成为一种新的趋势,许多专家学者从心理学、传播学、数学和计算机等角度研究它,并深度把握微博的定义、功能、特性的基础上,建立了关于微博客使用动机与行为的假设模型。而对微博主影响力的分析,目前还未有成熟的模型和理论,因而对微博主影响力建立科学合理的模型并进行分析十分必要。结合对网上100位微博用户的有效统计数据,从两个方向对微博主影响力与各因素之间的关系建立数学模型。模型一,利用逐步回归分析法确定微博主影响力的主要影响因素,进而用最小二乘法拟合出微博主影响力与主要影响因素关系,同时分别对影响因素进行移入移出对模型加以改进,综合以上结论建立出模型一。分析找出主要影响因素后,加入主要影响因素的高次方来进一步模拟,并对模型进行进一步该改进、优化,使主要影响的相互关系更能反应对微博主影响力的影响。并进行稳定性分析和灵敏度分析。模型二,首先利用多元线性回归模型确定微博主影响力与各因素之间的线性关系,然后加入考虑各因素之间的相互影响因素并进行残差分析,对模型进行改进、优化。再利用得到的模型去除数据中不合理的一些数据,再对模型进行进一步改进、优化,直至模型比较合理科学的分析出微博主影响力与各因素之间的关系。并进行稳定性分析和灵敏度分析。关键词:微博主影响力 逐步回归 多元线性回归 残差分析 目录:1.问题重述32.模型假设33.符号说明34.问题分析45.模型建立4模型一:4模型二:86.模型的评价106.1、模型优点106.2、模型的缺陷106.3.模型的改进117.稳定性分析和灵敏度分析12对模型一分析:12对模型二分析:128.参考文献139.附录1410.相关程序16图1程序:16图2程序:16图3程序:16表一程序:17表二程序:17相关系数表的程序:17表三程序:181. 问题重述微博客作为近几年新兴的一种网络应用形式,在诞生不久就以强大的影响力和迅速攀升的用户数量引发了一场“微革命”。目前,微博已经成为国内外社交网络中的主流社交工具,对它的研究已成为一种新的趋势,许多专家学者从心理学、传播学、数学和计算机等角度研究它,并深度把握微博的定义、功能、特性的基础上,建立了关于微博客使用动机与行为的假设模型。而对微博主影响力的分析,目前还未有成熟的模型和理论,试完成以下问题:(1)请根据表格中(见附录)的数据和对应的影响力构建一个数学模型,分析各因素与影响力之间的关系,并进行稳定性分析和灵敏度分析;(2)表格中(见附录)的影响力数据有个别不符合常理,请分析并把它们找出来,并重新构建一个较为合适的模型进行影响力分析,同样进行稳定性分析和灵敏度分析。2. 模型假设1 这里面的转发和评论量是在固定的分析微博和统一时段(这里为两周)下统计的,假设数据统计科学合理;2 建立模型时着重讨论各主要因素忽略次要因素;3 变量(i=1,2,3, 7)之间由于各种原因也存在着某种关系,这里不能忽略它们之间的相关分析;4 假设认证中,0代表未认证,1代表已认证;3. 符号说明1. 分别代表认证,关注,粉丝,所发微博数量,分析微博,一定时间微博(两周内)的转发数,评论数。2. 微博主影响力。3. stepwise 表示matlab统计工具箱中逐步回归命令。r(rmse)表示剩余标准差,f表示统计量。,分别是,的平均值。4. 问题分析目前所拥有的数据是100位微博用户的对微博主影响力产生影响的基本微博信息和在两周时间内一定微博数量的转发、评论次数,以这些数据来分析各因素与微博主的微博影响力之间的关系。由于样本容量较少,而影响变量过多。考虑到直接进行多元回归分析建立模型。而直接建立模型可能存在伪回归的风险,所以采取解决的方法是通过逐步回归法确定最终的有效影响因素,并进行必要的自相关性诊断预处理分析做出改进,最后得到相应的数学模型。逐步回归的基本思路是先确定一个包含若干个自变量的初始集合,然后每次从几何外的变量中引入一个对因变量影响最大的,再对集合中的变量进行检验,从变得不显著的变量中移出一个影响最小的,依次进行,直到不能引入和移出为止,引入和移出都以给定的显著性水平为标准。因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元线性回归。此题中我们使用了多元线性回归模型来建立微博主影响力与各因素的关系模型,并使用残差分析法等来对模型进行改进、优化。用得到的模型对实际的参数进行检验去除那些不合理的数据,并对模型进行进一步优化,使之更加的科学合理反应客观实际。5. 模型建立模型一:1.模型的初步建立1. 将各影响因素认证、关注、粉丝、所发微博数量、分析微博、一定时间微博(两周内)的转发数、评论数排成7列,= ,同时微博主影响力y也排成一列,见下表。认证关注粉丝微博分析微博转发评论影响力001053721123100141060125307580141340493829951003697439493618618754371982100264627594886406953784645216100393584132628009568656427440311008656139828099076116965826061005188538733384014213783381080100254773062187501897339941874100326292833357902735279512810031054279097690327089210696259222781916701129936042424324226057373027288915929329843249276680199611683721100301792260168104520292799311100259922197168711425782251800911350622193308214293247041738100627702186027704833232134216101001963621540390012883658119710024566207267661163190790168410048726203907740338781685410025646198407730422541682693100187871953977205425950951518010025034194694880256219757310027133194679741199363827220561004326219048673014977968813081001408918903776013249793810019560185401740391293719478910081341817708001195315668615235100419481811108907384400887100130701789267208393134202933100176591786407402815944520810017413174108650257303412401002581516839575079917911343510021048164996790192839259421877310028348164290901911719758510011655216309261016394269392956100393871609427601661256844141901001786115974484072215446256410012251159522670019583648410011435159205661591537237210054791566435201319326241856810012415155334820951500337871001161115442467153851892731291003158615385979012746334423881001421615314966018317815211283510014152582811627621501749341002561715189191087598708223661001499315057478139051471426021009765150081780447315792101001976314955278096174972168931001240914881683123437583419591001171114753776015445115734536100874614743177033237028163621001756144814760244148184503100139491447416605244502917448741001805614455892092343499982915710017259143475900811153287215710015358140304780551484122779210016418139232830937504697087071100165361386309204820390241186310024460138609850850635552910022772138287720716351381172210022416137552730199131222659271007798013728783033966946931001967013604771124782214432391001568713558080024737953343310018774135183770745040152414100910313410074197188879325231002552241326608704243551571461510011358131972770029668921410010518129796670399150688419100207441291758102252626691109181001446112842785040557527625100443531283257309386348710100825312756763054498084433610017531127166750132124837863721001526312477981010256079033481008027124765760697250497100976512431963110920838411221510021781123540870125181057121504100209361232228500667754601007524122783600403464612087100874811971072017466241571596100979711776774029710006715729100196461172697901241588586296110019793113765790010732623410051741127636101311178489445010098201106367906743495960278131001861810982689192114523991003024910935655036911390811910092001074086013938389722053100581110647679156610421281567100218461062817805143438218100867910567862145425111971007697105277631908900853188100101421104734700383376849042136100134641045689003923943393650510014051103969870449779321089510014460103631800132971585687110082511032147901256897574156100928010246776用matlab 工具箱中的stepwise命令,将变量按顺序一一移入移出,观察得到,当对进行处理时r 最大,同时f值也表现明显,如图1。图1这些现象表明,仅含的模型是合适的。的回归系数分别是 =6.82323, = 1.47209。值得注意的是,stepwise命令并未给出回归模型的常数项,计算如下:得 = - - = -7460200.9703649利用逐步回归最终得到的模型为:y = 6.82323+1.47209 -7460200.9703649在最终模型里回归变量有,此时是一个简单易用的模型。模型二:微博影响力y与认证,关注,粉丝,微博,分析微博,转发,评论之间的多元线性回归模型为: 其中,(i=0,1,2,3,4,5,6,7)是待估计的回归系数,c是随机误差。利用matlab的统计工具箱可以得到回归系数及置信区间、经验统计量的结果如下:参数参数估计值置信区间69.94651397321852950.858082594724152, 89.034945351712906-2.328698213977997-5.444126643780052, 0.7867302158240570.000490813319250-0.001951734432390, 0.0029333610708890.0000041558723360.000002972814993, 0.0000053389296800.000080010967097-0.000056462058449, 0.0002164839926430.005834496848658-0.186023632654524, 0.1976926263518400.0000420619365560.000010934730662, 0.000073189142450-0.000001152087105-0.000009948929738, 0.000007644755527r2= 0.634005616413659 f=22.767139655650112 p=0表1 模型2(1)计算的回归系数可以看出这一模型的拟合效果并不是很好,参量的置信区间也又包含零点,说明关于对应变量的拟合不合理,应删去。同时由y与各变量的相关系数(见下图)可知应引入交互项x3*x4 x6*x7。相关系数如下: 1.0000 0.0636 -0.1006 -0.1478 0.0281 0.3806 0.1009 -0.1015 0.0636 1.0000 0.2358 0.2797 0.0877 0.0007 -0.0293 0.2077 -0.1006 0.2358 1.0000 0.7387 0.0712 0.0421 -0.0058 0.7685 -0.1478 0.2797 0.7387 1.0000 0.0750 -0.0533 -0.0773 0.6115 0.0281 0.0877 0.0712 0.0750 1.0000 -0.0579 -0.0575 0.0466 0.3806 0.0007 0.0421 -0.0533 -0.0579 1.0000 0.5702 0.1964 0.1009 -0.0293 -0.0058 -0.0773 -0.0575 0.5702 1.0000 0.0846 -0.1015 0.2077 0.7685 0.6115 0.0466 0.1964 0.0846 1.0000通过对上表相关系数的分析,在删除了一些影响因素之后,对结果不会有很大影响。则改进后的模型的模拟结果如下表:参数参数估计值置信区间68.13045383997206366.696159065447674, 69.564748614496452 0.0000060296391260.000004929304215, 0.0000071299740360.0005543954350680.000373573549267, 0.000735217320868 -0.000000000130953-0.000000000170412, -0.000000000091494 0.0000000000422420.000000000018214, 0.000000000066269r2=0.738809293456372 f=67.179728374668755 p=0表2 模型2(2)计算的回归系数可见模型2(2)较模型2(1),有了很大的改进,但r2不是很接近1,这也影响了模型2(2)的拟合效果。进一步由残差图可看出有些数据明显低于或高于模型的估计值,也明显与与其他相似数据不符,这可能是有未知原因造成的。为了使个别数据不至于影响整个模型,应将这些数据去掉。对模型2重新估计回归系数得到结果如表3。残差分析图见下图。 图3 图4参数参数估计值置信区间70.28057439829807269.404230203061417, 71.1569185935347260.0000055689662760.000004887295209, 0.0000062506373440.0004671723653080.000371410261398, 0.000562934469219-0.000000000111373-0.000000000131907, -0.0000000000908400.0000000000321920.000000000021638. 0.000000000042747r2=0.9205341692199 f=179.5523872692291 p=0 表3 模型2去掉异常数据后的回归系数由上表可见,去掉异常数据后,结果得到很大改善。模型中关系为:y=70.280574398298072+0.000005568966276+0.000467172365308-0.000000000111373+0.0000000000321926. 模型的评价6.1、模型优点本文基本假设合理,理论可靠,数学推理严谨,模型结构简单、清晰。主要运用数学推理和数学建模中相关方法:(1)对于模型,运用了建模方法中的逐步回归分析。优点是恰当地对各个影响因素进行逐步分析,去掉对结果影响小的,最终保留下主要的影响因素。然后对它们进行回归分析,反复调试,直至找出微博主影响力与影响因素的关系方程。(2)对于模型,运用了建模方法中的多元线性回归分析。优点是可以分析微博主和各个影响因素之间的关系,再利用残差分析法和分析真实值和实验值之间的差距,利用合理的影响因素来去除一些不合理的数据,从而使模型得到优化,最终找出微博主影响力和各影响因素之间的关系。 6.2、模型的缺陷(1)对于模型一,缺点是考虑到样本数据的准确性,以及数据容量有限,对建立的数学模型会产生负面影响。考虑到一元多项式函数的图像规律,随时间发展,最终会出现结果向特定方向的延伸,与现实社会发展状况不一致。所以应该考虑到在建立的数学模型中引入周期函数最终使微博影响力的规模在一定的上下限波动,形成“衰减波”。当然由于样本数据小,也可能会产生误差。(2)对于模型二,由于样本数据小,可能会产生误差。 6.3.模型的改进(1)对于模型一 继续分析,因为目前已经得到,为主要影响因素,所以再引入平方项,平方项,即= 时,如图2 : 图2比较图1发现组合和比组合、和的rmuse(剩余标准差)数值较高,较低,效果较好,故采用、和。则改进得模型如下:、的回归系数分别是 =14.5582, = -8.46931,=1.70407。值得注意的是,stepwise命令并未给出回归模型的常数项b0,b0计算如下:得: b0 = - - - = 10001701018098.3554673利用逐步回归最终得到的模型为:y = 14.5582 -8.46931 +1.70407+10001701018098.35546737. 稳定性分析和灵敏度分析对模型一分析:最终模型数学关系为:y=14.5582-8.46931 +1.70407+10001701018098.3554673令模型中即粉丝的二次方的系数为a=-8.46931,则y=14.5582+a +1.70407+10001701018098.3554673令y对的导数为为零,即14.5582+2a=0,即= - 关于a的图像如下:如上图可以看出关于a的灵敏度。稳健性:我们的模型建立在线性结构的基础之上。这显然只是一种近似。但在实际应用中,我们按如下过程分析稳健性:首先对微博主影响力作出有根据的预测,然后根据过去类似情况下(如相同时间相同分析微博同一个人)的经验,判断微博主影响力。对于非线性模型在一个相当小的区域内亦可进行线性预测,这类近似通常都有稳健性。对模型二分析:模型二最终模型为:y=70.280574398298072+0.000005568966276+0.000467172365308-0.000000000111373+0.000000000032192因为=0.000005568966276,=0.000467172365308,则即微博对微博主的影响力比粉丝对微博主影响更灵敏。稳健性分析:我们的模型建立在线性结构的基础之上。这显然只是一种近似。但在实际应用中,我们按如下过程分析稳健性:首先对微博主影响力作出有根据的预测,然后根据过去类似情况下(如相同时间相同分析微博同一个人)的经验,判断微博主影响力。对于非线性模型在一个相当小的区域内亦可进行线性预测,这类近似通常都有稳健性。8. 参考文献1 王弘张玩转微博:个人、企业、政府微博实用指南机械工业出版社 20122 微博影响力因素分析 哪些因素起决定作用 相关网址:/article/20100124/207045.shtml 2012/6/26.3 李开复微博:改变一切上海财经出版社 20114 姜启源,谢金星,叶俊.数学模型(第三版)(m).北京,高等教育出版社,2003:294322.5 张德丰, 丁伟雄 ,雷晓平.程序设计与综合应用清华大学出版社 2012:324346.6 张贻民,梁明.数学建模的几种基本预测方法的探讨j,茂名学院学报,2010,12(5):3236.7matlab论坛里面的相关算法 网址:/ 2012/6/26.8matlab 电子期刊第三期,2010:1-32。9stephen j.chapman著,matlab编程:科学出版社,20039. 附录10.相关程序图1程序:clc,clearx1=importdata(x1.txt);x2=importdata(x2.txt);x3=importdata(x3.txt);x4=importdata(x4.txt);x5=importdata(x5.txt);x6=importdata(x6.txt);x7=importdata(x7.txt)y=importdata(y.txt);x=x1 x2 x3 x4 x5 x6 x7;stepwise(x,y)图2程序:x1=importdata(x1.txt);x2=importdata(x2.txt);x3=importdata(x3.txt);x4=importdata(x4.txt);x5=importdata(x5.txt);x6=importdata(x6.txt);x7=importdata(x7.txt)y=importdata(y.txt);x=x1 x2 x3 x3.2 x4 x5 x6 x6.2 x7;stepwise(x,y)图3程序:x=ones(100,1) x3 x4 x3.*x4 x6.*x7 ;format longb,bint,r,rint,stats=regress(y,x);for i=1:100 plot(x3(i),r(i),+) hold onendxlabel(模型(1)e与x3的关系)图4程序:x=ones(100,1) x3 x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论