版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、18/192012年工业大学数学建模竞赛论文赛题编号(B)微博主影响力分析参赛队号:第18 队参赛队员: 单国厚(管理学院,电子商务10-1,20105564) 董磊(计算机学院,电子信息工程10-1,20105558) 方刚(管理学院,电子商务10-1,20105567) 2012年06月20日论文题目:微博主影响力分析摘要:微博作为近几年新兴的一种网络应用形式,在诞生不久就以强大的影响力和迅速攀升的用户数量引发了一场“微革命”。目前,微博已经成为国外社交网络中的主流社交工具,对它的研究已成为一种新的趋势,许多专家学者从心理学、传播学、数学和计算机等角度研究它,并深度把握微博的定义、功能、特
2、性的基础上,建立了关于微博客使用动机与行为的假设模型。而对微博主影响力的分析,目前还未有成熟的模型和理论,因而对微博主影响力建立科学合理的模型并进行分析十分必要。结合对网上100位微博用户的有效统计数据,从两个方向对微博主影响力与各因素之间的关系建立数学模型。模型一,利用逐步回归分析法确定微博主影响力的主要影响因素,进而用最小二乘法拟合出微博主影响力与主要影响因素关系,同时分别对影响因素进行移入移出对模型加以改进,综合以上结论建立出模型一。分析找出主要影响因素后,加入主要影响因素的高次方来进一步模拟,并对模型进行进一步该改进、优化,使主要影响的相互关系更能反应对微博主影响力的影响。并进行稳定性
3、分析和灵敏度分析。模型二,首先利用多元线性回归模型确定微博主影响力与各因素之间的线性关系,然后加入考虑各因素之间的相互影响因素并进行残差分析,对模型进行改进、优化。再利用得到的模型去除数据中不合理的一些数据,再对模型进行进一步改进、优化,直至模型比较合理科学的分析出微博主影响力与各因素之间的关系。并进行稳定性分析和灵敏度分析。关键词:微博主影响力 逐步回归 多元线性回归 残差分析目录: TOC o 1-2 h z u HYPERLINK l _Toc3285071241.问题重述 PAGEREF _Toc328507124 h 3HYPERLINK l _Toc3285071252.模型假设
4、PAGEREF _Toc328507125 h 3HYPERLINK l _Toc3285071263.符号说明 PAGEREF _Toc328507126 h 3HYPERLINK l _Toc3285071274.问题分析 PAGEREF _Toc328507127 h 4HYPERLINK l _Toc3285071285.模型建立 PAGEREF _Toc328507128 h 4HYPERLINK l _Toc328507129模型一: PAGEREF _Toc328507129 h 4HYPERLINK l _Toc328507130模型二: PAGEREF _Toc3285071
5、30 h 8HYPERLINK l _Toc3285071316.模型的评价 PAGEREF _Toc328507131 h 10HYPERLINK l _Toc3285071326.1、模型优点 PAGEREF _Toc328507132 h 10HYPERLINK l _Toc3285071336.2、模型的缺陷 PAGEREF _Toc328507133 h 10HYPERLINK l _Toc3285071346.3.模型的改进 PAGEREF _Toc328507134 h 11HYPERLINK l _Toc3285071357.稳定性分析和灵敏度分析 PAGEREF _Toc32
6、8507135 h 12HYPERLINK l _Toc328507136对模型一分析: PAGEREF _Toc328507136 h 12HYPERLINK l _Toc328507137对模型二分析: PAGEREF _Toc328507137 h 12HYPERLINK l _Toc3285071388.参考文献 PAGEREF _Toc328507138 h 13HYPERLINK l _Toc3285071399.附录 PAGEREF _Toc328507139 h 14HYPERLINK l _Toc32850714010.相关程序 PAGEREF _Toc328507140 h
7、 16HYPERLINK l _Toc328507141图1程序: PAGEREF _Toc328507141 h 16HYPERLINK l _Toc328507142图2程序: PAGEREF _Toc328507142 h 16HYPERLINK l _Toc328507143图3程序: PAGEREF _Toc328507143 h 16HYPERLINK l _Toc328507144表一程序: PAGEREF _Toc328507144 h 17HYPERLINK l _Toc328507145表二程序: PAGEREF _Toc328507145 h 17HYPERLINK l
8、_Toc328507146相关系数表的程序: PAGEREF _Toc328507146 h 17HYPERLINK l _Toc328507147表三程序: PAGEREF _Toc328507147 h 18问题重述微博客作为近几年新兴的一种网络应用形式,在诞生不久就以强大的影响力和迅速攀升的用户数量引发了一场“微革命”。目前,微博已经成为国外社交网络中的主流社交工具,对它的研究已成为一种新的趋势,许多专家学者从心理学、传播学、数学和计算机等角度研究它,并深度把握微博的定义、功能、特性的基础上,建立了关于微博客使用动机与行为的假设模型。而对微博主影响力的分析,目前还未有成熟的模型和理论,试
9、完成以下问题:(1)请根据表格中(见附录)的数据和对应的影响力构建一个数学模型,分析各因素与影响力之间的关系,并进行稳定性分析和灵敏度分析;(2)表格中(见附录)的影响力数据有个别不符合常理,请分析并把它们找出来,并重新构建一个较为合适的模型进行影响力分析,同样进行稳定性分析和灵敏度分析。模型假设这里面的转发和评论量是在固定的分析微博和统一时段(这里为两周)下统计的,假设数据统计科学合理;建立模型时着重讨论各主要因素忽略次要因素;变量(i=1,2,3, 7)之间由于各种原因也存在着某种关系,这里不能忽略它们之间的相关分析;假设认证中,0代表未认证,1代表已认证;符号说明分别代表认证,关注,粉丝
10、,所发微博数量,分析微博,一定时间微博(两周)的转发数,评论数。微博主影响力。Stepwise 表示Matlab统计工具箱中逐步回归命令。R(RMSE)表示剩余标准差,F表示统计量。,分别是,的平均值。问题分析目前所拥有的数据是100位微博用户的对微博主影响力产生影响的基本微博信息和在两周时间一定微博数量的转发、评论次数,以这些数据来分析各因素与微博主的微博影响力之间的关系。由于样本容量较少,而影响变量过多。考虑到直接进行多元回归分析建立模型。而直接建立模型可能存在伪回归的风险,所以采取解决的方法是通过逐步回归法确定最终的有效影响因素,并进行必要的自相关性诊断预处理分析做出改进,最后得到相应的
11、数学模型。逐步回归的基本思路是先确定一个包含若干个自变量的初始集合,然后每次从几何外的变量中引入一个对因变量影响最大的,再对集合中的变量进行检验,从变得不显著的变量中移出一个影响最小的,依次进行,直到不能引入和移出为止,引入和移出都以给定的显著性水平为标准。因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元线性回归。此题中我们使用了多元线性回归模型来建立微博主影响力与各因素的关系模型,并使用残差分析法等来对模型进行改进、优化。用得到的模型对实际的参数进
12、行检验去除那些不合理的数据,并对模型进行进一步优化,使之更加的科学合理反应客观实际。模型建立模型一:1.模型的初步建立将各影响因素认证、关注、粉丝、所发微博数量、分析微博、一定时间微博(两周)的转发数、评论数排成7列,=,同时微博主影响力y也排成一列,见下表。认证关注粉丝微博分析微博转发评论影响力0010537211231001410601253075801413404938299510036974394936186187543719821002646275948864069537846452161003935841326280095686564274403110086561398280990
13、761169658260610051885387333840142137833810801002547730621875018973399418741003262928333579027352795128100310542790976903270892106962592227819167011299360424243242260573730272889159293298432492766801996116837211003017922601681045202927993111002599221971687114257822518009113506221933082142932470417381
14、006277021860277048332321342161010019636215403900128836581197100245662072676611631907901684100487262039077403387816854100256461984077304225416826931001878719539772054259509515180100250341946948802562197573100271331946797411993638272205610043262190486730149779688130810014089189037760132497938100195601
15、854017403912937194789100813418177080011953156686152351004194818111089073844008871001307017892672083931342029331001765917864074028159445208100174131741086502573034124010025815168395750799179113435100210481649967901928392594218773100283481642909019117197585100116552163092610163942693929561003938716094
16、276016612568441419010017861159744840722154462564100122511595226700195836484100114351592056615915372372100547915664352013193262418568100124151553348209515003378710011611154424671538518927312910031586153859790127463344238810014216153149660183178152112835100141525828116276215017493410025617151891910875
17、987082236610014993150574781390514714260210097651500817804473157921010019763149552780961749721689310012409148816831234375834195910011711147537760154451157345361008746147431770332370281636210017561448147602441481845031001394914474166052445029174487410018056144558920923434999829157100172591434759008111
18、532872157100153581403047805514841227792100164181392328309375046970870711001653613863092048203902411863100244601386098508506355529100227721382877207163513811722100224161375527301991312226592710077980137287830339669469310019670136047711247822144323910015687135580800247379533433100187741351837707450401
19、524141009103134100741971888793252310025522413266087042435515714615100113581319727700296689214100105181297966703991506884191002074412917581022526266911091810014461128427850405575276251004435312832573093863487101008253127567630544980844336100175311271667501321248378637210015263124779810102560790334810
20、080271247657606972504971009765124319631109208384112215100217811235408701251810571215041002093612322285006677546010075241227836004034646120871008748119710720174662415715961009797117767740297100067157291001964611726979012415885862961100197931137657900107326234100517411276361013111784894450100982011063
21、679067434959602781310018618109826891921145239910030249109356550369113908119100920010740860139383897220531005811106476791566104212815671002184610628178051434382181008679105678621454251119710076971052776319089008531881001014211047347003833768490421361001346410456890039239433936505100140511039698704497
22、79321089510014460103631800132971585687110082511032147901256897574156100928010246776用Matlab 工具箱中的stepwise命令,将变量按顺序一一移入移出,观察得到,当对进行处理时R 最大,同时F值也表现明显,如图1。图1这些现象表明,仅含的模型是合适的。的回归系数分别是 =6.82323, = 1.47209。值得注意的是,stepwise命令并未给出回归模型的常数项,计算如下:得 = - - = -7460200.9703649利用逐步回归最终得到的模型为:Y = 6.82323+1.47209-74602
23、00.9703649在最终模型里回归变量有,此时是一个简单易用的模型。模型二:微博影响力Y与认证,关注,粉丝,微博,分析微博,转发,评论之间的多元线性回归模型为:其中,(i=0,1,2,3,4,5,6,7)是待估计的回归系数,c是随机误差。利用matlab的统计工具箱可以得到回归系数与置信区间、经验统计量的结果如下:参数参数估计值置信区间69.852950.4152, 89.2906-2.7997-5.0052, 0.40570.9250-0.2390, 0.08890.23360.4993, 0.96800.7097-0.8449, 0.26430.8658-0.4524, 0.18400.
24、65560.0662, 0.2450-0.7105-0.9738, 0.5527R2= 0.3659 F=22.0112 P=0表1模型2(1)计算的回归系数可以看出这一模型的拟合效果并不是很好,参量的置信区间也又包含零点,说明关于对应变量的拟合不合理,应删去。同时由Y与各变量的相关系数(见下图)可知应引入交互项x3*x4 x6*x7。相关系数如下: 1.0000 0.0636 -0.1006 -0.1478 0.0281 0.3806 0.1009 -0.1015 0.0636 1.0000 0.2358 0.2797 0.0877 0.0007 -0.0293 0.2077 -0.1006
25、 0.2358 1.0000 0.7387 0.0712 0.0421 -0.0058 0.7685 -0.1478 0.2797 0.7387 1.0000 0.0750 -0.0533 -0.0773 0.6115 0.0281 0.0877 0.0712 0.0750 1.0000 -0.0579 -0.0575 0.0466 0.3806 0.0007 0.0421 -0.0533 -0.0579 1.0000 0.5702 0.1964 0.1009 -0.0293 -0.0058 -0.0773 -0.0575 0.5702 1.0000 0.0846 -0.1015 0.2077
26、 0.7685 0.6115 0.0466 0.1964 0.0846 1.0000通过对上表相关系数的分析,在删除了一些影响因素之后,对结果不会有很大影响。则改进后的模型的模拟结果如下表:参数参数估计值置信区间68.206366.7674, 69.6452 0.91260.4215, 0.40360.50680.9267, 0.0868 -0.0953-0.0412, -0.1494 0.22420.8214, 0.6269R2=0.6372 F=67.8755 P=0表2 模型2(2)计算的回归系数可见模型2(2)较模型2(1),有了很大的改进,但R2不是很接近1,这也影响了模型2(2)的
27、拟合效果。进一步由残差图可看出有些数据明显低于或高于模型的估计值,也明显与与其他相似数据不符,这可能是有未知原因造成的。为了使个别数据不至于影响整个模型,应将这些数据去掉。对模型2重新估计回归系数得到结果如表3。残差分析图见下图。图3 图4参数参数估计值置信区间70.807269.1417, 71.47260.62760.5209, 0.73440.53080.1398, 0.9219-0.1373-0.1907, -0.08400.21920.1638. 0.2747R2=0.99 F=179.91 P=0 表3 模型2去掉异常数据后的回归系数由上表可见,去掉异常数据后,结果得到很大改善。模
28、型中关系为:Y=70.8072+0.6276+0.5308-0.1373+0.2192模型的评价6.1、模型优点本文基本假设合理,理论可靠,数学推理严谨,模型结构简单、清晰。主要运用数学推理和数学建模中相关方法:(1)对于模型,运用了建模方法中的逐步回归分析。优点是恰当地对各个影响因素进行逐步分析,去掉对结果影响小的,最终保留下主要的影响因素。然后对它们进行回归分析,反复调试,直至找出微博主影响力与影响因素的关系方程。(2)对于模型,运用了建模方法中的多元线性回归分析。优点是可以分析微博主和各个影响因素之间的关系,再利用残差分析法和分析真实值和实验值之间的差距,利用合理的影响因素来去除一些不合
29、理的数据,从而使模型得到优化,最终找出微博主影响力和各影响因素之间的关系。6.2、模型的缺陷(1)对于模型一,缺点是考虑到样本数据的准确性,以与数据容量有限,对建立的数学模型会产生负面影响。考虑到一元多项式函数的图像规律,随时间发展,最终会出现结果向特定方向的延伸,与现实社会发展状况不一致。所以应该考虑到在建立的数学模型中引入周期函数最终使微博影响力的规模在一定的上下限波动,形成“衰减波”。当然由于样本数据小,也可能会产生误差。(2)对于模型二,由于样本数据小,可能会产生误差。6.3.模型的改进(1)对于模型一继续分析,因为目前已经得到,为主要影响因素,所以再引入平方项,平方项,即=时,如图2
30、: 图2比较图1发现组合和比组合、和的RMUSE(剩余标准差)数值较高,较低,效果较好,故采用、和。则改进得模型如下:、的回归系数分别是 =14.5582, = -8.46931,=1.70407。值得注意的是,stepwise命令并未给出回归模型的常数项b0,b0计算如下:得: b0 = - - - = 098.3554673利用逐步回归最终得到的模型为:Y = 14.5582-8.46931+1.70407+098.3554673稳定性分析和灵敏度分析对模型一分析:最终模型数学关系为:Y=14.5582-8.46931+1.70407+098.3554673令模型中即粉丝的二次方的系数为a
31、=-8.46931,则Y=14.5582+a+1.70407+098.3554673令Y对的导数为为零,即14.5582+2a=0,即= - 关于a的图像如下:如上图可以看出关于a的灵敏度。稳健性:我们的模型建立在线性结构的基础之上。这显然只是一种近似。但在实际应用中,我们按如下过程分析稳健性:首先对微博主影响力作出有根据的预测,然后根据过去类似情况下(如相同时间相同分析微博同一个人)的经验,判断微博主影响力。对于非线性模型在一个相当小的区域亦可进行线性预测,这类近似通常都有稳健性。对模型二分析:模型二最终模型为:Y=70.8072+0.6276+0.5308-0.1373+0.2192因为=
32、0.6276,=0.5308,则即微博对微博主的影响力比粉丝对微博主影响更灵敏。稳健性分析:我们的模型建立在线性结构的基础之上。这显然只是一种近似。但在实际应用中,我们按如下过程分析稳健性:首先对微博主影响力作出有根据的预测,然后根据过去类似情况下(如相同时间相同分析微博同一个人)的经验,判断微博主影响力。对于非线性模型在一个相当小的区域亦可进行线性预测,这类近似通常都有稳健性。参考文献1 王弘玩转微博:个人、企业、政府微博实用指南机械工业 20122 微博影响力因素分析 哪些因素起决定作用 相关 .admin5./article/20100124/207045.shtml 2012/6/26
33、.3开复微博:改变一切财经 20114 启源,金星,叶俊.数学模型(第三版)(M).,高等教育,2003:294322.5 德丰, 丁伟雄 ,雷晓平.程序设计与综合应用清华大学 2012:324346.6 贻民,梁明.数学建模的几种基本预测方法的探讨J,学院学报,2010,12(5):3236.7matlab论坛里面的相关算法 .matlabsky./ 2012/6/26.8matlab 电子期刊第三期,2010:1-32。9Stephen J.Chapman著,MATLAB编程:科学,2003附录10.相关程序图1程序:clc,clearx1=importdata(x1.txt);x2=im
34、portdata(x2.txt);x3=importdata(x3.txt);x4=importdata(x4.txt);x5=importdata(x5.txt);x6=importdata(x6.txt);x7=importdata(x7.txt)y=importdata(y.txt);x=x1 x2 x3 x4 x5 x6 x7;stepwise(x,y)图2程序:x1=importdata(x1.txt);x2=importdata(x2.txt);x3=importdata(x3.txt);x4=importdata(x4.txt);x5=importdata(x5.txt);x6=importdata(x6.txt);x7=importdata(x7.txt)y=importdata(y.txt);x=x1 x2 x3 x3.2 x4 x5 x6 x6.2 x7;stepwise(x,y)图3程序:x=ones(100,1) x3 x4x3.*x4 x6.*x7;format longb,bint,r,rint,stats=regress(y,x);for i=1:100 plot(x3(i),r(i),+) hold onendxla
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大班面条舞听评课记录
- 不等式的解集听评课记录
- 山东省济南市平阴县2024-2025学年七年级上学期期末数学模拟试题(无答案)
- 《文化安全》课件
- 《货款结算篇》课件
- 《生态旅游管理》课件
- 《个能力标准》课件
- 商务文书上新课件
- 全市卫生法制与监督工作计划例文
- 四川某石化项目钢结构施工方案
- 外研版(2024)七年级上册英语Unit1学情调研测试卷(含答案)
- 抗磷脂综合征的临床护理
- 2024年合肥肥西县山南镇选拔村级后备干部30人笔试备考题库及答案解析
- 白酒销售培训
- 团建活动劳务合同模板
- 人教PEP版六年级上册英语Unit 6 How do you feel单元整体教学设计
- 【初中语文】2024-2025学年新统编版语文七年级上册期中专题12:议论文阅读
- 信息科技大单元教学设计之七年级第一单元探寻互联网新世界
- 浙江省杭州市2024年中考英语真题(含答案)
- 北京市朝阳区2022届高三一模数学试题 附解析
- 2024年国家公务员考试《行测》真题卷(行政执法)答案和解析
评论
0/150
提交评论