统计学专业毕业论文多元线性回归模型_第1页
统计学专业毕业论文多元线性回归模型_第2页
统计学专业毕业论文多元线性回归模型_第3页
统计学专业毕业论文多元线性回归模型_第4页
统计学专业毕业论文多元线性回归模型_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、鲁东大学本科毕业论文修改意见结论部分再做适当扩充,页数不能少于15页;参考文献不少于10个;并且引用的文献要在正文中提到一定严格按照论文模板要求修改特别注意:我们组被抽检人数为 2人,重复率不高于30%才能参加答辩,请大家一定要科学引用文献资料,杜绝毕业论文撰写过程中的抄袭、拷贝、篡改已有 科研成果等学术不端现象的发生。多元线性回归模型及其应用摘要:本文分析了多元线性回归模型及其应用,侧重多元线性回归模型的预测。首先 介绍了模型,多元线性回归模型的步骤大致为模型的建立、基本假设、模型的检验、预测.在模型的建立过程中,卞验是建模的核心,模型的检验包括拟合检验、F检验、t检验。如果初始模型未能通过

2、t检验,本文采用后退法剔除不显著的变量,重新建立多远线性回归模型。然后本文采用2005、2006年我国31个省、市、自治区的财政支出数据和2005年我国各地生产总值数据,建立多元线性回归模型,预测 2006年我国各地生产总值,并将预测数据与实际数 据进行比较分析。通过实例分析了解多元线性回归模型及其应用。建模过程中的数学运算采 用数学软件SPS序口 Matlab进行运算。关键词:多元线性回归;模型检验;后退法;预测Multiple linear regression model and its applicationMeng xiangmei(College of mathematical a

3、nd Statistical Sciences, Statistics,Class 1002, 20102111977)Abstract:this article analyzes the multivariate linear regression model and its application, focusing on the mul tiple linear regression model prediction 。 First introduces the model of multivariate linear regressio n model of step roughly

4、model , basic assumptions, inspection , and prediction ability of the mo del。 , in the process of the establishment of the model test is the core of the modeling , model test ing including fitting test , F test and t test。 If has failed t test on initial model, based on the metho d of eliminating ba

5、ckward without significant variables , how far to establish linear regression mod el。Then, based on the 2005, 2005 China 31 provinces, municipalities and autonomous regions of fiscal expenditure data and data across our country gross domestic product in 2005, set up multipl鲁东大学本科毕业论文e linear regress

6、ion model , predict our country gross domestic product in 2006, compared with the actual data and forecast data analysis。Try to understand the multiple linear regression models and its application by example analysis。Mathematical modeling in the process of using mathematics software SPSS and MATLAB

7、operatio ns.Key words: Multiple linear regression;Model checking ; Backward elimination ; Forecast1引言回归是社会科学定量研究方法中最基本、应用最广泛的一种数据分析技术.它能够 把隐藏在大规模原始数据中的重要信息提炼出来,把握住数据的主要特征,从而得到变量间相关关系的数学表达式,还可以基于自变量的取值变化来预测因变量的取值,它在工农业生产和科学研究及国民经济的各个领域均有广泛的应用。本文主要运用多元线性回归模型分析2005年各地财政支出(基本建设支出、科技三项费用、农业支出、教育 事业费、科学事业

8、费等)对生产总值的影响,并拟合成函数对生产总值进行预测,将预测值与2006年数据进行比较,从而体现多元线性回归模型预测的准确性 .2模型介绍多元线性回归模型多元线性回归模型的一般形式1设随机变量y与一般变量Xi,X2, ,xp的线性回归模型为y 0y 01X12X2pXp(2.1)式中,0, 1, , p是p 1个未知参数;。称为回归常数;1, ,称为回归系数;y称 为被解释变量(因变量),而X1,X2, ,Xp是p个可以精确测量并可控制的一般变量,称 为解释变量(自变量)。p 2时,就称式(2。1)为多元线性回归模型.是随机误差项。对于一个实际问题,如果我们获得n组观测数据Xi1,Xi2,。

9、,.(i 1,2, ,n),则线性回归模型(2.1)可表示为:y101x112X12px1p1y201X212X22pX2p2(2。2)Yn01xn12xn2pxnpn写成矩阵形式为:Y X B e(2.3)其中:鲁东大学本科毕业论文yiy2yiy2yn011x111 X21X1 Xn1X12X1 pX22X2pxn2Xnp(2.4)矩阵X是一 n (p 1)矩阵,称X为回归设计矩阵或资料矩阵。在实验设计中,X的 元素是预先设定并可以控制的,人的主观因素可作用其中,因而称 X为设计矩阵。多元线性回归模型的基本假定2:为了使参数估计量具有良好的统计性质,对多元线性模型可做出若干基本假设。假设1:

10、回归模型是正确设定的。假设2:解释变量X1,X2, ,Xp是非随机的或固定的,且各Xj之间不存在严格线性 相关性(无完全多重共线性)。假设3:各解释变量Xj在所抽取的样本中具有变异性,而且随着样本容量的无限时,增加,各解释变量的样本方差趋于一个非零的有限常数,即n时,1n 21, 一、2 一Xij(XijXj ) M j假设4:随机误差项具有零。为均值“方差及不序列相关性 TOC o 1-5 h z E( i X1, X2, ,Xp)0Var( i X1, X2, ,Xp)2Cov( i, j X1,X2, ,Xp)0 i j假设5:解释变量与随机项不相关Cov(Xij, iX1,X2, ,X

11、p) 0 j 1,2, p假设6:随机项满足正态分布i X1, X2, ,Xp N(0, 2)多元线性回归模型的参数估计普通最小二乘估计所谓最小二乘法,就是寻找参数0, 1, ,的估计值7, Z, 2, , ?p满足:nQ(?0, ?1, 2, , ?p)(yii 1nQ(?0, ?1, 2, , ?p)(yii 101xi12Xi22 pxip )依!I式(2。5)求出的min0,1, ,n(yi 01Xi1i 12 Xi2(2.5)pXip )p就称为回归参数p的最小二乘 p鲁东大学本科毕业论文估计。由微积分知识可知,只需求Q关于待估参数?j(j 0,1,2, ,p)的偏导数,并令其 值为

12、零,就可得到待估参数估计值的正规方程组:(?(?0?1xi1?2乂12,p xip )y1(?02为1?2%?pXp)xi1yi。(?0?iXi?2乂12?pXp)xi2V X2(?0?1。?2为2,p xip )xipyixip(2.6)解这p 1个方程组成的线性代数方程组,即可得到p 1个待估参数的估计值?j(j0,1,2, , p) o用矩阵形式表示的正规方程组(XX)? X Y(2。7)当(X X) 1存在时,即得回归参数的最小二乘估计为:? (X X) 1XY(2。8)最大似然估计对于多元线性回归模型(2.1)式,由于iN(0, 2),所以yi N(Xi 3 2)其中X i (1xi

13、1xi2而)。X i (1xi1xi2而)。Y的随机抽取的n组样本观测值的联合概率为L(B, 2) P(y,y2, yn)1 2-2 yien(01xi12xi2(2。9)112(Y X (Y X -e2(2 )2 n这就是变量Y的似然函数.对数似然函数为L ln Lnln(这就是变量Y的似然函数.对数似然函数为L ln Lnln(T2- ) 1y(Y X 0) (Y X 0)对似然函数求极大值,即对对数似然函数求极大值,也就是对(Y X份(Y值,就可以得到一组参数估计量?,即为参数的最大似然估计? (XX) 1X Y(2.10)X B)求极小(2.11)显然,其结果与参数的普通最小二乘估计是

14、相同的。多元线性回归模型的显著性检验拟合优度检验2:在一元线性回归模型中,使用可决系数R2来衡量样本回归线对样本观测值的拟合优度。在多元线性回归模型中,也可用该统计量来衡量样本回归线对样本观测值的拟合 优度。记:鲁东大学本科毕业论文2总离差平万和:SST(yi y)回归平方和:SSE(yi y)2残差平方和:SSR(yi ?i)2则2 SST(yi y)12)G (2.13)(2。14)(2.15)(yi ?i) (?12)G (2.13)(2。14)(2.15)(yi ?)2 2 (yi ?)(?i y)(?i y)2由于(yi 汨(q y)ei(?i y)? 八??o eii ei xii

15、p ei xpi y0所以有SST (yi yi)2(y?i y)2 SSR SSE因此在多元线性回归中,定义可决系数为: r2 SSR 1 SSE SST SST样本可决系数R2的取值在0,1区间内,R2越接近1,表明回归拟合的效果越好; R2越接近0,表明回归拟合的效果越差。在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大。这是因为残差平方和往往随着解释变量个数的增加而减少,至少不会增加。但是,现实情况往往是, 由增加解释变量个数引起的R2的增大与拟合好坏无关,因此在多元回归模型之间比较 拟合优度,R2就不是一个合适的指标,必须加以调整.在样本容量一定的情况下,增加解释变量必定

16、是的自由度减少,所以调整的思路 是将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响.记R2为调整的可决系数,则有(2.16)R2 1 SSR/(n p 1) SST/( n 1)(2.16)在实际应用中,R2达到多大才算模型通过了检验?没有绝对的标准,要看具体情况而定,模型的拟合优度并不是判断模型质量的唯一标准。F检验对多元线性回归方程的显著性 F检验就是要检验模型自变量X1,X2, ,xp从整体上 对随机变量y是否有明显影响。为此提出原假设Ho: 1鲁东大学本科毕业论文如果H。没有被拒绝,则表明随机变量 y与xx2, ,xp之间的关系由线性回归模型表示 不合适。

17、为了建立对Ho进行检验的F统计量,仍然利用总离差平方和的分解式,即SST SSR SSE构造F检验统计量如下:l SSR/ pF (2。1SSE/(n p 1)在正态假设下,当原假设Ho : 12 P 0成立时,F遵从自由度为(p,n p 1)的F分布。于是,可以利用F统计量对回归方程的总体进行显著性检验检验。回归系数的显著性检验在多元线性回归中,回归方程显著并不意味着每个自变量对 y的影响都显著,因此就需要我们对每个自变量进行显著性检验。 显然,如果某个自变量Xi对y的作用不显著, 那么在回归模型中,它的系数 j就取值为零。为此提出原假设Hoj: j 0 j 1.2, ,p如果不拒绝原假设H

18、j,则xi不显著;如果拒绝原假设Hj,则X是显著的. 因为?N(P,o2(XX) 1) 记(XX)1 (Cij), i,j 0,1,2, ,p 于是有var( ?j)Cjj22var( ?j)Cjj22) j 0,1,2, ,p?j N( jj 据此可以构造t统计量(2。18). c(2。18). cjj其中? vSSE;(n p 1)是回归标准差.当原假设Hj : j0成立时,式(2.18)构造的t统计量遵从自由度为n p 1的t分布。给定显著性水平,查出双侧检验的临界值 匕2.当1 t:2时拒绝原假设H0j : j 0,认为j显著不为零,自变量片对因变量y的线性效果显著;tj t;2时,

19、不拒绝原假设Hj: j 0,认为j为零,自变量xj对因变量y的线性效果不显著。 2.4多元线性回归模型的预测对于模型Y? x?如果给定样本以外的解释变量的观测值 X。(1,%1,%2, ,%p),可以得到被解释变量的 预测值:鲁东大学本科毕业论文y?0 x0?但严格地说,这只是被解释变量的预测值的估计值,而不是预测值。为了进行科 学预测,还需求出预测值的置信区问由参数估计量性质容易证明S?0 N(XoB,X0(XX) 1Xo)取随机干扰项的样本估计量?2,构造t统计量:(2.19)?0 E(y0) 1t(n p 1)(2.19)? (Xo(X X) Xo)于是,得到1的置信水平下E(yo)的置

20、信区问:(?o t_ ?f(Xo(XX) 1Xo), ?o t_ ?T(Xo(X X) 1Xo)(2.20)22其中,t理为1的置信水平下的临界值。3应用实例13.1数据的准备中国统计年鉴把财政支出划分为 31个组成部分。本文只选取2005年我国31 个省、市、自治区的地区生产总值和13个重要支出项,分别是:x1为基本建设支出,x2 为企业挖潜改造资金,X3为科技三项费用,X4为农业支出,X5为农林水利气象等部门事 业费,X6为工业交通部门事业费,X7为流动部门事业费,X8为教育事业费,X9为科学事 业费,X10为卫生经费,X11为行政管理费,X12为公检法司支出,X13为城市维护费。y为 地

21、区生产总值。(数据单位为:万元) 3.2模型的建立及求解3.2.1模型的建立将13个重要支出项设为自变量,用X1,X2, Xp(p 1, ,13)表示;将地区生产总 值y设为因变量。采用最小二乘法拟合一个多元线性回归模型,采用数学软件 SRSS计 算出回归系数,运行结果如下表:表3。1回归系数表模型非标准化系数标准系数tSig.标准误差试用版(常量) 4182809.8925604506。 176-0.746Oo 4661Xi-25.77010。031 0.3302.569Oo O2O1X226。 68117。3270.2081.540Oo 142X3-6.03261。820-0.0120.0

22、98O.9237鲁东大学本科毕业论文乂495.59853。 292 0.2811。 7940o 091x5-43。76787。 974 0.077-0o 4980o 625x11.59074.3190.0140O 1560o 878为-188.668272。 581-0.0440o 6920o 498x850。 63914.0420.6823.6060o 002乂9-62.117187。 183-0.0500.3320o 744x1081。36043.526-0.3001。 8690.079xii46。 11123.1950.4171。9880o 063x1255.69639.1620o 45

23、61.4220o 173x1340。 95314。 6480O 2722。7960.012因而y对13个自变量的线性回归方程为?4182809.892 25.770X1 26.681x2 6.032x3 95.598x4 43.767x511.590X6 188.668x7 50.639x8 62.117x9 81.360。46.111xn(3。1)55.696x1240.953x133.2.2 模型的检验首先,对模型(3.1)进行拟合优度的检验,采用数学软件SRSS计算样本可决系数R2和调整后的样本可决系数 R2,运行结果如下表表3.2模型汇总模型RR2R2标准估计的误差10.992a0o

24、9850O 9738933132.933由表3。2可知,模型(3。1)拟合效果很好然后,对模型(3。1)进行显著性F检验,提出原假设:H0: 12 p 0采用数学软件SRSS计算出的方差分析表如下表表3.3方差分析表模型平方和dfFSig。回归8.780E16136。 754E1584。 6340.000a1残差1。 357E15177.980E13总计8.916E1630表3。3中的Sig.即为显著性P值,由P值=0。000 (近似值),0.05, P值小于 0.05,所以,拒绝原假设H0,认为在显著性水平0.05的条件下,因变量y对自变量x1,x2, xp(p 1, ,13)有显著的线性关

25、系,即回归方程(3。1)是显著鲁东大学本科毕业论文最后,对模型(3.1)进行回归系数的显著性检验,提出原假设Hj : j 0其中j 1,2, ,13。利用SPSS计算出关于j的t统计量tj(j 1,2, ,13)及相应的P值,见表 3。1。由表我们可以发现并不是所有的Xj单独对因变量y都有显著影响。这说明尽管回 归方程通过了显著性检验,但也会出现某些单个变量Xj对y并不显著的情况。由于某些变量不显著,因此本文采取后退法网简单的剔除多余变量,由于变量问的交互作用,不能一次性剔除所有不显著的变量,所以进行依次剔除,首先剔除P值最大的一个变量,然后再进回归系数的显著性检验,如果有不显著的变量,那么再

26、进行剔除,依次下去,知道保留的变量都对 y有显著性影响为止。根据表3.1,我们首先剔除X3,用剩余变量与y进行回归系数的显著性检验,SPSS 运行结果如下表表3。4回归系数表模型非标准化系数标准系数 试用版 0.32700 209t-00 7752。6841。600Sig.0.4480o 0150.127-4215343。17925.56026。 836标准误差5438475.6069.52416.773(常量)X1X2X495。36351。 752 0.2801。 8430o 082X546。25681.846 0.081-0.5650.579X7。89362.1520.00900 1270

27、o 9001X7 179。965250。 38400 042-00 7190.482X850.83313。 51200 6853。7620o 001X964。500180o 403-0.052-0.35800 725X10-79.83539.49100 2952.0220.058X1146.34722。 4240.4192.0670o 053X1254。 07134。 4520.4431。5690.134X1340。 44113。 29400 2693.0420o 007由结果看,剔除X3后,剩余变量的显著性都发生了变化,仍然有部分变量不显著,所以继续进行剔除(由于剔除过程比较繁琐,在此不一一

28、列出,只列出最终保留的变量)(最终保留的变量为X1,X2,X4,X8, X10,X11,X12,X13 .将剩余变量与y做回归分析,SPSS运行结果如下表表3。5回归系数表模型非标准化系数标准系数tSig.9鲁东大学本科毕业论文标准误差试用版1(常量)-3731367.9704548805.7530O 8200.421X26.8977。500 0.344-3。 5860.002x228.26611。 7940.2202。3970o 025 101。28634。 597-0.297-2。9280.008x49.46511.9240o 6664.1480.000 x1073.62522.272 0

29、.2723。3060.003x1149。 57517.0390.4482。9090.008x1232.63715。 6760o 2672。0820o 049x1345。 4999。1320.3024.9820.000由表3。5建立新的多元线性回归模型(3.2)?3731367.970 26.897x1 28.266x2 101.286x4 49.465x8(3.2)73.625x10 49.575x11 32.637x12 45.499x13应用SPSS软件计算样本可决系数R2和调整后的样本可决系数R2,如下表表3.6模型汇总模型RR2R2标准估计的误差10.992a0.9840o 97880

30、33883 479由表3。5可知,模型(3.2)拟合效果很好然后,对模型(3。2)进行显著性F检验,采用数学软件SRSS计算出的方差分 析表如下表表3.7方差分析表模型平方和8。 774E16df81.097E16F169.919Sig.0.000a回归1残差1。 420E15226。 454E13总计8。 916E1630由P值=0。000 (近似值),0.05, P值小于0.05,所以,在显著性水平0.05的条件下,回归方程(3.2)是显著的。经过以上算法步骤,新建立的模型(3.2)通过了显著性检验,因此.模型(3.2) 为最终确定的模型。3.2.3 模型的预测根据2007年的中国统计年鉴

31、记载的 2006年各地财政支出,本文选取基本建10鲁东大学本科毕业论文设支出、企业挖潜改造资金、农业支出、教育事业费、卫生经费、行政管理费、公检法 司支出、城市维护费8个支出项的数据对2006年的生产总值进行预测。应用数学软件 Matlab进行运算,结果如下表表3。7 2006年生产总值预测区间单位:万元地区上限下限地区上限下限北京5436799281136991湖北6262516180174459天津3307721451240288湖南5300059870996574河北84934118100376200广东206995770239603322山西4539958255058702广西4273

32、154951852491内家占2948567044062937海南41089613041281辽宁6883394091533570重庆3132456445667699吉林2684906837322150四川5607265281252972黑龙江5104923661100438贵州3429419643198582上海77033579109817842云南2794646947878550江苏169479431194980895西藏 98640453265983浙江129359173147898948陕西4269715752939843安徽5097674661954404甘肃195487682972

33、1201福建4451188258752981青海-80041493995799江西3501973947205103宁夏 93809702464400山东167368967191219444新疆1138847725585111河南905764511111933574结论将2007年中国统计年鉴中记载的2006年生产总值(附录三)与我们利用模型 (3.2)预测得到的2006年生产总值(表3。7)进行比较,我们发现:2006年生产总值 的实际值包含在我们对2006年生产总值的预区间内,因此,我们建立的模型是比较合适 的.在实际应用中,线性回归模型是不可以随便应用的,当我们研究问题时要考虑,各个 因素

34、指标是否符线性回归模型;是否符合模型的基本假设.在此前提下进行线性回归模 型分析,最重要的环节就是模型的建立,以及模型的检验.当我们建立的模型没有通过检 验时,就要重新筛选变量,建立新的线性回归模型,然后再进行检验,如果不通过,则 循环以上步骤。知道我们建立合适的模型为止。只有建立合适的模型,才能解决我们最初的问题。11鲁东大学本科毕业论文参考文献1何晓群。现代统计分析方法与应用(第二版)M。北京:中国人民大学出版社,2007.107:138.2李子奈。计量经济学(第三版)M.北京:高等教育出版社,2010.62:81.3谢宇。回归分析M.北京:社会科学文献出版社,2010.95 : 110.

35、4司守奎.数学建模算法与应用M。北京:国防工业出版社,2011。382:388.5林彬.多元线性回归分析及其应用J中国科技信息,2010 (9): 60-61.附录附录一单位:万元地 区生产总值基本建 设企业挖 潜改造 资金科技三项 费用农业支 出农林水利 气象等部 门事业费工业交 通部门 事业费北京68863100844269443307960942764016357673253天津36976200P73232329119810855087498P 2842719120 河北1009611007358462113207404432269392937156451山西41795200505365

36、16551436072284106789799872内家占389555001110681629127443463242095P 7540372843 1辽宁800901001268402377461233698434798129528235629吉林36202700F50490821727645681213980P 4222480881 1黑龙江551150006039163222738340029546569143105351上海9154180036920602370026291142460788856073701江苏183056600P1537082633343271295662191P

37、272520192629浙江134378500924118572882340822578958194086242202安徽53751200641160232987376592892797509985704福建6568930048924121737583179203307P 80618110708 ;江西40567600417475162393251032683306950497737山东185168700704835573010194199641754163582168799河南105874200M083689293900922753537951湖北652014004

38、520241244747931232229393080105162湖南651134007497891688948157040277189791125274广东2236654002644339265978526901451444P5231792059981广西40757500699528143801363622315459249851795海南89457001748814969749757985:372688399 重庆3070490073344697882489591303183081630032四川73851100114225924087871804416192108429181229贵州1

39、97906004122855017133615245928P 7424470315云南3472890087831614104557536336445127945103670西藏251210056399532924437599041281242847陕西367566005805879616543788217540P 79430133808甘肃193398004527234530823136136613540144095512鲁东大学本科毕业论文青海5433200265122137118249626511496618768宁夏6061000P384608334401265865865P 16574

40、19490 :新疆2604190083236336703356991905494107248656附录二单位:万元地 区流通部 门事业 费教育事业 费科学事业 费卫生经 费行政管理 费公检法司 支出城市维护 费北京25881458723157439656229691634843905527159天津25467203427989F189803259918P 318590520168 1河北16204170537435192450870974398688198460698山西11866102091420905281735691631399587288666内家占737378664519037208768714427318539378206 1辽宁18609142195446142343526919584755499793637吉林1612874147227113F2070221451254P 358850206841黑龙江41300106572133565:280124 169

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论