多元线性回归预测模型论文_第1页
多元线性回归预测模型论文_第2页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元线性回归统计预测模型摘要:本文以多元统计分析为理论基础,在对数据进行统计分析的基础上建立多元线性回归模型并对未知量作出预测,为相关决策提供依据和参考。重点介绍了模型中参数的估计和自变量的优化选择及简单应用举例。关键词:统计学;线性回归;预测模型一引言多元线性回归统计预测模型是以统计学为理论基础建立数学模型,研究一个随机变量Y与两个或两个以上一般变量X,X,Xp之间相依关系,利用现有数据,统计并分析,研究问12题的变化规律,建立多元线性回归的统计预测模型,来预测未来的变化情况。它不仅能解决一些随机的数学问题,而且还可以通过建立适当的随机模型进而解决一些确定的数学问题,为相关决策提供依据和参考

2、。目前统计学与其他学科的相互渗透为统计学的应用开辟新的领域。并被广泛的应用在各门学科上,从物理和社会科学到人文科学,甚至被用来工业、农业、商业及政府部门。而多元线性回归是多元统计分析中的一个重要方法,被应用于众多自然科学领域的研究中。多元线性回归分析作为一种较为科学的方法,可以在获得影响因素的前提下,将定性问题定量化,确定各因素对主体问题的具体影响程度。二. 多元线性回归的基本理论多元线性回归是多元统计分析中的一个重要方法,被广泛应用于众多自然科学领域的研究中。多元线性回归分析的基本任务包括:根据因变量与多个自变量的实际观测值建立因变量对多个自变量的多元线性回归方程;检验、分析各个自变量对因自

3、变量的综合线性影响的显著性;检验、分析各个自变量对因变量的单纯线性影响的显著性,选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对因变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。由于多数的多元非线性回归问题都可以化为多元线性回归问题,所以这里仅讨论多元线性回归。许多非线性回归和多项式回归都可以化为多元线性回归来解决,因而多元线性回归分析有着广泛的应用。2.1 多元线性回归模型的一般形式设随机变量y与一般变量x,x,x线性回归模型为12py=0+0x+0x+.+0x+(2.1)01122pp模型中Y为被解释变量(因变量),而x,x,x是p个可以精确测量

4、并可控制的一般变12p量,称为解释变量(自变量)p=1时,(2.1)式即为一元线性回归模型,p大于2时,(2.1)式称为多兀线性回归模型。因变量Y由两部分决定:一部分是误差项随机变量,另一部分是p个自变量的线性函数0+0x+0x+.+0x。其中,卩,卩,卩,卩是p+1个未知参数,卩门01122pp012p0称为回归常数,0,0,0称为偏回归系数,它们决定了因变量Y与自变量x,x,x的线12p12p性关系的具体形式。是随机误差,对随机误差项满足N(0,62)对一个实际问题,如果n组观察数据(x,x,i1i2(2.1)式可表示为,x;y),i=1,2,,n,则线性回归模型ipiy=0+0x+.+0

5、x+2,ni01i1pipi(2.2)y=0+0x+.+0x+10111p1p1y=0+0x+.+0x+20121p2p2yn2.3)0+0x+.+0x+01n1pnpn写成矩阵形式为(2.4)y=X0+其中1xx、r4、f0x11121p001xxx,00X=21222p=1,=11x:nix:n2:x:np丿卫p丿n(2.5)矩阵7是nx(p干1)矩阵,称X为回归设计矩阵或资料矩阵。2.2 模型的基本假设为了便于进行模型参数估计,对线性回归方程(2.3)式进行了如下假设。1. 零均值假定。即E()=0,i=1,2,ni2. 正态性假定。即N(0,o2),i=1,2;,n3同方差和无自相关假

6、定。即E(8)=i,j以j=1,2,,n)4.无序列相关假定(随机项与解释变量不相关)。即,pCov(X,8)=0,j二1,2,jii5.无多重共线性假定。解释变量xi,xp是确定性变量,不是随机变量且rank(X)满足rank(X)=p+10的不可观测的随机变量,称为误差项,并通常假定N(0Q2)。对于n(nP)次独立观测,得到n组数据(样本):y=p+px+.+px+810111m-11m-1y=p+px+.+px+820121m-12m-1y=p+px+:.+pX+8n01n1m-1nm-112n是相互独立的,且服从8N(0Q2)分布。3.2)其中8,8,.,8l2令Y=ry1y2,X=

7、y丿n111x11x21Xninnxlx12x22x:nm-1nxmrp(8)00p8p=1,8=1丿mxlxlm-1X2m-1nnxl则(3.1)式用矩阵形式表示为:(3.3)厂Y二X卩+88NCel)n3.2模型参数的估计回归理论模型确定后利用收集、整理的样本数据对模型的未知参数给出估计。未知参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。对于不满足模型基本假设的回归问题,人们给出了一些新的方法,如岭回归、主成分回归、偏最小二乘估计等。但是它们都是以普通最小二乘法为基础。但参数变量较多时,计算量很大,一般采用计算机软件,如TSP、SPSS、SAS等。设p,pp分别是参数卩,卩,

8、卩卩的最小二乘估计,则y的观测值可表示为:01m1012m-1yk=p+px+.+px+e(3.4)01k1m1km-1ke=yykkk其中k=1,2,,N。e是误差8的估计值又令y为y的估计值,有:kkkky=p+px+.+px(3.5)k01k1m1km-1(3.5)式为观测值yk(k=1,2,n)的回归拟合值,简称回归值或拟合值。相应的,称向量y=x卩=y1,yA2,y;J为因变量向量y=(y1,歹2,y“)T的回归值。根据最小二乘法p,p,p,.,p应使得全部观测值y与回归值y的偏差平方和Q达到012m-1kk最小。Q是未知参数向量的非负二次函数,Q反映了在n次观察中总的误差程度,Q越

9、小越好。即:k-1rAIy-p+pAx+.+Axkk01k1m1km-1丿23.6)有最小值。由于口是卩,卩,卩,.,卩的非负二次式,最小值一定存在。根据数学分析的极值012m-1原理卩,卩01卩,,卩应满足下述方程组:2m-1aQ=-2另y”a卩0aQxk1(3.7)xkm-1称为正规方程组.将yAk=P+Px+.+Px式代人(3.7)式整理得:01k1m1km-1XNxk1丿K=1N卩+|Xx0k1丿K=1b+巴km-1丿IPAm-1K=1xxk1K=1K=1出+xxk1k2K=1kK=1I卩二为Xy(3.8)k1kK=1K=1km丿b+Qx0K=1Xkmk1丿K=1Xkmk2丿xK=1k

10、m-1K=1xykmk显然正规方程组的系数矩阵是对称矩阵。令X=x11xN1Y=ryI1y2pA0x:Nm-1则(3.8)式可以写为矩阵形式的方程(xtX)(a=XtY或A介=B假设系数矩阵A满秩,求解上述矩阵方程得回归系数B的最小二乘法估计为:3.9)0=(XtX)-1XtY即为回归系数B的最小二乘法估计。3.3 模型检验当模型的未知参数估计出来后,初步建立了一个回归模型,但是这个模型是否真正揭示了被解释变量和解释变量之间的关系,在根据因变量与多个自变量的实际观测数据建立多元线性回归方程之前,因变量与多个自变量间的线性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性回归

11、方程之后,还必须对因变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。331回归方程的拟合优度检验拟合优度一般用于检验样本回归直线对观测值得拟合度。在一元线性回归方程中,用判定系数R2衡量估计方程对样本对观测值的拟合程度;在多元线性回归方程中,同样也可以。即SST二SSR+SSE,其中SST=(y-亍)为总离差平方和,SSR二工y-y?为回归平方和,它是反映回匚匸i1丿归效果的参数,SSE二工y-yY为残差平方和。式中:y.为第i个样本点(Xx2x)上的_匸I丿1卩回归值。式中:孑为y的样本平均值。判定系数R2指因

12、变量y的总变差中能由自由变量所解释的那部分变差的比重,即数学模型为R2二-SE(3.11)EETR2的值越接近于1,表明回归方程对实际观测值的拟合度效果越好,相反R2越接近0,拟合效果越差。3.4.2回归方程的整体显著性检验在一元线性回归中,回归系数显著性检验t检验与回归方程显著性检验的F检验是等价的,但是在多元线性回归中,就不等价了。F检验显著是说明对自变量x整体的线性回归效果显著的,但不等于y对于每一个自变量x的效果都显著;反之也不成立。34.3回归系数的显著性检验在多元线性回归中,回归方程显著并不意味着每个自变量对因变量y的影响都是显著的,因此需要对每个回归系数进行显著性检验。假设Ho:

13、卩广0Hi:卩j丰0,检验统计量t为312)在回归效果差的情况下,根据t.大小采用后退法依次剔除t.对应的不显著自变量,用剩余的显著因素进行最后一次回归。3.5残差分析一个估计回归方程可能有较高的判定系数,也可能通过显著性检验,但是并不能说就是一个好模型,因为这些都是建立在模型假设基础上的,如果最初模型假设不真实,就要用残差分析验证。DW检验的基本思想:如果存在正相关,那么残差的相邻值彼此之间应当比较接近,分子项就会较小,进而DW值也会比较小;如果存在负相关,就相反。检验统计量DW的表达式为工e2数学上推导出DW取值0,4,其中t代表了时间,残差是按照时间顺序收集的。四. 多元线性回归统计预测

14、模型的应用4.1预测模型计算参数变量较多时,计算量很大,一般采用计算机软件,如TSP、SPSS、SAS等。其预测模型的计算步骤如下:第1步数据输入。在SPSS的数据编辑窗口中输入表1中的数据,如果是已编辑好的数据,可以直接将数据粘贴到SPSS数据编辑窗口。第2步确定分析方法。在“Analyze菜单“Regression(回归分析)中选择Linear(线性)命令,进入弹出的“LinearRegression(线性回归)对话框,从对话框左侧的变量列表中点击标记变量y,然后,单击“Dependent”(因变量)框左边的按钮,将变量y添加到因变量框中;同样的方法,将自变量添加到“Independent

15、(自变量)框中。(1) 设定多元线性回归分析自变量的筛选方法。(2) 设置变量筛选的条件。(3) 确定作图的标志变量(4) 加权最小二乘法。(5) 选择输出项。(6) 分析结果的保存设置(7) 自变量筛选参数及剔除变量的处理设定。第3步完成回归分析。完成上述过程后,单击“OK”按钮,即可得到SPSS的多元回归预测结果。42案例一为了预测某油区今后的产量变化,通过结合现场实际情况进行了深入分析研究,选取了7个影响产量变化的因素:总油井数x、油井开井数x、上年产油量x、上年产水量x、上12344.1所示。年采油速率x、上年采出程度x作为自变量x(i=1,2,6),年产油量作为因变量y,见表56i表

16、4.1某油田年产量影响因素基础数据年份总井数开井数上年含水上年产油量上年产水上年采油速率上年采出程度产量19450.565474461136.7229.442.017.23858.7025198587.766687166535.6548.7025311.55991.877.0541987103177938.4587.7664355.26371.688.49580.811219881238101439.4580.81123781.779.61534.013219891549124941.8534.0132443.8851.459.07611.0719901900154142.33611.0753

17、1.551.539.54760.0119912326181342.93760.01644.851.69.49900.4219922798220146.21900.42776.361.5510.251001.0043199887.441135.633450273945.81001.0043231.499.35511994393630147.81135.6511021.439.081258.347.4552527194641356949.31258.35271173.1.319.311339596255.0502199515038352.151335.05021444.001.3710.13136

18、0.2068920619975750443755.461360.20061691.82411.2610.881370.1021991925.72136455479459.831370.1021.1811.5482385.069719997189534860.871385.06972165.25231.1112.071390.088620008411648563.391390.08862306.37851.1112.961495.120220980731963.121495.12022551.791.213.571547.190184222210852741.1181513.8420022811

19、364.791547.192241.214.764200312329919367.451513.84243071.00211.0714.591495.0469200413260894868.891495.0463261.0114.881452.0896.83081220051939070.121452.08123219.80.9515.414339085540.347420014972971.881430.34743520.8815.821441.5066974.79295320071541009871.881441.50533750.9116.461418.8105.559272511038

20、11376.558200872.951418.87250.8317.2256565736.608352001093694.441361.871587372.831376.55850.8317.749281635注:1984年的产油量为450.56X10观/a根据图表4.1建立预测模型,即19852006年数据用于确定模型参数,余下3组数据作为检验数据以验证模型的可靠性和实用性。表4.2输入移出的变量模型输入的变量移去的变量方法1上年采出程度(%),上年产油量(104t),上年采油速率(),总井数(口),上年含水(),开井数(口),上年产水(104t)a输入从表4.2中我们可以看出,所有7个自变

21、量进入模型,说明我们的解释变量都有显著并且是有解释力的。表4.3模型汇总模型RR方调整R方标准估计的误差DurbinWatson1994a.988.9825040558181.371图4.3给出了模型整体拟合效果的概述,模型的拟合优度系数为0.994,反应了因变量与自变量之间具有高度显著的线性关系。表4.4方差分析表方差表,的设验F模型平方和df均方FSig.1回归2906128.1337415161.162163.403.000a残差35570.117142540.723总计2941698.25121分析模型定检统计量的值为163.403,显著性水平的值P值几乎为零,说明因变量与自变量的线性

22、关系明显。表4.5回归系数表设元性归程为模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-497.348651.118-.764.458总井数(口).014.042.171.327.749开井数(口).087.061.7421.436.173上年含水(%)28.30114.034.9072.017.063上年产油量(104t).858.116.9077.407.000上年产水(104t)-.492.194一1.464-2.529.024上年采油速率(%)-7.112147.971-006-.048.962上年采出程度()43.23022.947-.312-1.884.081多线回方

23、式y=B+Bx+Bx+Bx+Bx+Bx+Bx+Bx011223344556677求得,其回归系数卩0卩7分别为:-497.348、0.14、0.87、28.301、0.858、-0.492、-7.112、-43.230。其统计量为:q=35570、u=2906128、F=163.403、r=0.994。自变量x1x的t计量分别为:0.327、1.436、2.017、7.407、一2.529、一0.048、-1.887j4。给出了回归系数表和变量显著性检测的T值,发现变量x6(上年采油速率)的T值太小,没有达到显著性水平,因此将这个变量剔除。筛选后回归方程为:y=B+Bx+Bx+Bx+Bx+Bx

24、+Bx0112233445577再次回归计算,得到回归系数卩卩5,卩7分别为:-525.1694、0.0146,0.0865.28.7433、0.8583、-0.4956、-43.3142。其统计量为:q=35576、u=2906100、F=204.2194、r=0.9939。自变量x1x5,x7的t.值统计量分别为:0.3855、1.4191、2.2721、157j3.4601、2.3309、1.7484。根据得到的各个影响因素的t值统计量再次进行筛选,应剔除自变量“(总油井数)。第二次筛选后回归方程为:y=B+Bx+Bx+Bx+Bx+Bx02233445577回归系数卩。卩2卩5卩7分别为

25、:-486.8500、0.1018、27.9827、0.8394、-0.4630、-44.0693。其统计量为:q=35932、u=2905800、F=258.7794、r=0.9939。自变量兀x5x7的t值统计量分别为:2.1695、2.3264、3.6279、2.5104、1.8291。15,7j最终得到的显著自变量是油井开井数、上年含水率、上年产油量、上年产水量、上年采出程度。由此建立的预测模型为:y=486.85+0.1018x+27.9827x+0.8394x-0.463x-44.0693x23457式中:y为产油量;x2为油井开井数;x3为上年含水率;x4为上年产油量;x5为上年

26、产水量;x7为上年采出程度。表4.6多元回归预测结果年份实际产油量(104t/a)多元线性回归拟合预测值(104t/a)相对误差()19971370.1021395.71.8719981385.06971425.22.9019991390.08861389.00.0820001495.12021475.01.3520011547.19221500.03.0520021513.84241531.11.1420031495.04691542.33.1620041452.08121438.40.9420051430.34741480.63.5120061441.50531386.43.82平均相对误

27、差()3.6020071418.87251298.38.5020081376.55851295.85.8720091361.87351340.01.61平均相对误差()5.33数据分析得到结果,平均相对误差为5.33%,所以预测得到的预测结果基本上都能满足油藏工程的要求。4.3案例二我国民航客运量(万人)受到x1国民收入(亿元)、x2消费额(亿元)、x3铁路客运量(万人)、x4民航航线里程(万公里)、x5来华旅游入境人数(万人)这些因素的影响,根据16年的统计数据(见表4.7)。表4.7民航客运量年份顺序yxiX2X3X4X5第1年231301018888149114.89180.92第2年2

28、98335021958638916420.39第3年343368825319220419.53570.25第4年401394127999530021.82776.71第5年445425830549992223.27792.43第6年3914736335810600422.91947.7第7年5545652390511035326.021285.2第8年7447020487911211027.721783.3第9年9977859555210857932.432282第10年13109313638611242938.912690.2第11年144211738803812264537.383169.

29、5第12年128313176900511380747.192450.1第13年16601438496639571250.682746.2第14年217816557109699508155.913335.7第15年288620223129859969383.663311.5第16年3383248821594910545896.084152.7通过模型汇总,显示了回归方程的拟合情况。表48模型汇总表模型RR方调整R方标准估计的误差DurbinWatson1.999a.998.99749.4801.994图4.8可见模型的负相关系数为0.999,判定系数0.998调整后的判定系数为0.997,模型拟

30、合效果较好;DW值为1.994,接近于2,可认为模型不存在自相关。表4.9方差分析表模型平方和df均方FSig.1回归1.382E752763777.7791128.862.000a残差24482.857102448.286总计1.384E715给出了参与回归分析的6方差分析结果及检验结果,回归方程的F值为1128.619,p值为0.000,可见方程整体而言是显著的。表4.10系数模型非标准化系数标准系数tSig.B标准误差试用版1(常量)451.155178.0942.533.030X1.354.0852.4474.154.002X2.562.125-2.4854.480.001X3-.00

31、7.002-.083-3.511.006X421.5784.029.5315.356.000X5.435.052.5648.443.000表4.10给出了回归方程的非标准化估计系数、标准化估计系数值、系数的统计显著性检验结果以及方差膨胀因子。因为估计方程的常数项和各变量系数对应的P值都小于0.05,因此均具有统计显著性。但是变量x的方差膨胀因子VIF都大于10,因此存在显著的共线性。选取最大的方差膨胀因子的变量为多余变量,依次剔除变量x1和x2,最终将x3、x4和x5纳入回归方程,重复运算方差系数、系数检验表。表4.11残差统计量极小值极大值均值标准偏差N预测值264.963417.041159.13959.82316标准预测值-.9322.352.0001.00016预测值的标准误差19.56338.79429.5686.83816调整的预测值293.793467.381160.38960.29916残差-50.23479.844.00040.40016标准残差-1.0151.614.000.81616已删除的残差-87.753140.033-1.25176.68016Cook的距离.001.821.183.21916最后得出剔除后的残差统计表4.11,可见残差符合基本假设,因此模型设定是有效的。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论