多元线性回归预测模型论文.doc_第1页
多元线性回归预测模型论文.doc_第2页
多元线性回归预测模型论文.doc_第3页
多元线性回归预测模型论文.doc_第4页
多元线性回归预测模型论文.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

装订线伊犁师范学院数学与统计学院 2012届本科毕业论文多元线性回归统计预测模型摘要:本文以多元统计分析为理论基础,在对数据进行统计分析的基础上建立多元线性回归模型并对未知量作出预测,为相关决策提供依据和参考。重点介绍了模型中参数的估计和自变量的优化选择及简单应用举例。关键词:统计学;线性回归;预测模型一引言多元线性回归统计预测模型是以统计学为理论基础建立数学模型,研究一个随机变量Y与两个或两个以上一般变量X1,X2,Xp之间相依关系,利用现有数据,统计并分析,研究问题的变化规律,建立多元线性回归的统计预测模型,来预测未来的变化情况。它不仅能解决一些随机的数学问题,而且还可以通过建立适当的随机模型进而解决一些确定的数学问题,为相关决策提供依据和参考。目前统计学与其他学科的相互渗透为统计学的应用开辟新的领域。并被广泛的应用在各门学科上,从物理和社会科学到人文科学,甚至被用来工业、农业、商业及政府部门。而多元线性回归是多元统计分析中的一个重要方法,被应用于众多自然科学领域的研究中。多元线性回归分析作为一种较为科学的方法,可以在获得影响因素的前提下,将定性问题定量化,确定各因素对主体问题的具体影响程度。二多元线性回归的基本理论多元线性回归是多元统计分析中的一个重要方法,被广泛应用于众多自然科学领域的研究中。多元线性回归分析的基本任务包括:根据因变量与多个自变量的实际观测值建立因变量对多个自变量的多元线性回归方程;检验、分析各个自变量对因自变量的综合线性影响的显著性;检验、分析各个自变量对因变量的单纯线性影响的显著性,选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对因变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。由于多数的多元非线性回归问题都可以化为多元线性回归问题,所以这里仅讨论多元线性回归。许多非线性回归和多项式回归都可以化为多元线性回归来解决,因而多元线性回归分析有着广泛的应用。2.1 多元线性回归模型的一般形式设随机变量y与一般变量线性回归模型为 (2.1)模型中Y为被解释变量(因变量),而是p个可以精确测量并可控制的一般变量,称为解释变量(自变量)。p=1时,(2.1)式即为一元线性回归模型,p大于2时,(2.1)式称为多元线性回归模型。因变量Y由两部分决定:一部分是误差项随机变量,另一部分是p个自变量的线性函数。其中,是p+1个未知参数,称为回归常数,称为偏回归系数,它们决定了因变量Y与自变量的线性关系的具体形式。是随机误差,对随机误差项满足对一个实际问题,如果n组观察数据(),i=1,2,n,则线性回归模型(2.1)式可表示为,i=1,2,n (2.2)即 (2.3)写成矩阵形式为 (2.4)其中, , (2.5)矩阵是n(p+1)矩阵,称为回归设计矩阵或资料矩阵。2.2 模型的基本假设为了便于进行模型参数估计,对线性回归方程(2.3)式进行了如下假设。1.零均值假定。即2.正态性假定。即3.同方差和无自相关假定。即4.无序列相关假定(随机项与解释变量不相关)。即5.无多重共线性假定。解释变量是确定性变量,不是随机变量且满足要求。表明设计矩阵的自变量列之间不相关,样本容量的个数应大于解释变量的个数,是一满秩矩阵。2.3 多元线性回归方程在多元线性回归模型基本假设的基础上,对(2.2)式两边取数学期望,可得y的期望函数为 (i=1,2,,n ) (2.6)该方程为多元线性方程为理论回归方程。方程中,参数都是未知的,因此就需要利用样本观测值法去估计他们,如果可以得到参数估计值,则得到多元线性样本回归预测方程 (2.7)(2.7)式是(2.6)的估计方程,其中是对参数的估计。有样本回归方程得到的预测值的估计值与实际观测值之间通常会存在一定的偏差,这一偏差称为残差,记为。三多元线性回归统计预测模型的建立多元线性回归分析的基本任务包括:根据因变量与多个自变量的实际观测值建立因变量对多个自变量的多元线性回归方程;检验、分析各个自变量对因自变量的综合线性影响的显著性;检验、分析各个自变量对因变量的单纯线性影响的显著性,选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对因变量影响相对重要性以及测定最优多元线性回归方程的偏离度等。研究在线形相关条件下,两个或两个以上自变量与一个因变量的数量变化关系,称为多元线形回归分析,求得的数学公式称为多元线形回归模型。多元线形回归模型是一元线形回归模型的扩展。3.1回归建模步骤流程图3.1 多元回归的预测模型设因变量y与自变量x1,x2,xm-1共有n组实际观测数据(见表3.1)。表3.1观测数据表变量y1y12y是一个可观测的随机变量,它受到m-1个非随机因素x1,x2,xm-1和随机因素的影响。若y与x1,x2,xm-1有如下线性关系 (3.1)其中y为因变量x1,x2,xm-1为自变量, 是m个未知参数;是均值为零,方差为的不可观测的随机变量,称为误差项,并通常假定。对于n(np)次独立观测,得到n组数据(样本): (3.2)其中 是相互独立的,且服从分布。 令, , 则 (3.1) 式用矩阵形式表示为: (3.3)3.2 模型参数的估计 回归理论模型确定后,利用收集、整理的样本数据对模型的未知参数给出估计。未知参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。对于不满足模型基本假设的回归问题,人们给出了一些新的方法,如岭回归、主成分回归、偏最小二乘估计等。但是它们都是以普通最小二乘法为基础。但参数变量较多时,计算量很大,一般采用计算机软件,如TSP、SPSS、SAS等。 设分别是参数的最小二乘估计,则y的观测值可表示为: (3.4)其中k=1,2,N。是误差的估计值.又令为的估计值,有: (3.5)(3.5)式为观测值的回归拟合值,简称回归值或拟合值。相应的,称向量为因变量向量的回归值。根据最小二乘法应使得全部观测值与回归值的偏差平方和Q达到最小。Q是未知参数向量的非负二次函数,Q反映了在n次观察中总的误差程度,Q越小越好。即: (3.6)有最小值。由于口是的非负二次式,最小值一定存在。根据数学分析的极值原理应满足下述方程组: (3.7)称为正规方程组.将式代人(3.7)式整理得:(3.8)显然正规方程组的系数矩阵是对称矩阵。令 则(3.8)式可以写为矩阵形式的方程或假设系数矩阵A满秩,求解上述矩阵方程得回归系数的最小二乘法估计为: (3.9)即为回归系数的最小二乘法估计。3.3 模型检验 当模型的未知参数估计出来后,初步建立了一个回归模型,但是这个模型是否真正揭示了被解释变量和解释变量之间的关系,在根据因变量与多个自变量的实际观测数据建立多元线性回归方程之前,因变量与多个自变量间的线性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性回归方程之后,还必须对因变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。3.3.1 回归方程的拟合优度检验拟合优度一般用于检验样本回归直线对观测值得拟合度。在一元线性回归方程中,用判定系数R2衡量估计方程对样本对观测值的拟合程度;在多元线性回归方程中,同样也可以。即SST=SSR+SSE,其中为总离差平方和,为回归平方和,它是反映回归效果的参数,为残差平方和。式中:为第i个样本点()上的回归值。式中:为y的样本平均值。判定系数R2指因变量y的总变差中能由自由变量所解释的那部分变差的比重,即数学模型为 (3.11)的值越接近于1,表明回归方程对实际观测值的拟合度效果越好,相反越接近0,拟合效果越差。3.4.2 回归方程的整体显著性检验在一元线性回归中,回归系数显著性检验t检验与回归方程显著性检验的F检验是等价的,但是在多元线性回归中,就不等价了。F检验显著是说明对自变量x整体的线性回归效果显著的,但不等于y对于每一个自变量x的效果都显著;反之也不成立。3.4.3 回归系数的显著性检验在多元线性回归中,回归方程显著并不意味着每个自变量对因变量y的影响都是显著的,因此需要对每个回归系数进行显著性检验。假设,检验统计量t为 (3.12)在回归效果差的情况下,根据大小采用后退法依次剔除对应的不显著自变量,用剩余的显著因素进行最后一次回归。3.5 残差分析一个估计回归方程可能有较高的判定系数,也可能通过显著性检验,但是并不能说就是一个好模型,因为这些都是建立在模型假设基础上的,如果最初模型假设不真实,就要用残差分析验证。DW检验的基本思想:如果存在正相关,那么残差的相邻值彼此之间应当比较接近,分子项就会较小,进而DW值也会比较小;如果存在负相关,就相反。检验统计量DW的表达式为 (3.13)数学上推导出DW取值0,4,其中t代表了时间,残差是按照时间顺序收集的。四多元线性回归统计预测模型的应用4.1 预测模型计算参数变量较多时,计算量很大,一般采用计算机软件,如TSP、SPSS、SAS等。其预测模型的计算步骤如下:第1步 数据输入。在SPSS的数据编辑窗口中输入表1中的数据,如果是已编辑好的数据,可以直接将数据粘贴到SPSS数据编辑窗口。第2步 确定分析方法。在“Analyze”菜单“Regression”(回归分析)中选择“Linear”(线性)命令,进入弹出的“Linear Regression”(线性回归)对话框,从对话框左侧的变量列表中点击标记变量y,然后,单击“Dependent”(因变量)框左边的按钮,将变量y添加到因变量框中;同样的方法,将自变量添加到“Independent”(自变量)框中。(1)设定多元线性回归分析自变量的筛选方法。(2)设置变量筛选的条件。(3)确定作图的标志变量 (4)加权最小二乘法。(5)选择输出项。(6)分析结果的保存设置(7)自变量筛选参数及剔除变量的处理设定。第3步 完成回归分析。完成上述过程后,单击“OK”按钮,即可得到SPSS的多元回归预测结果。4.2 案例一为了预测某油区今后的产量变化,通过结合现场实际情况进行了深入分析研究,选取了7个影响产量变化的因素:总油井数x1、油井开井数x2、上年产油量x3、上年产水量x4、上年采油速率x5、上年采出程度x6作为自变量xi(i=1,2,6),年产油量作为因变量y,见表4.1所示。年份总井数开井数上年含水上年产油量上年产水上年采油速率上年采出程度产量198574461136.7450.56229.442.017.23548.7025198687166535.6548.7025311.55991.877.05587.76641987103177938.4587.7664355.26371.688.49580.811219881238101439.4580.81123781.779.61534.013219891549124941.8534.0132443.8851.459.07611.0719901900154142.33611.07531.551.539.54760.0119912326181342.93760.01644.851.69.49900.4219922798220146.21900.42776.361.5510.251001.004319933450273945.81001.0043887.44231.499.351135.65119943936301447.81135.6511027.45521.439.081258.352719954641356949.31258.35271173.96251.319.311335.050219965150383852.151335.05021444.00921.3710.131360.200619975750443755.461360.20061691.82411.2610.881370.10219986455479459.831370.1021925.72231.1811.541385.069719997189534860.871385.06972165.25231.1112.071390.088620008411648563.391390.08862306.37851.1112.961495.120220019808731963.121495.12022551.79421.213.571547.1922200210852811364.791547.19222741.11841.214.761513.8424200312329919367.451513.84243071.00211.0714.591495.0469200413260894868.891495.04693266.83081.0114.881452.0812200513908939070.121452.08123219.85540.9515.41430.3474200614697972971.881430.34743524.79290.8815.821441.50532007154101009871.881441.50533755.55920.9116.461418.87252008156561057372.951418.87253816.60830.8317.221376.55852009158731092872.831376.55853694.44160.8317.741361.8735表4.1 某油田年产量影响因素基础数据注:1984年的产油量为450.56104t/a根据图表4.1建立预测模型,即19852006年数据用于确定模型参数,余下3组数据作为检验数据以验证模型的可靠性和实用性。 表 4.2 输入移出的变量模型输入的变量移去的变量方法1上年采出程度(), 上年产油量(104t), 上年采油速率(), 总井数(口), 上年含水(), 开井数(口), 上年产水(104t)a.输入从表4.2中我们可以看出,所有7个自变量进入模型,说明我们的解释变量都有显著并且是有解释力的。表 4.3 模型汇总模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.994a.988.98250.40558181.371图4.3给出了模型整体拟合效果的概述,模型的拟合优度系数为0.994,反应了因变量与自变量之间具有高度显著的线性关系。表 4.4 方差分析表模型平方和df均方FSig.1回归2906128.1337415161.162163.403.000a残差35570.117142540.723总计2941698.25121 方差分析表,模型的设定检验F统计量的值为163.403,显著性水平的值P值几乎为零,说明因变量与自变量的线性关系明显。表 4.5 回归系数表 模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-497.348651.118-.764.458总井数(口).014.042.171.327.749开井数(口).087.061.7421.436.173上年含水()28.30114.034.9072.017.063上年产油量(104t).858.116.9077.407.000上年产水(104t)-.492.194-1.464-2.529.024上年采油速率()-7.112147.971-.006-.048.962上年采出程度()-43.23022.947-.312-1.884.081设多元线性回归方程式为:求得,其回归系数分别为:-497.348、0.14、0.87、28.301、0.858、-0.492、-7.112、-43.230。其统计量为:q =35570、u =2906128、F =163.403、r=0.994。自变量x1x7的tj计量分别为:0.327、1.436、2.017、7.407、-2.529、-0.048、-1.884。给出了回归系数表和变量显著性检测的T值,发现变量(上年采油速率)的T值太小,没有达到显著性水平,因此将这个变量剔除。筛选后回归方程为:再次回归计算,得到回归系数分别为:-525.1694、0.0146、0.0865、28.7433、0.8583、-0.4956、-43.3142。其统计量为:q =35576、u =2906100、F =204.2194、r =0.9939。自变量,的值统计量分别为:0.3855、1.4191、2.2721、3.4601、2.3309、1.7484。根据得到的各个影响因素的t值统计量再次进行筛选,应剔除自变量(总油井数)。第二次筛选后回归方程为:回归系数分别为:-486.8500、0.1018、27.9827、0.8394、-0.4630、-44.0693。其统计量为:q =35932、u =2905800、F =258.7794、r =0.9939。自变量的值统计量分别为:2.1695、2.3264、3.6279、2.5104、1.8291。最终得到的显著自变量是油井开井数、上年含水率、上年产油量、上年产水量、上年采出程度。由此建立的预测模型为:式中:y为产油量;为油井开井数;为上年含水率;为上年产油量;为上年产水量;为上年采出程度。表 4.6 多元回归预测结果年份实际产油量(104t/a)多元线性回归拟合预测值(104t/a)相对误差()19971370.102 1395.71.8719981385.0697 1425.22.9019991390.0886 1389.00.0820001495.1202 1475.01.3520011547.1922 1500.03.0520021513.8424 1531.11.1420031495.0469 1542.33.1620041452.0812 1438.40.9420051430.3474 1480.63.5120061441.5053 1386.43.82平均相对误差(%)3.6020071418.87251298.38.5020081376.55851295.85.8720091361.87351340.01.61平均相对误差(%)5.33数据分析得到结果,平均相对误差为5.33%,所以预测得到的预测结果基本上都能满足油藏工程的要求。4.3 案例二我国民航客运量(万人)受到国民收入(亿元)、消费额(亿元)、铁路客运量(万人)、民航航线里程(万公里)、来华旅游入境人数(万人)这些因素的影响,根据16年的统计数据(见表4.7)。表 4.7 民航客运量年份顺序y第1年231301018888149114.89180.92第2年298335021958638916420.39第3年343368825319220419.53570.25第4年401394127999530021.82776.71第5年445425830549992223.27792.43第6年3914736335810600422.91947.7第7年5545652390511035326.021285.2第8年7447020487911211027.721783.3第9年9977859555210857932.432282第10年13109313638611242938.912690.2第11年144211738803812264537.383169.5第12年128313176900511380747.192450.1第13年16601438496639571250.682746.2第14年217816557109699508155.913335.7第15年288620223129859969383.663311.5第16年3383248821594910545896.084152.7通过模型汇总,显示了回归方程的拟合情况。表 4.8 模型汇总表模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.999a.998.99749.4801.994图4.8可见模型的负相关系数为0.999,判定系数0.998调整后的判定系数为0.997,模型拟合效果较好;DW值为1.994,接近于2,可认为模型不存在自相关。表 4.9 方差分析表模型平方和df均方FSig.1回归1.382E752763777.7791128.862.000a残差24482.857102448.286总计1.384E715给出了参与回归分析的6方差分析结果及检验结果,回归方程的F值为1128.619,p值为0.000,可见方程整体而言是显著的。表 4.10系数模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)451.155178.0942.533.030X1.354.0852.4474.154.002X2-.562.125-2.485-4.480.001X3-.007.002-.083-3.511.006X421.5784.029.5315.356.000X5.435.052.5648.443.000 表4.10给出了回归方程的非标准化估计系数、标准化估计系数值、系数的统计显著性检验结果以及方差膨胀因子。因为估计方程的常数项和各变量系数对应的p值都小于0.05,因此均具有统计显著性。但是变量x的方差膨胀因子VIF都大于10,因此存在显著的共线性。选取最大的方差膨胀因子的变量为多余变量,依次剔除变量和,最终将、和纳入回归方程,重复运算方差系数、系数检验表。表 4.11 残差统计量极小值极大值均值标准 偏差N预测值264.963417.041159.13959.82316标准 预测值-.9322.352.0001.00016预测值的标准误差19.56338.79429.5686.83816调整的预测值293.793467.381160.38960.29916残差-50.23479.844.00040.40016标准 残差-1.0151.614.000.81616已删除的残差-87.753140.033-1.25176.68016Cook 的距离.001.821.183.21916最后得出剔除后的残差统计表4.11,可见残差符合基本假设,因此模型设定是有效的。有以上分析结果可得我国民航客运量的回归模型,根据回归模型可知,客运量的影响因素,固定其他因素,铁路客运量没增加1万人,民航客运量就减少0.01万人;民航历程每增加1万公里,民航客

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论