统计学课件第9章相关与回归分析配套讲义_第1页
统计学课件第9章相关与回归分析配套讲义_第2页
统计学课件第9章相关与回归分析配套讲义_第3页
统计学课件第9章相关与回归分析配套讲义_第4页
统计学课件第9章相关与回归分析配套讲义_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/2/31第九章相关与回归分析第一节相关与回归分析的基本概念第二节简单线性相关分析第三节一元线性回归分析第四节一元线性回归模型预测第五节多元线性回归第六节多元线性回归中自变量的选择第七节非线性回归分析第八节定性自变量的回归第一节相关与回归分析的基本概念2023/2/32第九章相关与回归分析一、函数关系与相关关系客观现象总是普遍联系和相互依存的。而客观现象之间的数量关系存在着两种不同的类型:函数关系和相关关系。函数关系是指当一个或几个变量取一定的值时,另一个变量有确定值与之相对应的关系。在经济管理中变量间存在的更为普遍的一种关系是相关关系,相关关系是指当一个或几个相互联系的变量取一定数值时,与之相对应的另一个变量的值虽然不确定,但它仍按某种规律在一定的范围内变化的关系。相关关系也称为统计关系。2023/2/33二、相关关系的种类(一)按相关的程度可分为完全相关、不完全相关和不相关。(二)按相关的数量变化方向可分为正相关和负相关。(三)按相关的数学关系式中变量次数的不同可分为线性相关和非线性相关。(四)按所研究的变量多少可分为单相关、复相关和偏相关。

2023/2/34三、相关分析与回归分析相关分析和回归分析是研究现象之间相关关系的两种基本方法。相关分析是研究现象间是否有相互依存关系以及依存关系的密切程度的方法。回归分析是根据相关关系的具体形态,即选择一个合适的数学模型,来近似地表达变量间的平均变化关系。回归分析能给出变量之间相互关系的具体数学表达式的形式,根据这个数学关系式可以从已知量来推测未知量。因此,相关分析不能实现变量间数量的互相推算,而且也不必区分哪个变量是自变量,哪个变量是因变量,其所涉及的变量可以都是随机变量。而回归分析中自变量和因变量是要区分的,并且一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机的可控变量。2023/2/35四、相关图

2023/2/36a)正相关b)复相关c)不相关图9-1现象间三种关系第二节简单线性相关分析2023/2/37第九章相关与回归分析一、相关系数的定义单相关分析是对两个变量之间的线性相关程度进行分析。单相关分析所采用的尺度为单相关系数,简称相关系数。总体的相关系数:

样本的相关系数:上式的代数等价式为2023/2/38二、相关系数的特点样本相关系数有以下特点:(一)r的取值介于-1与1之间。(二)当r=0时,表明样本观测值x与y之间没有线性关系。(三)在大多数情况下,,即x与y的之间存在着一定的线性关系:当r>0时,x与y为正相关;当r<0时,x与y为负相关。(四)如果,则表明x与y完全线性相关;当r=1时,称为完全正相关;而r=-1时,称为完全负相关。(五)r是对变量之间线性相关关系的度量。

2023/2/39二、相关系数的特点【例9-1】表9-1是1993-2012年我国国内生产总值(现价)和发电量的有关资料,试利用表中的数据计算我国年底国内生产总值和发电量的样本相关系数。(数据见下一页)

解:将表9-1中的有关数据代入公式,可得2023/2/3102023/2/311年份国内生产总值(千亿元)发电量(千亿千瓦小时)199335.3348.3951248.48670.476296.628199448.1989.2812323.03386.137447.324199560.79410.0703695.878101.411612.211199671.17710.8135066.107116.923769.640199778.97311.3566236.740128.948896.781199884.40211.6707123.745136.189984.975199989.67712.3938041.974153.5861111.368200099.21513.5569843.528183.7651344.9522001109.65514.80812024.256219.2771623.7762002120.33316.54014479.956273.5721990.3032003135.82319.10618447.821365.0302594.9962004159.87822.03325561.083485.4573522.6142005184.93725.00334201.830625.1304623.9152006216.31428.65746791.931821.2396198.9792007265.81032.81670655.1191076.8598722.7062008314.04534.95898624.5291222.03410978.2782009340.90337.147116214.7281379.86312663.3502010401.51342.072161212.5251770.02016892.2862011473.10447.130223827.3952221.25522297.4812012519.32249.378269695.3402438.15725642.926合计3809.407457.1801135316.00413875.328124215.487表9-1我国近年来国内生产总值和发电量相关数据三、相关系数的检验相关系数r的显著性检验步骤如下:第1步提出假设:

第2步

计算样本统计量t值:第3步根据给定的显著性水平a和自由度(n-2),查找t分布表中相应的临界值ta/2。第4步决策判断。若,拒绝原假设,表明两变量间有显著的线性相关关系;若,表明不能拒绝原假设,或者说两变量间线性相关关系在统计上是不显著的。

2023/2/312三、相关系数的检验【例9-2】假设通过18对试验数据得到某汽车制造企业的汽车销售量与居民消费水平的相关系数r为0.6,问是否能够在5%的显著水平下认为该企业的汽车销售量与居民消费水平之间存在一定的线性相关关系?解:首先提出假设:将以上数据代入公式,计算r的t检验统计量值

查t分布表可知,显著水平为0.05,自由度为16的临界值ta/2=2.21,上式中的t统计量值大于2.12,因此,r通过显著性检验。这就是说,该企业的汽车销售量与居民消费水平之间存在一定的线性相关关系。2023/2/313第三节一元线性回归分析2023/2/314第九章相关与回归分析一、一元线性回归模型(一)总体回归模型当变量之间存在着显著的相关关系时,可以利用一定的数学模型对其进行回归分析。总体回归模型:线性回归分析基于以下假定:随机误差项的期望值为0;随机误差项的方差为常数;随机误差项之间不存在序列相关关系,其协方差为零;在重复抽样中,自变量X的取值是给定的,即假定X是非随机变量;随机误差项服从正态分布。2023/2/315一、一元线性回归模型(二)总体回归方程由上述关于随机误差的假定,容易得到

即Y的期望值是X的线性函数,该线性函数称为回归方程。2023/2/316图9-2对应不同的X的Y分布(三)样本回归模型假设、是由样本数据计算出的、的估计值,那么以下方程称样本回归方程:实际观测到的因变量Yi值,并不完全等于,如果用ei表示二者之差(即),则有:

上式称为样本回归模型。样本回归模型是对总体回归模型的近似反映。

2023/2/317二、一元线性回归模型的估计(一)回归系数的点估计根据最小二乘法的思想,可得估计总体回归系数、的公式:2023/2/318图9-3最小二乘法的示意图二、一元线性回归模型的估计

【例9-3】我们利用例9-1的表9-1中已给出我国近年来国内生产总值和发电量的数据,来估计我国发电量的基础水平与发电量边际值。解:假设总体回归模型为将表9-1中合计栏的有关数据代入公式,可得

样本回归方程为式中,0.091是发电量边际值,表示国内生产总值每增加1单位,发电量会增加0.091单位;5.596是发电量基本水平,即与国内生产总值无关最基本的发电量为5.596单位。2023/2/319二、一元线性回归模型的估计(二)总体方差的估计的无偏估计可由下式给出:的正平方根又叫做回归估计的标准误差。越小表明实际观测点与所拟合的样本回归线的离差程度越小,即回归线具有较强的代表性。一般采用以下等价公式计算残差平方和并进而根据式(9-18)计算:2023/2/320二、一元线性回归模型的估计

【例9-4】根据例9-1中给出的有关数据和例9-3中已得到回归系数估计值,计算我国发电量的总体方差的估计和回归估计标准差s。解:将有关数据代入公式,得

进而可得:

2023/2/321二、一元线性回归模型的估计(三)回归系数估计量的统计性质在标准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于其真值,即有其方差为最小二乘估计量是总体回归系数的线性无偏估计量。回归系数的最小二乘估计量满足点估计的三个优良标准:无偏性、有效性及一致性,是最优线性无偏估计量和一致估计量。2023/2/322二、一元线性回归模型的估计(四)回归系数的区间估计

服从正态分布:回归系数区间估计的公式:式中,是回归系数估计量的样本标准误差:2023/2/323二、一元线性回归模型的估计

【例9-5】利用例9-3和例9-4的有关资料和结果,对例9-3中估计的我国发电量边际值进行置信度为95%的区间估计。解:将前面已求得的有关数据代入公式,可得

查t分布表可知:显著水平为0.05,自由度为18的t分布双侧临界值是2.101,前面已求得,将其代入公式,可得:

即:2023/2/324三、回归方程的拟合优度因为有

所以,对应三种离差平方和的关系为其中,SST

称为总离差平方和;SSR称为回归平方和,它表示由回归直线可以解释的那一部分离差平方和;SSE

称为残差平方和,它表示用回归直线无法解释的离差平方和。决定系数:2023/2/325图9-4离差分解图三、回归方程的拟合优度决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差。决定系数具有如下特性:(一)决定系数的取值范围为。(二)由的计算公式可以看出:=1时,SSE=0,说明所有的实际观测值都位于回归直线上,即总离差可以完全由所估计的样本回归直线来解释;当<1,SSE>0,说明实际观测值并不是全部位于回归直线上时,但又大致分布在其附近;当=0,即SSE=SST,说明回归直线没有解释任何离差,即模型中解释变量与因变量完全无关。(三)在一元线性回归模型中,决定系数是单相关系数的平方。2023/2/326三、回归方程的拟合优度

【例9-6】利用例9-4中计算的残差平方和,计算例9-3所拟合的样本回归方程的决定系数。解:根据决定系数公式可得

上式中的SST是利用表8-1中给出的数据按下式计算的:

2023/2/327四、显著性检验(一)回归方程的显著性检验步骤第1步假设总体回归方程不显著,即第2步进行方差分析,列出回归方差分析表:第3步根据方差分析的结果构建统计量,即:第4步根据自由度和给定的显著性水平a,查F分布表中的理论临界值Fa。2023/2/328离差名称平方和自由度均方差回归平方和1残差平方和总离差平方和

四、显著性检验(二)回归系数的显著性检验所谓回归系数的显著性检验,就是要检验自变量对因变量的影响是否显著的问题。方法一:t检验(1)提出假设:(2)构建统计量并证明其分布:式中,是回归系数估计的标准误差。(3)根据样本数据计算统计量值。(4)确定临界值。确定显著性水平a,查t分布表所确定的临界值是()和()。(5)做出判断。如果的绝对值大于临界值的绝对值,就拒绝原假设;反之,接受原假设。2023/2/329四、显著性检验方法二:p检验回归系数的显著性检验还可以采用p检验。t值计算出来之后,并不与t分布的临界值进行对比,而是直接计算自由度为n-2的t统计量大于或小于根据样本观测值计算的的概率即p值。然后将其与给定的显著水平a对比,如果p小于a,则拒绝原假设,反之则接受原假设。2023/2/330四、显著性检验

【例9-7】利用例9-3和例9-4、例9-5的有关资料和结果,对例9-3中估计的我国发电量产量边际值进行显著性检验。(1)以5%的显著性水平检验国内生产总值对发电量产量是否有显著影响;(2)对,进行检验。解:(1)首先,提出假设:其次,计算t值:显著水平为5%,自由度为18的双侧t检验的临界值是2.101。以上计算的值远大于此临界值,所以拒绝原假设,即认为国内生产总值对发电量产量的影响是非常显著的。(2)利用公式计算得到其绝对值大于此临界值2.101,所以否定的原假设,接受备择假设,我国平均发电量产量的边际值小于0.1。2023/2/331第四节一元线性回归模型预测2023/2/332第九章相关与回归分析一、简单线性回归预测所谓预测,就是根据确定的自变量X来计算相应的因变量Y的估计值的过程。(一)点估计如果所拟合的样本回归方程经过检验,被认为具有实际意义,同时通过了统计意义上的显著性检验,对于一个给定的Xf,利用回归方程求出关于Y的预测值,该预测值也是真实值的点估计。

点估计公式如下:2023/2/333一、简单线性回归预测(二)预测误差与所要预测的Y的真值之间可能存在一定的误差。

设Xf给定时Y的真实值为Yf,则

预测的残差ef:均值与方差分别为2023/2/334二、区间预测在标准假定条件下,ef服从正态分布,即若用来表示预测标准误差的估计值,则在(1-a)置信水平下,Yf的置信区间为2023/2/335图9-5回归预测的置信区间二、区间预测从置信区间和的计算公式以及图9-5,可以看到:第一,置信区间的上下限对称地落在样本回归直线两侧,呈中间小两头大的喇叭形。第二,在样本容量n保持不变时,的值随置信度(1-a)的提高而增加,因此,要求预测值的概率保证程度增加,在其他条件不变时,也就意味着预测精度的降低。第三,当其他条件不变时,和的值均为样本容量n的减函数,即随着n的增加,这二者将逐渐减少。这说明随着样本容量的增加,预测精度将会提高。第四,当样本容量n足够大时,会趋近于za/2。这时,Yf的(1-a)的置信区间近似为

2023/2/336二、区间预测

【例9-8】假定预计2013年我国国内生产总值为550千亿元,要求利用例9-3中拟合的样本回归方程与有关数据,计算置信度为95%的发电量的预测区间。解:将有关数据代入拟合好的样本回归方程,可得

从前面几例的结果可知:将其代入求预测标准误差估计值的公式,有

查t分布表可知临界值。因此,预测区间:

即51.006

(千亿千瓦小时)<Yf<59.883(千亿千瓦小时)2023/2/337三、一元线性回归模型的计算机实现

【例9-9】以下给出我国1993~2012年人均国内生产总值和居民消费水平的数据,试分析自变量“人均国内生产总值”和因变量“居民消费水平”的线性方程。(单位:千元)2023/2/338年份人均国内生产总值(现价)居民消费水平(现价)年份人均国内生产总值(现价)居民消费水平(现价)19932.9981.393200310.5424.47519944.0441.833200412.3365.03219955.0462.355200514.1855.59619965.8462.789200616.5006.29919976.4203.002200720.1697.31019986.7963.159200823.7088.43019997.1593.346200925.6089.28320007.8583.632201030.01510.52220018.6223.887201135.18112.27220029.3984.144201238.44913.946三、一元线性回归模型的计算机实现解:通过Excel的“回归分析”工具,得到输出结果:2023/2/339MultipleR0.998RSquare0.996AdjustedRSquare0.996标准误差0.219观测值20表9-4回归统计表

dfSSMSFSignificanceF回归分析1241.118241.1185015.231.77747E-23残差180.8650.048

总计19241.984

表9-5方差分析表表9-6回归系数显著性检验表

Coefficients标准误差tStatP-value下限

95.0%上限

95.0%Intercept0.8160.0849.7260.0000.6400.992XVariable10.3310.00570.8180.0000.3220.341三、一元线性回归模型的计算机实现模型的经济意义是:当人均国内生产总值每增加1单位时,会引起居民消费水平平均增加0.331单位;常数项估计值为0.816表明当人均国内生产总值为零时的居民消费水平,可以理解为居民基础消费水平。在表9-6中,0.084和0.005分别为常数项估计值和回归系数估计值的标准误,9.726和70.818分别表示常数项估计值所对应的t统计量的值,P-value栏的值表示相应的t统计量值对应的P值。由P值结果可以看出,常数项与回归系数的t统计量值较大,对应的概率接近于0,故回归系数高度显著,方差分析表显示,统计量值为5015.235,故整个回归模型也高度显著。关于模型的评估结果,模型的决定系数为0.996,表明该模型的整体拟合效果很好,自变量人均国内生产总值可以解释因变量居民消费水平99.6%的变化。2023/2/340第五节多元线性回归2023/2/341第九章相关与回归分析一、多元线性回归模型与回归方程一元线性回归分析反映的是一个因变量与一个自变量之间的线性关系。影响因变量的自变量可能不止一个。这种一个因变量与多个自变量的回归问题就是多元回归。当因变量和自变量之间为线性关系时,称为多元线性回归。(一)多元线性回归模型多元线性回归模型一般形式如下:(二)多元线性回归方程(三)估计的多元线性回归方程2023/2/342二、参数的最小二乘估计(一)回归系数的估计假设给出了n个观测值,则相应的自变量、因变量、回归系数、随机误差项等记作写成矩阵形式为得到回归系数最小二乘估计的一般形式2023/2/343二、参数的最小二乘估计(二)总体方差的估计多元线性回归模型中的随机误差项的方差也是利用残差平方和除以其自由度来估计:是的无偏估计。的正平方根s又叫做回归估计的标准误差。s越小则表明样本回归方程的代表性越强。(三)最小二乘估计量的性质与一元线性回归模型类似,多元线性回归模型中回归系数的最小二乘估计量也是随机变量。多元回归模型中回归系数最小二乘估计量的期望值等于总体回归系数的真实值,即回归系数最小二乘估计量的方差、协方差矩阵为2023/2/344三、多元线性回归模型的检验和预测在多元线性回归分析中,也可以用决定系数作为评价模型拟合程度的一项指标:然而在多元线性回归模型中,各回归模型所含的变量数目未必相同,以的大小作为衡量拟合优劣的尺度是不合适的。因此,在多元回归分析中,修正自由度的决定系数的定义如下:即2023/2/345三、多元线性回归模型的检验和预测修正自由度的决定系数具有以下特点:(1)。因为,所以根据和各自的定义式可以得出这一结论。对于给定的值和n值,k值越大越小。在进行回归分析时,一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度。所以比更具优势。(2)小于1,但未必都大于0。在拟合极差的场合,有可能取负值。2023/2/346三、多元线性回归模型的检验和预测

【例9-10】假设有20年的年度统计资料,现利用其对同一因变量拟合了两个样本回归方程。方程一中:k=4,;方程二中:k=2,。试对这两个回归方程的拟合程度做出评价。解:如果仅从来考察,似乎方程一的拟合程度更佳。但是,由于两个方程选用的自变量个数不同,这一结论是不正确的。将上列数据代入公式,可得方程一的方程二的由此可见,方程二的实际拟合程度优于方程一。2023/2/347三、多元线性回归模型的检验和预测(二)显著性检验多元线性回归模型的显著性检验同样包括两方面的内容,即回归系数的显著性检验与回归方程的显著性检验。1.回归系数的显著性检验采用t检验,基本步骤:第1步提出针对第j个回归系数的假设:

第2步给出检验统计量计算公式并证明其分布:第3步做出决策。2023/2/348三、多元线性回归模型的检验和预测

2.回归方程的显著性检验多元线性回归模型包含了多个回归系数,除了要对单个回归系数进行显著性检验外,还要对整个回归模型进行显著性检验。其具体的方法步骤可归纳如下:第1步提出假设:

第2步计算统计量,即第3步做出决策。当时,拒绝原假设,即认为总体回归方程中各自变量与因变量的线性关系显著。当时,接受原假设,即认为自变量与因变量的线性关系不显著2023/2/349三、多元线性回归模型的检验和预测(三)多元线性回归预测多元线性回归预测与一元线性回归预测的原理是一致的,其基本公式如下:式中,是给定的在预测期的具体数值;是已估计出的样本回归系数;是Y的预测值。该方程的矩阵形式为,其中多元线性回归预测标准误差的计算公式:多元线性回归预测值Yf的(1-a)的置信区间:2023/2/350四、复相关系数和偏相关系数(一)复相关系数一般情况下,复相关系数的取值在0和1之间,表明变量之间存在一定程度的线性相关关系。(二)偏相关系数在保持其他变量不变的情况下,衡量多个变量中某两个变量之间的线性相关程度和相关方向的指标称为偏相关系数。令Y为X1,因变量Y与各自变量的偏相关系数的一般形式可表现为其中,2023/2/351四、复相关系数和偏相关系数

【例9-11】我国国内旅游者人均花费相关资料如表9-7(见下一页)所示。(单位:元)要求利用该资料进行以下分析:(1)计算国内旅游者人均花费与居民消费水平及人均国内生产总值的相关系数;(2)建立我国国内旅游者人均花费的多元线性回归方程,并进行统计检验;(3)当居民消费水平为15000元,同时人均国内生产总值为40000元时,利用以上建立的线性模型预测此时国内旅游者人均花费为多少。2023/2/3522023/2/353年份国内旅游者人均花费

居民消费水平人均国内生产总值1995218.723555045.7301996256.227895845.8871997328.130026420.181199834531596796.030199939433467158.5022000426.636327857.6762001449.538878621.7062002441.841449398.0552003395.7447510541.9712004427.5503212335.5782005436.1559614185.3602006446.9629916499.7052007482.6731020169.4612008511843023707.7152009535.4928325607.5312010598.21052230015.04820117311227235181.2372012767.91394638448.508表9-7中国国内旅游者人均花费相关资料四、复相关系数和偏相关系数解:(1)使用Excel“数据分析”功能模块中的“相关分析”功能,得到各变量的相关系数矩阵:使用Excel“数据分析”功能模块中的“回归分析”功能,得到的计算结果:2023/2/354

1列

2列

3列

11.000

20.9451.000

30.9340.9991.000四、复相关系数和偏相关系数因此,拟合的样本回归方程为

回归系数的符号与经济理论分析的结果相符。从回归系数检验结果可以看出,自变量X1和X2的t统计量值所对应的p值分别是0.005和0.019,所以居民消费水平和人均国内生产总值都高度显著。另外,整个方程的F统计量也较大,达到94.098,对应的概率值为0.000,说明整个回归方程也是高度显著。修正自由度的决定系数达0.916,这表明该回归方程有很好的拟合程度。(3)预测。将以上给出的居民消费水平和人均国内生产总值代入前面拟合的样本回归方程,可得

2023/2/355第六节多元线性回归模型中自变量的选择2023/2/356第九章相关与回归分析一、问题的提出从的含义上看,增加一个解释变量,只会增大不会变小,若仅以作为选择解释变量的标准,可能会使最终的模型包含的解释变量过于庞杂。需要利用F检验来判断将一个或多个自变量引入到回归模型中是否适宜的问题。【例9-12】一家饮料企业希望了解销售收入与广告费的关系,进而为制定下一步的营销规划做准备。现收集了10个季度的广告费与销售收入的资料如下,试分析其回归模型。2023/2/357季度广告费X1

(十万元)销售收入Y

(百万元)季度广告费X1

(十万元)销售收入Y

(百万元)11223.2561115.25261271322.2531416.258610.54915.59918.55815101019一、问题的提出解:我们先利用简单线性回归模型

来描述每季度销售收入(Y)与每季度广告费(X1)之间的关系。Excel回归分析输出估计结果:所以回归方程是F统计量的值为8.94,它所对应的p值为0.017,因此拒绝原假设2023/2/358一、问题的提出于是我们能断定,每季度销售收入Y与每季度广告费X1之间存在一个显著的线性关系。决定系数,企业销售收入的波动中的52.8%能被广告费用的线性影响所解释。如果对剩余的47.2%的波动原因感兴趣,则必须考虑增加第二个自变量去解释因变量中剩余的变异。考虑到销售人员数也可能影响到销售收入总额。企业增加了销售人员数的数据:2023/2/359季度广告费X1

(十万元)销售人员数X2(人)销售收入Y

(百万元)季度广告费X1

(十万元)销售人员数

X2(人)销售收入Y

(百万元)1124823.256112415.252636127134822.253142416.25862410.5492415.5993618.558481510103619一、问题的提出用每季度的广告费用X1和销售人员数X2作为自变量,Excel输出估计结果:所以回归方程是2023/2/360一、问题的提出在这里,我们看到仅仅用广告费用作为唯一的自变量,模型的误差平方和是SSE=70.54。当销售人员数作为第二个自变量引入到模型里时,我们得到的误差平方和是SSE=29.30。显然,增加X2导致了SSE数量的减少。引起SSE减少的数量是利用F检验去判断这一数量上的减少是否显著:因为临界值,所以,拒绝零假设,增加自变量X2将有利于改进模型的解释能力。2023/2/361二、一般情形假设含有q个自变量的多元回归模型如下:这里q<k。如果增加自变量Xq+1,Xq+2,…,Xk到这个多元回归模型中去,得到一个含有k个自变量的多元回归模型:为了检验增加的自变量是否在统计上是显著的,我们提出零假设和备择假设:构造F统计量检验简洁表述:

2023/2/362二、一般情形

【例9-13】假设有一个含有26个观测值的回归分析问题。第一个模型的自变量是X1、X2和X3,它的误差平方和为125;第二个模型的自变量是X1、X2、X3、X4和X5,它的误差平方和为80。增加两个自变量X4和X5到第一个模型中,是否可使误差平方和显著减少?解:SST的自由度是26-1=25,完全模型的回归平方和的自由度是5,完全模型的误差平方和的自由度是25-5=20。因此,

。所以,F统计量是因为,所以结论是:增加的自变量X4和X5在统计上是显著的。2023/2/363三、变量选择方法(一)向前选择开始于从所有的自变量中选择一个自变量。第一步选择的自变量是和因变量相关度最高的。第二步,根据因变量剩余未解释变差的解释能力选择第二个自变量。在第二步以及下面的每一步中选出的自变量都是有最高偏确定性系数的变量。(二)向后剔除在向后剔除法中,开始时所有的变量都在模型中。一次剔除一个变量,直到没有不显著的变量。一旦变量从模型中被剔除,它就不会再次加入。(三)标准逐步回归如果两个或更多的变量重复了,在前面步骤中选择的变量可能因为后面步骤中加入的变量而变得不显著。标准逐步回归法会把这个不显著的变量从模型中剔除。2023/2/364四、应用实例

【例9-14】国内生产总值(GrossDomesticProduct,简称GDP)是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。国内生产总值的影响因素很多,主要影响因素有:第一产业(农业等)、第二产业(工业和建设业等)以及第三产业。我们选择“建筑业总产值”、“工业总产值”和“农林牧渔业总产值”,来分析它们和GDP的关系。有关数据如表9-15(见下一页)所示(单位:千亿元)。2023/2/3652023/2/366年份GDP(现价)建筑业总产值工业总产值(当年价格)农林牧渔业总产值(现价)199448.1984.65351.35315.751199560.7945.79454.94720.341199671.1778.28262.74022.354199778.9739.12668.35323.788199884.40210.06267.73724.542199989.67711.15372.70724.519200099.21512.49885.67424.9162001109.65515.36295.44926.1802002120.33318.527110.77627.3912003135.82323.084142.27129.6922004159.87829.021201.72236.2392005184.93734.552251.62039.4512006216.31441.557316.58940.8112007265.81051.044405.17748.8932008314.04562.037507.28558.0022009340.90376.808548.31160.3612010401.51396.031698.59169.3202011473.104117.060844.26981.304表9-14国内生产总值及相关数据四、应用实例解:(一)利用全选法进行尝试建模假设多元线性回归模型为用全选法计算结果:2023/2/367四、应用实例得到回归分析的结果:如果要评估模型的显著性,可以从F检验和t检验开始。1.F检验:针对,给定显著性水平a=0.05,临界值。从Excel的计算结果可得到,所以应拒绝原假设,说明回归方程显著,即“建筑业总产值”、“工业总产值”、“农林牧渔业总产值”等变量联合起来确实对“国内生产总值”有显著影响。2023/2/368四、应用实例

2.t检验:分别针对,临界值从Excel的计算结果也可看到,与对应的统计量分别为-1.633、0.802、1.163、4.613。对于时,其t值绝对值大于临界值2.145,这说明解释变量“农林牧渔业总产值”(X3)对被解释变量“国内生产总值”(Y)有显著的影响。“建筑业总产值”(X1)和“工业总产值”(X2)的系数t绝对值小于对应t临界值,说明在其他系数不变的情况下,解释变量“建筑业总产值”(X1)和“工业总产值”(X2)对因变量没有显著的影响。2023/2/369四、应用实例(二)利用Excel统计插件PHStat2进行逐步回归分析

2023/2/370图9-8模型最终设定窗口逐步回归分析结果2023/2/371

dfSSMSFSignificanceF回归分析1274663.68274663.683705.4792.29702E-20残差161185.978474.123654

总计17275849.66

表9-16变量“农林牧渔业总产值”进入模型后的方差分析表表9-17变量“农林牧渔业总产值”进入模型后的回归结果

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept-72.653729924.6321498-15.684673.9053E-11-82.4734489-62.83401093农林牧渔业总产值(现价)6.7707907380.11122860.87264972.297E-206.5349962517.006585224逐步回归分析结果2023/2/372

dfSSMSFSignificanceF回归分析2275049.79137524.892579.0169.28E-20残差15799.8681253.324541

总计17275849.66

表9-18变量“工业总产值”进入模型后的方差分析表

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept-30.569116.1257-1.8956780.07743-64.94033.8019农林牧渔业总产值(现价)4.42140.878145.035000.000142.54976.2932工业总产值(当年价格)0.18000.066902.690860.016760.03740.3226表9-19变量“工业总产值”进入模型后的回归结果四、应用实例表9-16和9-17显示了变量“农林牧渔业总产值”(X3)进入模型的过程,表9-18和9-19显示了变量“工业总产值”(X2)进入模型的过程。按照P值的概率小于或等于0.05则引入,大于或等于0.05则剔除的准则,逐步引入剔除法(stepwise),首先引入的变量为“农林牧渔业总产值”(X3)得到模型1,进而引入变量“工业总产值”(X2)得到模型2。模型2间接说明了“建筑业总产值”(X1)由于统计量值较小,无法通过参数的显著性检验,因此不纳入回归模型。同时由输出结果可以看出,模型1与模型2的回归方程都显著,而模型2包含两个变量,同时所引入的两个变量也都显著,由此说明模型2是最佳的回归方程。模型2如下:2023/2/373第七节非线性回归分析2023/2/374第九章相关与回归分析一、非线性函数形式的确定在对实际的客观现象进行定量分析时,选择回归方程的具体形式应遵循以下原则:首先,方程形式应与有关实质性科学的基本理论相一致。其次,方程有较高的拟合程度。最后,方程的数学形式要尽可能简单。2023/2/375一、非线性函数形式的确定(一)抛物线函数(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论