应用回归分析(R语言版)(何晓群 第2版)课件 第1-5章 回归分析概论-自变量的选择与逐步回归_第1页
应用回归分析(R语言版)(何晓群 第2版)课件 第1-5章 回归分析概论-自变量的选择与逐步回归_第2页
应用回归分析(R语言版)(何晓群 第2版)课件 第1-5章 回归分析概论-自变量的选择与逐步回归_第3页
应用回归分析(R语言版)(何晓群 第2版)课件 第1-5章 回归分析概论-自变量的选择与逐步回归_第4页
应用回归分析(R语言版)(何晓群 第2版)课件 第1-5章 回归分析概论-自变量的选择与逐步回归_第5页
已阅读5页,还剩273页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024/4/231应用回归分析(R语言版)AppliedRegressionAnalysis(ARA)2024/4/232关于RA的发展情况如果从高斯(Gauss,1777-1855)1809年提出最小二乘法为回归分析的开端到今年正好是215周年。Galton(1822-1911)在1886年发表了关于回归的开山论文《遗传结构中向中心的回归(Regressiontowardsmediocrityinhereditystructure)》到现在是138年。参考文献References[1]Seber,G.A.F.LinearRegressionAnalysis,JohnWiley,1977.[2]N.R.Draper,

H.Smith.AppliedRegressionAnalysis,NewYork,1981.2024/4/2332024/4/23450年代计算机的发展促进了RA的应用70年代中国应用90年代中国开始广泛应用经济领域中的应用自然科学中的应用社会科学中的应用有关RA应用的情况2024/4/235第1章回归分析概述第2章一元线性回归第3章多元线性回归第4章违背基本假设的几种情况第5章自变量选择与逐步回归第6章多重共线性的情形及其处理第7章岭回归第8章主成分回归与偏最小二乘第9章非线性回归第10章含定性变量的回归模型主要内容第1章回归分析概述1.1变量间的相关关系1.2“回归”思想及名称的由来1.3回归分析的主要内容及其一般模型1.4回归模型的建立过程1.5回归分析应用与发展简评2024/4/2361.1变量间的相关关系函数关系商品的销售额与销售量之间的关系y=px圆的面积与半径之间的关系S=

R2

原材料消耗额与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系y=x1x2x3

2024/4/2371.1变量间的相关关系2024/4/2381.1变量间的相关关系相关关系的例子子女身高(y)与父亲身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)和温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系2024/4/2391.1

变量间的相关关系2024/4/23101.2“回归”思想及名称的由来英国统计学家F.Galton(1822-1911年)和他的学生现代统计学的奠基者之一K.Pearson(1856-1936年)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,得到了父母平均身高与子女身高之间的关系式:2024/4/23111.3回归分析的主要内容及其一般模型2024/4/23122024/4/2313回归模型的一般形式:一元线性回归模型:多元线性回归模型:1.4回归模型的建立过程设置指标变量收集整理数据构造理论模型估计模型参数修改

N模型运用Y经济因素分析经济变量控制

经济决策预测实际问题模型检验2024/4/2314模型参数的估计当变量及样本较多时,参数估计的计算量很大,只有依靠计算机才能得到可靠的结果。现在这方面的现成计算机软件有很多,如Minitab、SPSS、SAS、R等都是计算参数估计结果的基本软件。2024/4/23151.5回归分析应用与发展简评回归分析的应用非常广泛,我们大概很难找到不用它的领域,尤其在经济学领域,其中计量经济学的一个重要理论支柱是回归分析理论。另外,矩阵理论和计算机技术的发展为回归分析模型在经济研究中的应用提供了极大的方便,因此计量经济学研究中涉及的变量和方程也越来越多。200多年来回归分析的理论和方法研究也得到不断发展。统计学中的许多重要方法都与回归分析有着密切的联系,如时间序列分析、判别分析、主成分分析、因子分析、典型相关分析等。2024/4/23161.5回归分析应用与发展简评2024/4/2317回归分析方法自身的完善和发展至今仍是统计学家研究的热点课题,如自变量的选择、稳健回归、回归诊断、投影寻踪、非参数回归模型等方面的研究依旧很多。近年来新的研究方法不断出现,如非参数统计、自助法、刀切法、经验贝叶斯估计等方法都对回归分析的发展起着促进作用。另外,对于满足基本假设的回归模型,它的理论已经成熟,但对于违背基本假设的回归模型的参数估计问题近年仍有较多研究。

本课程学习目标:掌握RA的基本理论掌握RA主流方法的思想和原理学以致用2024/4/2318第2章一元线性回归2.1一元线性回归模型2.2参数β0、β1的估计2.3最小二乘估计的性质2.4回归方程的显著性检验2.5残差分析2.6回归系数的区间估计2.7预测和控制2.8本章小结与评注2024/4/23192.1一元线性回归模型例2-1如下表2-1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。2024/4/2320表2-1 火灾损失表距消防站距离x(km)3.41.84.62.33.15.50.73.0火灾损失y(千元)26.217.831.323.127.536.014.122.3距消防站距离x(km)2.64.32.11.16.14.83.8火灾损失y(千元)19.631.324.017.343.236.426.12024/4/2321图2-1火灾损失散点图例2-2

在研究我国城镇人均支出和人均收入之间关系的问题中,把城镇家庭平均每人全年消费性支出记作y(元);把城镇家庭平均每人可支配收入记作x(元)。我们收集到1990-2012年23年的样本数据,数据见表2-2;样本分布情况见图2-2。2024/4/23222024/4/2323表2-2城镇居民年人均收支表年份人均支出y(元)人均收入x(元)年份人均支出y(元)人均收入x(元)年份人均支出y(元)人均收入x(元)19901278.891510.16200049986279.98201013471.4519109.419911453.81700.620015309.016859.6201115160.8921809.819921671.72026.620026029.927702.8201216674.3224564.719932110.82577.420036510.948472.2201318487.52646719942851.33496.220047182.19421.6201419968.128843.919953537.574282.9520057942.8810493201521392.431194.819963919.54838.920068696.5511759.5201623078.933616.219974185.65160.320079997.4713785.820172444536396.219984331.65425.1200811242.8515780.76201826112.339250.819994615.95854200912264.5517174.65201928063.442358.82024/4/2324图2-2城镇居民人均收入和支出散点图2.1一元线性回归模型一元线性回归模型

y=β0+β1x+ε(2.1)2024/4/2325对式(2.1)两边求期望得回归方程

E(y|x)=β0+β1x回归方程平均意义的解释2.1一元线性回归模型2024/4/2326对式(2.2)两边分别求数学期望和方差得回归方程E(yi)=β0+β1xi,var(yi)=σ2,经验回归方程

样本回归模型

yi=β0+β1xi+εi

(2.2)样本观测值(x1,y1),(x2,y2),…,(xn,yn)2.2参数β0、β1的估计2.2.1普通最小二乘估计(OrdinaryLeastSquareEstimation,

简记为OLSE)2024/4/2327最小二乘法就是寻找参数β0、β1的估计值使离差平方和达到极小,如下:称为yi的回归拟合值,简称回归值或拟合值;称为yi的残差。有人用绝对值2.2参数β0、β1的估计2024/4/2328xxyy˜˜˜˜˜˜˜˜˜˜˜˜˜˜˜˜˜˜}}2024/4/2329经整理后,得正规方程组2.2参数β0、β1的估计2.2参数β0、β1的估计2024/4/2330故OLSE为:记2.2参数β0、β1的估计2024/4/2331续例2-1,计算得回归方程2.2参数β0、β1的估计2024/4/23322.2.2最大似然估计连续型:是样本的联合密度函数;离散型:是样本的联合概率函数。似然函数并不局限于独立同分布的样本。似然函数假设εi~N(0,σ2)时,yi服从如下正态分布:2.2参数β0、β1的估计2024/4/23332.2.2最大似然估计

y1,y2,…,yn的似然函数对数似然函数与最小二乘原理完全相同,求解使对数函数极大化的参数β0、β1。2.3最小二乘估计的性质2024/4/23342.3.1线性

是y1,y2,…,yn的线性函数

2.3最小二乘估计的性质2024/4/23352.3.2无偏性其中用到

无偏性的意义2.3最小二乘估计的性质2024/4/23362.3.3的方差

回归系数的相关情况2.3最小二乘估计的性质2024/4/2337在正态假设的条件下:2.3.3的方差

2.3最小二乘估计的性质2024/4/23382.3.4最佳线性无偏估计Gauss~Markov条件在以上条件下,分别是的最佳线性无偏估计(BestLinearUnbiasedEstimator,BLUE),也称为最小方差线性无偏估计。BLUE即指在

的一切线性无偏估计中,它们的方差最小。

2.4回归方程的显著性检验2024/4/23392.4.1t

检验

当原假设成立时,由可得:原假设

对立假设

2.4回归方程的显著性检验2024/4/23402.4.1t

检验

构造t统计量其中当原假设成立时,t统计量服从自由度为n-2的t分布,给定显著性水平α,双侧检验的临界值为tα/2。当|t值|≥tα/2时,拒绝原假设,认为β1显著不为零,因变量y对自变量x的一元线性回归方程成立。

2024/4/23412.4回归方程的显著性检验2.4.1t

检验

P值判断是否拒绝原假设,也可以利用t分布和t统计量的值,计算概率P(|t|>|t值|),这一概率值又被称为P值,即

P(|t|>|t值|)=P值易知:|t值|越大,P值越小;|t值|越小,P值越大。因此,对于给定的显著性水平α,当P值<α

时,拒绝原假设。在给定显著性水平的情况下,使用P值不需要查分布表可以直接判断是否拒绝原假设。

2.4回归方程的显著性检验2024/4/23422.4.2F检验平方和分解式

SST=SSR+SSE构造F检验统计量在正态假设下,可以证明SSR和SSE均服从卡方分布当原假设成立时,F统计量服从自由度为(1,n-2)的F分布。当F值

≥Fα时,拒绝原假设,说明回归方程显著。2.4回归方程的显著性检验2024/4/2343一元线性回归方差分析表方差来源自由度平方和均方F值P值回归残差总和1n-2n-1SSRSSESSTSSR/1SSE/(n-2)P(F>F值)=P值2.4.2F检验2.4回归方程的显著性检验2024/4/23442.4.3相关系数的显著性检验样本(简单)相关系数由上式可得:|r|≤12024/4/23452.4回归方程的显著性检验2.4.3相关系数的直观意义2.4回归方程的显著性检验2024/4/23462.4.3相关系数的显著性检验

附表1相关系数的临界值表n-25%1%n-25%1%n-25%1%10.9971.000160.4680.590350.3250.41820.9500.990170.4560.575400.3040.39330.8780.959180.4440.561450.2880.37240.8110.947190.4330.549500.2730.35450.7540.874200.4230.537600.2500.32560.7070.834210.4130.526700.2320.30270.6660.798220.4040.515800.2170.28380.6320.765230.3960.505900.2050.26790.6020.735240.3880.4961000.1950.254100.5760.708250.3810.4871250.1740.228………………………2.4回归方程的显著性检验2024/4/23472.4.3相关系数的显著性检验

检验统计量该统计量服从自由度为n-2的t分布,因此当|t|>tα/2时,拒绝原假设,认为y与x的简单相关系数显著不为零。另外,也可以直接计算t统计量对应的P值。

2024/4/2348两变量间相关程度的强弱分为以下几个等级:当|ρ|≥0.8时,视为高度相关;当0.5≤|ρ|<0.8时,视为中度相关;当0.3≤|ρ|<0.5时,视为低度相关;当|ρ|<0.3时,表明两个变量之间的相关程度极弱,在实际应用中可视为不相关。2.4回归方程的显著性检验2.4.3相关系数的显著性检验

记总体相关系数为ρ,样本相关系数r是ρ的估计值。什么是P值(P-value)?P值即显著性概率值(SignificanceProbabilityValue);是当原假设为真时得到比目前样本更极端的样本的概率,所谓极端就是与原假设相背离;它是用此样本拒绝原假设所犯弃真错误的真实概率,被称为观察到的(或实测的)显著性水平。2024/4/2349双侧检验的P值2024/4/2350

/2t拒绝拒绝H0值临界值计算出的样本统计量计算出的样本统计量临界值1/2P值1/2P值

/2左侧检验的P值2024/4/2351H0值临界值a统计量拒绝域抽样分布1-

置信水平计算出的样本统计量P值右侧检验的P值2024/4/2352H0值临界值a拒绝域抽样分布1-

置信水平计算出的样本统计量P值利用P值进行检验的决策准则若P值>

,不能拒绝H0若P值<

,拒绝H0双侧检验P值=2×单侧检验P值2024/4/2353关于P值的争议2024/4/2354①P值一般过于高估拒绝H0的证据,尤其在大样本情况下更容易出现显著差异,抽样结果与H0的微小差别,就能得到一个极小的P值。对于某些实验数据量通常较大的学科,若依旧选择0.05作为显著性水平,P值检验可能就失去了意义。在这种情况下,某些学科会调整显著性水平,如物理学中就要求p<0.00006%时才能被认为显著;临床医学和新药开发中也都要求显著性水平很小。关于P值的争议2024/4/2355②认为原假设成立的概率较P值更有意义假设检验统计量为T(X),根据样本x可计算出T(x),不妨设某检验的拒绝域为W={x:T(x)≥c},c由统计量的分布和显著性水平确定。

P值是在H0成立的条件下事件T(X)≥T(x)的概率,即P值=P{T(X)≥

T(x)|H0成立};贝叶斯检验中H0的后验概率α0是在给定样本数据下H0成立的概率,即α0=P{H0成立|x},而后验概率的计算需要假定参数的先验分布。对于①中需要对显著性水平调整到较小的情况,由于显著性水平的设定具有较大的主观性,此时认为贝叶斯检验方法较P

值检验法具有一定的优越性。关于P值的争议2024/4/2356③对于分布函数非对称的双侧检验,P值的定义不唯一④对于多重假设检验问题,无法使用

P值检验法

上述两种情况,也可以考虑使用贝叶斯检验方法。

2024/4/23572.4回归方程的显著性检验2.4.4用R软件进行计算R是一套完整的数据处理、计算和制图软件系统。主要功能包括:数据存储和数据处理;数组运算(向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言,可操纵数据的输入和输出,

可实现分支、循环;用户可自定义功能。

2024/4/23582.4回归方程的显著性检验2.4.4用R软件进行计算

读取数据的两种主要方法:打开R,在主窗口中直接输入命令。如:>x<-c(3.4,1.8,4.6,2.3,3.1,5.5)#输入一个数组>X<-matrix(x,nrow=2,ncol=3)#输入一个矩阵使用read.table(file,head=,sep="delimiter")函数读取文件中的数据,其中file可以是txt文件或csv文件;csv文件也可以用read.csv()函数读取。如:>fire<-read.csv("D:/fire.csv",head=TRUE)

2024/4/23592.4回归方程的显著性检验2.4.4用R软件进行计算对例2-1做回归分析的计算代码如下:x<-c(3.4,1.8,4.6,2.3,3.1,5.5,0.7,3.0,2.6,4.3,2.1,1.1,6.1,4.8,3.8)

#生成数值向量x并赋予距消防站距离的数据

y<-c(26.2,17.8,31.3,23.1,27.5,36.0,14.1,22.3,19.6,31.3,24.0,17.3,43.2,36.4,26.1)#生成数值向量y并赋予火灾损失的数据lm2.1<-lm(y~x)#以y为因变量x为自变量建立回归方程,默认回归方程包含截距项的,如果是lm(y~x-1),则不包含截距项summary(lm2.1)#输出回归分析的结果读取火灾损失数据lm()为建立线性回归方程的函数2024/4/23602.4回归方程的显著性检验2.4.4用R软件进行计算运行以上代码,得到输出结果如下:回归系数的估计值回归系数的标准差回归系数显著性检验的t值P值F统计量的取值P值2024/4/23612.4回归方程的显著性检验2.4.4用R软件进行计算由输出结果2.1知:回归系数的估计值分别为估计值的标准差分别为由回归系数显著性检验的P值1.25e-08<<0.05可知,应该拒绝的原假设,认为回归系数显著。另外,由输出结果2.1中F值=156.9,对应的P值为1.248e-08<<0.05可知,应该拒绝原假设,认为回归方程是显著的。2024/4/23622.4回归方程的显著性检验2.4.4用R软件进行计算得到方差分析表的代码为anova(lm2.1),对应的输出结果如下:

SSRSSE2.4回归方程的显著性检验2024/4/23632.4.4用R软件进行计算计算相关系数并检验其显著性的代码及相关系数显著性检验的输出结果分别如下:>cor(x,y,method="pearson")#计算相关系数>cor.test(x,y,cor(x,y,method=“pearson”)#相关系数的显著性检验P值样本相关系数正确区分相关系数显著性检验与相关程度强弱的关系2.4回归方程的显著性检验2024/4/23642.4.5三种检验的关系H0:b=0H0:r=0H0:回归无效2.4回归方程的显著性检验2024/4/23652.4.6样本决定系数

可以证明2.5残差分析2024/4/23662.5.1残差概念与残差图残差

误差项

残差ei是误差项ei的估计值。2.5残差分析2024/4/23672.5.1残差概念与残差图

2.5残差分析2024/4/23682.5.1残差概念与残差图

图2-6火灾损失数据残差图2.5残差分析2024/4/23692.5.2残差的性质性质1E(ei)=0证明:性质2其中称为杠杆值。

2.5残差分析2024/4/23702.5.2残差的性质性质3

残差满足约束条件:这表明残差是相关的,不是独立的。2.5残差分析2024/4/23712.5.3改进的残差标准化残差学生化残差计算标准化残差和学生化残差的代码为:e<-resid(lm2.1)#计算残差向量ZRE<-e/sqrt(deviance(lm2.1)/(n-1))#计算标准化残差,n为样本量SRE<-rstandard(lm2.1)#计算学生化残差2.6回归系数的区间估计2024/4/2372等价于β1的置信度为1-α的置信区间由可知:故可得2.7预测和控制2024/4/23732.7.1单值预测y0是一个随机变量2.7.2区间预测寻找区间(T1,T2),使得需要首先求出其估计值的分布。1.因变量新值的区间预测2.7预测和控制2024/4/23742.7.2区间预测1.因变量新值的区间预测计算的方差从而得2024/4/23752.7预测和控制

2.7.2区间预测1.因变量新值的区间预测记则于是有

两者相互独立2024/4/23762.7预测和控制

2.7.2区间预测1.因变量新值的区间预测y0的置信水平为1-α的置信区间为y0的置信度为95%的置信区间近似为能不能两全其美2024/4/23772.7预测和控制

2.7.2区间预测2.因变量新值的平均值的区间预测由此可得E(y0)的1-α的置信区间为:由于E(y0)=β0+β1x0是常数,故2024/4/23782.7预测和控制

2.7.3控制问题

给定y的预期范围(T1,T2),如何控制自变量x的值才能以1-α的概率保证若用近似的预测区间来确定x,如果α=0.05,则要求易得:2024/4/23792.7预测和控制

2.7.4计算预测值和预测区间R语言中,因变量单个值的区间预测称为预测区间(predictioninterval),因变量平均值的区间预测称为置信区间(confidenceinterval)。

对例2-1的火灾损失数据,假设保险公司希望预测一个距最近的消防队x0=3.5公里的居民住宅失火的损失额,其计算代码如下:new<-data.frame(x=3.5)#以数据框的格式存储新值3.5ypred<-predict(lm2.1,new,interval="prediction",level=0.95)#计算预测值及预测区间并赋给ypred,level=0.95为默认值yconf<-predict(lm2.1,new,interval="confidence",level=0.95)#计算预测值及置信区间并赋给yconf,level=0.95为默认值2024/4/23802.7预测和控制

2.7.4计算预测值和预测区间运行上述代码后得到输出结果如下:由输出结果可知:置信水平为95%的预测区间单个新值:(22.32,32.67)平均值E(y0):(26.19,28.80)新点预测值:用近似公式计算的结果与其接近2.8本章小结与评注2.8.1一元线性回归模型从建模到应用的全过程2024/4/2381第一步,提出因变量与自变量。第二步,收集数据。第三步,画散点图。第四步,设定理论模型。第五步,用软件计算,输出计算结果。第六步,回归诊断,分析输出结果。第七步,模型的应用。注:回归分析方法的应用要特别注意定性分析与定量分析相结合。

2024/4/23822.8本章小结与评注下面以例2-2的数据为例,说明建立回归方程并对其进行分析的过程。使用R软件,在命令窗口中输入以下代码。data2.2<-read.csv(“D:/data2.2.csv”,head=TRUE)#从存储在D盘的数据文件中读取数据,将其以数据框的形式存入data2.2中attach(data2.2)#将该数据框添加到R的搜索路径,为了在下面直接使用数据框中所包含的数组x和y

data_outline<-c(mean(x),sd(x),mean(y),sd(y))#计算x和y的均值和方差

data_outline#输出计算结果

cor.test(x,y)#x与y相关系数的显著性检验

lm2.2<-lm(y~x,data=data2.2)#建立回归方程及其显著性检验

anova(lm2.2)#输出线性回归的方差分析表

summary(lm2.2)#输出回归方程及显著性检验结果

confint(lm2.2)#计算回归系数95%的置信区间

SRE<-rstandard(lm2.2)#计算学生化残差

plot(x,SRE,xlab=“城镇居民人均收入”,ylab=“学生化残差”)#画残差图

detach(data2.2)#与attach()相对应,将数据框从搜索路径中移除2024/4/23832.8本章小结与评注运行上述代码,得到输出结果如下2024/4/23842.8本章小结与评注2024/4/23852.8本章小结与评注图2-7以城镇居民人均收入为横坐标的残差图

2024/4/23862.8本章小结与评注回归诊断,分析输出结果(1)从data_outline得到的数据描述性分析结果中看到,=14940.457,=10566.173,x的标准差

Sx

=12445.744y的标准差Sy

=8181.934。(2)相关系数r=0.999,双侧检验的P值小于2.2e-16,近似为0,说明y与x有显著的线性相关关系。(3)决定系数r2=0.999,从相对水平上看,回归方程能够解释因变量y的99.9%的方差波动。(4)从方差分析表(AnalysisofVarianceTable)中看到F=27697,P值<2.2e-16,说明y与x的线性回归方程高度显著,这与相关系数的检验结果是一致的。2024/4/23872.8本章小结与评注回归诊断,分析输出结果(5)从回归结果的系数部分中得到,=749.2,=0.657,由此回归方程为,回归系数β1检验的t值为166.425,P<2e−16,与F检验和相关系数r的检验结果一致。另外,常数项β0的置信度为95%的区间估计为(592.97,905.34),回归系数β1的置信度为95%的区间估计为(0.649,0.665)。(6)由残差图2-7看到所有的点都在±3内,没有异常值,但是残差有一定的自相关趋势。2.8本章小结与评注2.8.2有关回归假设检验问题

1973年Anscombe构造了四组数据,

这四组数据所建的回归方程是相同的,决定系数、F统计量也都相同,且均通过显著性检验。2024/4/23882.8本章小结与评注2024/4/2389四组数据对应的散点图及回归直线分别如下所示:第三章多元线性回归3.1多元线性回归模型3.2回归系数的估计3.3有关估计量的性质3.4回归方程的显著性检验3.5中心化和标准化3.6相关阵与偏相关系数3.7本章小结与评注2024/4/23903.1多元线性回归模型3.1.1多元线性回归模型的一般形式

2024/4/2391y=β0+β1x1+β2x2+…+βpxp+ε对n组观测数据(xi1,xi2,…,xip;yi),i=1,2,…,n,线性回归模型表示为:2024/4/23923.1多元线性回归模型3.1.1多元线性回归模型的一般形式

对于式(3.1)可以写成矩阵形式为其中,设计矩阵2024/4/23933.1多元线性回归模型3.1.2多元线性回归模型的基本假定

解释变量x1,x2,…,xp是确定性变量,不是随机变量,

且要求rank(X)=p+1<n。随机误差项均值为0且等方差,即高斯-马尔柯夫

(Gauss-Markov)条件。正态分布的假设条件为:对于模型式(3.2),该条件可表示为:

此时,3.1多元线性回归模型2024/4/23943.1.3多元线性回归系数的解释

对含有p个自变量的多元线性回归而言,每个回归系数βi

表示在回归方程中其他自变量保持不变的情况下,自变量xi每增加一个单位时因变量y的平均增加幅度。如y=β0+β1x1+β2x2+ε,E(y)=β0+β1x1+β2x2在x2保持不变时,有在x1保持不变时,有3.1多元线性回归模型2024/4/23953.1.3多元线性回归系数的解释

考虑国内生产总值GDP和三次产业增加值的关系GDP=x1+x2+x3是确定性的函数关系。现在利用本章表3-10(见下页)的数据做GDP对第二产业增加值x2的一元线性回归,得回归方程此方程的回归系数表示第二产业增加值每增加1亿元,GDP增加2.155亿元,它不等于1。为什么?你能合理解释嘛?3.1多元线性回归模型2024/4/23963.2回归系数的估计3.2.1回归系数的普通最小二乘估计

2024/4/2397最小二乘估计要寻找达到极小3.2回归参数的估计3.2.1回归参数的普通最小二乘估计

2024/4/2398根据求极值的原理,应满足下列方程组3.2回归参数的估计3.2.1回归参数的普通最小二乘估计

2024/4/2399对方程组进行整理得到矩阵形式表示的正规方程组移项得当存在时,得回归参数的最小二乘估计为:3.2回归参数的估计3.2.2回归值与残差2024/4/23100为观测值yi的回归值;则对于向量y,其回归值为,其中称为帽子矩阵,主对角线元素记为hii,易得依据迹的性质tr(AB)=tr(BA)3.2回归参数的估计2024/4/231013.2.2回归值与残差yi的残差:残差向量:残差向量的协方差阵:3.2回归参数的估计2024/4/231023.2.2回归值与残差由可得

σ2

的无偏估计为:3.2回归系数的估计3.2.3回归系数估计的最大似然法2024/4/23103等价于使达到最小,这与OLSE一致。故在正态假定下,β的最大似然估计与OLSE完全相同。但误差方差的最大似然估计为:由可得样本似然函数为:

则对数似然函数为:2024/4/231043.2.4实例分析例3-1现实生活中,决定一个地区居民消费的因素有很多。本例选取9个解释变量研究城镇居民家庭平均每人全年的消费性支出y,解释变量为:x1—居民的食品花费,x2—居民的衣着花费,x3—居民的居住花费,x4—居民的医疗保健花费,x5—居民的文教娱乐花费,x6—私营单位职工的平均工资,x7—地区的人均GDP,x8—地区的消费价格指数,x9—地区的失业率。本例选取2022年《中国统计年鉴》我国31个省、市、自治区2021年的数据,以居民的消费性支出(元)为因变量,以如上9个变量为自变量作多元线性回归。数据见表3-1,其中,自变量x1~x7单位为元,x8,x9数字后加%。2024/4/23105地区北京9719.62235.5183824609.83665.4100011183980101.13.246775.7天津9708.42037.4831540213783.765272113732101.33.736066.9河北6521.616956108.32205.32440.94818554172101.03.124192.4山西5528.51665.84921.52497.22834.24574864821101.02.321965.5内蒙古7325.92153.25642.62617.73086.75127085422100.93.827194.2辽宁8183.91993.859472904.83398.35016965026101.14.328438.4吉林6622.61783.44936.72701.12969.54788655450100.63.324420.9黑龙江7095.11780.34944.62850.52714.94207147266100.63.224422.1上海12877.62153.417369.54063.1509096011173630101.22.751294.6江苏9590.42075.110321.42800.53563.568868137039101.62.536558.0浙江11283.42437.211306.62865.64537.269228113032101.52.642193.5...………………………………………………………陕西6664.41738.95589.52758.628805233175360101.53.524783.7甘肃7542.51938.857322291.72692.24721241046100.93.425756.6青海7388.61792.24754.62454.12099.45006856398101.31.824512.5宁夏6689.81896.746102559.23075.75532762549101.44.125385.6新疆7752.81860.54772.12850.22047.35612361725101.22.025724.0表3-1表3-1中的数据保存在文件data3.1.csv中,该文件存储在D盘2024/4/231063.2.4实例分析用R软件对数据进行回归分析,计算代码及运行结果(见下页)如下:

data3.1<-read.csv(“D:/data3.1.csv”,head=TRUE)#读取数据

lm3.1<-lm(y~x1+x2+x3+x4+x5+x6+x7+x8+x9,data=data3.1)#建立回归方程

summary(lm3.1)#输出回归结果及显著性检验结果2024/4/231073.2.4实例分析回归方程3.3有关估计量的性质2024/4/23108

性质1

是随机向量y的一个线性变换。性质2

是β的无偏估计。

2024/4/231093.3有关估计量的性质性质3当p=1时即一元线性回归的情况,是上述公式对应的一个特殊情况,读者不妨自己验证。2024/4/231103.3有关估计量的性质性质4Gauss-Markov定理在假定E(y)=Xβ,D(y)=σ2In时,β的任一线性函数的最小方差线性无偏估计(BestLinearUnbiasedEstimator简记为BLUE)为,其中c是任一p+1维向量,

是β的最小二乘估计。关于该性质的四点说明:①取常数向量c的第j(j=0,1,…,p)个分量为1,其余分量为0,这时G-M定理表明最小二乘估计是βj的最小方差线性无偏估计。2024/4/231113.3有关估计量的性质性质4Gauss-Markov定理②可能存在y1,y2,…,yn的非线性函数,作为的无偏估计,比最小二乘估计的方差更小。③可能存在的有偏估计量,在某种意义(例如均方误差最小)下比最小二乘估计更好。④在正态假定下,是的最小方差无偏估计。也就是说,既不可能存在y1,y2,…,yn的非线性函数,也不可能存在y1,y2,…,yn的其它线性函数,作为的无偏估计,比最小二乘估计的方差更小。3.3有关估计量的性质2024/4/23112性质5此性质说明与e不相关,在正态假定下等价于与e独立,从而与独立。性质6

当时,则(1)(2)3.4回归方程的显著性检验2024/4/231133.4.1F检验

原假设H0:β1=β2=…=βp=0在正态假设下,当H0成立时服从。利用离差平方和的分解式SST=SSR+SSE建立对H0进行检验的F统计量方差来源自由度平方和均方F值P值回归残差总和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)P(F>F值)=P值3.4回归方程的显著性检验2024/4/231143.4.1F检验

表3-4方差分析表对于线性回归的方差分析,R语言中不仅可使用函数anova()得到方差分析表,还可以使用函数Anova(),而在使用函数Anova()前需要安装包car并加载该包。2024/4/231153.4回归方程的显著性检验3.4.2回归系数的显著性检验(t检验)原假设H0j:βj=0,j=1,2,…,p依据参数估计的性质6构造t统计量其中2024/4/23116由例3-1中输出结果3.1可知,在0.05的显著性水平下,F检验结果显著,说明回归方程整体高度显著,但是所有的回归系数并不都显著,9个自变量中只有x1,x2,x3,x4,x5,x8的回归系数通过了显著性检验。由于某些自变量对因变量的影响不显著,因而多元回归中并不是包含在回归方程中的自变量越多越好,该问题会在第5章有更详细的讨论。3.4回归方程的显著性检验2024/4/23117一种剔除多余变量的方法—后退法当t检验结果显示有多个自变量对因变量无显著影响时,每次剔除对应|t值|最小(P值最大)的一个变量(原则上每次只剔除一个变量),然后再对新的回归方程进行检验,直至保留的变量都对因变量有显著影响,否则需要继续剔除变量。对于例3-1,P值最大的P9=0.8956,首先剔除变量x9,建立y关于其余8个变量的回归方程,R中可以依旧使用lm()函数,也可以使用update()函数,如:

lm3.1_drop9<-update(lm3.1,.~.-x9)#在前面已经建立了lm3.1回归模型的基础上使用3.4回归方程的显著性检验3.4回归方程的显著性检验2024/4/23118在一元线性回归中,回归系数显著性的t检验与回归方程显著性的F检验是等价的,而在多元线性回归中,这两种检验是不等价的。F检验显著,说明y对自变量x1,x2,…,xp

整体的线性回归效果是显著的,但不等于y对每个自变量xj的回归效果都显著。某个或某几个xj的系数不显著,回归方程显著性的F检验仍有可能是显著的。

2024/4/23119偏F统计量—从另一个角度考虑自变量xj的显著性3.4回归方程的显著性检验3.4.2回归系数的显著性检验(t检验)y对自变量x1,x2,…,xp线性回归的残差平方和为SSE,回归平方和为SSR,在剔除xj后,用y对其余的p-1个自变量做回归,记所得的残差平方和为SSE(j),回归平方和为SSR(j),则自变量xj对回归的贡献为ΔSSR(j)=SSR-SSR(j),称为xj的偏回归平方和。由此构造偏F统计量当H0j:βj=0成立时,Fj~F(1,n-p-1),且Fj=tj2。3.4回归方程的显著性检验2024/4/231203.4.3回归系数的置信区间可得βj的置信度为1-α的置信区间为:由confint()函数可以计算置信区间3.4回归方程的显著性检验2024/4/231213.4.4拟合优度

决定系数为:y关于x1,x2,…,xp的样本复相关系数为:在两个变量的简单相关系数中,相关系数有正负之分,而复相关系数表示的是因变量y与全体自变量之间的线性关系,因而都取正号。3.5中心化和标准化2024/4/231223.5.1中心化

经验回归方程经过样本中心将坐标原点移至样本中心,即做坐标变换:回归方程转变为回归常数项为减少计算量3.5中心化和标准化2024/4/23123

3.5.2标准化回归系数

样本数据的标准化公式为

得标准化的回归方程

3.5中心化和标准化2024/4/23124

3.5.2标准化回归系数

当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性,例如有一回归方程为:其中x1的单位是吨,x2的单位是公斤。3.6相关阵与偏相关系数2024/4/231253.6.1样本相关阵自变量样本相关阵增广的样本相关阵2024/4/23126

R中函数cor(Z)可以直接计算增广样本相关矩阵,其中Z=(y,X),y为因变量的样本值,X为设计矩阵。计算例3-1城镇居民消费性支出数据的增广样本相关矩阵见下表3-5。3.6相关阵与偏相关系数3.6.1样本相关阵3.6相关阵与偏相关系数2024/4/231273.6.2偏决定系数

偏判定系数测量在回归方程中已包含若干个自变量时,再引入某一个新的自变量后y的剩余变差的相对减少量,它衡量y的变差减少的边际贡献。当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。偏相关系数可以度量p+1个变量y,x1,x2,xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。3.6相关阵与偏相关系数2024/4/231281.两个自变量的偏判定系数二元线性回归模型为:yi=β0+β1xi1+β2xi2+εi记SSE(x2)是模型中只含有自变量x2时y的残差平方和,SSE(x1,x2)是模型中同时含有自变量x1和x2时y的残差平方和。因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为:此即模型中已含有x2时,y与x1的偏判定系数。3.6.2偏决定系数

3.6相关阵与偏相关系数2024/4/231292.一般情况在模型中已含有x2,…,xp时,y与x1的偏判定系数为:3.6.2偏决定系数

3.6相关阵与偏相关系数2024/4/23130

3.6.3偏相关系数

偏判定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。

例3-2

研究北京市各经济开发区经济发展与招商投资的关系,因变量y为各开发区的销售收入(百万元),选取两个自变量,x1为截至1998年底各开发区累计招商数目,x2为招商企业注册资本(百万元)。表3-6中列出了至1998年底招商企业注册资本在5亿至50亿元的15个开发区的数据。3.6相关阵与偏相关系数2024/4/23131

3.6.3偏相关系数

表3-6北京开发区数据x1x2yx1x2y253547.79553.967671.13122.2420896.34208.555322863.3214006750.323.175116046410012087.052815.440862.757.55251639.311052.12187672.99224.188253357.73427122901.76538.94120808.47442.82743546.182442.7928520.2770.123.6相关阵与偏相关系数2024/4/231323.6.3偏相关系数

R中计算偏相关系数首先需要计算相关系数矩阵r,然后下载安装corpcor包,并使用该包中的函数cor2pcor(r)计算偏相关系数阵。对表3-6中的数据建立线性回归模型并计算偏相关系数的计算代码如下:data3.2<-read.csv("D:/data3.2.csv",head=TRUE)#读取数据lm3.2<-lm(y~x1+x2,data=data3.2)#建立回归方程summary(lm3.2)#输出回归方程及其检验结果r<-cor(data3.2)#计算相关系数阵rinstall.packages("corpcor")#安装corpcor包library(corpcor)#加载corpcor包pcor3.2<-cor2pcor(r)#由相关系数阵计算偏相关系数阵pcor3.2#输出偏相关系数阵2024/4/231333.6相关阵与偏相关系数3.6.3偏相关系数

运行上述代码,得到输出结果如下:ry1;2ry2;13.6相关阵与偏相关系数2024/4/231343.6.1偏相关系数

由输出结果3.5可看出:用y与x1做一元线性回归时,x1能消除y的变差SST的比例为再引入x2时,x2能消除剩余变差SSE(x1)的比例为因而自变量x1和x2消除y变差的总比例为这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R2。3.6相关阵与偏相关系数2024/4/231353.6.3偏相关系数

对任意p个变量x1,x2,…,xp定义x1与x2的偏相关系数为其中符号Δij表示相关阵第i行第j列元素的代数余子式其中容易验证2024/4/231363.6相关阵与偏相关系数3.6.3偏相关系数

实例说明

x1表示某种商品的销售量

x2表示消费者人均可支配收入

x3表示商品价格从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如果计算出的r12是个负数也不要感到惊讶,这是因为还有其他没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。而反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。3.7本章小结与评注

2024/4/23137

例3-3y—民航客运量(万人),x1—人均GDP(元),x2—人均居民消费水平(元),x3—普通铁路客运量(万人),x4—高速铁路客运量(万人),x5—民航航线里程(万公里),根据历年《中国统计年鉴》获得2002--2021年的统计数据(见表3-7),试建立中国民航客运量y关于x1,x2,x3,x4,x5的回归模型。3.7本章小结与评注

2024/4/23138年份yx1x2x3x4x520027756950642701017410106.3220038078106664555936340103.422004110461248750711073460115.522005126021436856881106510114.262006145531673863191197280114.732007168842049474541356700129.56200817732241008504145459734134.162009215782618092491478004651142.52201024838308081057515428613323169.49201127199362771266815767428552199.62201229600397711407415052238815199.54201332742434971558615763552962260.28201436040469121722016008270378287201539411499221885715734596139292.282016436345378320801159277122128352.012017496115959222968133163175216423.712018548076553425245132065205430478.092019585687007827504130169235833546.75202040821718282743964643155707559.76202143908809763107268935192236557.82表3-72024/4/231393.7本章小结与评注

第一步:

提出因变量与自变量,收集数据,如例3-3所示。第二步:

做相关分析,设定理论模型。用R软件计算增广样本相关阵,计算代码及输出结果如下。缺少输出结果3.62024/4/231403.7本章小结与评注

从相关系数阵看出,y与x1,x2,x4,x5的相关系数都在0.9以上,说明所选自变量与y高度相关,用y与自变量做多元线性回归是合适的。虽然x3与y的相关系数为0.134,说明普通铁路客运量与民航客运量之间的关系不密切,但是在初步建模时还是先考虑将x3包含在内。第三步:用软件计算,输出计算结果。建立回归方程的代码如下,输出结果见3.7。lm3.3<-lm(y~x1+x2+x3+x4+x5,data=data3.3)summary(lm3.3)2024/4/23141缺输出结果3.72024/4/231423.7本章小结与评注

第四步:回归诊断。(1)回归方程为:(2)决定系数R2=0.997,由此可看出回归方程高度显著。(3)方程整体显著性检验,F=852.4,P=2.2e-16,表明回归方程高度显著,说明自变量整体上对y有高度显著的线性影响。(4)回归系数的显著性检验。自变量x3,x4对y均有显著影响,其中x3在1%的显著性水平上对

y高度显著,说明了在多元线性回归中不能仅凭简单相关系数的大小而决定变量的取舍。虽然x2,x5对y无显著影响,但是其显著性检验的P值均相对较小。因此,若仅考虑将拟合模型用于预测分析,可直接使用该模型。第五步:回归应用,可预测新值等。2024/4/231433.7本章小结与评注

在运用普通最小二乘法估计未知参数时,应首先看具体问题的样本数据是否满足模型的基本假定,只有满足基本假定的模型才能应用普通最小二乘法。由于R2的大小与样本量n以及自变量个数p有关,当n

与p的数目接近时,R2容易接近1,这说明R2中隐含着一些虚假成分。因此,仅由R2的值去推断模型优劣一定要慎重。对回归方程的F检验,不拒绝原假设和拒绝原假设对回归方程来说意味着什么,需要慎重对待。当样本容量n较小,变量个数p较大时,F检验或t检验的自由度太小,这时尽管样本决定系数R2很大,但参数估计的效果很不稳定。有文献在研究建筑业降低成本率y对流动资金x1、固定资金x2、优良品率x3、竣工面积x4、劳动生产率x5、施工产值x6的关系时,利用书上表3-8数据(n=9)建立回归方程,得回归方程SST=154.763,SSR=143.46,SSE=11.303F=4.231,R2=0.9272024/4/23144由于R2=0.927,所以该文献中作者认为上述回归方程非常显著。其实进一步做F检验,给定α=0.05,查F分布表知F0.05(p,n-p-1)=F0.05(6,2)=19.3,F=4.231<F0.05(6,2)=19.3,说明回归方程没有通过F检验。可是该文献当时给错了自由度,查F0.05(6,9)=3.37,结果F>F0.05(6,9)通过了检验,从而进一步肯定了上述回归方程。之所以R2在0.9以上,接近1,方程还通不过F检验,这就是样本量个数n太小,而自变量又较多造成R2很大的虚假现象。如果样本容量再稍作改变,未知参数就会发生较大变化,即表现出很不稳定的状况。2024/4/23145第4章违背基本假设的几种情况2024/4/231464.1异方差性产生的背景和原

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论