




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用回归分析
AppliedRegressionAnalysis(ARA)2024/4/61关于RA的发展情况:如果从高斯(Gauss,1777-1855)1809年提出最小二乘法为回归分析的开端到今年正好是202周年Galton(1822-1911)在1886年发表了关于回归的开山论文《遗传结构中向中心的回归(Regressiontowardsmediocrityinhereditystructure)》到现在是130年2024/4/62References:[1]Seber,G.A.F.,LinearRegressionAnalysis,JohnWiley,1977.[2]N.R.DraperH.SmithAppliedRegressionAnalysis,NewYork,1981.2024/4/63[3]陈希孺,王松桂,近代回归分析,合肥:安徽教育出版社,1987。2024/4/64[4]方开泰,实用回归分析,北京:科学出版社,1988。2024/4/65[5]张勇,王国明,赵秀珍译,[美]约翰·内特,应用线性回归模型北京:中国统计出版社,1990。2024/4/66[6]周纪芗,回归分析,上海:华东师范大学出版社,1993。2024/4/67[7]2024/4/68[8]何晓群,回归分析与经济数据建模,北京:中国人民大学出版社,1997。2024/4/69[9]2024/4/610[10]2024/4/611[11]2024/4/612[12]2024/4/613有关RA应用的情况:50年代计算机的发展促进了RA的应用70年代中国应用90年代中国开始广泛应用经济领域中的应用自然科学中的应用社会科学中的应用2024/4/614主要内容:第1章回归分析概述第2章一元线性回归第3章多元线性回归第4章违背基本假定的情况第5章自变量选择与逐步回归第6章多重共线性的情形及其处理第7章岭回归第8章主成分回归与偏最小二乘第9章非线性回归第10章含定性变量的回归模型2024/4/615第1章回归分析概述1.1变量间的统计关系1.2回归方程与回归名称的由来1.3回归分析的主要内容及其一般模型1.4建立实际问题回归模型的过程1.5回归分析应用与发展述评思考与练习2024/4/6161.1变量间的统计关系函数关系商品的销售额与销售量之间的关系y=px圆的面积与半径之间的关系S=
R2
原材料消耗额与产量(x1)
、单位产量消耗(x2)
、原材料价格(x3)之间的关系y=x1x2x3
2024/4/6171.1变量间的统计关系2024/4/6181.1变量间的统计关系相关关系的例子子女身高(y)与父亲身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系2024/4/6191.1变量间的统计关系2024/4/6201.2回归方程与回归名称的由来英国统计学家F.Galton(1822-1911年)。F.Galton和他的学生、现代统计学的奠基者之一K.Pearson(1856—1936年)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,2024/4/6212024/4/622
1.3回归分析的主要内容及其一般模型回归分析的主要内容2024/4/622f(x)=E(y|x) (1.1)(1.2)2024/4/623 (1.3) (1.7)
1.4建立实际问题回归模型的过程设置指标变量收集整理数据构造理论模型估计模型参数修改
N模型运用Y经济因素分析经济变量控制
经济决策预测实际问题模型检验2024/4/6242024/4/625
建立实际问题回归模型的过程
这里要说明的是,当变量及样本较多时,参数估计的计算量很大,只有依靠计算机才能得到可靠的结果。现在这方面的现成计算机软件很多,如Minitab、SPSS、SAS等都是参数估计的基本软件。2024/4/6252024/4/6261.5回归分析应用与发展述评从Gauss提出最小二乘法算起,回归分析已经有200年的历史。回归分析的应用非常广泛,我们大概很难找到不用它的领域,这也正是一百多年来经久不衰,生命力强大的根本原因。这里简述回归分析在经济领域的广泛应用。我们知道计量经济学是现代经济学中影响最大的一门独立学科。诺贝尔经济学奖获得者萨缪尔森曾经说过:第二次世界大战后的经济学是计量经济学的时代。然而,计量经济学中的基本计量方法就是回归分析,计量经济学的一个重要理论支柱是回归分析理论。2024/4/6262024/4/627
回归分析应用与发展述评自从1969年设立诺贝尔经济学奖以来,已有60多位学者获奖,其中绝大部分获奖者是统计学家、计量经济学家、数学家。从大多数获奖者的著作看,他们对统计学及回归分析方法的应用都有娴熟的技巧。这足以说明统计学方法在现代经济研究中的重要作用。矩阵理论和计算机技术的发展为回归分析模型在经济研究中的应用提供了极大的方便。国民经济是一个错综复杂的系统,对于宏观经济问题常需要涉及几十个甚至几千个变量和方程,如果没有先进的计算机和求解线性方程组的矩阵计算理论,要研究复杂的经济问题是不可想象的。2024/4/6272024/4/628
回归分析应用与发展述评一个20阶的线性方程组要用克莱姆法则去求解,就需要计算1022次乘法运算,这可是一个天文数字。然而用矩阵变换的方法只需6000次乘法运算。也正是由于计算方法的改进和现代计算机的发展,使得过去不可想象的事情变成了现实。计量经济学研究中涉及的变量和方程也越来越多。例如英国剑桥大学的多部门动态模型,多达2759个方程,7484个变量;由诺贝尔经济学奖获得者克莱因发起的国际连接系统,使用了7447个方程和3368个外生变量。2024/4/6282024/4/629
回归分析应用与发展述评模型技术在经济问题研究中的应用在我国也已盛行起来。从20世纪80年代初期以来,每年都有许多国家级和省级鉴定的计量经济应用成果。特别是在一些省级以上的重点经济课题中,经济学硕士学位的论文中,如果没有模型技术的应用,给人的印象总感分量不足。这些足以说明模型技术的应用在我国也倍受重视。这里要强调说明的是,回归分析方法是模型技术中最基本的内容。回归分析的理论和方法研究200年来也得到不断发展。统计学中的许多重要方法都与回归分析有着密切的联系。如时间序列分析、判别分析、主成分分析、因子分析、典型相关分析等。这些都极大地丰富了统计学方法的宝库。2024/4/6292024/4/630
回归分析应用与发展述评回归分析方法自身的完善和发展至今是统计学家研究的热点课题。例如自变量的选择、稳健回归、回归诊断、投影寻踪、非参数回归模型等近年仍有大量研究文献出现。在回归模型中,当自变量代表时间,因变量不独立并且构成平稳序列时,这种回归模型的研究就是统计学中的另一个重要分支——时间序列分析。它提供了一系列动态数据的处理方法,帮助人们科学地研究分析所获得的动态数据,从而建立描述动态数据的数学模型,以达到预测、控制的目的。2024/4/6302024/4/631回归分析应用与发展述评因变量y和自变量x都是一维时,称它为一元回归模型;当x是多维,y是一维时,则它为多元回归模型;若x是多维,y也是多维的,则称它为多重回归模型。特别是当因变量观察矩阵Y的诸行向量假定是独立的,而列向量假定是相关的,就称为半相依回归方程系统。对于满足基本假设的回归模型,它的理论已经成熟,但对于违背基本假设的回归模型的参数估计问题近些年仍有较多研究。2024/4/6312024/4/632
回归分析应用与发展述评在实际问题的研究应用中,人们发现经典的最小二乘估计的结果并不总是令人满意,统计学家们从多方面进行努力试图克服经典方法的不足。例如,为了克服设计矩阵的病态性,提出了以岭估计为代表的多种有偏估计。Stein于1955年证明了当维数p大于2时,正态均值向量最小二乘估计的不可容许性,即能够找到另一个估计在某种意义上一致优于最小二乘估计.从此之后人们提出了许多新的估计,其中主要有岭估计,主成分估计,Stein估计,以及特征根估计,偏最小二乘法。这些估计的共同点是有偏的,即它们的均值并不等于待估参数。于是人们把这些估计称为有偏估计。当设计矩阵X呈病态时,这些估计都改进了最小二乘估计。2024/4/632
一元线性回归2.1一元线性回归模型2.2参数β0、β1的估计2.3最小二乘估计的性质2.4回归方程的显著性检验2.5残差分析2.6回归系数的区间估计2.7预测和控制2.8本章小结与评注2024/4/6332.1一元线性回归模型例2.1
表2.1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。2024/4/634表2.1 火灾损失表2024/4/635【例2.2】在研究我国城镇人均支出和人均收入之间关系的问题中,把城镇家庭平均每人全年消费性支出记作y(元);把城镇家庭平均每人可支配收入记作(元)。我们收集到1990——2012年23年的样本数据。数据见表2.2;样本分布情况见图2.2。2024/4/6362024/4/6372024/4/638图2-22.1一元线性回归模型一元线性回归模型
y=β0+β1x+ε2024/4/639回归方程E(y|x)=β0+β1x2.1一元线性回归模型样本模型
yi=β0+β1xi+εi, i=1,2,…,n2024/4/640回归方程E(yi)=β0+β1xi,var(yi)=σ2,样本观测值(x1,y1),(x2,y2),…,(xn,yn)经验回归方程
回归方程平均意义的解释2.2参数β0、β1的估计一、普通最小二乘估计
(OrdinaryLeastSquareEstimation,简记为OLSE)2024/4/641最小二乘法就是寻找参数β0、β1的估计值使离差平方和达极小称为yi的回归拟合值,简称回归值或拟合值
称为yi的残差有人用绝对值2.2参数β0、β1的估计2024/4/6422.2参数β0、β1的估计2024/4/643经整理后,得正规方程组2.2参数β0、β1的估计2024/4/644得OLSE为记2.2参数β0、β1的估计2024/4/645续例2.1回归方程2.2参数β0、β1的估计2024/4/646二、最大似然估计
连续型:是样本的联合密度函数:离散型:是样本的联合概率函数。似然函数并不局限于独立同分布的样本。似然函数在假设εi~N(0,σ2)时,由(2.10)式知yi服从如下正态分布:2.2参数β0、β1的估计2024/4/647二、最大似然估计
y1,y2,…,yn的似然函数为:对数似然函数为:与最小二乘原理完全相同
2.3最小二乘估计的性质2024/4/648一、线性
是y1,y2,…,yn的线性函数
:2.3最小二乘估计的性质2024/4/649其中用到
二、无偏性
无偏性的意义2.3最小二乘估计的性质2024/4/650三、的方差
回归系数的相关情况2.3最小二乘估计的性质2024/4/651三、的方差
在正态假设下GaussMarkov条件
2.4回归方程的显著性检验2024/4/652一、t
检验
原假设:H0:β1=0 对立假设:H1
:β1≠0
由当原假设H0:β1=0成立时有:
2.4回归方程的显著性检验2024/4/653一、t
检验
构造t统计量
其中2.4回归方程的显著性检验2024/4/654二、用统计软件计算
1.例2.1用Excel软件计算什么是P值?
(P-value)P值即显著性概率值
SignificenceProbabilityValue是当原假设为真时得到比目前的样本更极端的样本的概率,所谓极端就是与原假设相背离它是用此样本拒绝原假设所犯弃真错误的真实概率,被称为观察到的(或实测的)显著性水平2024/4/655双侧检验的P值2024/4/656
/
2
/
2
t拒绝拒绝H0值临界值计算出的样本统计量计算出的样本统计量临界值1/2P值1/2P值左侧检验的P值2024/4/657H0值临界值a样本统计量拒绝域抽样分布1-
置信水平计算出的样本统计量P值右侧检验的P值2024/4/658H0值临界值a拒绝域抽样分布1-
置信水平计算出的样本统计量P值利用P值进行检验的决策准则若p-值>
,不能拒绝H0若p-值<
,拒绝H0双侧检验p-值=2×单侧检验p-值2024/4/6592.4回归方程的显著性检验2024/4/660二、用统计软件计算2.例2.1用SPSS软件计算2.4回归方程的显著性检验2024/4/661二、用统计软件计算2.用SPSS软件计算2.4回归方程的显著性检验2024/4/662三、F检验平方和分解式
SST=SSR+SSE构造F检验统计量
可以证明SSR和SSE均服从卡方分布2.4回归方程的显著性检验2024/4/663三、F检验一元线性回归方差分析表方差来源自由度平方和均方F值P值回归残差总和1n-2n-1SSRSSESSTSSR/1SSE/(n-2)P(F>F值)=P值2.4回归方程的显著性检验2024/4/664四、相关系数的显著性检验
2.4回归方程的显著性检验2024/4/665四、相关系数的显著性检验
2.4回归方程的显著性检验2024/4/666四、相关系数的显著性检验
附表1相关系数的临界值表n-25%1%n-25%1%n-25%1%10.9971.000160.4680.590350.3250.41820.9500.990170.4560.575400.3040.39330.8780.959180.4440.561450.2880.37240.8110.947190.4330.549500.2730.35450.7540.874200.4230.537600.2500.32560.7070.834210.4130.526700.2320.30270.6660.798220.4040.515800.2170.28380.6320.765230.3960.505900.2050.26790.6020.735240.3880.4961000.1950.254100.5760.708250.3810.4871250.1740.228110.5530.684260.3740.4781500.1590.208120.5320.661270.3670.4702000.1380.181130.5140.641280.3610.4633000.1130.148140.4970.623290.3550.4564000.0980.128150.4820.606300.3490.44910000.0620.0812.4回归方程的显著性检验2024/4/667四、相关系数的显著性检验
用SPSS软件做相关系数的显著性检验
2.4回归方程的显著性检验2024/4/668四、相关系数的显著性检验
两变量间相关程度的强弱分为以下几个等级:当|r|≥0.8时,视为高度相关;当0.5≤|r|<0.8时,视为中度相关;当0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,表明两个变量之间的相关程度极弱,在实际应用中可视为不相关。2.4回归方程的显著性检验2024/4/669五、三种检验的关系H0:b=0H0:r=0H0:回归无效2.4回归方程的显著性检验2024/4/670六、样本决定系数
可以证明2.5残差分析
2024/4/671一、残差概念与残差图
残差
误差项
残差ei是误差项ei的估计值。
2.5残差分析
2024/4/672一、残差概念与残差图
2.5残差分析
2024/4/673一、残差概念与残差图
图2.6火灾损失数据残差图2.5残差分析
2024/4/674二、残差的性质
性质1E(ei)=0
证明:2.5残差分析
2024/4/675二、残差的性质
性质2其中称为杠杆值
2.5残差分析
2024/4/676二、残差的性质
2.5残差分析
2024/4/677二、残差的性质
性质3.
残差满足约束条件:
这表明残差是相关的,不是独立的.2.5残差分析
2024/4/678三、改进的残差
标准化残差学生化残差2.6回归系数的区间估计2024/4/679
等价于β1的1-α置信区间2.7预测和控制
2024/4/680一、单值预测
2.7预测和控制
2024/4/681
二、区间预测找一个区间(T1,T2),使得
需要首先求出其估计值的分布
1.因变量新值的区间预测二、区间预测1因变量新值的区间预测2024/4/682以下计算的方差从而得二、区间预测1因变量新值的区间预测2024/4/683记于是有
则二、区间预测1因变量新值的区间预测2024/4/684y0的置信概率为1-α的置信区间为
y0的置信度为95%的置信区间近似为
能不能两全其美二、区间预测2因变量平均值的区间估计2024/4/685得E(y0)的1-α的置信区间为
E(y0)=β0+β1x0是常数二、区间预测计算2024/4/686
对例2.1的火灾损失数据,假设保险公司希望预测一个距最近的消防队x0=3.5公里的居民住宅失火的损失
点估计值95%区间估计单个新值:(22.32,32.67)平均值E(y0):(26.19,28.80)
的95%的近似置信区间为
=(27.50-2×2.316,27.50+2×2.316)=(22.87,32.13)三、控制问题
2024/4/687
给定y的预期范围(T1,T2),如何控制自变量x的值才能以1-α的概率保证
用近似的预测区间来确定x。如果α=0.05,则要求
把带入2.8本章小结与评注
一、一元线性回归模型从建模到应用的全过程(略)例2.2
全国人均消费金额记作y(元);人均国民收入记为x(元)2024/4/688表2.2 人均国民收入表具体看书2.8本章小结与评注
二、有关回归假设检验问题
1973年Anscombe构造了四组数据,这四组数据所建的回归方程是相同的,决定系数,F统计量也都相同,且均通过显著性检验。
2024/4/6892.8本章小结与评注2024/4/690多元线性回归
3.1多元线性回归模型3.2回归参数的估计3.3参数估计量的性质3.4回归方程的显著性检验3.5中心化和标准化3.6相关阵与偏相关系数3.7本章小结与评注2024/4/6913.1多元线性回归模型一、多元线性回归模型的一般形式
2024/4/692y=β0+β1x1+β2x2+…+βpxp+ε3.1多元线性回归模型一、多元线性回归模型的一般形式
2024/4/693对n组观测数据(xi1,xi2,…,xip;yi),i=1,2,…,n,线性回归模型表示为:3.1多元线性回归模型一、多元线性回归模型的一般形式
2024/4/694写成矩阵形式为:y=Xβ+ε,其中,2024/4/695i=1,2,3j=1,2k=1,2为种第i种小麦并施了第J种化肥的第K块地的产量写出这个双因素方差分析模型的矩阵形式,并把每个矩阵的具体形式写出来。作业:设有3.1多元线性回归模型二、多元线性回归模型的基本假定
2024/4/6961.解释变量x1,x2,…,xp是确定性变量,不是随机变量,且要求rk(X)=p+1<n。表明设计矩阵X中的自变量列之间不相关,X是一满秩矩阵。3.1多元线性回归模型二、多元线性回归模型的基本假定
2024/4/6972.随机误差项具有0均值和等方差,即
这个假定称为Gauss-Markov条件
3.1多元线性回归模型二、多元线性回归模型的基本假定
2024/4/6983.正态分布的假定条件为:
用矩阵形式(3.5)式表示为:
ε~N(0,s2In)3.1多元线性回归模型二、多元线性回归模型的基本假定
2024/4/699在正态假定下:
y~N(Xβ,s2In)E(y)=Xβ
var(y)=s2In
3.1多元线性回归模型三、多元线性回归方程的解释
2024/4/6100y表示空调机的销售量,x1表示空调机的价格,x2表示消费者可用于支配的收入。y=β0+β1x1+β2x2+εE(y)=β0+β1x1+β2x2
在x2保持不变时,有在x1保持不变时,有3.1多元线性回归模型三、多元线性回归方程的解释
2024/4/6101考虑国内生产总值GDP和三次产业增加值的关系,
GDP=x1+x2+x3现在做GDP对第二产业增加值x2的一元线性回归,得回归方程本章思考与练习中表3—103.1多元线性回归模型2024/4/6102年份GDP第一产业增加值x1第二产业增加值x2第三产业增加值x3199018547.95017.07717.45813.5199121617.85288.69102.27227.0199226638.15800.011699.59138.6199334634.46882.116428.511323.8199446759.49457.222372.214930.0...............2006216314.424040.0103719.588554.92007265810.328627.0125831.4111351.92008314045.433702.0149003.4131340.02009340902.835226.0157638.8148038.02010401512.840533.6187383.2173596.02011473104.047486.2220412.8205205.02012518942.152373.6235162.0231406.53.1多元线性回归模型三、多元线性回归方程的解释
2024/4/6103建立GDP对x1和x2的回归,得二元回归方程=2914.6+0.607x1+1.709x2你能够合理地解释两个回归系数吗?3.2回归参数的估计
一、回归参数的普通最小二乘估计
2024/4/6104最小二乘估计要寻找3.2回归参数的估计
一、回归参数的普通最小二乘估计
2024/4/61053.2回归参数的估计
一、回归参数的普通最小二乘估计
2024/4/6106经整理后得用矩阵形式表示的正规方程组
移项得存在时,即得回归参数的最小二乘估计为:3.2回归参数的估计
二、回归值与残差2024/4/6107为回归值
称为帽子矩阵,其主对角线元素记为hii
,则此式的证明只需根据迹的性质tr(AB)=tr(BA),因而3.2回归参数的估计
二、回归值与残差2024/4/6108
cov(e,e)=cov((I-H)Y,(I-H)Y)=(I-H)cov(Y,Y)(I-H)′=σ2(I-H)In(I-H)′=σ2(I-H)得
D(ei)=(1-hii)σ2,i=1,2,…,n3.2回归参数的估计
二、回归值与残差2024/4/6109
是σ2的无偏估计
3.2回归参数的估计
三、回归参数的最大似然估计
2024/4/6110
y~N(Xβ,σ2In)似然函数为
等价于使(y-Xβ)′(y-Xβ)达到最小,这又完全与OLSE一样四、实例分析【例3.1】现实生活中,影响一个地区居民消费的因素有很多,例如,一个地区的人均生产总值、收入水平、消费价格指数、生活必需品的花费等。本例选取9个解释变量研究城镇居民家庭平均每人全年的消费性支出y,解释变量为居民的食品花费,居民的服装花费,居民的居住花费,居民的医疗花费,居民的教育花费,地区的职工平均工资,地区的人均GDP,地区的消费价格指数,地区的失业率。本例选取2013年《中国统计年鉴》我国30个省、市、自治区(西藏地区失业率数据缺失,因此从样本中去除西藏)2012年的数据,以居民的消费性支出(元)为因变量,以如上9个变量为自变量作多元线性回归。数据见表3.1,其中,自变量单位为元,因变量单位为百分数。2024/4/6111表3.12024/4/6112地区北京753526391971165836968474287475106.51.324046天津734418811854155622546151493173107.53.620024河北421115421502104712043865836584104.13.712531山西38561529143990615064423633628108.83.312212内蒙古546327301584135419724655763886109.63.717717辽宁580920421433131018444185856649107.73.616594吉林4635204515941448164338407434151113.714614黑龙江468718071337118112173640635711104.84.212984上海9656211117901017372478673853731063.126253江苏665819161437105830785063968347112.63.118825浙江755221101552122829975019763374104.5321545.................................陕西555117891322121220794307338564109.43.215333甘肃460216311288105013883767921978108.62.712847青海46671512123290610974648333181110.63.412346宁夏476918761193106315164743636394105.54.214067新疆523920311167102812814457633796114.83.413892用SPSS22.0计算出的回归系数见输出结果3.1(65页)输出结果3.1
回归系数表2024/4/6113因而y对9个自变量的线性回归方程为2024/4/61143.3参数估计量的性质
2024/4/6115
性质1
是随机向量y的一个线性变换。性质2
是β的无偏估计。
2024/4/61163.3参数估计量的性质
2024/4/6117
当p=1时
即可得(2.41)、(2.42)、(2.45)式利用SPSS软件可以方便的计算出的协方差阵与相关阵,的协方差阵与相关阵不属于默认输出值,在LinearRegression对话框中点选Statistics→Covariancematrix即可。例3.1的数据计算出的的相关阵与协方差阵如表3.2、表3.3所示,其中表的格式已略作修改。2024/4/61183.3参数估计量的性质
2024/4/6119
性质4Gauss-Markov定理预测函数
是的线性函数
Gauss-Markov定理
在假定E(y)=Xβ,D(y)=σ2In时,β的任一线性函数的最小方差线性无偏估计(BestLnearUnbiasedEstimator简记为BLUE)为c′,其中c是任一p+1维向量,是β的最小二乘估计。3.3参数估计量的性质
2024/4/6120
第一,取常数向量c的第j(j=0,1,…,p)个分量为1,其余分量为0,这时G-M定理表明最小二乘估计是βj的最小方差线性无偏估计。第二,可能存在y1,y2,…,yn的非线性函数,作为的无偏估计,比最小二乘估计的方差更小。第三,可能存在的有偏估计量,在某种意义(例如均方误差最小)下比最小二乘估计更好。第四,在正态假定下,是的最小方差无偏估计。也就是说,既不可能存在y1,y2,…,yn的非线性函数,也不可能存在y1,y2,…,yn的其它线性函数,作为的无偏估计,比最小二乘估计方差更小。3.3参数估计量的性质
2024/4/6121性质5cov(,e)=0此性质说明与e不相关,在正态假定下等价于与e独立,从而与独立。性质6
在正态假设(1)(2)3.4回归方程的显著性检验2024/4/6122
一、F检验
H0:β1=β2=…=βp=0SST=SSR+SSE
当H0成立时服从方差来源自由度平方和均方F值P值回归残差总和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)P(F>F值)=P值3.4回归方程的显著性检验2024/4/6123
一、F检验
对例3.1的数据,用SPSS软件计算出的方差分析表见输出结果3.2。输出结果3.2F=298.8822024/4/61243.4回归方程的显著性检验2024/4/6125
二、回归系数的显著性检验(t检验)H0j:βj=0,j=1,2,…,p~N(β,σ2(X'X)-1)记(X'X)-1=(cij)i,j=0,1,2,…,p构造t统计量
其中3.4回归方程的显著性检验2024/4/6126
二、回归系数的显著性检验输出结果3.1输出结果3.32024/4/6127输出结果3.42024/4/61283.4回归方程的显著性检验2024/4/6129
二、回归系数的显著性检验
从另外一个角度考虑自变量xj的显著性。y对自变量x1,x2,…,xp线性回归的残差平方和为SSE,回归平方和为SSR,在剔除掉xj后,用y对其余的p-1个自变量做回归,记所得的残差平方和为SSE(j),回归平方和为SSR(j),则自变量xj对回归的贡献为ΔSSR(j)=SSR-SSR(j),称为xj的偏回归平方和。由此构造偏F统计量3.4回归方程的显著性检验2024/4/6130
二、回归系数的显著性检验
当原假设H0j
:βj=0成立时,(3.42)式的偏F统计量Fj服从自由度为(1,n-p-1)的F分布,此F检验与(3.40)式的t检验是一致的,可以证明Fj=tj2(3.42)3.4回归方程的显著性检验2024/4/6131
三、回归系数的置信区间可得βj的置信度为1-α的置信区间为:3.4回归方程的显著性检验2024/4/6132四、拟合优度
决定系数为:
y关于x1,x2,…,xp的样本复相关系数3.5中心化和标准化
2024/4/6133
一、中心化
经验回归方程
经过样本中心
将坐标原点移至样本中心,即做坐标变换:
回归方程转变为:回归常数项为3.5中心化和标准化
2024/4/6134
二、标准化回归系数
样本数据的标准化公式为:
得标准化的回归方程
3.5中心化和标准化
2024/4/6135
二、标准化回归系数
当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性,例如有一回归方程为:其中x1的单位是吨,x2的单位是公斤3.6相关阵与偏相关系数
2024/4/6136
一、样本相关阵(第78页表3.5)自变量样本相关阵
增广的样本相关阵为:
3.6相关阵与偏相关系数
2024/4/6137二、偏判定系数
当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。
偏相关系数可以度量p+1个变量y,x1,x2,xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。
3.6相关阵与偏相关系数
2024/4/6138
二、偏判定系数
偏判定系数测量在回归方程中已包含若干个自变量时,再引入某一个新的自变量后y的剩余变差的相对减少量,它衡量y的变差减少的边际贡献。3.6相关阵与偏相关系数
2024/4/6139
1.两个自变量的偏判定系数二元线性回归模型为:yi=β0+β1xi1+β2xi2+εi记SSE(x2)是模型中只含有自变量x2时y的残差平方和,SSE(x1,x2)是模型中同时含有自变量x1和x2时y的残差平方和。因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为:此即模型中已含有x2时,y与x1的偏判定系数。3.6相关阵与偏相关系数
2024/4/6140
1.两个自变量的偏判定系数同样地,模型中已含有x1时,y与x2的偏判定系数为:3.6相关阵与偏相关系数
2024/4/6141
2.一般情况在模型中已含有x2,…,xp时,y与x1的偏判定系数为:3.6相关阵与偏相关系数
2024/4/6142
三、偏相关系数
偏判定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。
例3.2
研究北京市各经济开发区经济发展与招商投资的关系,因变量y为各开发区的销售收入(百万元),选取两个自变量,
x1为截至1998年底各开发区累计招商数目,
x2为招商企业注册资本(百万元)。表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的15个开发区的数据。3.6相关阵与偏相关系数
2024/4/6143
三、偏相关系数
北京开发区数据x1x2yx1x2y253547.79553.967671.13122.2420896.34208.555322863.3214006750.323.175116046410012087.052815.440862.757.55251639.311052.12187672.99224.188253357.73427122901.76538.94120808.47442.82743546.182442.7928520.2770.123.6相关阵与偏相关系数
2024/4/6144
三、偏相关系数
偏相关系数表书后有part解释3.6相关阵与偏相关系数
2024/4/6145
三、偏相关系数
用y与x1做一元线性回归时,x1能消除y的变差SST的比例为再引入x2时,x2能消除剩余变差SSE(X1)的比例为因而自变量x1和x2消除y变差的总比例为=1-(1-0.651)(1-0.546)=0.842=84.2%。这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R23.6相关阵与偏相关系数
2024/4/6146
三、偏相关系数
对任意p个变量x1,x2,…,xp定义它们之间的偏相关系数其中符号Δij表示相关阵第i行第j列元素的代数余子式验证以x1表示某种商品的销售量,
x2表示消费者人均可支配收入,
x3表示商品价格。从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如果你计算出的r12是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。2024/4/61473.7本章小结与评注
2024/4/6148
例3.3中国民航客运量的回归模型。y—民航客运量(万人),x1—国民收入(亿元),x2—消费额(亿元),x3—铁路客运量(万人),x4—民航航线里程(万公里),x5—来华旅游入境人数(万人)。根据《1994年统计摘要》获得1978-1993年统计数据3.7本章小结与评注
2024/4/6149
年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.7019845545652390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.201991217816557109699508155.913335.651992288620223129859969383.663311.5019933383248821594910545896.084152.703.7本章小结与评注
2024/4/6150
3.7本章小结与评注
2024/4/6151
3.7本章小结与评注
2024/4/6152
当回归模型的未知参数估计出来后,我们实际上是由n组样本观测数据得到一个经验回归方程,这个经验回归方程是否真正反映了变量y和变量x1,x2,…,xp之间的线性关系,这就需要进一步对回归方程进行检验。一种检验方法是拟合优度检验,即用样本决定系数的大小来衡量模型的拟合优度。样本决定系数R2越大,说明回归方程拟合原始数据y的观测值的效果越好。但由于R2的大小与样本容量n以及自变量个数p有关,当n与p的数目接近时,R2容易接近于1,这说明R2中隐含着一些虚假成分。因此,仅由R2的值很大,去推断模型优劣一定要慎重。前几年我们在著名的《经济研究》杂志也看到有作者忽略了这一问题,犯了统计方法应用的低级错误。2024/4/6153对于回归方程的显著性检验,我们用F统计量去判断假设H0:β1=β2=…=βp=0是否成立。当给定显著性水平α时,F>Fα(p,n-p-1),则拒绝假设H0,否则不拒绝H0。接受假设H0和拒绝假设H0对于回归方程来说意味着什么,这仍需慎重对待。2024/4/6154一般来说,当接受假设H0时,认为在给定的显著性水平α之下,自变量x1,x2,…,xp对因变量y无显著性影响,于是通过x1,x2,…,xp去推断y也就无多大意义。在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而我们误用线性模型描述了,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时由于我们认识上的局限性把一些影响因变量y的自变量漏掉了。这就从两个方面提醒我们去重新考虑建模问题。2024/4/6155当我们拒绝了假设H0时,我们也不能过于相信这个检验,认为这个回归模型已经很完美了。其实当拒绝H0时,我们只能认为这个回归模型在一定程度上说明了自变量x1,x2,…,xp与因变量y的线性关系。因为这时仍不能排除我们漏掉了一些重要的自变量。参考文献[2]的作者认为,此检验只宜用于辅助性的、事后验证性质的目的。研究者在事前根据专业知识及经验,认为已把较重要的自变量选入了,且在一定误差限度内认为模型为线性是合理的。经过样本数据计算后,可以用来验证一下,原先的考虑是否周全。这时,若拒绝H0,可认为至少并不与他原来的设想矛盾。如果接受H0,可以认为模型是不能反映因变量y与自变量x1,x2,…,xp的线性关系,这个模型就不能应用于实际预测和分析。2024/4/6156当样本容量n较小,变量个数p较大时,F检验或t检验的自由度太小,这时尽管样本决定系数R2很大,但参数估计的效果很不稳定。我们曾发现一个实际应用例子暴露出这方面的问题。有文献在研究建筑业降低成本率y对流动资金x1、固定资金x2、优良品率x3、竣工面积x4、劳动生产率x5、施工产值x6的关系时,利用书上表3.8数据建立回归方程,得回归方程SST=154.7646,SSR=143.45,SSE=11.3146F=4.226,R2=0.926792024/4/6157由于R2=0.92679,所以该文献中作者认为上述回归方程非常显著。其实进一步作F检验,给定α=0.05,查F分布表,F0.05(p,n-p-1)=F0.05(6,2)=19.3。F=4.226<F0.05(6,2)=19.3。回归方程没有通过F检验。可是该文献当时给错了自由度,查F0.05(6,9)=3.37。结果F>F0.05(6,9),通过了检验,从而进一步肯定了上述回归方程。之所以R2在0.9以上,已接近1,方程还通不过F检验,这就是样本容量个数n太小,而自变量又较多造成R2的虚假现象。如果样本容量再稍作改变,未知参数就会发生较大变化,即表现出很不稳定的状况。2024/4/6158违背基本假设的情况2024/4/6159
4.1异方差性产生的背景和原因4.2一元加权最小二乘估计4.3多元加权最小二乘估计4.4自相关性问题及其处理4.5BOX-COX变换4.6异常值与强影响点4.7本章小结与评注第四章违背基本假设的情况2024/4/6160
Gauss-Markov条件
4.1异方差性产生的背景和原因
2024/4/6161
一、异方差产生的原因
例4.1居民收入与消费水平有着密切的关系。用xi表示第i户的收入量,yi表示第i户的消费额,一个简单的消费模型为:yi=β0+β1xi+εi,i=1,2,…,n低收入的家庭购买差异性比较小,高收入的家庭购买行为差异就很大。导致消费模型的随机项εi具有不同的方差。4.1异方差性产生的背景和原因
2024/4/6162
二、异方差性带来的问题
当存在异方差时,普通最小二乘估计存在以下问题:(1)参数估计值虽是无偏的,但不是最小方差线性无偏估计;(2)参数的显著性检验失效;(3)回归方程的应用效果极不理想。4.2一元加权最小二乘估计
2024/4/6163
一、异方差性的检验(一)残差图分析法
图2.5(b)存在异方差4.2一元加权最小二乘估计
2024/4/6164
一、异方差性的检验(二)等级相关系数法
等级相关系数检验法又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既可用于大样本,也可用于小样本。进行等级相关系数检验通常有三个步骤。第一步,作y关于x的普通最小二乘回归,求出ei的估计值,即ei的值。4.2一元加权最小二乘估计
2024/4/6165
(二)等级相关系数法
第二步,取ei的绝对值,分别把xi和|ei|按递增(或递减)的次序分成等级,按下式计算出等级相关系数:其中,n为样本容量,di为对应于xi和|ei|的等级的差数。4.2一元加权最小二乘估计
2024/4/6166
(二)等级相关系数法
第三步,做等级相关系数的显著性检验。在n>8的情况下,用下式对样本等级相关系数rs进行t检验。检验统计量为:如果t≤tα/2(n-2)可认为异方差性问题不存在,如果t>tα/2(n-2),说明xi与|ei|之间存在系统关系,异方差性问题存在。4.2一元加权最小二乘估计
2024/4/6167
例4.3设某地区的居民收入与储蓄额的历史统计数据如表4.1。(1)用普通最小二乘法建立储蓄y与居民收入x的回归方程,并画出残差散点图;(2)诊断该问题是否存在异方差;序号储蓄y(万元)居民收入x(万元)1 2 3
…
31264 105 90 …23008777 9210 9954 …382004.2一元加权最小二乘估计
2024/4/6168
序号储蓄y居民收入xxi等级残差ei|ei||ei|等级di126487771169.0169.016-15225210592102-26.626.63-1139099543-104.6104.67-4164131105084-110.5110.58-4165122109795-159.4159.415-101006107119126-253.4253.423-172897406127477-25.125.1252585031349988.28.217499431142699-129.0129.0900105881552210-78.078.04636118981673011129.7129.71011129501766312102.7102.76636137791857513-145.5145.514-11148191963514-195.3195.319-525151222211631578.478.4510100………………………3123003820031-286.1286.1247494.2一元加权最小二乘估计
2024/4/6169
图4.1残差图4.2一元加权最小二乘估计
2024/4/6170
用SPSS计算等级相关系数。
4.2一元加权最小二乘估计
2024/4/6171
(2)计算等级相关系数。
t=5.076>2.0454.2一元加权最小二乘估计
2024/4/6172
Spearman等级相关系数可以反映非线性相关的情况,Pearson简单相关系数不能反映非线性相关的情况。例如x与y的取值如下,序号12345678910x12345678910y149162536496481100容易计算出y与x的简单相关系数r=0.9746,而y与x的等级相关系数rs=1具有完全的曲线相关。4.2一元加权最小二乘估计
2024/4/6173
二、一元加权最小二乘估计消除异方差性的方法通常有:加权最小二乘法,Box-Cox变换法,(参考文献[1])
方差稳定性变换法加权最小二乘法(WeightedLeastSquare,简记为WLS)是一种最常用的消除异方差性的方法。4.2一元加权最小二乘估计
2024/4/6174
二、一元加权最小二乘估计一元线性回归普通最小二乘法的残差平方和为:
一元线性回归的加权最小二乘的离差平方和为:
第96页4.2一元加权最小二乘估计
2024/4/6175
加权最小二乘估计为:
其中,
是自变量的加权平均;
是因变量的加权平均。
4.2一元加权最小二乘估计
2024/4/6176
观测值的权数应该是观测值误差项方差的倒数,即在实际问题中,误差项的方差是未知的,常与自变量x的幂函数xm成比例,其中m是待定的未知参数。此时权函数为所以误差项的方差较大的观测值接受较小的权数;误差项的方差较小的观测值接受较大的权数。4.2一元加权最小二乘估计
2024/4/6177
三、寻找最优权函数利用SPSS软件可以确定幂指数m的最优取值。依次点选Analyze-Regression-WeightEstimation进入估计权函数对话框,默认的幂指数m的取值为m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0。先将因变量y与自变量x选入各自的变量框,再把x选入Weight变量框,幂指数(Power)取默认值,计算结果如下(格式略有变动):4.2一元加权最小二乘估计
2024/4/6178
4.2一元加权最小二乘估计
2024/4/61794.2一元加权最小二乘估计
2024/4/6180
幂指数m的最优取值为m=1.5。加权最小二乘的r2=0.9360,F值=423.741;普通最小二乘的r2=0.912,F值=300.732。说明加权最小二乘估计的效果好于普通最小二乘的效果。4.2一元加权最小二乘估计
2024/4/6181
图4.2加权最小二乘残差图残差图序号小方差组126487771.2161E-06169211210592101.1314E-06-271439099541.0069E-06-105-664131105089.2837E-07-111-745122109798.6927E-07-159-1246107119127.6917E-07-253-2217406127476.9485E-07-2548503134996.3760E-078359431142695.8669E-07-129-10510588155225.1710E-07-78-584.2一元加权最小二乘估计
2024/4/6182
序号中等方差组11898167304.6212E-0713014612950176634.2599E-0710311613779185753.9501E-07-146-13514819196353.6346E-07-195-188151222211633.2481E-077880161702228802.8895E-07413409171578241272.6684E-07183176181654256042.4408E-07134122191400265002.3181E-07-195-211201829276702.1726E-07134115212200283002.1005E-074524314.2一元加权最小二乘估计
2024/4/6183
序号大方差组222017274302.2012E-07343324232105295601.9676E-07250225241600281502.1173E-07-135-156252250321001.7388E-07180147262420325001.7068E-07317281272570352501.5110E-07234190281720335001.6309E-07-468-507291900360001.4640E-07-500-546302100362001.4519E-07-317-364312300382001.3394E-07-286-3404.2一元加权最小二乘估计
2024/4/6184
不是像小残差组那样得到改善,而是误差变得更大。其道理也很简单,加权最小二乘估计照顾小残差项是以牺牲大残差项为代价的,有得必有失,也是有局限性的。从上面的分析看到,当回归模型存在异方差时,加权最小二乘估计只是对普通最小二乘估计的改进,这种改进有可能是细微的,不能理解为加权最小二乘估计一定会得到与普通最小二乘估计截然不同的回归方程,或者一定有大幅度的改进。实际上,可以构造出这样的数据,回归模型存在很强的异方差,但是普通最小二乘与加权最小二乘所得的回归方程却完全一样。另外,加权最小二乘以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果,这也并不总是研究者所需要的。在社会经济现象中,通常变量取值大时方差也大,在以经济总量为研究目标时,更关心的是变量取值大的项,而普通最小二乘恰好能满足这个要求。所以在这样的一些特定场合下,即使数据存在异方差,也仍然可以选择使用普通最小二乘估计。2024/4/61854.3多元加权最小二乘
2024/4/6186当误差项εi存在异方差时,加权离差平方和为记加权最小二乘估计WLS的矩阵表达4.3多元加权最小二乘估计
2024/4/6187
通常取权函数W为某个自变量xj(j=1,2,…,p)的幂函数,即,在x1,x2,…,xp这p个自变量中取哪一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 益阳医学高等专科学校《人才素质测评与选拔》2023-2024学年第二学期期末试卷
- 做账实操-机械制造公司的账务处理分录
- 郑州经贸学院《网路原理与技术》2023-2024学年第二学期期末试卷
- 陕西服装工程学院《专业课程综合2(酒店)》2023-2024学年第二学期期末试卷
- 贵阳人文科技学院《环境与食品安全》2023-2024学年第二学期期末试卷
- 2025山西省建筑安全员-C证考试题库
- 广西财经学院《老年社会工作》2023-2024学年第二学期期末试卷
- 大连理工大学城市学院《地理空间数据库》2023-2024学年第二学期期末试卷
- 常德职业技术学院《药剂学A》2023-2024学年第二学期期末试卷
- 山西金融职业学院《公共危机治理》2023-2024学年第二学期期末试卷
- 中央经济会议2024原文及解释
- QB-T 5823-2023 工坊啤酒机械 发酵罐
- 新高考化学2024备考选择题高频热点专项突破16 弱电解质的电离平衡
- 2021年古包头市昆都仑区水务公司招聘考试试题及答案
- 关于中小企业“融资难”问题的对策研究-基于台湾经验和启示
- 固体废弃物管理培训
- 硬件工程师职业生涯规划
- 【高新技术企业所得税税务筹划探析案例:以科大讯飞为例13000字(论文)】
- 提升管理层领导力的酒店管理培训课程
- 思维导图在初中英语复习课中的应用研究的中期报告
- 绝对干货!国有企业总经理办公会决策事项及总经理职责清单
评论
0/150
提交评论