多元的线性回归_第1页
多元的线性回归_第2页
多元的线性回归_第3页
多元的线性回归_第4页
多元的线性回归_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精彩文档精彩文档多元线性回归模型一、多元线性回归模型的一般形式设随机变量与一般变量X,X,…,X的线性回归模型为:12p写成矩阵形式为:y=XB+8其中:一1一1XX11121XXX=•21221XX1—n1n2XpXp,Xnp」二、多元线性回归模型的基本假定TOC\o"1-5"\h\z解释变量X,X,…,X是确定性变量,不是随机变量,且要求12pran(X)=p+1<n。这里的rank(X)=p+1<n表明设计矩阵中自变量列之间不相关,样本容量的个数应大于解释变量的个数,是一满秩矩阵。^E(8.)=0,i=1,2,…,n、随机误差项具有均值和等方差,即:[g,、Jo2,i=j0、cov(8,8)=<,(i,J=1,2,…,n)»jI0,i丰JE(8)=0,即假设观测值没有系统误差,随机误差8的平均值为0随机误差8iii的协方差为表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立),不存在序列相关,并且具有相同的精度。、正态分布的假定条件为:[8i~N(0,02),iL1±…,n,矩阵表示:8~N(0,o21)I8,8,…8相互独立n112n由该假定和多元正态分布的性质可知,随机变量服从维正态分布,回归模型的期望向量为:E(y)=XB;var(y)=o21因此有y~N(XB,021)nn三、多元线性回归方程的解释对于一般情况含有p个自变量的回归方程E(y)=B+BX+BX+…+BX的01122pp解释,每个回归系数B表示在回归方程中其他自变量保持不变的情况下,自变i量X每增加一个单位时因变量的平均增加程度。因此通常把多元线性回归的回i归系数称为偏回归系数。下面看个例子,考虑国内生产总值和三次产业增加值的关系,这个问题中P+X+X是确定性的函数关系,可以看作误差项为123的特殊回归关系。个回归系数都是1对P解释为第二产业增加值X每增加22亿元也增加亿元。假设做对X的一元线性回归,得到回归方程为2y=5289.9+1.8554x,对这个方程回归系数的解释是第二产业增加值每增加2亿元增加亿元。两个回归方程对同样的经济现象给出了不同的解释,问题出在什么地方呢?多元回归系数表示在回归方程中其他自变量保持不变的情况下,相应自变量每增加一个单位时因变量的平均增加速度。因此在用多元回归方程P+X+X解释B时,一定要强调是在X和X保持不变的情况下,123213X每增加亿元也增加亿元。在用一元回归方程y=5289.9+1.8554x解22释回归系数时,要强调的是在方程之外的有关变量也相应变化时X每增加亿2元增加亿元。增加的亿元中x的直接贡献只用亿元,2回归方程外的X和X的贡献是亿元。这里又出现一个问题,为什么回归13方程外的X和X贡献是亿元4而不是亿元呢?可以通过考察数据,X132的增加幅度远大于X和X的增加幅度,假如X增加亿元,X和X相应的增加13213幅度都达不到1亿元。四、参数估计要想用估计多元线性回归模型的未知数,样本容量必须不少于模型中参数的个数。在正态假定下,回归参数P的(最大似然估计)与(最小二乘估计)完全相同,即B=(XX)-1Xy,误差项方差o2的为存2=-SSE=-(e'e),这Lnn是o2的有偏估计,但它满足一致性,在大样本的情况下,是o2的渐近无偏估计量。参数估计量的性质:人性质1B是随机向量的一个线性变换人性质2B是p的无偏估计人性质3D(p)=o2(XX)-1性质4高斯马尔科夫()定理()C是c乍的无偏估计()c珞的方差要小高斯马尔科夫定理在假定E(y)=XBD(y)=。2/时,B的任一线性函数nc乍的最小方差线性无偏估计为c附,其中是任一维常数向量,B是B的最小二乘估计。人此定理说明了用估计得到的估计量B是理想的估计量。关于这条性质,需要注意以下四点:第一,取常数向量的第(j=0,1,-,p)分量为1其余分量为0这时人定理表明最小二乘估计B是B的最小方差线性无偏估计。jj第二,可能存在y,y,…,y的非线性函数,作为c乍的无偏估计,比最小二12n乘估计c唱的方差更小。第三,可能存在c下的有偏估计量,在某种意义(例如均方差最小)下比最小二乘估计c唯更好。第四,在正态假定下,c用是c0的最小方差无偏估计。性质5cov(B,e)=0,在正态假定下B与不相关等价与B与独立,从而B与6%独立。性质6当y~N(XB,Q21)时,则]B~N(d02(XX)T)n[SEEo2~%2(n一p—1)五、自变量的显著性TOC\o"1-5"\h\z如何剔除多余的不显著的自变量?对自变量X,X,…,X线性回归的残差平方12p和为S回归平方和为S在剔除掉X后,用对其余的个自变量作回j归,所得的残差平方和记为SSE,回归平方和为SSR,则自变量X对回归的(j)(j)j贡献为:ASSR=SSR—SSR,称为x的偏回归平方和。由此可以构造偏统(j)(j)jASSR1计量:F=(j),当原假设H邛=0成立时,偏统计量F服从jSSE(n—p—1)0jjj自由度为(1)的分布,此检验与回归系数的检验是一致的,当从回归方程中剔除变量时,回归平方和减少,残差平方和增加。反之,当往回归方程中引入变量时,回归平方和增加,残差平方和减少,两者的增减量同样相等。六、关于拟合优度R2=SSRR2与回归方程中自变量的数目以及样本容量有关,当样本容量SST与自变量个数接近时,R2易接近1其中隐含着一些虚假成分。由R2决定模型优劣时还需慎重。七、中心化和标准化因为多元回归涉及的数据量很大,就可能由于舍入误差而使计算结果不理想。产生舍入误差有两个主要原因,一是回归分析计算中数据量级有很大差异,比如数据100与00.11这1样1的大小相差悬殊的数据出现在同一个计算中;二是设计矩阵X的列向量近似线性相关时,XX为病态矩阵,其逆矩阵(XX)-1就会产生较大的误差。1、中心化多元线性回归模型的一般形式为y=P+Px+Px+…+0x+801122pp人人人人其经验回归方程为J=0+0x+0x+…+0x01122pp此经验方程进过样本中心x,x,…,x;y将坐标原点移至样本中心,即作坐标12p变换:x'=x-xy'=y-yi=1,2,…,n;j=1,2,…,p上述经验方程即ijijii人人人人转变为:y'=0+0x,+0x'+…+0x'即为中心化经验回归方程。中心化经验01122pp人回归方程的常数项为0而回归系数的最小二乘估计值0保持不变,因为坐标系j平移变化只改变直线的截距,不改变直线的斜率。2、标准化回归系数为了消除量纲不同和数量级的差异所带来的影响,就需要将样本数据作标准化处理,然后用最小二乘法估计未知参数,求得标准化系数。x-x-y-y样本数据标准化公式:x=ijjy=ii=1,2,…,n;j=1,2,…,pTOC\o"1-5"\h\zijLiLjjyy其中:L=Z(x-x)2,L=Z(y-y)2jjijjyyii=1i=1L标准化回归系数与最小二乘回归系数之间存在关系式:0'=00jLjyy人普通最小二乘估计0表示在其他变量不变的情况下,自变量x的每单位的绝对jj人变化引起的因变量均值的绝对变化量。标准化回归系数0'表示自变量x的相jj对变化(相对于L)引起的因变量均值的相对变化百分数(相对于L)。jjyy标准化回归系数是比较自变量对影响程度相对重要性的一种较为理想的方法,有了标准化回归系数后,变量的相对重要性就容易进行比较了。但是,仍要注意对回归系数的解释须采取谨慎的态度,这是因为当自变量相关时会影响标准化回归系数的大小。八、相关阵与偏相关系数1、样本相关阵负相关系数反映了与一组自变量的相关性,是整体和共性指标,简单相关系数反映的是两个变量见的相关性,是局部和个性指标。在分析问题时,应该本着整体与局部相结合,共性与个性相结合的原则。求出与每个自变量X的相关系iTOC\o"1-5"\h\z1rr…ry1y2ypr1r…r1y121p数r,得到增广的样本相关阵为:~=rr1…ryi2y21.2p::::rrr…1pyp1p22、偏决定系数在多元线性回归分析中,当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。偏相关系数可以度量个变量y,x,x,…,x之中任意12p两个变量的线性相关程度,而这种相关程度是在固定其余个变量的影响下的线性相关。偏决定系数测量在回归方程中已包含若干个自变量时,再引入某一个新的自变量时,的剩余变差的相对减少量,它衡量某个自变量对的变差减少的边际贡献。(1)两个自变量的偏决定系数二元线性回归模型为:y=P+Px+Px+8,i=1,2,…,ni01i12i2i记e是模型中只含有自变量x时的残差平方和,(X,X)是模型TOC\o"1-5"\h\z2212中同时含有自变量X和X时的残差平方和。模型中已含有X时,再加入X使1221的剩余变差的相对减小量为:r2=SSE(X2)-SSE(向X2)此时模型中已含有xy1,2SSE(x)22时,与X的偏决定系数。1(2)一般情况在模型中含有X,…,X时,与X的偏决定系数为:2p1SSE(x,…,x)-SSE(x,X,…,X)r2=2p―p-,偏决定系数与回归系数显著性检验y^2,…,pSSE(x,…,X)2p的偏值是等价的。3、偏相关系数

偏决定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。偏相关系数与回归系数显著性检验的值是等价的。下面看一个例子:对上面的数据做二元线性回归得到结果如下所示:偏相关系数表从输出结果可以看到,两个偏相关系数分别为r807进一步TOC\o"1-5"\h\zy1;2y2;1计算偏决定系数r2=2,表中相关系数栏的y1;2y2;1为与x的简单相关系数,分别为r,0,两个决定系iy1y2数分别为r2r22y1y2以上数据表明,用与x作一元线性回归时,x能消除的变差的比例为11r2,再引入变量x时,x能消除剩余变差e的比例为y1221r2因而自变量%和X消除变差的总比例为1212y2;112y1y2.这个值恰好是对X和X二元线性回归的决定系数R212偏相关系数反映的是变量间的相关性,任意个变量X,X,…,X定义它们之间的12p偏相关系数。记1=Lj。再看一个例子说明偏相关系数和简单相关系数jL•Liijj的关系。分别以X表示商品的销售量,X表示消费者人均可支配收入,X表示123商品价格。从经验上看,销售量与消费者的人均可支配收入之间应该有正相关,简单相关系数1应该是正的。但是如果计算出的1是个负数也不要感到惊讶,1212这是因为还有其他没有被固定的变量在发挥影响,例如商品的价格X在这期间大3幅提高了。反映固定X后X与X相关程度的偏相关系数1会是个正数。如果计31212;3算出的偏相关系数1仍然是个负数的话,是什么原因呢?肯定是还有需要考虑12;3而没有考虑的重要变量,也就是没有被固定的变量,会是什么变量?如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论