管理统计学-第九章-回归分析方法_第1页
管理统计学-第九章-回归分析方法_第2页
管理统计学-第九章-回归分析方法_第3页
管理统计学-第九章-回归分析方法_第4页
管理统计学-第九章-回归分析方法_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 回归分析方法“回归” 一词的由来 “回归”英文为“regression”,是由英国著名生物学家兼统计学家Galton(高尔顿)在研究人类遗传问题时提出的。 为了研究父代身高(X)与子代身高(Y)的关系,Galton收集了上千对父亲及其一子的身高数据。经过对数据的深入分析,发现了一个很有趣的现象回归效应。回归分析的定义 回归分析是数理统计学的一个重要组成部分,它的任务是研究变量之间的相关关系,建立变量之间的经验公式,以便达到预测和控制的目的。 回归分析是研究变量间相关关系的一门学科。它通过对客观事物中变量的大量观察或试验获得的数据,去寻找隐藏在数据背后的相关关系,给出它们的表达式回归函数

2、的估计。1.相关关系在实际问题中,我们常常遇到多个变量处于同一个过程之中,它们相互联系、相互制约。 不完全确定关系:人的身高(X)与体重(Y),人的血压(Y)与年龄(X)(不能用一个确定的函数关系式表达出来)这些r、v之间的关系称为“相关关系”。完全确定函数关系:2.回归分析 为了深入了解事物的本质,往往也需要我们去寻找这些变量之间的数量关系式。 回归分析就是为了寻找这类不完全确定的变量间的数学关系式并进行统计推断的一种方法。3.回归分析的主要内容(1)从一组数据出发,确定这些变量(参数)间的定量关系(回归模型)(2)对模型的可信度进行统计检验(3)从有关的许多变量中,判断变量的显著性(即哪些

3、是显著的,哪些是不显著的,显著的保留,不显著的忽略)(4)应用结果对实际问题做出判断自变量X回归变量,因变量Y应变量(响应变量)我们可以设想:Y的值由两部分组成一、由X能决定的部分,它是X的函数,记为(X)二、由其它众多未加考虑的因素(包括随机因素)产生的影响,它被看作随机误差,也是随即变量,记为于是我们得到如下模型:Y=(X)+9.1一元线性回归方法1.一般形式一元回归模型的一般形式记为:并设观察值为y,则: , 是未知的待定系数,称其为回归系数 2.模型分析:假设 , ,即是相互独立的rv,则随机变量假设有一组试验数据并假设其中是相互独立的随机变量,且若用分别表示的估计值,则称为y关于x的

4、一元线性回归方程下面我们要研究的问题是(2)如何检验回归方程的可信度?解决第一个问题采用最小二乘估计解决第二个问题采用统计检验的方法(1)如何根据来求的估计值?随机误差的平方和达到最小9.1.2 参数的最小二乘估计最小二乘法估计,即取的估计值使若记为使 与 的拟合最佳,则显然,且关于可微,则由多元函数存在极值的必要条件得:此方程为正规方程组,求解可得到:称 为 的最小二乘估计,其中即的性质:(1)(2)(3) 三者相互独立(4)(5)9.1.3 回归方程的显著性检验前面是根据回归方程 求出了估计值 ,现在的问题是:y与x之间是否存在这种关系?即回归方程是否一定有意义?即当x变化时,y是否为这就

5、需要对回归方程作出显著性检验,实际上,只要统计量。从而有一常数,也就是说这里 是否为0?检验 是否为真,这就需要建立一个检验的之间的差异回归变量x的变化所引起的误差,它的大小反映了x的重要程度。先考虑总偏差平方和 ,表示其中 是残差平方和,表示由随即误差和其它未加控制的因素所引起的误差, 是回归平方和,表示由事实上,由正规方程组知由于每一个平方和都有一个自由度(free)(即相互独立的不受约束随机变量的个数),用 表示则总偏差平方和的自由度回归平方和的自由度残差平方和的自由度可以证明在 的假设下,给定一个模型的显著性水平通过查表得到F分布的值,记为,若是显著的,反之是不显著的。则表明 是小概率

6、事件确实算出 ,说明 不成立,说明 必不可少。换言之,模型对水平 而言9.1.4 回归方程的拟合检验通过对回归方程的显著性检验,在显著的情况下,即说明x对y的影响是主要的, 但不能肯定y与x的关系一定是线性的,也可能是非 线性的,也可能还存在其他的影响因素下进行重复试验,检验回归方程的拟合问题 假设对同一个 ,进行 次试验,得到观测数据 ,为此,就需要在同一个即,共有 组独立观测数据检验是否为真。为建立统计量,考虑相应的残差平方和其中为第 i 组试验数据的平均值 这有两种可能:y不是x的线性关系。回归变量的个数不够,需要增加新的变量,究竟属于哪一种需要找出原因作进一步的改进。若 ,模型拟合是好

7、的,其它因素所产生的误差不明显,不显著若 ,模型拟合不好,说明其它因素所产生的误差超过了试验误差,是显著的,需要进一步改进模型9.2 多元线性回归方法9.2.1多元线性回归模型(9.2)(9.3)令其中 为随机误差, , 均为实际问题的解释变量,是已知函数。假设作了n次试验得到n组观测值为:代入(9.3)中可得(9.4)(其中 为第i次试验时随机误差)该模型关于回归系数 是线性的,u为一般向量,若用矩阵形式,(9.4)变为:即其中X是模型设计矩阵,Y与 是随机向量且 , (I为n阶单位阵) 是不可观测的随机误差向量, 是回归系数构成的向量,是未知、待定的常数向量。9.2.2 回归系数 的最小二

8、乘估计选取 的一个估计值 使随机误差 的平方和达到最小由上式(正规方程组)记系数矩阵 ,常数矩阵 是非负二次式,是可微的,由多元函数取得极值的必要条件可得:如果 存在,称其为相关矩阵1.可以证明:对任意给定的X,Y,正规方程组总有解,虽然当X不满秩时,其解不唯一,但对任意一组解 都能是残差平方和最小,即3.性质2.当X满秩时,即则正规方程组的解为 ,即为回归系数的估计值9.2.3 回归分析模型的显著性检验主要是检验模型是否一定与解释变量有密切的关系类似一元情形,考虑回归分析表来源平方和自由度均方和F值回归平方和m-1残差平方和n-m总平方和n-1,回归与响应关系越密切定义:负相关系数对于给定显

9、著水平 ,模型显著则拒绝 成立,即 与u存在明显的函数关系;当 ,模型不显著, 是成立的,即 与u不存在明显的函数关系。9.2.4 回归模型的拟合性检验 在模型的检验显著的情况下,需要进一步地做拟合性检验,目的是检验是否一定为(9.2)所给的形式,即是否还存在其他的影响因素没有考虑到。将回归变量u的n个观测值 按相同值分为k组,每组个数为 ,显然 ;相应 也可以分为k组,即第i组观测值为 当 ,说明模型拟合比较好,是不显著的,省略所造成误差不大 当 ,模型拟合不好,是显著的,省略所造成的误差影响不可忽略,需要增加新的变量9.3 回归模型的选择方法由上面拟合性检验结果:引入新的解释变量从模型中去

10、掉 模型拟合性检验是显著的,即未考虑到的因素的影响不可忽略 模型拟合性检验是不显著的,即模型中的解释变量已经足够了,但是并不足说明模型中所有的变量都是必须的,有可能有多余的变量引入,去掉都涉及到模型的选择 模型选择的基本原则:即不遗漏一个重要的解释变量,但也不把一个无用的解释变量保留在模型中。 用偏回归平方和的大小来衡量一个解释变量在模型中的重要性。假设给定一组解释变量,它的残差平方和为:9.3.1 去掉解释变量假设把一个无用的解释变量去掉(不妨去掉 ,即 )相应的计算 ,如果则称:为解释变量 的偏回归平方和,其大小反映了 在模型中的贡献的大小,即是衡量一个解释变量的重要性的定量指标,其大小决

11、定了能否去掉这个解释变量。9.3.2 增加解释变量 设引进 ,记为 在试验观测点的值为:m个变量的回归系数的估计值取为:相应的残差平方和为:而可以证明: 的偏回归平方和为9.4 回归模型的正交设计法由前面几节知:多元线性回归有两个基本缺点: 一是计算复杂,其复杂程度随着自变量个数的增加而迅速增加 二是由于回归系数之间存在相关性,当剔除某个自变量后,还必须重新计算回归系数 多元线性回归的两个基本缺点是由于系数矩阵A不是对角阵造成的,因此如何使A为对角矩阵是问题的关键所在9.4.1 正交的概念设 是m个解释变量,如果对于 满足1)对角线上的元素不为02)除对角线上都为0则称 是正交的如何构造正交函

12、数系呢? 通常情况下,正交函数都为正交多项式,首先对于一维回归变量u来说明构造正交多项式的方法。设有点列 ,取 ,其中其中由此可以构造出任意阶的正交多项式我们可以得到正交回归且第k个解释变量的偏回归平方和为:所以残差平方和为:9.5 多重线性与有偏估计我们先引进评价一个估计优劣的标准均方误差(MSE)(Mean Squared Errors)设Q未知参数向量, 为 的一个估计,定义 的均方误差为它度量了估计 与未知参数向量 平均偏离的大小,故一个好的估计应该有较小的均方误差。定理1.这里trA表示方阵A的迹,即A的对角元素和由于最小二乘估计 为无偏估计,在均方差中,第二项值为0,又因为由于 是

13、对称正定阵,于是存在mxm正交阵使 对角化,即这里 为 的特征值记 ,则 分别为对应于的标准正交化特征向量,所以容易验证故从这里可以看出 为 的特征值,再利用 ,以及得所以为病态方程。 从这个表达式中我们可以看出,如果 至少有一个特征根非常小,即非常接近于零 那么 就会很大,这时,从均方误差的标准来看,这时的最小二乘估计 就不是一个好的估计,并且称正规方程组当 很大时,此时m个解释变量之间具有多重共线性,即也就是说设计矩阵X的列向量之间有近似的线性关系,但非绝对的线性关系。衡量多重共线性程度量用来表示1)k100时,则不存在多重共线性2)100k1000时,则存在较强的多重共线性3)当k100

14、0时,则存在严重的多重共线性9.5.2 回归系数的有偏估计从上面讨论我们知道,当设计矩阵存在复共线关系时,最小二乘估计的性质不理想,有时甚至很坏。在这种情况下我们就需要些新的估计方法,近三十年来,人们提出了许多种新估计,其中在理论上最有影响并且得到广泛应用的就是岭估计。回归系数的岭估计定义为:这里k0是可选择参数,称为岭参数或偏参数,当k取不同值时,我们就得到不同的估计,因此岭估计 是一个估计量。主成份估计的方法:1)做正交变换Z=XP,获得新的自变量,称为主成份2)做回归自变量选择,剔除对应的特征值比较小的那些主成份3)将剩余的主成份对Y做最小二乘回归,再返回到原来的参数,使得到因变量到原始

15、自变量的主成份回归本章例题:(1)问题研究学者,得到如下数据(i为学者序号)(见表8.1)。某类研究学者的年薪工薪阶层关心年薪与哪些因素有关,以此可制定出它们自己的奋斗目标。某科学基金会希望估计从事某研究的学者的年薪Y与他们的研究成果(论文、著作等)的质量指标X1、从事研究工作的时间X2、能成功获得资助的指标X3之间的关系,为此按一定的实验设计方法调查了24位i123456789101112xi13.55.35.15.84.26.06.85.53.17.24.54.9xi29201833311325305472511xi36.16.47.46.77.55.96.04.05.88.35.06.4

16、yi33.240.338.746.841.437.539.040.730.152.938.231.8i131415161718192021222324xi18.06.56.63.76.27.04.04.55.95.64.83.9xi223353921740352333273415xi37.67.05.04.45.57.06.03.54.94.38.05.8yi43.344.142.533.634.248.038.035.940.436.845.235.1表8.1 从事某种研究的学者的相关指标数据试建立Y与X1,X2,X3之间关系的数学模型,并得出有关结论和作统计分析。(2)作出因变量Y与各自变

17、量的样本散点图作散点图的目的主要是观察因变量Y与各自变量间是否有比较好的线性关系,以便选择恰当的数学模型形式。图8.1分别为年薪Y与成果质量指标x1、研究工作时间x2、获得资助的指标x3之间的散点图,从图8.1可以看出这些点大致分布在一条直线旁边,因此,有比较好的线性关系,可以采用线性回归。Y与x1的散点图Y与x2的散点图Y与x3的散点图图8.1 因变量Y与各自变量的样本散点图(3)利用Matlab统计工具得到初步的回归方程设回归方程为:建立m-文件输入如下程序数据:x1=3.5 5.3 5.1 5.8 4.2 6.0 6.8 5.5 3.1 7.2 4.5 4.9 8.0 6.5 6.5 3

18、.7 6.2 7.0 4.0 4.5 5.9 5.6 4.8 3.9;x2=9 20 18 33 31 13 25 30 5 47 25 11 23 35 39 21 7 40 35 23 35 39 21 7 40 35 23 33 27 34 15;x3=6.1 6.4 7.4 6.7 7.5 5.9 6.0 4.0 5.8 8.3 5.0 6.4 7.6 7.0 5.0 4.0 5.5 7.0 6.0 3.5 4.9 4.3 8.0 5.0;Y=33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42

19、.5 33.6 34.2 48.0 38.0 35.9 40.4 36.8 45.2 35.1;n=24; m=3;X=ones(n,1),x1,x2,x3;b,bint,r,rint,s=regress(Y,X,0.05);b,bint,r,rint,s,运行后即得到结果如表8.2所示。表8.2 对初步回归模型的计算结果回归系数回归系数的估计值回归系数的置信区间018.015713.9052 22.126211.08170.3900 1.773320.32120.2440 0.398431.28350.6691 1.8979R2=0.9106 F=67.9195 p0.0001 s2=3.0

20、719计算结果包括回归系数m-1)计算。因此我们得到初步的回归方程为:统计变量stats,它包含四个检验统计量;相关系且置信区间均不包含零点;残差及置信区间;p, 的值7.0以前版本 也可由程序sum(r.2)/(n-数的平方 ,假设检验统计量F,与F对应的概率由结果对模型的判断表明线性相关性较强。有较强的线性相关性。本例中R的绝对值为0.9542 ,值在0.81范围内,可判断回归自变量与因变量具相关系数R的评价:一般地,相关系数绝对验统计量R、F、p的值判断该模型是否可用。残差在零点附近也表示模型较好,接着就是利用检回归系数置信区间不包含零点表示模型较好,F检验法:当 ,即认为因变查F分布表

21、或输入命令finv(0.95,3,20)计算。系;否则认为因变量y与自变量 之间线量y与自变量 之间显著地有线性相关关性相关关系不显著。本例p值检验:若 ( 为预订显著水平),线性相关关系。本例输出结果, ,显然满则说明因变量y与自变量 之间显著地有足 。以上三种统计推断方法推断的结果是一致的,(4)模型的精细分析和改进在模型改进时作为参考。说明因变量y与自变量之间显著地有线性相关关系,所得线性回归模型可用。 当然越小越好,这主要残差分析。残差 ,是各种观测值 与回归方程所对应得到的拟合值之差,实际上,它是线性回归模型中误差 的估计值。 即有零均值和常值方差,利用残差的这种特性反过来考察模型的

22、合理性就是残差分析的基本思想。利用Matlab进行残差分析则是通过残差自变量的高次项及交叉项等问题给出直观的检验。差的等方差性以及回归函数中是否包含其他自变量、观察残差图,可以对奇异点进行分析,还可以对误变量的观测值;c.横坐标为因变量的拟合值。通过坐标为观测时间或观测值序号;b.横坐标为某个自其他指定的量为横坐标的散点图。主要包括:a.横图或时序残差图。残差图是指以残差为纵坐标,以以观测值序号为横坐标,残差为纵坐标所得到模型为如果作为奇异点看待,去掉后重新拟合,则得回归第4、12、 19这三个样本点的残差偏离原点较远,差大多分布在零的附近,因此还是比较好的,不过语句为rcoplot(r,rint) (见图8.2)。可以清楚看到残的散点图称为时序残差图,画出时序残差图的Matlab图8.2 时序残差图且回归系数的置信区间更小,均不包含原点,统计得到改进。115.5586, 0.0000,比较可知R,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论