(重点)一元线性回归分析_第1页
(重点)一元线性回归分析_第2页
(重点)一元线性回归分析_第3页
(重点)一元线性回归分析_第4页
(重点)一元线性回归分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一元线性回归分析一变量之间的关系:函数关系:确定性关系相关关系:不确定性关系相关关系的测度:散点图线性相关关系的测度:相关系数相关关系不等于因果关系二回归的含义:回归这一术语最早来源于生物遗传学,由高尔顿( Francis Galton)引入。回归的现代解释:回归分析是研究某一变量(因变量)与另一个或多个变量(解释变量、自变量)之间的依存关系,用解释变量的已知值或固定值来估计或预测因变量的总体平均值。因变量: Y自变量: X 或 X1,X2, 等高尔顿的兴趣在于寻找为什么总体身高分布趋向稳定。现在我们所关心的已不是这个问题, 而是想知道在已知父亲身高的情况下,儿子的身高的平均变化如何。 换句话

2、说,就是已知父亲身高来预测儿子的平均身高。假设进行抽样试验,得以下结果:父亲身高( X)1.501.601.701.801.90儿子身高( Y)1.521.651.681.811.89Y v s. X1.91.8Y1.71.61.51.41.51.61.71.81.92.0X假设进行多次抽样( 5 次),则对于同一个X 值,会有多个 Y 值与之对应,即 Y 有多个取值。假设作出的散点图如下:Y v s. X2.01.91.8Y 1.71.61.51.41.41.51.61.71.81.92.0X为了找出 X 与 Y 的关联关系,一个自然的想法是取X=Xi 时,所有 Y值的平均值作为对应X=Xi

3、 时 Y 的代表值,亦即取:E(Y1)E(Y / XX1)E(Y2)E(Y / XX2)对于任何一个 X 的可能值 X i ,我们都可以相应的取:E(Yi )E(Y / XX i )当 X 变化时,上式左边是X 的一个确定的函数,可以记为:E(Yi )E(Y / XX i )f ( X i )于是,我们可以用一个确定的函数E(Y)f ( X )来大体描述 Y 与 X 之间的变化规律。E(Y)f ( X )为 Y 对 X 的回归方程,它反映了 X 固定的条件下 Y 的平均状态的变化情况。 Y 对 X 的回归就是 Y 对 X 的条件期望函数。三相关分析和回归分析之间的关系相关分析的主要目的在于度量

4、两个变量之间的线性关系的程度。回归分析,已如前述,我们首先并不对这种度量有兴趣,而主要是想根据一些有关变量的已知值来估计或预测某一变量的平均值。相关分析与回归分析在技术上的区别:相关分析同等对待任何两个变量, 无自变量和因变量的区别。 两个变量都假定为随机变量。回归分析对自变量和因变量不同对待。 因变量是随机变量, 而自变量是非随机的,是给定(固定)变量。四总体回归函数定义:每一个条件均值E(Y/X=Xi )(简写为 E(Y/Xi )是 Xi 的一个E(Y / X i )f ( X i )函数,即: E(Y / Xi )f ( xi )f (xi ) :总体回归函数设E(Y / X i )f

5、( Xi )b1b2 Xi(线性总体回归函数)b1:截距( intercept)b2 :斜率系数 (slope)五线性的意义:变量线性:变量的幂指数为1,没有两个不同变量的乘除运算,也没有自变量作为幂指数运用。参数线性:参数的幂指数为1。线性回归一般指的是参数的线性,而变量可能是线性, 也可能是非线性。六总体回归函数的整体设定:设各个 Y 与其期望值的离差为:ui Yi E(Y / X i )i即: Yi E(Y / X i ) uiui :随机误差项,不可观察的随机变量,可以为正,也可为负。当E(Y / Xi )b1 b2 Xi 时,则: Yi b1 b2 X i ui随机误差项的性质:可能

6、代表了模型中并未包括的变量的影响;反映了人类行为中的一些内在随机性;可能反映一些测量误差。七样本回归函数:当未掌握总体资料时, 以样本资料拟合的回归线是总体回归线的近似代表(估计),因此样本回归函数可以写为:(假设为一元线性回归模型)?b1b2 X iYi总体回归参数b1、 b2 的估计量E( Y/X i )的估计量?样本回归函数也可以有随机设定的方程,设eiYiYi即:?YiYiei?X ieiYi b1b2ei :残差项,简称残差,是 ui 的估计。YieiYiui样本回归直线?E(Y/X i )总体回归直线x i八回归模型的假定:回归模型的基本假定:1线性假定:自变量与因变量是线性函数关

7、系。即:Yib1 b2 X i uiYib1 b2 X 2i b3 X 3iui2解释变量 X 与扰动项 u 不相关假定:当 X 是非随机变量,即确定性变量时,该条件自动满足;当 X 是随机变量时,该假定要求X 与 u 不相关。cov(ui , Xi )03关于随机误差项(扰动项)的假定:a.零均值假定:给定解释变量的值,随机误差项的期望值为0。即:E(u / X i )0结合上一假定,该条件等价于:E (ui )0b.同方差 (homoscedasticity)假定:不同的扰动项具有相同的方差。即:var(ui ) var(uj )2 ,i, j 1,2,., n否则称为异方差。结合前面的假

8、定,同方差假定等价于:var(Y / X i ) var(u / X i )var(ui )2c.无自相关或序列相关( no autocorrelation)假定:不同扰动项之间的协方差为零,即:cov(ui , uj )0,ij该假定等价于:cov(Yi , Yj )0,ij4模型设定的假定:回归模型的设定是正确的,即模型不存在设定偏差 (Specification bias)或设定误差 (specification error)。5扰动项的假定:扰动项服从正态分布。结合 3 和 4 即为:ui N (0,2 )九参数的估计:最小二乘估计最小二乘法则:所谓最小二乘法则,就是按照使残差平方和最

9、小的原则来确定回归系数的估计量,从而建立拟合最佳的样本回归方程。?eiYiYieiYi?b1b2 X i依据最小二乘法则确定参数, 从而建立样本回归函数的方法, 叫最小二乘法。Q e2i(Yi? ?f (b1, b2 )?b12b?2 X i )min要使 Q 最小,即求函数的极值。为此,要求函数的偏导数,并令其为零:Q(Yi?X i ) 0?b1b2b1Q(Yi?Xi )X i 0?b1b2b2等价于:ei0eiX i0解正规方程组:Yinb1 b2X iYiXib1Xi b2 Xi 2?( Xi X )(Yi Y )xi yi最后得参数的估计值为:b2( Xi X )22xi?b1Y b2

10、 X其中:xiX iX ; yiYiY用 OLS 法估计得到的估计量称为最小二乘估计量。十回归系数的特征分析:利用不同的样本回归就得到不同的回归系数,问题是最小二乘方法所得到的统计量,是否是一个理想的统计量,因此有必要讨论一下回归系数的数学期望和方差。回归系数是观测值Y 函数由于( Xi X )(YiY)xYiib2( X i X ) 2=xi2 =ki Yi(1)xikixi2这表明 b2 是 Yi 的一个线性函数, 这是一个线性估计量, 同理 b1 也是一个线性估计量。ki 具有以下的性质:ki 是非随机的,因为xi 是非随机的ki0ki21xi2ki xiki X i 1以上性质均可从k

11、i 的定义直接验证现将Yib1b2 Xiui直接带入( 1)得: b2ki (b1b2 Xiui )= b1kib2ki Xiki ui= 2i i(2)bku对上式两边取数学期望,得:E (b2 )b2ki E(ui )b2因此, b2 是 b2 的无偏估计量,同理b1 是 b1 的一个无偏估计量。b2 的方差 Var (b2 ) E(b2E(b2 ) 2= E(b2b2 ) 2利用( 2)的结果有: Var (b2 )E(ki ui )2E( k12u12k22u22. kn2 un2.)因为假定对每一 i , E(ui2 )2,且对 ij , E(ui u j ) 022故 Var (b

12、2 )2ki2 =(X i X )2xi2故 b2 (b2 ,2)( X iX ) 22X i22 )同样可得: b1 (b1 ,X )n ( X i随机扰动项的方差2 的估计:2ei2(YiYi )2n 2n22 称为回归标准差( standard error of the regression),它为 Y 值偏离 Y 的标准差。十一、回归系数的区间估计当用回归标准差估计扰动项方差时,可证明以下统计量服从t 分布:?b1 t (n 2)t1b1?Xi2?Se b2( 1)Se(b1)nxi?1t2b2 b2 t (n 2)?Se(b2 )2Se(b2 )xi当自由度一定时,对于给定的显著性水

13、平,统计量 t 的 1的置信区间为:P( t t )12即 : P( tt t ) 1221 /2 /2t/ 2t / 2?b2b2将t2?Se(b2 )?b2代入上式得:P( tb2t) 12?2Se(b2 )所以参数b2 的 1的置信区间为:?t? ?t?b2Se(b2 ),b2Se(b2 )22同理,参数 b1 的 1置信区间为:?t? ?t?b1Se(b1 ), b1Se(b1 )22十二、拟合优度的度量:拟合优度(程度)是指样本观测值聚集在样本回归线周围的紧密程度。总离差平方和的分解 :2(YiY ) : 总离差平方和,又称为总变差,记为 TSS( total sum of squa

14、res);(Yi Y )2?Y Yi? 2(YiYi )?Y )2(Yi? 2?Y )(Yi?)(YiYi )2 (YiYi?Y )2(Yi? 2(YiYi )?Y )22(Yiei随机干扰的结果;(YiY )X 线性作用的结果。2 :回归平方和,记为ESS( explained sum of squares);?e2:残差平方和,记为RSS( residual sum of squares)。i离差化表示法:yi2y?i2ei2TSSESSRSS判定系数( coefficient of determination)R2:对式 TSSESSRSS两边同除以 TSS 得:1ESSRSSTSSTS

15、S2定义为判定系数R ,用于度量回归模型R2ESS1RSSTSSTSS判定系数的性质:1非负性,即 R20;20 R21,当 R2=1 时,为完全拟合,表示线性模型完全解释Y 的变动;当 R2=0 时,为完全不拟合,表示线性模型无法解释Y 的变动,即 X与Y无关;通常, 0<R 2<1,判定系数越大,表示拟合优度越好。3在双变量模型中, 解释变量 X 与被解释变量 Y 之间的相关系数的平方等于判定系数。即:rXY2R2rXYR2?相关系数的符号取决于回归系数b2 的符号。十三、显著性检验(一)回归系数的显著性检验(t 检验)回归系数的显著性检验是一种假设检验。以 b2 为例,对总体

16、参数 b2 的值提出假设, 检验估计量与假设值之间的差异是否显著。 若差异显著,就不能接受这个假设;若差异不显著,就不能拒绝这个假设具体步骤:1 提出假设。H0: bb*22H1 : b2b2*b2* 是某一给定的数值,通常的计算机检验中,设定b2*0即假设为:H 0 : b20H1 : b202计算 T 检验的值:tb2b2b2t ( n 2)Se (b2 )tbb2t(n 2)若假定 2Seb(2 )0 ,则2b3、根据给定的自由度和显著性水平,查出临界值4.做出判断:t ?tb2t ?tb2(或 p> ):接受 H 0;2(或 p< ):拒绝 H 0,接受 H 1。21 /2

17、 /2t/ 2t / 2如果接受 H 0 则说明 Y 与 X 无关, X 无法解释 Y 的变化。反之则说明X 可以解释 Y 的变化。十四、预测(一) 总体均值 E(Y0/X0) 的点预测回归方程估计好后, 可对总体的均值进行预测, 即给定解释变量的一个值 X0 ,代入拟合的方程中可得总体真实均值E(Y0/X0) 的估计值?b1b2 X 0Y0(二) 总体均值 E(Y0/X0) 的区间估计可以证明:? N (b121( X0X )2Y0b2 X , xi2)n所以,总体均值E(Y0/X0) 的置信度为 1区间估计为:Y?0t Se(Y?0 )E(Y0/ X0)Y?0t Se(Y?0 )22从上式可以看出,样本容量n 越大,预测误差越小;给定样本容量的情况下,X0 的取值越接近于X 的样本均值,预测误差越小。(三)、对Y 的个别值的预测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论