第三章双变量模型假设检验_第1页
第三章双变量模型假设检验_第2页
第三章双变量模型假设检验_第3页
第三章双变量模型假设检验_第4页
第三章双变量模型假设检验_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 回归分析概述参数估计模型检验模型预测第三章第三章双变量模型:假设检验古典线性回归模型的基本假定 最小二乘估计量的性质 普通最小二乘估计量的方差与标准误参数的普通最小二乘估计iiiXY10i=1,2,n见第二章2第二节 参数估计一、古典线性回归模型的基本假定 原因1:只有符合这些基本假定,才能保证OLS参数估计量具有良好的性质;原因3:随机误差项加上一个非随机项X生成了Y,因而Y也是随机变量。在根据SRF进行假设检验时,如果不对随机误差项的生成做一些特殊的假定,则无法进行假设检验。原因2:如果不满足这些假定,第二部分会进一步进行处理。这是基于学习的由浅入深、由理想状态到现实实际的步骤。3一、

2、古典线性回归模型的基本假定 假定1:回归模型是参数线性的假定2:随机误差项与解释变量X之间不相关。Cov(Xi, i)=0 i=1,2, ,n如果X是非随机的(即为固定值),则该假定自动满足。我们所指的回归分析是条件回归分析,即给定X条件下的回归分析,即我们一直假定X是非随机的。4假定3:给定X i,随机误差项的期望或均值为零。E(i X i)=0 i=1,2, ,n随机误差项(其他影响因素)与Xi(纳入模型的变量)之间不相关。5假定4:随机误差项具有同方差,即方差为常数。Var (i)=2 i=1,2, ,n与给定X相对应的每个Y的条件分布具有同方差,即每个Y值以相同的方差分布在其均值周围。

3、6假定5:无自相关。即随机误差项之间不相关。Cov(i, j)=0 ij i,j= 1,2, ,n表明误差项之间没有系统关系,即误差是随机的。7假定6:回归模型是正确设定的。即实证分析的模型不存在设定偏差。假定7:随机误差项服从零均值、同方差、零协方差的正态分布。iN(0, 2 ) i=1,2, ,n为了推导估计量的抽样分布,需要增加以下假定可以计算出OLS的估计量及其标准误、估计量的统计性质根据中心极限定理可得,参数估计量也服从正态分布进一步说明8),(2211ixN),(22200iixnXN9小结-古典线性回归模型的基本假定假定1:回归模型是参数线性的假定2:随机误差项与解释变量X之间不

4、相关。假定6:回归模型是正确设定的。即实证分析的模型不存在设定偏差。假定3、4、5、7:随机误差项服从零均值、同方差、零协方差的正态分布。iiiXY10i=1,2,n10二、普通最小二乘估计量的方差与标准误基于1-6假定,可以估计OLS估计量的方差和标准误。OLS估计量是随机变量,因为随着样本的不同,OLS估计量是不同的。OLS估计量是如何随样本变化而变化的呢,即这些估计量的抽样变异性是怎样的呢?这种抽样变异性通常由估计量的方差或其标准误(方差的平方根)来度量。11XYxyxiii1021参数估计量的方差和标准误12二、普通最小二乘估计量的方差与标准误)var()var()var()var(2

5、1021iiiiiiikXkYk22222iiixxx221020)/1 ()var()var()var(iiiiiikXnXwYw2222222221121iiiiixxXkXnnkXkXnn22222222221iiiiixnXxnXnxxXn13随机误差项的方差2的估计 由于随机项 i不可观测,只能从 i的估计残差ei i出发,对总体方差进行估计。 二、普通最小二乘估计量的方差与标准误2又称为总体方差总体方差。14 可以证明可以证明,2的最小二乘估计量最小二乘估计量为222nei二、普通最小二乘估计量的方差与标准误随机误差项的方差2的估计 是2 的估计量 是残差平方和,即Y的真实值与估计

6、值之差的平方和(n-2)称为自由度,可简单看做观测值个数减去待估参数的个数222ie称为回归的标准误(SER,standard error of the regression)该值越小,说明Y的实际值越接近根据回归模型得到的估计值。15在 随 机 误 差 项 的 方 差 2估 计 出 后 , 参 数0和1的 方方 差差 和 标标 准准 差差 的 估 计 量 分 别 是 : 1的样本方差: 2221ixS 1的样本标准差: 21ixS 0的样本方差: 22220iixnXS 0的样本标准差: 220iixnXS 标准误标准误方差方差二、普通最小二乘估计量的方差与标准误16二、普通最小二乘估计量的

7、方差与标准误17 432.4138+0.0013XiSe= (16.9061)(0.000245) 二、普通最小二乘估计量的方差与标准误数学S.A.T一例文章中回归结果的输出形式更进一步的含义后面再解释参数估计值标准误18 当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。 一个用于考察总体的估计量,可从如下几个方面考察其优劣性: (1)线性性)线性性,即它是否是另一随机变量的线性函数; (2)无偏性)无偏性,即它的均值或期望值是否等于总体的真实值; (3)有效性)有效性,即它是否在所有线性无偏估计量中具有最小方差。三、最小二乘估计量的性

8、质-为什么使用OLS 19三、最小二乘估计量的性质-为什么使用OLS 高斯高斯马尔柯夫定理(马尔柯夫定理(Gauss-Markov theorem)如果满足古典线性回归模型的基本假定,则在所有线性估计量中,OLS估计是最优线性无偏估计量(Best Linear Unbiased Estimator, BLUE)简单易行很强的理论性质20212 2、无无偏偏性性,即估计量0、1的均值(期望)等于总体回归参数真值0与1 1111)()()(iiiiEkkEE0000)()()()(iiiiEwEwEE平均而言,参数估计值与其真值是一致的。22E平均而言,误差方差的估计值收敛于其真值;误差方差的估计

9、量也是无偏的22证明最小方差性假设*1是其他估计方法得到的关于1的线性无偏估计量: iiYc*1其中,ci=ki+di,di为不全为零的常数则容易证明)var()var(1*1同理,可证明0的最小二乘估计量0具有最的小方差 3 3、有有效效性性(最最小小方方差差性性) ,即在所有线性无偏估计量中,最小二乘估计量0、1具有最小方差。 23第二节 参数估计-小结古典线性回归模型的基本假设 最小二乘估计量的性质 普通最小二乘估计量的方差与标准误参数的普通最小二乘估计iiiXY10i=1,2,n24结构参数结构参数分布参数分布参数第三节 统计检验回归分析回归分析是要通过样本所估计的参数来代替总体的真实

10、参数,或者说是用样本回归线代替总体回归线。尽管从统计性质统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验统计检验。25第三节 统计检验26假设检验三、拟合优度检验 一、参数的置信区间法 二、变量的显著性检验法 四、回归分析结果的报告 五、正态性检验 检验样本回归函数与总体回归函数的“接近”程度即样本回归函数能否代表总体回归函数进行统计推断检验样本回归函数与样本点的“拟合优度”检验解释变量对被解释变量是否存在着显著的线性影响检

11、验样本回归函数与总体回归函数的“接近”程度27假设检验 所谓假设检验,就是 事先对总体参数或总体分布形式作出一个假设, 然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异, 从而决定是否接受或否定原假设。 先假定原假设正确, 然后根据样本信息,观察由此假设而导致的结果是否合理, 从而判断是否接受原假设。28假设检验数学S.A.T一例现假定家庭年收入对学生的数学分数没有影响希望确认Y是否与X有关H0: 1=0如果零假设为真,就没有必要把X纳入模型了虽然本例中的参数估计值不为零,但是由于抽样的波动性,数值结果会因为样本的变化而不同。显然,需要正规的检验过程拒绝或接受零假设。

12、如何进行呢?432.41380.0013iiYX29假设检验数学S.A.T一例置信区间法可选择两种方法对0和 1的参数进行检验显著性检验法由于 服从正态分布,则变量Z服从标准正态分布),(2211ixN),(22200iixnXN1111112-=0 1/iZNSx,由于 未知,需用 代替,因此上式服从t分布1122- /nitx30一、置信区间法 数学S.A.T一例设定自由度为d.f;假定显著性水平为 ,可得/2/2.1Ptd fttd f 111112- /itSx1111/2/2/2/21/211/2-.1Ptd fttd fPtd ftd fSPtd fStd fS 因为 H0: 1=

13、0,H1:10Step1:Step2:/2.td fStep3:Step4:如果原假设的 值落在该区间中,则接受原假设,否则,拒绝原假设。131接受区域拒绝区域拒绝区域1如果接受区域包含零假设值 ,则不拒绝零假设。当然,无论做何种决定,都会以一定的概率(如 )犯错。1111/211/2.1Ptd fStd fS 11/2.td fS11/2.td fS置信区间置信区间显著性水平显著性水平端点称为置信限置信限(confidence limit)或临界值临界值(critical values)(confidence coefficient)(confidence interval)(level o

14、f significance)置信系数置信系数(置信度)置信度)置信区间置信区间临界值临界值临界值临界值32一、置信区间法 数学S.A.T一例本例中,自由度为8(10-2)假定显著性水平 为5% H0: 1=0,H1:10则根据附录可查 0.05/282.306t2.3062.3060.95Pt 111112.3062.3060.95PSS10.0013 2.3060.0002450.0013 2.3060.0002450.95P10.000740.001870.95P由于这个区间没有包括零假设值0,所以拒绝H0Step1:Step2:Step3:Step4:33H0的接受区域拒绝区域拒绝区域

15、随机区间确定性区间建立100个这样的区间,则有95个区间包括真实的1。112.306S112.306S 95%的置信区间(自由度为8)10.000740.00187该随机区间包含真实的1的概率为95% 由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。 要缩小置信区间,需 (1 1)增大样本容量)增大样本容量n n,因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小; (2 2)提高模型的拟合优度)提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应

16、越小。34 二、变量的显著性检验 回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。 35 在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。),(2211ixN)2(1112211ntSxti36 二、变量的显著性检验 核心思想:构造一个检验统计量,从样本数据求得检验统计量的值,以此决定接受或拒绝零假设 检验步骤:检验步骤: H0: 1=*, H1:1 *(2)以原假设H0构造t统计量,并由样本计算其值1*1-=tS估计量 假设值估计量的标准误(3)给定显著性水平,查t分布表,得临界值|t| t /2(n-2),则拒绝H0|t| t

17、/2(n-2),则不拒绝H0 (1)对总体参数提出假设 (4) 比较 判断 二、变量的显著性检验 计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的双边检验t /2(n-2)t (n-2)单边检验右侧检验t t (n-2)或左侧检验t临界值3.355:在1%的显著性水平下拒绝1=0的零假设。t=5.4354所对应的P值约为0.0006。说明如果在该P值水平上拒绝零假设,则犯错的概率仅为万分之六。零假设1=0为真却被拒P值:统计量的精确显著水平;拒绝零假设最低的显著水平双边检验40 二、变量的显著性检验 数学S.A.T一例单边检验 H0: 10, H1:10这是因为预期的收入系数为

18、正110.0013=5.43540.000245tS显著性水平临界值0.011%0.055%0.1010%2.8961.8601.397t=5.4354临界值2.896:在1%的显著性水平下拒绝零假设给定显著性水平 ,查临界值:t (8) 三、拟合优度检验 对样本回归直线与样本观测值之间拟合程度的检验。 问题:问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?:判定系数判定系数(可决系数可决系数)R2 241总离差平方和的分解总离差平方和的分解 已知由一组样本观测值(Xi,Yi),i=1,2,n得到如下样本回归直线 iiXY10iiiiiiiyeYY

19、YYYYy)()(由X的变异所解释的部分Yi的变异未解释部分或残差的变异4243 如果Yi=i 即实际观测值落在样本回归“线”上,则拟合拟合最好最好。即“离差”全部来自回归线,而与“残差”无关。 对于所有样本点,需考虑这些点与样本均值离差的平方和,可以证明:22)(YYyTSSii总体平方和22)(YYyESSii回归平方和22()iiiRSSeYY残差平方和44(Total Sum of Squares)(Explained Sum of Squares)(Residual Sum of Squares )451E S SR S ST S ST S ST S SE S SR S S总体平方和

20、回归平方和残差平方和21R S SrT S S222222()()iiiiiYYerrYYy度量的是回归模型对Y变异的解释比例拟合优度、(样本)可决系数拟合优度、(样本)可决系数/ /判定系数判定系数(coefficient of determination)coefficient of determination) 判定系数判定系数(1-r2)表示未被X解释的Y的变异部分称为余相关系数,(coefficient of alienation)coefficient of alienation) 46 r r2 2越接近越接近1 1,说明实际观测点离样本线越近,拟合优度越高,说明实际观测点离样本

21、线越近,拟合优度越高。判定系数是一个非负的统计量判定系数是一个非负的统计量判定系数判定系数的取值范围取值范围:0,12ESSrTSS47数学S.A.T一例 三、拟合优度检验 判定系数判定系数22222()7801.07761110.7869()36610iiiiiYYerYYy 即收入变量X解释了数学分数79%的变异。因此可以认为该样本回归线很好地拟合了总体回归函数它也是随着抽样的不同而不同,因此对可决系数的统计可靠性也应进行检验,后续学习中深入了解。 48判定系数r2相关系数r2rr 度量了两个变量X与Y之间的线性相关程度数学S.A.T一例20.78690.8871rr说明数学分数与家庭年收

22、入高度正相关49四、回归分析结果的报告Se= (16.9061)(0.000245) t= (25.5774)(0.0006) r2=0.7849P值=(5.85*10-9)(0.0006) d.f.=8数学S.A.T一例样本回归函数估计的回归系数的标准误t值=估计的系数/其标准误t值所对应的P值判定系数如果没有设定特殊的零假设,习惯性地规定零假设:总体参数为零。若拒绝零假设,检验统计量是显著的,说明真实的总体参数不为零。 H0: 1=0,H1:10 H0: 0=0,H1:00预先设定一个可接受的P值水平,通常为1%、5%、10%临界P值计算P值不能拒绝零假设拒绝零假设432.41380.00

23、13iiYX50P值=(5.85*10-9)(0.0006) d.f.=8 H0: 1=0,H1:10 H0: 0=0,H1:00 H0: 0=450,H1:0450接上例:如果:432.41384501.040216.9061t 对应的P值为0.3287若设定的临界P值为10%由于本例中计算的P值大于临界P值,所以接受零假设若设定的临界P值为1%由于本例中计算的P值小于临界P值,所以拒绝零假设,即每个估计系数是统计显著的。 51 第四节 模型预测数学S.A.T一例回归分析的目的之一是:00YE Y X的估计量根据解释变量的值解释变量的值应变量的均值应变量的均值预测假定解释变量的值解释变量的值

24、为某一固定值X0需要估计注意:注意:严格地说,这只是被解释变量的预测值的估计值,而不是预测值。原因1:参数估计量不确定原因2:随机项的影响52 第四节 模型预测数学S.A.T一例根据前述(3-46)的回归分析的结果可知,参数估计量是显著的,模型通过了统计检验,可以进行预测。432.41380.0013iiYX需要估计该收入下数学分的实际均值假定家庭年收入值X0=78000780000=78000XYE Y X的估计量78000432.41380.0013 78000533.8138XY当家庭年收入为78000美元时,预测的数学平均分数为534分。530是条件均值E(Y|X=X0) 的一个无偏估计当X=X0时,0100XY0101000100)()()()(XEXEXEYE可见,0是条件均值E(Y|X=X0)的无偏估计。0100E Y XXX但对于任一给定样本, 是一个估计量, ,两者之差称为预测误差。00YE Y XX为了估计这个误差,需要求出 的抽样分布0Y0Y一方面一方面另一方面另一方面54)(1(,(22020100ixXXnXNY 第四节 模型预测 总体均值预测值的置信区间 由于 0100XY),(2211ixN),(22200iixnXN可以证明)2()(00100ntSXYtY在1-的置信度下,总体均值E(Y|X0)的置信区间为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论