版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一部分第一部分 线性回归线性回归模型模型Chp 3 双变量模型:假设检验双变量模型:假设检验主要内容主要内容n古典线性回归模型的假定古典线性回归模型的假定nOLS估计量及其性质估计量及其性质nOLS估计量的方差与标准误估计量的方差与标准误nOLS估计量的抽样分布(概率分布)估计量的抽样分布(概率分布)n假设检验假设检验n拟合优度拟合优度n正态性检验正态性检验n预测预测3.1 3.1 古典线性回归模型古典线性回归模型线性回归模型的基本假设线性回归模型的基本假设假设假设1. 回归模型是参数线性的,但不一定是变量回归模型是参数线性的,但不一定是变量线性;线性; Yi=B1+B2Xi+ui 假设假设
2、2. 解释变量解释变量X与扰动误差项与扰动误差项u不相关。不相关。 Cov(X, u)=0 假设假设3. 给定给定Xi,扰动项的期望或均值为零,即:,扰动项的期望或均值为零,即:E(u|Xi)=0; PRF : E(Y|Xi)=B1+B2Xi扰动项扰动项ui的条件分布的条件分布 假设假设4. ui的方差为常数,即同方差假定:的方差为常数,即同方差假定: Var(ui)= 2 PRF : Yi=B1+B2Xi同方差同方差PRF : Yi=B1+B2Xi异方差异方差 假设假设5. 无自相关假定,即:无自相关假定,即: Cov(ui, uj)=0, i j由该假定可得,由该假定可得,Cov(Yi,
3、Yj)=0, i j ,即,即Y也不相也不相关。关。 假设假设6. 回归模型是正确设定的,即模型不存在设回归模型是正确设定的,即模型不存在设定误差(错误)无自相关假定,即:定误差(错误)无自相关假定,即: Cov(ui, uj)=0, i j由该假定可得,由该假定可得,Cov(Yi, Yj)=0, i j ,即,即Y也不相关。也不相关。 假设假设7. 随机误差项随机误差项ui具有零均值、同方差具有零均值、同方差( u2)的正态分布:的正态分布: ui N(0, u2)3.23.3 最小二乘估计量的性质最小二乘估计量的性质 当模型参数估计出后,需考虑参数估计值的当模型参数估计出后,需考虑参数估计
4、值的精度,即是否能代表总体参数的真值,或者说需精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。考察参数估计量的统计性质。 一个用于考察总体的估计量,可从如下几个一个用于考察总体的估计量,可从如下几个方面考察其优劣性:方面考察其优劣性: (1)线性性)线性性,即它是否是另一随机变量的线性,即它是否是另一随机变量的线性函数;函数;1. 系数系数B1, B2的的OLS估计估计(2)无偏性)无偏性,即它的均值或期望值是否等于总,即它的均值或期望值是否等于总体的真实值;体的真实值;(3)有效性)有效性,即它是否在所有线性无偏估计量,即它是否在所有线性无偏估计量中具有最小方差。中具有最
5、小方差。n 这三个准则也称作估计量的这三个准则也称作估计量的小样本性质小样本性质。 拥有这类性质的估计量称为拥有这类性质的估计量称为最佳线性无偏估计最佳线性无偏估计量量(best liner unbiased estimator, BLUE)。)。 (4)渐近无偏性)渐近无偏性,即样本容量趋于无穷大时,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值;是否它的均值序列趋于总体真值;(5)一致性)一致性,即样本容量趋于无穷大时,它是,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;否依概率收敛于总体的真值;(6)渐近有效性)渐近有效性,即样本容量趋于无穷大时,即样本容量趋于无穷大时,是
6、否它在所有的一致估计量中具有最小的渐近方是否它在所有的一致估计量中具有最小的渐近方差。差。 当不满足小样本性质时,需进一步考察估计当不满足小样本性质时,需进一步考察估计量的量的大样本大样本或或渐近性质渐近性质:高斯高斯马尔可夫定理马尔可夫定理(Gauss-Markov theorem) 在给定经典线性回归的假定下,在给定经典线性回归的假定下,最小最小二乘估计量二乘估计量是具有是具有最小方差最小方差的的线性线性无偏无偏估估计量。计量。 12222iiiiiiiiiiiiix YYx yxYYxbkYxxxx 证:证:2iiixkx 其中,其中,0111iiiiiiibYb XYkY XXkYwY
7、nn (1) 线性性线性性,即估计量,即估计量b0,b1是关于是关于Yi的线性函数的线性函数上式用到:上式用到: 0iixXX 1iiwXkn 其中,其中,注:注:故故同样地,容易得出同样地,容易得出 (2) 无偏性无偏性,即估计是量,即估计是量b0,b1的均值(期望)等的均值(期望)等于总体回归参数真值于总体回归参数真值B0,B1。 101011 iiiiiiiiiiiibk YkBB XuBkBk Xk uBk u 1111iiiiE bE Bk uBk E uB 0000iiiiE bE Bw uBw E uB 222221iiiiiiiiiiiixxXx Xxxk XXxxxx (3)
8、 有效性(最小方差性)有效性(最小方差性),即在所有线性无偏,即在所有线性无偏估计量中,最小二乘法估计量估计量中,最小二乘法估计量b0, b1具有最小方具有最小方差。差。(1)先求)先求b0与与b1的方差的方差 2101222222 iiiiiiiiiiVar bVarkYk Var BB Xuxk Var uxx 2001222222222222222 1/11 212 1 iiiiiiiiiiiiiiVar bVarw Yw VarBB XunXkXkX knnxXkXnnxxnXXnxnx 22222iiXnx 222222iiiixnXxXxXX 注:注:(2)证明最小方差性)证明最小
9、方差性 普通最小二乘估计量普通最小二乘估计量(ordinary least Squares Estimators)称为称为最佳线性无偏估计量最佳线性无偏估计量(best linear unbiased estimator, BLUE) 假设假设b1*是其他估计方法得到的关于是其他估计方法得到的关于B1的线性无的线性无偏估计量,则:偏估计量,则:b1* = ciYi其中,其中,ci=ki+di,di为不全为零的常数。则容易为不全为零的常数。则容易证明,证明, *11Var bVar b 同理可证,同理可证,B0是的最小二乘估计量是的最小二乘估计量b0具有最小的方具有最小的方差。差。 由于最小二乘
10、估计量拥有一个由于最小二乘估计量拥有一个“好好”的估计量的估计量所应具备的小样本特性,它自然也拥有大样本特性所应具备的小样本特性,它自然也拥有大样本特性。现考察现考察b b1 1的的一致性一致性。 11121211limlim limlimlim/ lim/, iiiiiiiiPbPBk ux uPBPxPx unBPxnCov X uBBQ 3.4 OLS3.4 OLS估计量的抽样分布估计量的抽样分布( (概率分布概率分布) )及及随机干扰项方差的估计随机干扰项方差的估计 普通最小二乘估计量普通最小二乘估计量b0 、 b1分别是分别是Yi的线性组的线性组合,因此,合,因此, b0和和b1的概
11、率分布取决于的概率分布取决于Y的分布特的分布特征。征。在在u是正态分布的假设下,是正态分布的假设下,Y是正态分布,则是正态分布,则b0 、 b1也服从正态分布,因此,也服从正态分布,因此,2221100221, ,iiiXbNBbNBxnx 1、参数估计量、参数估计量b0和和b1的概率分布的概率分布b0和和b1的标准差的标准差1022222, ibbiiXxnx B1 b12. 随机误差项随机误差项u的方差的方差 2的估计的估计 在估计的参数在估计的参数b0和和b1的方差表达式中,都含有随的方差表达式中,都含有随机扰动项机扰动项u的方差的方差 2。由于由于 2实际上是未知的,因此,实际上是未知
12、的,因此, b0和和b1的方差实的方差实际上无法计算,这就需要对其进行估计。际上无法计算,这就需要对其进行估计。 2又称为总体方差。又称为总体方差。由于随机项由于随机项ui不可观测,只能从不可观测,只能从ui的估计的估计残差残差ei出发,对总体方差进行估计。出发,对总体方差进行估计。 可以证明可以证明, 2的的最小二乘估计量最小二乘估计量为为它是关于它是关于 2的无偏估计量。的无偏估计量。 为为 的估计量,也称为回归标准误,的估计量,也称为回归标准误,即即Y值偏离估计回归线的标准差。值偏离估计回归线的标准差。其作用:其作用:P126P126222ien 2 在随机误差项在随机误差项u u 的方
13、差的方差 2估计出后,参数估计出后,参数b b0 0和和b b1 1的的方差方差和和标准差标准差的估计量分别是:的估计量分别是:11002222222222 / /bibibiibiiSxSxSXnxSXnx b1的样本方差:的样本方差:b1的样本标准差:的样本标准差:b0的样本方差:的样本方差:b0的样本标准差:的样本标准差:3.5 假设检验假设检验n回归分析回归分析是要通过样本所估计的参数来代是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归替总体的真实参数,或者说是用样本回归线代替总体回归线。线代替总体回归线。n尽管从尽管从统计性质统计性质上已知,如果有足够多的上已知,如果
14、有足够多的重复重复 抽样,参数的估计值的期望(均值)抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。中,估计值不一定就等于该真值。n那么,在一次抽样中,参数的估计值与那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需真值的差异有多大,是否显著,这就需要进一步进行要进一步进行统计检验统计检验。主要内容有:。主要内容有:参数的参数的区间估计区间估计;变量的变量的显著性检验显著性检验拟合优度检验拟合优度检验。假设检验假设检验可以通过一次抽样的结果检验总体参可以通过一次抽样的结果检验总体参数可能的假
15、设值的范围(如是否为零),但它数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总并没有指出在一次抽样中样本参数值到底离总体参数的真值有多体参数的真值有多“近近”。一、参数的置信区间一、参数的置信区间 回归分析希望通过样本所估计出的参数回归分析希望通过样本所估计出的参数b1来代来代替总体的参数替总体的参数B1要判断样本参数的估计值在多大程度上可以要判断样本参数的估计值在多大程度上可以“近似近似”地替代总体参数的真值,往往需要通地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的过构造一个以样本参数的估计值为中心的“区区间间”,来考察它以多大的可能性(
16、概率)包含,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的着真实的参数值。这种方法就是参数检验的置置信区间估计信区间估计。 如果存在这样一个区间,如果存在这样一个区间,称之为称之为置信区间置信区间(confidence interval);); 1- 称为称为置信系数置信系数(置信度置信度)()(confidence coefficient),), 称为称为显著性水平显著性水平(level of significance););置信区间的端点称为置信区间的端点称为置信限置信限(confidence limit)或)或临界临界值值(critical values)。)。
17、 1P bBb 要判断估计的参数值要判断估计的参数值b离真实的参数值离真实的参数值B有多有多“近近”,可预先选择一个概率,可预先选择一个概率 (0 1) ,并求一,并求一个正数个正数 ,使得随机区间,使得随机区间(b- , b+ )包含参数的直包含参数的直值的概率为值的概率为1- ,即:,即:一元线性模型中一元线性模型中,Bi (i=0,1)的置信区间的置信区间在变量的显著性检验中已经知道:在变量的显著性检验中已经知道: (2)iiibbBtt ns 意味着,如果给定置信度(意味着,如果给定置信度(1- ),从分布表中),从分布表中查得自由度为查得自由度为(n-2)的临界值,那么的临界值,那么
18、t值处在值处在(-t /2, t /2)的概率是的概率是(1- )。表示为:。表示为: Pttt() 221即即22()1iiibbBPtts 22() 1iiibiibP btsBbts 于是得到于是得到:(1-:(1- ) )的置信度下的置信度下, , Bi的置信区间是的置信区间是 22(,)iiibibbtsbts 在上述在上述收入收入- -消费支出消费支出例中,如果给定例中,如果给定 =0.01 =0.01,查表得:查表得: 355. 3) 8 () 2(005. 02tnt由于由于10.042bS 098.41bS 于是,于是,B1、B0的置信区间分别为:的置信区间分别为: (0.6
19、345, 0.9195) , (-433.32, 226.98) n由于置信区间一定程度地给出了样本参数估由于置信区间一定程度地给出了样本参数估计值与总体参数真值的计值与总体参数真值的“接近接近”程度,因此程度,因此置信区间越小越好。置信区间越小越好。n要缩小置信区间,需要要缩小置信区间,需要(1)增大样本容量)增大样本容量n。因为在同样的置信因为在同样的置信水平下,水平下,n越大,越大,t分布表中的临界值越小;分布表中的临界值越小;同时,增大样本容量,还可使样本参数估同时,增大样本容量,还可使样本参数估计量的标准差减小;计量的标准差减小;(2)提高模型的拟合优度。)提高模型的拟合优度。因为样
20、本参数估计因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。越高,残差平方和应越小。 二、变量的显著性检验二、变量的显著性检验 回归分析是要判断解释变量回归分析是要判断解释变量X是否是被解释变量是否是被解释变量Y的一个显著性的影响因素。的一个显著性的影响因素。在一元线性模型中,就是要判断在一元线性模型中,就是要判断X是否对是否对Y具有显具有显著的线性性影响。这就需要进行变量的显著性检著的线性性影响。这就需要进行变量的显著性检验。验。 变量的显著性检验所应用的方法是数理统计变量的显著性检验所应用的方法是数理统计学中的学中的
21、假设检验假设检验。 计量经济学中,主要是针对变量的参数真值计量经济学中,主要是针对变量的参数真值是否为零是否为零来进行显著性检验的。来进行显著性检验的。 1、假设检验、假设检验 n 所谓所谓假设检验假设检验,就是事先对总体参数或总体分,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。有显著差异,从而决定是否接受或否定原假设。H0: B1=0n假设检验采用的逻辑推理方法是反证法假设检验采用的逻辑推理方法是反证法
22、 先假定原假设正确,然后根据样本信息,观察先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是由此假设而导致的结果是否合理,从而判断是否接受原假设。否接受原假设。n判断结果合理与否,是基于判断结果合理与否,是基于“小概率事件不易小概率事件不易发生发生”这一原理的这一原理的2112(,)ibN Bx 1111221(0,1)( )ibBbBZNse bx 对于一元线性回归方程中的对于一元线性回归方程中的b1,已经知道它,已经知道它服从分布服从分布1122 (2)ibBtt nx 从从Z统计量到统计量到t统计量?统计量?22ien 假设检验:置信区间法假设检验:置信区间
23、法1/211/2221iiP btBbtxx 如果接受区域包括零假设值如果接受区域包括零假设值B1,则不拒绝零,则不拒绝零假设,否则拒绝。假设,否则拒绝。说明:无论做何种决定,都会以一定的概率(如说明:无论做何种决定,都会以一定的概率(如5%5%)犯错误。犯错误。b2B2-B2+接受区域接受区域假设检验:显著性检验法假设检验:显著性检验法 1112bBtt nse b 核心思想:构造统计量,及零假设下,检验核心思想:构造统计量,及零假设下,检验统计量的抽样分布,根据从样本数据求得的统计量的抽样分布,根据从样本数据求得的检验统计量的值决定接受或拒绝零假设。检验统计量的值决定接受或拒绝零假设。 *
24、111bBtse b 已知:已知:在零假设下,计算统计量:在零假设下,计算统计量:经验分析中,根据给定的给定的显著性水平,经验分析中,根据给定的给定的显著性水平,求得临界值求得临界值t /2(or : t ),通过对比来确定接受,通过对比来确定接受(t t /2)零假设:零假设:n为避免任意性,有时也直接根据计算的为避免任意性,有时也直接根据计算的t值,值,计算计算p值,进而根据值,进而根据p值的大小选择接受还值的大小选择接受还是拒绝零假设。是拒绝零假设。检验步骤小结:检验步骤小结: (1)对总体参数提出假设)对总体参数提出假设 H0: B1=0, H1:B1 0(2)以原假设)以原假设H0构
25、造构造t统计量,并由样本计算其值统计量,并由样本计算其值11bbtS (3)给定显著性水平)给定显著性水平 ,查,查t分布表得临界值分布表得临界值t /2(n-2) (4) 比较,判断比较,判断 若若 |t| t /2(n-2),则拒绝,则拒绝H0 ,接受,接受H1 ; 若若 |t| t /2(n-2),则拒绝,则拒绝H1 ,接受,接受H0 ; 对于一元线性回归方程中的对于一元线性回归方程中的B0,可构造如,可构造如下下t统计量进行显著性检验:统计量进行显著性检验: 在上述收入在上述收入消费支出例中,首先计算消费支出例中,首先计算 2 2的估计值的估计值 22222124590020 0.77
26、77425000134022210 2iiieybxnn 0000222 (2)biibBbtt nSXnx 0222 1340253650000/10742500098.41biiSXnx 于是于是b1和和b0的标准差的估计值分别是:的标准差的估计值分别是:t t统计量的计算结果分别为:统计量的计算结果分别为: 给定显著性水平给定显著性水平 =0.05,查,查t分布表得临界值分布表得临界值 t 0.05/2(8)=2.306 |t1|2.306,说明家庭可支配收入在,说明家庭可支配收入在95%的置信的置信度下显著,即是消费支出的主要解释变量度下显著,即是消费支出的主要解释变量; |t2|2.
27、306,表明在表明在95%的置信度下,无法拒绝的置信度下,无法拒绝截截距项距项为零的假设。为零的假设。 111/0.777/0.042518.29btbS 000/103.17/98.411.048btbS 3.6 3.6 拟合优度检验拟合优度检验 判定系数判定系数拟合优度检验拟合优度检验对样本回归直线与样本观测对样本回归直线与样本观测值之间拟合程度的检验。值之间拟合程度的检验。 度量拟合优度的指标:度量拟合优度的指标:判定系数判定系数(可决系数可决系数)R2 问题:问题:采用普通最小二乘估计方法,已经保采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要证了模型最好地拟
28、合了样本观测值,为什么还要检验拟合程度?检验拟合程度?1 1、总离差平方和的分解、总离差平方和的分解已知由一组样本观测值(已知由一组样本观测值(Xi,Yi),),i i=1,2,n得得到如下样本回归直线到如下样本回归直线 01iiYbb X 而而Y的第的第i个观测值与样本均值的离差个观测值与样本均值的离差 可可分解为两部分之和:分解为两部分之和:iiyYY iiiiiiyYYYYYYey YtXtyt=总离差总离差et:残差:残差:来自回归:来自回归tyXYYSRFtY 如果如果Yi=i 即实际观测值落在样本回归即实际观测值落在样本回归“线线”上,则上,则拟合最好拟合最好。 可认为,可认为,“
29、离差离差”全部来自回归线,而与全部来自回归线,而与“残差残差”无关。无关。 iieYY iiyYY是样本回归拟合值与观测值的平均是样本回归拟合值与观测值的平均值之差,可认为是由回归直线解释值之差,可认为是由回归直线解释的部分;的部分;是实际观测值与回归拟合值之差,是实际观测值与回归拟合值之差,是回归直线不能解释的部分;是回归直线不能解释的部分; 对于所有样本点,则需考虑这些点与样本均对于所有样本点,则需考虑这些点与样本均值离差的平方和,值离差的平方和,可以证明可以证明:TSS=ESS+RSS22)(YYyTSSii记记22)(YYyESSii22)(iiiYYeRSS总体平方和总体平方和(To
30、tal Sum of Squares)回归平方和回归平方和(Explained Sum of Squares)残差平方和残差平方和(Residual Sum of Squares )Y的观测值围绕其均值的总离差的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回可分解为两部分:一部分来自回归线归线(ESS),另一部分则来自随机因素,另一部分则来自随机因素(RSS)。n在给定样本中,在给定样本中,TSS不变,不变,n如果实际观测点离样本回归线越近,则如果实际观测点离样本回归线越近,则ESS在在TSS中占的比重越大,因此中占的比重越大,因此n拟合优度拟合优度:回
31、归平方和:回归平方和ESS/Y的总离差的总离差TSS21ESSRSSRTSSTSS 2、可决系数、可决系数R2 2统计量统计量 称 R2 为(样本)(样本)可决系数可决系数或或判定系数判定系数(coefficient of determination)。 可决系数可决系数的取值范围取值范围:0,1 R2越接近越接近1 1,说明实际观测点离样本线越近,说明实际观测点离样本线越近,拟合优度越高拟合优度越高。记:记:22212iixRby 在在收入消费支出收入消费支出一例中,一例中, 222212(0.777)74250000.97664590020iixRby 注:可决系数注:可决系数是一个非负的
32、统计量。它也是随着是一个非负的统计量。它也是随着抽样的不同而不同。为此,对可决系数的统计可抽样的不同而不同。为此,对可决系数的统计可靠性也应进行检验,这将在后面的章节中进行。靠性也应进行检验,这将在后面的章节中进行。 在实际计算可决系数时,在在实际计算可决系数时,在b b1 1已经估计出后:已经估计出后: n如果在给定的显著性水平下,根据上式计如果在给定的显著性水平下,根据上式计算得出的值超过临界的值,则拒绝正态分算得出的值超过临界的值,则拒绝正态分布的零假设,否则,接受。布的零假设,否则,接受。n另法:根据计算得到的另法:根据计算得到的 2值的值的p值,可知获值,可知获此此 2值的精确概率。
33、值的精确概率。3.7 回归分析结果的报告回归分析结果的报告(1)建立工作文件: 第二节第二节 回归模型的参数估计回归模型的参数估计 启动EViews, 点击FileNewWorkfile,弹出工作文件对话框(图2-3),选择数据的时间频率、起始期和终止期。 时间频率时间频率年度年度半年半年季度季度月度月度周周日日非时序数据非时序数据起始期起始期终止期终止期 命令方式:在命令方式:在EViewsEViews命令窗口中键入命令窗口中键入 CREATECREATE时间频率类型时间频率类型 起始期起始期终止期终止期例如:例如:CREATE A 85 98CREATE A 85 98 (2 2)输入统计
34、资料:)输入统计资料: 在命令窗口键入数据输入/编辑命令 DATA Y X 将显示数组窗口(图2-4),此时可以按全屏幕编辑方式输入每个变量的统计资料。第二节第二节 回归模型的参数估计回归模型的参数估计图图2-42-4 数组窗口数组窗口 第二节第二节 回归模型的参数估计回归模型的参数估计(3)估计回归模型: 数 组 窗 口 中点击ProcsMake equation,定义方程,点击OK,则弹出有关估计结果(右图)。常数和解常数和解释变量释变量参数标参数标准差准差T统计统计量值量值双侧双侧概率概率判定系数判定系数调整的判定系数调整的判定系数回归方程的标准差回归方程的标准差残差平方和残差平方和似然
35、函数的对数似然函数的对数德宾德宾-瓦森统计量瓦森统计量被解释变量均值被解释变量均值被解释变量标准差被解释变量标准差赤池信息准则赤池信息准则施瓦兹信息准则施瓦兹信息准则F统计量统计量F统计量的概率统计量的概率参数估参数估计值计值第二节第二节 回归模型的参数估计回归模型的参数估计 命令方式,键入:命令方式,键入: LS LS 被解释变量被解释变量 C C 解释变量解释变量 例如:例如:LS Y C XLS Y C X 常数常数第二节第二节 回归模型的参数估计回归模型的参数估计回归分析结果的报告回归分析结果的报告nP563.11 3.11 一元线性回归分析的应用一元线性回归分析的应用预测问题预测问题
36、 一、一、0 0是条件均值是条件均值E(Y|X=X0)或个值或个值Y0的一的一个无偏估计个无偏估计二、总体条件均值与个值预测值的置信区二、总体条件均值与个值预测值的置信区间间对于一元线性回归模型对于一元线性回归模型 01iiYbb X 给定样本以外的解释变量的观测值给定样本以外的解释变量的观测值X0,可以得,可以得到被解释变量的预测值到被解释变量的预测值0 0 ,可以此作为其,可以此作为其条件条件均值均值E(Y|X=X0)或或个别值个别值Y0的一个近似估计。的一个近似估计。 严格地说,这只是被解释变量的预测值的估计值,严格地说,这只是被解释变量的预测值的估计值,而不是预测值。原因而不是预测值。
37、原因: : (1 1)参数估计量不确定;)参数估计量不确定; (2 2)随机项的影响)随机项的影响一元线性回归的应用:预测一元线性回归的应用:预测0 0是条件均值是条件均值E(Y|X=X0)或个值或个值Y0的一个无的一个无偏估计偏估计对对总体回归函数总体回归函数E(Y|X=X0)=B0+B1X,X=X0时时 E(Y|X=X0)=B0+B1X00010Ybb X 故:故:0010001010( )()( )( )E YE bbXE bX E bBBX 可见,可见,0是条件均值是条件均值E(Y|X=X0)的无偏估计的无偏估计。01Ybb X 通过通过样本回归函数样本回归函数 ,求得的,求得的拟合值
38、为:拟合值为:对对总体回归模型总体回归模型Y=B0+B1X+u,当,当X=X0时时于是于是0010001010()()()( )E YE bb XE bX E bBB X 0010YBB Xu 0010010010()()E YE BB XuBB XE uBB X 而通过而通过样本回归函数样本回归函数 ,求得拟合,求得拟合值值 的期望为:的期望为:01Ybb X 0010Ybb X 总体条件均值与个值预测值的置信区间总体条件均值与个值预测值的置信区间 总体总体均值均值预测值的置信区间预测值的置信区间 由于由于 于是于是可以证明可以证明 0010Ybb X 22002,iiXbN Bnx 211
39、2,ibN Bx 0001010E YE bX E bBB X 200001012cov,Var YVar bXb bX Var b 2012cov,iXb bx 证明如下:证明如下:101011 iiiiiiiiiiiibkYkBB XuBkBk Xk uBk u01010011111 iiiiiiiiiiiiibYb XYXkYXkYnnXkBB XunBuXkuBXkunn010011222222222cov,111 iiiiiiiiiiiiiib bE bBbBEuXk uk unEk uXk unkXkE unXkXx 因此因此 故故 222220002222iiiiXX XXVar
40、 Ynxxx 222220022iiXnXXX XXxn 22202iixXXxn 20221iXXnx 202001021, iXXYNBB Xnx 于是,在于是,在1- 的置信度下,的置信度下,总体均值总体均值E(Y|X0)的置的置信区间为信区间为:其中,其中, 000102YYBB Xtt nS 020221YiXXSnx 000/2,200/2,2|nnYYYtSE Y XYtS总体总体个值个值预测值的预测区间预测值的预测区间 由由 Y0=B0+B1X0+u 知知: 于是于是 )(11 (,0(220200ixXXnNYY)2(0000ntSYYtYY式中式中 :)(11 (22020
41、0iYYxXXnS从而在从而在1- 的置信度下,的置信度下, Y0的置信区间的置信区间为为 002020000YYYYStYYStY 20010, YN BB X 在上述在上述收入收入消费支出消费支出例中,得到的样本回归例中,得到的样本回归函数为函数为:iiXY777. 0172.103 则在则在 X0=1000处,处, 0 = 103.172+0.7771000=673.84 29.37277425000)21501000(10113402)(20YVar而05.61)(0YS因此,因此,总体均值总体均值E(Y|X=1000)的的95%的置信区间为:的置信区间为:673.84-2.306 6
42、1.05 E(Y|X=1000)673.84+2.306 61.05或或 (533.05, 814.62)同样地,对于同样地,对于Y在在X=1000的的个体值个体值,其,其95%的置信区间为:的置信区间为: 673.84 - 2.306 131.07Y|x=1000 673.84 + 2.306 131.07或或 (372.03, 975.65) 总体回归函数的总体回归函数的置信带(域)置信带(域)(confidence band) 个体的个体的置信带(域)置信带(域) XYX103.170.777iiYX Y均值的均值的置信区间置信区间Y个值的个值的置信区间置信区间 对于对于Y的总体均值的总
43、体均值E(Y|X)与个体值的预测区与个体值的预测区间(置信区间)间(置信区间):(1)样本容量样本容量n越大,预测精度越高,反之越大,预测精度越高,反之预测精度越低;预测精度越低;(2)样本容量一定时,置信带的宽度当在样本容量一定时,置信带的宽度当在X均值处最小,其附近进行预测(插值预测)均值处最小,其附近进行预测(插值预测)精度越大;精度越大;X越远离其均值,置信带越宽,越远离其均值,置信带越宽,预测可信度下降。预测可信度下降。实例:时间序列问题实例:时间序列问题 一、中国居民人均消费模型一、中国居民人均消费模型 二、时间序列问题二、时间序列问题 一、中国居民人均消费模型一、中国居民人均消费
44、模型 例:例:考察中国居民收入与消费支出的关系考察中国居民收入与消费支出的关系。GDPP: 人均国内生产总值人均国内生产总值(1990年不变价)年不变价)CONSP:人均居民消费人均居民消费(以居民消费价格指(以居民消费价格指数(数(1990=100)缩减)。)缩减)。年份年份 人均居民消费人均居民消费consp人均人均GDPGDPP年份年份 人均居民消费人均居民消费consp人均人均GDPGDPP1978 395.8675.11990 797.11602.31979 437.0716.91991 861.41727.21980 464.1763.71992 966.61949.81981 5
45、01.9792.41993 1048.62187.91982 533.5851.11994 1108.72436.11983 572.8931.41995 1213.12663.71984 635.61059.21996 1322.82889.11985 716.01185.21997 1380.93111.91986 746.51269.61998 1460.63323.11987 788.31393.61999 1564.43529.31988 836.41527.02000 1690.83789.71989 779.71565.9中国居民人均消费支出与人均中国居民人均消费支出与人均GDP
46、(元(元/人)人) 1. 建立模型建立模型 拟建立如下一元回归模型拟建立如下一元回归模型 GDPPCCONSP采用采用Eviews软件软件进行回归分析的结果见下表进行回归分析的结果见下表 该两组数据是该两组数据是19782000年的年的时间序列数据时间序列数据(time series data);); 前述前述收入收入消费支出消费支出例中的数据是例中的数据是截面数据截面数据(cross-sectional data)。)。Dependent Variable: CONSPMethod: Least SquaresDate: 04/12/07 Time: 21:07Sample: 1978 2000Included observations: 23VariableCoefficientStd. Errort-StatisticProb. C201.118914.8840213.512410.0000GDPP0.3861800.00722253.474710.0000R-squared0.992710 Mean dependent var905.3304Adjusted R-squared0.992363 S.D. dependent var380.6334S.E. of reg
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO/PAS 13146:2024 EN Road vehicles - Brake lining friction materials - Drag mode friction test for hydraulic and pneumatic vehicle brakes
- 了不起的盖茨比读后感
- 中秋节给老战友的慰问信(6篇)
- 企业前台工作总结
- 中秋节的慰问信范文(8篇)
- 九九重阳节活动总结
- 中式婚礼女方父亲致辞范文(9篇)
- 中秋晚会班长精彩致辞范文(15篇)
- DB12∕T 1049-2021 规模奶牛场机械挤奶操作规程
- 探究定滑轮和动滑轮的作用教学设计
- 医院电气安全知识培训
- 上海市虹口区2024学年第一学期期中考试初三物理试卷-教师版
- 2024-2025学年八年级上学期英语期中模拟试卷(译林版+含答案解析)
- 驾驶证学法减分(学法免分)试题和答案(50题完整版)1650
- (档案管理)消防安全档案
- 对话大国工匠 致敬劳动模范学习通超星期末考试答案章节答案2024年
- 华能(天津)煤气化发电限公司2024年应届毕业生招聘高频难、易错点500题模拟试题附带答案详解
- 七年级语文上册18-我的白鸽课件
- 素描入门基础画单选题100道及答案解析
- 期中模拟检测(1-3单元)2024-2025学年度第一学期苏教版一年级数学
- 四川省食品生产企业食品安全员理论考试题库(含答案)
评论
0/150
提交评论