[理学]《金融计量学》part(1)ppt课件_第1页
[理学]《金融计量学》part(1)ppt课件_第2页
[理学]《金融计量学》part(1)ppt课件_第3页
[理学]《金融计量学》part(1)ppt课件_第4页
[理学]《金融计量学》part(1)ppt课件_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第2章 回归模型及其应用回归的含义总体回归函数population regression function, PRF总体回归函数误差的设定随机误差性的性质样本回归函数sample regression function, SRF线性回归的特殊含义从多变量回归到多元线性回归12回归Regression是计量经济学的主要工具 .“回归:最早由英国生物学家Francis Galton1886提出.yx160165170175180185140 150 160 170 180 190 200儿子身高儿子身高父辈身高父辈身高个子高的父亲有生出个子高的个子高的父亲有生出个子高的儿子的倾向,同样地,个子低

2、儿子的倾向,同样地,个子低的父亲有生出个子低的儿子的的父亲有生出个子低的儿子的倾向。得到的详细规律如下:倾向。得到的详细规律如下:同时又发现某人种的平均身高同时又发现某人种的平均身高是相当稳定的,最后得到结论:是相当稳定的,最后得到结论:儿子们的身高回复于全体男子儿子们的身高回复于全体男子的平均身高,即的平均身高,即“回归回归84.330.516yx?普遍回归定律普遍回归定律?,Galton 188923回归分析的现代释义回归分析是关于研究一个叫做因变量的变量Y,dependent对另一个或多个叫做自变量的变量X, independents的依赖关系,目的是通过重复抽样的自变量的或设定值去估计

3、或预测因变量的总体均值.回归分析的根本问题 回归分析的主要目的是根据随机样本回归函数SRF来估计总体回归函数PRF.34 由于随机抽样的波动,根据SRF估计出来的PRF充其量只是真实PRF的一个近似的结果. 1 能否设计一种规那么或方法, 使得这种近似结果的误差尽可能小, 即参数1,2 的估计值尽可能接近真实的1,2?2 尽管真实的1,2永远不得而知, 但通过一系列假设可以运用估计误差ei 最小化的原那么来实现. 设计一种规那么或方法使得这种近似结果的误差尽可能小 通最小二乘法OLS45一元线性回归模型古典回归线性模型CLRM的根本假设:1 总体回归函数参数线性: Yi =1+2Xi+ui ;

4、2 解释变量与误差项不相关: covXiui=0; 3 误差项的期望为零: Eui=0;4 每个误差项方差均为常数: varui=2;5 两个误差项之间不相关: covuiuj=0ij.6 随机误差项服从零均值、同方差的正态分布: uiN0,2.56普通最小二乘法OLS由于由于Yi=1+2Xi+ui 不可直接观测不可直接观测, 要通过要通过Yi=1+2Xi+ei来估计来估计. 又因为又因为12,iiYX残差残差ei是真实值是真实值Yi 与估计值与估计值12iiYX之差之差, 即即12iiiiieYYYX67对于给定的观测值对于给定的观测值Xi,Yi,i=1,2,n, 希望希望 尽可能尽可能接接

5、Y,iY11()nniiiiieYYiY最直观的想法是选择使残差和最直观的想法是选择使残差和尽可能小的尽可能小的SRF. 但残差之间可能会出现但残差之间可能会出现正负抵消正负抵消的情况的情况, 导致即导致即使残差和很小使残差和很小, 甚至等于甚至等于0, 但所得到的估计值但所得到的估计值 却与真却与真值值Yi 相差甚远。相差甚远。78普通最小二乘法OLS考虑采用残差平方和最小准那么: 最小二乘法的准那么, 通过使残差平方和最小找到的SRF作为PRF的最正确估计量.22121211minminmin(,)nniiiiieYXf1212112122(,)20 (,)20 iiiiifXYfYXX1

6、2212 iiiiiiYnXX YXX892222iii iiiiiiXX YYnXYXYXXnXX 12YX,iiiixXX yYY用用 xi, yi 表示对其均值的离差表示对其均值的离差, 即即22.iiix yx910OLS估计量的方差与标准差1. 由一组样本可以得到一组参数的估计值,2. 样本的变化会导致参数的估计值发生变化, 因此 OLS估计量是随机变量, 随着样本的变化而改变; 假设估计量随样本改变而变化的程度很低, 那么标准误差standard error很小, 说明该估计量“很可靠,或其精度高。10113. OLS估计量的性质其中1. 估计量估计量 是真实参数是真实参数 i 的

7、线性估计量的线性估计量, 是是Yi的的线性函数线性函数.i22iiix yx222()()iiiiiiiix YYxYYXXxxx2iiixYx2iiixYx.iiY2.iiixx111222()iiiixXux无偏性无偏性12222iiiiiiiixx Xx uxxx222iiiiiixxXx uxx22iiix ux222()()iiix E uEx2.12132. 一致性大样本下的一致性, 对估计量最根本的要求.当样本量充分大时OLS估计量是总体参数的一致估计量. 3. 有效性 所有无偏估计量中方差最小的称为有效估计量.高斯-马尔可夫定理: 在给定CLRM的假设下, OLS估计量就是最优

8、线性无偏估计量. 1314OLS估计量精度的度量:2221ien系数估计的方差与标准差 122212variiXnx22222varix11()var();se22()var();se随机误差项的方差随机误差项的方差221)(21iiXYn1415OLS估计量的抽样分布1. OLS法并未对误差项 ui 的概率分布做任何假设, 难以通过构造假设检验从SRF去推断PRF. 假设误差项服从某一概率分布, 那么可实现这一统计推断.2. 通常在CLRM根底上假设误差项uiN0,2, 那么得到经典正态线性回归模型CNLRM:12222(0,)()0, ()cov(,)()0()iiiiiiijijYXuu

9、NE uE uu uE u uij1516正态分布假设的合理性1 误差项ui代表回归模型中未明显引进的许多随机变量的总影响, 根据中心极限定理, 假如这些变量是独立同分布的, 那么当变量个数充分大时,其总和变量服从正态分布;2 正态分布变量的任何线性函数都是正态分布的, OLS估计量都是ui的线性函数, 因此也是正态分布的;2212(,),var( )iiiYNXu3 正态分布假设对小样本至关重要,不仅有助于推导出OLS估计量的准确分布,而且可以构造各种服从2-分布, t-分布, F-分布的统计量来作假设检验.1617OLS估计量的抽样分布112222112(,),iiXNnx 2222222

10、2(,),iNx 正态假设下正态假设下OLS估计量估计量: 无偏的有效估计量无偏的有效估计量1718正态分布XN,2概率密度函数22()21( )2xf xe2 EXDX2 ,0,1 .XXNN 若则数字特征数字特征:正态分布变量的标准化正态分布变量的标准化:18192-分布1 当X1, X2, , Xn互相独立且 Xi N0,1时, 随机变量 Z=X12+X22+Xn2 的分布称为自由度等于n的2-分布, 记作Z2n。2 当当X1, X2, , Xn互相独立且互相独立且 Xi N , 2时时, 那么那么21niiXZ服从自由度为于服从自由度为于n的的 2-分布分布,记为记为Z 2n.1920

11、t分布假设X与Y互相独立, 且XN0,1,Y2 n, 令XTY n那么那么T服从自由度为服从自由度为n的的t 分布分布, 记作记作 T tn.1 t-分布是对称分布,分布是对称分布,ET=0;2当当n30时时,t分布随机变量分布随机变量T的分布密度渐近为正态分的分布密度渐近为正态分布布. 2021F 分布X nZY m假设假设X与与Y互相独立互相独立, 且且X 2n,Y 2m, 令令那么那么F服从自由度为服从自由度为n、m的的F分布分布,记作记作FFn, m.当当XFn,m时时, 1/XFm,n;假设假设Xtn, 那么那么Y=X2F1,n.2122各种分布的分位数1. 随机变量X的分布函数为

12、Fx, 实数 满足0 1时: 分位数是使 PX=1-F= 成立的临界值;3. 双侧分位数: 使 PX2=1-F2=/2的临界值2。 2223分位数的图示1各种分布的图形和分位数x122324分位数的图示2/2t/2tt2425第二节 多元线性回归模型及其应用从双变量到多变量: 一元回归模型双变量模型在理论中往往不适宜 一元回归模型的思想很容易推广到多变量模型最简单的多元回归模型是三变量模型二元回归模型25262.1 多元线性回归模型 含有一个因变量Y和k个解释变量X1, X2, ,Xk的总体回归函数PRF为 Yi=0+1X1i+2X2i+kXki+ui 2.42其中截距项0代表所有未包含到模型

13、中来的变量对Y的平均影响, 系数1,3,k被称为偏回归或偏斜率系数. 模型2.42可表示为矩阵形式: Y=X+u 2.43 2627总体回归模型n个随机方程的矩阵表达式为: YX其中其中1111212212223313231211Y,X,.11kkknnnnkknYXXXuYXXXuuYXXXuYXXXu 2728偏回归系数的含义系数2 度量理解释变量X3, X4,Xk保持不变的情况下,解释变量X2每变化1单位时Y的均值的变化, 即在剔除解释变量X3,X4,Xk的影响后解释变量X2对Y的均值的净影响。 偏回归系数反映了当模型中的其中一个解释变量为常量时,另一个解释变量对应变量均值的影响.282

14、92.2.2 多元线性回归模型的假设干假定多元线性回归模型的假定: 1 X2,X3,Xk与ui不相关; 2 误差项是零均值的:Eui=0; 3 同方差假设: varui=2; 4 无自相关假设:cov ui , uj =0ij; 5 解释变量之间无线性相关关系-无多重共线性; 6 误差项ui N0, 2. 29302.2.3 多元回归参数的估计-OLS122SRF: iikkiiYXXe22122miniiikkieYXX2122122122221222020FOC: 20 iiikkiiiiikkiikiiikkikeYXXeXYXXeXYXX3031正规方程组1221222222122ik

15、kiiiiikikiiikiikikkikikiiXXYXXXXXX YXXXX XX Y()X XX Y1()X XX Y3132OLS估计量的性质参数的OLS估计量是线性、无偏和有效的估计量.误差的方差2的估计量为221 .u usnk参数的方差参数的方差-协方差矩阵是协方差矩阵是12( )().VarX Xsiu 称为称为残差残差或或剩余项剩余项residuals,可看成是总体回归可看成是总体回归函数中随机扰动项函数中随机扰动项ui的近似替代的近似替代.32332.3 线性回归模型的检验2.3.1 假设检验 要判断原假设H0的“正确或“错误, 就必需要建立一个判别规那么.由于是利用部分随

16、机样本对总体的参数进展推断,因此可能会有错误的判断, 有两种可能:第一类错误类错误, I型错误, 或弃真错误 : 原假设H0成立但是被回绝, 其发生的概率为;第二类错误类错误, II型错误, 或取伪错误 : 原假设H0不成立但是被承受,其发生的概率为. 3334假设检验中各种可能结果的概率承受承受 H0回绝回绝 H0H0 为真为真1- 弃真弃真H0 为假为假 取伪取伪1- 3435假设检验与区间估计的关系示意图 的估计区间的估计区间回绝域回绝域回绝域回绝域承受域承受域1- 3536四、参数估计量的性质 在满足根本假设的情况下参数的OLS估计具有线性性、无偏性、有效性.1、线性性:1(),TTX

17、 XX YCY其中其中C=XTX-1XT为仅与固定的为仅与固定的X有关的行向量有关的行向量. 36372、无偏性11()()()X XX YX XXXuTTTT1(),TTX XX u利用假设利用假设EXTu=0,1( )()().TTEEX XX u3738 3. 有效性最小方差性 参数估计量的参数估计量的方差方差-协方差矩阵协方差矩阵: ( )( )( )TCovEEETE11()() ()X XXuuX X XTTTTE211()()TTTX XX X X X21() .TX X3839样本容量问题 1. 最小样本容量“最小样本容量, 即从最小二乘原理出发, 欲得到参数估计量,不管其质量

18、如何, 所要求的样本容量的下限。 样本最小容量必须不少于模型中解释变量的数目包括常数项,即 n k+1因为无多重共线性要求: rankX=k+13940 2、满足根本要求的样本容量 从统计检验的角度: n30时Z检验才能应用; n-k 8时t分布较为稳定 一般经历认为: 当n30或者至少n 3k+1时,才能说满足模型估计的根本要求. 模型的良好性质只有在大样本下才能得到理论上的证明.4041多元线性回归模型的参数估计实例 以1990年不变价格测算的中国人均国内消费总值GDPP与以居民消费价格指数CPI1990=100缩减的人均消费支出CONSP 数据资料如下表, 考虑建立1 人均消费支出CON

19、SP关于人均GDPGDPP的一元线性回归模型;2 人均消费支出CONSP关于人均GDPGDPP和前期人均消费支出CONSP-1 的二元线性回归模型.4142中国居民人均消费支出与人均GDP元/人YearCONSPGDPPYearCONSPGDPP1978395.8675.11990797.11602.31979437.0716.91991861.41727.21980464.1763.71992966.61949.81981501.9792.419931048.62187.91982533.5851.119941108.72436.11983572.8931.419951213.12663.7

20、1984635.61059.219961322.82889.11985716.01185.219971380.93111.91986746.51269.619981460.93323.11987788.31393.619991564.43529.31988836.41527.020001690.83789.71989779.71565.920011782.2 ?4033.14243GDPP40003000200010000CONSP180016001400120010008006004002004344ANOVASum of SquaresdfMeanSquareFSig.Regression

21、 3164509.8013164509.802861.61.000Residual23222.84211105.849Total3187732.6422Unstandardized CoefficientsBStd. ErrortSig.Constant 201.09314.87913.515.000GDPP .386 .00753.494.000Coefficient4445ANOVASum of SquaresdfMeanSquareFSig.Regression2902902.78721451451.393 2058.993.000Residual13393.72320704.933To

22、tal2916296.510224546ANOVASum of SquaresdfMeanSquareFSig.Regression2902902.78721451451.393 2058.993.000Residual13393.72320704.933Total2916296.51022Unstandardized CoefficientsBStd. ErrortSig.Constant 120.71936.4913.308.004GDPP .221.0613.632.002CONSP1 .451 .1702.651.016Coefficient4647Dependent Variable

23、: CONSPMethod: Least SquaresDate: 11/14/10 Time: 19:54Sample: 1978 2000Included observations: 23Variable Coefficient Std. Error t-Statistic Prob. C 201.093 14.879 13.52 0GDPP 0.386 0.007 53.49 0R-squared 0. 9927 Mean dependent var 905.34Adjusted R-squared 0.9924 S.D. dependent var 0.6533S.E. of regr

24、ession 33.25 Akaike info criterion 9.93Sum squared resid 23222.84 Schwarz criterion 10.03Log likelihood -112.19 F-statistic 2861.61Durbin-Watson stat 0.55 ProbF-statistic 04748Dependent Variable: CONSPMethod: Least Squares Date: 11/14/10 Time: 20:10Sampleadjusted: 1979 2000Included observations: 22

25、after adjusting endpointsVariableCoefficient Std. Errort-Statistic Prob. C 209.737 14.041 14.938 0GDPP 0.572 0.137 4.186 0.0005GDPP-1 -0.204 0.147 -1.389 0.181R-squared 0.9943 Mean dependent var 928.51Adjusted R-squared0.9937 S.D. dependent var 372.65S.E. of regression29.61069 Akaike info criterion

26、9.74Sum squared resid16659.06 Schwarz criterion 9.89Log likelihood-104.14 F-statistic 1653.55Durbin-Watson stat0.5726 ProbF-statistic 04849多元线性回归模型的统计检验.11122SSRknuknsniiu拟合优度检验1. 回归标准误差 the Standard Error of the Regression, SER,uSERs其中其中49502. 可决系数R2该统计量越接近于1,模型的拟合优度越高. 问题: 在应用过程中发现,假如在模型中增加一个解释变量,

27、R2往往增大. 这就给人一个错觉: 要使得模型拟合得好, 只要增加解释变量即可. 但是现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关, R2需调整.21. ESSSSRRTSSTSS50513. 调整的R2adjusted R Square 在样本容量一定的情况下, 增加解释变量必定使得自由度减少, 所以调整的思路是: 将残差平方和与总离差平方和分别除以各自的自由度, 以剔除变量个数对拟合优度的影响:).1 (11) 1()(122RknnnTSSknSSRR其中其中n-k, n-1分别为残差平方和与总体平方和的自由度分别为残差平方和与总体平方和的自由度.5152多大才算通过

28、拟合优度检验?2R2R在建立模型的过程中有什么作用在建立模型的过程中有什么作用?在中国居民消费支出的一元模型在中国居民消费支出的一元模型中中,20.9927,R 在中国居民消费支出的二元模型在中国居民消费支出的二元模型中中,20.9954,R 5253变量的显著性检验t检验1每个解释变量对被解释变量的影响是否都是显著的?2必须对每个解释变量进展显著性检验, 以决定是否作为解释变量被保存在模型中.3检验是变量的 t 检验完成的. 1、t 统计量 由于由于2(,),iiiNs那那么么).(kntstiii53542、t 检验1 设计原假设与备择假设: H0: i =0 H1: i 0 给定显著性程

29、度,可得到临界值t/2n-k, 由样本求出统计量tact的数值, 通过 |tact|t/2n-k 来回绝或承受原假设H0, 从而断定对应的解释变量是否应包括在模型中.2p-value5455注意 一元线性回归中t检验与F检验一致1 t 检验与F检验都是对一样的原假设H0:1=0进展检验;2 两个统计量之间有如下关系:222212221222122212212)2()2()2()2(txnexnexnenexneyFiiiiiiiiii5556在居民人均收入-消费支出二元模型例中参数的t值: |t0|=3.306, |t1|=3.630, |t2|=2.651,给定显著性程度=0.05, 得临界

30、值:t0.02519=2.093,可见计算的所有t值都大于该临界值,所以回绝原假.即包括常数项在内的3个解释变量都在95%的程度下显著, 都通过了变量显著性检验.56573. 参数的置信区间 参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近。 在变量的显著性检验中已经知道:).(kntstiii容易推出在容易推出在1- 的置信程度下的置信程度下 i 的置信区的置信区间是间是 22iiiiitsts其中其中t /2为显著性程度为为显著性程度为 , 自由度为自由度为n-k的临界值的临界值.5758 在中国居民人均收入-消费支出二元模型例中,给定=0.05,查表得临界值:t0

31、.02519=2.093,计算得参数的置信区间:计算得参数的置信区间: 0 :44.284, 197.116 1 : 0.0937, 0.3489 2 :0.0951, 0.8080170.04515.0061.02213.051.3670.120210210sss从回归计算中已得到从回归计算中已得到:5859如何才能缩小置信区间? 增大样本容量n, 因为在同样的样本容量下n越大, t分布表中的临界值越小, 同时增大样本容量,还可使样本参数估计量的标准差减小; 进步模型的拟合优度, 因为样本参数估计量的标准差与残差平方和呈正比, 模型优度越高, 残差平方和应越小.进步样本观测值的分散度, 一般情况下样本观测值越分散, XTX-1的分母的|XTX|的值越大, 致使区间缩小.5960方程的显著性检验F检验 方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论