整理:多元线性回归过程_第1页
整理:多元线性回归过程_第2页
整理:多元线性回归过程_第3页
整理:多元线性回归过程_第4页
整理:多元线性回归过程_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第三章第三章 回归分析预测法回归分析预测法2第一部分:多元线性回归经典假设第一部分:多元线性回归经典假设3 假设1. 解释变量X是确定性变量,不是随机变量,并且不存在多重共线性; 假设2. 随机误差项具有零均值、同方差和无自相关,不存在异方差性,序列相关性: E(i)=0 i=1,2, ,n Var (i)=2 i=1,2, ,n Cov(i, j)=0 ij i,j= 1,2, ,n 4异方差XYX10XYX105 随机误差项包含众多因素对因变里的影响,如果其中某一个或多个因素随 着自变量观侧值的变化而对因变量产生不同的影响,往往会导致异方差性。一 般情况下,用截面数据作样本时出现异方差性

2、的可能较大,或者说一般都存在 异方差性。而当随机误差项存在异方差性时,它的方差往往与主要的自变量之 间存在某种联系。6序列自相关XXYX10YX10负相关正相关7 一般说来,经济时间序列中自相关现象较为常见。这主要是由经济变量的滞后性带来的。许多经济变量都会产生滞后影响。 自相关的产生违背了回归的基本假设,若仍用OLS法估计,将导致参数估计值虽是无偏的,但不是有效的.显著性检验失效。预测失效等。8假设3. 随机误差项与解释变量X之间不相关: Cov(Xi, i)=0 i=1,2, ,n 假设4. 服从零均值、同方差、零协方差的正态分布 iN(0, 2 ) i=1,2, ,n9多重共线性10第二

3、部分:多元线性回归经典假设检验第二部分:多元线性回归经典假设检验11912.148.29.512.948.91013.849.5410.614.850.2512.416.451.0216.220.951.8417.724.252.7620.128.153.6921.830.154.5525.335.855.3531.348.556.163654.856.9812131415VIF如果大于5,则说明有多重共线性,这个值越大,共线性越严重;解决方法:岭回归,主成份分析16 变量间关系分析计算相关系数 17 经验,DW值如果在2附近,不太可能有序列自相关 可以查表获得,其中m表示自变量的个数(包含常

4、数项)m=3,因为,两个x,一个截距18 实际应用中:存在多重共线性,需要消除多重共线性,不能直接建立多元线性回归方程。19 序列自相关 计算结果为1.956,查表,结果发现不存在序列自相关20 异方差检验 怀特检验21第三部分:多元线性回归建模过程第三部分:多元线性回归建模过程22 F检验:检验函数整体上是否可行,如果sig.列小于0.05,说明函数整体上看可行。23 每个系数的检验:t检验 Sig列小等于0.05,说明对应行的变量通过检验,可接受,对应的系数,就是B列的值; Sig列只要有一个大于0.05,则说明这个函数还不能用,要改进24 改进:逐个按照Sig从大到小,去掉Sig大于0.

5、05行对应的变量,重新建模 这个过程叫做逐步回归,这个过程用spss自动完成25 到此,如果检验都通过,说明:这个模型是可以用的 如果有多个都可以,那个更好26 多元线性回归方程的评价 评价回归方程的优劣、好坏可用确定系数R2和剩余标准差Sy,x1,2.p 。 Sy,x1,2. p SQRT(SS误差n-p-1) 如用于预测,重要的是组外回代结果。27 R检验 一般接近1的好 估计标准误,小一些好28确定系数: 简记为R2,即回归平方和SS回归与总离均差平方和SS总的比例。 R2 SS回归 SS总 可用来定量评价在Y的总变异中,由P个X变量建立的线性回归方程所能解释的比例。29 残差平方和,小

6、的好30 二、预测的评价标准 、平均预测误差平方和(mean squared error,简记MSE)平均预测误差绝对值(mean absolute error,简记MAE)。 变量的MSE定义为: MSE= (2.66) 其中 的预测值, 实际值,T时段数211TstttyyTstytyty31 变量的MAE定义如下: MAE= ,变量的定义同前 (2.67) 可以看到,MSE和MAE度量的是误差的绝对大小,只能通过与该变量平均值的比较来判断误差的大小,误差越大,说明模型的预测效果越不理想。 11TstttyyT32 2、Theil不相等系数 其定义为: (2.68) 注意,U的分子就是MS

7、E的平方根,而分母使得U总在0与1之间。如果U=0,则对所有的t, 完全拟合;如果U=1,则模型的预测能力最差。因此,Theil不等系数度量的是误差的相对大小。TttTtstTttstyTyTyyTU121212111tstyy 33 Theil不等系数可以分解成如下有用的形式: 其中 分别是序列 和 的平均值和标准差, 是它们的相关系数,即: ssststyyyyT121222 (2.69) ,ssyystytyyyyyTtssts134 定义不相等比例如下: 221tstsMyyTyyU(2.70)221tstsSyyTU (2.71)2112tstsCyyTU (2.72)35 偏误比例

8、 表示系统误差,因为它度量的是模拟序列与实际序列之间的偏离程度。 方差比例 表示的是模型中的变量重复其实际变化程度的能力。 协方差比例 度量的是非系统误差,即反映的是考虑了与平均值的离差之后剩下的误差。 理想的不相等比例的分布是 。MUSUCU1, 0CSMUUU比例 分别称为U的偏误比例,方差比例,协方差比例。它们是将模型误差按特征来源分解的有效方法( )。CSMUUU,1CSMUUU36第五节:模型选择第五节:模型选择 一、“好”模型具有的特性 1、节省性(parsimony) 一个好的模型应在相对精确反应现实的基础上尽可能的简单。 2、可识别性(identifiability) 对于给定

9、的一组数据,估计的参数要有唯一确定值。37 3、高拟合性(goodness of fit) 回归分析的基本思想是用模型中包含的变量来解释被解释变量的变化,因此解释能力的高低就成为衡量模型好坏的重要的标准。 4、理论一致性(theoretical consistency) 即使模型的拟合性很高,但是如果模型中某一变量系数的估计值符号与经济理论不符,那么这个模型就是失败的。38 5、预测能力(predictive power) 著名经济学家弗里德曼(M.Friedman)认为:“对假设(模型)的真实性唯一有效的检验就是将预测值与经验值相比较”。因此一个好的模型必须有对未来的较强的预测能力。39 二

10、、用于预测的模型的选择 因为R2将随着模型解释变量的增多而不断增加,按照此标准我们将不会得到最佳的预测模型。 因此必须对由于解释变量增多而造成自由度丢失施加一个惩罚项,其中的一个标准就是:22111RKTTR40 对自由度丢失惩罚更为严格的标准: Akaike的信息准则(Akaike information criterion,简记为AIC)和Schwarz的信息准则(Schwarz information criterion,简记为SC) 22kAIC=ln()T2kln()(lnT)TSC 41 其中 是方程随机误差项方差的估计值,k是解释变量的个数,T是样本容量。 可以看到,AIC和SC

11、 的惩罚项 、 比 更为严厉,而且相对来说SC标准对自由度的惩罚比AIC更为严厉。无论是AIC标准还是SC标准,从预测的角度来看,度量值越低,模型的预测会更好。 2 2KTKlnTT()2R42标准化偏回归系数和确定系数 标准化偏回归系数: 在比较各自变量对应变量相对贡献大小时,由于各自变量的单位不同,不能直接用偏回归系数的大小作比较,须用标准化偏回归系数。 bj = bj (sj / sy) 43第四部分:多元线性回归手工建模过程第四部分:多元线性回归手工建模过程4422xTxxyTyxtttyx一元线性回归计算过程 1、系数估计:ttyx45多元线性回归计算过程 1、系数估计:tktktt

12、tuxxxy.33221 方程的矩阵形式为 这里:y是T1矩阵,X是Tk矩阵,是k1矩阵,u是T1矩阵uXy46 可以得到多变量回归系数的估计表达式 yXXXk121M47MATLAB录入操作 在excel数据中添加一个列,值都是1(如图所示) 复制如图所示所示选中的列48499 912.112.148.248.29.59.512.912.948.948.9101013.813.849.5449.5410.610.614.814.850.2550.2512.412.416.416.451.0251.0216.216.220.920.951.8451.8417.717.724.224.252.7

13、652.7620.120.128.128.153.6953.6921.821.830.130.154.5554.5525.325.335.835.855.3555.3531.331.348.548.556.1656.16363654.854.856.9856.98X=X=50 在matlab中输入命令行,然后按回车 XX=X*X5152 在matlab中输入INVXX=inv(XX),然后按回车(注意大小写)53 从excel中复制y这列的数据54 在matlab命令行中 输入:Y=,然后鼠标移到中括号中间 然后,黏贴复制的y数据55 在matlab中输入XY=X*Y,然后按回车(注意大小写)

14、56在matlab命令行中输入:Beta=INVXX*XY57中间结算结果年份yx2x3x2x3x2平方x3平方x2yx3yy平方1978912.148.2583.22146.412323.24108.9433.88119799.512.948.9630.81166.412391.21122.55464.5590.2519801013.849.54683.65190.442454.212138495.4100198110.614.850.25743.7219.042525.063156.88532.65112.36198212.416.451.02836.73268.962603.04203.

15、36632.65153.76198316.220.951.841083.5436.812687.386338.58839.81262.44198417.724.252.761276.8585.642783.618428.34933.85313.29198520.128.153.691508.7789.612882.616564.811079.2404.01198621.830.154.551642906.012975.703656.181189.2475.24198725.335.855.351981.51281.643063.623905.741400.4640.09198831.348.5

16、56.162723.82352.253153.9461518.051757.8979.6919893654.856.983122.53003.043246.721972.82051.31296合计219.9312.4629.241681710346.333090.377114.19118114908.1358R检验 1、可决系数与调整的可决系数、可决系数与调整的可决系数 总离差平方和的分解总离差平方和的分解 可决系数可决系数TSSRSSTSSESSR12该统计量越接近于1,模型的拟合优度越高。 59=0.9988公式中: 分别和前面计算的结果对应160R相关表61R查表过程 总共N=12条记录

17、,3个变量(含截距),所以查表参数:M=3,N-M=9临界值为:62 R=0.9988临界值0.697 说明:相关性显著63 问题:问题: 在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大(Why?) 这就给人一个错觉一个错觉:要使得模型拟合得好,只要使得模型拟合得好,只要增加解释变量即可要增加解释变量即可。 但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整需调整。64 调整的可决系数调整的可决系数(adjusted coefficient of determination) 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路

18、是:将残差平方将残差平方和与总离差平方和分别除以各自的自由度,以剔和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响除变量个数对拟合优度的影响:) 1/() 1/(12nTSSknRSSR其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。k,表示变量格数(不含截距)=1-(1-0.9988*0.9988)*(12-1)/(12-3)65F检验:计算过程66 F F检验的思想检验的思想来自于总离差平方和的分解式: TSS=ESS+RSS由于回归平方和2iyESS是解释变量X的联合体对被解释变量 Y 的线性作用的结果,考虑比值 22/iieyRSSESS 如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。 因此因此, ,可通过该比值的大小对总体线性关系进行推可通过该比值的大小对总体线性关系进行推断断。67 根据数理统计学中的知识,在原假设H0成立的条件下,统计量 ) 1/(/knRSSkES

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论