stata回归结果详解-stata回归解释[教学内容]_第1页
stata回归结果详解-stata回归解释[教学内容]_第2页
stata回归结果详解-stata回归解释[教学内容]_第3页
stata回归结果详解-stata回归解释[教学内容]_第4页
stata回归结果详解-stata回归解释[教学内容]_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、stata回归结果详解 付畅俭 湘潭大学商学院 1应用2 数据来源于贾俊平统计学(第7版),第12章多元线性回归 noyx1x2x3x4 10.967.36.8551.9 21.1111.319.81690.9 34.81737.71773.7 43.280.87.21014.5 57.8199.716.51963.2 62.716.22.212.2 71.6107.410.71720.2 812.5185.427.11843.8 9196.11.71055.9 102.672.89.11464.3 110.364.22.11142.7 124132.211.22376.7 130.858.6

2、61422.8 143.5174.612.726117.1 1510.2263.515.634146.7 16379.38.91529.9 170.214.80.6242.1 180.473.55.91125.3 19124.75413.4 206.8139.47.22864.3 2111.6368.216.832163.9 221.695.73.81044.5 231.2109.610.31467.9 247.2196.215.81639.7 253.2102.2121097.1 2应用2 3应用2 第二列SS对应的是误差平方和,或称变差。 1.第一行为回归平方和或回归变差SSR,表示因变量

3、的预 测值对其平均值的总偏差。 2.第二行为剩余平方和(也称残差平方和或剩余变差) SSE,是因变量对其预测值的总偏差,这个数值越大,拟 合效果越差,y的标准误差即由SSE给出。 3.第三行为总平方和或总变差SST,表示因变量对其平均 值的总偏差。 4.容易验证249.37+63.28=312.65 2 1 3.SST()312.65 n i i yy 22 11 1.SSR()()249.37 nn ii ii yyyy 2 1 2.SSE()63.28 n ii i yy 4.SSRSSESST 第三列df是自由度(degree of freedom),第一行是回归自由度dfr,等于变量数

4、 目,即dfr=m;第二行为残差自由度dfe,等于样本数目减去变量数目再减1,即 有dfe=n-m-1;第三行为总自由度dft,等于样本数目减1,即有dft=n-1。对于本例, m=4,n=10,因此,dfr=4,dfe=n-m-1=20,dft=n-1=24。 第四列MS是均方差,误差平方和除以相应的自由度 1.第一行为回归均方差MSR 2.第二行为剩余均方差MSE,数值越小拟合效果越好 SSR249.37 1.MSR62.34 dfr4 SSE63.28 2.MSE3.16 dfe20 1.方差分析 4应用2 F值,用于线性关系的判定。 结合P值对线性关系的显著性 进行判断,即弃真概率。所

5、 谓“弃真概率”即模型为假 的概率,显然1-P便是模型 为真的概率,P值越小越好。 对于本例,P=0.00000.0001, 故置信度达到99.99%以上。 62.3428 (4,20)19.70 3.1640 M SR F M SE 2 2 2 SSR249.37 0.7976 SST63.28 /(1)(1)24(1 0.7976) 1110.7571 /120 a R SSE dfenR R SST dftn m R- Squared为判定系数(determination coefficient),或称拟合优度(goodness of fit), 它是相关系数的平方,也是SSR/SST,

6、y的总偏差中自变量解释的部分。 Adjusted对应的是校正的判定系数 Root MSE为标准误差(standard error),数值越小,拟合的效果越好 Root MSE3.16401.7788MSE 2.模型显著性 5应用2 回归系数 2 2 var()*, (1) MSE jj j jjjj xjx jjj MSEMSE VIF Rx SSTRSST xVIF 回归系数 的标准误差 为 对其它自变量进行回归的判决系数 即,方差为除以 中不能被其它自变量解释的部分,变量x的方差扩大因子 回归系数 标准误差 T值 T值=Coef./Std. Err. P值置信区间 置信区间(CI) 0.0

7、145294-invttail(20,0.025)*0.0830332=0.0145294-2.086*0.0830332=-0.1586748 0.0145294+2.086*0.0830332=0.1877335 3.回归系数检验 P值用于说明回归系数的显著性,一般来说P值0.1(*)表示10%显著水平显著,P值 0.05(*)表示5%显著水平显著, P值0.01(*)表示1%显著水平显著 6应用2 3 2 33 3.16403.1640 var( )0.08303 (1)1759.84(1 0.7392)458.91 x MSE SSTR 4.系数标准误差计算 当自变量只有两个时,R2j

8、就是这两个变 量的相关系数(pwcorr x2 x1)的平方 7应用2 对多元回归“排除其它变量影响”的解释 8应用2 9应用2 简单回归和多元回归估计值的比较 .03789471= .0289094 + .1678986 * .0535163 011 01122 2011 1121 22 121 1= 0 2= 0 yx yxx xx xy xx 则 因 此 , 在 以 下 两 种 情 况 下 会 相 等 、 样 本 中对的 偏 效 应 为 0 , 即 、 样 本 中和不 相 关 , 即 10应用2 tw (function t=tden(20,x),range(-3 3), xline(0

9、.17 2.086) ttail(df,t) = p 计算单边P值 双边时P值加倍就行了 如: ttail(20,0.17498)*2=0.863 invttail(df,p) = t 计算单边临界值 在双边95%置信度,5%显著水平 时的临界值为: t0=invttail(20,0.025)=2.086 2.0860.17 t0t 0.0145294-invttail(20,0.025)*0.0830332=0.0145294-2.086*0.0830332=-0.1586748 0.0145294+2.086*0.0830332=0.1877335 5.系数置信区间 11应用2 Stata

10、中查临界值和p值 normalden(z) normal(z) invnormal(p) tden(df,t) t(df,t) invt(df,p) ttail(df,t) invttail(df,p) chi2den(df,x) chi2 (df,x) invchi2 (df,p) chi2tail(df,x) invchi2tail(df,p) Fden(df1,df2,x) F (df1,df2,x) invF (df1,df2,p) Ftail(df1,df2,x) invFtail(df1,df2,p) Ftail(2,702,3.96)=0.0195=1-F(2,702,3.96)

11、 12应用2 6.回归结果的评价 (1)通过模型F检验说明线性关系是否成立。 (2)回归系数符号是否与理论或预期相一致。 (3) 通过系数t检验说明y 与x关系统计显著性。 (4)用判定系数说明回归模型在多大程度上 解释了因变量y 取值的差异。 (5)画残差直方图或正态概率图考察误差项 的正态性假定是否成立。 13应用2 7.多重共线性判断 出现下列情况,暗示存在多重共线性: (1 )模型中各对自变量之间显著相关(相关系数检验)。 (2) 当模型的线性关系F检验显著时,几乎所有回归系 数的t 检验都不显著。 (3) 回归系数的正负号与预期的相反。 ( 4) 容忍度( tolerance) 与方

12、差扩大因子(variance inflation factor , VIF) 。某个自变量的容忍度等于1 减去该 自变量对其他k-1 个自变量的线性回归的判定系数, 容忍 度越小,多重共线性越严重。方差扩大因子等于容忍度的 倒数,VIF 越大,多重共线性越严重, 一般认为容忍度小 于0.1 、VIF 大于10 时,存在严重的多重共线性。 2 2 11 = 1 j j jj VIF R Rx 容忍度 为 对其它自变量进行回归的判决系数 14应用2 X3的VIF=3.83 =1/(1-0.7392)=1/(0.2608) =1/容忍度 2 2 11 = 1 j j jj VIF R Rx 容忍度

13、为 对其它自变量进行回归的判决系数 15应用2 不存在完全共线性假设,允许自变量之间存在相关关系,只是 不能完全相关 1、一个变量是另一个变量的常数倍,如同时放入不同度量单 位的同一变量 2、同一变量的不同非线性函数可以成为回归元,如 consumeincome+income2 但ln( consume)ln(income)+ln(income2)共线性,应为 ln( consume)ln(income)+(lnincome)2 3、一个自变量是两个或多个自变量和线性函数 16应用2 回归模型中包含无关变量 01 12233 1233=0312 OLS yxxxu xxxxxx 在控制了 和

14、之后, 对y没有影响,即。变量 与 和 或许相关,或许不相关。 当回归模型中包含一个或多个无关变量,对模型进行了过度设定, 不影响估计的无偏性,但会影响估计的方差。 17应用2 遗漏变量偏误 012 01 2 wageeducabilu wageeducv vabilu 但由于能力不观测,因此估计模型为 其中 18应用2 遗漏遗漏相关变量偏误相关变量偏误 采用遗漏相关变量的模型进行估计而带来的 偏误称为遗漏相关变量偏误遗漏相关变量偏误(omitting relevant variable bias)。 设正确的模型为 Y=0+1X1+2X2+ 却对 Y=0+ 1X1+v 进行回归,得 2 1

15、1 1 i ii x yx 19应用2 将正确模型 Y=0+1X1+2X2+ 的离差形式 iiii xxy 2211 代入 2 1 1 1 i ii x yx 得 2 1 1 2 1 21 21 2 1 22111 2 1 1 1 )( )( i ii i ii i iiii i ii x x x xx x xxx x yx (1)如果漏掉的X2与X1相关,则上式中的第二项在小样本下 求期望与大样本下求概率极限都不会为零,从而使得OLSOLS估估 计量在小样本下有偏,在大样本下非一致计量在小样本下有偏,在大样本下非一致。 121121 xx ,其中 是 对 回归的斜率 20应用2 (2)如果X2与X1不相关,则1的估计满足无偏性与一致性;但这时0的估计 却是有偏的。 由 Y=0+ 1X1+v 得 2 1 2 1) ( i x Var 由 Y=0+1X1+2X2+ 得 )1 ()( ) ( 22 1 2 2 21 2 2 2 1 2 2 2 1 21x xiiiii i rxxxxx x Var 如果X2与X1相关,显然有 )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论