第三讲多元线性回归模型检验及stata软件应用_第1页
第三讲多元线性回归模型检验及stata软件应用_第2页
第三讲多元线性回归模型检验及stata软件应用_第3页
第三讲多元线性回归模型检验及stata软件应用_第4页
第三讲多元线性回归模型检验及stata软件应用_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章多元线性回归模型检验拟合优度检验方程的显著性检验(总参数的F检验) 变量的显著性检验(单参数的t检验) 构造置信区间3. 2拟合优度检验可决系数与调整的可决系数1. 总离差平方和的分解观测值对均值的ESS = Yi-y)2rss = Y-2总离并平方和散程度、偏离程度分散程度、偏离程度回归PF方不口 拟合值对均值的TSS =_卩)2=0(乙 _£) + (£ _歹)2=z(rz _ £ 尸 + 2Z(rz - £)(£ ?)+ z(yz - F)2观测值对拟合值的 分散程度、偏离程度剩余平方和由于 工(乙-¥)-¥)=

2、工® (£- Y)=0 条件:模型必须有截距项 所以有:(f(. - r)2 = RSS + ESS有意思的是:任一可=(乙一£)+一刃(乙一刃2工(乙一幼+(£一开Z fc-r)2=Z 仗-汀+工2. 可决系数 ESS , RSSRj = 1TSS TSS该统计量越接近于1,模型的拟合优度越高。问题:在应用过程中发现,如果在模型中增加一个解 释变量,R2往往增大(?)这就给人一个错觉:要彳吏得模型拟合得好,只 要增加解释变量即可。但是,现实情况往往是,由增加解释变量个 数引起的R2的增大与拟合好坏无关,R2需调整。3. 调整的可决系数在样本容量一定的情

3、况下,增加解释变量必 定使得自由度减少,所以调整的思路是:将残差平 方和与总离差平方和分别除以各自的自由度,以 剔除变量个数对拟合优度的影响:-21 RSS/(n-k)R =1八TSS/(n-1)其中:n-k为残差平方和的自由度,zrl为总体平 方和的自由度。护与皿之间存在如下关系:用=1 -(1 -疋)耳n-k3. 3统计推断一、方程的显著性检验(F检验)方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著 成立祚出推断。1、检验假设即检验模型Y 邙 1+B2X2+ . +PkXk+ £ 中的参数卩i是否显著不为0。可提出如下原假设与备择假设:Ho:卩2

4、邙3=Pk=®h1;F检验的思想来自于总离差平方和的分解式:TSS=ESS+RSS由于回归平方和ESS = X肾是解释变量X的联合体对被解 释变量Y的线性作用的结果,考虑比值ESS / RSS如果这个比值较大,则X的联合体对Y的解释程度 高,可认为总体存在线性关系,反之总体上可能不存 在线性关系。因此,可通过该比值的大小对总体线性关系进行推 断。2. 检验统计量根据数理统计学中的知识,在原假设H。成立 的条件下,统计量尸严/(j f( RSS/(n-k)服从自由度为d,n-k)的F分布给定显著性水平a,可得到临界值Fa%"/),由 样本求岀统计量F的数值,通过F> F

5、a (k-lfn-k) 或F<Fa (k 1 ,nk)来拒绝或不能拒绝原假设H°,以判定原方程总体上的 线性关系是否显著成立。P值检验法为了方便起见,将F统计量的 值记为F。计算 p=PF> Fo称为0 值(/?-value )如果p> a,贝»Jp/2> a/2, Fo 落入不能拒绝域,不能拒绝 如果p< a,落入拒绝域,应拒 绝准则:心当P值小于显著性水平时, 方程在给定显著性水平下是 显著的心当P值大于显著性水平时, 方程在给定显著性水平下是 不显著的。"3.关于拟合优度检验与方程显著性检验的关系2由R "一RSS/(

6、n-k)TSS l(n Y)ESS/伙-1)RSS/n-k)用/伙1)(1 R?) "ri_k)可推出初2 = iHK _ n_k + (k_)FF与无同向变化:当疋=0时,F = 0 ;王越大,F值也越大;当不=1(1寸,F为无穷大。二、变量的显著性检验(t检验)方程的总体线性关系显著琲个解释变量对被 解释变量的影响都是显著的因此,必须对每个解释变量进行显著性检验, 以决定是否作为解释变量被保留在模型中。这一检验是由对变量的t检验完成的。1.检验假设Hq: 0尸0(i=l,2.k)弘:能02.检验统计量当0已知时T用正态N当CT沬知时t n>50也可用正态N很小T用分布(1)

7、 t变量其中S (斫sJ(XX)b厂N 0&(XX):)(2) t检验统计量若H°为真,则f(林=t(n-k)8 bi)3. 判断给定显著性水平0C,可得到临界值切2次),由样本求出统计量t的数值,通过t | 如2(兀次) 或 I t | 切2 S次)来拒绝或不能拒绝原假设H。,从而判定对应的解 关于P值:以t统计量的观测值作为临界值,并计算该检 验的响应显著水平,这就是P值。释变量是否应包括在模型P值检验法(pvalue test)A(3 i P值的概念:tQ = 一为了方便,将t统计量的值记为Se).J计算 P=P 11 >f0称为p 值(pvalue )通常的计量

8、经济学软件都可自动计算出p值拒绝HO不能拒绝HO拒绝HO:如果pva,贝!J p/2< a/2, t0 落入拒绝域, 应拒绝当P值小于等于给定显著性水平时,所研究的解释变量对被 解释变量的影响在该显著性水平下是显著的;当P值大于给定显著性水平时,所研究的解释变量对被解释 变量的影响在该显著性水平下是不显著的。两类错误H。真H。伪不拒Ho对取伪II拒拒真I对I:拒真。把不应该引入的变量引入模型,导致多列无关变量,造成虽然参数估计值是无偏,但标准差会大。若不想犯第一类错误,则显著水平需要定得小点。II:取伪。把该引入的变量没有引入模型一 遗漏变量 .造成参数估计量有偏。三、参数的置信区间1

9、问题的提出(1)区间/误差bkPk -rk注意:不是先有区间,让伙,Q ,掉进去,而是先有/J再找彳bkrk-pk-bk + rk区间把它罩住。(2)置信度置信度=把握程度比如,置信度=95%的意思是在100个 区间里,有95个区间包括pk o一2. Pk的置信区间对称区间,中心是bk,半径是n = S(bk>tn-k)门、bk-卩k 八人)= pS(bk)-<fa(n-k)> = 1-bkrk-P k-bk + r= l-a如何才能缩小置信区间?增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越 小,同时,增大样本容量,还可使样本参数估计量的标准差减小;

10、提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比, 模型优度越高,残差平方和应越小。提高样本观测值的分散度,一般情况下,样本观测值越分散,(xxr的分母的值越大,致使区间缩小。残差平方和回归平方和SourceMModel12145064383547.7Residual11005674.02Total9465218.37Coef.Std. ErnP>t14SS11062414.132513057wk079426950629030.1687fe446972151863718.62cons.6956167.083400383443740.316648.642.63系数标准差总平

11、方和00001002.8RootMSE=Number of obs =R-squared=Adj R-square95% Conf. Interval-L1937641-0349110.0000.0000.0243.3282085120539-8038X725.611233.87917967096.921R2调整的R2置信区间Stata操作命令行格式:最常用的方法 use “d:dataauto.dta”,clear /*打开数据库 regress y x1 x2 x3 Stata8以后开始有菜单选择菜单进行操作后,在命令栏里可以看到命令行 格式是如何写的。读取数据:用use命令调入数据:dt

12、a格式数据use “d:statadataauto.dta: clear:Excel格式数据的读取 直接拷贝,粘贴到stata中:使用Stat transfer把其它格式的数据转成statQ格衣的薮据:读入ASCI I格式数据文件:比较麻烦常见数据格式:Stata 格式:dta:文本格式:txt:-Excel格式:xls:其它格式:sas> spss> gauss等Stata的主要功能数据管理:data management 统计功能:statistics 作图功能:graphics 矩阵运算:matrix程序设计:programmingFils Eiit Prefs Data.

13、Graphics Sta.tistics User Window Kelps 线仍 a "a" <® e -© ©u$e d: $tatadataau tozc leai desreg rnpg price weight foreigrNotes :1.(/m# option or -set memory-) 1.00MB allocated to dataI. use1(1978d: st at adat aaut o? cl ear Automobil e Data)obs :741978 Automobil e Datavars :

14、1216 Sep 2006 22:01size:3,478C99.7% ofmemory free)storagedisplayvaluepari able nametypeformatlabelvariable labelmakes*trl8%-18sMake and Modelpriceint%8 OgcPricepipgint%8.OgMileage (mpg)rep78int%8.0gRepair Record 1578headroomfloat%6.1fHeadroom (in)krunkint%80gTrunk space (gu. ft.)kveightint%8 Ogcweig

15、ht (lbs)lengthint%8OgLength 6门)rturnint%8.0gTurn ci rcla (ft.)displacementinr%80gDi5placement (cu. Tri.)gear_ratiofloat%6.2fGear RatioForAgnbyte%8.Ogorlgi ncar typesorted by: foreigntontai nsdata from d:statadataairto.cka reg mpg price weight foreign Variables X:;开始越 W ® 靂廖首 E3 呼 Q B 他>>

16、倚 datar g?Te.In.皿1 O'M :县丿匚闵19:00File Edit Frefs Data IGraphicElf StatiEticq User Window HelpMMMMMM. MM MM . MM. MMMMMM Q £育朗Q des数据管理 sysuse auto(1978 Automobile Data;srorage displayIntercooled S+ata 8- ?contains data from c:program Files"' obs:74vars:12_size:B?478t99.7%ofmemoi数据管

17、理调用数据库程序讲解(E:panel)调用数据库程序讲解(E:panel)数据读取编辑数据产生或改变变量:gen, egen,相同的变量上下连接:保存数据库 按关键变量横向连接合并和添加数据:merge, append调用数据库程序讲解(E:panel)数据集的重新组织:reshape产生或改变变量genreplaceegen (对gen的扩展,与一些函数结合使用,如mean, count,min,max 等)产生虚拟变量 tabulate vid, gen(vdummy) Xi: reg y x1 x2 i.vid变量的命名:性另ij: gender 1=female, 0=male 不好f

18、emale 1=female, 0=male调用数据库程序讲解(E:panel)产生变量 bysort hhid: gen order=_n bysort hhid: gen number=_Ni _n:是产生排序的数列 N:产生总数调用数据库程序讲解(E:panel)给数据或变量加注释Label data 'Investment: cfliu 2006"label variable v1 H county “label define与label values是一起使用的。而label variable是单独使用的 另外,比如有个变量gender的值为0和1, 1表示male

19、 0表示female。你如果用table gender x1,会发现是按照0 1来显示分类的。你如果用了abel define gendervalue 0 female 1 maleabel values gender gendervalue在执行table gender x1 ,则是按照female和male來分类的。但gender还是原来的变量类型,如原來是数值型,现在还是。虽然list sex显示为female male,但仍然可以按照0或1來操作.数据集的重新组织 reshape collapsecollapse (mean) c, by (t)调用数据库程序讲解(E:panel)Re

20、shape命令详细解释:包括矩阵转置等e Iong-long formeseive$0t<<hi d 1=盲hi dminc90mi nc91f-i nc90nc91114500460032004700 St at aEditor1Preserve | Restore | | Sort|»| Hide 丽hid 口 = |Qhi dyearmi ncfi nc1190450032002191460047001The long-year wide-sex form* St at aEditorPreserve |RestoreSort =*1丁HideDeletevar5

21、5=hidsexinc90incSl11f3 200470021ni45004600The wide-year long-sex form各种数据结构的相互转换FrnIoConandTearSexTearSexlonglonglongwidereshape wide ©inCj i (.hid ye ar.) j (. s ex.) stringlongwidelonglongreshape long ©itiCj i (.hid ye ar.) j (. s ex.) stringlonglongwidelongre shape wide inc, i (.hi d s

22、ex.) j (.ye ar.)widelonglonglongreshape long inc, i (.hid sex.) j (.year.)longwidewidewidereshape wide mine finCj i (.hid.) j (,year.)widewidelongwidereshape long mine finCj i (.hid) j (.year.)widelongwidewidereshape wide inc93 inc91j i (.hid.) j (.sex.) stringwidewidewidelongreshape long inc93 inc9

23、2j i (.hid.) j (.sex.) stringReshape 命令 *From Iong-long form to Iong-wide formreshape wide inc, i(hid year) j(sex) string *From Iong-wide form to Iong-long formreshape long inc, i(hid year) j(sex) string *From Iong-long form to wide-long formreshape wide inc, i(hid sex) j(year) *From wide-long form

24、to Iong-long formreshape long inc, i(hid sex) j(year) *From Iong-wide form to wide-wide formreshape wide mine fine, i(hid) j(year) *From wide-wide form to Iong-wide formreshape long mine fine, i(hid) j(year) *From wide-long form to wide-wide formreshape wide inc90 inc91, i(hid) j(sex) string *From w

25、ide-wide form to wide-long formreshape long inc90 inc92, i(hid) j(sex) string如果变量为字符型,如sex的值为f和m,要把inc变量生成fine inc,则需Collapse 命令:产生新的数据集collapse (统计量)变量,by (变量) collapse (mean) price, by(foreign) collapse (mean) mprice=price (sum) sprice=price, by(foreign)统计功能描述统计交叉表格:估计描述统计 Sum xHistogram调用数据库程序讲解(

26、E:panel)作图twoway (histogram c, title("消费分析”) xlabel(1000(500)6000) bfcolor(gs5) scatter c ytwoway(scatter c y) (qfit c y) twoway(scatter c y) (Ifit c y)表格 Table 可以作四维表格心table foreign3c(n price mean price sd price max price min price) row心table year region gender5c(mean price sd price max price

27、min price) by(agegroup) row Tabulatetabulate vid5gen(vidumy)tabulate vid gender调用数据库程序讲解(E:panel)table year if (vcode=vcode_n+1| vcode=vcode_n-1 ) & vcow=O,c(n vcode)do文件的编写编写do文件的作用记录你的操作过程减少命令的输入do文件的编写 Stata中的do file编辑器 其它的软件:TextpadFile Edit Search ToolsD 19# #4 侖定 g|BDI*do-file: hsbt已s匸.do*

28、use /stat/stata/stat130/hsberr clearuse11nmissingsurcirriar izeassert id> = l & idsZOCIAassert (gender>=l& gender<=2)|gen.de r= asserc (rac已>=:L £rac已c=4)|rac已=assert (ses>=l & ses<=3)|ses=.assert (scht.yp> = l& schtyp<=2)|sch.typ= as

29、sert (prog>=l &prog<=3)1prog=.assert (read>=l& read<=100)|read=.assert (write>=l& write<=100)|writE=assert (rnath>=l& ma匸h<=100)|math=assert (science>=l£ science<=100) |science=.asserc (socst>=l& socst<=100)|SOCSt=hK*K*KK*f i 丄亡:hstof ix . do "卞clearuse 、11replace id=193if id=1193replace read=47if read=147re

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论