第2章一元线性回归模型_第1页
第2章一元线性回归模型_第2页
第2章一元线性回归模型_第3页
第2章一元线性回归模型_第4页
第2章一元线性回归模型_第5页
已阅读5页,还剩168页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江财经大学倪伟才1第二章一元线性回归模型回归分析是计量经济学的基础内容!本章介绍一元线性回归模型,最小二乘估计方法及其性质,参数估计的假设检验、预测等。浙江财经大学倪伟才2本章主要内容2.1一元线性回归模型2.2参数β0、β1的估计2.3最小二乘估计的性质2.4回归方程的显著性检验2.5残差分析2.6回归系数的区间估计2.7预测和控制2.8本章小结与评注浙江财经大学倪伟才3线性回归分析基本特征1、分析方法主要是对因果关系的回归分析,即x是原因,y是结果2、“线性”的含义“线性”可作两种解释:对变量为线性,对参数为线性。一般“线性回归”一词总是指对参数为线性的一种回归(即参数只以它的1次方出现)。浙江财经大学倪伟才4学习一元线性回归模型理由假设:y和x是代表一个总体的两个变量,我们的兴趣在于用x来解释y,或者说是研究y如何随x而变化为什么先学习一元线性回归模型:1、两个变量之间线性因果关系在现实经济中比较简单。2、虽然许多经济问题涉及到多变量关系或不是线性的,但多变量关系与两变量线性关系分析方法相似,非线性关系多数可转化为线性关系,因此先讨论两变量线性回归有方便之处。3、简单线性回归分析的原理和方法,正是所有计量经济分析的基本原理和方法,对理解计量经济分析的思想方法,进一步学习各种复杂的计量经济分析技术有很大帮助。浙江财经大学倪伟才5实际背景在实际中,经常要研究某一现象与影响它的某一最主要因素的统计思想。例子(1)y大豆的产出,x化肥的用量;(2)y每小时的工资,x受教育的年数;(3)

y社区的犯罪率,x警察的数目;(4)火灾损失与火灾发生地距最近的消防站的距离;……

浙江财经大学倪伟才6例题(课本)例2.2

全国人均消费金额记作y(元);

人均国民收入记为x(元)表2.2 人均国民收入表浙江财经大学倪伟才7散点图(scatter)的重要性例:全国人均消费金额记为y(元);把人均国民收入记为x(元)。我们把收集到1980-1998年的19年的样本数据(xi,yi),i=1,2,…,n.数据见一元线性模型(消费和收入).sav浙江财经大学倪伟才8SPSS16output浙江财经大学倪伟才9

一元回归直线的直观意义观察散点图,变量x,y具有明显的线性关系。故经过这些样本点画一条适当的直线。Abetterprocedureistofindthebeststraightlineusingacriterionthat,foragivensetofdata,producesthesamelineregardlessofthepersondoingthefitting.浙江财经大学倪伟才102.1一元线性回归模型由于两个变量y,x具有明显的线性关系,故考虑直线方程y=0+1x(函数表达的是确定性关系,有缺陷!)y=0+1x+u,其中u表示除x外,影响y的其它一切因素。将y与x之间的关系用两部分来描述:a.一部分0+1x

,由x的变化引起y变化;b.另一部分u

,除x外的其它一切因素引起y变化。参数(parameters)0,1;0称为回归常数(截距)(intercept,constant),1称为回归斜率(slope)浙江财经大学倪伟才11回归的术语y的各种名称:因变量(dependentvariable)或被解释变量(explainedvariable)或回归子(regressand)或内生(endogenous);X的各种名称:自变量(independentvariable)或解释变量(explanatoryvariable)或回归元(regressor)或外生(exogenous)U的各种名称:随机误差项或随机扰动项(stochasticerrorterm,randomdisturbanceterm):表示其它因素的影响,是不可观测的随机误差!浙江财经大学倪伟才12随机误差项的意义随机误差项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来,而以随机扰动项来替代?理由是多方面的:(1)理论含糊:理论不能完全说明影响因变量的所有影响因素。(2)数据欠缺:无法获得有关数据。(3)核心变量:希望能找到与有较大影响的核心变量的关系。(4)替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。(5)简单原则:研究中尽可能使回归模型简单。(6)错误函数:回归式的的选择是主观的浙江财经大学倪伟才13随机误差项各种名称及含义1:计量:error2:宏观经济学:shock例:银行对房贷的政策,对温州和杭州的市场的冲击不同!3:金融:innovation浙江财经大学倪伟才14下表表示总体数据

X:收入,y:消费;目的:条件期望XY80100120140160180200220240260556579801021101201351371506070849310711513613714515265749095110120140140155175708094103116130144152165178758598108118135145157175180-88-113125140-160189185---115---162-191户数5657665765总支出32546244570767875068510439661211浙江财经大学倪伟才15条件期望条件分布(Conditionaldistribution):以X取定值为条件的Y的条件分布条件概率(Conditionalprobability):给定X,Y的概率,记为P(Y|X)。例如,P(Y=55|X=80)=1/5;P(Y=150|X=260)=1/7。条件期望(conditionalExpectation):给定X的Y的期望值,记为E(Y|X)。例如,E(Y|X=80)=55×1/5+60×1/5+65×1/5+70×1/5+75×1/5=65浙江财经大学倪伟才16总体回归函数(PRF)总体回归函数(PopularRegressionFunction,PRF)E(Y|Xi)=f(Xi)[注意是x的函数]当PRF的函数形式为线性函数,则有,E(Y|Xi)=0+1Xi其中0和1为未知而固定的参数,称为回归系数。0和1也分别称为截距和斜率系数。称为线性总体回归函数浙江财经大学倪伟才17样本回归函数(SRF)由于在大多数情况下,我们只知道变量值的一个样本,要用样本信息的基础上估计PRFX(收入)80100120140160180200220240260Y(支出)55657980102110120135137150样本1样本2X(收入)80100120140160180200220240260Y(支出)708094103116130144152165178样本回归函数SRF:

在回归分析中,我们用SRF估计PRF。浙江财经大学倪伟才18不同样本的回归线数据见:SRF.sav浙江财经大学倪伟才19SPSS11操作(1)Graphs-Scatter-Overlay(2)Chart-Options-Fitline(3)圆形和三角形的选择浙江财经大学倪伟才20误差项和残差的关系XiXPRF:E(Y|Xi)=0+1XiSRF:YE(Y|Xi)SRF是PRF的近似估计。为了使二者更为接近,即要使浙江财经大学倪伟才21假定1:回归模型对参数是线性的假定2:在重复抽样中X的值是固定的(非随机)假定3:干扰项的均值为零。即,E(ui|Xi)=0[练习!]假定4:同方差性或ui的方差相等。即

Var(ui|Xi)=2假定5:各个干扰项无自相关。即

Cov(ui,uj|Xi,Xj)==0假定6:ui和Xi的协方差为零。即

Cov(ui,Xi)==0假定7:观测次数必须大于待估计的参数个数。假定8:解释变量X的只要有变异性。即一个样本中,Xi不能完全相同。假定9:模型没有设定误差。假定10:没有完全的多重共线性,即解释变量之间没有完全的线性关系。浙江财经大学倪伟才22课堂练习Wooldridge《IntroductoryEconometrics》(3rd)Problems2.2浙江财经大学倪伟才23

Gauss-Markov条件

随机误差的高斯——马尔柯夫条件:浙江财经大学倪伟才24一元线性回归模型的矩阵形式浙江财经大学倪伟才252.2参数0,1的估计一、参数0,1的估计方法:普通最小二乘估计OLSE(ordinaryleastsquareestimation)目的:利用样本数据得到0,1的理想估计值原则:使n个样本点最靠近回归直线浙江财经大学倪伟才26例题(课本)例2.2

全国人均消费金额记作y(元);

人均国民收入记为x(元)表2.2 人均国民收入表浙江财经大学倪伟才27例题例:在研究我国人均消费水平的问题中,把全国人均消费金额记为y(元);把人均国民收入记为x(元)。我们把收集到1980-1998年的19年的样本数据(xi,yi),i=1,2,…,n.数据见:一元线性模型(消费和收入).sav要使样本点最靠近回归直线,考虑观测值yi与回归值(即平均值)E(yi|Xi)=0+1Xi的离差的平方和。思考:为什么不考虑∑(yi-E(yi|xi)),及∑|yi

–E(yi|xi)|[联系分位数回归checkfunction!]浙江财经大学倪伟才28散点图的深化Graphs-interactive-scatterplot-spike-fitline浙江财经大学倪伟才29SPSS16浙江财经大学倪伟才30样本点最靠近回归直线,就是使离差平方和最小最小二乘法名称的由来浙江财经大学倪伟才31残差实际上是y的观测值与回归值的差或者说是y的实际值与回归值的差浙江财经大学倪伟才32随机误差项和残差的关系请参考Greene5thedition<<EconometricAnalysis>>page20th,FIGURE3.1PopulationandSampleRegression.Spss使用小技巧:如何画课本24页的图2-3Graphs-interactive-scatterplot-spike-fitline浙江财经大学倪伟才33GreeneFig.3.1浙江财经大学倪伟才34最小二乘估计公式的推导[要非常熟练掌握]利用二元微积分求极值的知识知:

作为极值问题解的必要条件是:在取值时,Q(0,1)关于0,1的偏导数必须为0:以上方程组称为firstorderconditions(FOC)浙江财经大学倪伟才35Normalequations:利用克莱姆法则,得出普通最小二乘估计(OLSE:ordinaryleastsquareestimators)浙江财经大学倪伟才36问题:浙江财经大学倪伟才37例题(课本)例2.1

表2.1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。表2.1 火灾损失表浙江财经大学倪伟才38参数β0、β1的估计(计算题!)例2.1回归方程浙江财经大学倪伟才39回归直线经过样本的均值的上机验证EXAMPLE2.7(WageandEducation)ForthedatainWAGE1.sav,theaveragehourlywageinthesampleis5.90,roundedtotwodecimalplaces,andtheaverageeducationis12.56.Ifweplugeduc

12.56intotheOLSregressionlinewage=-0.90+0.54educ,wegettheestimateofwage=5.8824,whichequals5.9whenroundedtothefirstdecimalplace.Thereasonthesefiguresdonotexactlyagreeisthatwehaveroundedtheaveragewageandeducation,aswellastheinterceptandslopeestimates.浙江财经大学倪伟才40OLSE易忽视的问题OLS可以解出参数0,1

的估计值:但是有一个问题必须要清楚,该估计值真的能使残差平方和达到最小吗?请阅读wooldridge一书的第二章附录,你自然会明白!浙江财经大学倪伟才41OLSE易忽视的问题

阅读材料:Wooldridge<<IntroductoryEconometricsAMordenApproach>>page65Appendix浙江财经大学倪伟才42浙江财经大学倪伟才43浙江财经大学倪伟才44SOC浙江财经大学倪伟才45参数估计的本质条件1:用OLSE估计参数的本质条件是FOC2:因此,只要满足FOC条件,就能估计出参数3:从E(u|x)=0这个条件就能估计参数!浙江财经大学倪伟才46残差的性质:(会证明!)浙江财经大学倪伟才47残差性质的注解1:画正交投影解释残差性质(2)和(3)。2:通过上机验证残差性质(1)-(4),加深直观认识!数据:一元线性模型(消费和收入).sav浙江财经大学倪伟才48小结1:一元线性回归模型的参数的估计公式不仅会推导,而且要记住其结论!你记住了吗?2:一元线性回归模型斜率估计的3种等价公式,你会推导了吗?3:残差的性质!浙江财经大学倪伟才49最大似然估计(MLE)

目的:用最大似然估计法估计一元线性回归模型!

思考:用最大似然估计需要另外的假设是什么?问题:用MLE估计得到参数的估计值与OLS得到的估计值是否会相同?浙江财经大学倪伟才50MLE浙江财经大学倪伟才51MLE(会推导!)y1,y2,…,yn的似然函数为:对数似然函数为:与最小二乘原理完全相同

在假设εi~N(0,σ2)时,yi服从如下正态分布:浙江财经大学倪伟才522.3最小二乘估计的性质(BLUE)浙江财经大学倪伟才53线性的含义浙江财经大学倪伟才54无偏性浙江财经大学倪伟才55无偏性的证明浙江财经大学倪伟才56无偏性模拟浙江财经大学倪伟才57stata一次估计:drop_allsetobs20setseed12345genx=invnormal(uniform())gentruey=1+1*xgeny=truey+invnormal(uniform())regyx浙江财经大学倪伟才58stata多次估计:drop_allsetobs20setseed12345genx=invnormal(uniform())gentruey=1+1*xsavetruthprogramsimulation1.version102.usetruth,clear3.geny=truey+invnormal(uniform())4.regressyx5.endsimulate_b,reps(500):simulationsumhist_b_xpnorm_b_xswilk_b_x浙江财经大学倪伟才59对无偏性的注解并不是所有的估计值满足无偏性(unbiased!)以下内容摘自Wooldridge《EconometricAnalysisofCrossSectionandPanelData》P101:5.2.6PotentialPitfallswith2SLSOnethingtorememberisthat,unlikeOLSunderazeroconditionalmeanassumption,IVmethodsareneverunbiasedwhenatleastoneexplanatoryvariableisendogenousinthemodel.Thisisonereasonwerelyonlarge-sampleanalysistojustify2SLS.(consistent!)浙江财经大学倪伟才60变异和方差的关系变异:指一个变量对其均值的离差平方和。

变异(variation)和方差(variance)差别:变异指一个变量对其均值的离差平方和;方差指该平方和除以适当的自由度。方差=变异/自由度浙江财经大学倪伟才61系数估计值的方差浙江财经大学倪伟才62思考题浙江财经大学倪伟才63阅读材料:abstractedfromWooldridge,page55th-56th浙江财经大学倪伟才64con’s浙江财经大学倪伟才65浙江财经大学倪伟才66SomeCommentsontheStandardErrorEstimatorsChrisBrooks《introductoryeconometricsforfinance》Box2.4standarderrorestimators浙江财经大学倪伟才67Con’d Considerwhathappensifissmallorlarge:浙江财经大学倪伟才68估计值的协方差浙江财经大学倪伟才69估计值协方差的注解浙江财经大学倪伟才70方差、协方差之间的关系浙江财经大学倪伟才71高斯——马尔柯夫定理[要求会证明!]浙江财经大学倪伟才72implicationofBLUEBestLinearUnbiasedEstimators(BLUE).Whatdoesthisacronymstandfor?1:Estimator:ˆαandˆβareestimatorsofthetruevalueofαandβ2:Linear:ˆαandˆβarelinearestimators--thatmeansthattheformulaeforˆαandˆβarelinearcombinationsoftherandomvariables(inthiscase,y)3:Unbiased:onaverage,theactualvaluesofˆαandˆβwillbeequaltotheirtruevalues4:Best:meansthattheOLSestimatorˆβhasminimumvarianceamong theclassoflinearunbiasedestimators.浙江财经大学倪伟才73证明:浙江财经大学倪伟才74浙江财经大学倪伟才75补充练习(Homework)JamesH.Stock《IntroductiontoEconometrics》(2rd)EX.5.14浙江财经大学倪伟才762.4回归方程的显著性检验浙江财经大学倪伟才77Anintroductiontostatisticalinference

Often,financialtheorywillsuggestthatcertaincoefficientsshouldtakeonparticularvalues.Itisthusofinteresttodeterminewhethertherelationshipsexpectedfromfinancialtheoryareupheldbythedatatohandornot.Estimatesofαandβhavebeenobtainedfromthesample,butthesevaluesarenotofanyparticularinterest;thepopulationvaluesthatdescribethetruerelationshipbetweenthevariableswouldbeofmoreinterest,butareneveravailable.Instead,inferencesaremadeconcerningthelikelypopulationvaluesfromtheregressionparametersthathavebeenestimatedfromthesampleofdatatohand.Indoingthis,theaimistodeterminewhetherthedifferencesbetweenthecoefficientestimatesthatareactuallyobtained,andexpectationsarisingfromfinancialtheory,arealongwayfromoneanotherinastatisticalsense. --abstractedfromChrisBrooks《introductoryeconometricsforfinance》浙江财经大学倪伟才78正态性假设的合理性浙江财经大学倪伟才79正态性假设不成立!1:heavytail2:clustervolatility3:leverageeffectWhatdoesthet-distributionlooklike?Itlookssimilartoanormaldistribution,butwithfattertails,andasmallerpeakatthemean.浙江财经大学倪伟才80正态性假设不成立的例子姜近勇教材P40评注2.4浙江财经大学倪伟才81

回归系数的t检验回归系数的显著性检验就是检验自变量x对因变量y影响程度是否显著。[注意:课本P32有误!]原假设H0:1=0对立假设H1:1≠0(是双侧假设验)如果原假设成立,y和x之间并不存在真正的线性关系;拒绝原假设,y和x之间存在线性关系。

浙江财经大学倪伟才82构造t统计量的理由:浙江财经大学倪伟才83t统计量的几点注解1:Asthedegreesoffreedominthetdistributiongetlarge,thetdistributionapproachesthestandardnormaldistribution.Thesearecloseenoughforpracticalpurposes;fordegreesoffreedomgreaterthan120,onecanusethestandardnormalcriticalvalues.浙江财经大学倪伟才842:RecallthatthetstatisticfortestingH0:β1=0isdefinedbydividingtheestimatebyitsstandarderror:.Thus,t

canindicatestatisticalsignificanceeitherbecause

is“large”orbecause

is“small”.Itisimportantinpracticetodistinguishbetweenthesereasonsforstatisticallysignificanttstatistics.Toomuchfocusonstatisticalsignificancecanleadtothefalseconclusionthatavariableis“important”forexplainingyeventhoughitsestimatedeffectismodest.浙江财经大学倪伟才85对t统计量的理解浙江财经大学倪伟才86nullhypothesis1:Notethatthereisalwaysanequalityunderthenullhypothesis.So,forexample,β<0.5wouldnotbespecifiedunderthenullhypothesis. 2:Thispriorinformationshouldcomefromthefinancialtheoryoftheproblemunderconsideration,andnotfromanexaminationoftheestimatedvalueofthecoefficient.浙江财经大学倪伟才87useofterminologyinconnectionwithhypothesistests1:itissaidthatthenullhypothesisiseitherrejectedornotrejected.2:itissaidthatthenullhypothesisiseitherrejectedornotrejected.Itisincorrecttostatethatifthenullhypothesisisnotrejected,itis‘accepted’

3:Onereasonwhyitisnotsensibletosaythatthenullhypothesisis‘accepted’isthatitisimpossibletoknowwhetherthenullisactuallytrueornot!4:

Inanygivensituation,manynullhypotheseswillnotberejected.Forexample,supposethatH0:β=0.5andH0:β=0.52areseparatelytestedagainsttherelevanttwo-sidedalternativesandneithernullisrejected.Clearlythenitwouldnotmakesensetosaythat‘H0:β=0.5isaccepted’and‘H0:β=0.52isaccepted’,sincethetrue(butunknown)valueofβcannotbeboth0.5and0.52.

浙江财经大学倪伟才88回归的标准误

称为回归的标准误(thestandarderroroftheregressionortherootmeansquarederror(Wooldridge

page58th)Standarderroroftheestimate:Thestandarderroroftheestimatemeasurestheamountbywhichtheactualyvaluesdifferfromtheestimatedvalues

.Itisanestimateofthestandarddeviationoftheerrortermuinthesimplelinearregressionmodel.(《BusinessForecasting》page221)浙江财经大学倪伟才89(证明可参阅WooldridgeP57(orP62)Theorem2.3)浙江财经大学倪伟才90Hint浙江财经大学倪伟才91Example:HowtoCalculatetheParametersandStandardErrorsAssumewehavethefollowingdatacalculatedfromaregressionofyonasinglevariablexandaconstantover22observations.

Determinetheappropriatevaluesofthecoefficientestimatesandtheirstandarderrors.浙江财经大学倪伟才92Solutions(estimators)浙江财经大学倪伟才93Solutions(standarderrors)浙江财经大学倪伟才94回归结果的表示(务必会表示!)浙江财经大学倪伟才95什么是P值?(P-value)P值即显著性概率值SignificanceProbabilityValue.SPSS的输出结果用sig.表示。浙江财经大学倪伟才96P值P值被定义为一个原假设可被拒绝的最低显著水平t值和P值关系:P{|t|>|t值|}=P值,其中t是检验统计量,是随机变量,此时是服从自由度为n-2的t分布;t值指t统计量的样本值。当P值=α时(通常α取5%),|t值|=t(α/2)P值越小,|t值|越大;P值越大,|t值|越小P值≤α,|t值|≥t(α/2)

,拒绝原假设H0:1=0P值>α,|t值|<t(α/2)

,接受原假设H0:1=0用P值代替t值的优越性:①用P值做检验不需要查表,只需要直接用P值与显著性水平α相比。当P值≤α时,拒绝原假设H0

;当P值>α时,接受原假设H0

。而用t值需要查表求临界值。②用P值做检验具有可比性,而用t值做检验与自由度有关,可比性差③用P值做检验可以准确地知道检验的显著性,实际上P值就是犯弃真错误的真实概率,也就是检验的真实显著性。浙江财经大学倪伟才97上机验证题目见:wooldridge57页EX2.4数据:bwght.sav,regressbwghtoncigs1:回归方程[要求能正确写出回归方程!]2:预测值[利用回归方程]和残差[利用预测值]3:残差平方和[transform-compute,reports-reportsummarizesincolumns],

标准误Std.ErroroftheEstimate[注意自由度]4:residual:meansquare注意:

Std.ErroroftheEstimate和meansquareofresidual之间的关系5:std.errorincludinginterceptandslope[重点]6:tstatistic,P值浙江财经大学倪伟才98统计意义上的显著与现实意义上的显著

如果我们能够以5%的置信水平拒绝某个检验的零假设,则称这个检验在统计上是显著的。统计意义上显著的结论可能在现实意义上不重要,注意两者的不同。

例子:如果我们检验一批罐头的重量是否是500克,随机样本数据显示均值是499克,并且显著地不同于500克的假设值。则罐头实际重量在统计意义上不同于500克,但是在现实意义没什么不同。浙江财经大学倪伟才99SST=SSE+SSR总平方和(totalsumofsquares)表示观测值yi围绕其均值的总变异解释平方和(explainedsumofsquares)表示估计值围绕其均值的变异残差平方和(residualsumofsquares)表示残差围绕回归线的变异SST=SSE+SSR,其中SSE是由解释变量x引起的,SSR是由残差(其它因素)引起的。证明:SST=SSE+SSR体会:若模型不含常数项,则此等式不成立!浙江财经大学倪伟才100SSR注解SSRisalsoknownasalossfunction. 浙江财经大学倪伟才101说明y的观测值围绕其均值的总变异可分解为两部分:一部分来自回归线,而另一部分来自随机误差项,因为并非所有的实际的y观测值都落在拟合的直线上XiXPRFSRFYSST=SSE+SSR几何意义浙江财经大学倪伟才102(样本)判定系数R2(coefficientofdetermination)SST=SSE+SSR,在总平方和SST中,如果解释平方和SSE所占的比重越大,则线性回归效果越好,称回归直线和样本观测值拟合优度(goodnessoffit)较好;如果残差平方和SSR所占的比重越大,则回归直线和样本观测值拟合得不理想。判定系数R2=SSE/SST(或1-SSR/SST)R2

的性质:(1)非负,(2)0≤R2≤1浙江财经大学倪伟才103R2其它表达式浙江财经大学倪伟才104介绍Rsuqared的等价定义浙江财经大学倪伟才105Rsquared计算浙江财经大学倪伟才106补充练习(课堂练习)JamesH.Stock《IntroductiontoEconometrics》(2rd)EX.4.9浙江财经大学倪伟才107补充练习(homework)Greene5thedition<<EconometricAnalysis>>chapter3EX11Threevariables,N,D,andY,allhavezeromeansandunitvariances.AfourthvariableisC=N+D.IntheregressionofConY,theslopeis0.8.IntheregressionofConN,theslopeis0.5.IntheregressionofDonY,theslopeis0.4.WhatisthesumofsquaredresidualsintheregressionofConD?Thereare21observationsandallmomentsarecomputedusing1/(n−1)asthedivisor.浙江财经大学倪伟才108Hint浙江财经大学倪伟才109自由度(df)

[务必要相当清楚!]

自由度(numberofdegreeoffreedom)是指样本观测值的总数(n)减去对它们的独立(线性)约束或限制的个数。换句话,它是指观测值的总个数中独立的观测值个数。浙江财经大学倪伟才110样本相关系数相关系数:表示两个随机变量之间的相关程度。定义为:以样本方差和样本协方差估计x、y的方差和协方差,样本相关系数为:浙江财经大学倪伟才111(样本)相关系数性质③相关系数的平方与判定系数相等,但二者意义不同④一元线性回归的回归系数^1的符号和相关系数R的符号相同。性质:①可正可负,其符号和分子两变量的协变异有关。②|R|≤1③是指线性关系,而不是非线性关系浙江财经大学倪伟才112相关系数的显著性检验浙江财经大学倪伟才113相关程度的强弱两变量间相关程度的强弱分为以下几个等级:当|r|≥0.8时,视为高度相关;当0.5≤|r|<0.8时,视为中度相关;当0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,表明两个变量之间的相关程度极弱,在实际应用中可视为不相关。浙江财经大学倪伟才114相关系数显著性检验用SPSS软件做相关系数的显著性检验浙江财经大学倪伟才115补充练习(课堂练习)JamesH.Stock《IntroductiontoEconometrics》(2rd)EX.4.12浙江财经大学倪伟才116复习ttest浙江财经大学倪伟才117样本决定系数R2

能够说明样本的拟和优度。但是我们还需要对总体做出推断,检验总体的线性是否成立。思路:若SSE/SSR比较大,则X对Y的解释程度就比较高,可以推测总体存在线性。但是SSE/SSR样本不同而不同,对于给定的样本,利用SSE/SSR对总体进行推断,必须进行统计检验。浙江财经大学倪伟才118方差分析(analysisofvariance,ANOVA)

[务必非常清楚此表是如何构造的!]ssdfMeanSquareFRegressionSSE1SSE/1[SSE/1]/[SSR/(n-2)]ResidualSSRn-2SSR/(n-2)TotalSSTn-1浙江财经大学倪伟才119对F统计量的注解1:SSE服从卡方分布,SSR也服从卡方分布!2:可以证明SSE和SSR独立!3:考虑分子、分母的自由度!因此,服从F分布!浙江财经大学倪伟才120计算ANOVA数据:bwght.sav,regressbwghtoncigs浙江财经大学倪伟才121t检验和F检验的关系t检验是对回归系数进行显著性的检验,针对个别系数;F检验是对回归方程进行显著性的检验,针对整个回归方程对于一元线性回归,两种检验是等价的;对于多元线性回归,两种检验是不等价的浙江财经大学倪伟才122ttest,Ftest浙江财经大学倪伟才123三种检验的关系对于一元线性回归模型,三种是等价的!请完成课后习题2.8!根据习题2.8的结论,易得习题2.11的结论!浙江财经大学倪伟才124习题2.8和习题2.11浙江财经大学倪伟才125三种检验关系的等价性数据:bwght.sav,regressbwghtoncigs目的:通过上机验证三种检验关系的等价性,加深直观认识等价性具体体现:1:它们的P值均为:0.0000000166153817026412,

P值完全相同!浙江财经大学倪伟才126F检验的注解1:ItcanbeshownthattheFstatisticfortestingexclusionofasinglevariableisequaltothesquareofthecorrespondingtstatistic.2:Sincet2

n-k-1hasanF1,n-k-1distribution,thetwoapproachesleadtoexactlythesameoutcome,providedthatthealternativeistwo-sided.3:Thetstatisticismoreflexiblefortestingasinglehypothesisbecauseitcanbeusedtotestagainstone-sidedalternatives4:SincetstatisticsarealsoeasiertoobtainthanFstatistics,thereisreallynoreasontouseanFstatistictotesthypothesesaboutasingleparameter.(Wooldridgepage146th)浙江财经大学倪伟才127增加练习(很重要的题型!)《RegressionAnalysisbyExamples》p76thEX3.5:Thefollowingtableshowstheregressionoutput,withsomenumberserased,whenasimpleregressionmodelrelatingaresponsevariableytoapredictorvariablex1isfittedbasedontwentyobservations.Computethe12missingnumbers.浙江财经大学倪伟才128SourceSumofSquaresdfMeanSquareF-testRegression1848.76_______________Residuals_______________VariableCoefficientset-testpConstant-23.432512.74____0.0824x1________0.15288.32<0.0001n=__R2=__AdjustedR2

=____^σ=___浙江财经大学倪伟才129SourceSumofSquaresdfMeanSquareF-testRegression1848.7611848.7669.22Residuals480.61826.7VariableCoefficientset-testpConstant-23.432512.74-1.8390.0824x11.270.15288.32<0.0001n=20R2=0.79AdjustedR2=0.78^σ=5.17练习参考答案浙江财经大学倪伟才130作业《RegressionAnalysisbyExamples》p76thEX3.6:Thefollowingtableshowstheregressionoutput,withsomenumberserased,whenasimpleregressionmodelrelatingaresponsevariableytoapredictorvariablex1isfittedbasedoneighteenobservations.Computethe12missingnumbers,thencomputeVar(y)andVar(x1).浙江财经大学倪伟才131SourceSumofSquaresdfMeanSquareF-testRegression____________________Residuals_______________VariableCoefficientset-testpConstant3.43179____0.2650.7941x1________0.1421____<0.0001n=__R2=0.716AdjustedR2=____^σ=7.342浙江财经大学倪伟才132OthertestsWaldtestLagrangeMultiplier(LM)testLikelihoodRatio(LR)test浙江财经大学倪伟才133LMtest参考Wooldridge《EconometricAnalysisofcrosssectionandpaneldata》4.2.4LagrangeMultiplier(Score)testsLM的具体步骤Example4.1WageEquationforMarried,WorkingWomenTBA浙江财经大学倪伟才134浙江财经大学倪伟才1352.5残差分析一个线性回归方程通过了t检验或F检验,只是表明变量x和y之间的线性关系是显著的,或者说线性回归方程是有效的,但不能保证数据拟合得很好,理由是可能由于意外的原因而导致数据的不完全可靠,如异常值等。线性回归拟合时使用的是最小二乘法。即保证各观测点至直线纵向距离的平方和为最小,这就产生了一个问题:如果存在异常点,它们离回归直线较远,相应距离的平方就非常大,为了保证平方和为最小,回归直线不得不强烈的向该点所在方向偏移,显然,这可能会导致错误的分析结论。因此,有必要进行残差分析。浙江财经大学倪伟才136残差分析的内容残差分析主要分析两大方面:①残差分布是否是正态分布?是否是同方差?采用残差图及一些相关的指标如标准化残差,库克距离等;②残差是否相关?采用DW统计量进行残差的相关性检验(在第四章介绍)浙江财经大学倪伟才137为什么要找异常点:因为有些观察值在各个变量单独描述时处于正常范围内,但几个变量联合描述则为异常。例如:年龄10岁和体重70公斤单独存在时都不奇怪,但如果同一个人年龄10岁并且体重70公斤显然就不正常!

异常点:在y轴方向严重偏离的数据点;高杠杆点:在x轴方向严重偏离的数据点;强影响点:对统计推断影响特别大的点,其中异常点和高杠杆点都有可能形成强影响点。浙江财经大学倪伟才138残差性质浙江财经大学倪伟才139杠杆值(leverage)浙江财经大学倪伟才140残差方差的证明浙江财经大学倪伟才141浙江财经大学倪伟才142浙江财经大学倪伟才143残差图残差图:通常指以自变量x为横轴,以残差为纵轴的散点图。(当然还有其他的残差图,如spssplots)判断下列残差图哪些符合基本的假定?(正常的,异方差,曲线,蛛网现象,异常点,高杠杆点。)浙江财经大学倪伟才144正常的残差图正常的残差图:①在残差应在e=0附近随机变化,②并且在变化幅度不大的带状图形内。浙江财经大学倪伟才145标准化残差、学生化残差浙江财经大学倪伟才146练习:残差数据:火灾损失表.sav(1)画火灾损失的残差图(2)由ZRE,SRE判断是否存在强影响点(3)学会scatter-overlay的使用浙江财经大学倪伟才1472.6回归系数的区间估计Hypothesistestsareusefulifyouhaveaspecificnullhypothesisinmind.Beingabletoacceptorrejectthisnullhypothesisbasedonthestatisticalevidenceprovidesapowerfultoolforcopingwiththeuncertaintyinherentinusingasampletolearnaboutthepopulation.Yet,therearemanytimesthatnosinglehypothesisaboutaregressioncoefficientisdominant,andinsteadonewouldliketoknowarangeofvaluesofthecoefficientthatareconsistentwiththedata.Thiscallsforconstructingaconfidenceinterval.浙江财经大学倪伟才148置信区间和显著性水平95%confidenceintervalfor1

isanintervalthathasa95%probabilityofcontainingthetruevaluesof1;thatis,in95%ofpossiblesamplesthatmightbedrawn,theconfidenceintervalwillcontainthetrueof15%significancelevel

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论