![回归分析回归诊断_第1页](http://file4.renrendoc.com/view/a250e9e1f756a9e3123eaa58d36cc909/a250e9e1f756a9e3123eaa58d36cc9091.gif)
![回归分析回归诊断_第2页](http://file4.renrendoc.com/view/a250e9e1f756a9e3123eaa58d36cc909/a250e9e1f756a9e3123eaa58d36cc9092.gif)
![回归分析回归诊断_第3页](http://file4.renrendoc.com/view/a250e9e1f756a9e3123eaa58d36cc909/a250e9e1f756a9e3123eaa58d36cc9093.gif)
![回归分析回归诊断_第4页](http://file4.renrendoc.com/view/a250e9e1f756a9e3123eaa58d36cc909/a250e9e1f756a9e3123eaa58d36cc9094.gif)
![回归分析回归诊断_第5页](http://file4.renrendoc.com/view/a250e9e1f756a9e3123eaa58d36cc909/a250e9e1f756a9e3123eaa58d36cc9095.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
回归模型诊疗回归分析回归诊断第1页
经过简单回归和多元回归模型能够有了计算结果。这些结果能做推断,需要建立在一些概述性统计量基础之上,这些统计量由数据来计算。而只有当标准回归假定满足时,所做推断才有可能是合理,有意义。而对假定核定,能够用图形方法,也能够用严格数值去检验。数据也需要考虑还有模型设定回归分析回归诊断第2页回归分析回归诊断第3页标准回归假定:1,关于模型设定假定2,关于误差假定3,关于预测变量假定
非随机
其取值是误差取得,但几乎不可能。测量误差将影响到误差方差,相关系数,复相关系数及回归系数预计,其影响程度大小取决于多个原因。
是线性无关4,关于观察假定
全部观察是一样可靠性回归分析回归诊断第4页数据诊疗
异常值
强影响点
假定是否满足
模型诊疗
回归分析回归诊断第5页6线性回归模型中异常点分析
回归分析回归诊断第6页异常点识别与处理,是统计诊疗中很主要一项内容。异常点出现会影响分析结果可信度。异常点存在往往蕴涵着主要信息。在有些情况下,异常点出现是因为有新事物出现或者新情况发生,比如经济模型中某种经济政策出台等,都能表现出异常,这通常是我们研究兴趣所在。回归分析回归诊断第7页在另外一些情况下,异常点出现是因为人为差错或者仪器故障所引发。在我们需要依据样本对模型进行参数预计或者依据模型对未来进行预测与控制时候,异常点出现会对我们工作产生很强影响,这么结果是令人怀疑。所以,异常点研究受到了广大研究者重视,自Bernoulli首次提出了异常点概念,接下来对异常点概念、类型以及处理问题讨论一直没有停顿过。回归分析回归诊断第8页异常点成因与处理为何会出现异常点?对这个问题回答大致能够归结为以下三种情况:整体模型改变、局部模型改变和自然变异。在前两种情况下,异常点出现多而且连续,往往蕴涵着机制改变、新事物出现或者新局面形成,大量而且连续异常点能够用新模型来拟合。对于整个数据集,实质上已经成为一个混合模型。而第三种成因更为常见,偶然人为差错或者仪器故障都能够引发异常。对于由不一样原因引发异常点,它们处理方法是不一样。在进行统计诊疗时,判断异常点成因是很主要,是对异常点进行正确处理先决条件。回归分析回归诊断第9页通常对异常值处理方法有两种。一个是把异常点作为工作重点,目标就是发觉异常点并确定是否要作深入研究,这么异常点往往含有很主要信息。这时不但要判断出异常点存在是否,还要确定异常点出现位置以及影响大小。这是统计诊疗中一个主要内容,围绕这类问题出现了大量统计量检验方法及影响分析研究。回归分析回归诊断第10页对于由第三种成因引发异常点,发觉之后能够进行删除,以免影响参数预计等以后工作效果。另外一个方法就是对于异常点采取容忍态度,把整个数据集作为研究基础,对于一定百分比坏数据或者远离数据中心数据采取一定容忍或适应政策回归分析回归诊断第11页回归系数普通采取“最小二乘预计”(leastsquaresestimator,LSestimator)求解,不过在应用中轻易忽略问题是LS预计只有在数据满足对应条件情况下才会含有统计描述和推断优良性质,如要求误差服从正态分布、总体方差相同且相互独立等。当实际数据没有近似满足这些假定时,就会出现一些异常点(outliers)、杠杆点(leveragepoint)及影响点(influentialobservations),使分析结果变得不可靠,不能发觉数据中真实结构,从专业上难以解释结果,甚至得到完全错误结论。尤其是伴随统计软件日渐普及,我们倾向于简单地将数据交给软件来分析,而不注意详细方法应用条件,尽管采取了SAS、SPSS这些国际标准软件,不过输出结果有时却与专业解释相悖。回归分析回归诊断第12页异常点在统计诊疗中地位异常点(outlier)是统计诊疗中很主要一个概念。统计诊疗(StatisticalDiagnostics)就是对从实际问题中搜集起来数据、提炼出来模型以及由此出发所作推断方法合理性进行深入而细致分析,并经过一些诊疗统计量来检验数据、模型及推断方法中可能存在毛病,进而提出治疗方案,进行模型或者推断方法改进。统计诊疗主要包含异常点识别、残差分析、影响分析和数据变换等内容,异常点识别是处理统计诊疗主要内容之一,它进行好坏通常影响到整个过程诊疗。回归分析回归诊断第13页回归分析回归诊断第14页回归分析回归诊断第15页回归分析回归诊断第16页回归分析回归诊断第17页异常值有时一个,有时多个回归分析回归诊断第18页在回归模型中,异常点是指对既定模型偏离很大数据点。但终究偏离到达何促程度才算是异常,这就必须对模型误差项分布有一定假设(通常假定为正态分布)。当前对异常点有以下两种较为流行看法:异常点回归分析回归诊断第19页把异常点看成是那些与数据集主体显著不协调,使得研究者大感诧异数据点。这时,异常点可解释为所假定分布中极端点,即落在分布单侧或双侧
分位点以外点,而
通常取很小值(如:0.005),致使观察者对数据中出现如此极端点感到意外。把异常点视为杂质点。它与数据集主体不是来自同一分布,是在绝大多数来自某一共同分布数据点中掺入来自另一分布少许“杂质”回归分析回归诊断第20页残差在回归分析中,异常数据发觉或模型检测、标准假设检测一个简单而有效方法是研究残差图。残差图能够指明哪个或哪些标准假定不成立。更主要是,残差分析可能引导我们发觉数据中结构,也可能指出那些蕴涵在数据中、在只用一些概述性统计量分析时轻易被疏漏信息。这些启发或线索可能帮助我们更加好地了解所研究问题,或者找到更加好模型。对残差进行图形分析往往是回归分析中最主要一部分工作。回归分析回归诊断第21页残差普通最小二乘法残差:学生化残差:回归分析回归诊断第22页回归分析回归诊断第23页强影响点强影响点和异常点是两个不一样概念,它们之间现有联络也有区分。强影响点可能同时又是异常点也可能不是;反之,异常点可能同时又是强影响点也可能不是。回归分析回归诊断第24页已知20条河流流域相关测量数据.研究者感兴趣是,河流周围地域土地利用程度对水污染(平均氮浓度)有何影响河流农田覆盖率森林覆盖率住宅地占土地总面积百分比工业及商业用地占总面积百分比春夏秋冬各季度采集到样本平均氮浓度mg/升RiverAgrForestRsdntialComIndlNitrogenOlean26631.20.291.1Cassadaga29570.70.091.01Oatka54261.80.581.9Neversink2841.91.981Hackensack32729.43.111.99Wappinger19613.40.561.42Fishkill16605.61.112.04Honeoye40431.30.241.65Susquehanna28621.10.151.01Chenango26600.90.231.21EastCanada6840.50.120.73Saranac3810.80.350.8Ausable2890.70.350.76Black6820.50.150.87Schoharie22700.90.220.8Raquette4750.40.180.87Oswegatchie21560.50.130.66Cohocton40491.10.131.25回归分析回归诊断第25页利用三个数据集合取得回归系数和其T检验统计量相差很大1.用全部数据2.剔除NEVERSINK数据(4)3.提出HACKENSACK数据(5)回归分析回归诊断第26页回归统计MultipleR0.842257RSquare0.709398AdjustedRSquare0.631904标准误差0.264919观察值20方差分析
dfSSMSFSignificanceF回归分析42.5698460.6424629.1542310.000596残差151.0527290.070182总计193.622575
Coefficients标准误差tStatP-valueLower95%Upper95%Intercept1.7222141.2340821.3955430.183169-0.908174.352596X10.0058090.0150340.38640.704626-0.026240.037853X2-0.012970.013931-0.930830.36668-0.042660.016726X3-0.007230.03383-0.213620.83372-0.079330.06488X40.3050280.1638171.860.08231-0.044140.654195回归分析回归诊断第27页回归统计MultipleR0.925064RSquare0.855744AdjustedRSquare0.814528标准误差0.192504观察值19方差分析
dfSSMSF回归分析43.0776520.76941320.76242残差140.5188110.037058总计183.596463
Coefficients标准误差tStatP-valueIntercept1.0994710.9116361.2060420.247788XVariable10.0101370.0109840.9228730.371705XVariable2-0.007590.010222-0.742440.470098XVariable3-0.123790.039337-3.146980.007134XVariable41.5289560.3437194.4482730.000551回归分析回归诊断第28页回归分析回归诊断第29页尽管三个数据集只差一观察数据,但回归结果有巨大差异比如,看X3回归系数T检验值,使用全部数据时该检验是不显著,剔除掉数据4后,显著为正;可见,仅一个观察就能造成根本不一样结论数据(4)(5)称为强影响观察,因为他们对回归影响远强于其它观察。回归分析回归诊断第30页看数据,一眼就能发觉数据(5)其X3值突出高。然后再分析其背景回归分析回归诊断第31页数据集中强影响点是指那些对统计量取值有非常大影响力点。在考虑强影响点时,有几个基本问题需要考虑:首先必须明确“是对哪个统计量影响?”比如,对线性回归模型所考虑是对回归系数预计量影响;不是对误差方差预计影响;或是对拟合优度统计量影响等等。分析目标不一样,所考虑影响亦有所不一样。强影响点回归分析回归诊断第32页其次,必须确定“度量影响尺度是什么?”为了定量地刻划影响大小,迄今为止已提出各种尺度,基于置信域尺度,基于似然函数尺度等等。在每一个类型中又可能有不一样统计量。每一个度量都是着眼于某首先影响,并在某种详细场所下较为有效。这首先反应了度量影响问题复杂性,另首先也说明了影响分析研究在统计诊疗中是一个甚为活跃议程。回归分析回归诊断第33页强影响点通常是数据集中更为主要数据点,它往往能提供比普通数据点更多信息,所以需引发尤其注意。回归分析回归诊断第34页有影响观察值
(图示)回归分析回归诊断第35页有影响观察值
(图示)回归分析回归诊断第36页有影响观察值
(图示)回归分析回归诊断第37页有影响观察值
(图示)有影响观察值存在影响值趋势回归分析回归诊断第38页有影响观察值
(图示)不存在影响值趋势有影响观察值存在影响值趋势回归分析回归诊断第39页强影响观察或者其影响变量取值异常,或者其预测变量取值异常。响应变量取值异常
标准化残差大观察其响应变量取值异常,因为在Y方向上他们远离拟合回归方程。因为各标准化残差近似服从标准正态分布,那么标准化残差之绝对值大于2或3点称为异常点。回归分析回归诊断第40页预测变量取值异常异常点也可能出现在预测变量中,他们一样也会影响回归结果,杠杆值可用于度量观察在预测变量中异常程度。回归分析回归诊断第41页伪装与淹没问题回归分析回归诊断第42页回归分析回归诊断第43页光看残差是不够,需要其它度量指标回归分析回归诊断第44页看这个图形,(5)(4)是强影响点回归分析回归诊断第45页但看标准化残差看不出来回归分析回归诊断第46页残差图也看不出来回归分析回归诊断第47页杠杆值序列图能够看出来了回归分析回归诊断第48页回归分析回归诊断第49页我们还需要相关度量指标回归分析回归诊断第50页影响各种度量回归分析回归诊断第51页影响各种度量假如有些数据C比其余点突出,那么该对此点打上标识回归分析回归诊断第52页回归分析回归诊断第53页回归分析回归诊断第54页回归分析回归诊断第55页影响点回归分析回归诊断第56页经过图显示强影响点回归分析回归诊断第57页回归分析回归诊断第58页回归分析回归诊断第59页图形方法图形方法在数据分析中起着主要作用,在对数据拟合线性模型时,图形方法尤其主要.没有哪种统计工具能象一张精选出来图形一样有威力.图形方法能够被视为探索性工具,同时也是验证分析或统计推断不可缺乏一部分.回归分析回归诊断第60页图形方法作用1.发觉数据中错误(如印刷错误)2.区分数据中模式(如密集群,异常点,显著差距等)3.探索变量间关系4.发觉新现象5.确认或否定各项假定6.评价拟合模型是否充分7.提议修正办法(比如数据变换,搜集更多数据等)回归分析回归诊断第61页图形1.一维图(看变量分布)2.二维图3.旋转图4.动态图回归分析回归诊断第62页一维图直方图茎叶图点图箱线图回归分析回归诊断第63页二维图回归分析回归诊断第64页我们希望图中各散点图看上去是怎么样呢?对于简单回归,我们预期Y与X之间展现某种直线模式,但对于多元回归,Y与各自变量之间散点图可能呈直线状.在线性模式较为必定场所,这些散点图非线性状态并不说明线性模型不正确.回归分析回归诊断第65页应同时依赖于各个预测变量而不是单个从上面二维图看到,Y与X1之间,Y与X2之间都不存在线性关系,然而作Y关于X1和X2两个变量回归时,拟合程度几近完美.回归分析回归诊断第66页回归分析回归诊断第67页回归分析回归诊断第68页我们假定预测变量之间是线性无关,所以预测变量对散点图不应该呈直线状,更理想地,我们希望从中看不出任何可辩识模式.不论是线性还是非线性.不过上面例中,该假定是不成立.因为X1和X2有显著线性关系.当然这些散点图不呈直线状还不能说明全部变量间线性无关,因为线性关系可能存在与多个预测变量之间.回归分析回归诊断第69页旋转图回归分析回归诊断第70页怎样处理异常点?异常点和强影响观察值不应该机械被删除或自动降低权重,因为他们不一定是坏观察。相反,假如它们是准确,它们就可能是数据中含信息最多点。比如,他们可能指出数据并非来自正态总体,或者模型不是线性,我们看下例中数据看异常点及强影响点可能是数据中含信息量最多点。回归分析回归诊断第71页图中是XY两个变量散点图,数据主体显示了X与Y之间某种线性关系。但右上角22和23两个点是异常值。假如这两个点是正确,那么它们则是数据集中仅有、显示着这批数据可能服从某种非线性模型观察。我们把这想象为一个细菌群体,它在异端时间内最终非常迟缓,但过了某个时间临界点之后,快速增加。回归分析回归诊断第72页一旦判别出了异常点和强影响观察后,怎样处理呢?因为异常点和强影响观察可能是数据集中信息最丰富观察,因而不应该不加说明、自动地抛弃它们。相反,应该经过考查,判断它们为何是异常或强影响点。依据这些考查才可能采取适当、正确办法正确办法包含:更正数据中错误、删除异常点或降低他们权重、变换数据、考虑不一样模型、重新搜集或补充更多数据。回归分析回归诊断第73页模型误设及其后果1.包含不相干解释变量:则预计量是一致、无偏,但不是最正确线性无偏预计量。假设检验是有效。另外,假如包含不相干变量与其它解释变量相关,则引发主要后果是解释变量之间多重共线性.回归分析回归诊断第74页
设Y=0+1X1+v(*)为正确模型,但却预计了
Y=0+1X1+2X2+(**)
假如2=0,则(**)与(*)相同,所以,可将(**)式视为以2=0为约束(*)式特殊形式。包含无关变量偏误回归分析回归诊断第75页
因为全部经典假设都满足,所以对
Y=0+1X1+2X2+(**)式进行OLS预计,可得到无偏且一致预计量。
不过,OLS预计量却不含有最小方差性。Y=0+1X1+v中X1方差:Y=0+1X1+2X2+中X1方差:
当X1与X2完全线性无关时:
不然:注意:回归分析回归诊断第76页则扰动项性质完全起了改变。模型预计会因为自相关而引发误差,预计量将不会是最正确线性无偏预计。假设检验将是无效.2.遗漏解释变量回归分析回归诊断第77页比如,假如“正确”模型为而我们将模型设定为
即设定模型时遗漏了一个相关解释变量。
动态设定偏误:遗漏相关变量表现为对Y或X滞后项遗漏。
回归分析回归诊断第78页
采取遗漏相关变量模型进行预计而带来偏误称为遗漏相关变量偏误。
设正确模型为
Y=0+1X1+2X2+却对
Y=0+1X1+v进行回归,得遗漏相关变量偏误回归分析回归诊断第79页将正确模型Y=0+1X1+2X2+离差形式
代入得(1)假如遗漏X2与X1相关,则式中第二项在小样本下求期望与大样本下求概率极限都不会为零,从而使得OLS预计量在小样本下有偏,在大样本下非一致。回归分析回归诊断第80页
(2)假如X2与X1不相关,则1预计满足无偏性与一致性;但这时0预计却是有偏。
由Y=0+1X1+v
得由Y=0+1X1+2X2+
得回归分析回归诊断第81页模型预计会因为自相关而引发误差,预计量将不会是最正确线性无偏预计。假设检验将是无效.比如,假如“真实”回归函数为
但却将模型设定为
显然,二者参数含有完全不一样经济含义,且预计结果普通也是不相同。
3.模型形式误设回归分析回归诊断第82页4.假如在设定模型里用错误解释变量代替正确解释变量,则可看成出现1和2两种情形误设复合,即遗漏解释变量同时加入不相干变量。分析四种模型误设情形,后果最严重是哪一个情况.回归分析回归诊断第83页
可用t检验与F检验完成。
检验基本思想:假如模型中误选了无关变量,则其系数真值应为零。所以,只须对无关变量系数显著性进行检验。
t检验:检验某1个变量是否应包含在模型中;
F检验:检验若干个变量是否应同时包含在模型中
模型设定偏误检验
1、检验是否含有没有关变量
回归分析回归诊断第84页
(1)残差图示法2、检验是否有相关变量遗漏或函数形式设定偏误回归分析回归诊断第85页
残差序列改变图趋势改变:模型设定时可能遗漏了一伴随时间推移而连续上升变量
循环改变:模型设定时可能遗漏了一伴随时间推移而展现循环改变变量
回归分析回归诊断第86页
模型函数形式设定偏误时残差序列展现正负交替改变
回归分析回归诊断第87页
(2)普通性设定偏误检验
但更准确更惯用判定方法是拉姆齐(Ramsey)于1969年提出所谓RESET检验
基本思想:
假如事先知道遗漏了哪个变量,只需将此变量引入模型,预计并检验其参数是否显著不为零即可;问题是不知道遗漏了哪个变量,需寻找一个替换变量Z,来进行上述检验。
RESET检验中,采取所设定模型中被解释变量Y预计值Ŷ若干次幂来充当该“替换”变量。
3、检验是否有相关变量遗漏或函数形式设定偏误回归分析回归诊断第88页
比如,先预计Y=0+1X1+v得
然后再利用F检验来判断是否增加这些“替换”变量。若仅增加一个“替换”变量,也可经过t检验来判断。
回归分析回归诊断第89页
比如,在一元回归中,假设真实函数形式是非线性,用泰勒定理将其近似地表示为多项式:所以,假如设定了线性模型,就意味着遗漏了相关变量X12、X13
,等等。所以,在一元回归中,可经过检验各高次幂参数显著性来判断是否将非线性模型误设成了线性模型。(*)
RESET检验也可用来检验函数形式设定偏误问题。
回归分析回归诊断第90页
对多元回归,非线性函数可能是关于若干个或全部解释变量非线性,这时可按遗漏变量程序进行检验。
比如,预计
Y=0+1X1+2X2+但却怀疑真实函数形式是非线性。
这时,只需以预计出Ŷ若干次幂为“替换”变量,进行类似于以下模型预计再判断各“替换”变量参数是否显著地不为零即可。
回归分析回归诊断第91页
例:建立了中国商品进口M与GDP一元线性关系:并发觉含有强烈一阶自相关性。序列相关性主要原因之一可能就是建模时遗漏了主要相关变量造成。下面进行RESET检验。
R2=0.9484回归分析回归诊断第92页
(-0.085)(8.274)(-6.457)(6.692)
R2=0.9842
在=5%下,查得临界值F0.05(2,20)=3.49判断:拒绝原模型与引入新变量模型可决系数无显著差异假设,表明原模型确实存在遗漏相关变量设定偏误。
回归分析回归诊断第93页
(3)同期相关性豪斯蔓(Hausman)检验
因为在遗漏相关变量情况下,往往造成解释变量与随机扰动项出现同期相关性,从而使得OLS预计量有偏且非一致。所以,对模型遗漏相关变量检验能够用模型是否出现解释变量与随机扰动项同期相关性检验来替换。这就是豪斯蔓检验主要思想。
回归分析回归诊断第94页
当解释变量与随机扰动项同期相关时,经过工具变量法可得到参数一致预计量。而当解释变量与随机扰动项同期无关时,OLS预计量就可得到参数一致预计量。
所以,只须检验IV预计量与OLS预计量是否有显著差异来检验解释变量与随机扰动项是否同期无关。对一元线性回归模型
Y=0+1X+所检验假设是H0:X与无同期相关。
回归分析回归诊断第95页设一元样本回归模型为
以Z为工具变量,则IV预计量为:
(*)(*)式表明,IV预计量与OLS预计量无差异当且仅当ziei=0,即工具变量与OLS预计残差项无关。
回归分析回归诊断第96页检验时,求Y关于X与ZOLS回归式:
在实际检验中,豪斯蔓检验主要针对多元回归进行,而且也不是直接对工具变量回归,而是对以各工具变量为自变量、分别以各解释变量为因变量进行回归。
回归分析回归诊断第97页如对二元回归模型
经过增加解释变量F检验,检验联合假设:H0:1=2=0
。拒绝原假设,就意味着(*)式中解释变量与随机扰动项相关。
(*)回归分析回归诊断第98页模型设定方法
之”从普通到简单”
作为建模起点总体模型必须能够包容全部经过约化得到“简练”模型。它应该包含全部对被解释变量产生影响变量,尽管其中一些变量会因为显
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专业研究阐述
- 掌握地图之魅
- 学术研究探索
- 学生生活记忆
- 入团志愿申请书格式
- 法院管辖权异议申请书
- 初级银行管理-初级银行从业资格考试《银行管理》真题汇编
- 新生退部申请书
- 留队申请书 格式
- 接口性能评估与优化技巧
- 办公软件、计算机应用知识培训教案
- 2023年全国高考乙卷历史真题试卷及答案
- 数学小故事-二年级
- 我们身边的法律故事课件
- 腔镜器械的清洁消毒与保养课件
- 执行律师服务方案
- 奥数培训班课件
- 2022煤矿安全规程解读课件
- SWITCH暗黑破坏神3超级金手指修改 版本号:2.7.7.92380
- 赏析小说语言(二)
- 2023年11月上海市教育委员会教育技术装备中心公开招考3名工作人员笔试历年高频考点(难、易错点荟萃)附带答案详解
评论
0/150
提交评论