版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第章线性回归分析详解演示文稿当前第1页\共有52页\编于星期四\6点优选第章线性回归分析当前第2页\共有52页\编于星期四\6点9.1回归分析概述什么是回归分析“回归”一词最初源于英国统计学家F.Galton(高尔顿)描述父亲的身高和其成年儿子身高之间的关系,发现成年儿子的身高会趋向于子辈身高的平均值,F.Galton称这种现象为“回归”。用于分析事物之间的统计关系,并通过回归方程的形式描述变量间的数量变化规律,帮助人们准确把握变量受一个或多个变量的影响程度,进而为预测提供依据。当前第3页\共有52页\编于星期四\6点回归分析和相关分析1.相关分析变量性质:都是随机变量且关系对等分析方法:图表法(散点图)和相关系数分析目的:判定变量之间相关方向和关系的密切程度2.回归分析变量性质:自变量(确定型变量)和因变量(随机变量)的关系且不对等分析方法:建立回归模型分析目的:研究变量间数量依存关系当前第4页\共有52页\编于星期四\6点如何得到回归线函数拟合首先,通过散点图观察变量之间的统计关系,得到对回归线的感性认知,并据之确定最简洁的数学函数(回归模型);其次,利用样本数据在一定的拟合准则下,估计回归模型中各个参数,得到确定的回归方程;最后,由于回归参数是在样本数据的基础上得到的,存在随机性。因此需要进行各种检验。当前第5页\共有52页\编于星期四\6点回归分析的一般步骤确定回归方程中的解释变量(父亲身高x)和被解释变量(儿子身高y)确定回归模型(线性与非线性)建立回归方程,并估计出模型中的参数对回归方程进行各种检验利用方程进行预测当前第6页\共有52页\编于星期四\6点9.2线性回归分析和线性回归模型观察被解释变量y和一个或多个解释变量xi的散点图,当发现y与xi之间呈现出显著的线性关系时,应采用线性回归分析的方法,建立y关于xi的线性回归模型。线性回归模型可分为:
一元线性回归模型多元线性回归模型当前第7页\共有52页\编于星期四\6点一元线性回归模型(只有1个解释变量)
数学模型为:
y=β0+β1x+ε上式表明:y的变化可由两部分解释:第一,由解释变量x的变化引起的y的线性变化部分,即y=β0+β1x;第二,由其他随机因素引起的y的变化部分,即ε。β0、β1
都是模型中的未知参数,β0为回归常数,β1为y对x回归系数(即x每变动一个单位所引起的y的平均变动)。
ε称为随机误差。且满足:E(ε)=0,Var(ε)=σ2
。当前第8页\共有52页\编于星期四\6点一元线性回归方程:E(y)=β0+β1x
表明x和y之间的统计关系是在平均意义下表述的。估计的一元线性回归方程:估计方程是平面上的一条直线,即回归直线。参数分别代表回归直线的截距和斜率。cbbˆˆ10ˆ+=y当前第9页\共有52页\编于星期四\6点多元线性回归模型多元数学模型:
y=β0+β1x1+β2x2….+βpxp+ε多元线性回归方程:
E(y)=β0+β1x1+β2x2….+βpxp估计多元线性回归方程:
^^^^^y=β0+β1x1+β2x2….+βpxp当前第10页\共有52页\编于星期四\6点回归参数的最小二乘估计
(ordinaryleastsquareestimation,OLSE)估计思想:使每个样本点(xi,yi)与回归线上的对应点(xi,E(yi))在垂直方向上偏差距离的二次方总和达到最小的原则来估计参数即,∑(
yi-E(yi))2=最小一元二乘估计:多元二乘估计(略)当前第11页\共有52页\编于星期四\6点9.3回归方程的统计检验拟合优度检验回归方程的显著性检验回归系数的显著性检验残差分析当前第12页\共有52页\编于星期四\6点回归方程的拟合优度检验用于检验样本数据点聚集在回归线周围的密集程度,从而评价回归线对样本数据的代表程度。思想:因变量y(儿子身高)取值的变化受两个因素的影响:自变量x(父亲身高)不同取值的影响,其他因素(环境、饮食等)的影响。可表示如下:因变量总变差=
自变量引起的+其他因素引起的即因变量总变差=
回归方程可解释的+不可解释的即,因变量总离差平方和SST=回归平方和
SSA
+剩余平方和SSE当前第13页\共有52页\编于星期四\6点Yi图示:当前第14页\共有52页\编于星期四\6点当前第15页\共有52页\编于星期四\6点一、一元线性回归方程拟合优度的检验采用R2统计量,称为判定系数R2=SSA/SST=1-SSE/SST.R2体现了回归方程所能解释的因变量变差的比例;1-R2体现了回归方程所无法解释的变差比例。当前第16页\共有52页\编于星期四\6点R2越接近于1,则说明回归平方和占了绝大部分比例,因变量y的变差主要由自变量x的取值造成,回归方程对样本数据点拟合得好在一元线性回归中,判定系数R2=相关系数r2;因此,从这个意义上讲,判定系数能够比较好地反映回归直线对样本数据的代表程度和线性相关性。说明当前第17页\共有52页\编于星期四\6点二、多元线性回归方程多元线性回归方程的拟合优度检验采用统计量,称为调整的判定系数调整的判定系数:判定系数受解释变量X的个数p的影响,在p的个数不同的模型之间进行比较时,判定系数必须进行调整。当前第18页\共有52页\编于星期四\6点回归方程的显著性检验用于检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当,即检验模型对总体的近似程度。SST=回归平方和
SSA
+剩余平方和SSE回归方程的显著性检验中采用方差分析的方法,研究在SST中SSA相对于SSE来说是否占有较大比例。如果比例较大,表明y与x全体的线性关系明显,则利用线性模型反映y与x的关系是恰当的;反之,不恰当。当前第19页\共有52页\编于星期四\6点原假设H0:β1=0.即:回归系数与0无显著差异利用F检验,构造F统计量:F~F(1,n-2)判断:若p<a,则拒绝H0,模型的线性关系是显著的;反之,模型的线性关系不显著.一、一元线性回归方程显著性检验当前第20页\共有52页\编于星期四\6点原假设H0:β1=β2=….=βp=
0.即:各个回归系数同时与0无显著差异利用F检验,构造F统计量:F~F(p,n-p-1)判断:若p<a,则拒绝H0,模型的线性关系是显著的;反之,模型的线性关系不显著.二、多元线性回归方程的显著性检验当前第21页\共有52页\编于星期四\6点R2检验与F检验的关系
F是R2的单调增函数,Fα与一一对应。R2FFα图1F统计量与R2的关系当前第22页\共有52页\编于星期四\6点回归系数的显著性检验
主要目的是研究回归方程中每个解释变量与被解释变量之间是否存在显著的线性关系。即研究每个解释变量能否有效的反映被解释变量的线性变化,它们能否保留在线性回归方程中。回归系数的显著性检验是围绕回归系数估计值的抽样分布展开的,构造统计量,并进行检验。当前第23页\共有52页\编于星期四\6点
一、一元线性回归方程显著性检验回归系数的显著性检验:t检验H0:β1=0,即:回归系数与0无显著差异,利用t检验:当前第24页\共有52页\编于星期四\6点若p<a,拒绝H0,y和x线性关系显著,应保留在方程中;若p>a,不能拒绝H0,y和x线性关系不显著。一元线性回归方程的检验和回归系数的检验是等效的。当前第25页\共有52页\编于星期四\6点需要对回归系数是否为零逐一进行检验。原假设H0:βi=0,即:第i个偏回归系数与0无显著差异利用t检验统计量(略)若与t统计量的概率伴随p
<a,则拒绝H0多元线性回归中回归系数的检验与整体回归方程的检验不能相互替代。二、多元线性方程回归系数的检验当前第26页\共有52页\编于星期四\6点残差分析残差指由回归方程计算所得的预测值与实际样本值之间的差距,即模型中εi
的估计值:回归模型要求:残差序列中不含明显的规律性和趋势性,均值为零、正态分布、等方差,且序列是独立的。当前第27页\共有52页\编于星期四\6点一、残差均值为零的正态分析可以通过绘制残差散点图来观察:如果残差的均值为零,残差图中的点应在纵坐标为零的横线上下随机散落,如下图。当前第28页\共有52页\编于星期四\6点二、残差的独立性分析(非自相关)残差是独立的,则残差序列应满足cov(εi,εj)=0(i≠j),表示残差序列前期和后期之间不存在相关关系,即不存在自相关。独立性检验方式:第一、绘制残差序列图(下图残差随时间的推移,呈有规律变化,表明残差序列存在一定的正或负自相关)当前第29页\共有52页\编于星期四\6点自相关系数用于测定序列自相关强弱,其取值范围-1~+1,接近1表明序列存在正自相关第二、计算残差的自相关系数当前第30页\共有52页\编于星期四\6点
DW检验用于推断小样本序列是否存在自相关的方法。其原假设为:总体自相关系数ρ与零无显著差异。采用统计量为:DW取值在0~4之间:
=(-1,0)时,DW=(2,4)残差序列负自相关
=0时,DW=2,残差序列无自相关
=(0,1)时,DW=(0,2)残差序列正自相关残差存在自相关表明遗漏了解释变量,或变量取值存在滞后性,或线性模型不适合第三、DW(durbin-watson)检验当前第31页\共有52页\编于星期四\6点三、残差异方差分析回归分析要求残差的方差相等,如果存在异方差,则参数的最小二乘估计不再是最小方差的无偏估计。因此需要检验残差是否存在异方差。其方法:第一,绘制残差图(下图残差的方差随解释变量值的增加呈现增加趋势,表明存在异方差)当前第32页\共有52页\编于星期四\6点第二,计算等级相关系数得到残差序列后首先取其绝对值,然后分别计算出残差和解释变量的秩,最后计算spearman等级相关系数,进行等级相关分析。若p值小于给定显著性水平α,则拒绝原假设,认为解释变量与残差间存在显著相关,出现了异方差现象。当前第33页\共有52页\编于星期四\6点9.4多元回归分析中的其它问题解释变量的筛选问题
多元回归分析中,模型选中应引入多少解释变量呢?少了难以解释对解释变量的变化,多了会引起多重共线。一、向前筛选策略
指解释变量不断进入回归方程的策略。首先引入与被解释变量线性相关系数最高的解释变量进入方程,并进行回归方程的各种检验;然后,引入与被解释变量偏相关系数最高并通过检验的解释变量,并对新方程进行各项检验;直到没有可引入的变量为止。当前第34页\共有52页\编于星期四\6点二、向后筛选策略
指解释变量不断剔除出回归方程的过程。首先,将所有解释变量引入方程,并检验;然后剔除t检验值不显著(最小)的一个或多个变量,重新建立回归方程并进行各种检验。如果回归系数都显著,则方程建立结束。否则,接着依次删除最不显著的解释变量。三、逐步筛选策略
指向前向后筛选的综合策略。在向前筛选过程中,随着变量不断引入方程,需要再次判断是否存在可剔除的解释变量,如有,则剔除。当前第35页\共有52页\编于星期四\6点9.4.2变量的多重共线性问题变量的多重共线:指解释变量之间存在线性相关关系的现象。若存在多重共线,则会造成偏回归系数估计困难、估计的方差增大、估计值的不稳定性增强、偏回归系数假设检验的结果不显著等问题。测度多重共线的方法如下:当前第36页\共有52页\编于星期四\6点一、容忍度解释变量xi
的容忍度:Toli=1-Ri2,其中:Ri2是解释变量xi与方程中其他解释变量间复相关系数的平方,表明了解释变量之间的线性相关程度。容忍度大表示与其他自变量的共线性低,应进入方程。容忍度很小的变量,spss才会给出警告,不应进入方程(T<0.1一般认为具有多重共线性)当前第37页\共有52页\编于星期四\6点二、方差膨胀因子方差膨胀因子(VIF):容忍度的倒数方差膨胀因子取值大于等于1。Ri2接近0,解释变量间多重共线性越弱,VIFi
越接近于1。如果VIFi
大于等于10,说明解释变量xi
与方程中其余解释变量之间有严重的多重共线性。另外,也可以采用方差膨胀因子的均值来测度多重共线性。当前第38页\共有52页\编于星期四\6点三、特征值与方差比如果最大特征值远大于其它特征值,表明该解释变量能刻画所有解释变量绝大部分信息(方差),意味着解释变量间存在较强的线性相关关系。常以某特征值占70%左右。当前第39页\共有52页\编于星期四\6点四、条件指数
条件指数是在特征值的基础上定义的,它能反映解释变量间多重共线性指标。定义如下:Ki
为第i个解释变量的条件指标,它是最大特征值λm
与第i个特征值比的平方根。
第i个条件指数Ki
越大,表明解释变量间信息重叠的越多,多重共线越严重。Ki
小表明共线不明显。0≤Ki<10,认为多重共线弱;10≤Ki<100,认为多重共线较强,100≤Ki
时,认为共线很严重。当前第40页\共有52页\编于星期四\6点9.5线性回归分析的基本操作线性回归分析的基本操作SPSS将一元与多元集成在一起(一个菜单工具)【analyze】->【regression】->【linear】选择被解释变量进入【dependent】框中选择一个或多个解释变量进入【independent】框在【method】中选择解释变量的筛选策略enter:所选解释变量强行进入回归方程(默认方法,常用于一元回归)remove:从回归方程中剔除所选变量stepwise:逐步筛选策略;backward:向后筛选;forward:向前筛选当前第41页\共有52页\编于星期四\6点【block】表示设置解释变量不同的筛选策略块。可以按next和previous按钮设置多组解释变量和变量的筛选策略,并放在不同的块中。SPSS将按每一指定策略逐一进行回归。其中【remove】方法只能放在第二个以后块中。块设置便于作各种探索性分析。【selectionvariable】为设置的条件变量框。Rule表示给定的判定条件。只有满足条件的样本数据才参与回归分析。【caselabels】是指定某变量为样本数据点的标记变量,将再图形中标出。当前第42页\共有52页\编于星期四\6点线性回归的其它操作一、statistics选项该窗口提供用户可选择的统计量【estimates】是SPSS默认输出项,输出与回归系数相关的统计量。包括回归系数(偏回归系数)、回归系数标准误差、标准化回归系数(如果各解释变量单位不一致,如希望比较对被解释变量的影响时,可采用)、回归系数显著性检验t统计量和P值、各解释变量的容忍度。【confidenceintervals】输出每个非标准化回归系数的95%置信区间当前第43页\共有52页\编于星期四\6点【descriptives】:输出各解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率值。【modelfit】为SPSS默认输出项,输出判定系数、调整的判定系数,回归方程的标准误差、回归方程显著性检验的方差分析表。【Rsquaredchange】表示每个解释变量进入方程后引起判定系数的变化量(Rch2
)和F值的变化量当前第44页\共有52页\编于星期四\6点【Partandpartialcorrelation】输出方程中各解释变量与被解释变量间的简单相关系数、偏相关系数和部分相关系数。【covariancematrix】输出各解释变量间的相关系数、协方差和回归系数的方差。【Collinearitydignostics】多重共线性诊断。输出各解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比率等。在【residuals】框中:【durbin-watson】表示输出DW检验值(异方差检验);【casewisediagnostics】表示输出标准化残差绝对值大于等于3的样本数据相关信息。当前第45页\共有52页\编于星期四\6点二、option选项该窗口提供解释变量筛选的标准以及缺失值处理方式。【useprobabilityofF】SPSS默认项,表示以偏F统计量的概率值为标准判断解释变量能否进入或剔除出回归方程。一个解释变量的F值显著性水平小于entry(0.05)则该解释变量可以进入方程;大于removal(0.1)则剔除出方程。【useFvalue】:以偏F统计量的临界值来判断解释变量能否进入(默认大于3.84,线性影响显著)方程;还是剔除出(默认小于2.71,不能拒绝原假设,线性影响不显著)方程。当前第46页\共有52页\编于星期四\6点三、plot选项该窗口用于对残差的序列分析,包括分析残差散点图、正态分布累计概率图等。窗口左边dependent表示被解释变量、zpred表示标准化预测值、dresid表示标准化残差、adjpred表示剔除异常点后调整的新预测值、sresid表示学生化残差。绘制多对变量散点图需要在【scatter1of1】框中定义散点图的纵坐标和横坐标变量。在【standardizedresidualplots】中选【histogram】表示绘制标准化残差序列直方图;选【normalprobabil
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铝合金供应链合作协议
- 医疗器械销售代表聘用协议
- 环卫工程塔吊司机聘用协议
- 医师雇佣合同延长期
- 专业房产中介合同模版
- 森林公园房产买卖合同样本
- 商业装修防火封堵施工协议
- 港口木地板安装合同
- 交通枢纽租赁合同格式
- 生态外墙绿化施工协议
- 过敏性紫癜-教学课件
- GB/T 18344-2016汽车维护、检测、诊断技术规范
- 神态描写课件
- 医惠内镜消毒质量追溯系统
- 如何提高基层干部群众工作能力课件
- 风险分级管控与隐患排查治理双重预防体系建设资料汇编
- 2022年读者出版集团有限公司招聘笔试试题及答案解析
- NB∕T 33009-2021 电动汽车充换电设施建设技术导则
- 大学《传播学概论》试卷及答案
- 工程设计费收费标准
- -坚定目标赢在执行 主题班会课件
评论
0/150
提交评论