版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八章 SPSS的线性回归分析回归分析概述 “回归”的含义 Galton研究研究父亲身高和儿子身高的关系时的独特发现. 回归线的获得方式 局部平均 回归曲线上的点给出了相应于每一个x(父亲)值的y(儿子)平均数的估计 拟和函数 使数据拟和于某条曲线 通过若干参数描述该曲线 利用已知数据在一定的统计准则下找出参数的估计值(得到回归曲线的近似)回归分析概述 回归分析的基本步骤 确定解释变量和被解释变量(父亲身高关于儿子身高的回归与儿子身高关于父亲身高的回归是不同的). 从样本数据出发确定变量之间的数学关系式, 对回归方程的各个参数进行估计. 对回归方程进行各种统计检验. 利用回归方程进行预测.线性
2、回归分析 一元线性回归模型的数学模型其中x为解释变量;y为被解释变量;0为截距,即常量;1为回归系数,表明解释变量对被解释变量的影响程度,x每变动一个单位所引起的y的平均变动,是回归直线的斜率xy10线性回归分析多元线性回归模型0为回归常数,1,2,.,p为偏回归系数1表示在其他解释变量保持不变的情况下,解释变量x1变动一个单位所引起的被解释变量y的平均变动 为由p个解释变量x的变化引起的y的线性变化部分 由其他随机因素引起的y的变化部分ppxxxy22110ppxxxy22110线性回归分析参数估计的准则 目标:回归线上的观察值与预测值之间的距离总和达到最小 最小二乘法(利用最小二乘法拟和的
3、回归直线与样本数据点在垂直方向上的偏离程度最低)min)(2221102iiiiXXYe2102102)XY(min)XY(eiiiii0201210121002)X( )XY(e)( )XY(eiiiiiii210iiiiXXYX21)()(xxyyxxiiixby 0线性回归方程的统计检验 回归方程的拟合优度检验 回归方程的显著性检验 回归系数的显著性检验 残差分析回归方程的拟合优度检验目的:检验样本观察点聚集在回归直线周围的密集程度,评价回归方程对样本数据点的拟和程度 思路: 被解释变量取值的变化受两个因素的影响:解释变量不同取值的影响和其他因素的影响 被解释变量总变差=回归方程可解释的
4、+不可解释的 被解释变量总离差平方和=回归平方和+剩余平方和回归方程的拟合优度检验 总变差: 回归平方和: 剩余平方和: SSA是由x和y的直线回归关系引起的,可以由回归直线做出解释; SSE是除了x对y的线性影响之外的随机因素所引起的Y的变动,是回归直线所不能解释的2)(yySSTi2)(yySSAi2) (yySSEi222yyyyyy图 2.13x xxyyyiyyiiiyy回归方程的拟合优度检验回归平方和在总离差平方和中所占的比例可以作为一个统计指标,用来衡量X与Y 的关系密切程度以及回归直线的代表性好坏,称为可决系数(判定系数) R2=SSA/SST=1-SSE/SSTR2体现了回归
5、方程所能解释的被解释变量变差的比例;1-R2则体现了被解释变量总变差中,回归方程所无法解释的比例。R2越接近于1,则说明回归平方和占了被解释变量总变差平方和的绝大部分比例,被解释变量的变差主要由解释变量的不同取值造成,回归方程对样本数据点拟合得好回归方程的拟合优度检验对于一元线性回归方程对于多元线性回归方程22222211yyyyyyyyRSSTSSESSTSSESSTSSTSSAR1/1/12nSSTpnSSER回归方程的拟合优度检验在一元回归中R2=r2; 因此,从这个意义上讲,判定系数能够比较好地反映回归直线对样本数据的代表程度和线性相关性在多元线性回归分析中,引起判定系数增加的原因有两
6、个:一个是方程中的解释变量个数增多,另一个是方程中引入了对被解释变量有重要影响的解释变量。 如果某个解释变量引入方程后对被解释变量的线性解释有重要贡献,那么必然会使误差平方和显著减小,并使平均的误差平方和也显著减小,从而使调整的判定系数提高。所以在多元线性回归分析中,调整的判定系数比判定系数更能准确的反映回归方程的拟合优度回归方程的显著性检验(方差分析F检验)目的:检验解释变量与被解释变量之间的线性关系是否显著,是否可用线性模型来表示原假设:H0: 1 =2=.=p=0 即:回归系数与0无显著差异检验统计量:F统计量 F=平均的回归平方和/平均的剩余平方和F(1,n-1-1) 如果F值较大,则
7、说明解释变量造成的被解释变量的线性变动远大于随机因素对被解释变量的影响,解释变量于被解释变量之间的线性关系较显著计算F统计量的值和相伴概率p判断MSSEMSSAF 回归方程的显著性检验对于一元线性回归方程,检验统计量为对于多元线性回归方程,检验统计量为),(21)2/() (1/)()2/(1/22nFnyyyynSSESSAF),(1) 1/() (/)() 1/(/22pnpFpnyypyypnSSEpSSAF回归系数的显著性检验(t检验)目的:检验解释变量对被解释变量的线性影响是否显著原假设:H0: i =0 即:回归系数与0无显著差异检验统计量:t统计量计算t统计量的值和相伴概率p 判
8、断回归系数的显著性检验对于一元线性回归方程,检验统计量为 其中:Sy是回归方程标准误差(Standard Error)的估计值,由均方误差开方后得到,反映了回归方程无法解释样本数据点的程度或偏离样本数据点的程度 如果回归系数的标准误差较小,必然得到一个相对较大的t值,表明该解释变量x解释被解释变量线性变化的能力较强MSEnyySntxxtiiyi2)()2()(221其中,回归系数的显著性检验对于多元线性回归方程,检验统计量为1)() 1()(22pnyySpntxxtiiyiijii其中,回归系数的显著性检验t检验与F检验的关系 一元回归中,F检验与t检验一致,即: F=t2,两种检验可以相
9、互替代F统计量和R2值的关系 如果回归方程的拟合优度高,F统计量就越显著。F统计量越显著,回归方程的拟合优度就会越高) 1/()1 (/22knRkRF残差分析残差是指由回归方程计算得到的预测值与实际样本值之间的差距对于线性回归分析来讲,如果方程能够较好的反映被解释变量的特征和规律性,那么残差序列中应不包含明显的规律性).(22110ppiiiixxxyyye残差分析最小二乘法对残差的要求 残差服从正态分布,其平均值等于0 残差是相互独立的,不存在自相关; 残差方差相等残差均值为零的正态性分析残差的独立性分析异方差分析探测样本中的异常值残差均值为零的正态性分析残差图: 散点图。横坐标为解释变量
10、,纵坐标为残差。 若残差均值为零,残差图中的点应在纵坐标为零的横线上下随机散落标准化(或学生化)残差的累积概率图 正态概率图正态分数的概念:假设我们从一个平均值为0、标准差为1的正态概率分布中随机地抽取10个数值,并将这一抽样过程反复进行,然后每个样本中的10个数值按从小到大的顺序排列。现在我们仅考虑每个样本中最小的数值。在反复进行的抽样过程中得到的最小值是一个随机变量,称为一阶顺序统计量统计学家已经证明,来自标准正态概率分布的容量为10的样本,一阶顺序统计量的期望值为-1.55。这个期望值称为正态分数。对于样本容量为10的情形,有10个顺序统计量和10个正态分数。一般地说,如果我们有一个由n
11、个观测组成的数据集,那么就有n个顺序统计量和n个正态分数如果正态性假定为真,则最小的标准化残差应接近于最小的正态分数;第二小的标准化残差应接近于第二小的正态分数;依此类推用横轴表示正态分数,纵轴表示标准化残差,作一张散点图。散点应密集通过坐标原点的45。线残差的独立性分析 残差序列是否存在后期值与前期值相关的现象 cov(i,j)=0实现方式: 绘制残差序列的序列图:以样本期(或时间)为横坐标,残差为纵坐标残差的独立性分析计算自相关系数取值范围在-1+1之间接近1表示序列存在正自相关接近-1表示序列存在负自相关nttnttnttteeee2212221残差的独立性分析 D.W(Durbin-W
12、atson)检验 d-w=0:残差序列存在完全正自相关 d-w=4:残差序列存在完全负自相关 0d-w2:残差序列存在某种程度的正自相关 2d-w4:残差序列存在某种程度的负自相关 d-w=2:残差序列不存在自相关;一般情况下,DW值在1.5-2.5之间即可说明无自相关现象) 1 (2)(22221nttnttteeeDW残差的独立性分析 残差序列不存在自相关,可以认为回归方程基本概括了被解释变量的变化; 残差序列不存在自相关一些与被解释变量相关的因素没有引入回归方程回归模型不合适滞后性周期性的影响异方差分析异方差: 回归模型要求残差序列服从均值为0并具有相同方差的正态分布 即:残差分布幅度不
13、应随解释变量或被解释变量的变化而变化.否则认为出现了异方差现象实现方式 绘制残差图:通过绘制标准化残差序列和被解释变量预测值(或每个解释变量)的散点图来识别是否存在异方差 等级相关分析关于x的残差图000 xxxyyyyyy 如果总体上的方差是相等的,且假定的回归模型是合理的,所有的散点应落在一条水平带中间。 如果总体上的方差是不相等的,比如:较大的x对应较大的方差,则散点图就会在逐渐变大的范围内波动。 散点图在一个弯曲的带内波动,表明直线方程不能合理地描述变量间的关系。这时应考虑曲线回归模型或多重归模型。000yyyyyyy关于y的残差图yy类型与关于 x 的完全相同。在多元分析中有一个以上
14、的解释变量,所以用处更广泛。 如果总体上的方差是相等的,且假定的回归模型是合理的,所有的散点应落在一条水平带中间。 如果总体上的方差是不相等的,比如:较大的x对应较大的方差,则散点图就会在逐渐变大的范围内波动。 散点图在一个弯曲的带内波动,表明直线方程不能合理地描述变量间的关系。这时应考虑曲线回归模型或多元回归模型。异方差分析 关于标准化的残差图 一个随机变量减去它的均值,再除以它的标准差,就得到了标准化的随机变量。由最小二乘法的性质,残差的均值为零,所以每一个残差除以它的标准差,就得到了标准化残差 如果起初的假定为真,标准化残差应服从标准正态分布,则应有约95%的标准化残差介于-2和+2之间
15、。0)(yxie2-2异方差分析等级相关分析 得到残差序列后首先对其取绝对值 然后分别计算残差和解释变量(或被解释变量预测值)的秩 最后计算Spearman等级相关系数,并进行等级相关分析Spearman等级相关分析 H0:两变量间不存在显著的线性相关关系异方差分析存在异方差的解决办法 对解释变量实施方差稳定变换后在进行回归方程参数的估计 当残差与预测值的平方根成比例变化,可对解释变量做开方处理 当残差与预测值成比例变化,可对解释变量取对数 当残差与预测值的平方成比例变化,可对解释变量取倒数 加权最小二乘估计法(WLS)探测样本中的异常值异常值:远离均值的样本数据点实现方式 对被解释变量中异常
16、值的探测: 标准化残差 学生化残差 剔除残差 对解释变量中异常值的探测: 杠杆值 库克距离 标准化回归系数的变化和标准化预测值的变化探测样本中的异常值标准化残差 利用标准化残差不仅可以知道观察值比预测值大或小,并且还知道在绝对值上它比大多数残差是大还是小. 一般标准化残差的绝对值大于3,则可认为对应的样本点为异常值学生化残差 出现异方差时可使用学生化残差对异常值进行判断,即首先计算学生化残差,然后观察SRE; 绝对值大于3对应的观察值为异常值iieZRE iiiiheSRE1探测样本中的异常值剔除残差 构造思想:在计算第i个样本的残差时。用剔除该样本后剩余的n-1个样本拟合回归方程,并计算第i
17、个样本的预测值和相应的残差。这个残差与第i个样本无关,不受第i个样本y值是否是异常值的影响,称为剔除残差。 剔除残差较上述残差更能如实反映第i个样本的y的异常性。绝对值大于3对应的观察值为异常值差分析进行标准化或学生化残再对该相应的残差为:个样本的预测值为则:第,参数为后得到拟合回归方程,个样本剔除第iiiiiiiieyyexyiyxi),(1010探测样本中的异常值杠杆值杠杆值反映了解释变量x的第i个值与x平均值之间的差异。 当xi远离均值时,hii接近1 当xi接近均值时,hii接近0 通常当hii大于2或3倍的hii均值,就可认为该杠杆值较高,对应的观察值为异常点SPSS中计算的是中心化
18、的杠杆值niiiiixxxxnh1221niiinphnh111nhchiiii1niiinpchn11探测样本中的异常值库克距离杠杆值hii与残差ei到校的综合效应一般库克距离大于1,就可认为对应的观察值为异常点222)1 () 1(iiiiiihhpeD探测样本中的异常值标准化回归系数的变化和标准化预测值的变化在剔除第i个样本之后,观察标准化回归系数(标准化预测值)的前后变化 如果标准化回归系数变化的绝对值大于 ,则可认为第i个样本可能是异常点 如果标准化预测值变化的绝对值大于 ,则可认为第i个样本可能是异常点n/2np/2多元回归分析中的其他问题解释变量的筛选问题变量的多重共线性问题解释
19、变量的筛选问题解释变量筛选的目的 如果引入的解释变量个数较少,则不能很好的说明被解释变量的变化 如果引入的解释变量个数过多,有些解释变量可能对被解释变量的解释没有贡献;有可能存在多重共线性筛选策略 向前筛选策略(Forward) 向后筛选策略(Backward) 逐步筛选策略(Stepwise)向前筛选策略解释变量不断进入回归方程的过程步骤: 首先,选择与被解释变量具有最高相关系数的解释变量进入方程,并进行各种检验; 其次,在剩余的解释变量中寻找偏相关系数最高的变量进入回归方程,并进行检验; 默认:回归系数检验的概率值小于PIN(0.05)才可以进入方程. 反复上述步骤,直到没有可进入方程的解
20、释变量为止向后筛选策略解释变量不断剔除出回归方程的过程步骤 首先,将所有解释变量全部引入回归方程; 其次,在一个或多个t值不显著的解释变量中将t值最小的那个变量剔除出去,并重新拟和方程和进行检验; 默认:回归系数检验值大于POUT(0.10),则剔除出方程 如果新方程中所有变量的回归系数t值都是显著的,则变量筛选过程结束. 否则,重复上述过程,直到无变量可剔除为止逐步筛选策略是“向前法”和“向后法”的结合 向前法只对进入方程的变量的回归系数进行显著性检验,而对已经进入方程的其他变量的回归系数不再进行显著性检验,即:变量一旦进入方程就不会被剔除 随着变量的逐个引进,由于变量之间存在着一定程度的相
21、关性,使得已经进入方程的变量其回归系数不再显著,因此会造成最后的回归方程可能包含不显著的变量。 逐步筛选法则在变量的每一个阶段都考虑的剔除一个变量的可能性。变量的多重共线性问题多重共线性:解释变量之间存在线性相关关系的现象 高度的多重共线会使回归系数的标准差随解释变量相关性的增大而不断增大,以至使回归系数的置信区间不断增大,造成估计值精度减低测度: 容忍度 方差膨胀因子 特征根和方差比 条件指数变量的多重共线性问题容忍度 Ri2是解释变量xi与方程中其他解释变量间的复相关系数的平方. 容忍度越大则与方程中其他解释变量的共线性越低,应进入方程. 具有太小容忍度的变量不应进入方程,spss会给出警
22、(T0.1一般认为具有多重共线性) 方差膨胀因子(VIF)-容忍度的倒数 VIF越大多重共线性越强,当VIF大于等于10时(或VIF的均值远远大于1),说明存在严重的多重共线性1012iiiTolRTol,piiiiVIFpFIVRVIF12111,变量的多重共线性问题特征根和方差比基本思想: 如果解释变量间确实存在较强的相关性,那么它们之间必然存在信息重叠,应将这些重叠信息提取出来,成为既能反映解释变量的信息(方差)且又相互独立的因素(成分) 从解释变量的相关系数矩阵出发,计算相关系数矩阵的特征值,得到相应的若干成分 具有最大值的特征值能够解释说明解释变量信息的比例是最高的;若最大特征值远远
23、大于其他特征值,说明这些解释变量间具有相当多的重叠信息 如果某个特征根既能够刻画某个解释变量方差的较大部分比例(如大于0.7),同时又可以刻画另一个解释变量方差的较大部分比例,则表明这两个解释变量间存在较强的多重共线性变量的多重共线性问题条件指数:在特征值基础上定义 0k10 无多重共线性; 10=k=100 严重imik线性回归分析的基本操作数据组织:被解释变量与各解释变量各对应一个SPSS变量选择菜单【Analyze】【Regression】【Linear】被解释变量解释变量在Method框中选择回归分析中解释变量的筛选策略。 Enter表示所选变量强行进入回归方程,是SPSS默认的策略,
24、通常用在一元线性回归分析中 Remove表示从回归方程中剔除所选变量 Stepwise表示逐步筛选策略 Backward表示向后筛选策略 Forward表示向前筛选策略对样本进行筛选(selection variable) 单击Rule按钮给定一个判断条件。只有变量值满足判定条件的样本才参与线性回归分析。在Case Labels框中指定哪个变量作为样本数据点的标志变量,该变量的值将标在回归分析的输出图形中WSL选项,采用加权最小二乘法替代普通最小二乘法估计回归参数,并指定一个变量作为权重变量Statistics Estimates:SPSS默认输出项,输出与回归系数相关的统计量。包括回归系数(
25、偏回归系数)、回归系数标准误差、标准化回归系数、回归系数显著性检验的t统计量和概率p值,各解释变量的容忍度。 Confidence Intervals:输出每个非标准化回归系数95的置信区间。 Covariance matrix:输出方程中各解释变量间的相关系数、协方差以及各回归系数的方差 Model fit:SPSS默认输出项,输出判 定系数、调整的判定系数、回归方程 的标准误差、回归方程显著F检验的方 程分析表 R squared change:输出每个解释变 量进入方程后引起的判定系数的变化量 和F值的变化量Statistics Descriptive:输出各解释变量和被解释变量的均值、
26、标准差、相关系数矩 阵及单侧检验概率p值 Part and partial correlation:输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数 Collinearity Diagnostics:多重共线性分析,输出各个解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比例等 Durbin-waston:输出DW检验值 Casewise Diagnostic:输出标准化残差绝对值大于等于3(SPSS默认值)的样本数据的相关信息,包括预测值、残差、杠杆值等Option 供用户设置多元线性回归分析中解释变量筛选的标准以及缺失值的处理方式 stepping method criteria:逐步筛选法参数设置. use probability of F:以F值相伴概率作为变量进入和剔除方程的标准.一个变量的F值显著性水平小于entry(0.05)则进入方程;大于removal(0.1)则剔除出方程.因此:Entryregression-curve estimation曲
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论