spss回归分析大全_第1页
spss回归分析大全_第2页
spss回归分析大全_第3页
spss回归分析大全_第4页
spss回归分析大全_第5页
已阅读5页,还剩220页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSSSPSS回归分析回归分析小组成员:小组成员: 李标李标 祝斌祝斌 宋金泽宋金泽 周益丰周益丰 贾汪洋贾汪洋2本章内容7.1 回归分析概述回归分析概述7.2 线性回归分析线性回归分析7.3 曲线估计回归分析曲线估计回归分析7.4 罗辑回归分析罗辑回归分析7.5 序数、概率回归分析序数、概率回归分析7.6 非线性、权重估计、两阶最小二乘、非线性、权重估计、两阶最小二乘、 最佳尺度回归分析最佳尺度回归分析 3回归分析(regression analysis) 确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。p涉及的自变量的多少一元回归分析多元回归分析p自变量和因变量之间的关系类

2、型,线性回归分析非线性回归分析回归分析4回归分析一般步骤:确定回归方程中的解释变量(自变量)和被解释变量(因变量)确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测回归分析线性回归分析一元线性回归方程反应一个一元线性回归方程反应一个因变量因变量与一个与一个自变量自变量之间的线性之间的线性关系,当直线方程关系,当直线方程Y=a+bx的的a和和b确定时,即为一元回确定时,即为一元回归线性方程。经过相关分析后,在直角坐标系中将大量数据归线性方程。经过相关分析后,在直角坐标系中将大量数据绘制成绘制成散点图散点图,这些点不在一条直线上,但可以从中找到一,这些点不在一条直线上,但可以从中找

3、到一条合适的直线,使各散点到这条直线的纵向距离之和最小,条合适的直线,使各散点到这条直线的纵向距离之和最小,这条直线就是回归直线,这条直线的方程叫作直线回归方程这条直线就是回归直线,这条直线的方程叫作直线回归方程。 注意:一元线性回归方程与函数的直线方程有区别,一元注意:一元线性回归方程与函数的直线方程有区别,一元 线性回归方程中的自变量线性回归方程中的自变量X对应的是因变量对应的是因变量Y的一个取值范的一个取值范围。围。1.一元线性回归分析的基本理论一元线性回归分析的基本理论 把把解释变量解释变量和和被解释变量被解释变量的多个对应样本值组队成坐标数据的多个对应样本值组队成坐标数据对(对(xi

4、,yi),通过观察数据对(),通过观察数据对(xi,yi)的散点图,如果)的散点图,如果发现发现y与与xi之间呈现出显著的线性关系,则应考虑建立之间呈现出显著的线性关系,则应考虑建立y和和xi的一元线性回归模型,其中,的一元线性回归模型,其中,y=a+bx+,y为被解释为被解释变量;变量;a为模型的截距项;为模型的截距项;b为待估计参数;为待估计参数;x为解释变量;为解释变量;为随机误差项。为随机误差项。线性回归分析线性回归分析对于一元线性模型,一般采用对于一元线性模型,一般采用最小二乘估计法最小二乘估计法来估计相关的参数(如和的无来估计相关的参数(如和的无偏估计值和),从而得到样本回归直线,

5、这样把得到的样本回归直线作为总偏估计值和),从而得到样本回归直线,这样把得到的样本回归直线作为总体回归的近似,是一种预测过程。体回归的近似,是一种预测过程。那要确定得到的样本回归直线是否能作为总体回归的近似,就必须对回归方那要确定得到的样本回归直线是否能作为总体回归的近似,就必须对回归方程的线性关系进行各种统计检验,包括程的线性关系进行各种统计检验,包括拟合优度检验拟合优度检验、回归方程显著性检验回归方程显著性检验、回归系数的显著性检验(回归系数的显著性检验(t检验检验)、)、残差分析残差分析等。等。线性回归分析线性回归分析u回归方程的拟合优度检验(相关系数检验)一元线性回归的拟合优度检验采用

6、R2统计量,称为判定系数或决定系数,数学定义为其中 称为回归平方和(SSA) 称为总离差平方和(SST) R2取值在0-1之间, R2越接近于1,说明回归方程对样本数据点的拟合优度越高。22121()()niiniiyyRyy21()niiyy21()niiyy线性回归分析线性回归分析9多元线性回归的拟合优度检验采用 统计量,称为调整的判定系数或调整的决定系数,数学定义为2R式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意义与一元回归方程中的R2是相同的。u回归方程的拟合优度检验(相关系数检验)2111SSEnpSSTnR 线性回归分析线性回归分析u回归方程的显著性检验(F检

7、验)即平均的SSA/平均的SSE,F统计量服从(1,n-2)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为线性关系显著。一元线性回归方程显著性检验的零假设是1=0,检验采用F统计量,其数学定义为:2121()()2niiniiiyyMSAFMSEyyn线性回归分析线性回归分析11u回归方程的显著性检验(F检验)多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零,检验采用F统计量,其数学定义为:即平均的SSA/平均的SSE,F统计量服从(p,n-p-1)个自由度的F分布。SPSS将会自动计算检验统计量的观测值

8、以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为y与x的全体的线性关系显著。2121()()1niiniiiyyPMSAFMSEyynP线性回归分析线性回归分析u回归系数的显著性检验(t检验) 一元线性回归方程的回归系数显著性检验的零假设是1=0,检验采用t统计量,其数学定义为:t统计量服从n-2个自由度的t分布。 SPSS将会自动计算t统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为x对y有显著贡献,线性关系显著。121()niitxx线性回归分析线性回归分析13u回归系数的显著性检验(t检验)多元线性回归方程的回归系数显著性检验的零

9、假设是i=0,检验采用t统计量,其数学定义为:ti统计量服从n-p-1个自由度的t分布。 SPSS将会自动计算ti统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为xi对y有显著贡献,应保留在线性方程中。21()injiijixxt(i=1,2, ,p)线性回归分析线性回归分析u残差分析 所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距,即它是回归模型中 的估计值。如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。iiiyyei线性回归分析线性回归分析u残差分析均值为0的正态性分析 残差均值为0的正态性

10、分析,可以通过绘制残差图进行分析,如果残差均值为0,残差图中的点应在纵坐标为0的横线上下随机散落着。正态性可以通过绘制标准化(或学生化)残差的累计概率图来分析线性回归分析线性回归分析16u回归方程的统计检验u残差分析独立性分析 绘制残差序列的序列图以样本期(或时间)为横坐标,残差为纵坐标,如果残差随时间的推移呈规律性变化,则存在一定的正或负相关性。计算残差的自相关系数取值在-1到+1之间,接近于+1表明序列存在正自相关性。 DW(DurbinWatson)检验DW取值在0至4之间,直观判断标准是DW=4,残差序列完全负自相关;DW=2,完全无自相关;DW=0,完全正自相关。线性回归分析线性回归

11、分析17u回归方程的统计检验u残差分析异方差分析 绘制残差图如果残差的方差随着解释变量值的增加呈增加(或减少)的趋势,说明出现了异方差现象。线性回归分析线性回归分析18u回归方程的统计检验u残差分析探测样本中的异常值和强影响点(对于y值)标准化残差ZRE由于残差是服从均值为0的正态分布,因此可以根据3准则进行判断,首先对残差进行标准化 ,绝对值大于3对应的观察值为异常值。学生化残差SRE剔除残差DRE(或剔除学生化残差SDRE)上述SRE、SDRE的直观判断标准同标准化残差ZRE。iZREe19线性回归分析线性回归分析20多元回归分析中的其他问题u变量筛选问题向前筛选策略 解释变量不断进入回归

12、方程的过程,首先选择与被解释变量具有最高线性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。向后筛选策略 变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并检验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量。逐步筛选策略 向前筛选与向后筛选策略的综合线性回归分析线性回归分析21多元回归分析中的其他问题u变量多重共线性问题容忍度Tol容忍度值越接近于1,表示多重共线性越弱。SPSS变量多重共线性的要求不很严格,只是在容忍度值太小时给出相应警告信息。方差膨胀因子VIF膨胀因子是容忍度的倒数,越

13、接近于1,表示解释变量间的多重共线性越弱。通常如果VIFi大于等于10,说明解释变量xi与其余解释变量之间有严重的多重共线性。特征根和方差比这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。条件指数ki10 ki 100时,认为多重共线性较强, ki 100时,认为多重共线性很严重21iiTolR miik线性回归分析线性回归分析22u回归方程的统计检验u残差分析异方差分析 等级相关分析得到残差序列后首先对其取绝对值,然后计算出残差和解释变量的秩,最后计算Spearman等级相关系数,并进行等级相关分析。具体过程见相关分析相

14、关章节。线性回归分析线性回归分析回归分析步骤:回归分析步骤: 第一,分析大量样本变量观测值,确定变量之间的数学关系式第一,分析大量样本变量观测值,确定变量之间的数学关系式回归方回归方程程; 第二,分析其回归方程的第二,分析其回归方程的可信程度可信程度,区分影响显著的和影响不显著的自变,区分影响显著的和影响不显著的自变量;量; 第三,根据已确定的数学关系,预测(第三,根据已确定的数学关系,预测(y)或者控制)或者控制(x)特定变量的取值,特定变量的取值,并给出并给出预测或控制预测或控制的精确度。的精确度。线性回归分析线性回归分析线性回归的使用条件:线性回归的使用条件:线性趋势线性趋势,即自变量与

15、因变量的关系是线性的。即自变量与因变量的关系是线性的。独立性独立性,因变量因变量Y的取值相互独立。反映在方程中即残差独立。的取值相互独立。反映在方程中即残差独立。正态性正态性,即自变量的任何一个线性组合,即自变量的任何一个线性组合,Y应该服从正态分布。反映应该服从正态分布。反映在方程中即残差在方程中即残差Ei服从正态分布。服从正态分布。方差齐性方差齐性,自变量的任何一个线性组合,自变量的任何一个线性组合,Y的方差相同。的方差相同。一元线性回归分析一元线性回归分析 2.一元线性回归分析的一元线性回归分析的SPSS操作操作打开【分析】打开【分析】【回归】【回归】【线性】,出现线性【线性】,出现线性

16、回归主对话回归主对话 框,进行框,进行SPSS程序命令操作,程序命令操作,即对各子对话框即对各子对话框进行设置。进行设置。 线性回归分析线性回归分析(1)变量)变量 因变量因变量 被选入该文本框中的变量为线性回归模型中的被解释被选入该文本框中的变量为线性回归模型中的被解释变量,数值类型为数值型。如果被解释变量为分类变量,则可以用变量,数值类型为数值型。如果被解释变量为分类变量,则可以用二元或者多元二元或者多元Logistic模型等建模分析。模型等建模分析。 自变量自变量 被选入该列表框中的变量为线性模型中的解释变量,被选入该列表框中的变量为线性模型中的解释变量,数值类型一般为数值型。如果解释变

17、量为分类变量或定性变量,可数值类型一般为数值型。如果解释变量为分类变量或定性变量,可以用虚拟变量(哑变量)表示。如果选择多个自变量,可将自变量以用虚拟变量(哑变量)表示。如果选择多个自变量,可将自变量分组成块,通过分组成块,通过“上一张上一张”和和“下一张下一张”按钮对不同的变量子集指按钮对不同的变量子集指定不同的进入方法。定不同的进入方法。线性回归分析线性回归分析总离差平方和可分解为(2)方法)方法 用于选择线性回归中变量的进入和剔除方法,来建立多个回归模型用于选择线性回归中变量的进入和剔除方法,来建立多个回归模型进入,该方法表示自变量列表中进入,该方法表示自变量列表中所有的变量所有的变量都

18、进入回归模型。都进入回归模型。逐步,该方法是一个动态过程,表示具有逐步,该方法是一个动态过程,表示具有F统计量的统计量的概率最小概率最小的自变量的自变量被选进回归模型;对于已经在回归方程中的变量,被选进回归模型;对于已经在回归方程中的变量,如果它们的如果它们的F统计量的概率变得足够大,则移除这些变量,统计量的概率变得足够大,则移除这些变量,直到不再有自变量符合进入或移除的条件,该方法终止。直到不再有自变量符合进入或移除的条件,该方法终止。删除,该方法表示建立回归模型前设定一定条件,然后根据删除,该方法表示建立回归模型前设定一定条件,然后根据条件删除自变量。条件删除自变量。向后,该方法表示首先将

19、自变量列表中的所有自变量选入到回归模型中,然向后,该方法表示首先将自变量列表中的所有自变量选入到回归模型中,然后按后按顺序移除顺序移除,最先删除与因变量之间的部分,最先删除与因变量之间的部分相关性最小相关性最小的那个变量,移除的那个变量,移除第一个变量后,得到新的方程,又将与因变量之间的部分相关性最小的那个第一个变量后,得到新的方程,又将与因变量之间的部分相关性最小的那个变量删除,直到方程中没有满足消除条件的变量,过程结束。变量删除,直到方程中没有满足消除条件的变量,过程结束。向前,该方法与向前,该方法与“向后向后”恰好相反,是将自变量按顺序选入到回归模型中。恰好相反,是将自变量按顺序选入到回

20、归模型中。首先选入与因变量之间具有首先选入与因变量之间具有最大相关性的最大相关性的、满足选入条件的变量进入回归模、满足选入条件的变量进入回归模型中,然后再考虑下一个变量,直到没有满足条件的变量时,过程结束。型中,然后再考虑下一个变量,直到没有满足条件的变量时,过程结束。线性回归分析线性回归分析(3)选择变量)选择变量 该文本框主要用于指定分析个案的选择规则,当回归分析中包含由选该文本框主要用于指定分析个案的选择规则,当回归分析中包含由选择规则定义的个案,则需要进行设置。择规则定义的个案,则需要进行设置。线性回归:设置规则子对话框用于选择关系线性回归:设置规则子对话框用于选择关系。对于分类变量,

21、可用的关系有。对于分类变量,可用的关系有“等于等于”和和“不等于不等于”,对于字符串型变量,可以用,对于字符串型变量,可以用“等于等于”关系,在关系,在“值值”文本框中输入按具体文本框中输入按具体数值或字符串选择个案的规则;如在数值或字符串选择个案的规则;如在“值值”中输入中输入“f”,则表示只有那些性别为女性,则表示只有那些性别为女性的个案才能进入分析;对于连续变量,则可的个案才能进入分析;对于连续变量,则可用的关系有用的关系有“等于等于”、“不等于不等于”、“小于小于”、“小于等于小于等于”、“大于大于”以及以及“大于等大于等于于”,如选择,如选择“不等于不等于”,并在,并在“值值”中输中

22、输入入“1”,表示只有那些有无线服务的个案,表示只有那些有无线服务的个案才会包含在回归分析中。才会包含在回归分析中。线性回归分析线性回归分析(4)个案标签)个案标签 该文本框主要用于指定个案标签的变量。该文本框主要用于指定个案标签的变量。(5)WLS权重权重 该文本框表示加权最小二乘,当判断回归模型的该文本框表示加权最小二乘,当判断回归模型的残差存在异方差时,才选用加权最小二乘方法,指定加权变量。残差存在异方差时,才选用加权最小二乘方法,指定加权变量。线性回归分析线性回归分析(6)统计量按钮设置)统计量按钮设置回归系数选项组:回归系数选项组: 估计,选择该复选框,可输出回归系数、标准误、标准化

23、系数估计,选择该复选框,可输出回归系数、标准误、标准化系数beta、t值以及值以及t的双尾显著性水平。的双尾显著性水平。置信区间,误差条形图的表征,选择该复选框,可输出每个回归系数置信区间,误差条形图的表征,选择该复选框,可输出每个回归系数或协方差矩阵指定置信度的置信区间,在或协方差矩阵指定置信度的置信区间,在“水平水平”框中输入范围。框中输入范围。 协方差矩阵,选择它,可输出回归系数协方差矩阵,选择它,可输出回归系数 的方差的方差协方差矩阵,其对角线以外协方差矩阵,其对角线以外 的协方差,对角线上为方差,同时还的协方差,对角线上为方差,同时还 显示相关系数矩阵。显示相关系数矩阵。线性回归分析

24、线性回归分析残差选项组残差选项组 该选项组用于指定对回归残差进行检验的方法。该选项组用于指定对回归残差进行检验的方法。lDurbin-Watson,该复选框表示输出用于检验残差系列自相关的,该复选框表示输出用于检验残差系列自相关的D-W检验统计量。检验统计量。l个案诊断,该复选框表示对个案进行诊断,输出个案,其中个案诊断,该复选框表示对个案进行诊断,输出个案,其中离群值,表示输出满足条件的个案离群值;离群值,表示输出满足条件的个案离群值;标准差,用于指定离群值满足几倍标准差的条件;标准差,用于指定离群值满足几倍标准差的条件;所有个案,指可以输出所有个案的残差。所有个案,指可以输出所有个案的残差

25、。线性回归分析线性回归分析l模型拟合度模型拟合度 勾选该复选框,则输出显示输入模型的变量和从模型删去的勾选该复选框,则输出显示输入模型的变量和从模型删去的变量,并显示以下拟合优度统计量:复相关系数、变量,并显示以下拟合优度统计量:复相关系数、R2和调整和调整R2、估计的标、估计的标准误以及方差分析表。准误以及方差分析表。lR方变化方变化 勾选该复选框,则输出由于添加或删除自变量而产生的勾选该复选框,则输出由于添加或删除自变量而产生的R2统计量的更改。如果与某个变量相关联的统计量的更改。如果与某个变量相关联的R2变化很大,则意味着该变量是因变化很大,则意味着该变量是因变量的一个良好的预测变量。变

26、量的一个良好的预测变量。l描述性描述性 勾选该复选框,则输出回归分析中的有效个案数、均值以及每个变勾选该复选框,则输出回归分析中的有效个案数、均值以及每个变量的标准差,同时输出具有单尾显著性水平的相关矩阵以及每个相关系数的量的标准差,同时输出具有单尾显著性水平的相关矩阵以及每个相关系数的个案数。个案数。线性回归分析线性回归分析l部分相关和偏相关性部分相关和偏相关性 该复选框表示输出部分相关和偏相关统计量。其中该复选框表示输出部分相关和偏相关统计量。其中:部分相关,指对于因变量与某个自变量,当已移去模型中的其他自变量对部分相关,指对于因变量与某个自变量,当已移去模型中的其他自变量对该自变量的线性

27、效应之后,因变量与自变量之间的相关性。当变量添加到该自变量的线性效应之后,因变量与自变量之间的相关性。当变量添加到方程时,它与方程时,它与R2的更改有关。的更改有关。偏相关,指的是对于两个变量,在移去由于它们与其他变量之间的相互关偏相关,指的是对于两个变量,在移去由于它们与其他变量之间的相互关联引起的相关之后,这两个变量之间剩余的相关性。对于因变量与某个自联引起的相关之后,这两个变量之间剩余的相关性。对于因变量与某个自变量,当已移去模型中的其他自变量对上述两者的线性效应后,这两者之变量,当已移去模型中的其他自变量对上述两者的线性效应后,这两者之间的相关性。间的相关性。l共线性诊断共线性诊断 输

28、出各变量的容限公差以输出各变量的容限公差以 及共线性诊断表。及共线性诊断表。线性回归分析线性回归分析(7) 绘制按钮设置绘制按钮设置 “线性回归:图线性回归:图”对话框主要用于帮助验证正态性、线性和方差相等的对话框主要用于帮助验证正态性、线性和方差相等的假设,还可以检测离群值、异常观察值和有影响的个案。假设,还可以检测离群值、异常观察值和有影响的个案。在源变量列表中列出了因在源变量列表中列出了因变量(变量(DEPENDNT)及)及以下的预测变量和残差变以下的预测变量和残差变量:标准化预测值(量:标准化预测值(*ZPRED)、标准化残差)、标准化残差(*ZRESID)、剔除残)、剔除残差(差(*

29、DRESID)、调整)、调整的预测值(的预测值(*ADJPERD)、学生化的残差()、学生化的残差(*SRESID)以及学生化)以及学生化的已删除残差(的已删除残差(*SDRESID)。)。线性回归分析线性回归分析散点散点1的的1 该选项组可以利用源变量列表中的任意两个来绘制散点图,该选项组可以利用源变量列表中的任意两个来绘制散点图,在在“Y”中选入中选入Y轴的变量,轴的变量,“X”中选入中选入X轴的变量。单击轴的变量。单击“下一张下一张”可可以再绘制下一张图,单击以再绘制下一张图,单击“上一张上一张”可以回到刚刚设定的上一张图进行修可以回到刚刚设定的上一张图进行修改。另外,针对标准化预测值绘

30、制标准化残差,可以检验线性关系和等方改。另外,针对标准化预测值绘制标准化残差,可以检验线性关系和等方差性。差性。标准化残差图标准化残差图 该选项组用于绘制标准化残差图,主要可以指定两种图:该选项组用于绘制标准化残差图,主要可以指定两种图:“直方图直方图”和和“正态概念图正态概念图”,将标准化残差的分布与正态分布进行比较,将标准化残差的分布与正态分布进行比较。产生所有部分图产生所有部分图 该复选框表示该复选框表示当根据其余自变量分别对两个变量进当根据其余自变量分别对两个变量进行回归时,显示每个自变量残差和因行回归时,显示每个自变量残差和因变量残差的散点图。但是要求方程中变量残差的散点图。但是要求

31、方程中必须至少有两个自变量。必须至少有两个自变量。 线性回归分析线性回归分析(8)保存按钮设置)保存按钮设置“线性回归:保存线性回归:保存”对话框主要用于在活动数据文件中保存预测值、残差对话框主要用于在活动数据文件中保存预测值、残差和其他对于诊断有用的统计量,包括:和其他对于诊断有用的统计量,包括:预测值选项组预测值选项组该选项组用于保存回归模该选项组用于保存回归模型对因变量的预测值。型对因变量的预测值。未标准化,选中该复选框,表示保存回归未标准化,选中该复选框,表示保存回归模型对因变量的预测值。模型对因变量的预测值。标准化,选中该复选框,表示保存标准化标准化,选中该复选框,表示保存标准化后的

32、预测值。后的预测值。调节,选中它,表示保存当某个案从回归调节,选中它,表示保存当某个案从回归系数的计算中排除时个案的预测值。系数的计算中排除时个案的预测值。均值预测值的均值预测值的S.E.,选中它,表示保存预,选中它,表示保存预测值的标准误。测值的标准误。线性回归分析线性回归分析残差选项组残差选项组 该选项组用于保存回归模型的残差该选项组用于保存回归模型的残差未标准化,选中它,表示保存观察值与模型预测值之间的原始残差。未标准化,选中它,表示保存观察值与模型预测值之间的原始残差。标准化,选中它,表示保存标准化后的标准化,选中它,表示保存标准化后的 残差,即残差,即Pearson残差。残差。学生化

33、,选中它,表示保存学生化的残学生化,选中它,表示保存学生化的残 差,即残差除以其随个案变化的标准差差,即残差除以其随个案变化的标准差 的估计,这取决于每个个案的自变量值的估计,这取决于每个个案的自变量值 与自变量均值之间的距离。与自变量均值之间的距离。删除,选中它,表示保存当某个案从回删除,选中它,表示保存当某个案从回 归系数的计算中排除时该个案的残差,归系数的计算中排除时该个案的残差, 它是因变量的值和调整预测值之间的差。它是因变量的值和调整预测值之间的差。学生化已删除,选中它,表示保存学生学生化已删除,选中它,表示保存学生 化的删除残差,即个案的剔除残差除以化的删除残差,即个案的剔除残差除

34、以 其标准误。其标准误。线性回归分析线性回归分析距离选项组距离选项组 该选项组用于标识自变量的值具有异常组合的个案以该选项组用于标识自变量的值具有异常组合的个案以及可能对回归模型产生很大影响的个案的测量。及可能对回归模型产生很大影响的个案的测量。Mahalanobis距离,表示自变量中个距离,表示自变量中个 案的值与所有个案的平均值相异程度的案的值与所有个案的平均值相异程度的 测量,大的测量,大的Mahalanobis距离表示个距离表示个 案在一个或多个自变量上具有极值。案在一个或多个自变量上具有极值。Cook距离,选中它,表示保存距离,选中它,表示保存Cook距距 离值,较大的离值,较大的C

35、ook距离表明从回归统计距离表明从回归统计 量的计算中排除个案之后,系数会发生量的计算中排除个案之后,系数会发生 很大变化。很大变化。杠杆值,选择它,表示保存杠杆值,杠杠杆值,选择它,表示保存杠杆值,杠 杆值是度量某个点对回归拟合的影响,杆值是度量某个点对回归拟合的影响, 范围从范围从0到(到(N-1)/N,其中,其中0表示对表示对 回归拟合无影响。回归拟合无影响。线性回归分析线性回归分析影响统计量选项组影响统计量选项组该选项组用于测度由于排除了特定个案而导致的回该选项组用于测度由于排除了特定个案而导致的回归系数(归系数(DfBeta)和预测值()和预测值(DfFit)的变化。)的变化。DfB

36、eta,即计算,即计算Beta值的差分,表示由于值的差分,表示由于 排除了某个特定个案而导致的回归系数的改变。排除了某个特定个案而导致的回归系数的改变。标准化标准化DfBeta,表示计算,表示计算Beta值的标准化差分。值的标准化差分。DfFit,表示计算拟合值的差分,即由于排除了,表示计算拟合值的差分,即由于排除了 某个特定个案而产生的预测变量的更改。某个特定个案而产生的预测变量的更改。标准化标准化DfFit,表示计算拟合值的标准化差分。,表示计算拟合值的标准化差分。协方差比率,选中它,表示从回归系数计算中排协方差比率,选中它,表示从回归系数计算中排 除特定个案的协方差矩阵的行列式与包含所有

37、个除特定个案的协方差矩阵的行列式与包含所有个 案的协方差矩阵的行列式的比率,如果比率接近案的协方差矩阵的行列式的比率,如果比率接近 1,则说明被排除的个案不能显著改变协方差矩,则说明被排除的个案不能显著改变协方差矩 阵。阵。线性回归分析线性回归分析预测区间选项组预测区间选项组 该选项组用于设置均值和个别预测区间该选项组用于设置均值和个别预测区间 的上界和下界。的上界和下界。线性回归分析线性回归分析“线性回归:选项线性回归:选项”对话框主要用于对步进方法标准和缺失值进行设置对话框主要用于对步进方法标准和缺失值进行设置,各选项含义如下:,各选项含义如下:“步进方法标准步进方法标准”选项组选项组 该

38、选项组在已指定向前、该选项组在已指定向前、 向后或逐步式变量选择法的情况下适用。变量可以向后或逐步式变量选择法的情况下适用。变量可以 进入到模型中,或者从模型中移除,这取决于进入到模型中,或者从模型中移除,这取决于F值值 的显著性概率或者的显著性概率或者F值本身。值本身。 使用使用F的概率,表示如果变量的的概率,表示如果变量的F值的显著性水平小值的显著性水平小 于于“进入进入”值,则将该变量选入到模型中,如果该显值,则将该变量选入到模型中,如果该显 著性水平大于著性水平大于“删除删除”值,则将该变量从模型中移除。值,则将该变量从模型中移除。 其中其中“进入进入”值必须小于值必须小于“删除删除”

39、值,且两者均必须为值,且两者均必须为 正数。正数。 使用使用F值,表示如果变量的值,表示如果变量的F值大于值大于“进入进入”值,则该变量输入模型,值,则该变量输入模型,如果如果F值小于值小于“删除删除”值,则该变量从模型中移除。值,则该变量从模型中移除。“进入进入”值必须大值必须大于于“删除删除” 值,且两者均必须为正数。要将更多的变量选入到模型中值,且两者均必须为正数。要将更多的变量选入到模型中,请降低,请降低“进入进入” 值。要将更多的变量从模型中移除,请增大值。要将更多的变量从模型中移除,请增大“删除删除”值。值。 线性回归分析线性回归分析“在等式中包含常数在等式中包含常数”复选框复选框

40、 该复选框表示回归模型中包含常数项。取该复选框表示回归模型中包含常数项。取消选择此选项可强制使回归模型通过原点,但是某些通过原点的回归结果消选择此选项可强制使回归模型通过原点,但是某些通过原点的回归结果无法与包含常数的回归结果相比较。如:不能以通常的方式解释无法与包含常数的回归结果相比较。如:不能以通常的方式解释R2。“缺失值缺失值”选项组选项组该选项组用于对回归中缺失值的设定,有该选项组用于对回归中缺失值的设定,有3个可选个可选项。项。按列表排除个案,选中该选项,表示只有所有变量均取有效值的个案才包按列表排除个案,选中该选项,表示只有所有变量均取有效值的个案才包含在分析中。含在分析中。按对排

41、除个案,选择该选项,表示使用正被按对排除个案,选择该选项,表示使用正被 相关的变量对具有完整数据的个案来计算回相关的变量对具有完整数据的个案来计算回 归分析所基于的相关系数。归分析所基于的相关系数。使用均值替换,选择该选项,表示用变量的使用均值替换,选择该选项,表示用变量的 均值来替换缺失值。均值来替换缺失值。线性回归分析线性回归分析实例操作实例操作橡皮的韧性和拉伸倍数是否存在显著的线性关系橡皮的韧性和拉伸倍数是否存在显著的线性关系线性回归分析线性回归分析44线性回归分析线性回归分析45线性回归分析线性回归分析46方程中包含的自变量列表方程中包含的自变量列表 同时同时显示进入方法。如本例中方程

42、中的显示进入方法。如本例中方程中的自变量为自变量为x,方法为,方法为Enter。模型拟合概述模型拟合概述 列出了模型的列出了模型的R、R2 、调整、调整R2 及估计标准误。及估计标准误。R2 值越大所反映的两变量的共变量比值越大所反映的两变量的共变量比率越高,模型与数据的拟合程度越率越高,模型与数据的拟合程度越好。好。本例所用数据拟合结果显示:所考察的自变量和因变量之间的相本例所用数据拟合结果显示:所考察的自变量和因变量之间的相关系数为关系数为0.985,拟合线性回归的确定性系数为,拟合线性回归的确定性系数为0.971,经调整,经调整后的确定性系数为后的确定性系数为0.968,标准误的估计为,

43、标准误的估计为0.09931。线性回归分析线性回归分析47方差分析表方差分析表 列出了变异源、自由度、均方、列出了变异源、自由度、均方、F值及对值及对F的显著性检验。的显著性检验。本例中回归方程显著性检验结果表明:回归平方和为本例中回归方程显著性检验结果表明:回归平方和为2.658,残差,残差平方和为平方和为0.079,总平方和为,总平方和为2.736,对应的,对应的F统计量的值为统计量的值为269.456,显著性水平小于,显著性水平小于0.05,可以认为所建立的回归方程有,可以认为所建立的回归方程有效。效。线性回归分析线性回归分析48回归系数表回归系数表 列出了常数及非标准化回归系数的值及标

44、准化的回归系列出了常数及非标准化回归系数的值及标准化的回归系数,同时对其进行显著性检验。数,同时对其进行显著性检验。本例中非标准化的回归系数本例中非标准化的回归系数B的估计值为的估计值为0.890,标准误为,标准误为0.053,标准化的回归系数为标准化的回归系数为0.985,回归系数显著性检验,回归系数显著性检验t统计量的值为统计量的值为16.415,对应显著性水平,对应显著性水平Sig.=0.0000.05,可以认,可以认为所建立的回归方程无效。为所建立的回归方程无效。线性回归分析线性回归分析564.回归系数表回归系数表 列出了常数及回归系数的值及标准化的值,同时列出了常数及回归系数的值及标

45、准化的值,同时对其进行显著性检验。对其进行显著性检验。回归系数分析中,回归系数分析中,Sig.0.05,建立的回归方程无效,说明多,建立的回归方程无效,说明多个变量与因变量不存在显著地线性关系。个变量与因变量不存在显著地线性关系。线性回归分析线性回归分析曲线估计变量间相关关系的分析中,变量之间的关系并不总是表现出线性关系,非线性关系也极为常见。非线性又可划分为:本质线性关系形式上虽然呈非线性,但可通过变量转换化为线性关系。本质非线性关系不仅形式上呈非线性,也无法通过变量转换化为线性关系。这里的曲线估计是解决本质线性关系问题的。模型名回归方程变量变换后的线性方程二次曲线(Quadratic)复合

46、曲线(Compound)增长曲线(Growth)对数曲线(Logarithmic)三次曲线(Cubic)S曲线(S)指数曲线(Exponential)逆函数(Inverse)幂函数(Power)逻辑函数(Logistic)2012yxx211012(x = x )y=+x+x01xy ln( )ln()ln()01yx01xyeln( )01yxln( )01yx1101(x = ln( )y =+xx332012xyxx3322211012,(x = x)y =+x+xxxx01xye11011(x =)ln(y)=+xx10 xye01)ln(y)=ln(+x01xy1()01 11yxx

47、x10()xy01 11ln( )ln()(ln( )yx xx0111xuy 0111ln() ln() ln()xyu常见本质线性模型曲线估计(称曲线拟合、曲线回归)是研究两变量间非线性关系的一种方法,选定一种用方程表达的曲线,使得实际数据与理论数据之间的差异尽可能地小。如果曲线选择得好,那么可以揭示因变量与自变量的内在关系,并对因变量的预测有一定意义;曲线估计中,需要解决两个问题:一是选用哪种理论模型,即用哪种方程来拟合观测值;二是当模型确定后,如何选择合适的参数,使得理论数据和实际数据的差异最小;在SPSS曲线估计中,首先在不能明确哪种模型更接近样本数据时可在上述可选择的模型中选择几种

48、模型,然后,SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率P值、判定系数R2等统计量;最后以判定系数R2为主要依据选择其中的最优模型,并进行预测分析。曲线估计应用举例为研究居民家庭教育支出和消费性支出之间的关系,收集到1990年至2002年全国人均消费性支出和教育支出的数据。第一步:画散点图教育支出和年人均消费性支出的散点图观察散点图发现两变量之间呈非线性关系,可尝试选择二次、三次曲线,复合函数、幂函数等模型。第二步:选择函数模型注:选择相应的变量注:模型中,选择“二次项”、“立方”、“幂”、“复合”,勾选“显示ANOVA表格”,然后点击保存按钮注:勾选“预测值”、“残差

49、”、“预测空间”(95%置信),点击继续,并确定,得到输出结果。拟合优度最高第三步:分析输出结果三次三次两个系数均大于0.05,此模型不理想复合复合幂幂相伴概率Sig.=0.000,该模型较理想二次、三次、复合、幂函数的曲线幂函数曲线幂函数曲线复合函数和幂函数的拟合优度都很好,同时两种模型的回归系数显著性检验也都通过 ,因此可考虑采用这两种模型。但是从曲线走势上来看,复合函数增长趋势比幂函数更接近原函数,因此可最终考虑采用复合函数。复合曲线由于在曲线估计对话框中选了“保存”项,并且勾选了“预测值”、“残差”和“预测区间”,因此在编辑窗口增加了16个变量的值,以fit_1、err_1、lcl_1

50、、ucl_1为例进行说明:fit_1:表示在线性回归分析条件下,当自变量x1值为1627.64时,因变量x1的预测值为77.75243;err_1:表示在线性回归分析条件下,当自变量x1值为1627.64时,因变量x2的实际值与预测值(残差)为-39.51243;lcl_1:表示在线性回归分析条件下,预测值95%可置信区间的下限为:-41.46780、-52.47135.ucl_1:表示在线性回归分析条件下,预测值95%可置信区间的上限为:196.97266、179.94058.回归分析回归分析时间序列上的时间序列上的曲线估计曲线估计定义:时间序列的曲线估计是分析社会和经济现象中经常用到的一种

51、曲线估计。通常把时间设为自变量x,代表具体的经济或社会现象的变量设为因变量y,研究变量x与y之间关系的方法就是时间序列曲线估计。其具体步骤与一般的曲线估计基本类似对19782006年间社会消费品零售总额之间的关系进行曲线回归分析时间序列上的曲线估计应用举例注:因变量选择y(社会消费品零售总额),变量选择x(年份),同时选中“时间”项,表示其为代表时间的自变量。“模型”框内勾选线性、二次项、立方和幂四种曲线模型进行估计,不必勾选“显示ANOVA表格”。注:在“曲线”估计中单击“保存”按钮,当以时间作为自变量时,“预测个案”是有效的。“从估计期到最后一个个案的预测”是计算当前所有样本期内的预测值。

52、“预测范围”是指如果预测的范围超过了当前样本期,可以选择在此项随后的“观测值”中键入一个需预测的期数,“31”表示将使用不同曲线模型对19782008年这31年的社会消费品零售总额作预测,并在spss数据编辑窗口中保留所有预测值。结果和分析所选的所选的4种曲线函数中以立方曲线的拟合优度最高。所以选种曲线函数中以立方曲线的拟合优度最高。所以选择立方拟合社会消费品零售总额在各年的变化趋势,接下择立方拟合社会消费品零售总额在各年的变化趋势,接下来结合观察值和各种函数模型预测值的对比图加以检验。来结合观察值和各种函数模型预测值的对比图加以检验。从对比图中可以看出,三次函数的曲线与样本的实际观察值拟合得

53、较好,所以决定对本节中的研究问题“社会消费品零售总额的趋势分析”采用指数函数进行回归分析,其具体模型为:y=2155.592-197.636x+35.303x2+1.947x3由于在“曲线估计”窗口中选了“保存”项,因此在spss数据编辑窗口中就新增了fit_1,fit_2,fit_3,fit_4四个变量的预测值,同时在窗口下面还新增了两个个案,他们分别代表对2007年和2008年的预测值。以三次函数做回归分析:当自变量x值为2001时,因变量y的预测值为44665.01213当自变量x值为2007时,因变量y的预测值为80573.79934当自变量x值为2008时,因变量y的预测值为8796

54、4.31013逻辑回归分析定性变量在许多实际问题中,会经常出现因变量是在许多实际问题中,会经常出现因变量是定性变定性变量量的情况:的情况:例如,某个人是否购买汽车,受到多种如家庭情例如,某个人是否购买汽车,受到多种如家庭情况、收人情况等因素的影响,但最终的可能性只况、收人情况等因素的影响,但最终的可能性只有两个,要么购买,要么不购买。把有两个,要么购买,要么不购买。把y y1 1定义为定义为购买,购买,y yo o则表示不购买。则表示不购买。再如,在是否购买某项商业保险的研究中,根据再如,在是否购买某项商业保险的研究中,根据消费者的年龄、身体状况、收人情况、工作性质消费者的年龄、身体状况、收人

55、情况、工作性质、受教育程度等,因变量、受教育程度等,因变量y y也只有两种可能结果:也只有两种可能结果:要么要么y=1y=1表示购买,要么表示购买,要么y yo o表示不购买。表示不购买。90处理方法可用于处理可用于处理定性因变量定性因变量的统计分析方法有:判别的统计分析方法有:判别分析分析(D1scriminant analysis)(D1scriminant analysis)、ProbitProbit分析、分析、 LogisticLogistic回归分析和对数线性模型等。回归分析和对数线性模型等。在社会科学中,在社会科学中,应用最多的是应用最多的是logisticlogistic回归分析

56、回归分析,逻辑回归分析是对定性变量的回归分析。逻辑回归分析是对定性变量的回归分析。LogisticLogistic中文意思为中文意思为“逻辑逻辑”但是这里,并不是逻但是这里,并不是逻辑的意思,而是通过辑的意思,而是通过logitlogit变换来命名的变换来命名的91Logistic回归分析法Logistic回归分析是对定性变量的回归分析回归分析是对定性变量的回归分析分类:分类: Logistic回归分析根据因变量取值类别不同,又可以分为回归分析根据因变量取值类别不同,又可以分为二元(二元(Binary logisticBinary logistic)回归分析)回归分析和和多项(多项(Multi

57、nomianl logisticMultinomianl logistic)回归分析)回归分析。变量特点:因变量是变量特点:因变量是分类变量,分类变量,自变量可以是分类变量也可以是连续变自变量可以是分类变量也可以是连续变量量Binary logisticBinary logistic回归模型中因变量只能取两个值回归模型中因变量只能取两个值1 1和和o(o(虚拟因变量虚拟因变量) ),二分类二分类变量变量。二元指。二元指“两种可能性两种可能性”,就好比逻辑中的,就好比逻辑中的“是是”或者或者“否否”一样一样。Multinomianl logisticMultinomianl logistic回归

58、模型中因变量可以取多个值,回归模型中因变量可以取多个值,多分类变量多分类变量。92Logistic回归分析要解决的问题具体地说,具体地说, Logistic回归分析主要解决以下几回归分析主要解决以下几方面的问题:方面的问题: 通过分析大量的样本数据,通过分析大量的样本数据,确定确定变量之间的变量之间的数学关系式数学关系式 对所确定的数学关系式的对所确定的数学关系式的可信程度进行可信程度进行各种各种统计检验统计检验,并区分出对某一特定变量影响较为显,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。著的变量和影响不显著的变量。 利用所确定的数学关系式,根据一个或几个利用所确定的数学关系

59、式,根据一个或几个变量的值来变量的值来预测或控制预测或控制另一个特定变量的取值,另一个特定变量的取值,并给出这种预测或控制的精确度并给出这种预测或控制的精确度93二元logistic回归模型数学表达式二元二元Logistic函数的形式为:函数的形式为:二元二元Logistic回归方程:回归方程:二元二元 logistic中通过中通过Logit变换,成为线性关系变换,成为线性关系:利用极大似然估计法,对参数进行估计,可用利用极大似然估计法,对参数进行估计,可用SPSS计算。计算。94对参数进行检验常用检验统计量:常用检验统计量:1.-21.-2对数似然值对数似然值(-2log likelihoo

60、d(-2log likelihood,-2LL)-2LL) 因为因为-2LL-2LL近似服从卡方分布且在数学上更为方便近似服从卡方分布且在数学上更为方便, ,所以所以-2LL-2LL可用于检验可用于检验LogisticLogistic回归的显著性。公式为:回归的显著性。公式为:2. 2.拟合优度拟合优度Goodness of FitGoodness of Fit统计量统计量 Logistic Logistic回归的拟合优度统计量计算公式为回归的拟合优度统计量计算公式为: :953. cox3. cox和和snellsnell的的R R2 24. Nagelkerke4. Nagelkerke的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论