版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第九章第九章 SPSS回归分析回归分析 本章内容 9.1 回归分析概述回归分析概述 9.2 线性回归分析线性回归分析 9.3 回归方程的统计检验回归方程的统计检验 9.4 多元回归分析中的其他问题多元回归分析中的其他问题 9.5 线性回归分析的基本操作线性回归分析的基本操作 9.6 线性回归分析的应用举例线性回归分析的应用举例 9.7 曲线估计曲线估计 9.1 回归分析概述 1.线性回归分析的内容线性回归分析的内容 (1)能否找到一个)能否找到一个线性组合线性组合来说明一组自变量和因变量来说明一组自变量和因变量 的关系的关系 (2)如果能的话,这种关系的)如果能的话,这种关系的强度强度有多大,
2、也就是利用有多大,也就是利用 自变量的线性组合来预测因变量的能力有多强自变量的线性组合来预测因变量的能力有多强 (3)整体整体解释能力是否具有统计上的解释能力是否具有统计上的显著显著性意义性意义 (4)在整体解释能力显著的情况下,)在整体解释能力显著的情况下,哪些自变量哪些自变量有显著有显著 意义意义 2.回归分析的一般步骤回归分析的一般步骤 (1)确定回归方程中的解释变量(自变量)和被解释变)确定回归方程中的解释变量(自变量)和被解释变 量(因变量)量(因变量) (2)确定回归模型)确定回归模型-选用合适的数学模型概括回归线选用合适的数学模型概括回归线 (3)确定回归方程)确定回归方程-根据
3、样本数据及确定的回归模型,在根据样本数据及确定的回归模型,在 一定的统计拟合准则下估计模型的参数,得到确定的回一定的统计拟合准则下估计模型的参数,得到确定的回 归方程。归方程。 (4)对回归方程进行各种检验)对回归方程进行各种检验-基于样本得到的回归方程基于样本得到的回归方程 是否真实地反映了总体间的统计关系?回归方程能否用是否真实地反映了总体间的统计关系?回归方程能否用 于预测?于预测? (5)利用回归方程进行预测)利用回归方程进行预测 9.2.1线性回归模型线性回归模型 1.一元线性回归模型的数学模型一元线性回归模型的数学模型 其中:其中:x为自变量;为自变量; y为因变量;为因变量; 为
4、截距,即常量;为截距,即常量; 为回归系数,表明自变量对因变量的影响程度为回归系数,表明自变量对因变量的影响程度 xy 10 0 1 9.2 线线 性性 回回 归归 分分 析析 X的变化引起的的变化引起的y的线性变化部分:的线性变化部分: 其他随机因素引起的其他随机因素引起的y的变化部分:的变化部分: x 10 用用最小二乘法最小二乘法求解方程中的两个参数,得到:求解方程中的两个参数,得到: 2 1 )( )( xx yyxx i ii xby 0 多元线性回归模型 2.多元线性回归方程:多元线性回归方程: (1)1、2、p为偏回归系数。为偏回归系数。 (2)1表示在其他自变量保持不变的情况下
5、,自表示在其他自变量保持不变的情况下,自 变量变量x1变动一个单位所引起的因变量变动一个单位所引起的因变量y的的平均变平均变 动动 pp xxxy 22110 9.3.1回归方程的拟合优度检验回归方程的拟合优度检验 回归直线与各观测点的回归直线与各观测点的接近程度接近程度称为回归方程的拟合优度,称为回归方程的拟合优度, 也就是也就是样本观测值聚集在回归线周围的样本观测值聚集在回归线周围的紧密程度紧密程度 。 1.离差平方和的分解离差平方和的分解 建立直线回归方程可知:建立直线回归方程可知:y y的观测值的总变动可由的观测值的总变动可由 来反映,称为总变差。引起总变差的原因有两个:来反映,称为总
6、变差。引起总变差的原因有两个: (1)1)由于由于x x的取值不同,使得与的取值不同,使得与x x有线性关系的有线性关系的y y值不同;值不同; (2 2)随机因素的影响。)随机因素的影响。 2 )( yy 9.3 线性回归方程的统计检验线性回归方程的统计检验 bxay x y y )( 0 yy ) ( 0 yy ) (yy 总离差平方和可分解为 2 2 2 yyyyyy (1 1)总平方和()总平方和(SST)=SST)=剩余平方和剩余平方和(SSE) +(SSE) +回归平方和(回归平方和(SSR)SSR) (2 2)SST:SST:反映因变量的反映因变量的 n 个观察值与其均值的总离差
7、。个观察值与其均值的总离差。 (3 3)SSRSSR:由:由x x和和y y的直线回归关系引起的,可以由回归直线做出的直线回归关系引起的,可以由回归直线做出 解释;解释; (4 4)SSESSE:除了:除了x x对对y y的线性影响之外的随机因素所引起的的线性影响之外的随机因素所引起的Y Y的变动,的变动, 是回归直线所不能解释的。是回归直线所不能解释的。 2.2.可决系数(判定系数、决定系数)可决系数(判定系数、决定系数) (1)可决系数:回归平方和在总平方和中所占的比例可决系数:回归平方和在总平方和中所占的比例 (2)用来衡量)用来衡量X与与Y 的关系密切程度以及回归直线的代表性好坏。的关
8、系密切程度以及回归直线的代表性好坏。 (3)对于一元线性回归方程:)对于一元线性回归方程: 2 2 2 2 2 2 1 1 yy yy yy yy R SST SSE SST SSESST SST SSR R (4)对于多元线性回归方程)对于多元线性回归方程 多元线性回归分析中,引起判定系数增加的原因有两个:多元线性回归分析中,引起判定系数增加的原因有两个: 方程中的方程中的解释变量个数增多解释变量个数增多 方程中引入了对被解释变量方程中引入了对被解释变量有重要影响有重要影响的解释变量的解释变量 如果某个自变量引入方程后对因变量的线性解释有重要贡献,那么必然如果某个自变量引入方程后对因变量的线
9、性解释有重要贡献,那么必然 会使误差平方和显著减小,并使平均的误差平方和也显著减小,从而使调会使误差平方和显著减小,并使平均的误差平方和也显著减小,从而使调 整的判定系数提高整的判定系数提高 如果某个自变量对因变量的线性解释不明显,那么将其引入只会使如果某个自变量对因变量的线性解释不明显,那么将其引入只会使SSE 减少,但不会使平均的减少,但不会使平均的SSE减少,因此,多元线性回归分析中,调整的判减少,因此,多元线性回归分析中,调整的判 定系数比判定系数更能准确的反映回归方程的拟合优度定系数比判定系数更能准确的反映回归方程的拟合优度 )1/( )1/( 1 1 2 2 nSST pnSSE
10、R SST SSE R (1)回归方程的显著性检验是要检验)回归方程的显著性检验是要检验被解释被解释变量与变量与所有的所有的解释解释 变量之间的变量之间的线性线性关系是否关系是否显著显著。 (2) 对于一元线性回归方程,检验统计量为:对于一元线性回归方程,检验统计量为: 平均的平均的SSA/平均的平均的SSE,反映了回归方程所,反映了回归方程所能能解释的变差与解释的变差与 不能不能解释的变差的比例。解释的变差的比例。 SPSS自动计算自动计算F统计量值和统计量值和p值,根据值,根据p值与显著性水平的大值与显著性水平的大 小进行判断。小进行判断。 ),(21 )2/( ) ( 1/)( )2/(
11、 1/ 2 2 nF nyy yy nSSE SSR F 9.3.2 回归方程的显著性检验(方差分析回归方程的显著性检验(方差分析F检验)检验) (3)对于多元线性回归方程,检验统计量为)对于多元线性回归方程,检验统计量为 也即:也即: 回归方程的拟合优度越高回归方程的拟合优度越高回归方程的显著性检验也会越回归方程的显著性检验也会越 显著显著 回归方程的显著性检验越显著回归方程的显著性检验越显著回归方程的拟合优度越高回归方程的拟合优度越高 回归方程的拟合优度检验仅是一种回归方程的拟合优度检验仅是一种刻画性描述刻画性描述,不涉及假,不涉及假 设检验中:提出原假设、选择检验统计量、计算检验统设检验
12、中:提出原假设、选择检验统计量、计算检验统 计量的值、决策等内容,而回归方程的显著性检验均涉计量的值、决策等内容,而回归方程的显著性检验均涉 及这些内容。及这些内容。 ),(1p ) 1/( ) ( /)( ) 1/( / 2 2 pnF pnyy pyy pnSSE pSSR F ) 1()1 ( 2 2 pnR pR F 9.3.3回归系数的显著性检验(回归系数的显著性检验(t检验)检验) (1)回归系数的显著性检验是要检验回归方程中)回归系数的显著性检验是要检验回归方程中被解释变量被解释变量与与每一个每一个解释变解释变 量之间的量之间的线性线性关系是否关系是否显著显著。 (2)对于一元线
13、性回归方程,)对于一元线性回归方程, 检验统计量为:检验统计量为: 为回归方程的标准误差,是为回归方程的标准误差,是SSE的均方根,反映了回归方程无法解释的均方根,反映了回归方程无法解释y 变动的程度。变动的程度。 SPSS自动计算自动计算t值和值和p值,根据值,根据p值进行决策。值进行决策。 一元线性回归中,回归方程显著性检验和回归系数显著性检验的作用相同,一元线性回归中,回归方程显著性检验和回归系数显著性检验的作用相同, 可相互替代,且回归方程显著性检验的可相互替代,且回归方程显著性检验的F统计量等于回归系数显著性检验统计量等于回归系数显著性检验t 统计量的平方统计量的平方 2 )( )2
14、( )( 1 2 1 2 n yy S nt xx t n i ii y n i i 其中, 2 tF (3)对于多元线性回归方程,检验统计量为:)对于多元线性回归方程,检验统计量为: 1 )( ) 1( )( 1 2 2 1 pn yy S pnt xx t n i ii y n j iij i i 其中, SPSS自动计算自动计算 统计量的值和相应的统计量的值和相应的p值,可根据值,可根据p值值 进行决策进行决策 多元线性回归中,回归方程显著性检验和回归系数显著性多元线性回归中,回归方程显著性检验和回归系数显著性 检验的作用不相同:检验的作用不相同: (a)回归方程显著性检验)回归方程显著
15、性检验检验检验所有所有偏回归系数是否同时偏回归系数是否同时 为零。即使偏回归系数不同时为零,并不能保证方程中不为零。即使偏回归系数不同时为零,并不能保证方程中不 存在解释力较差的自变量。存在解释力较差的自变量。 (b)回归系数显著性检验对)回归系数显著性检验对每个每个偏回归系数是否为零逐一偏回归系数是否为零逐一 进行检验进行检验 (c)两种检验不能相互替代。)两种检验不能相互替代。 i t (1)残差是指由回归方程计算得到的)残差是指由回归方程计算得到的预测值预测值与与实际样本值实际样本值之间之间 的差距,定义为:的差距,定义为: (2)对于线性回归分析来讲,如果方程能够较好的反映被解释)对于
16、线性回归分析来讲,如果方程能够较好的反映被解释 变量的特征和规律性,那么残差序列中应变量的特征和规律性,那么残差序列中应不包含不包含明显的明显的规律规律 性性和和趋势性趋势性。 (3)残差分析包括以下内容:)残差分析包括以下内容: 残差是否服从均值为零的正态分布;残差是否服从均值为零的正态分布; 残差是否为等方差的正态分布;残差是否为等方差的正态分布; 残差序列是否独立;残差序列是否独立; 借助残差探测样本中的异常值。借助残差探测样本中的异常值。 ).( 22110ppiiii xxxyyye 9.3.4 残差分析残差分析 9.3.4.1残差均值为零的正态性检验残差均值为零的正态性检验 (1)
17、通过绘制残差图进行分析)通过绘制残差图进行分析 (2)残差图是一种散点图:横轴为解释变量,纵)残差图是一种散点图:横轴为解释变量,纵 轴为残差。轴为残差。 (3)如果残差均值为零,残差图的点应该在纵坐)如果残差均值为零,残差图的点应该在纵坐 标为标为0的中心带状区域中的中心带状区域中随机散落随机散落,(,(P290图图9-1 ) 9.3.4.2残差独立性检验残差独立性检验 1.残差序列独立性指:残差序列残差序列独立性指:残差序列前期前期和和后期后期数值之间数值之间不不存在存在相相 关关系关关系,即:,即: 2.方法方法 (1)绘制残差序列散点图:时间为横轴,残差为纵轴,若残差)绘制残差序列散点
18、图:时间为横轴,残差为纵轴,若残差 随时间推移呈有规律变化,则存在相关性。随时间推移呈有规律变化,则存在相关性。 (2)计算残差的自相关系数:)计算残差的自相关系数: )(0),cov(ji ji 1 , 1, 2 2 1 2 2 2 1 n t t n t t n t tt ee ee (3)DW检验检验 DW检验用来检验残差的自相关。检验统计量为:检验用来检验残差的自相关。检验统计量为: DW=2,表示无自相关,表示无自相关, DW=4,表示完全负自相关,表示完全负自相关 DW=0,表示完全正自相关,表示完全正自相关 DW在在0-2之间说明存在正自相关,之间说明存在正自相关, DW在在2-
19、4之间说明存在负的自相关。之间说明存在负的自相关。 一般情况下,一般情况下,DW值在值在1.5-2.5之间即可说明无自相关现象之间即可说明无自相关现象 )1 (2 )( 2 2 2 2 1 n t t n t tt e ee DW (4)残差序列存在自相关可能表明:)残差序列存在自相关可能表明: 回归方程没有充分说明被解释变量的变化规律,回归方程没有充分说明被解释变量的变化规律, 遗漏了一些重要的解释变量遗漏了一些重要的解释变量 变量存在取值滞后性变量存在取值滞后性 回归模型选择不合适回归模型选择不合适 9.3.4.3异方差分析 1.残差分析的方差不随解释变量或被解释变量取值的残差分析的方差不
20、随解释变量或被解释变量取值的 变化而变化,否则,存在异方差。变化而变化,否则,存在异方差。 2.异方差的后果异方差的后果 (1)参数的最小二乘估计)参数的最小二乘估计不再是不再是最小方差、无偏、最小方差、无偏、 有效有效估计估计 (2)导致回归系数显著性检验的)导致回归系数显著性检验的t值偏高值偏高,进而容,进而容 易拒绝原假设,使无用变量保留下来,易拒绝原假设,使无用变量保留下来,增大增大模型的模型的 预测预测偏差偏差。 3.异方差的检验异方差的检验 (1)绘制散点图)绘制散点图 横轴解释变量,纵轴残差,若残差随解释变量的增加呈增横轴解释变量,纵轴残差,若残差随解释变量的增加呈增 加(减少)
21、趋势,则存在异方差。加(减少)趋势,则存在异方差。 (2)等级相关分析)等级相关分析 对残差序列取绝对值对残差序列取绝对值计算残差和解释变量的秩计算残差和解释变量的秩计算计算 Spearman等级相关系数。等级相关系数。 若等级相关分析检验统计量的若等级相关分析检验统计量的p值值给定的显著性水平,给定的显著性水平, 则拒绝原假设,解释变量与残差存在相关关系,出现了异则拒绝原假设,解释变量与残差存在相关关系,出现了异 方差。方差。 4.异方差的处理异方差的处理 (1)对解释变量实施)对解释变量实施方差稳定变换方差稳定变换,再进行回归方程,再进行回归方程 参数的估计。参数的估计。 残差与预测值的平
22、方根成比例变化残差与预测值的平方根成比例变化对解释变量作开方处理对解释变量作开方处理 残差与预测值成比例变化残差与预测值成比例变化对解释变量取对数对解释变量取对数 残差与预测值的平方成比例变化残差与预测值的平方成比例变化对解释变量求倒数对解释变量求倒数 (2)利用)利用加权最小二乘法加权最小二乘法估计回归方程参数估计回归方程参数 9.3.4.4.探测样本中的异常值探测样本中的异常值 1. 异常值:远离均值的样本数据点,对回归方程参数估计有异常值:远离均值的样本数据点,对回归方程参数估计有 较大影响。较大影响。 2.被解释变量中异常值的探测方法被解释变量中异常值的探测方法 (1)标准化残差)标准
23、化残差 对残差进行标准化,根据对残差进行标准化,根据 准则,准则, 的绝对值大于的绝对值大于3的的 为异常值为异常值 (2)学生化残差)学生化残差 计算学生化残差,计算学生化残差, 绝对值大于绝对值大于3对应的观察值为异常值对应的观察值为异常值 。 3 i i e ZRE 个样本的杠杆值第ih h e SRE ii ii i i , 1 i ZRE i SER (3)剔除残差)剔除残差 计算第计算第i个样本残差时,用剔除该样本后剩余的(个样本残差时,用剔除该样本后剩余的(n-1)个样)个样 本拟合方程,并计算第本拟合方程,并计算第i个样本的预测值和相应的残差,此残差个样本的预测值和相应的残差,
24、此残差 称为剔除残差。称为剔除残差。 剔除学生化残差的绝对值大于剔除学生化残差的绝对值大于3对应的观察值为异常值。对应的观察值为异常值。 3.解释变量中异常值的探测方法解释变量中异常值的探测方法 (1)杠杆值)杠杆值 (2)库克距离)库克距离 值。则对应的观察值为异常倍或大于,32 11 , )( )(1 1 1 2 2 hh n p h n h xx xx n h ii n i ii n i i i ii 为异常值。即可认为对应的观察值大于 解释变量的个数, 1 , )1 () 1( 22 2 i ii iii i D p h h p e D (3)标准化回归系数的变化和标准化预测值的变化)
25、标准化回归系数的变化和标准化预测值的变化 在剔除第在剔除第i个样本后,观察标准化回归系数的前后变化个样本后,观察标准化回归系数的前后变化 ,如果标准化回归系数变化的绝对值大于,如果标准化回归系数变化的绝对值大于 ,则可认,则可认 为第为第i个样本可能是异常值。个样本可能是异常值。 观察预测值的前后变化,如果标准化预测值变化的绝对观察预测值的前后变化,如果标准化预测值变化的绝对 值大于值大于 ,则可认为第,则可认为第i个样本可能是异常值。个样本可能是异常值。 n2 np2 9.4 多元回归中的其他问题多元回归中的其他问题 9.4.1解释变量的筛选问题解释变量的筛选问题 1.引入引入多少个多少个解
26、释变量解释变量? 太少太少不能很好解释因变量的变化不能很好解释因变量的变化 太多太多自变量间可能存在多重共线性自变量间可能存在多重共线性 2.筛选策略筛选策略 (1)向前筛选()向前筛选( Forward )策略)策略 解释变量解释变量不断进入不断进入回归方程的过程。回归方程的过程。 首先选择与被解释变量具有首先选择与被解释变量具有最高线性相关系数最高线性相关系数的变量进入方的变量进入方 程,并进行回归方程的各种检验;程,并进行回归方程的各种检验; 在剩余的变量中寻找与被解释变量在剩余的变量中寻找与被解释变量偏相关系数偏相关系数最高且通过检最高且通过检 验的变量进入回归方程,并对新建立的回归方
27、程进行各种验的变量进入回归方程,并对新建立的回归方程进行各种 检验;检验; 这个过程一直重复,直到再也没有可进入方程的变量为止。这个过程一直重复,直到再也没有可进入方程的变量为止。 (2)向后筛选()向后筛选( Backward )策略)策略 变量不断剔除出回归方程的过程。变量不断剔除出回归方程的过程。 首先把所有变量全部引入回归方程,并对回归方程进行各首先把所有变量全部引入回归方程,并对回归方程进行各 种检验;种检验; 在回归系数显著性检验不显著的一个或多个变量中,剔除在回归系数显著性检验不显著的一个或多个变量中,剔除 t检验值最小的变量,并重新建立回归方程和进行各种检检验值最小的变量,并重
28、新建立回归方程和进行各种检 验验 如果新建回归方程中所有变量的回归系数检验都显著,则如果新建回归方程中所有变量的回归系数检验都显著,则 回归方程建立结束;否则按上述方法再一次剔除最不显回归方程建立结束;否则按上述方法再一次剔除最不显 著的变量,直到再也没有可剔除的变量为止。著的变量,直到再也没有可剔除的变量为止。 (3)逐步筛选()逐步筛选( Stepwise )策略)策略 在向前筛选策略的基础上结合向后筛选策略:向在向前筛选策略的基础上结合向后筛选策略:向 前策略中,变量一旦进入方程将不再被剔除,随着前策略中,变量一旦进入方程将不再被剔除,随着 变量的不断引入,会由于变量间的变量的不断引入,
29、会由于变量间的多重共线性多重共线性,使,使 得已经引入的变量不再显著。得已经引入的变量不再显著。 在每个变量进入方程后再次判断是否存在应该剔在每个变量进入方程后再次判断是否存在应该剔 除出方程的变量。除出方程的变量。 逐步筛选策略在引入变量的每一个阶段都提供了逐步筛选策略在引入变量的每一个阶段都提供了 再剔除不显著变量的机会。再剔除不显著变量的机会。 1. 多重共线性是指多重共线性是指解释变量解释变量之间存在之间存在线性相关关系线性相关关系的现象。的现象。 2.测度多重共线性一般有以下方式测度多重共线性一般有以下方式 (1)容忍度)容忍度 是第是第i个解释变量与方程中其他解释变量间的复相关系数
30、的个解释变量与方程中其他解释变量间的复相关系数的 平方,表示解释变量之间的线性相关程度。平方,表示解释变量之间的线性相关程度。 容忍度的取值范围在容忍度的取值范围在0-1之间,越接近之间,越接近0表示多重共线性越强表示多重共线性越强 ,越接近,越接近1表示多重共线性越弱。表示多重共线性越弱。 (2)方差膨胀因子)方差膨胀因子VIF 方差膨胀因子是容忍度的倒数。方差膨胀因子是容忍度的倒数。 VIF越大多重共线性越强,当越大多重共线性越强,当VIF大于等于大于等于10时,说明存在时,说明存在 严重的多重共线性。严重的多重共线性。 2 1 ii RTol 2 i R 9.4.2 多重共线性问题多重共
31、线性问题 (3)特征根和方差比)特征根和方差比 根据根据解释变量解释变量的的相关系数矩阵相关系数矩阵求得的求得的特征根特征根中,如果中,如果 最大的特征根最大的特征根远远大于其他特征根,则说明这些解释远远大于其他特征根,则说明这些解释 变量间具有相当多的重复信息。变量间具有相当多的重复信息。 如果某个特征根既能够刻画某解释变量方差的较大部如果某个特征根既能够刻画某解释变量方差的较大部 分比例(分比例(0.7以上以上),又能刻画另一解释变量方差的),又能刻画另一解释变量方差的 较大部分比例,则表明这两个解释变量间存在较强的较大部分比例,则表明这两个解释变量间存在较强的 线性相关关系。线性相关关系
32、。 (4)条件指数)条件指数 指最大特征根与第指最大特征根与第i个特征根比的平方根。个特征根比的平方根。 当条件指数在当条件指数在0-10之间时说明多重共线性较之间时说明多重共线性较 当条件指数在当条件指数在10-100之间说明多重共线性较强;之间说明多重共线性较强; 当条件指数大于当条件指数大于100时说明存在严重的多重共线性时说明存在严重的多重共线性 i m i k 3.多重共线性的后果多重共线性的后果 (1)偏回归系数估计困难)偏回归系数估计困难 (2)偏回归系数的估计方差随解释变量相关性的增大而增大)偏回归系数的估计方差随解释变量相关性的增大而增大 (3)偏回归系数的置信区间增大)偏回
33、归系数的置信区间增大 (4)偏回归系数估计值不稳定性增大)偏回归系数估计值不稳定性增大 (5)偏回归系数假设检验的结果不显著)偏回归系数假设检验的结果不显著 例:为研究高等院校人文社会科学研究中立项课例:为研究高等院校人文社会科学研究中立项课 题数受哪些因素的影响,收集某题数受哪些因素的影响,收集某31个省市自治区部个省市自治区部 分高校有关社科研究方面的数据,进行多元线性回分高校有关社科研究方面的数据,进行多元线性回 归分析,并作多重共线性诊断。其中因变量为立项归分析,并作多重共线性诊断。其中因变量为立项 课题数课题数X5。 37 9.5 线性回归分析的基本操作线性回归分析的基本操作 9.5
34、.1选择菜单选择菜单AnalyzeRegressionLinear, 出现窗口:出现窗口: (2)选择被解释变量进入)选择被解释变量进入Dependent框。框。 (3)选择一个或多个解释变量进入)选择一个或多个解释变量进入Independent(s)框。框。 (4)在)在Method框中选择回归分析中解释变量的筛选策略。框中选择回归分析中解释变量的筛选策略。 Enter表示所选变量强行进入回归方程,是表示所选变量强行进入回归方程,是SPSS默认的策默认的策 略,通常用在一元线性回归分析中;略,通常用在一元线性回归分析中; Remove表示从回归方程中剔除所选变量;表示从回归方程中剔除所选变量
35、; Stepwise表示逐步筛选策略;表示逐步筛选策略; Backward表示向后筛选策略;表示向后筛选策略; Forward表示向前筛选策略。表示向前筛选策略。 (5)第三和第四步中确定的解释变量及变量筛选策略可放)第三和第四步中确定的解释变量及变量筛选策略可放 置在不同的块(置在不同的块(Block)中。通常在回归分析中不止一组)中。通常在回归分析中不止一组 待进入方程的解释变量和相应的筛选策略,可以单击待进入方程的解释变量和相应的筛选策略,可以单击 Next和和Previous按钮设置多组解释变量和变量筛选策按钮设置多组解释变量和变量筛选策 略并放置在不同的块中。略并放置在不同的块中。
36、(6)选择一个变量作为条件变量放到)选择一个变量作为条件变量放到Selection Variable框中,并单击框中,并单击Rule按钮给定一个判断条件。只按钮给定一个判断条件。只 有变量值满足判定条件的样本才参与线性回归分析。有变量值满足判定条件的样本才参与线性回归分析。 (7)在)在Case Labels框中指定哪个变量作为样本数据点的框中指定哪个变量作为样本数据点的 标志变量,该变量的值将标在回归分析的输出图形中。标志变量,该变量的值将标在回归分析的输出图形中。 9.5.2 线性回归分析的其他操作线性回归分析的其他操作 1.Statistics按钮按钮 可供用户选择更多的输出统计量。可供
37、用户选择更多的输出统计量。 (1)Estimates:SPSS默认输出项,输出与回归系数相默认输出项,输出与回归系数相 关的统计量:关的统计量: 回归系数(偏回归系数)、回归系数标准误差、标准化回回归系数(偏回归系数)、回归系数标准误差、标准化回 归系数、回归系数显著性检验的归系数、回归系数显著性检验的t统计量和概率统计量和概率p值,各解值,各解 释变量的容忍度。释变量的容忍度。 (2)Confidence Intervals:输出每个非标准化回归系数:输出每个非标准化回归系数 95的置信区间。的置信区间。 (3)Descriptive:输出各解释变量和被解释变量的均值、:输出各解释变量和被解
38、释变量的均值、 标准差、相关系数矩阵及单侧检验概率标准差、相关系数矩阵及单侧检验概率p值。值。 (4)Model fit:SPSS默认输出项。输出以下结果:默认输出项。输出以下结果: 判定系数、调整的判定系数、回归方程的标准误差、回判定系数、调整的判定系数、回归方程的标准误差、回 归方程显著归方程显著F检验的方程分析表。检验的方程分析表。 (5)R squared change:输出每个解释变量进入方程后:输出每个解释变量进入方程后 引起的判定系数的变化量和引起的判定系数的变化量和F值的变化量。值的变化量。 (6)Part and partial correlation:输出方程中各解释变:输
39、出方程中各解释变 量与被解释变量之间的简单相关、偏相关系数。量与被解释变量之间的简单相关、偏相关系数。 (7)Covariance matrix:输出方程中各解释变量间的相关:输出方程中各解释变量间的相关 系数、协方差以及各回归系数的方差。系数、协方差以及各回归系数的方差。 (8)Collinearity Diagnostics:多重共线性分析。:多重共线性分析。 输出各个解释变量的容忍度、方差膨胀因子、特征值、条件输出各个解释变量的容忍度、方差膨胀因子、特征值、条件 指标、方差比例等。指标、方差比例等。 (9)Residual框框 Durbin-waston表示输出表示输出DW检验值;检验值
40、; Casewise Diagnostic表示输出标准化残差绝对值大表示输出标准化残差绝对值大 于等于于等于3(SPSS默认值)的样本数据的相关信息,包括预默认值)的样本数据的相关信息,包括预 测值、残差、杠杆值等。测值、残差、杠杆值等。 可供用户设置多元线性回归分析中解释变量筛选可供用户设置多元线性回归分析中解释变量筛选 的标准以及缺失值的处理方式。的标准以及缺失值的处理方式。 2. Options选项选项 (1)Use probability of F:以偏以偏F统计量的概率值为标统计量的概率值为标 准判断解释变量能否进入或剔除回归方程。准判断解释变量能否进入或剔除回归方程。 (2)use
41、 F value:以偏以偏F统计量的临界值为标准判断解统计量的临界值为标准判断解 释变量能否进入或剔除回归方程。释变量能否进入或剔除回归方程。 (3)include constant in equation:是否进行中心是否进行中心 化处理,即方程中是否包含常数项。化处理,即方程中是否包含常数项。 3.Plot选项 该选项用于对残差序列的分析该选项用于对残差序列的分析 (1)窗口左边框中各变量名的含义:)窗口左边框中各变量名的含义: DEPENDNT表示被解释变量,表示被解释变量, *ZPRED表示标准化预测值,表示标准化预测值, *ZRESID表示标准化残差,表示标准化残差, *DRESID
42、表示剔除残差,表示剔除残差, *ADJPRED表示调整的预测值,表示调整的预测值, *SRESID表示学生化残差,表示学生化残差, *SDRESID表示剔除学生化残差。表示剔除学生化残差。 (2)绘制多对变量的散点图,可根据需要在)绘制多对变量的散点图,可根据需要在scatter框中框中 定义散点图的纵坐标和横坐标变量。定义散点图的纵坐标和横坐标变量。 (3)Standardized Residual Plots框框 Histogram:绘制标准化残差序列的直方图;:绘制标准化残差序列的直方图; Normal probability plot:绘制标准化残差序列的正绘制标准化残差序列的正 态分
43、布累计概率图。态分布累计概率图。 Produce all partial plots:依次绘制被解释变量依次绘制被解释变量 和各个解释变量的散点图。和各个解释变量的散点图。 (1)该窗口的功能是将回归分析的某些结果以)该窗口的功能是将回归分析的某些结果以SPSS变量的变量的 形式保存到数据编辑窗口中,并可同时生成形式保存到数据编辑窗口中,并可同时生成XML格式的文格式的文 件,便于分析结果的网络发布。件,便于分析结果的网络发布。 (2)Predicted Values框:保存非标准化预测值、标准框:保存非标准化预测值、标准 化预测值、调整的预测值和预测值的均值标准误差。化预测值、调整的预测值和
44、预测值的均值标准误差。 (3)prediction intervals框:保存均值或个体预测值框:保存均值或个体预测值 95(默认)置信区间的下限值和上限值。(默认)置信区间的下限值和上限值。 (4)Residual框:保存非标准化残差、标准化残差等。框:保存非标准化残差、标准化残差等。 (5)Influence Statistics框:保存剔除第框:保存剔除第i个样本后统计个样本后统计 量的变化量。量的变化量。 5.WSL选项选项 采用加权最小二乘法替代普通最小二乘法估计回归参数,采用加权最小二乘法替代普通最小二乘法估计回归参数, 并指定一个变量作为权重变量。并指定一个变量作为权重变量。 4
45、. Save选项选项 以高校科研研究数据为例,建立回归方程研究以高校科研研究数据为例,建立回归方程研究 1.课题总数受论文数的影响课题总数受论文数的影响 2. 被解释变量被解释变量课题总数,课题总数, 解释变量解释变量投入人年数(投入人年数(X2) 投入高级职称的人年数(投入高级职称的人年数(X3) 投入科研事业费(投入科研事业费(X4) 专著数(专著数(X6) 论文数(论文数(X7) 获奖数(获奖数(X8) (1)解释变量采用强制进入策略()解释变量采用强制进入策略(Enter),并做多重共线性检测。),并做多重共线性检测。 (2)解释变量采用向后筛选策略让)解释变量采用向后筛选策略让SPS
46、S自动完成解释变量的选择。自动完成解释变量的选择。 9.6 应用举例应用举例 9.7 曲线估计 9.7.1 曲线估计概述曲线估计概述 (1)变量间的相关关系中,并不总是表现出线性关)变量间的相关关系中,并不总是表现出线性关 系,非线性关系也是极为常见的。系,非线性关系也是极为常见的。 (2)变量之间的非线性关系可以划分为本质线性关)变量之间的非线性关系可以划分为本质线性关 系和本质非线性关系。系和本质非线性关系。 (3)本质线性关系本质线性关系是指变量关系是指变量关系形式上形式上虽然呈非线虽然呈非线 性关系,但可通过性关系,但可通过变量变换变量变换为线性关系,并最终为线性关系,并最终 可通过线
47、性回归分析建立线性模型。可通过线性回归分析建立线性模型。 (4)本质非线性关系本质非线性关系是指变量关系不仅形式上呈非是指变量关系不仅形式上呈非 线性关系,而且也无法变换为线性关系。线性关系,而且也无法变换为线性关系。 (5)本节的曲线估计解决本质线性关系问题。)本节的曲线估计解决本质线性关系问题。 9.7.1.1常见的本质线性模型有:常见的本质线性模型有: (1)二次曲线(二次曲线(Quadratic) 方程为方程为 变量变换后的方程为变量变换后的方程为 (2)复合曲线(复合曲线(Compound) 方程为方程为 变量变换后的方程为变量变换后的方程为 (3)增长曲线(增长曲线(Growth)
48、 方程为方程为 变量变换后的方程为变量变换后的方程为 2 012 yxx 2 012 11 ()yxx xx 01 x y 01 ln( )ln()ln()yx 01x ye 01 ln( )yx 4.对数曲线(对数曲线(Logarithmic) 方程为方程为 变量变换后的线性方程为变量变换后的线性方程为 5.三次曲线(三次曲线(Cubic) 方程为方程为 变量变换后的方程为变量变换后的方程为 6.S曲线(曲线(S) 方程为方程为 变量变换后的方程为变量变换后的方程为 7.指数曲线(指数曲线(Exponential) 方程为方程为 变量变换后的线性方程为变量变换后的线性方程为 01 ln( )
49、yx 01 1 yx 23 0123 yxxx 012 132 yxxx 01/x ye 01 1 ln( )yx 1 0 x ye 01 ln( )ln()yx 8.逆函数(逆函数(Inverse) 方程为方程为 变量变换后的方程为变量变换后的方程为 9.幂函数(幂函数(Power) 方程为方程为 变量变换后的方程为变量变换后的方程为 10.逻辑函数(逻辑函数(Logistic) 方程为方程为 变量变换后的线性方程为变量变换后的线性方程为 01 /yx 01 1 yx 1 0( )yx 01 ln( )ln()ln( )yx 01 1 1/ x y 01 11 ln()ln(ln() )x
50、y SPSS曲线估计曲线估计 (1)在不能明确究竟哪种模型更接近样本数据时,可在多)在不能明确究竟哪种模型更接近样本数据时,可在多 种可选择的模型中选择几种模型;种可选择的模型中选择几种模型; (2)SPSS自动完成模型的参数估计,并输出回归方程显自动完成模型的参数估计,并输出回归方程显 著性检验的著性检验的F值和概率值和概率p值、判定系数值、判定系数R2等统计量;等统计量; (3)以)以判定系数判定系数为主要依据选择其中的最优模型,并进行为主要依据选择其中的最优模型,并进行 预测分析等;预测分析等; (4)SPSS曲线估计还可以以曲线估计还可以以时间时间为解释变量实现时间序为解释变量实现时间序 列的简单列的简单回归分析回归分析和和趋势外推趋势外推分析。分析。 1.可通过绘制并观察样本数据的可通过绘制并观察样本数据的散点图散点图粗略确定被解释变量粗略确定被解释变量 和解释变量之间的相关关系,为曲线拟合中的模型选择提和解释变量之间的相关关系,为曲线拟合中的模型选择提 供依据。供依据。 2.SPSS曲线估计的基本操作步骤曲线估计的基本操作步骤 (1)选择菜单)选择菜单AnalyzeRegress
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年子女抚养权调整合同版
- 2024年工程施工协作意向性框架合同书版
- 2024年度会场租赁协议标准格式
- 2024年度企业劳动协议标准文本
- 2024年全包装修服务协议书例文版B版
- 2024年工程承包常见协议类型概览版
- 2024年市场营销合同及其应用场景
- 2024年杭州客运上岗证模拟考试0题
- 2024车位租赁协议
- 二婚离婚的协议的
- 2024年统编版新教材语文小学一年级上册全册单元测试题及答案(共8单元)
- 高等工程数学智慧树知到期末考试答案章节答案2024年南京理工大学
- (正式版)JTT 1499-2024 公路水运工程临时用电技术规程
- 《渔夫和金鱼的故事》.ppt
- (完整版)小学六年级数学计算竞赛试题
- 国家公派出国留学经验交流PPT课件
- 资产管理流程图及管控点
- 中学年级部主任负责制学校管理模式
- 论离体病理组织、病理切片和组织块的归属
- Manual达规判定手册
- (完整版)A4作文格纸可直接打印使用
评论
0/150
提交评论