第九章 SPSS的线性回归分析.ppt_第1页
第九章 SPSS的线性回归分析.ppt_第2页
第九章 SPSS的线性回归分析.ppt_第3页
第九章 SPSS的线性回归分析.ppt_第4页
第九章 SPSS的线性回归分析.ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第9章,SPSS回归预测,本章内容,9.1回归预测概要9.2线性回归预测9.3回归方程的统一检验9.4多元回归分析中其他问题9.5线性回归预测的基本操作9.6线性回归预测的应用例9.7曲线推断,9.1回归分析概要1 .线性回归分析的内容(1) (2)如果可能的话,预测(3)利用这个关系的强度,即参数的线性组合来预测因素变量的能力有多强,以及(4)总的解释能力是有统计学意义的有木有整体解释能力显着的情况2 .回归预测的一般步骤(1)回归式中的解释变量(自变量)和被解释变量(原因变量) (2)确定回归模型-使用适当的数学模型汇总回归线- (3)确定回归式-基于样本数据和确定的回归模型, 在一定的统

2、一修正适合标准下推定模型的残奥仪表(4)对回归公式进行各种验证-根据样本得到的回归公式是真实地反映了整体间的统一修正关系还是回归公式可以用于预测? (5)使用回归式进行预测,在9.2.1线性回归模型1 .一次线性回归模型的数学模型中,x是自变量,y是因素变量,即截尾,即常数。表示由于回归系数,自变量对变量的影响程度,9.2线性回归预测, 由x的变化引起的y的线性变化部分:由其他随机要素引起的y的变化部分:用最小二乘法求出方程式中的两个残奥参数:多元线性回归模型,2 .多元线性回归方程: (1)1 (2)1表示在其他参数保持不变的情况下,由参数x1变动1个单位引起的变量y的平均变动,9.3.1

3、1 .如果建立方差平方和的分解直线回归公式,则反映y的观测值的总变动,可知被称为总劣化。 引起总劣化的原因有两个: (1)x的可取值不同,因此与x呈线性关系的y值不同;(2)随机因素的影响。 在9.3线性回归方程的联合校正检验中,总方差平方和(1)总方差平方和(SST)=剩馀残差平方和(SSE )回归平方和(SSR) (2)SST:反映了因素变量的n个观察值及其平均值的总方差。 (3)起因于SSR和y的直线回归关系,可以用回归直线解释。 (4)由于SSE对y的线性影响以外的随机因素引起的y的变动,不能用回归直线解释,2 .可决定系数(判定系数,系数行列式),(1)可决定系数:回归平方和占总平方

4、和的比例,(2)用于测量x和y的关系的密切性和回归直线的代表性的好坏。 (3)针对一次线性回归方程: (4)针对多元线性回归方程的多元线性回归预测中,引起判定系数增加的原因有两个:在方程中解释变量的数量增加的方程中导入对被解释变量产生重要影响的解释变量,在某个参数被导入方程后对因素变量的线性解释产生重要贡献; 误差平方和必然减少,并且平均误差平方和也显着减少,提高调整的判定系数,如果不清楚对某个参数的主要因素变量的线性解释,则仅减少SSE,不减少平均的SSE,因此在多次线性回归预测中,调整的判定系数比判定系数更准确地反映回归式的适合度(1) 回归式的显性检验是验证对象变量(2)对于一次线性回归

5、方程,统一修正量是平均的SSA/平均的SSE,反映了不能解释为回归式的劣化的劣化比例。SPSS自动地校正f统计校正量值和p值,并根据p值和显着水平的大小来判断。 关于9.3.2回归式的显性检查(方差分析f检查)、(3)多次线性回归方程,关于检查统计校正量,回归式的适合度越高回归式的显性检查和显性回归式的适合度越高回归式的适合度检查越是描写性的记述,与假设检查无关,9.3.3回归系数的显性检查(t检查)、(3) (2)关于一次线性回归方程,检验统一修正量是回归式的标准误差,是SSE的平方平均数,回归式反映了不能解释y变动的程度。 SPSS自动地校正t值和p值,并且基于p值进行化学基确定。 在线性

6、回归中,回归方程的显性检验和回归系数的显性检验的作用是相同的,可以相互替代,回归方程的显性检验的f统一校正量等于回归系数显性检验的t统一校正量的平方,(3)对于多元线性回归方程,检验统一校正量为:SPSS自动校正与统一校正量的值对应的p值, 不保证方程中不存在解释力差的自变量,无论是基于p值可以确定多元线性回归的偏回归系数不同还是为零。 (b )逐一检查回归系数显性检查偏回归系数是否为零;(c )两种检查不能互相替代。 (1)残差是根据回归公式计算出的预测值与实际的样本值之差;(2)在线性回归预测中,定义了如果方程式能够更好地反映被解释变量的特征和规定性,则残差序列中不包含明显的规定性和趋向性

7、。 (3)残差分析根据残差是否遵循平均值为零的正态概率分布,残差是否为等方差的正态概率分布,残差序列是否独立,来检测样本中的异常值。 9.3.4残差分析,9.3.4.1残差平均为零的正则性检查(1),通过标绘残差格拉夫进行的分析(2)残差格拉夫是散点格拉夫:横轴是解释变量,纵轴是残差。 (3)若残差平均为零,则残差格拉夫的点应随机散布于纵坐标为0的中心带状区域,(P290图91 ),9.3.4.2残差独立性检查,1 .残差序列独立性与残差序列前期和后期的数值之间没有相关关系,即,(2)校正残差的自相关性系数,(3)DW 检验总量表示DW=2,无自相关性,DW=4,完全负自相关性DW=0,完全正

8、自相关性DW在0-2之间存在正自相关性,DW在2-4之间存在负自相关性。 一般来说,DW值可以说明在1.5-2.5之间没有自相关性现象,(4)残差序列中存在自相关性,这意味着回归方程没有向一盏茶说明被解释变量的变化规则,缺少重要的解释变量,这意味着不合适宜选择取值的延迟回归模型,9.3.4.3不同方差分析, 1 .差异方差的结果(1)残奥仪表的最小二乘估计不再是最小方差,并且无偏差,并且有效估计(2)在回归系数显性检验中的t值较高,并且更容易拒绝原始假设,从而留下不必要的变量并且增大模型的预测偏差。3 .方差检查(1)标绘散布图的横轴解释变量、纵轴残差,残差随着解释变量的增加而处于增加(减少)

9、的倾向时,存在方差。 (2)对类相关性分析残差序列取绝对值修正运算残差和解释变量的秩修正运算Spearman类相关系数。 如果等级相关性分析查统一校正量的p值为给定的显着性水平,则拒绝原假设,解释变量与残差存在相关关系,出现不同的方差。 4、对异常方差的处理(1)对解释变量实施方差稳定转换,并且估计回归公式残奥仪表。 残差相对于预测值的平方根是比例变化解释变量,开方处理残差相对于预测值是比例变化解释变量,对数残差相对于预测值的平方是比例变化解释变量,(2)使用加权最小二乘法来估计回归式残奥参数,9.3.4.4 .样本中的异常值, 1 .异常值:远离平均值的样本数据点2 .在所解释的变量中检测异

10、常值的方法(1)对残差进行标准化,按照指导方针,的绝对值大于3的为异常值(2)学生化残差补正学生化残差,绝对值大于3的为异常值。 (3)如果去除残差以校正第I个样本的残差,则适合去除了样本之后剩馀的第(n-1 )个样本的方程以校正与第I个样本的预测值对应的残差,从而去除该残差被称为残差。 除去学生化残差后的绝对值大于3的观察值为异常值。 (1)杠杆值(2)库克距离,(3)在去除归一化回归系数的变化和归一化预测值的变化的第I个样本之后,对归一化回归系数前后的变化进行观察,如果归一化回归系数的变化的绝对值较大,则第I个样本有可能是异常值。 从预测值前后的变化来看,如果正规化预测值的变化绝对值大,可

11、以认为第I个样本有可能是异常值。 9.4多元回归中的其他问题,9.4.1解释变量的筛选问题1 .引入多少解释变量太少变量的变化太多,无法很好地说明参数之间可能存在多重共线性2 .过滤策略(1)描述前向过滤策略变量继续进入回归方程的过程。 首先,选择解释变量和线性相关系数最高的变量进入方程式,在进行回归方程的各种检查的剩馀变量中,被解释变量和偏相关系数最高,查找检查合格的变量进入回归方程,对新制作的回归方程进行各种检查的这个过程中,没有可以进入方程式的变量(2)后向过滤(Backward )战略变量持续删除回归公式的过程。 首先,将所有变量导入回归式,在对回归式进行各种检查的回归系数显性检查不明

12、显的一个以上的变量中,去除t检查值最小的变量,重新建构回归式,进行各种检查的新回归式中的所有变量的回归系数检查显着(3)阶跃滤波器策略基于前向滤波器策略来组合后向滤波器策略:在前向策略中,变量一旦进入方程式就不会被删除,并且由于变量的持续引入,变量之间的多重共线性定,已经引入的变量将不再出现。 各变量进入方程式后,应去除方程式的变量再次判断有木有。 分阶段的过滤策略提供了在引入变量的每个阶段删除不明确的变量的机会。 1 .多重共轭线性是指说明变量间具有线性相关关系的现象。 (1)容忍度是第I个解释变量和方程中其它解释变量之间的复相关系数的平方,其表示解释变量之间的线性相关程度; 容许度的可取值

13、的范围在0-1之间,越接近0表示多重共线性越强,越接近1表示多重共线性越弱。(2)分散膨胀因子VIF的分散膨胀因子是容许度的倒数。 VIF越大,表示多重共轭线性越强,在VIF为10以上的情况下,存在重症的多重共轭线性。 9.4.2多重共线性问题,(3)从特征根和方差比解释变量的相关系数矩阵求出的特征根中,如果最大特征根远远大于其他特征根,则表示这些个的解释变量间存在相当多的重复信息。 如果某个特征根能够描绘某个解释变量的方差的大部分比例(0.7以上)和另外一个解释变量的方差的大部分比例这两者,则表示这些个的两个解释变量间有强的线性相关关系。 (4)条件指数是指最大特征根与第I个特征根之比的平方

14、根。 条件指数在0-10之间时,多重共线性表示比条件指数在10-100之间时多重共线性更强。条件指数大于100时,说明中有重要的多重共线性,3 .多重共线性的结果(1)偏回归系数的推定困难(2) 偏回归系数的估计方差随解释变量相关性的增大而增大;偏回归系数的置信区间增大;偏回归系数估计的不稳定性增大;偏回归系数9.5线性回归预测的基本操作9.5.1菜单选择AnalyzeRegressionLinear时,显示窗口: (3)在Independent(s )框中选择一个或多个解释变量。 (选择在Method框中用回归预测解释变量的过滤策略. Enter表示所选变量强制进入回归方程,是SPSS的差动

15、奥尔特策略,通常用于线性回归预测的Remove表示将所选变量从回归公式中排除。sttp 表示阶段性的过滤策略Backward表示后向过滤策略,Forward表示前向过滤策略。 (5)在步骤3和4中确定的解释变量和变量过滤策略可被定位在不同的子摇滾乐中。 通常,回归预测有多个解释变量和相应的过滤策略定径套。 可以喀呖声Next和Previous按钮来设置多个解释变量和变量过滤策略的定径套,并将其放置在不同的子摇滾乐中。 (6)选择变量作为条件变量,放入Selection Variable框中,喀呖声Rule按钮指定判定条件。 只有变量值满足判定条件的样本参与线性回归预测。 (在Case Labe

16、ls框中,指定哪个变量作为样本数据点的标志变量,并在回归预测的输出格拉夫中显示该变量的值。 9.5.2线性回归预测中的其他操作1.Statistics按钮可以选择更多的输出总量。 (1)输出1)Estimates:SPSS差动奥尔特输出项,关于回归系数的统修正量:回归系数(偏回归系数),回归系数标准误差,标准化回归系数,回归系数显性检验的t统修正量和概率p值,各解释变量的容许度。 (2)Confidence Intervals :输出每个非正规化回归系数95的置信区间;(3)Descriptive :输出各解释变量和被解释变量的平均值、标准离差、相关系数矩阵及单侧检验概率p值; 输出判定系数、调整后的判定系数、回归方程的标准误差、回归方程的显着的f检验的方程式分析表。 (5)R squared change :输出每个解释变量进入方程式之后发生的判定系数的变化量和f值的变化量。 (7)Covar

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论