[教育学心理学]ch20多元回归分析_第1页
[教育学心理学]ch20多元回归分析_第2页
[教育学心理学]ch20多元回归分析_第3页
[教育学心理学]ch20多元回归分析_第4页
[教育学心理学]ch20多元回归分析_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、心理统计 黄华 ch20:多元回归分析 date 200909 ch20多元回归分析多元回归分析 n回归模型简介回归模型简介 n多元线性回归分析的一般步骤多元线性回归分析的一般步骤 n自变量的选择自变量的选择 n多元回归方程的应用多元回归方程的应用 n多元回归分析的多元回归分析的spssspss操作操作 multivariate linear regression 多元线性回归分析也称复线性回归分析(multiple linear regression analysis),它研究一组自变量如何直接影响一个因变量。 自变量(independent variable)是指独立自由变量的变量,用x表

2、示;因变 量(dependent variable)是指非独立的、受其它变量影响的变量,用y表示; 由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分 析(univariate linear regression analysis) 多元回归分析数据格式多元回归分析数据格式 假定因变量假定因变量y y与自变量与自变量 间存在如下关系:间存在如下关系: mm xxxy 22110 式中,式中, 是常数项,是常数项, 称为称为偏回归系数(偏回归系数(partial regression partial regression coefficientcoefficient)。 的含义为

3、在其它自变量保持不变的条件下,的含义为在其它自变量保持不变的条件下, 自变量自变量 改变一个单位时因变量改变一个单位时因变量y y 的平均改变量。的平均改变量。 为随机误差,为随机误差, 又称残差(又称残差(residualresidual),它表示),它表示 因变量的变化中不能由自变量因变量的变化中不能由自变量 解释的部分。解释的部分。 0 m , 21 m,i i 21 m,ix i 21 m x,x,x 21 i x 多元线性回归方程模型多元线性回归方程模型 应用条件应用条件 多元线性回归模型应满足以下条件: (1)y与 之间具有线性关系; (2)各观测值 之间相互独立; (3)残差服从

4、均数为0、方差为的正态分布,它等价于对于任意一组自变 量 ,因变量均服从正态分布且方差齐。 注意:注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。虽然模型要求因变量是连续数值变量,但对自变量的类型不限。 若自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分若自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分 析。对于自变量是分类变量的情形,需要用析。对于自变量是分类变量的情形,需要用广义线性回归模型分析。广义线性回归模型分析。 m x,x,x 21 m x,x,x 21 n ,jyj21 ch20多元回归分析多元回归分析 n回归模型简介回归模型简介 n多元线性回归

5、分析的一般步骤多元线性回归分析的一般步骤 n自变量的选择自变量的选择 n多元回归方程的应用多元回归方程的应用 n多元回归分析的多元回归分析的spssspss操作操作 多元线性回归分析的步骤多元线性回归分析的步骤 (一)估计各项参数,建立多元线性回归方程模型 (二)对整个模型进行假设检验,模型有意义的前提下,再分别对各偏回归 系数进行假设检验。 (三)计算相应指标,对模型的拟合效果进行评价。 模型的参数估计(略)模型的参数估计(略) mmx b.xbxbyb- 22110 2727名被试白鼠完成名被试白鼠完成t t型迷型迷 宫所需的时间(宫所需的时间(y y)和它)和它 们的智商分数(们的智商分

6、数(x x1 1)、成)、成 长环境分数(长环境分数(x x2 2)、饥饿)、饥饿 水平(血糖指标,水平(血糖指标,x x3 3)、)、 迷宫经验(迷宫经验(x x4 4)的测量值)的测量值 列于表中,试建立完成时列于表中,试建立完成时 间与其它几项指标关系的间与其它几项指标关系的 多元线性回归方程。多元线性回归方程。 数据如图数据如图 案例案例 线性回归方程模型线性回归方程模型 线性回归方程模型为:线性回归方程模型为: 对模型及偏回归系数的假设检验对模型及偏回归系数的假设检验 1、对模型的假设检验f检验 2、对偏回归系数的假设检验f检验和t 检验 3、标准偏化回归系数 1、对模型的假设检验、

7、对模型的假设检验f检验检验 检验统计量为f ss回归为回归项的平方和,反映由于方程中个自变量与因变量的线性关系而使 因变量变异减小的部分; ss剩余表示剩余(残差)平方和,说明除自变量外,其它随机因素对y变异的影 响。 )mn/(ss m/ss f 1- 剩余 回归 回归总剩余 ssssss- 1、对模型的假设检验、对模型的假设检验f检验检验 ss总=lyy=222.5519;总=n-1=26 ss剩余= ss总- ss回归=222.5519-133.7107=88.8412 剩余=n-m-1=22 ms回归= ss回归/回归; ms剩余= ss剩余/剩余; f= ms回归/ ms剩余 1 1

8、、对模型的假设检验、对模型的假设检验f f检验检验 回归方程成立只能认为总的来说自变量与因变量间存在线性关系,但是否每 一个自变量都与因变量间存在线性关系,须对其偏回归系数进行假设检验。 方差分析法 t 检验法 2、对偏回归系数的假设检验、对偏回归系数的假设检验f检验和检验和t 检验检验 偏回归系数的假设检验偏回归系数的假设检验-方差分析法方差分析法 计算xi的偏回归平方和ui,它表示模型中含有其它m-1个自变量的条件下该自 变量对y的回归贡献,相当于从回归方程中剔除xi后所引起的回归平方和的减 少量。偏回归平方和ui越大说明自变量越重要。 检验统计量为: 1 1 - mnss u f i 剩

9、余 偏回归系数的假设检验偏回归系数的假设检验-方差分析法方差分析法 偏回归系数的假设检验偏回归系数的假设检验 t 检验检验 3、标准偏回归系数、标准偏回归系数 多元线性回归方程中,各自变量的单位不同,其偏回归系数之间是无法直接 比较的。需要对偏回归系数标准化,以消除量纲的影响。 标准化的偏回归系数称为标准偏回归系数(standard partial regression coefficient)。标准偏回归系数 与偏回归系数之间的关系为 标准偏回归系数绝对值的大小,可用以衡量自变量对因变量贡献的大小,即 说明各自变量在多元回归方程中的重要性。 i b y j j yy jj j yy jj j

10、j s s b nl nl b l l bb - - ) 1/( ) 1/( 3、标准化偏回归系数、标准化偏回归系数 (三)计算相应指标,对模型的拟合效果进行评价(三)计算相应指标,对模型的拟合效果进行评价 评价回归方程回归效果的优劣是回归分析的重要内容之一。 常用评价指标有: 复相关系数、 决定系数、 校正决定系数、 剩余标准差等。 1.复相关系数复相关系数 复相关系数(r),衡量因变量y与回归方程内所有自变量线性组合件相关关系 的密切程度。 0=r=1,没有负值。 r的值越接近1,说明相关关系越密切;越接近0说明相关关系越弱。 2、决定系数、决定系数 决定系数(coefficient of

11、 determination)表示回归平方和占总平方和的 比例,反映各自变量对因变量回归贡献的大小,用r2表示。 r2无单位,取值在01之间。值越大,说明回归平方和在总平方和中所占的比 重越大,剩余平方和所占比例越小,回归效果越好。 总 回归 ss ss r 2 3、剩余标准差、剩余标准差 剩余标准差(standard deviation of residual)为扣除m个自变量的影响后, 因变量仍然存在的变异,即不能由m个自变量的变化解释的y的变异,用 表示。 公式为: 剩余标准差越小,说明回归效果越好。剩余标准差除与剩余平方和有关外, 还与自由度有关,因此剩余标准差与决定系数对回归效果优劣

12、的评价结果有 时不一致。研究者通常希望用尽可能少的自变量来最大限度地解释因变量的 变异,从这个意义上来说,用剩余标准差作为评价回归效果的指标比决定系 数更好。 my s 123 1 123 - mn ss mss my 剩余 剩余 4、校正决定系数、校正决定系数 当方程中包含很多自变量时,即使其中一些自变量在解释因变量的变异 时贡献很小,但随着回归方程中自变量的增加。决定系数仍然会表现为 只增不减,故计算校正决定系数(adjusted coefficient of determination)以消除自变量个数的影响。公式为: 校正决定系数 越大,说明回归效果越好。当方程中加入有显著作用 的自变

13、量时, 增大,剩余标准差减小;反之,若方程中引入无显著作 用的自变量时, 可能减小,而剩余标准差增大。 2 adj r 2 2 1-r1 11 n-m-1 adj n ms r ms - - 剩余 总 2 adj r 2 adj r 2 adj r 2 adj r 4、校正决定系数、校正决定系数 ch20多元回归分析多元回归分析 n回归模型简介回归模型简介 n多元线性回归分析的一般步骤多元线性回归分析的一般步骤 n自变量的选择自变量的选择 n多元回归方程的应用多元回归方程的应用 n多元回归分析的多元回归分析的spssspss操作操作 奥克姆剃刀奥克姆剃刀 上好的模型选择可遵循一个称为奥克姆剃刀

14、(occams razor)的基本原理: 最好的科学模型往往最简单,且能解释所观察到的事实。 william navidi 逐步回归分析逐步回归分析 “最优回归方程”是指: 对因变量有显著作用的自变量,全部选入回归方程; 对因变量无显著作用的自变量,一个也不引入回归方程。 选择”最优回归方程”的方法有: 1最优子集回归法 2向后剔除法(backward selection) 3向前引入法(forward selection) 4逐步回归法(stepwise selection): 逐步选择法逐步选择法 1.1.前进法(前进法(forward selectionforward selection

15、) 2.2.后退法(后退法(backward eliminationbackward elimination) 3.3.逐步回归法(逐步回归法(stepwise regressionstepwise regression)。)。 它们的共同特点是它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对每一步只引入或剔除一个自变量。决定其取舍则基于对 偏回归平方和的偏回归平方和的f f检验检验 1; 1; ) 1( 21 )( - - - - pn pnss ssss f j j 残 回回 在供选择的m个自变量中,依各自变量对因变量作用的大小,即偏回归平方和 (partial regre

16、ssion sum of squares)的大小,由大到小把自变量依次逐 个引入。每引入一个变量,就对它进行假设检验。当时,将该自变量引入回 归方程。新变量引入回归方程后,对方程中原有的自变量也要进行假设检验, 并把贡献最小且退化为不显著的自变量逐个剔出方程。因此逐步回归每一步 (引入一个自变量或剔除一个自变量)前后都要进行假设检验,直至既没有 自变量能够进入方程,也没有自变量从方程中剔除为止。回归结束,最后所 得方程即为所求得的“最优”回归方程。 逐步回归逐步回归 逐步回归逐步回归 逐步回归逐步回归 1.模型选择可遵循奥克姆剃刀的基本原理 最好的科学模型往往最简单,且能解释所观察到的实事 2

17、.对于线性模型来说,奥克姆剃刀可表示成简约原则 一个模型应包括拟合数据所必需的最少变量 3.如果一个模型只包含数据拟合所必需的变量,这个模型就称为简约模型 (parsimonious model) 实际中的许多多元回归模型都是对简约模型的扩展 奥克姆剃刀奥克姆剃刀 ch20多元回归分析多元回归分析 n回归模型简介回归模型简介 n多元线性回归分析的一般步骤多元线性回归分析的一般步骤 n自变量的选择自变量的选择 n多元回归方程的应用多元回归方程的应用 n多元回归分析的多元回归分析的spssspss操作操作 多元回归的应用多元回归的应用 1影响因素分析 2估计与预测 用回归方程进行预测时,应选择具有

18、较高值的方程。 3统计控制 指利用回归方程进行逆估计,即通过控制自变量的值使得因变量为给定的 一个确切值或者一个波动范围。此时,要求回归方程的值要大,回归系数 的标准误要小。 多元线性回归应用时的注意事项多元线性回归应用时的注意事项 1样本含量 2方程“最优”问题 3关于逐步回归 4多元共线性 5.异常值识别与强影响分析 多元线性回归应用时的注意事项多元线性回归应用时的注意事项 1样本含量 应注意样本含量与自变量个数的比例。通常,样本含量至少为变量数的5- 10倍。 2方程“最优”问题 目的是精选自变量以求得拟合效果最好的多元回归方程。最优子集回归是 选择一组使回归方程拟和最好的自变量,而逐步

19、回归则选择对因变量作用 有意义的自变量,要根据研究目的选用合适的方法。 多元线性回归应用时的注意事项多元线性回归应用时的注意事项 3关于逐步回归 进行逐步回归分析时,随剔选变量界值的不同,选得的回归方程不一定相 同。方程中引入什么样的变量,应该由研究者结合专业知识以及经验来确 定,不加分析的使用逐步回归难以取得好的效果。另外,逐步回归在对大 量因素进行分析时,可先进行聚类分析,然后进行逐步回归分析等。 多元线性回归应用时的注意事项多元线性回归应用时的注意事项 4多元共线性 多元共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关 系。共线关系的存在,可使得估计系数方差加大,系数估计不稳

20、,结果分 析困难。因此在多元回归分析时,特别是当回归结果难以用专业知识解释 时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方 程,另行回归分析。 对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除 共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标 对结果的影响。 多元线性回归应用时的注意事项多元线性回归应用时的注意事项 多元共线性的表现在实际应用中主要表现为: (1)模型拟合效果很好,但偏回归系数几乎都无统计学意义; (2)偏回归系数估计值的方差很大; (3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生 较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化; (4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验 相悖,结果难以解释 出现以上表现,提示存在多元共线性问题,应进行多元共线性诊断。 常用的共线性诊断指标常用的共线性诊断指标 (1)方差膨胀因子(vif) 常用的共线性诊断指标常用的共线性诊断指标 (2)特征根系统(system of eigenvalues) 共线性诊断指标共线性诊断指标 异常值识别与强影响分析异常值识别与强影响分析 异常观测值得存在加大了数据的离散度,在线性回归分析中产生较大的残差, 影响回归函数的拟合度,所以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论