HLM多层线性模型简介解析.ppt_第1页
HLM多层线性模型简介解析.ppt_第2页
HLM多层线性模型简介解析.ppt_第3页
HLM多层线性模型简介解析.ppt_第4页
HLM多层线性模型简介解析.ppt_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多层线性模型简介 Introduction to HLM,北京师范大学心理学院 刘红云 ,主要内容,为什么要用多层线性模型? 回归分析模型回顾 多层(多水平)数据特点 什么是多层线性模型? HLM发展 HLM数学模型 HLM常见简化模型 两水平模型应用举例 应该注意的问题,回归分析模型,回归分析模型的假设,线性(Linearity) 误差正态分布( normally distributed) 误差方差齐性(homoskedastic) 误差或观测个体之间相互独立(independent),什么是多层(多水平)数据?,多层(多水平)数据指的是观测数据在单位上具有嵌套的关系。如学生嵌套于班级,班级

2、嵌套于学校等。 同一单位内的观测,具有更大的相似性。同一个班级的学生由于受相同的班级环境等因素的影响有更大的相似性。,嵌套于背景(contextual)特征的多层数据举例,学生水平特征的观测,嵌套于班级或学校 兄弟姊妹特征的观测,嵌套于家庭 个体之间的观测嵌套于社区 个体不同时间点的重复测量嵌套于个体 病人嵌套于医院 参数的估计嵌套于不同的研究 (元分析,meta-analysis),对多层数据,我们了解什么.,随机选取两个观测,同一组内的观测之间的相似性要比不同组观测之间的相似性大; 如果回归模型不能解释所有的组间的差异(事实上传统回归不可能做到这一点),那么同一组内的观测之间的误差可能相关

3、; 这就违背了传统回归(OLS)中关于残差相互独立的假设; 至少,传统回归分析得到的标准误的估计不正确(太小)。,HLM数据特点,对于嵌套数据,传统回归模型的做法: (1)个体(如学生)水平上分析 问题:同一班级的学生间相互独立的假设是不合理的,同样对不同班级的学生和相同班级的学生作同一假设也是不合理的。 (2)组(如学校)水平上分析 问题:丢失了班级内学生个体间的差异的信息。,HLM数据特点,对于嵌套数据,传统回归分析的假设往往无法满足。 传统的线性回归模型假设变量间存在直线关系,因变量总体上服从正态分布,方差齐性,个体间相互独立。前两个假设较易保证,但方差齐性,尤其是个体间相互独立的假设却

4、很难满足。,独立性不满足带来的问题,传统回归系数估计的标准误依赖于相互独立的假设; 如果独立性的假设不满足,得到的标准误的估计往往偏小,因此所犯第一类错误的概率往往偏大。,HLM数学模型,例如:对73个学校1905名学生进行调查,目的是考虑其刚上高中时的入学成绩与三年后高考成绩之间的关系。 考虑方法: (1)如果用传统的线性回归分析,直接在学生水平上进行分析,得出入学学业成绩对高考成绩之间的一条回归直线,如下图1所示,从图1的结果可以看出,传统回归分析没有区分不同的学校之间的差异。,图1:不考虑学校之间差异的回归直线,HLM数学模型,(2)如果将数据进行简单合并,用每个学校学生的平均成绩代替这

5、个学校的成绩,直接在学校水平上估计入学成绩对高考成绩的影响,得到一条回归直线,如图2所示,这种方法忽略了不同学生之间的差异;,图2:只考虑学校差异忽略学生差异回归直线,HLM数学模型,(3)如果假设不同学校入学成绩对高考成绩的回归直线截距不同,斜率相同(平均学习成绩之间存在差异),得到如图3的结果,从图中结果可以看出,不同学校学生平均高考成绩之间存在差异。,图3:考虑不同学校平均成绩差异的回归直线,HLM数学模型,(4)对73所学校分别做回归分析,得到如图4的结果,如图4所示,从图中结果可以看出,不同学校回归直线的截距和斜率均不同,即:不同学校学生平均高考成绩之间存在差异,入学学业成绩对高考成

6、绩的影响强度不同。,图4:考虑不同学校平均成绩差异 和入学对毕业成绩影响程度差异的回归直线,回归模型中,如何解决残差相关的问题?,希望定义一个模型,可以明确地允许因变量水平在组内和组间存在差异 例如,允许学生的学业成绩存在学校之间的差异,告别 OLS: 一个简单的多层线性模型,将 重写为:,一个简单的多层线性模型,一个简单的多层线性模型,Outcome for observation i in unit j,一个简单的多层线性模型,Outcome for observation i in unit j,Intercept,一个简单的多层线性模型,Outcome for observation

7、i in unit j,Intercept,Coefficient,Value of X for observation i in unit j,一个简单的多层线性模型,Outcome for observation i in unit j,Intercept,Coefficient,Value of X for observation i in unit j,Residual term specific to unit j,一个简单的多层线性模型,Outcome for observation i in unit j,Intercept,Coefficient,Value of X for

8、observation i in unit j,Residual term specific to unit j,Residual term specific to observation i in unit j,一个简单的多层线性模型,Outcome for observation i in unit j,Intercept,Coefficient,Value of X for observation i in unit j,Residual term specific to unit j,Residual term specific to observation i in unit j,u

9、j表示什么?,残差项 定义第 j 组(第二水平) 对于第 j组的所有观测都相同 只有下标 j, 没有下标 i 解释: 总截距和第 j组的截距之间的差异,rij表示什么?,残差项 定义第 j 组第i 个观测 均值为0,模型的特征,注意到: ij = uj + rij 我们有: Var(ij)= Var(uj + rij) = Var(uj) + Var(rij) + 2*Cov(uj,rij) = Var(uj) + Var(rij),模型的特征,Yij 的值可能存在第二水平(组间)的差异 对于 uj和 rij没有定义其分布. X 和 Y 之间的关系不依赖于 j (1 不依赖于 j),模型的另一

10、种表达,这里,多层线性模型,水平1(如:学生) 水平2(如:学校),Yij-第j个学校的第i个学生,何谓多层线性模型?,多层线性模型又称为: 多水平分析( Multilevel Analysis ) 混合模型(Mixed Models) 随机系数模型(Random Coefficient Models),HLM的发展,Harvey Goldstein-Multilevel Analysis ( Mlwin) Stephen W. Raudenbush-Hierarchical Linear Model (HLM),HLM的发展,模型理论构想阶段(Lindley Dempster(1981)将E

11、M算法应用于解决多层线性模型的参数估计 ; 1983年,Strenio、Weisberg和Bryk等相继将这一方法应用于社会学的研究;1986年Goldstein应用IRGLS估计参数,1987年,Longford应用费歇得分算法对模型参数进行了估计。,HLM的发展,快速发展与应用 HLM(Bryk,Randenbush,SeltzerCongdon,1988); Mlwin(Rabash,ProsserGoldstein,1989); VARCL(Longford,1988); MPLUS(Muthen,1992)。,多层线性模型,回归模型的一种 常用来回答背景变量(如班级环境等)与个体变量

12、(如学生特征)之间的关系 常用来估计组内(如班级内)和组间(如班级间)变量间的关系 以及跨水平的交互作用。 例如, 学校内和学校间自我概念和学业成绩之间的关系。,多层线性模型简介,多层线性模型一种处理嵌套数据的统计方法。通过定义不同水平(层)的模型,将随机变异分解为两个部分,其一是第一水平个体间差异带来的误差,另一个是第二水平班级的差异带来的误差。可以假设第一水平个体间的测量误差相互独立,第二水平班级带来的误差在不同班级之间相互独立。多水平分析法同时考虑到不同水平的变异 。,多层线性模型,多层分析方法提供了解决嵌套数据关系的合理的正确的统计方法。下面结合上面提到的例子,介绍两水平模型的一般数学

13、表示:,多层线性模型,水平1(如:学生) 水平2(如:学校),Yij-第j个学校的第i个学生,多层线性模型,合并模型: 其中:yij表示因变量(如三年后的高考成绩),xij表示第一水平(学生)的预测变量,Wj表示第二水平(学校)的预测变量。,多层线性模型,模型的假设条件为:,多层线性模型,截距与斜率之间的相关系数: 截距与斜率之间的相关系数大小表示了不同学校平均高考成绩与入学成绩对高考成绩影响强度之间的关系,如果相关系数大于零,表示平均成绩越高,入学成绩对期末成绩的影响越大。,HLM常用模型类型,随机效应一元方差分析模型(one-way Anova with Random Effect) 第一

14、水平: 第二水平: 合并模型:,HLM常用模型类型,无条件模型:模型中没任何预测变量的多层分析模型 模型表示与随机效应的方差分析模型相同。在无条件模型中: 上式的相关系数描述了水平2单位内个体之间的相关(intra level 2-unit correlation),它测量了学校之间方差占总方差的比例,或者说在总的变异中由水平二解释的方差的比例。,HLM常用模型类型,随机效应单因素协方差分析(One-way ANCOVA with Random Effects) 水平1: 水平2:,HLM常用模型类型,一般的线性回归模型 第一水平 : 第二水平:,HLM常用模型类型,随机系数回归模型(Rand

15、om-Coefficients Regression Model) 第一水平 : 第二水平:,HLM应用举例,hsb1.sav和hsb2.sav 在水平一的数据文件hsb1.sav中,有7185个观测样本和四个第一水平的变量(不包含第二水平指标变量:学校编号ID),这四个变量所表示的含义如下: minority,学生的种族(1=少数民族,0=其他) female:学生性别(1=女,0=男) ses:学生的社经地位,由学生父母受教育程度、职业和收入合成,变量已被标准化 mathach:学生的数学学业成绩,HLM应用举例,数据文件hsb2.sav中包含有160个学校,每个学校测量了六个学校水平的变

16、量(不包含学校指标变量ID)。 size:学校招生人数 sector:学校类型(1=天主教教会学校,0=公立学校) pracad:从事学术研究的学生的比例 disclim:学校纪律环境,由量表测量得到 himnty:学校招生少数民族学生比例描述(1=超过40%少数民族学生,0=其他) meanses:包含在水平1数据中,每个学校学生的平均社经地位,HLM应用举例,目的:分析影响学生数学成绩的学生水平变量和学校水平变量,个体水平模型,Yij = 0j + 1jX1ij + 2jX2ij + + KjXKij + rij,第 j 组第 I 个个体因变量的观测值,第 j个组的截距,第j 组 X1 对

17、应的斜率,第j 组 X2 对应的斜率,第j 组 XK 对应的斜率,背景(Contextual)模型,Yij = 0j + 1jX1ij + 2jX2ij + + KjXKij + rij 0j = 00 1j = 10 2j = 20 Kj = K0,在传统回归(OLS)模型中,截距和斜率都是固定的,即对不同的第二水平单元均相同,背景(Contextual)影响问题,第二水平不同单元(如不同学校),截距是否相同? 能否用第二水平的协变量预测截距之间的差异? 斜率是否存在第二水平的变异? 能否用第二水平的预测变量解释斜率之间的差异?,截距是否存在第二水平的变异?,Yij = 0j + 1jX1i

18、j + 2jX2ij + + KjXKij + rij 0j = 00 + u0j 1j = 10 2j = 20 Kj = K0,In the random effects model, the intercept varies around some grand mean intercept (00), and the slopes are fixed they are the same in all units,Test H0: Var(u0j) = 0,可否用第二水平的预测变量解释截距之间的差异?,Yij = 0j + 1jX1ij + 2jX2ij + + KjXKij + rij

19、0j = 00 + 01Z1 + 02Z2 + + 0MZM + u0j 1j = 10 2j = 20 Kj = K0,Here, the Zms predict the intercept.,Test H0: 0m = 0,斜率是否存在第二水平的变异?,Yij = 0j + 1jX1ij + 2jX2ij + + KjXKij + rij 0j = 00 + u0j 1j = 10 + u1j 2j = 20 + u2j Kj = K0 + uKj,The intercept and each of the slopes varies around their grand means (t

20、he k0s),Test H0: Var(ukj) = 0,能否用第二水平的预测变量解释斜率间的差异?,Yij = 0j + 1jX1ij + 2jX2ij + + KjXKij + rij 0j = 00 + 01Z1 + 02Z2 + + 0MZM + u0j 1j = 10 + 11Z1 + 12Z2 + + 1MZM + u1j 2j = 20 + 21Z1 + 22Z2 + + 2MZM + u2j Kj = K0 + K1Z1 + K2Z2 + + KMZM + uKj,Here, the Zms predict the slopes.,Test H0: km = 0,无条件模型,

21、无条件模型参数估计结果,Final estimation of variance components: - Random Effect Standard Variance df Chi-square P-value Deviation Component - INTRCPT1, 2.93501 8.61431 159 1660.23259 0.000 level-1, R 6.25686 39.14831 -,含有第一水平预测变量的HLM模型(随机系数模型),随机系数模型参数估计结果,Final estimation of fixed effects (with robust standar

22、d errors) - Standard Approx. Fixed Effect Coefficient Error T-ratio d.f. P-value - For INTRCPT1, B0 INTRCPT2, G00 12.664935 0.189251 66.921 159 0.000 For SES slope, B1 INTRCPT2, G10 2.393878 0.117697 20.339 159 0.000 -,Final estimation of variance components: - Random Effect Standard Variance df Chi-square P-value Deviation Component - INTRCPT1, U0 2.19768 4.82978 159 905.26472 0.000 SES slope, U1 0.64675 0.41828 159 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论