spss多水平模型简介PPT课件.ppt_第1页
spss多水平模型简介PPT课件.ppt_第2页
spss多水平模型简介PPT课件.ppt_第3页
spss多水平模型简介PPT课件.ppt_第4页
spss多水平模型简介PPT课件.ppt_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多水平模型简介 四川大学华西公共卫生学院卫生统计学教研室李晓松 1 概述层次结构数据的普遍性经典方法及其局限性基本多水平模型多水平模型的应用 2 概述 80年代中后期 英美等国教育统计学家开始探讨分析层次结构数据 hierarchicallystructureddata 的统计方法 并相继提出不同的模型理论和算法 多水平模型 multilevelmodels 最先应用于教育学领域 后用于心理学 社会学 经济学 组织行为与管理科学等领域 逐步应用到医学及公共卫生等领域 3 HarveyGoldstein UK UniversityofLondon InstituteofEducation MultilevelModelsinEducationalandSocialResearch 1987 4 AnthonyBryk UniversityofChicagoStephenRaudenbush MichiganStateUniversity DepartmentofEducationalPsychology HierarchicalLinearModels ApplicationsandDataAnalysisMethods 1992 5 NicholasLongford PrincetonUniversity EducationTestingService RandomCoefficientModels 1993 6 多水平主成分分析多水平因子分析多水平判别分析多水平logistic回归多水平Cox模型多水平Poisson回归多水平时间序列分析多元多水平模型多水平结构方程模型 7 ML3 1994 MLN 1996 MLwiN 1999 HLM HierarchicalLinearModel SAS Mixed SPSS HLM STATA MLwiN 8 两水平层次结构数据 水平2 水平1 层次结构数据的普遍性 9 水平 level 指数据层次结构中的某一层次 例如 子女为低水平即水平1 家庭为高水平即水平2 单位 unit 指数据层次结构中某水平上的一个实体 例如 每个子女是一个水平1单位 每个家庭是一个水平2单位 10 临床试验和动物实验的重复测量多中心临床试验研究纵向观测如儿童生长发育研究流行病学现场调查如整群抽样调查遗传学家系调查资料meta分析资料 11 层次结构数据为一种非独立数据 即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立 其大小常用组内相关 intra classcorrelation ICC 度量 例如 来自同一家庭的子女 其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似 即子女特征在家庭中具有相似性或聚集性 clustering 数据是非独立的 nonindependent 12 非独立数据不满足经典方法的独立性条件 采用经典方法可能失去参数估计的有效性并导致不合理的推断结论 但非独立数据的组内相关结构各异 理论上 不同的结构应采用相应的统计方法 如纵向观测数据常用广义估计方程 GEE 但有两个局限性 一是对误差方差的分解仅局限于2水平的情形 二是没有考虑解释变量对误差方差的影响 当应变量的协差阵为分块对角阵时 一般采用多水平模型 13 经典方法框架下的分析策略经典的线性模型只对某一层数据的问题进行分析 而不能将涉及两层或多层数据的问题进行综合分析 但有时某个现象既受到水平1变量的影响 又受到水平2变量的影响 还受到两个水平变量的交互影响 cross levelinteraction 14 个体的某事件既受到其自身特征的影响 也受到其生活环境的影响 即既有个体效应 也有环境或背景效应 contexteffect 例如 个体发生某种牙病的危险可能与个体的遗传倾向 个体所属的社会阶层 如饮食文化和口腔卫生习惯 环境因素 如饮水中氟浓度 等有关 15 分解 disaggregation 聚合 aggregation 组内 组间分析 within betweenanalysis 16 分解 不满足模型独立常方差的基本假定 回归系数及其标准误的估计无效 且未能区分个体效应与背景效应 一种分析策略是用哑变量拟合高水平单位的固定效应 聚合 损失大量水平1单位的信息 更严重的是可能导致 生态学谬误 ecologicalfallacy 17 组内 组间分析 每个水平2单位内进行分析 计算组内相关 组内效应 通过平均或整合得到每个水平2单位的数据 计算组间相关 组间效应 忽略水平2的存在 在水平1上进行分析 计算水平1单位间的相关 总效应 组内相关系数 intra classcorrelation ICC 被当作是总结多层次数据内部相关的最终统计量 但并没有对误差方差进行解释 18 多水平分析的概念为人们提供了这样一个框架 即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析 从而实现研究的事物与其所在背景的统一 19 经典模型的基本假定是单一水平和单一的随机误差项 并假定随机误差项独立 服从方差为常量的正态分布 代表不能用模型解释的残留的随机成份 基本的多水平模型 20 当数据存在层次结构时 随机误差项则不满足独立常方差的假定 模型的误差项不仅包含了模型不能解释的反应变量的残差成份 也包含了高水平单位自身对反应变量的效应成份 21 多水平模型将单一的随机误差项分解到与数据层次结构相应的各水平上 具有多个随机误差项并估计相应的残差方差及协方差 构建与数据层次结构相适应的复杂误差结构 这是多水平模型区别于经典模型的最主要特征 22 多水平模型由固定与随机两部分构成 与一般的混合效应模型的不同之处在于 其随机部分可以包含解释变量 故又称为随机系数模型 randomcoefficientmodel 其组内相关也可为解释变量的函数 换言之 多水平模型可对不同水平上的误差方差进行深入和精细的分析 23 1 方差成份模型 VarianceComponentModel 假定一个两水平的层次结构数据 医院为水平2单位 患者为水平1单位 医院为相应总体的随机样本 模型中仅有一个解释变量x 24 和分别为第j个医院中第i个患者的反应变量观测值和解释变量观测值 和为参数估计 为通常的随机误差项 示水平2单位 示水平1单位 25 与经典模型的区别在于 经典模型中的估计为 仅一个估计值 表示固定的截距 而在方差成份模型中为随机变量 可估计j个截距值 表示当x取0时 第j个医院在基线水平时y的平均估计值 26 为平均截距 反映与的平均关系 即当x取0时 所有y的总平均估计值 亦为随机变量 表示第j个医院y之平均估计值与总均数的离差值 反映了第j个医院对y的随机效应 27 表示协变量x的固定效应估计值 即y与协变量x的关系在各医院间是相同的 每个医院间y的变异与协变量x的变化无关 28 方差成份模型拟合j条平行的回归线 截距不同 斜率相同 它将医院的参数估计作为随机变量 并估计其随机效应 提供了这些医院所代表的医院总体特征的信息 29 对医院水平残差的假定 对患者水平残差的假定与传统模型一致 水平1上的残差与水平2上的残差相互独立 30 反应变量可表达为固定部分与随机部分之和 模型具有两个残差项 这是多水平模型区别于经典模型的关键部分 即水平2残差 随机效应 又称潜变量 latentvariable 31 此模型需估计4个参数 除两个固定系数和 还需估计两个随机参数和 其中即为医院水平的方差成份 为患者水平的方差成份 32 组内相关的度量 方差成份模型中 反应变量方差为 33 此即水平2和水平1方差之和 同一医院中两个患者 用i1 i2表示 间的协方差为 34 组内相关 intra classcorrelation ICC 35 测量了医院间方差占总方差的比例 实际上它反映了医院内个体间相关 即水平1单位 患者 在水平2单位 医院 中的聚集性或相似性 36 由于模型不止一个残差项 就产生了非零的单位内相关 若为0 表明数据不具层次结构 可忽略医院的存在 即简化为传统的单水平模型 反之 若存在非零的 则不能忽略医院的存在 37 水平2单位中的水平1单位间存在相关 通常的 普通最小二乘法 OrdinaryLeastSquaresOLS 进行参数估计是不适宜的 38 进一步 如数据具三个水平的层次结构 如医院 医生和患者三个水平 则将有两个这样的相关系数 即反映医院之间方差比例的医院内相关 反映医生之间方差比例的医生内相关 39 随机系数模型是指协变量的系数估计不是固定的而是随机的 即协变量对反应变量的效应在不同的水平2单位间是不同的 仍以医院与患者两水平数据结构说明随机系数模型基本结构与假设 随机系数模型 RandomCoefficientModel 40 与方差成份模型的区别在于 41 方差成份模型中协变量的系数估计为固定的 示协变量对反应变量的效应是固定不变的 在随机系数模型中协变量的系数估计为 示每个医院都有其自身的斜率估计 表明协变量对反应变量的效应在各个医院间是不同的 42 的假定及其含义与方差成份模型一致 现为随机变量 假定 43 表示第j个医院的y随x变化的斜率 表示全部医院的y随x变化的斜率的平均值 平均斜率 是指各医院的y随x变化的斜率的方差 44 示第j个医院的斜率与平均斜率的离差值 指上述截距与斜率离差值的协方差 反映了它们之间的相关关系 45 即表达为固定部分与随机部分之和 其中 固定效应用均数描述 它决定了全部医院的平均回归线 这条直线的截距即平均截距 直线的斜率即平均斜率 为随机系数 将模型改记为 46 随机效应用方差描述 它反映了各医院之间y的变异与协变量x的关系 模型随机部分具多个残差项 需估计4个随机参数 即方差 和以及协方差 47 2020 2 7 48 模型的反应变量方差为 表明各医院间y的变异与协变量x有关 即每条回归线不仅截距不同 且斜率也不同 当x取0时每个医院y的平均估计值不同 且每个医院y随x变化的斜率不同 49 组内相关与解释变量有关 50 为使模型中每个系数都有一个相应的解释变量 可对截距及其残差定义一个解释变量 取值为1 为简化模型 常省略该解释变量 51 下面是包括随机系数的一般形式的两水平模型 即将模型扩展为纳入其它固定部分解释变量的形式 52 这里 对模型随机部分采用了新的解释变量 实际上 值得指出 模型随机部分的解释变量常为其固定部分的一个子集 但亦可以不是 即可以在任何水平上测量固定部分或随机部分的解释变量 53 反应变量向量的协方差结构 从最基本的两水平数据结构来考察反应变量向量的协方差结构 即只包括随机参数和 对应于方差成份模型 反应变量方差为水平1和水平2方差之和 54 同一个医院所诊疗的两个患者 用 表示 间的协方差为 55 以下矩阵表示同一个医院所诊疗的三名患者的协差阵 56 对两个医院而言 若一个医院诊疗了三名患者 另一个医院诊疗了两个患者 则具有2个水平2单位的反应变量向量Y总的协差阵可表达为 57 58 矩阵的这种分块对角结构表达了不同医院所诊疗的患者间的协方差为0 它可进一步扩展到任意多的医院数 将上述矩阵表达为另一种更简略的形式 59 为维的1矩阵 为维的单位阵 的下标2表明为两水平模型 的维数即水平2单位数 主对角线块的维数即水平1单位数 它们均为方阵 在传统OLS估计中 为0 则该协差阵退化为标准形式的 即残差方差 60 考察包括随机系数的一般形式的两水平模型 或简记为 61 对于具有随机截距与斜率的两水平模型 其反应变量协差阵具有以下典型的分块结构 62 矩阵为水平2的随机截距与斜率的协差阵 即随机系数协差阵 矩阵为水平1的随机系数协差阵 这里 水平1只有一个单一的方差项 可进一步采用表示这些协差阵集 将上述矩阵展开得到 63 这是具有分块结构的一个具有2个水平1单位的水平2单位的反应变量协差阵 此即构造反应变量协差阵的一般模式 它同时也概括了拟合水平1复杂变异的可能性 64 固定与随机参数估计 固定和随机参数的估计方法一般采用 迭代广义最小二乘算法 IterativeGeneralizedLeastSquares IGLS Goldstein 1986 或 限制性迭代广义最小二乘法 RestrictedIterativeGeneralizedLeastSquares RIGLS Goldstein 1989 65 现以最基本的两水平方差成份模型来阐明固定与随机参数估计的基本思想和步骤 66 67 假定已知方差的值 则可直接构造分块对角阵 简记为 直接采用通常的广义最小二乘法 GeneralizedLeastSquaresGLS 可获得固定系数的估计 68 在初始阶段 假定为0 即假定数据不具有系统结构 则给出固定系数通常的OLS估计 得到粗残差 69 将粗残差向量记为 将粗残差向量形成交叉乘积矩阵 然后再形成交叉乘积矩阵的向量化算子 记为 相应的 也可以形成反应变量协方差阵向量化算子 记为 70 对应于2个医院 一个诊疗3名患者 另一个诊疗2名患者 则和均具有32 22 13个元素 因为的期望为 可将这些向量间关系表达为以下线性模型 71 R R 72 这里 为一个残差向量 将粗残差作为模型的反应变量向量 模型右边包含两个已知的解释变量 其系数即待估计的随机参数和 通过GLS方法获得和的估计 回到初始模型则获得固定系数新的估计 在随机与固定参数估计间反复迭代直至收敛 此即IGLS算法的基础 73 1 重复测量数据的多水平模型当同一研究对象被重复测量多次时 测量点即为水平1单位 测量点又嵌套 nested 进作为水平2单位的个体 这种数据结构具有典型的层次结构特征 多水平模型的应用 74 在临床试验和动物实验中 常需对患者或动物的某些指标进行重复测量 以了解不同时间观测指标的变化以及处理因素与观测指标的相互关系 在生长发育研究中 也需对个体生长或发育指标作多时点的重复测量 75 常规使用的重复测量数据统计方法 一般要求资料是平衡的 即每一个体有相同次数的重复测量值 这对于实验研究是可行的 但在生长发育研究中 测量常常是不规则的 这就出现了个体测量时点多少不一 时间间隔不等以及观测值缺失等问题 它增加了传统统计方法拟合个体生长曲线的难度 并引起估计结果不同程度的偏差 76 多水平模型技术可有效和方便地处理此类测量模式的数据 提供统计上有效的参数估计 并具有如下几个特点 77 1 考虑了分布于不同的层次重复测量误差 并给出相应的误差估计值 2 拟合个体生长曲线时不要求相等的时间间隔 在拟合个体生长曲线的同时也估计全部样本的平均曲线 78 3 不要求每个个体都有同样多的测量点 即缺失测量点并不增加拟合生长曲线的难度 4 便于在生长曲线中引入其它解释变量 如性别 营养状况和地区等 分析其对生长过程的影响 79 2 Meta分析是指对具有相同研究假设的多项独立研究结果所进行的合并分析 在合并不同来源的研究资料时可能引入异杂方差 heterogeneousvariance 因此 其数据可看成具有两个水平的层次结构 即研究水平与观察对象水平 80 Meta分析的主要目的是为了得到比单一研究更精确的结果估计 进一步的目的则是分析影响研究结果间差异的因素 目前 Meta分析主要根据研究的 效应尺度 的齐性检验结果 而决定采用固定效应模型或随机效应模型来合并每项研究的 效应尺度 采用多水平模型可较为方便地分析影响研究结果间差异的因素如研究水平上的有关协变量包括样本含量 设计类型等 81 3 离散数据的多水平模型在流行病学现场调查研究中 流行病学家常对发病率 患病率或死亡率以及它们在地区之间的变异感兴趣 这里的两水平结构是 个体为水平1 地区为水平2 82 此类研究常常拥有若干地区某时期的死亡记录和死者个人特征以及地区特征如人口构成或社会经济特征等 研究者可以分析这些解释变量是否能够解释死亡率在地区之间的变异 也可以分析死亡率的差别 比如男性和女性之间 是否在地区之间不同等 83 如一项有关孕妇死亡率与孕妇吸烟关系的研究 首先 孕妇可能嵌套在不同的医疗机构和社区中 社区和医疗机构的特征可能影响死亡率以及死亡率与吸烟之间的联系 其次 如果能够获得有关孕妇吸烟的一系列测量 可采用重复测量两水平模型 研究吸烟的改变怎样影响到死亡率的改变 以及更详细地探讨它们之间可能的因果联系 84 4 多变量多水平模型 在医学研究中 研究者常对个体作几种测量 即测量几个指标 如收缩压 舒张压和心率 如果将它们作为反应变量一起进行分析 就可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论