spss多水平模型简介PPT课件.ppt

上传人：优*** IP属地：广东上传时间：2020-02-07 格式：PPT 页数：95 大小：813.50KB 积分：68 举报 版权申诉

已阅读5页，还剩90页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多水平模型简介四川大学华西公共卫生学院卫生统计学教研室李晓松 1 概述层次结构数据的普遍性经典方法及其局限性基本多水平模型多水平模型的应用 2 概述 80年代中后期英美等国教育统计学家开始探讨分析层次结构数据 hierarchicallystructureddata 的统计方法并相继提出不同的模型理论和算法多水平模型 multilevelmodels 最先应用于教育学领域后用于心理学社会学经济学组织行为与管理科学等领域逐步应用到医学及公共卫生等领域 3 HarveyGoldstein UK UniversityofLondon InstituteofEducation MultilevelModelsinEducationalandSocialResearch 1987 4 AnthonyBryk UniversityofChicagoStephenRaudenbush MichiganStateUniversity DepartmentofEducationalPsychology HierarchicalLinearModels ApplicationsandDataAnalysisMethods 1992 5 NicholasLongford PrincetonUniversity EducationTestingService RandomCoefficientModels 1993 6 多水平主成分分析多水平因子分析多水平判别分析多水平logistic回归多水平Cox模型多水平Poisson回归多水平时间序列分析多元多水平模型多水平结构方程模型 7 ML3 1994 MLN 1996 MLwiN 1999 HLM HierarchicalLinearModel SAS Mixed SPSS HLM STATA MLwiN 8 两水平层次结构数据水平2 水平1 层次结构数据的普遍性 9 水平 level 指数据层次结构中的某一层次例如子女为低水平即水平1 家庭为高水平即水平2 单位 unit 指数据层次结构中某水平上的一个实体例如每个子女是一个水平1单位每个家庭是一个水平2单位 10 临床试验和动物实验的重复测量多中心临床试验研究纵向观测如儿童生长发育研究流行病学现场调查如整群抽样调查遗传学家系调查资料meta分析资料 11 层次结构数据为一种非独立数据即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立其大小常用组内相关 intra classcorrelation ICC 度量例如来自同一家庭的子女其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似即子女特征在家庭中具有相似性或聚集性 clustering 数据是非独立的 nonindependent 12 非独立数据不满足经典方法的独立性条件采用经典方法可能失去参数估计的有效性并导致不合理的推断结论但非独立数据的组内相关结构各异理论上不同的结构应采用相应的统计方法如纵向观测数据常用广义估计方程 GEE 但有两个局限性一是对误差方差的分解仅局限于2水平的情形二是没有考虑解释变量对误差方差的影响当应变量的协差阵为分块对角阵时一般采用多水平模型 13 经典方法框架下的分析策略经典的线性模型只对某一层数据的问题进行分析而不能将涉及两层或多层数据的问题进行综合分析但有时某个现象既受到水平1变量的影响又受到水平2变量的影响还受到两个水平变量的交互影响 cross levelinteraction 14 个体的某事件既受到其自身特征的影响也受到其生活环境的影响即既有个体效应也有环境或背景效应 contexteffect 例如个体发生某种牙病的危险可能与个体的遗传倾向个体所属的社会阶层如饮食文化和口腔卫生习惯环境因素如饮水中氟浓度等有关 15 分解 disaggregation 聚合 aggregation 组内组间分析 within betweenanalysis 16 分解不满足模型独立常方差的基本假定回归系数及其标准误的估计无效且未能区分个体效应与背景效应一种分析策略是用哑变量拟合高水平单位的固定效应聚合损失大量水平1单位的信息更严重的是可能导致生态学谬误 ecologicalfallacy 17 组内组间分析每个水平2单位内进行分析计算组内相关组内效应通过平均或整合得到每个水平2单位的数据计算组间相关组间效应忽略水平2的存在在水平1上进行分析计算水平1单位间的相关总效应组内相关系数 intra classcorrelation ICC 被当作是总结多层次数据内部相关的最终统计量但并没有对误差方差进行解释 18 多水平分析的概念为人们提供了这样一个框架即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析从而实现研究的事物与其所在背景的统一 19 经典模型的基本假定是单一水平和单一的随机误差项并假定随机误差项独立服从方差为常量的正态分布代表不能用模型解释的残留的随机成份基本的多水平模型 20 当数据存在层次结构时随机误差项则不满足独立常方差的假定模型的误差项不仅包含了模型不能解释的反应变量的残差成份也包含了高水平单位自身对反应变量的效应成份 21 多水平模型将单一的随机误差项分解到与数据层次结构相应的各水平上具有多个随机误差项并估计相应的残差方差及协方差构建与数据层次结构相适应的复杂误差结构这是多水平模型区别于经典模型的最主要特征 22 多水平模型由固定与随机两部分构成与一般的混合效应模型的不同之处在于其随机部分可以包含解释变量故又称为随机系数模型 randomcoefficientmodel 其组内相关也可为解释变量的函数换言之多水平模型可对不同水平上的误差方差进行深入和精细的分析 23 1 方差成份模型 VarianceComponentModel 假定一个两水平的层次结构数据医院为水平2单位患者为水平1单位医院为相应总体的随机样本模型中仅有一个解释变量x 24 和分别为第j个医院中第i个患者的反应变量观测值和解释变量观测值和为参数估计为通常的随机误差项示水平2单位示水平1单位 25 与经典模型的区别在于经典模型中的估计为仅一个估计值表示固定的截距而在方差成份模型中为随机变量可估计j个截距值表示当x取0时第j个医院在基线水平时y的平均估计值 26 为平均截距反映与的平均关系即当x取0时所有y的总平均估计值亦为随机变量表示第j个医院y之平均估计值与总均数的离差值反映了第j个医院对y的随机效应 27 表示协变量x的固定效应估计值即y与协变量x的关系在各医院间是相同的每个医院间y的变异与协变量x的变化无关 28 方差成份模型拟合j条平行的回归线截距不同斜率相同它将医院的参数估计作为随机变量并估计其随机效应提供了这些医院所代表的医院总体特征的信息 29 对医院水平残差的假定对患者水平残差的假定与传统模型一致水平1上的残差与水平2上的残差相互独立 30 反应变量可表达为固定部分与随机部分之和模型具有两个残差项这是多水平模型区别于经典模型的关键部分即水平2残差随机效应又称潜变量 latentvariable 31 此模型需估计4个参数除两个固定系数和还需估计两个随机参数和其中即为医院水平的方差成份为患者水平的方差成份 32 组内相关的度量方差成份模型中反应变量方差为 33 此即水平2和水平1方差之和同一医院中两个患者用i1 i2表示间的协方差为 34 组内相关 intra classcorrelation ICC 35 测量了医院间方差占总方差的比例实际上它反映了医院内个体间相关即水平1单位患者在水平2单位医院中的聚集性或相似性 36 由于模型不止一个残差项就产生了非零的单位内相关若为0 表明数据不具层次结构可忽略医院的存在即简化为传统的单水平模型反之若存在非零的则不能忽略医院的存在 37 水平2单位中的水平1单位间存在相关通常的普通最小二乘法 OrdinaryLeastSquaresOLS 进行参数估计是不适宜的 38 进一步如数据具三个水平的层次结构如医院医生和患者三个水平则将有两个这样的相关系数即反映医院之间方差比例的医院内相关反映医生之间方差比例的医生内相关 39 随机系数模型是指协变量的系数估计不是固定的而是随机的即协变量对反应变量的效应在不同的水平2单位间是不同的仍以医院与患者两水平数据结构说明随机系数模型基本结构与假设随机系数模型 RandomCoefficientModel 40 与方差成份模型的区别在于 41 方差成份模型中协变量的系数估计为固定的示协变量对反应变量的效应是固定不变的在随机系数模型中协变量的系数估计为示每个医院都有其自身的斜率估计表明协变量对反应变量的效应在各个医院间是不同的 42 的假定及其含义与方差成份模型一致现为随机变量假定 43 表示第j个医院的y随x变化的斜率表示全部医院的y随x变化的斜率的平均值平均斜率是指各医院的y随x变化的斜率的方差 44 示第j个医院的斜率与平均斜率的离差值指上述截距与斜率离差值的协方差反映了它们之间的相关关系 45 即表达为固定部分与随机部分之和其中固定效应用均数描述它决定了全部医院的平均回归线这条直线的截距即平均截距直线的斜率即平均斜率为随机系数将模型改记为 46 随机效应用方差描述它反映了各医院之间y的变异与协变量x的关系模型随机部分具多个残差项需估计4个随机参数即方差和以及协方差 47 2020 2 7 48 模型的反应变量方差为表明各医院间y的变异与协变量x有关即每条回归线不仅截距不同且斜率也不同当x取0时每个医院y的平均估计值不同且每个医院y随x变化的斜率不同 49 组内相关与解释变量有关 50 为使模型中每个系数都有一个相应的解释变量可对截距及其残差定义一个解释变量取值为1 为简化模型常省略该解释变量 51 下面是包括随机系数的一般形式的两水平模型即将模型扩展为纳入其它固定部分解释变量的形式 52 这里对模型随机部分采用了新的解释变量实际上值得指出模型随机部分的解释变量常为其固定部分的一个子集但亦可以不是即可以在任何水平上测量固定部分或随机部分的解释变量 53 反应变量向量的协方差结构从最基本的两水平数据结构来考察反应变量向量的协方差结构即只包括随机参数和对应于方差成份模型反应变量方差为水平1和水平2方差之和 54 同一个医院所诊疗的两个患者用表示间的协方差为 55 以下矩阵表示同一个医院所诊疗的三名患者的协差阵 56 对两个医院而言若一个医院诊疗了三名患者另一个医院诊疗了两个患者则具有2个水平2单位的反应变量向量Y总的协差阵可表达为 57 58 矩阵的这种分块对角结构表达了不同医院所诊疗的患者间的协方差为0 它可进一步扩展到任意多的医院数将上述矩阵表达为另一种更简略的形式 59 为维的1矩阵为维的单位阵的下标2表明为两水平模型的维数即水平2单位数主对角线块的维数即水平1单位数它们均为方阵在传统OLS估计中为0 则该协差阵退化为标准形式的即残差方差 60 考察包括随机系数的一般形式的两水平模型或简记为 61 对于具有随机截距与斜率的两水平模型其反应变量协差阵具有以下典型的分块结构 62 矩阵为水平2的随机截距与斜率的协差阵即随机系数协差阵矩阵为水平1的随机系数协差阵这里水平1只有一个单一的方差项可进一步采用表示这些协差阵集将上述矩阵展开得到 63 这是具有分块结构的一个具有2个水平1单位的水平2单位的反应变量协差阵此即构造反应变量协差阵的一般模式它同时也概括了拟合水平1复杂变异的可能性 64 固定与随机参数估计固定和随机参数的估计方法一般采用迭代广义最小二乘算法 IterativeGeneralizedLeastSquares IGLS Goldstein 1986 或限制性迭代广义最小二乘法 RestrictedIterativeGeneralizedLeastSquares RIGLS Goldstein 1989 65 现以最基本的两水平方差成份模型来阐明固定与随机参数估计的基本思想和步骤 66 67 假定已知方差的值则可直接构造分块对角阵简记为直接采用通常的广义最小二乘法 GeneralizedLeastSquaresGLS 可获得固定系数的估计 68 在初始阶段假定为0 即假定数据不具有系统结构则给出固定系数通常的OLS估计得到粗残差 69 将粗残差向量记为将粗残差向量形成交叉乘积矩阵然后再形成交叉乘积矩阵的向量化算子记为相应的也可以形成反应变量协方差阵向量化算子记为 70 对应于2个医院一个诊疗3名患者另一个诊疗2名患者则和均具有32 22 13个元素因为的期望为可将这些向量间关系表达为以下线性模型 71 R R 72 这里为一个残差向量将粗残差作为模型的反应变量向量模型右边包含两个已知的解释变量其系数即待估计的随机参数和通过GLS方法获得和的估计回到初始模型则获得固定系数新的估计在随机与固定参数估计间反复迭代直至收敛此即IGLS算法的基础 73 1 重复测量数据的多水平模型当同一研究对象被重复测量多次时测量点即为水平1单位测量点又嵌套 nested 进作为水平2单位的个体这种数据结构具有典型的层次结构特征多水平模型的应用 74 在临床试验和动物实验中常需对患者或动物的某些指标进行重复测量以了解不同时间观测指标的变化以及处理因素与观测指标的相互关系在生长发育研究中也需对个体生长或发育指标作多时点的重复测量 75 常规使用的重复测量数据统计方法一般要求资料是平衡的即每一个体有相同次数的重复测量值这对于实验研究是可行的但在生长发育研究中测量常常是不规则的这就出现了个体测量时点多少不一时间间隔不等以及观测值缺失等问题它增加了传统统计方法拟合个体生长曲线的难度并引起估计结果不同程度的偏差 76 多水平模型技术可有效和方便地处理此类测量模式的数据提供统计上有效的参数估计并具有如下几个特点 77 1 考虑了分布于不同的层次重复测量误差并给出相应的误差估计值 2 拟合个体生长曲线时不要求相等的时间间隔在拟合个体生长曲线的同时也估计全部样本的平均曲线 78 3 不要求每个个体都有同样多的测量点即缺失测量点并不增加拟合生长曲线的难度 4 便于在生长曲线中引入其它解释变量如性别营养状况和地区等分析其对生长过程的影响 79 2 Meta分析是指对具有相同研究假设的多项独立研究结果所进行的合并分析在合并不同来源的研究资料时可能引入异杂方差 heterogeneousvariance 因此其数据可看成具有两个水平的层次结构即研究水平与观察对象水平 80 Meta分析的主要目的是为了得到比单一研究更精确的结果估计进一步的目的则是分析影响研究结果间差异的因素目前 Meta分析主要根据研究的效应尺度的齐性检验结果而决定采用固定效应模型或随机效应模型来合并每项研究的效应尺度采用多水平模型可较为方便地分析影响研究结果间差异的因素如研究水平上的有关协变量包括样本含量设计类型等 81 3 离散数据的多水平模型在流行病学现场调查研究中流行病学家常对发病率患病率或死亡率以及它们在地区之间的变异感兴趣这里的两水平结构是个体为水平1 地区为水平2 82 此类研究常常拥有若干地区某时期的死亡记录和死者个人特征以及地区特征如人口构成或社会经济特征等研究者可以分析这些解释变量是否能够解释死亡率在地区之间的变异也可以分析死亡率的差别比如男性和女性之间是否在地区之间不同等 83 如一项有关孕妇死亡率与孕妇吸烟关系的研究首先孕妇可能嵌套在不同的医疗机构和社区中社区和医疗机构的特征可能影响死亡率以及死亡率与吸烟之间的联系其次如果能够获得有关孕妇吸烟的一系列测量可采用重复测量两水平模型研究吸烟的改变怎样影响到死亡率的改变以及更详细地探讨它们之间可能的因果联系 84 4 多变量多水平模型在医学研究中研究者常对个体作几种测量即测量几个指标如收缩压舒张压和心率如果将它们作为反应变量一起进行分析就可以

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

spss多水平模型简介PPT课件.ppt

文档简介

温馨提示

最新文档

评论

spss多水平模型简介PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档