多层统计分析模型课件_第1页
多层统计分析模型课件_第2页
多层统计分析模型课件_第3页
多层统计分析模型课件_第4页
多层统计分析模型课件_第5页
已阅读5页,还剩135页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多层统计分析模型陶庄中国CDC卫生统计研究室多层统计分析模型陶庄1绪论绪论2青蛙与池塘(“Frog-pondtheory”)青蛙—学生个体;池塘—学校环境;学生的成绩好坏不仅受到个体本身的影响,也受到学校环境的影响!青蛙与池塘(“Frog-pondtheory”)青蛙—学生3多层数据低一层(低水平)单位(个体)的数据嵌套(nested)于高一层(高水平)的单位(组群)之中。结局变量,个体解释变量,场景变量(contextualvariables)多层数据低一层(低水平)单位(个体)的数据嵌套(nested4组内观察相关

(within-groupobservationdependence)同一组内的个体,较不同组的个体而言,在观念、行为等很多方面更为接近或相似;即便不是刻意分组,也是如此。组内同质(within-grouphomogeneity),组间异质(between-groupheterogeneity)很小的相关将导致很大的I类错误。组内观察相关

(within-groupobservati5多层数据的常见来源复杂抽样;多中心临床试验;纵向研究(longitudinalstudies)与重复测量(repeatedmeasures);“高低搭配”;Meta分析;……多层数据的常见来源复杂抽样;6多层统计模型的研究内容哪些个体解释变量会影响结局变量;哪些场景变量会影响结局变量;个体解释变量对结局变量的影响是否会受到场景变量的影响。多层统计模型的研究内容哪些个体解释变量会影响结局变量;7多层统计模型出现前对多层数据进行分析的探索多层统计模型出现前对多层数据进行分析的探索8探索(1)—分别估计在个体水平和组群水平分别进行分析;试图用单一的个体水平模型的分析结果来推论另一水平的统计结果。探索(1)—分别估计在个体水平和组群水平分别进行分析;9探索(2)—传统回归用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层(cross-level)交互作用。探索(2)—传统回归用传统的固定效应回归模型中一般的交互项理10探索(3)—两步模型

(two-stagemodel)第一步模型,对各组分别进行同一回归模型估计,获得一系列的系数;对这些系数的恒定性进行检验;如果不恒定,则进行第二步模型,以组变量为因变量,系数为自变量进行回归。探索(3)—两步模型

(two-stagemodel)第一11探索(3)—两步模型的问题无论哪一步均使用OLS,并不适用;当组群过多,则十分麻烦;某些组内样本量很少时,进行回归不稳定;将每个组群认为是不相关的,忽略了其为从一大样本中抽取的事实。探索(3)—两步模型的问题无论哪一步均使用OLS,并不适用;12多层统计模型的出现研究的学者很多;系统的主要为两;研究的理论没有根本上的分歧;双方研究成果的发布时间基本相同(上世纪80年代末90年代初);分别有各自分析的成熟的软件;目前,大家基本上接受两组人分别独立开发出同一模型的结果。多层统计模型的出现研究的学者很多;13S.Raudenbush与A.Bryk模型称为:hierarchicallinearmodel;软件为:HLMS.Raudenbush与A.Bryk模型称为:hier14H.Goldstein模型称为:multilevelmodels;软件为:MLwiN(早期版本称ML3,MLn)H.Goldstein模型称为:multilevelmo15多层统计模型的名称multilevelmodelshierarchicallinearmodelrandom-effectmodelrandomcoefficientmodelvariouscomponentmodelmixed-effectmodelempiricalBayesmodel多层统计模型的名称multilevelmodels16多层统计模型的优点同时分析组效应和个体效应;不需有独立性假设;对稀疏(sparse)数据,即每组样本很少的数据,特别有效;特别适合对发展模型(GM)的分析。多层统计模型的优点同时分析组效应和个体效应;17多层统计模型的局限性(1)模型复杂,不够简约;需较大样本以保证稳定性;组群数量较少,会出现偏倚;高水平单位并非严格抽样获得;某些场景变量通常是各组个体的聚集性测量,而不是总体内个体的聚集性测量;多层统计模型的局限性(1)模型复杂,不够简约;18多层统计模型的局限性(2)研究对象一般具有流动性,即受到群组影响的程度不同,虽可用出入时间进行控制,但此信息一般不可知;依然存在自变量带有测量误差的问题,必需借助于结构方程模型(SEM);完全嵌套假设,即每一个低水平单位嵌套、且仅嵌套于一个高水平单位。多层统计模型的局限性(2)研究对象一般具有流动性,即受到群组19用于多层统计模型的软件专门软件:HLM;MLwiN;SuperMIX;aML;EGRET;LISREL;Mplus等。通用统计学软件:SAS;SPSS;stata;S-plus/R等。用于多层统计模型的软件专门软件:HLM;MLwiN;Supe20线性多层统计模型基础知识线性多层统计模型基础知识21组内相关系数

(Intra-ClassCorrelationCoefficient,ICC)组间方差占总方差的比例。可使用对“空模型”的拟合获得;值域在0到1之间,越接近1,说明相关越明显;对ICC的检验是是否选择多层模型的依据。组内相关系数

(Intra-ClassCorrelatio22两水平模型的公式表达两水平模型的公式表达23空模型(又称截距模型)空模型(又称截距模型)24两个水平1自变量、一个水平2自变量两个水平1自变量、一个水平2自变量25一般模型一般模型26SAS中的公式表达SAS中的公式表达27模型假设模型假设28模型假设—SAS的表达模型假设—SAS的表达29固定和随机回归系数固定和随机回归系数30模型估计方法模型估计方法31最大似然法(ML)包括普通最大似然法(ML)和限制性最大似然法(REML);两者用于估计的残差基础不同,后者的残差包括所有的随机变异;REML是SAS的MIXED过程和HLM的默认算法;REML通常用于组数量较少的模型;ML可以用于模型比较,而REML不行;REML估计较优,而ML较快。最大似然法(ML)包括普通最大似然法(ML)和限制性最大似然32最小二乘法(LS)包括迭代广义最小二乘法(IGLS)和限制性迭代广义最小二乘法(RIGLS)都以普通最小二乘估计(OLS)为初始值进行迭代;地位及相对关系大致等同于ML和REML;是MLwiN使用的算法。最小二乘法(LS)包括迭代广义最小二乘法(IGLS)和限制性33经验Bayes方法(EB)“收缩估计(shrinkageestimator)”以可靠性权重确定最后的估计值;对于某些样本量很小的组,则更多的使用总样本的信息,进行“借力(borrowstrength)”经验Bayes方法(EB)“收缩估计(shrinkagee34空模型的可靠性权重空模型的可靠性权重35对模型拟合的评价SAS给出:-2LL,AIC,AICC,BIC等统计量,其值越小越好;但只在比较模型时有用;模型收敛的速度可以说明拟合的好坏。对模型拟合的评价SAS给出:-2LL,AIC,AICC,BI36假设检验全局检验:F检验;局部检验:对方差-协方差估计使用WaldZ检验;对系数使用t检验;单测检验,P值需除2;其它可使用LR等。假设检验全局检验:F检验;37模型比较对于嵌套模型,使用LR检验;对于非嵌套模型,使用AIC,AICC和BIC检验;无论何种,均需使用ML进行估计。模型比较对于嵌套模型,使用LR检验;38对变异的解释程度(RB)对变异的解释程度(RB)39对变异的解释程度(SB)对变异的解释程度(SB)40示例与SAS实现示例与SAS实现41例1:对医生满意度调查Patid:病人编号;Phys:医生编号;Age:病人年龄;Sat:满意度分数;Practice:执业时间;例1:对医生满意度调查Patid:病人编号;42空模型空模型43空模型2步迭代完成;所有随机系数的检验均高于检验水准;ICC=0.00292/(0.00292+1.291)=0.23%不用进一步拟合多水平模型空模型2步迭代完成;44例2:SNA角度测量值id:观察对象编号;occa:每次观察编号;Age:病人年龄;SNA:角度;agg:场景变量;例2:SNA角度测量值id:观察对象编号;45空模型3步迭代完成;所有随机系数的检验部分低于检验水准;ICC=0.4296/(0.4296+0.5629)=43.28%应进一步拟合多水平模型空模型3步迭代完成;46空模型加入场景变量空模型加入场景变量47空模型加入场景变量3步迭代完成,随机截距有意义;所有随机系数的检验部分低于检验水准;该模型-2LL=345.8,空模型-2LL=352.2,则LRχ2=6.4,p=0.0114;RB=1-0.3330/0.4296=0.2248;空模型加入场景变量3步迭代完成,随机截距有意义;48加入水平1变量(固定效应)加入水平1变量(固定效应)49加入水平1变量(固定效应)3步迭代完成,随机截距有意义;所有随机系数的检验部分低于检验水准;该模型-2LL=199.1,前模型-2LL=345.8,则LRχ2=146.7,p=0.000;加入水平1变量(固定效应)3步迭代完成,随机截距有意义;50检验水平1的随机性检验水平1的随机性51检验水平1的随机性4步迭代完成,2个随机系数均有意义;所有随机系数的检验部分低于检验水准;该模型-2LL=185.6,前模型-2LL=199.1,则LRχ2=3.5,p=0.1738;检验水平1的随机性4步迭代完成,2个随机系数均有意义;52跨层交互作用评估跨层交互作用评估53跨层交互作用评估5步迭代完成,随机截距有意义,但交互项没意义;-2LL等都对前模型有所增加;跨层交互作用不显著。跨层交互作用评估5步迭代完成,随机截距有意义,但交互项没意义54建模一般步骤运行空模型以获得ICC,判断是否进行多层模型拟合;加入水平2解释变量;加入水平1解释变量;检验水平1随机斜率;检验跨水平交互作用(全模型)。建模一般步骤运行空模型以获得ICC,判断是否进行多层模型拟合55发展模型发展模型56传统纵向数据分析方法的局限性重复测量的方差分析;假设残差方差在各时间点上相等;或,假设任何时点之间的残差方差的差异相等(即所谓“球面(sphericity)”假设或称“环形(circularity)”假设);要求完整均衡数据,即等时距,无缺失。传统纵向数据分析方法的局限性重复测量的方差分析;57发展模型的优点可处理缺失和不完整数据;可处理不等时距问题;不要求对象内独立即其它的限制性假设;可以容易的加入时间依赖自变量。发展模型的优点可处理缺失和不完整数据;58发展模型与一般多层模型的区别发展模型与一般多层模型的区别59SAS程序procmixedcovtestic;classidtimec;modely=trt|time/sddfm=KRnotest;randominttime/subject=idGtype=UN;repeatedtimec/subject=idRtype=AR(1);run;SAS程序procmixedcovtestic;60离散型结局变量的多层统计模型离散型结局变量的多层统计模型61广义线性模型随机成分(randomcomponents):指的是分布,一般为指数族分布;系统成分(systematiccomponent):即传统回归模型形态;链接函数(linkfunction)广义线性模型随机成分(randomcomponents):62广义线性混合效应模型对广义线性模型和多层统计模型的结合和扩展。广义线性混合效应模型对广义线性模型和多层统计模型的结合和扩展63广义线性混合效应模型的估计方法线性化法(linearizationmethods)数值法积分近似法(integralapproximationwithnumericalmethods)广义线性混合效应模型的估计方法线性化法(linearizat64线性化法使用泰勒展开式等技术来近似估计该积分似然函数;不使用原始数据,而是按原始数据产生伪数据(pseudo-data)进行估计;SAS中的GLMMIX过程。线性化法使用泰勒展开式等技术来近似估计该积分似然函数;65线性化法的优点和局限性模型的联合分布难于确定,也可以胜任;可拟合较多随机效应;允许不同结构的R矩阵;可以使用REML等;由于使用伪数据进行拟合,不能使用LR进行模型比较;SAS提供的随机效应的标准误有偏,不能用于假设检验。线性化法的优点和局限性模型的联合分布难于确定,也可以胜任;66数值法积分近似法使用原始数据估算边际积分似然函数的近似值;默认的是适应性高斯求积法;并可使用多种优化技术,默认的是二元准牛顿算法;SAS中的NLMIXED过程。数值法积分近似法使用原始数据估算边际积分似然函数的近似值;67数值法积分近似法的优点和局限性使用原始数据进行拟合,可以使用LR进行模型比较;SAS提供显著性检验;非常耗时,且不易收敛;不能随意设定R的结构;只能使用ML。数值法积分近似法的优点和局限性使用原始数据进行拟合,可以使用68各种离散型结局变量模型多层logistic回归模型多层累积logistic回归模型;多层多项logistic回归模型;多层poisson回归模型;……各种离散型结局变量模型多层logistic回归模型69谢谢大家!谢谢大家!70多层统计分析模型陶庄中国CDC卫生统计研究室多层统计分析模型陶庄71绪论绪论72青蛙与池塘(“Frog-pondtheory”)青蛙—学生个体;池塘—学校环境;学生的成绩好坏不仅受到个体本身的影响,也受到学校环境的影响!青蛙与池塘(“Frog-pondtheory”)青蛙—学生73多层数据低一层(低水平)单位(个体)的数据嵌套(nested)于高一层(高水平)的单位(组群)之中。结局变量,个体解释变量,场景变量(contextualvariables)多层数据低一层(低水平)单位(个体)的数据嵌套(nested74组内观察相关

(within-groupobservationdependence)同一组内的个体,较不同组的个体而言,在观念、行为等很多方面更为接近或相似;即便不是刻意分组,也是如此。组内同质(within-grouphomogeneity),组间异质(between-groupheterogeneity)很小的相关将导致很大的I类错误。组内观察相关

(within-groupobservati75多层数据的常见来源复杂抽样;多中心临床试验;纵向研究(longitudinalstudies)与重复测量(repeatedmeasures);“高低搭配”;Meta分析;……多层数据的常见来源复杂抽样;76多层统计模型的研究内容哪些个体解释变量会影响结局变量;哪些场景变量会影响结局变量;个体解释变量对结局变量的影响是否会受到场景变量的影响。多层统计模型的研究内容哪些个体解释变量会影响结局变量;77多层统计模型出现前对多层数据进行分析的探索多层统计模型出现前对多层数据进行分析的探索78探索(1)—分别估计在个体水平和组群水平分别进行分析;试图用单一的个体水平模型的分析结果来推论另一水平的统计结果。探索(1)—分别估计在个体水平和组群水平分别进行分析;79探索(2)—传统回归用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层(cross-level)交互作用。探索(2)—传统回归用传统的固定效应回归模型中一般的交互项理80探索(3)—两步模型

(two-stagemodel)第一步模型,对各组分别进行同一回归模型估计,获得一系列的系数;对这些系数的恒定性进行检验;如果不恒定,则进行第二步模型,以组变量为因变量,系数为自变量进行回归。探索(3)—两步模型

(two-stagemodel)第一81探索(3)—两步模型的问题无论哪一步均使用OLS,并不适用;当组群过多,则十分麻烦;某些组内样本量很少时,进行回归不稳定;将每个组群认为是不相关的,忽略了其为从一大样本中抽取的事实。探索(3)—两步模型的问题无论哪一步均使用OLS,并不适用;82多层统计模型的出现研究的学者很多;系统的主要为两;研究的理论没有根本上的分歧;双方研究成果的发布时间基本相同(上世纪80年代末90年代初);分别有各自分析的成熟的软件;目前,大家基本上接受两组人分别独立开发出同一模型的结果。多层统计模型的出现研究的学者很多;83S.Raudenbush与A.Bryk模型称为:hierarchicallinearmodel;软件为:HLMS.Raudenbush与A.Bryk模型称为:hier84H.Goldstein模型称为:multilevelmodels;软件为:MLwiN(早期版本称ML3,MLn)H.Goldstein模型称为:multilevelmo85多层统计模型的名称multilevelmodelshierarchicallinearmodelrandom-effectmodelrandomcoefficientmodelvariouscomponentmodelmixed-effectmodelempiricalBayesmodel多层统计模型的名称multilevelmodels86多层统计模型的优点同时分析组效应和个体效应;不需有独立性假设;对稀疏(sparse)数据,即每组样本很少的数据,特别有效;特别适合对发展模型(GM)的分析。多层统计模型的优点同时分析组效应和个体效应;87多层统计模型的局限性(1)模型复杂,不够简约;需较大样本以保证稳定性;组群数量较少,会出现偏倚;高水平单位并非严格抽样获得;某些场景变量通常是各组个体的聚集性测量,而不是总体内个体的聚集性测量;多层统计模型的局限性(1)模型复杂,不够简约;88多层统计模型的局限性(2)研究对象一般具有流动性,即受到群组影响的程度不同,虽可用出入时间进行控制,但此信息一般不可知;依然存在自变量带有测量误差的问题,必需借助于结构方程模型(SEM);完全嵌套假设,即每一个低水平单位嵌套、且仅嵌套于一个高水平单位。多层统计模型的局限性(2)研究对象一般具有流动性,即受到群组89用于多层统计模型的软件专门软件:HLM;MLwiN;SuperMIX;aML;EGRET;LISREL;Mplus等。通用统计学软件:SAS;SPSS;stata;S-plus/R等。用于多层统计模型的软件专门软件:HLM;MLwiN;Supe90线性多层统计模型基础知识线性多层统计模型基础知识91组内相关系数

(Intra-ClassCorrelationCoefficient,ICC)组间方差占总方差的比例。可使用对“空模型”的拟合获得;值域在0到1之间,越接近1,说明相关越明显;对ICC的检验是是否选择多层模型的依据。组内相关系数

(Intra-ClassCorrelatio92两水平模型的公式表达两水平模型的公式表达93空模型(又称截距模型)空模型(又称截距模型)94两个水平1自变量、一个水平2自变量两个水平1自变量、一个水平2自变量95一般模型一般模型96SAS中的公式表达SAS中的公式表达97模型假设模型假设98模型假设—SAS的表达模型假设—SAS的表达99固定和随机回归系数固定和随机回归系数100模型估计方法模型估计方法101最大似然法(ML)包括普通最大似然法(ML)和限制性最大似然法(REML);两者用于估计的残差基础不同,后者的残差包括所有的随机变异;REML是SAS的MIXED过程和HLM的默认算法;REML通常用于组数量较少的模型;ML可以用于模型比较,而REML不行;REML估计较优,而ML较快。最大似然法(ML)包括普通最大似然法(ML)和限制性最大似然102最小二乘法(LS)包括迭代广义最小二乘法(IGLS)和限制性迭代广义最小二乘法(RIGLS)都以普通最小二乘估计(OLS)为初始值进行迭代;地位及相对关系大致等同于ML和REML;是MLwiN使用的算法。最小二乘法(LS)包括迭代广义最小二乘法(IGLS)和限制性103经验Bayes方法(EB)“收缩估计(shrinkageestimator)”以可靠性权重确定最后的估计值;对于某些样本量很小的组,则更多的使用总样本的信息,进行“借力(borrowstrength)”经验Bayes方法(EB)“收缩估计(shrinkagee104空模型的可靠性权重空模型的可靠性权重105对模型拟合的评价SAS给出:-2LL,AIC,AICC,BIC等统计量,其值越小越好;但只在比较模型时有用;模型收敛的速度可以说明拟合的好坏。对模型拟合的评价SAS给出:-2LL,AIC,AICC,BI106假设检验全局检验:F检验;局部检验:对方差-协方差估计使用WaldZ检验;对系数使用t检验;单测检验,P值需除2;其它可使用LR等。假设检验全局检验:F检验;107模型比较对于嵌套模型,使用LR检验;对于非嵌套模型,使用AIC,AICC和BIC检验;无论何种,均需使用ML进行估计。模型比较对于嵌套模型,使用LR检验;108对变异的解释程度(RB)对变异的解释程度(RB)109对变异的解释程度(SB)对变异的解释程度(SB)110示例与SAS实现示例与SAS实现111例1:对医生满意度调查Patid:病人编号;Phys:医生编号;Age:病人年龄;Sat:满意度分数;Practice:执业时间;例1:对医生满意度调查Patid:病人编号;112空模型空模型113空模型2步迭代完成;所有随机系数的检验均高于检验水准;ICC=0.00292/(0.00292+1.291)=0.23%不用进一步拟合多水平模型空模型2步迭代完成;114例2:SNA角度测量值id:观察对象编号;occa:每次观察编号;Age:病人年龄;SNA:角度;agg:场景变量;例2:SNA角度测量值id:观察对象编号;115空模型3步迭代完成;所有随机系数的检验部分低于检验水准;ICC=0.4296/(0.4296+0.5629)=43.28%应进一步拟合多水平模型空模型3步迭代完成;116空模型加入场景变量空模型加入场景变量117空模型加入场景变量3步迭代完成,随机截距有意义;所有随机系数的检验部分低于检验水准;该模型-2LL=345.8,空模型-2LL=352.2,则LRχ2=6.4,p=0.0114;RB=1-0.3330/0.4296=0.2248;空模型加入场景变量3步迭代完成,随机截距有意义;118加入水平1变量(固定效应)加入水平1变量(固定效应)119加入水平1变量(固定效应)3步迭代完成,随机截距有意义;所有随机系数的检验部分低于检验水准;该模型-2LL=199.1,前模型-2LL=345.8,则LRχ2=146.7,p=0.000;加入水平1变量(固定效应)3步迭代完成,随机截距有意义;120检验水平1的随机性检验水平1的随机性121检验水平1的随机性4步迭代完成,2个随机系数均有意义;所有随机系数的检验部分低于检验水准;该模型-2LL=185.6,前模型-2LL=199.1,则LRχ2=3.5,p=0.1738;检验水平1的随机性4步迭代完成,2个随机系数均有意义;122跨层交互作用评估跨层交互作用评估123跨层交互作用评估5步迭代完成,随机截距有意义,但交互项没意义;-2LL等都对前模型有所增加;跨层交互作用不显著。跨层交互作用评估5步迭代完成,随机截距有意义,但交互项没意义124建模一般步骤运行空模型以获得ICC,判断是否进行多层模型拟合;加入水平2解释变量;加入水平1解释变量;检验水平1随机斜率;检验跨水平交互作用(全模型)。建模一般步骤运行空模型以获得ICC,判断是否进行多层模型拟合125发展模型发展模型126传统纵向数据分析方法的局限性重复测量的方差分析;假设残差方差在各时间点上相等;或,假设任何时点之间的残差方差的差异相等(即所谓“球面(sphericity)”假设或称“环形(circularity)”假设);要求完整均衡数据,即等时距,无缺失。传统纵向数据分析方法的局限性重复测量的方差分析;127发展模型的优点可处理缺失和不完整数据;可处理不等时距问题;不要求对象内独立即其它的限制性假设;可以容易的加入时间依赖自变量。发展模型的优点可处理缺失和不完整数据;128发展模型与一般多层模型的区别发展模型与一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论