多层统计分析模型.ppt_第1页
多层统计分析模型.ppt_第2页
多层统计分析模型.ppt_第3页
多层统计分析模型.ppt_第4页
多层统计分析模型.ppt_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、a,1,多层统计分析模型,陶庄 中国CDC卫生统计研究室,a,2,绪论,a,3,青蛙与池塘(“Frog-pond theory”),青蛙学生个体; 池塘学校环境; 学生的成绩好坏不仅受到个体本身的影响,也受到学校环境的影响!,a,4,多层数据,低一层(低水平)单位(个体)的数据嵌套(nested)于高一层(高水平)的单位(组群)之中。 结局变量,个体解释变量,场景变量(contextual variables),a,5,组内观察相关(within-group observation dependence),同一组内的个体,较不同组的个体而言,在观念、行为等很多方面更为接近或相似;即便不是刻意分

2、组,也是如此。 组内同质(within-group homogeneity),组间异质(between-group heterogeneity) 很小的相关将导致很大的I类错误。,a,6,多层数据的常见来源,复杂抽样; 多中心临床试验; 纵向研究(longitudinal studies)与重复测量(repeated measures); “高低搭配”; Meta分析; ,a,7,多层统计模型的研究内容,哪些个体解释变量会影响结局变量; 哪些场景变量会影响结局变量; 个体解释变量对结局变量的影响是否会受到场景变量的影响。,a,8,多层统计模型出现前对多层数据进行分析的探索,a,9,探索(1)分

3、别估计,在个体水平和组群水平分别进行分析; 试图用单一的个体水平模型的分析结果来推论另一水平的统计结果。,a,10,探索(2)传统回归,用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层(cross-level)交互作用。,a,11,探索(3)两步模型(two-stage model),第一步模型,对各组分别进行同一回归模型估计,获得一系列的系数; 对这些系数的恒定性进行检验; 如果不恒定,则进行第二步模型,以组变量为因变量,系数为自变量进行回归。,a,12,探索(3)两步模型的问题,无论哪一步均使用OLS,并不适用; 当组群过多,则十分麻烦; 某些组内样本量很少时,进行回归不稳定;

4、将每个组群认为是不相关的,忽略了其为从一大样本中抽取的事实。,a,13,多层统计模型的出现,研究的学者很多; 系统的主要为两; 研究的理论没有根本上的分歧; 双方研究成果的发布时间基本相同(上世纪80年代末90年代初); 分别有各自分析的成熟的软件; 目前,大家基本上接受两组人分别独立开发出同一模型的结果。,a,14,S. Raudenbush与A. Bryk,模型称为:hierarchical linear model; 软件为:HLM,a,15,H. Goldstein,模型称为:multilevel models; 软件为:MLwiN(早期版本称ML3,MLn),a,16,多层统计模型的

5、名称,multilevel models hierarchical linear model random-effect model random coefficient model various component model mixed-effect model empirical Bayes model,a,17,多层统计模型的优点,同时分析组效应和个体效应; 不需有独立性假设; 对稀疏(sparse)数据,即每组样本很少的数据,特别有效; 特别适合对发展模型(GM)的分析。,a,18,多层统计模型的局限性(1),模型复杂,不够简约; 需较大样本以保证稳定性; 组群数量较少,会出现偏倚

6、; 高水平单位并非严格抽样获得; 某些场景变量通常是各组个体的聚集性测量,而不是总体内个体的聚集性测量;,a,19,多层统计模型的局限性(2),研究对象一般具有流动性,即受到群组影响的程度不同,虽可用出入时间进行控制,但此信息一般不可知; 依然存在自变量带有测量误差的问题,必需借助于结构方程模型(SEM); 完全嵌套假设,即每一个低水平单位嵌套、且仅嵌套于一个高水平单位。,a,20,用于多层统计模型的软件,专门软件:HLM;MLwiN;SuperMIX;aML;EGRET;LISREL;Mplus等。 通用统计学软件:SAS;SPSS;stata;S-plus/R等。,a,21,线性多层统计模

7、型,基础知识,a,22,组内相关系数(Intra-Class Correlation Coefficient, ICC),组间方差占总方差的比例。 可使用对“空模型”的拟合获得; 值域在0到1之间,越接近1,说明相关越明显; 对ICC的检验是是否选择多层模型的依据。,a,23,两水平模型的公式表达,a,24,空模型(又称截距模型),a,25,两个水平1自变量、一个水平2自变量,a,26,一般模型,a,27,SAS中的公式表达,a,28,模型假设,a,29,模型假设SAS的表达,a,30,固定和随机回归系数,a,31,模型估计方法,a,32,最大似然法(ML),包括普通最大似然法(ML)和限制性

8、最大似然法(REML); 两者用于估计的残差基础不同,后者的残差包括所有的随机变异; REML是SAS的MIXED过程和HLM的默认算法; REML通常用于组数量较少的模型; ML可以用于模型比较,而REML不行; REML估计较优,而ML较快。,a,33,最小二乘法(LS),包括迭代广义最小二乘法(IGLS)和限制性迭代广义最小二乘法(RIGLS) 都以普通最小二乘估计(OLS)为初始值进行迭代; 地位及相对关系大致等同于ML和REML; 是MLwiN使用的算法。,a,34,经验Bayes方法(EB),“收缩估计(shrinkage estimator)” 以可靠性权重确定最后的估计值; 对

9、于某些样本量很小的组,则更多的使用总样本的信息,进行“借力(borrow strength)”,a,35,空模型的可靠性权重,a,36,对模型拟合的评价,SAS给出:-2LL,AIC,AICC,BIC等统计量,其值越小越好; 但只在比较模型时有用; 模型收敛的速度可以说明拟合的好坏。,a,37,假设检验,全局检验:F检验; 局部检验:对方差-协方差估计使用Wald Z检验;对系数使用t检验; 单测检验,P值需除2; 其它可使用LR等。,a,38,模型比较,对于嵌套模型,使用LR检验; 对于非嵌套模型,使用AIC,AICC和BIC检验; 无论何种,均需使用ML进行估计。,a,39,对变异的解释程

10、度(RB),a,40,对变异的解释程度(SB),a,41,示例与SAS实现,a,42,例1:对医生满意度调查,Patid:病人编号; Phys:医生编号; Age:病人年龄; Sat:满意度分数; Practice:执业时间;,a,43,空模型,a,44,空模型,2步迭代完成; 所有随机系数的检验均高于检验水准; ICC=0.00292/(0.00292+1.291)=0.23% 不用进一步拟合多水平模型,a,45,例2:SNA角度测量值,id:观察对象编号; occa:每次观察编号; Age:病人年龄; SNA:角度; agg:场景变量;,a,46,空模型,3步迭代完成; 所有随机系数的检验

11、部分低于检验水准; ICC=0.4296/(0.4296+0.5629)=43.28% 应进一步拟合多水平模型,a,47,空模型加入场景变量,a,48,空模型加入场景变量,3步迭代完成,随机截距有意义; 所有随机系数的检验部分低于检验水准; 该模型-2LL=345.8,空模型-2LL=352.2,则LR2=6.4,p=0.0114; RB=1-0.3330/0.4296=0.2248;,a,49,加入水平1变量(固定效应),a,50,加入水平1变量(固定效应),3步迭代完成,随机截距有意义; 所有随机系数的检验部分低于检验水准; 该模型-2LL=199.1,前模型-2LL=345.8,则LR2

12、=146.7,p=0.000;,a,51,检验水平1的随机性,a,52,检验水平1的随机性,4步迭代完成,2个随机系数均有意义; 所有随机系数的检验部分低于检验水准; 该模型-2LL=185.6,前模型-2LL=199.1,则LR2=3.5,p=0.1738;,a,53,跨层交互作用评估,a,54,跨层交互作用评估,5步迭代完成,随机截距有意义,但交互项没意义; -2LL等都对前模型有所增加; 跨层交互作用不显著。,a,55,建模一般步骤,运行空模型以获得ICC,判断是否进行多层模型拟合; 加入水平2解释变量; 加入水平1解释变量; 检验水平1随机斜率; 检验跨水平交互作用(全模型)。,a,5

13、6,发展模型,a,57,传统纵向数据分析方法的局限性,重复测量的方差分析; 假设残差方差在各时间点上相等; 或,假设任何时点之间的残差方差的差异相等(即所谓“球面(sphericity)”假设或称“环形(circularity)”假设); 要求完整均衡数据,即等时距,无缺失。,a,58,发展模型的优点,可处理缺失和不完整数据; 可处理不等时距问题; 不要求对象内独立即其它的限制性假设; 可以容易的加入时间依赖自变量。,a,59,发展模型与一般多层模型的区别,a,60,SAS程序,proc mixed covtest ic; class id timec; model y=trt | time

14、/ s ddfm=KR notest; random int time / subject=id G type=UN; repeated timec / subject=id R type=AR(1); run;,a,61,离散型结局变量的多层统计模型,a,62,广义线性模型,随机成分(random components):指的是分布,一般为指数族分布; 系统成分(systematic component):即传统回归模型形态; 链接函数(link function),a,63,广义线性混合效应模型,对广义线性模型和多层统计模型的结合和扩展。,a,64,广义线性混合效应模型的估计方法,线性化法

15、(linearization methods) 数值法积分近似法(integral approximation with numerical methods),a,65,线性化法,使用泰勒展开式等技术来近似估计该积分似然函数; 不使用原始数据,而是按原始数据产生伪数据(pseudo-data)进行估计; SAS中的GLMMIX过程。,a,66,线性化法的优点和局限性,模型的联合分布难于确定,也可以胜任; 可拟合较多随机效应; 允许不同结构的R矩阵; 可以使用REML等; 由于使用伪数据进行拟合,不能使用LR进行模型比较; SAS提供的随机效应的标准误有偏,不能用于假设检验。,a,67,数值法积分近似法,使用原始数据估算边际积分似然函数的近似值; 默

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论