版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多层统计分析模型陶庄中国cdc卫生统计研究室1行业实操绪论2行业实操青蛙与池塘(“frog-pond theory”)n青蛙学生个体;n池塘学校环境;n学生的成绩好坏不仅受到个体本身的影响,也受到学校环境的影响!3行业实操多层数据n低一层(低水平)单位(个体)低一层(低水平)单位(个体)的数据的数据嵌嵌套(套(nested)于于高一层(高水平)的单位高一层(高水平)的单位(组群)(组群)之中。之中。n结局变量,个体解释变量,结局变量,个体解释变量,场景变量场景变量(contextual variables)4行业实操组内观察相关(within-group observation depende
2、nce)n同一组内的个体,较不同组的个体而言,在观念、行为等很多方面更为接近或相似;即便不是刻意分组,也是如此。n组内同质(within-group homogeneity),组间异质(between-group heterogeneity)n很小的相关将导致很大的i类错误。5行业实操多层数据的常见来源n复杂抽样;n多中心临床试验;n纵向研究(longitudinal studies)与重复测量(repeated measures);n“高低搭配”;nmeta分析;n6行业实操多层统计模型的研究内容n哪些个体解释变量会影响结局变量;n哪些场景变量会影响结局变量;n个体解释变量对结局变量的影响是
3、否会受到场景变量的影响。7行业实操多层统计模型出现前对多层数据进行分析的探索8行业实操探索(1)分别估计n在个体水平和组群水平分别进行分析;n试图用单一的个体水平模型的分析结果来推论另一水平的统计结果。jjjijijijxylevelxylevel1010:2:19行业实操探索(2)传统回归n用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层(cross-level)交互作用。ijjijjijijzxzxy321010行业实操探索(3)两步模型(two-stage model)n第一步模型,对各组分别进行同一回归模型估计,获得一系列的系数;n对这些系数的恒定性进行检验;n如果不恒定,则
4、进行第二步模型,以组变量为因变量,系数为自变量进行回归。11行业实操探索(3)两步模型的问题n无论哪一步均使用ols,并不适用;n当组群过多,则十分麻烦;n某些组内样本量很少时,进行回归不稳定;n将每个组群认为是不相关的,忽略了其为从一大样本中抽取的事实。12行业实操多层统计模型的出现n研究的学者很多;n系统的主要为两;n研究的理论没有根本上的分歧;n双方研究成果的发布时间基本相同(上世纪80年代末90年代初);n分别有各自分析的成熟的软件;n目前,大家基本上接受两组人分别独立开发出同一模型的结果。13行业实操s. raudenbush与a. brykn模型称为:hierarchical li
5、near model;n软件为:hlm14行业实操h. goldsteinn模型称为:multilevel models;n软件为:mlwin(早期版本称ml3,mln)15行业实操多层统计模型的名称nmultilevel modelsnhierarchical linear modelnrandom-effect modelnrandom coefficient modelnvarious component modelnmixed-effect modelnempirical bayes model16行业实操多层统计模型的优点n同时分析组效应和个体效应;n不需有独立性假设;n对稀疏(sp
6、arse)数据,即每组样本很少的数据,特别有效;n特别适合对发展模型(gm)的分析。17行业实操多层统计模型的局限性(1)n模型复杂,不够简约;n需较大样本以保证稳定性;n组群数量较少,会出现偏倚;n高水平单位并非严格抽样获得;n某些场景变量通常是各组个体的聚集性测量,而不是总体内个体的聚集性测量;18行业实操多层统计模型的局限性(2)n研究对象一般具有流动性,即受到群组影响的程度不同,虽可用出入时间进行控制,但此信息一般不可知;n依然存在自变量带有测量误差的问题,必需借助于结构方程模型(sem);n完全嵌套假设,即每一个低水平单位嵌套、且仅嵌套于一个高水平单位。19行业实操用于多层统计模型的
7、软件n专门软件:hlm;mlwin;supermix;aml;egret;lisrel;mplus等。n通用统计学软件:sas;spss;stata;s-plus/r等。20行业实操线性多层统计模型基础知识21行业实操组内相关系数(intra-class correlation coefficient, icc)222bwbiccn组间方差占总方差的比例。n可使用对“空模型”的拟合获得;n值域在0到1之间,越接近1,说明相关越明显;n对icc的检验是是否选择多层模型的依据。22行业实操两水平模型的公式表达23行业实操空模型(又称截距模型)ijjijjjijjijeuytotaluleveley
8、level00000000:2:124行业实操两个水平1自变量、一个水平2自变量ijijjjijjijijjijjjjjjjijijjijjijezuuzwzxwytotaluwuwlevelezxylevel110111111011101001111101010100011110:2:125行业实操一般模型ijqjqqqijjqijqqmmmjqmqqqijqpppijpmmmjmijqjmmmjqmqqjjmmmjmjjmmmjmjijqqqijqjpppijpjijeuzuzwzxwytotaluwuwuwlevelezxylevel101110110001011110101000011
9、0:2:126行业实操sas中的公式表达ezxy27行业实操模型假设0, 0,00, 0102120120120102jijjijuuuujjijuecovuecovnuune28行业实操模型假设sas的表达irngrgeuvareueuuuuuuuuu222212202212212012022012000000029行业实操固定和随机回归系数level 2 vari ati onlevel 2 vari ati oni ntake achi evem enti ntake achi evem entexamexamscorescore0 01 12 23 34 45 56 60 00.50.
10、51 130行业实操模型估计方法31行业实操最大似然法(ml)n包括普通最大似然法(ml)和限制性最大似然法(reml);n两者用于估计的残差基础不同,后者的残差包括所有的随机变异;nreml是sas的mixed过程和hlm的默认算法;nreml通常用于组数量较少的模型;nml可以用于模型比较,而reml不行;nreml估计较优,而ml较快。32行业实操最小二乘法(ls)n包括迭代广义最小二乘法(igls)和限制性迭代广义最小二乘法(rigls)n都以普通最小二乘估计(ols)为初始值进行迭代;n地位及相对关系大致等同于ml和reml;n是mlwin使用的算法。33行业实操经验bayes方法(
11、eb)n“收缩估计(shrinkage estimator)”n以可靠性权重确定最后的估计值;n对于某些样本量很小的组,则更多的使用总样本的信息,进行“借力(borrow strength)”000*01jjjj34行业实操空模型的可靠性权重iccniccnnjjjuuj11/22020035行业实操对模型拟合的评价nsas给出:-2ll,aic,aicc,bic等统计量,其值越小越好;n但只在比较模型时有用;n模型收敛的速度可以说明拟合的好坏。36行业实操假设检验n全局检验:f检验;n局部检验:对方差-协方差估计使用wald z检验;对系数使用t检验;n单测检验,p值需除2;n其它可使用lr
12、等。37行业实操模型比较n对于嵌套模型,使用lr检验;n对于非嵌套模型,使用aic,aicc和bic检验;n无论何种,均需使用ml进行估计。38行业实操对变异的解释程度(rb)2020202020222222111零模型所设模型零模型所设模型零模型零模型所设模型零模型所设模型零模型uuuuullrbrb39行业实操对变异的解释程度(sb)nsbsbululllllllllllll22022220212222222222221212121211,11总总总总总总总总总总总总零模型所设模型零模型所设模型零模型零模型所设模型零模型所设模型零模型40行业实操示例与sas实现41行业实操例1:对医生满意
13、度调查npatid:病人编号;nphys:医生编号;nage:病人年龄;nsat:满意度分数;npractice:执业时间;42行业实操空模型ijjijjjijjijeusatuesat0000000043行业实操空模型n2步迭代完成;n所有随机系数的检验均高于检验水准;nicc=0.00292/(0.00292+1.291)=0.23%n不用进一步拟合多水平模型44行业实操例2:sna角度测量值nid:观察对象编号;nocca:每次观察编号;nage:病人年龄;nsna:角度;nagg:场景变量;45行业实操空模型n3步迭代完成;n所有随机系数的检验部分低于检验水准;nicc=0.4296/
14、(0.4296+0.5629)=43.28%n应进一步拟合多水平模型46行业实操空模型加入场景变量ijjjijjjjijjijeuaggsnauaggesna0101000101000047行业实操空模型加入场景变量n3步迭代完成,随机截距有意义;n所有随机系数的检验部分低于检验水准;n该模型-2ll=345.8,空模型-2ll=352.2,则lr2=6.4,p=0.0114;nrb=1-0.3330/0.4296=0.2248;48行业实操加入水平1变量(固定效应)ijjijjijjjjijijjijeuageaggsnauaggeagesna011010001010001049行业实操加入
15、水平1变量(固定效应)n3步迭代完成,随机截距有意义;n所有随机系数的检验部分低于检验水准;n该模型-2ll=199.1,前模型-2ll=345.8,则lr2=146.7,p=0.000;50行业实操检验水平1的随机性ijijjjijjijjjjjjijijjjijeageuuageaggsnauuaggeagesna101010100110101010001051行业实操检验水平1的随机性n4步迭代完成,2个随机系数均有意义;n所有随机系数的检验部分低于检验水准;n该模型-2ll=185.6,前模型-2ll=199.1,则lr2=3.5,p=0.1738;52行业实操跨层交互作用评估ijij
16、jjijjijjijjjjjjjijijjjijeageuuageaggageaggsnauagguaggeagesna101111010100111110101010001053行业实操跨层交互作用评估n5步迭代完成,随机截距有意义,但交互项没意义;n-2ll等都对前模型有所增加;n跨层交互作用不显著。54行业实操建模一般步骤n运行空模型以获得icc,判断是否进行多层模型拟合;n加入水平2解释变量;n加入水平1解释变量;n检验水平1随机斜率;n检验跨水平交互作用(全模型)。55行业实操发展模型56行业实操传统纵向数据分析方法的局限性n重复测量的方差分析;n假设残差方差在各时间点上相等;n或,
17、假设任何时点之间的残差方差的差异相等(即所谓“球面(sphericity)”假设或称“环形(circularity)”假设);n要求完整均衡数据,即等时距,无缺失。57行业实操发展模型的优点n可处理缺失和不完整数据;n可处理不等时距问题;n不要求对象内独立即其它的限制性假设;n可以容易的加入时间依赖自变量。58行业实操发展模型与一般多层模型的区别ijijjjijety1059行业实操sas程序nproc mixed covtest ic;nclass id timec;nmodel y=trt | time / s ddfm=kr notest;nrandom int time / subje
18、ct=id g type=un;nrepeated timec / subject=id r type=ar(1);nrun;60行业实操离散型结局变量的多层统计模型61行业实操广义线性模型n随机成分(random components):指的是分布,一般为指数族分布;n系统成分(systematic component):即传统回归模型形态;n链接函数(link function)62行业实操广义线性混合效应模型n对广义线性模型和多层统计模型的结合和扩展。63行业实操广义线性混合效应模型的估计方法 duupuyfyl|,n线性化法(linearization methods)n数值法积分近似法(integral approximation with numerical methods)64行业实操线性化法n使用泰勒展开式等技术来近似估计该积分似然函数;n不使用原始数据,而是按原始数据产生伪数据(pseudo-data)进行估计;nsas中的glmmix过程。65行业实操线性化法的优点和局限性n模型的联合分布难于确定,也可以胜任;n可拟合较多随机效应;n允许不同结构的r矩阵;n可以使用reml等;n由于使用伪数据进行拟合,不能使用lr进行模型比较;nsas提供的随机效
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 档案室安全应急预案(3篇)
- 语文教学心得总结(33篇)
- 上半年医院财务工作总结
- 项目签定合同范本
- 2023届新高考化学一轮课时跟踪练第28讲难溶电解质的溶解平衡
- 2023届新高考化学一轮复习烃的含氧衍生物提能力
- 2025年中国汽车减震器行业研究报告:市场规模、供需态势、发展前景预测
- 网络优化工程师培训
- 私人三轮车买卖合同范本
- 2023年张家口崇礼太子城国际冰雪小镇管理委员会专项招聘事业单位工作人员考试真题
- 永椿化工新材料有限公司 年产 800 吨邻三氟甲基苯甲酰氯系列产品、1500 吨 2,6- 二氟苯甲酰胺系列产品、500 吨叔丁基二甲基氯硅烷、500 吨 3-氨基-2-溴-5-氟苯甲酸甲酯等产品项目环境影响报告书
- GB/T 21837-2023铁磁性钢丝绳电磁检测方法
- 给高二孩子的一封信
- 厨房卫生教案-劳动课教学设计
- 镀锌板通风管工程施工方案
- 助产职业生涯规划书
- 体外诊断试剂注册申报资料模板-稳定性研究资料
- 艾宾浩斯遗忘曲线-计划表《遗忘曲线》
- 福建省泉州市德化县2023-2024学年七年级上学期期中考试道德与法治试题
- 真核生物基因表达调控
- 信息资源目录编制规范(用于个人参考学习版本)
评论
0/150
提交评论