版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(优选)多水平统计模型简介操作本文档共51页;当前第1页;编辑于星期日\18点19分单水平模型1,2,...,i,...n个观察对象模型假设:正态性、独立性、残差方差齐同性协变量的影响保持不变本文档共51页;当前第2页;编辑于星期日\18点19分假设不满足时的处理1.正态性不满足
-数据变换,增加样本含量2.方差非齐性
-增加协变量
-数据变换
-广义线性模型或非线性模型3.独立性不满足
-S.E.的稳健估计
-GEE估计方法
-拟合非独立性来源的模型本文档共51页;当前第3页;编辑于星期日\18点19分非独立性来源1.区域环境对反应变量的影响-卫生服务区域的资源、社会经济条件和政策会影响对病人的服务质量-高血压发病率可能有地区聚集性,取决于经济文化背景和居民饮食习惯2.重复测量结果通常具有强相关-分子生物学研究中重复测量数据处理中的问题3.区组设计和多中心试验-卫生毒理实验研究中同窝动物的相似性-同中心内病人病情、病种相似性本文档共51页;当前第4页;编辑于星期日\18点19分
两水平层次结构数据水平2
水平1
层次结构数据的普遍性子女学生两水平层次结构:水平1单位在水平2内聚集测量1测量2测量3本文档共51页;当前第5页;编辑于星期日\18点19分
层次结构数据为一种非独立数据,即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立,其大小常用组内相关(intra-classcorrelation,ICC)度量。例如,来自同一家庭的子女,其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似,即子女特征在家庭中具有相似性或聚集性(clustering),数据是非独立的(nonindependent)。本文档共51页;当前第6页;编辑于星期日\18点19分忽略多水平层次结构的后果1.模型中的参数估计值、标准误有偏差2.残差方差偏大,即模型拟合优度差3.损失高水平(如水平二:学校)对结果的影响信息本文档共51页;当前第7页;编辑于星期日\18点19分经典模型的基本假定是单一水平和单一的随机误差项,并假定随机误差项独立、服从方差为常量的正态分布,代表不能用模型解释的残留的随机成份多水平模型将单一的随机误差项分解到与数据层次结构相应的各水平上,具有多个随机误差项并估计相应的残差方差及协方差。构建与数据层次结构相适应的复杂误差结构,是多水平模型区别于经典模型的根本特征多水平模型由固定与随机两部分构成,其随机部分可以包含解释变量基本的多水平模型
本文档共51页;当前第8页;编辑于星期日\18点19分
假定一个两水平的层次结构数据,学校为水平2单位,学生为水平1单位,学校为相应总体的随机样本。多水平模型基本结构学校1学生学生学校k学生学生…………观测指标:X,Y本文档共51页;当前第9页;编辑于星期日\18点19分普通线性回归,忽略学校本文档共51页;当前第10页;编辑于星期日\18点19分按学校分别拟合截距不同,斜率相同截距相同,斜率不同截距不同,斜率不同本文档共51页;当前第11页;编辑于星期日\18点19分按学校绘制散点图及拟合线该模型即为多水平模型本文档共51页;当前第12页;编辑于星期日\18点19分和分别为第j个学校中第i个学生应变量观测值和解释变量观测值多水平模型基本结构本文档共51页;当前第13页;编辑于星期日\18点19分多水平模型基本结构固定效应部分随机效应部分(残差项)本文档共51页;当前第14页;编辑于星期日\18点19分为平均截距,反映与的平均关系,即当x取0时,所有y的总平均估计值。为随机变量,表示第j个学校y的平均估计值与总均数的离差值,反映了第j个学校对y的随机效应。本文档共51页;当前第15页;编辑于星期日\18点19分
表示协变量x在所有学校的平均效应估计值(固定部分),表示协变量x在不同学校所产生的特殊效应(随机部分),反映协变量与学校之间产生的交互效应,即学校间y的变异与协变量x的变化有关。本文档共51页;当前第16页;编辑于星期日\18点19分
反应变量Y可表达为固定部分与随机部分之和。模型具有多个残差项,这是多水平模型区别于经典模型的关键部分。此模型需估计5个参数,除两个固定系数和,还需估计三个随机参数和。其中即为学校水平的方差成份,为学生水平的方差成份。本文档共51页;当前第17页;编辑于星期日\18点19分几种常见类型方差成分模型
(VarianceComponentModel)随机系数模型(RandomCoefficientModel)本文档共51页;当前第18页;编辑于星期日\18点19分方差成分模型
只是将反应变量Y分解为个体差异部分和组(层)差异部分。水平1和水平2都没有预测量变,即零模型(NullModel)或空模型(EmptyModel)只包含固定效应的协变量最简单的多水平模型本文档共51页;当前第19页;编辑于星期日\18点19分组内相关的度量应变量方差为(可含固定效应协变量)此即水平2和水平1方差之和。同一学校中两学生(用i1,i2
表示)间的协方差为:本文档共51页;当前第20页;编辑于星期日\18点19分组内相关(intra-classcorrelation,ICC)ICC测量了学校间方差占总方差的比例,实际上它反映了学校内个体间相关,即水平1单位(学生)在水平2单位(学校)中的聚集性或相似性。本文档共51页;当前第21页;编辑于星期日\18点19分
由于模型不止一个残差项,就产生了非零的组内相关。若为0,表明数据不具层次结构,可忽略学校的存在,即简化为传统的单水平模型;反之,若存在非零的,则不能忽略学校的存在。本文档共51页;当前第22页;编辑于星期日\18点19分随机系数模型是指协变量的系数估计不是固定的而是随机的,即协变量对反应变量的效应在不同的水平2单位间是不同的。仍以学校与学生两水平数据结构说明随机系数模型基本结构与假设。随机系数模型(RandomCoefficientModel)本文档共51页;当前第23页;编辑于星期日\18点19分
方差成份模型中协变量的系数估计为固定的,表示示协变量对反应变量的效应是固定不变的。在随机系数模型中协变量的系数估计为,示每个学校都有其自身的斜率估计,表明协变量对反应变量的效应在各个学校间是不同的。随机系数模型基本形式第一层:第二层:本文档共51页;当前第24页;编辑于星期日\18点19分
表示第j个学校的y随x变化的斜率;表示全部学校的y随x变化的斜率的平均值(平均斜率)。是指各学校的y随x变化的斜率的方差。本文档共51页;当前第25页;编辑于星期日\18点19分
模型为固定部分与随机部分之和。其中,固定效应用均数描述,它决定了全部学校的平均回归线,这条直线的截距即平均截距,直线的斜率即平均斜率。为随机系数。将模型改记为:
随机效应用方差描述,它反映了各学校之间
y
的变异与协变量x的关系。模型随机部分具多个残差项,需估计3个随机参数,即方差、、。本文档共51页;当前第26页;编辑于星期日\18点19分
为第二层的解释变量(可包含多个),可以在零模型与完整模型之间,根据研究目的,设置不同的随机成分和固定成分,构建一系列分析模型。完整模型(水平1和水平2上均有解释变量)第一层:第二层:本文档共51页;当前第27页;编辑于星期日\18点19分
反应变量向量的协方差结构从最基本的两水平数据结构来考察反应变量向量的协方差结构(零模型或方差成分模型)即只包括随机参数和。对应于方差成分模型,反应变量方差为水平1和水平2方差之和:本文档共51页;当前第28页;编辑于星期日\18点19分同一个学校的两个学生(用,表示)间的协方差为:因此,同一学校三名学生的协差阵为本文档共51页;当前第29页;编辑于星期日\18点19分两个学校,若一个学校抽取了三名学生,另一个学校抽取了两名学生,则具有2个水平2单位(学校)的反应变量向量Y总的协差阵可表达为(总共5名学生),不同学校学生之间协方差为0。容易扩展到多个学校的情形。00本文档共51页;当前第30页;编辑于星期日\18点19分固定与随机参数估计方法最大似然估计(MaximumLikelihood,ML)基于普通残差项限制性最大似然估计(RestrictedMaximumLikelihood,REML)基于全残差项,即包含所有的随机变异SAS、SPSS默认采用REML本文档共51页;当前第31页;编辑于星期日\18点19分1.重复测量数据的多水平模型复测量时,测量点为水平1单位,研究对象作为水平2单位,具有典型的层次结构特征。采用多水平模型的具有如下特点:可估计不同层次的测量误差;不要求相等的时间间隔,拟合个体生长曲线及平均生长曲线测量点个数可不相等,即允许存在缺失可引入解释变量
多水平模型的应用本文档共51页;当前第32页;编辑于星期日\18点19分2.Meta分析可视为两水平的层次结构Meta分析主要根据“效应尺度”的同质性检验结果,而决定采用固定效应模型或随机效应模型来合并每项研究的“效应尺度”。视为研究水平与个体水平的两水平结构,采用多水平模型可分析影响研究结果间差异的因素,如研究水平上的有关协变量,包括样本含量、设计类型等本文档共51页;当前第33页;编辑于星期日\18点19分3.空间变异的多水平模型疾病发生在空间上的变异:个体为水平1,地区为水平2例如,若干地区某时期的死亡记录、死者个人特征、地区特征等,可以分析这些解释变量是否能够解释死亡率在地区之间的变异,也可以分析死亡率的差别是否在地区之间不同等本文档共51页;当前第34页;编辑于星期日\18点19分4.多变量多水平模型在医学研究中,研究者常对个体作几种测量(即测量几个指标),如收缩压、舒张压和心率,如果将它们作为反应变量一起进行分析,就可以设置多变量模型,分析解释变量诸如年龄、性别、是否锻炼、是否吸烟等与这三个反应变量的关系。此时,是将其作为一个两水平模型,每一个体作为一个水平2单位,3种测量组成水平1单位。本文档共51页;当前第35页;编辑于星期日\18点19分实例一项初级学校项目(JuniorSchoolProject)的部分数据,包含了London65所初级中学共4059名学生的数据,有如下变量:School:学生所在学校代码Student:学生IDExam16:16岁时考试成绩(标化)Exam11:11岁时考试成绩(标化)Gender:性别,0男生,1女生TypeSch:学校类型,1混合,2男校,3女校Avexam:各学校11岁时的平均分(标化)本文档共51页;当前第36页;编辑于星期日\18点19分两层结构模型1:无解释变量学校1学生学生学校k学生学生观测指标:X,Y水平2水平1本文档共51页;当前第37页;编辑于星期日\18点19分SPSS操作AnalyzeMixedModelsLinear…12本文档共51页;当前第38页;编辑于星期日\18点19分Random…34Statistics…5OK本文档共51页;当前第39页;编辑于星期日\18点19分模型1结果反映学校差异的估计值为0.171598,具有统计学意义,不同学校教学水平有差异本文档共51页;当前第40页;编辑于星期日\18点19分模型2入学成绩(11岁时)可能对16岁的成绩有影响,纳入Exam11,拟合如下模型即入学成绩Exam11同时作为固定因子和随机因子本文档共51页;当前第41页;编辑于星期日\18点19分SPSS操作AnalyzeMixedModelsLinear…12本文档共51页;当前第42页;编辑于星期日\18点19分Fixed…Random…34本文档共51页;当前第43页;编辑于星期日\18点19分5Statistics…6OK本文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年涂料产品质量承诺保证书
- 临时性劳务用工合同样本
- 住家保姆劳务合同范本
- 店面出租合同样式
- 业务员提成协议书范本2024年
- 2024以土地入股建厂合同
- 贵州省七年级上学期语文期中试卷7套【附答案】
- 工程总承包合同书模板示例
- 企业合作项目协议
- 借款合同范例解析
- 【川教版】《生命 生态 安全》二年级上册第12课 少点儿马虎 多点儿收获 课件
- 人教版数学四年级上册第五单元 《平行四边形和梯形》 大单元作业设计
- 静配中心差错预防
- 送教上门体育、健康教案教学内容
- 高夫品牌市场分析报告
- 职业规划书-数字化设计与制造技术
- 国家临床重点专科建设项目申报书
- 成语故事一叶障目
- 美术培训幼儿园课件
- 《中小学书法教育指导纲要》解读
- 煤炭检验培训课件
评论
0/150
提交评论