已阅读5页,还剩69页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,多因素分析,温州医学院环境与公共卫生学院叶晓蕾,2,概念多因素分析是同时对观察对象的两个或两个以上的变量进行分析。常用的统计分析方法有:多元线性回归、Logistic回归、COX比例风险回归模型、因子分析、主成分分析,等。,3,多变量资料数据格式,Y为定量变量LinearRegressionY为二项分类变量BinaryLogisticRegressionY为多项分类变量MultinomialLogisticRegressionY为有序分类变量OrdinalLogisticRegressionY为生存时间与生存结局CoxRegression,4,Y,X直线回归Y,X1,X2,Xm多元回归(多重回归),第十五章多元线性回归(multiplelinearregressoin)P.261,例:欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。,5,0为回归方程的常数项(constant),表示各自变量均为0时y的平均值;m为自变量的个数;1、2、m为偏回归系数(Partialregressioncoefficient)意义:如1表示在X2、X3Xm固定条件下,X1每增减一个单位对Y的效应(Y增减个单位)。e为去除m个自变量对Y影响后的随机误差,称残差(residual)。,多元回归方程的一般形式,一、多元回归模型,6,为y的估计值或预测值(predictedvalue);b0为回归方程的常数项(constant),表示各自变量均为0时y的估计值;,由样本估计而得的多元回归方程:,b1、b2、bm为偏回归系数(Partialregressioncoefficient)意义:如b1表示在X2、X3Xm固定条件下,X1每增减一个单位对Y的效应(Y增减b个单位)。,7,适用条件:,线性(linear)、独立性(independent)、正态性(normal)、等方差(equalvariance)“LINE”。线性自变量与应变量的关系是线性的。用散点图判断。独立性任意两个观察值互相独立。常利用专业知识判断。正态性就自变量的任何一个线性组合,应变量y均服从正态分布。即要求残差服从正态分布。常用残差图分析。等方差就自变量的任何一个线性组合,应变量y的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。,8,9,(1)因素筛选:(因素分析)例如影响高血压的诸多因素中:1)哪些是主要因素?2)各因素的作用大小?(2)提高回归方程的估计精度多元回归比只有一个自变量的简单直线回归更能缩小应变量Y对其估计值的离差,在预测和统计控制方面应用的效果更好。(3)控制混杂因素,多元线性回归除具有直线回归的基本性质外,还具有以下特点(用途):,10,(1)用各变量的数据建立回归方程(2)对总的方程进行假设检验(3)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。,二、多元回归分析步骤,对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。,11,例15-1(P.262)27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。,12,由上表得到如下多元线性回归方程:,1、建立回归方程,13,2、回归方程的假设检验F检验,结果无显著性1)表明所观察的自变量与应变量不存在线性回归关系;2)也可能由于样本例数过少;结果有显著性表明至少有一个自变量与应变量之间存在线性回归关系。,H0:1=2=m=0H1:1、2、m不等于0或不全等于0,14,15,3、各个偏回归系数的假设检验t检验,将总胆固醇(X1)剔除。注意:通常每次只剔除关系最弱的一个因素。对于同一资料,不同自变量的t值可以相互比较,t的绝对值越大,或P越小,说明该自变量对Y所起的作用越大。,16,重新建立不包含提出因素的回归方程,注意:表中偏回归系数已变化。,17,对新建立的回归方程进行检验,检验结果有显著性意义。,18,对新方程的偏回归系数进行检验,检验结果均有意义,因此回归方程保留甘油三酯(X2)、胰岛素(X3)和糖化血红蛋白(X4)三个因素。最后获得回归方程为:,19,1、确定系数(R2):,意义:在y的总变异中,由x变量组建立的线性回归方程所能解释的比例。01,越大越优。特点:R2是随自变量的增加而增大。因此,在相近的情况下,以包含的自变量少者为优。,三、回归方程的评价,、R复相关系数(multiplecorrelationcoefficient)表示m个自变量共同对应变量线性相关的密切程度。0R1。即Y与的相关系数。,20,、校正确定系数(adjustedR-square,R2a)越大越优。R2a不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。校正确定系数的计算:,p为方程中包含的自变量个数,pm。R2一定时,pR2a,P.268,21,22,四、各自变量的评价,1、偏回归平方和是指将某自变量xj从回归方程中剔除后所引起的回归平方和的减少量间接反应了自变量xj对应变量的贡献大小。各个自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到。,23,对例15-1作回归分析的部分中间结果,SS回(X1)=133.711133.098=0.613SS回(X2)=133.711121.748=11.963SS回(X3)=133.711113.647=20.064SS回(X4)=133.711105.917=27.794,24,2、标准化偏回归系数(standardizedpartialregressioncoefficient)消除测量单位影响后的偏回归系数标准化偏回归系数。意义:,用以比较各自变量对应变量的影响程度大小(即相对贡献大小)。,25,bjX的偏回归系数Sj为自变量的标准差SY为应变量的标准差,若将各变量先经标准状态化处理后,再进行多元回归,则所得到的偏回归系数即为标准偏回归系数。,计算:,26,对血糖影响大小的顺序依次为:糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)。比较糖化血红蛋白和甘油三酯的标准偏回归系数:0.413/0.354=1.17(倍)糖化血红蛋白对血糖的影响强度约为甘油三酯的1.17倍。,例15-1资料,比较各个自变量对血糖的贡献大小比较。,27,五、自变量的筛选基本思路:尽可能将回归效果显著的自变量选入方程中,作用不显著的自变量排除在外。(1)全局择优法(allpossiblesubsetsselection):(2)逐步选择法,28,1、全局择优法(最优子集回归)(allpossiblesubsetsselection):有m个自变量就有2m-1个自变量子集。在各子集中选择最优的回归方程。仅适用于自变量个数不太多的情况。,29,2、向前筛选法(Forwardselection):事先给定一个入选标准,即(通常=0.05),然后根据各因素偏回归平方和从大到小,依次逐个引入回归方程至无显著性自变量可以入选为止,因素一旦入选便始终保留在方程中而不被剔除。局限性:后续变量的引入可能会使先进入方程的变量变得不重要。,30,3、向后剔除法(Backwardelimination)首先建立全部自变量的全回归方程,给定剔除标准,根据各因素偏回归平方和从小到大,依次逐个将无显著性的自变量从回归方程中剔除。优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果。,31,4、逐步法(Stepwise):给出入选标准(通常1=0.05)和剔除标准(通常2=0.10),每次选入一个在方程外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这个过程逐步进行,直到没有有统计意义的自变量可以入选,也没有无统计学意义的自变量保留在方程中为止。实际工作中,多采用逐步法。用上述方法对上例资料进行分析。,32,六、应用多元线性回归分析时需注意的事项(1)样本量要求:无精确的计算公式。据经验,样本量应是自变量数的510倍以上。(20?)(2)做预报时,只能在自变量X的观察值范围内进行;(3)在资料要求上,应变量Y服从正态分布;(4)注意资料的特异点(outlier);,33,(5)观测值重新量化问题,二项分类资料:用X表示分类变量,阴性为0,阳性为1。有序多项分类资料:用一个X作为分类变量,以自然数0,1,2,赋值。如将病情分为轻中重三类时,用X表示病情,赋值方法为:,无序多项分类资料:,或,34,上述以职员作为对比水平(基础水平)。哑变量X1、X2、X3分别代表了工人、农民、干部与职员相比的系数。,哑变量代表的是同一个变量的不同取值,在分析时应当同时进入或移出方程。即使只有部分哑变量有统计学意义也是如此。,35,(7)自变量的联合作用分析若要考虑X3、X4对应变量y的联合作用,可设置一个新变量X5=X3X4。若b3、b4和b5都有统计学意义,则说明X3、X4对应变量既有单独作用,又有交互作用。,(6)自变量筛选过程中引入和剔除变量时检验水准的确定1)引入变量检验的水准小于或等于剔除变量时检验的水准2)通常引入变量检验的水准为0.05,剔除变量时0.10,但不绝对。,36,说明X3、X4对应变量既有单独作用,又有交互作用。即说明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。,37,(8)自变量的共线性当自变量之间存在较强的相关关系时,称之为共线性。后果偏回归系数的估计值容易失真。当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:1)在某个检验水准下,整个回归方程有统计学意义,但是每个偏回归系数的检验均无统计学意义。2)偏回归系数的符号与医学专业知识不一致。3)参数估计的标准误变得很大,使t值变得很小,P值很大。,38,判断方法:利用自变量间的相关系数阵。(r0.9,共线性可能性大)处理方法:最简单、有效的方法是根据专业知识人为去除在专业上比较次要的、或缺失值较多、测量误差较大的共线性因子。,39,(9)残差分析模型诊断,通常以标准化残差(standardizedresidual)为纵坐标,以为横坐标,作残差图。,40,41,第十六章Logistic回归,一、概念Logistic回归是一种适用于应变量为分类值多因素概率型曲线模型。,Y为二项分类:非条件Logistic回归成组设计条件Logistic回归配对设计,Y为多分类:多分类Logistic回归,P.278,42,BinaryLogistic适用于应变量为二项分类的资料。应变量(Y)在一组自变量(X)的作用下所发生的结果赋值规则为:,logistic回归模型:,统计学中,把ln(P/Q)称为P的Logit转换或对数转换,即LogitP。由此得到的回归方程,称为Logistic回归方程。,出现阳性的结果1,其概率用P来表示;出现阴性的结果0,其概率用Q或(1P)来表示。,43,由上式可得:,由样本估计而得的logistic回归模型:,44,将P/Q称为比数(odds,优势、比值);两个比数之比称为比数比OR(oddsratio,优势比、比值比)。第i个观察对象的发病概率比数(odds)为Pi/Qi,则:,第l个观察对象的发病概率比数为Pl/Ql,则:,45,则:,式中:同一因素xj的不同暴露水平之差。bj在其它自变量固定不变的情况下,xj的水平每增加一个单位时,ln(OR)的改变量,即所引起的比数比为增加前的ebj倍,若Xj赋值为:,46,bj=0时,ORj=1,说明因素xj对疾病不起作用;bj0时,ORj1,说明xj是一个危险因素;bj0时,ORj1,说明xj是一个保护因素。,对于发病率很低的慢性病(如心脑血管疾病、恶性肿瘤等),由于P1,OR可作为RR的近似估计:,所以,logistic回归常用于流行病学调查资料,其优点是得到某一因素的回归系数估计值后,就可得到不同水平下相对危险度的近似估计值。,47,模型的应用主要有三个方面:筛选危险因素:求出各协变量对应变量的比数比(OR);校正混杂因素:可以很方便地控制混杂因素,得到校正后比数比的估计值和置信区间;预测与判断:Logistic回归模型是概率型模型,在一定条件下能预测某事件发生的概率,或估计各种自变量组合条件下应变量的某一类结果是否发生。,48,二、Logistic回归的参数估计及假设检验,例:在研究医院抢救急性心肌梗塞(AMI)患者能否成功的危险因素调查中,某医院收集了5年中该院所有的AMI患者的抢救病史,共200例。其中P表示抢救是否成功(0表示成功,1表示死亡),X1表示抢救前是否已休克(0表示未休克,1表示已休克),X2表示抢救前是否已心衰(0表示未心衰,1表示已心衰),X3表示患者从开始有AMI症状到抢救时是否已超过12小时(0表示未超过12小时,1表示已超过12小时)。试分析影响抢救成功率的因素。,49,AMI患者的抢救危险因素资料,50,(一)Logistic回归的参数估计及意义,参数估计方法:最大似然法(maximumlikelihood)。最大似然法的基本思想:先建立似然函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,即称为参数的最大似然估计值。,Pi第i例观察对象处于暴露条件下阳性结果发生的概率。,51,(一)Logistic回归的参数估计及意义,参数估计方法:最大似然法(maximumlikelihood),b0=-2.086,表示在其它自变量均为0时死亡优势的对数值;exp(b0)=0.124是无休克、无心衰和抢救及时组死亡的优势,当死亡概率很低时,近似等于自然死亡率。,52,b1=1.110X1的logistic回归系数;exp(1.110)=3.033,表示在其它自变量取值固定时,休克与没有休克相比死亡的优势比(OR),反映死亡与休克的关联程度。,53,(二)假设检验及回归系数的区间估计,似然比检验比较两个模型的拟合效果。,模型1含较少自变量,模型2含较多自变量。H0:模型1与模型2拟合效果无区别H1:模型1与模型2拟合效果不同检验统计量:,2lnL1为模型1的值,2lnL2为模型2的值。G反映模型2较模型1拟合优度提高的程度。G服从2(v)分布,v=增加变量的个数,-2lnL被称为Deviance,记为D。,54,2.Wald检验用于回归系数的假设检验。,H0:=0H1:0检验统计量:,55,3.优势比的估计,56,LogisticRegression,显示的是应变量的赋值情况。BinaryLogistic过程默认以应变量Y=1所对应的概率为P,即以P(Y=1)建立模型。,57,Block0:BeginningBlock是模型中只有常数项,而不含任何自变量的输出结果。,Block1:Method=BackwardStepwise(LikelihoodRatio)开始输出将自变量引入模型后的结果。采用BackwardStepwise(LR)法作自变量筛选。,58,对模型全局检验的结果。Step统计量是每一步与上一步比较的似然比检验结果;Block统计量是指将Block1(或Block2)与Block0相比的似然比检验结果;Model统计量是指模型的似然比检验的结果。,59,模型的拟合优度情况简报,60,模型对应变量的分类预测结果,模型的预测准确率,61,标准化偏回归系数:,Sj为变量Xj的标准差。,62,是指若将各个自变量从模型中移除时模型的改变情况。,63,例:在某项
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版门卫室突发事件应对服务合同4篇
- 2025年度绿色能源项目代理采购合同范本4篇
- 二零二五年度:环保产业投资合作合同标的污染治理协议3篇
- 2025年度房屋买卖合同风险评估与防范措施4篇
- 2025年销售团队劳动合同模板及实施要点3篇
- 2025年度商业地产项目场地开发合作协议4篇
- 二零二五年度大学生实习期间人身意外伤害保险合同4篇
- 二零二五年度体育场馆租赁协议书4篇
- 《集成电路课件Cha》课件
- 2025至2030年中国排球裁判椅数据监测研究报告
- 上海车位交易指南(2024版)
- 医学脂质的构成功能及分析专题课件
- 通用电子嘉宾礼薄
- 钱素云先进事迹学习心得体会
- 道路客运车辆安全检查表
- 宋晓峰辣目洋子小品《来啦老妹儿》剧本台词手稿
- 附录C(资料性)消防安全评估记录表示例
- 噪音检测记录表
- 推荐系统之协同过滤算法
- 提高筒仓滑模施工混凝土外观质量QC成果PPT
- 小学期末班级颁奖典礼动态课件PPT
评论
0/150
提交评论