




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1数据分析的背景计量资料单因素统计分析对于两组计量资料的比较,一般采用t检验或秩和检验。对于两个变量的相关分析采用Pearson相关分析或Spearman相关分析考虑多因素的影响,对于应变量(反应变量)为计量资料,一般可以考虑应用多重线性回归模型进行多因素分析。第1页/共81页2数据分析的背景单因素的分类资料统计分析,一般采用Pearson 2进行统计检验,用Odds Ratio及其95%可信区间评价关联程度。考虑多因素的影响,对于反应变量为分类变量时,用线性回归模型P=a+bx就不合适了,应选用Logistic回归模型进行统计分析。第2页/共81页3Logistic回归模型按研究设计分类非配
2、对设计:非条件Logistic回归模型配对的病例对照:条件Logistic回归模型按反应变量分类二分类Logistic回归模型(常用)多分类无序Logistic回归模型多分类有序Logistic回归模型第3页/共81页4基础知识通过下例引入和复习相关概念例如:研究患某疾病与饮酒的关联性患病率 P1=a/m1 P2=b/m2 饮饮酒酒 (X=1) 不不饮饮酒酒 (X=0) 合合计计 患患病病(y=1) a b n1 未未患患病病(y=0) c d n2 合合计计 m1 m2 N 第4页/共81页5基础知识 Odds(优势)(1) 111111PPOddsPPP 1POddsPP越大,则Odds越
3、大;P越小,则Odds越小 并且 0Odds+ 第5页/共81页6基础知识 P与Odds一一对应 对于两个Odds的比较,一般用它们的Ratio,并称为Odds Ratio(OR),其定义如下: 其样本估计统计量为1OddsPOdds12OddsOROddsadORbc第6页/共81页7基础知识 故比较两个率 比较OR =1? OR1 ? OR1?12121PPOddsOddsOR12121PPOddsOddsOR第7页/共81页8(二分类)Logistic回归模型因为0Odds+ 所以 - ln(Odds) |z| x .4117232 .1780719 2.31 0.021 _cons -
4、7.962891 .1162679 -68.49 0.000 2.31( )bzse b第16页/共81页17Logistic模型的单个回归系数检验 关键是如果 0,意味自变量X与Y无关联性。由于 的估计存在抽样误差,即使 =0,其估计值b一般不为0,故需检验 0? H0: 0 H1: 0 0.05 检验统计量 可以证明: H0: 0 为真时,z近似服从标准正态分布,即:|z|1.96,P0.05,拒绝H0( )bzse b第17页/共81页18实例1:用Logistic模型进行统计分析 实例1的回归系数估计为 se(b)=0.1780719, z=b/se=2.31 ,P=0.021 则拒绝
5、H0。 如果对模型中所有的自变量进行检验,则称为模型检验。如实例2,对两个自变量进行检验,故这是模型检验。20.05,df第24页/共81页25实例2应用Logistic模型校正混杂作用 应用Stata软件进行最大似然估计,得到模型拟合的主要结果如下 似然函数比为2ln(L)76.32,df=2,P0.001,因此拒绝H0 : 1= 2=0 ,可以认为 1和 2不全为0。第25页/共81页26实例2应用Logistic模型校正混杂作用 应用Stata软件进行最大似然估计,得到回归系数估计的主要结果如下 饮酒: -0.000021 0.999979ORe第26页/共81页27多自变量Logist
6、ic模型的OR解释 在本例中,对于同为吸烟或不吸烟的对象而言(x2相对固定不变), 饮酒(x1=1)的对数Odds为 不饮酒(x1=0)的对数Odds为1 10122()xLog Oddsx1 0022()xLog Oddsx第27页/共81页28多自变量Logistic模型的OR解释则饮酒的对数Odds Ratio为即:饮酒的意义:对于同为吸烟的对象或者同为不吸烟的对象,其饮酒的故称校正吸烟后OR,而前者未考虑吸烟的单因素OR称为crude OR1 11 01ln()()()xxORLog OddsLog Odds1ORe1ORe第28页/共81页29实例2应用Logistic模型校正混杂作
7、用 饮酒: P=1 校正了吸烟因素的情况下,没有足够的证据推断饮酒与AMI患病有关联性。 吸烟: P1ORe第29页/共81页30Logistic模型中的交互作用 实例3:采用病例对照设计研究吸烟和家属史与患肺癌的关联性。 用x1=1,0分别表示吸烟和不吸烟;x2=1,0分别表示有无家属史;用y=1,0分别表示患肺癌和未患肺癌。 有有家家属属史史 无无家家属属史史 患患肺肺癌癌 未未患患肺肺癌癌 患患肺肺癌癌 未未患患肺肺癌癌 吸吸烟烟 200 50 80 6 不不吸吸烟烟 300 450 270 310 合合计计 500 500 350 316 第30页/共81页31实例3:Logistic
8、模型的交互作用 一般而言,吸烟和家属史均是肺癌的重要相关因素,很有可能这两个因素对患肺癌有交互作用,因此采用下列含有交互作用项的Logistic模型。 其中x1和x2的乘积项x1x2称为交互作用项01 1223 1 2( )Logit Pxxx x第31页/共81页32应用Logistic模型分析实例3 用Stata软件对实例3的资料拟合上述模型,得到下列结果: 3=0.955825,P0.04,差别有统计学意义,可以认为吸烟和家属史对患肺癌有交互作用。变变量量 回回归归系系数数. P 95% Conf. Interval x1 1.791759 0.000 1.449155 2.134364
9、 x2 .2481449 0.026 0.029683 0.4666067 x12 .955828 0.040 0.0436748 1.867981 _cons -.4054651 0.000 -0.5515522 -0.259378 第32页/共81页33实例3:Logistic模型的交互作用 由于本例模型为 对于无家属史,x2=0代入模型,得到 由回归系数与OR的关系,得到吸烟的:11.791759 6ORee01 1223 1 2( )Logit Pxxx x01 1( )Logit Px95%CI=(4.3, 8.5)P =3.84,故拒绝H0,可以认为 1+ 3 0 ,差别有统计学意
10、义,可以认为吸烟者患肺癌的风险更大。221313()40.58var()20.05,1第35页/共81页36实例3:Logistic模型的交互作用 同理,为了评价家属史与肺癌的关联性, 根据下列Logistic模型 对于不吸烟x1=0,则上述Logistic模型为 家属史的 P=0.认为0260.05,两个药的疗效差异无统计学意义。模型病情重x2=1代入模型,得到1 .2047944 02131( )()Logit Px01 12 23 1 2( )Logit Pxxx x第43页/共81页44Logistic模型中的交互作用 即:病情重时的药物变量x1的回归系数为 对于在病情重的情况下,两个
11、药的疗效是否有差异需检验 1+ 3=0,用Stata软件计算得: 检验统计量 242.16, df=1,P0第44页/共81页45实例4小结 在病情轻的情况下,两个药的疗效差异无统计学意义。 在病情重的情况下,可以认为A药的疗效优于B药。 即:不能简单地称A药优于B药或两个药的疗效差异无统计学意义。 请注意:在有交互作用的模型中,其主效应(本例x1)解释应谨慎。第45页/共81页46交互作用的小结1. 交互作用的意义就是不同层(某因素的不同水平)另一个研究因素与应变量的之间的关联程度是不同的。2. 在回归分析和方差分析中,经统计检验得到交互作用项有统计学意义只是统计分析的中间结果,不要简单归结
12、为协同作用或拮抗作用,一般要做进一步分析。第46页/共81页47交互作用的小结3.在有交互作用的Logistic模型中,对交互作用项要根据研究目的进行解释,一般应进行分层作简单效应检验,特别很可能某个层有统计学意义而另一个层没有统计学意义。主效应的解释要特别注意,要结合回归模型和变量定义进行谨慎地解释。4.应用交互作用模型可以比较多个OR。第47页/共81页48多分类无序自变量的处理 例5:用横断面调查设计,分析职业与患糖尿病的关联性。 职业:用x1=1,2,3分别表示农民,工人和干部(含知识分子)。 用x2表示年龄。 由于x1是分类无序变量,必须用亚元变量表示。第48页/共81页49多分类无
13、序自变量的处理 职业变量x1直接引入Logistic模型是不合适的,因为模型中引入x1后,模型为 若 10,导致x1越大,患病概率相对越大;若 10.05,即:对于职业为工人与农民而言,其与患病之间的关联性无统计学意义。y 回归系数 P 值 95% CI x12 .3021807 0.401 -0.4034157 1.007777 x13 1.164267 0.003 0.4093795 1.919155 x2 .0458908 0.000 0.0236281 0.0681536 _cons -2.449857 0.000 -3.557851 -1.341864 第51页/共81页52多分类无
14、序自变量的处理x13的回归系数P0.0030.05,说明干部与农民的职业与患糖尿病有关联,其 干部与工人比较,用Stata软件检验12=13,P=0.0230.05,差异有统计学意义。 X2的回归系数P0.001,说明年龄与患病也有关联,其OR=1.04。 1.1642673.20ORe第52页/共81页53引用亚元变量应注意的问题 在Logistic模型中,二分类变量是不区分有序和无序的,因为回归系数的正负号能处理两分类变量所对应的概率大小问题。 在Logistic模型中,用亚元处理多分类自变量时,对同一个因素的一组亚元而言,必须同时引入模型或同时不引入模型,不能若干个亚元在模型中,其它亚元
15、不在模型中,这样会导致模型的参数意义发生改变以致错误解释参数意义。第53页/共81页54多分类有序自变量的处理 例6:用横断面调查设计,分析肥胖与患糖尿病的关联性。 职业:用x1=0,1,2分别表示体重正常,超重和肥胖。 用x2表示年龄。 x1是有序的分类变量(等级变量) Y=1表示患糖尿病,Y=0表示未患糖尿病。第54页/共81页55多分类有序自变量的处理 有序分类变量可以直接引入Logistic模型,也可以按无序分类变量方式采用亚元变量引入模型,一般视资料而决定。 有序分类变量直接引入模型: 体重正常x1=0, 体重超重x1=1, 体重超重与正常的对数OR为01 122ln()( )Odd
16、sLogit Pxx|0022ln()Oddsx|10122ln()Oddsx第55页/共81页56多分类有序自变量的处理 由 体重正常x1=0 体重超重x1=1, 体重超重与正常的对数OR为 作对数反变换,得到体重超重与正常的|0022ln()Oddsx|10122ln()Oddsx|1|01ln()ln()ln()OROddsOdds1ORe01 122ln()Oddsxx第56页/共81页57多分类有序自变量的处理 由 体重超重x1=1, 体重肥胖x1=2, 体重肥胖与超重的对数OR为 作对数反变换,得到体重肥胖与超重的|10122ln()Oddsx|20122ln()2Oddsx|2|
17、11ln()ln()ln()OROddsOdds1ORe01 122ln()Oddsxx第57页/共81页58多分类有序自变量的处理 由此可见,如果直接将有序多分类变量引入模型,就是假定相邻两个等级的总体OR相同,并且不难验证:体重肥胖与体重正常的 。 综合上述,若满足相邻两个等级的总体OR相同的条件下可以直接将有序多分类变量引入模型,对于不满足这个条件,则应采用亚元变量引入模型。12ORe第58页/共81页59多分类有序自变量的处理 对于多分类有序自变量,可以用似然比检验的方法检验相邻两个等级的总体OR是否相同。 在模型1中引入亚元变量,其定义如下:体重正常体重正常体重超重体重超重体重肥胖体
18、重肥胖x1012X11010 x12001第59页/共81页60多分类有序自变量的处理 模型1 用最大似然法得到的似然函数值为L1 模型2: 用最大似然法得到的似然函数值为L2 显然两个模型等价意味 1= 11且2 1= 12 似然比检验统计量为2ln(L)=2(ln(L1)-ln(L2)011 1112 1222( )Logit Pxxx0122( )Logit Pxx第60页/共81页61多分类有序自变量的处理 H0:模型1等价于模型2 H1:模型1不等价模型2 =0.05 H0为真时, 2ln(L)近似服从自由度为1(自变量的分类数2)的 2分布,即: 检验统计量 ,则拒绝H0,选用引入
19、亚元的模型1。20.05,2( )dfLn L第61页/共81页62逐步回归分析 在多因素统计分析中,多个自变量之间存在相关性,往往相互影响,研究者希望寻找主要影响应变量Y的因素。 理论上,只要把各种因素组合都试一遍,寻找变量个数最多,每个变量均有统计学意义,并且模型拟合程度最好的模型,这种模型称为最佳预测模型,这种方法称为寻找最优子集,当变量较多时很难实现。第62页/共81页63逐步回归 为了比较方便地找到最佳预测回归模型,一般采用逐步回归的分析策略建立拟最佳预测回归模型。 逐步回归采用逐个增加最佳变量的方式或逐个减少最差的变量方式找到最佳或拟最佳回归模型。第63页/共81页64逐步回归逐步
20、回归有4种方式:1.前进法: 最开始时,模型中无任何自变量,然后逐个引入变量进入模型,每次在未进入模型的所有变量中挑选一个变量,其P是最小且P值 ,每引入一个变量,重新拟合一次模型,逐步引入变量直至没有满足上述条件的变量可以引入模型为止。第64页/共81页65逐步回归2.后退法:最开始时,把所有的变量引入模型,然后逐次把P值最大并且P 的变量剔除出模型,每次只剔除一个变量,每次剔除一个变量后重新拟合模型,按照上述剔除标准继续剔除变量,直至模型中的所有变量的P 为止。第65页/共81页66逐步回归3.前进逐步回归法 最开始时,模型中无任何自变量,然后逐个引入变量进入模型,每次在未进入模型的所有变
21、量中挑选一个变量,其P是最小且P值 的变量,若有将其剔出模型,然后重新拟合一次模型,逐步引入变量直至没有满足上述条件的变量可以引入模型为止。第66页/共81页67逐步回归4.后退逐步回归法 最开始时,把所有的变量引入模型,然后逐次把P值最大并且P 的变量剔除出模型,每次只剔除一个变量,每次剔除一个变量后考察未在模型中的变量中是否存在P 的变量,若有重新引入模型,然后重新拟合模型,按照上述剔除标准继续剔除变量,直至模型中的所有变量的P0.05 ,故剔除X1第70页/共81页71实例6:逐步回归y y 回归系数回归系数 P P 9595 CI CI x2x2 .0513415.0513415 0.
22、0010.001 .0212178.0212178 .0814652.0814652 x3x3 .0804055.0804055 0.3860.386 - -.1013013.1013013 .2621124.2621124 x4x4 .9146755.9146755 0.0040.004 .2882838.2882838 1.5410671.541067 x5x5 .8314381.8314381 0.0040.004 .263405.263405 1.3994711.399471 x6x6 .1943919.1943919 0.7180.718 - -.8616064.8616064 1.
23、250391.25039 x7x7 - -.5055541.5055541 0.3690.369 - -1.6082291.608229 .5971208.5971208 _cons_cons - -8.546978.546979 9 0.0030.003 - -14.2197214.21972 - -2.874242.87424 X6的P值最大并且P0.05 ,故剔除X6第71页/共81页72实例6:逐步回归y y 回回归归系系数数 P P 值值 9 95 5% %C CI I x x2 2 . .0 05 51 13 35 58 82 2 0 0. .0 00 01 1 . .0 02 2
24、1 12 27 74 41 1 . .0 08 81 14 44 42 22 2 x x3 3 . .0 08 80 00 03 35 57 7 0 0. .3 38 87 7 - -. .1 10 01 14 41 19 9 . .2 26 61 14 49 90 05 5 x x4 4 . .9 90 04 41 16 61 18 8 0 0. .0 00 04 4 . .2 28 80 07 74 49 97 7 1 1. .5 52 27 75 57 74 4 x x5 5 . .8 84 41 11 11 18 83 3 0 0. .0 00 04 4 . .2 27 75 53 3
25、2 22 29 9 1 1. .4 40 06 69 91 14 4 x x7 7 - -. .5 54 40 02 28 88 88 8 0 0. .3 33 30 0 - -1 1. .6 62 26 66 64 43 3 . .5 54 46 60 06 65 58 8 _ _c co on ns s - -8 8. .2 26 65 59 97 73 3 0 0. .0 00 03 3 - -1 13 3. .7 71 11 11 12 2 - -2 2. .8 82 20 08 82 24 4 X3的P值最大并且P0.05,故剔除X3第72页/共81页73实例6:逐步回归y y 回回
26、归归系系数数 P P 值值 9 95 5% %C CI I x x2 2 . .0 05 50 07 73 32 23 3 0 0. .0 00 01 1 . .0 02 20 07 72 26 6 . .0 08 80 07 73 38 86 6 x x4 4 . .8 89 91 13 39 94 43 3 0 0. .0 00 05 5 . .2 26 69 92 26 66 66 6 1 1. .5 51 13 35 52 22 2 x x5 5 . .8 82 23 34 44 43 36 6 0 0. .0 00 04 4 . .2 26 60 05 50 06 67 7 1 1.
27、 .3 38 86 63 38 8 x x7 7 - -. .4 45 57 71 16 66 61 1 0 0. .4 40 01 1 - -1 1. .5 52 24 47 76 68 8 . .6 61 10 04 43 35 58 8 _ _c co on ns s - -6 6. .3 38 80 06 64 49 9 0 0. .0 00 00 0 - -9 9. .6 68 86 62 25 5 - -3 3. .0 07 75 50 04 48 8 X7的P值最大并且0.05,故剔除X7第73页/共81页74实例6:逐步回归y y 回归系数回归系数 P P 95%CI95%CI
28、 x2x2 .0492955.0492955 0.0010.001 .0195836.0195836 .0790075.0790075 x4x4 .9214579.9214579 0.0030.003 .3036946.3036946 1.5392211.539221 x5x5 .8396782.8396782 0.0030.003 .2778044.2778044 1.4015521.401552 _cons_cons - -6.9949566.994956 0.0000.000 - -9.9975319.997531 - -3.9923813.992381 所有变量的P值均= 0.0510
29、 removing x13.p = 0.7183 = 0.0510 removing x64.p = 0.3873 = 0.0510 removing x35.p = 0.4013 = 0.0510 removing x7第75页/共81页76实例6:逐步回归 得到下列回归系数的估计 由上述结果可知与糖尿病患病的主要影响因素是年龄x2,家属史x4和总胆固醇x5。y y 回回归归系系数数 P P 值值 9 95 5% %C CI I x x4 4 . .9 92 21 14 45 57 79 9 0 0. .0 00 03 3 0 0. .3 30 03 36 69 94 46 6 1 1. .5 53 39 92 22 21 1 x x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国烧结球团矿行业调查报告
- 自由锻工上岗证考试题库及答案
- 船舶特大型起重机驾驶工职业技能模拟试卷含答案
- 理货员基础技能培训手册
- 纺丝原液制造工理论学习手册练习试题及答案
- 甲醛装置操作工公司招聘笔试题库及答案
- 建筑施工人员实操任务书
- 保温材料制造工理论学习手册练习试题及答案
- 井矿盐制盐工应急处置分析及对策
- 特种同位素分离工岗位实习报告
- 工艺验证检查指南2025
- 安徽亳州谯城在建风电场项目“9.5”较大高处坠落事故调查报告警示教育专题学习
- 预防给药错误
- 石化公司安全生产管理制度汇编
- 支气管激发试验临床应用中国专家共识(2024版)
- DB4401∕T 11-2018 建筑废弃物运输 车辆标志与监控终端、车厢规格与密闭
- 2025年陕西精益化工有限公司招聘笔试参考题库含答案解析
- 艺术类高中课程走班方案
- 【排放清单】省市县行业温室气体排放清单报告模板
- 出租屋孩子意外免责协议书
- 中国普通食物营养成分表(修正版)
评论
0/150
提交评论