常见统计学错误(2013)_第1页
常见统计学错误(2013)_第2页
常见统计学错误(2013)_第3页
常见统计学错误(2013)_第4页
常见统计学错误(2013)_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,常见统计学错误与纠正,-,设计与分析,方积乾,中山大学公共卫生学院,医学统计与流行病学系,2013,年,12,月,?,?,?,1.,终点指标过多,大海捞针,临床试验时,不知道哪个指标在组与组间有差,异;,“确定某个指标后,万一组间没有差异,岂,不被动!”,生理、生化、组织学、基因,都做;,“内容丰富,显得水平高!”,许多仪器一下子可以做许多项目;,“许多项目一一分析,哪个有意义,就报告,哪个指标标”,错在哪里?,?,哪些指标可能有组间差异,必须心中有数。,科研的结果应当预见,假说是科研的灵,魂,心中无数,不要“先上马再说”,?,指标多,实验工作量大。,大海捞针,碰运气,不是科研,?,指标多,

2、翻来覆去分析,制造假阳性,Nature,杂志统计学指南:常见错误之一,为何翻来覆去分析,会制造假阳性?,仅分析一个指标时,,P,(,假阳性,),?,0.05,P(,一次分析不犯错误),?,0.95,同时分析,2,个指标时,,2,P,(,两次分析均不犯错误),?,P,(,两次分析均不犯错误),P,(,假阳性),?,1,-,0,.9,5,?,1,?,0,.,90,同时分析,3,个指标时,,3,P,(,假阳性),?,1,-,0,.9,5,?,1,?,0,.,86,?,0,.,14,同时分析,10,个指标时,,10,P,(,假阳性),?,1,-,0,.9,5,?,1,?,0,.,60,?,0,.,40

3、,2,Nature,常见错误之一,?,多重比较,:,对一组数据作多项比较时,必须,说明如何校正,水平,以避免增大第一类错,误的机会,应当如何?,?,主要终点,(primary end point),:只能一个,次要终点,(secondary end point) :,可以几个,但勿过多,?,Bonfferoni,校正,当同一组数据同时作,k,次分析时,若限定,?,,,犯假阳性错误的概率总共不超过,则每次分析要用,?,/,k,来控制假阳性的概率。,例,?,?,0,.,05,k,?,10,?,/,k,?,0,.,005,?,?,2.,事后分析,见机行事,事后分析(,Post hoc analysi

4、s,),看到数据之后才想起来做的分析,其结果往往不能被进一步研究所确认,不鼓励事先并未计划的亚组分析和校正分析,为何不鼓励事后分析?,?,数据是现象,现象具有偶然性;,看到数据后进行的“分析”属于故作姿态,,变偶然为“必然”,忽悠!,?,看到数据后增加的“分析”,也属于多重,分析,增加假阳性的机会,应当如何?,?,必要的亚组分析有助于发现适应症,指导,个体化治疗;必要的校正分析有助于消除,混杂偏倚,公平、公正地比较疗效,?,亚组分析和校正分析必须事先在研究计划,里规定,并说明理由;写文章时,申明这,类分析是事前计划好的,?,事后决定做的分析,如果想写,不能算是,正式结果,只能视为探索性分析。,

5、?,(1),(2),(3),?,3.,随机化,说而不做,做而不严,处理分配的随机化为什么这么重要,?,消除分配处理有意或无意的偏倚。,为实施盲法创造条件。,使有可能利用概率论来描述各干预组之间,的差异有多大可能仅仅是由偶然性造成的。,将随机化当作“廉价名词”,实际没做,却,写“随机分成两组”,科研道德?,?,?,?,?,?,说错和做错,将随机化当作“廉价名词”,实际没做,却,写“随机分成两组”,科研道德?,将“随意分组”当作随机化,将“机械分组”当作随机化,略去筛选过程,简单地报告将多少人随机分,组,略去实施过程中丢失对象,将最后两组人数,说成是随机分组人数,应当如何?,?,(1),?,成功的

6、随机化取决于:,产生一个不可预见的分配序列,;,(2) “,隐蔽”,(,allocation concealment,)这个,序列,直到分配完毕(必须建立一个分配处,理的系统),。,报告如何随机分组,如何“隐蔽”,:谁做随,机序列,谁收病人,谁分药和发药;分组方,案如何保管,参加者的流程图,(强烈推荐),合格对象,82,例,拒绝参与,7,例,随机分组,75,例,分配至实验组,38,例,分配至对照组,37,例。接受,接受干预,38,例,干预,36,例,1,例因颈部损伤未,接受干预,随访例数:,7,周,n,=38,,,11,周,n,=38,,,15,周,n,=38,,,19,随访例数:,7,周,n

7、,=37,,,11,周,n,=36,周,n,=36,,,15,周,n,=36,,,19,周,n,=35,纳入分析例数,n,=36,纳入分析例数,n,=35,,排除,排除分析例数,n,=2(,因失,分析例数,n,=2,(,1,例失访,1,例,访,),颈部损伤),4.,样本量随意决定,无依据,?,样本量太小?,-,真理应经得起重复,研究的功效太低,?,样本量越大越好?,-,时间长、经费不足,不能保证数据质量,?,需要事先估算最小样本量,论文必须报告估算最小样本量的根据,(,(,(,(,比较两组测定值的均数,1,)预计欲比较的两总体参数的差值,?,?,?,1,?,?,2,2,)预计总体标准差,?,3

8、,)允许出现假阳性结果的机会,?,4,)允许出现假阴性结果的机会,?,?,(,Z,2,N,?,4,?,?,/,2,?,Z,?,),?,?,?,?,?,?,欧洲对比剂研究,?,?,0,.,20,?,(,1,)预计欲比较的两总体参数的差值,?,?,0,.,18,mg,/,dL,(,2,)预计总体标准差,?,?,0,.,35,mg,/,dL,?,?,0,.,05,(,3,)允许出现假阳性结果的机会,(,4,)允许出现假阴性结果的机会,?,?,0,.,20,欧洲研究的样本量估算,2,N,?,4,?,?,(,Z,?,/,2,?,Z,?,),?,?,?,?,?,?,2,?,4,?,?,(,1,.,96,?

9、,0,.,84,),?,0,.,35,?,?,0,.,18,?,?,?,(,1,.,96,?,0,.,84,),?,2,?,4,?,0,.,35,?,?,0,.,18,?,?,?,118,.,6,61,名患者。,决定每组含,比较两组发生某结局的百分比,1,)预计两组发生某结局的百分比约为,?,1,?,2,2,)允许犯假阳性错误的机会,?,3,)允许犯假阴性错误的机会,?,?,?,1,?,?,2,c,?,2,N,?,?,?,2,Z,?,2,?,/,2,?,c,(,1,?,c,),?,Z,?,2,?,1,(,1,?,?,1,),?,2,?,2,(,1,?,?,2,),?,?,?,?,1,?,?,?

10、,2,?,?,(,(,(,南韩对比剂研究,南韩研究,(,1,)预计两组发生某结局的百分比约为,20%,和,8%,(,2,)允许犯假阳性错误的机会,?,?,5,%,(,3,)允许犯假阴性错误的机会,?,?,1,?,80,%,?,20,%,可能会有一部分患者失访、数据不全、违反研究方案,,计划每组,150,名,南韩研究的样本量估算,?,2,Z,?,/,2,?,c,(,1,?,?,c,),?,Z,?,2,?,1,(,1,?,?,1,),?,2,?,2,(,1,?,?,2,),?,N,?,?,?,?,?,?,?,1,2,?,?,?,2,?,2,?,1,.,96,0,.,14,(,1,?,0,.,14,

11、),?,0,.,84,2,?,0,.,20,(,1,?,0,.,20,),?,2,?,0,.,08,(,1,?,0,.,08,),?,?,?,?,0,.,20,?,0,.,08,?,?,?,2,?,1,.,96,0,.,14,(,1,?,0,.,14,),?,0,.,84,2,?,0,.,20,(,1,?,0,.,20,),?,2,?,0,.,08,(,1,?,0,.,08,),?,?,?,?,0,.,20,?,0,.,08,?,?,?,1,.,3602,?,0,.,5742,?,?,?,?,259,.,85,?,0,.,12,?,?,2,2,2,5,剂量,-,反应关系,不能作均数比较或回归,

12、例,有人分析蛇毒因子(,CVF,)的剂量对血液白细,胞噬菌率的影响,得如下数据,欲讨论剂量,-,反应,关系。,组数,1,2,3,4,5,6,CVF,剂量,0,10,20,40,80,160,例数,5,5,5,5,5,5,噬菌率(均数),60.0,17.0,57.0,15.2,54.0,16.6,51.0,17.2,48.0,16.0,45.0,16.4,做法,1,:单因素方差分析,?!,F,=0.701,,,P,0.5,均数间差别无统计学意义,为什麽不对?,有负初衷,探讨反应随剂量变化的趋势,*,由多个剂量组的比较只能得知均数间是否有差异,*,有统计学差异也不等于有剂量,-,反应关系,做法,2

13、,:,62,58,56,54,52,50,48,60,46,44,-.5,反应的均数关于剂量作回归分析,?!,回归方程:,Y,=61.786 - 6.886 log(,剂量,),决定系数:,R,2,=0.914,。,0.0,.5,1.0,1.5,2.0,2.5,噬,菌,率,(,均,数,),为什麽不对?,均数做因变量造成“好”的假象,!,*,回归方程是否有统计学意义与反应的变异状况有关,*,以诸个体反应值的均数作回归计算,掩盖变异性,对数剂量,正确作法:用个体资料作回归分析,90,0.0,80,噬,菌,率,(,70,60,50,40,30,回归方程:,Y,= 61.782-6.884 log(,

14、剂量,),决定系数:,R,2,=0.095,回归方程无统计学意义,无剂量,-,反应关系!,对数剂量,20,-.5,.5,1.0,1.5,2.0,2.5,6.,重复测量资料不能时点间两两比较,例,各取,7,只兔子,分别以正常食物和待研究食物喂,养,在实验前、喂养,5,周、,10,周后,各取血测量其中,胆固醇浓度,自然对数转换后,数据见表,22.1,问血清,胆固醇浓度随时间变化的趋势是否受该食物影响。,家兔号,1,2,3,4,5,6,7,处理组,实验前,0.744741,0.904141,0.357641,1.077741,0.584441,0.985041,1.050841,5,周后,2.013

15、341,2.054141,1.137841,1.948741,1.668441,1.926241,1.638641,10,周后,2.621341,1.628441,2.196741,2.239241,0.985041,2.915641,1.225541,家兔号,8,9,10,11,12,13,14,对照组,实验前,0.375741,0.994741,0.598841,0.719741,0.157041,0.861241,0.872141,5,周后,0.667841,0.584441,0.955541,1.354241,0.246141,0.882941,0.555041,10,周后,0.569

16、941,0.461241,0.598841,1.032441,0.613041,0.757041,0.540041,例,某药物有新、旧两种剂型。为比较两种剂型的,代谢情况,对,16,例某病患者服药后,0,、,4,、,8,、,12,小,时的血药浓度作了测量,问该药新旧两种剂型的,血药浓度,-,时间曲线的差别是否具有统计学意义。,/,L,),表,5,4,个时点的某药新旧剂型血药浓度(,?,m,o,l,编,号,0,小时,1,90.53,2,88.43,3,100.01,4,46.32,5,73.69,6,105.27,7,86.32,旧剂型,4,小时,142.12,163.17,144.75,126

17、.33,138.96,126.33,121.06,8,小时,65.54,48.95,86.06,48.95,70.02,75.01,78.95,12,小时,73.28,71.77,80.01,39.54,60.89,83.66,70.24,编,号,8,9,10,11,12,13,14,15,16,新剂型,0,小时,70.53,68.43,57.37,105.80,80.01,56.32,53.69,85.27,66.32,4,小时,97.38,95.27,78.43,120.54,104.75,75.27,110.02,110.01,115.27,8,小时,112.12,133.17,83.1

18、6,136.33,114.75,96.33,138.96,126.33,129.06,12,小时,58.50,56.90,48.34,84.03,65.61,47.52,45.44,69.47,55.29,数,对,的,),%,g,m,(,醇,固,胆,6.5,处理组,),180,旧剂型,6.0,对照组,L,/,l,新剂型,o,m,150,5.5,(,5.0,度,120,浓,4.5,药,血,90,4.0,60,3.5,30,实验前,5周后,10周后,0,4,8,12,图22.1,两组家兔血清胆固醇的对数随时间的变化,时间(小时),图22.2,某药新旧剂型血药浓度随时间的变化,常见的不妥,i),对每

19、个时间点,分别计算均数、标准差;,将各时间点测量值的均值用线连接,标出“误差”,线,ii),在各时间点做两组比较,(,t,检验或非参数检验),6.5,*,胆,固,醇,(,m,g,%,),的,对,数,6.5,6.0,5.5,5.0,4.5,4.0,处理组,对照组,胆,固,醇,(,m,g,%,),的,对,数,6.0,5.5,5.0,4.5,4.0,3.5,处理组,对照组,*,实验前,5周后,10周后,3.5,实验前,5周后,10周后,图22.1,两组家兔血清胆固醇的对数随时间的变化,图22.3,各组家兔血清胆固醇浓度对数的,均数与标准差(* 表示P0.01),为什麽不对?,(,1,)连接各时间点测

20、量值均数的方法将掩盖个体,曲线位置和形状的特点:,各均数所对应的点连起来形成的曲线形状可,能与诸个体的曲线形状毫不相干;,各时间点标上相应的标准差也会误导;,(,2,)上述方法无法体现不同时间点的数据来自同,一个体,而每一个体的多次重复测量值间具有,相关性。(关键所在),应当如何?,1,)综合指标法(,summary measures approach,),或,派生变量法(,derived variable approach,),?,采用少数独立的综合指标来概括每个个体多个时,间点的测量值;,?,用单变量方法比较各组的差异,综合指标(均数),总均数,t,值,df,P,值,处理组,1.79314

21、,1.52891,1.23074,1.75524,1.07931,1.94231,1.30501,1.5192,5.6295,12,0.0001,对照组,0.53784,0.68014,0.71774,1.03547,0.33874,0.83374,0.65574,0.6856,综合指标,数据类型,有峰型,生长型,综合指标,(1),曲线下面积或均数,(2),最大(最小)值,(3),达到最大(最小)反应的时间,(1),回归系数,(2),效应变量的最终值或,改变量,(3),效应变量达到某一特定值所需时间、,效应变量达到基线的特定倍数所需时间,2,)重复测量资料的方差分析,先做“球形检验:,不同时间

22、点上数据之间没有相关性?,任何两个时间点之间的相关性都一样?,?,得阴性结果才进一步作方差分析。,例,兔子喂养重复测量资料分析,1),处理因素(,group,):,F=31.69,,,P=0.0001,食物对家兔血清胆固醇有影响;,2),测量时间(,time,):,F=11.93,,,P=0.0003,家兔血清胆固醇浓度随时间变化;,3),交互效应(,time,group,):,F=10.57,,,P=0.0005,不同食物,血清胆固醇浓度变化趋势有所不同。,?,7.,多维列联表资料不可反复做,?,检验,例,某地区呼吸系统疾病的患病率较高,有人怀,疑与当地室内点香的习惯有关,经抽样调查,得,数

23、据如下,年龄,C,1,(,20,),C,2,20,40,),C,3,40,60,),C,4,(,?,60,),合计,2,A,1,(呼吸系统疾病),A,2,(无呼吸系统疾病),B,1,(点香),B,2,(,不点香),B,1,(点香),B,2,(不点香),330,30,430,40,120,30,220,60,270,60,170,40,90,60,82,58,810,180,902,198,OR,1.02,1.09,1.06,1.06,0.99,合并后作检验,?!,例数,呼吸道疾病,无呼吸道疾病,点香,是,1712,810,902,?,2,=0.012,P=,0.91,否,378,180,198

24、,例数,呼吸道疾病,无呼吸道疾病,年龄,20,830,360,470,?,2,=75.311,P=,0.001,20 ,430,150,280,40 ,540,330,210,60,290,150,140,为什麽不对?,i),点香与不点香者患病率不可比!,年龄组合并掩盖了,:,点香(,B1,)与不点香(,B2,)者年龄结构不同,ii),不同年龄组患病率不可比!,点香与不点香者合并掩盖了,:,不同年龄组中点香与不点香者比例的不同,正确作法:,对数线性模型或,logistic,回归,i),对数线性模型,平等地讨论,A,,,B,,,C,三因素对各格子中频数的影响,?,仅当其他变量的影响与某变量无关时

25、,才可通过,合并消除该变量,ii),logistic,回归,反应变量,:,患病与否,解释变量,:,点香和年龄,?,交互效应,:,点香年龄,8.,中西医结合疗效研究,应设,4,组,不少人作两组比较:,试验组:西药,A,和中药,B,对照组:西药,A,若,(,西药,A,和中药,B),疗效,西药,A,疗效,能说,中西医结合好吗,?,不妥之一,如果,(,西药,A,和中药,B),疗效,西药,A,疗效,能说:“在西药,A,存在情形下,中药,B,有疗效”吗?,人们质疑:“中药,B,的疗效可能是安慰效应,!?”,于是,修改为:试验组:西药,A,和中药,B,对照组:西药,A,和中药安慰剂,不妥之二,若,(,西药,

26、A,和中药,B),疗效, (,西药,A,和中药安慰剂,),疗效,则可以说:,“在西药,A,存在情形下,中药,B,有疗效!”,但是,人们要问:,?,在西药,A,不存在情形下,中药,B,有疗效吗?,?,由此,足以认为中西医结合好吗?,应当如何?,析因设计!,试验组,1,:西药,A,和中药,B,试验组,2,:西药,A,和中药安慰剂,试验组,3,:中药,B,和西药安慰剂,对照组:中药安慰剂和西药安慰剂,若,(,西药,A,和中药,B),疗效,-,对照疗效,(,西药,A,和中药安慰剂,),疗效,-,对照疗效,+ (,中药,B,和西药安慰剂,),疗效,-,对照疗效,则说:,中西医结合疗效比单独疗效之和还大!

27、,换一个角度看,若,(,西药,A,和中药,B),疗效,-,对照疗效,(,西药,A,和中药安慰剂,),疗效,-,对照疗效,+ (,中药,B,和西药安慰剂,),疗效,-,对照疗效,改写为:,(,西药,A,和中药,B),疗效,-(,中药,B,和西药安慰剂,),疗效, (,西药,A,和中药,B,安慰剂,),疗效,-,对照疗效,中药,B,存在,情形下,西药,A,的疗效,中药,B,不存在,情形下,西药,A,的疗效,则说:中药,B,的存在,使西药,A,的疗效有所增加!,析因设计可以告诉我们什么?,1.,西药,A,的作用,2.,中药,B,的作用,3.,西药,A,和中药,B,的协同作用,若,西药,A,和中药,B

28、,的协同作用, 0,才说:,中西医结合好!,例:某中西结合研究,2,2,析因试验结果,(,均数,),西药,安慰剂,A,药,平均,A,药安慰剂,中药,安慰剂,10 32 22,22,B,药,36 44 40,8,平均,23 38,30.5,15,B,药安慰剂,26,12,19.0,主效应,(main effect),某一因素各水平间的平均差别。,西药的主效应,(44,36),(32,10),2 =,(,8,22,),/2,=,15,中药的主效应,(44,32),(36,10),2 =,(,12,26,),/2,=,19,注意:如果原设计为两组比较:,(,A,药和,B,药合用)组和,A,药组,中药的效应,A,药和,B,药合用的效应,A,药单独效应,44,32,12 19,两组比较低估了中药的效应!,两因素间交互效应(,interaction,),(,1,),A,药和,B,药互相影响对方的效应?,AB,B,药,存在,时,A,药效应,B,药,不存在,时,A,药效应,/2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论