常见统计学错误(2013)_第1页
常见统计学错误(2013)_第2页
常见统计学错误(2013)_第3页
常见统计学错误(2013)_第4页
常见统计学错误(2013)_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、常见统计学错误与纠正常见统计学错误与纠正- 设计与分析设计与分析方积乾方积乾中山大学公共卫生学院中山大学公共卫生学院医学统计与流行病学系医学统计与流行病学系2013年年12月月1. 终点指标过多终点指标过多, 大海捞针大海捞针w 临床试验时,不知道哪个指标在组与组间有差临床试验时,不知道哪个指标在组与组间有差异;异; “确定某个指标后,万一组间没有差异,岂确定某个指标后,万一组间没有差异,岂不被动!不被动!”w 生理、生化、组织学、基因,都做;生理、生化、组织学、基因,都做; “内容丰富,显得水平高!内容丰富,显得水平高!”w 许多仪器一下子可以做许多项目;许多仪器一下子可以做许多项目; “许

2、多项目一一分析,哪个有意义,就报告许多项目一一分析,哪个有意义,就报告哪个指标标哪个指标标”错在哪里?错在哪里?w 哪些指标可能有组间差异,必须心中有数。哪些指标可能有组间差异,必须心中有数。 科研的结果应当预见科研的结果应当预见 假说是科研的灵假说是科研的灵魂魂 心中无数,不要心中无数,不要“先上马再说先上马再说”w 指标多,实验工作量大。指标多,实验工作量大。 大海捞针大海捞针 碰运气,不是科研碰运气,不是科研w 指标多,翻来覆去分析,制造假阳性指标多,翻来覆去分析,制造假阳性 Nature杂志统计学指南:常见错误之一杂志统计学指南:常见错误之一 为何翻来覆去分析,会制造假阳性?为何翻来覆

3、去分析,会制造假阳性?Nature常见错误之一常见错误之一w 多重比较多重比较: 对一组数据作多项比较时,必须对一组数据作多项比较时,必须说明如何校正说明如何校正 水平,以避免增大第一类错水平,以避免增大第一类错误的机会误的机会应当如何?应当如何?w 主要终点主要终点(primary end point) :只能一个:只能一个 次要终点次要终点(secondary end point) : 可以几个可以几个, 但勿过多但勿过多w Bonfferoni 校正校正 当同一组数据同时作当同一组数据同时作k次分析时,若限定次分析时,若限定犯假阳性错误的概率总共不超过犯假阳性错误的概率总共不超过 ,则每

4、次分析要用则每次分析要用 来控制假阳性的概率。来控制假阳性的概率。例例 k/005. 0/,10,05. 0kkw 事后分析(事后分析(Post hoc analysis) 看到数据之后才想起来做的分析看到数据之后才想起来做的分析 其结果往往不能被进一步研究所确认其结果往往不能被进一步研究所确认w 不鼓励事先并未计划的亚组分析和校正分析不鼓励事先并未计划的亚组分析和校正分析2. 事后分析,见机行事事后分析,见机行事为何不鼓励事后分析?为何不鼓励事后分析?w 数据是现象,现象具有偶然性;数据是现象,现象具有偶然性; 看到数据后进行的看到数据后进行的“分析分析”属于故作姿态,属于故作姿态,变偶然为

5、变偶然为“必然必然” 忽悠!忽悠!w 看到数据后增加的看到数据后增加的“分析分析”,也属于多重,也属于多重分析,增加假阳性的机会分析,增加假阳性的机会w 必要的亚组分析有助于发现适应症,指导必要的亚组分析有助于发现适应症,指导 个体化治疗;必要的校正分析有助于消除个体化治疗;必要的校正分析有助于消除 混杂偏倚,公平、公正地比较疗效混杂偏倚,公平、公正地比较疗效w 亚组分析和校正分析必须事先在研究计划亚组分析和校正分析必须事先在研究计划 里规定,并说明理由;写文章时,申明这里规定,并说明理由;写文章时,申明这 类分析是事前计划好的类分析是事前计划好的w 事后决定做的分析,如果想写,不能算是事后决

6、定做的分析,如果想写,不能算是 正式结果,只能视为探索性分析。正式结果,只能视为探索性分析。应当如何?应当如何?3. 随机化,说而不做,做而不严随机化,说而不做,做而不严w 处理分配的随机化为什么这么重要处理分配的随机化为什么这么重要? (1) 消除分配处理有意或无意的偏倚。消除分配处理有意或无意的偏倚。 (2) 为实施盲法创造条件。为实施盲法创造条件。 (3) 使有可能利用概率论来描述各干预组之间使有可能利用概率论来描述各干预组之间的差异有多大可能仅仅是由偶然性造成的。的差异有多大可能仅仅是由偶然性造成的。w 将随机化当作将随机化当作“廉价名词廉价名词”,实际没做,却,实际没做,却写写“随机

7、分成两组随机分成两组” 科研道德?科研道德?说错和做错说错和做错w 将随机化当作将随机化当作“廉价名词廉价名词”,实际没做,却,实际没做,却写写“随机分成两组随机分成两组” 科研道德?科研道德?w 将将“随意分组随意分组”当作随机化当作随机化w 将将“机械分组机械分组”当作随机化当作随机化w 略去筛选过程,简单地报告将多少人随机分略去筛选过程,简单地报告将多少人随机分组组w 略去实施过程中丢失对象,将最后两组人数略去实施过程中丢失对象,将最后两组人数说成是随机分组人数说成是随机分组人数应当如何?应当如何?w 成功的随机化取决于:成功的随机化取决于: (1) 产生一个不可预见的分配序列产生一个不

8、可预见的分配序列; (2) “隐蔽隐蔽” (allocation concealment )这个)这个序列,直到分配完毕(必须建立一个分配处序列,直到分配完毕(必须建立一个分配处理的系统)理的系统) 。w 报告如何随机分组,如何报告如何随机分组,如何“隐蔽隐蔽” :谁做随:谁做随机序列,谁收病人,谁分药和发药;分组方机序列,谁收病人,谁分药和发药;分组方案如何保管案如何保管参加者的流程图参加者的流程图 (强烈推荐)(强烈推荐)合格对象合格对象82例例拒绝参与拒绝参与7例例随机分组随机分组75例例分配至实验组分配至实验组38例例接受干预接受干预38例例分配至对照组分配至对照组37例。接受例。接受

9、干预干预36例例,1例因颈部损伤未例因颈部损伤未接受干预接受干预随访例数:随访例数:7周周n=38,11周周n=38,15周周n=38,19周周n=36随访例数:随访例数:7周周n=37,11周周n=36,15周周n=36,19周周n=35纳入分析例数纳入分析例数n=36排除分析例数排除分析例数n=2(因失因失访访)纳入分析例数纳入分析例数n=35,排除,排除分析例数分析例数n=2(1例失访例失访,1例例颈部损伤)颈部损伤)4. 样本量随意决定样本量随意决定, 无依据无依据w 样本量太小?样本量太小? - 真理应经得起重复真理应经得起重复 研究的功效太低研究的功效太低w 样本量越大越好?样本量

10、越大越好? - 时间长、经费不足时间长、经费不足 不能保证数据质量不能保证数据质量w 需要事先估算最小样本量需要事先估算最小样本量 论文必须报告估算最小样本量的根据论文必须报告估算最小样本量的根据 比较两组测定值的均数比较两组测定值的均数20. 0欧洲对比剂研究欧洲对比剂研究 (1)预计欲比较的两总体参数的差值)预计欲比较的两总体参数的差值 (2)预计总体标准差)预计总体标准差 (3)允许出现假阳性结果的机会)允许出现假阳性结果的机会 (4)允许出现假阴性结果的机会)允许出现假阴性结果的机会 dLmg/18. 005. 020. 0dLmg/35. 0欧洲研究的样本量估算欧洲研究的样本量估算决

11、定每组含决定每组含61名患者。名患者。比较两组发生某结局的百分比比较两组发生某结局的百分比(1)预计两组发生某结局的百分比约为)预计两组发生某结局的百分比约为(2)允许犯假阳性错误的机会)允许犯假阳性错误的机会(3)允许犯假阴性错误的机会)允许犯假阴性错误的机会 2, 1221c22122112/)1 (2)1 (2)1 (2ZZNcc南韩研究南韩研究南韩对比剂研究南韩对比剂研究南韩研究的样本量估算南韩研究的样本量估算5剂量剂量-反应关系反应关系 不能作均数比较或回归不能作均数比较或回归例例 有人分析蛇毒因子(有人分析蛇毒因子(CVF)的剂量对血液白细)的剂量对血液白细胞噬菌率的影响,得如下数

12、据,欲讨论剂量胞噬菌率的影响,得如下数据,欲讨论剂量-反应反应关系。关系。 做法做法 1:单因素方差分析:单因素方差分析?!F=0.701,P0.5, 均数间差别无统计学意义均数间差别无统计学意义 为什麽不对?为什麽不对?有负初衷有负初衷 探讨反应随剂量变化的趋势探讨反应随剂量变化的趋势* 由多个剂量组的比较只能得知均数间是否有差异由多个剂量组的比较只能得知均数间是否有差异* 有统计学差异也不等于有剂量有统计学差异也不等于有剂量-反应关系反应关系 做法做法 2: 反应的均数关于剂量作回归分析反应的均数关于剂量作回归分析 ?!为什麽不对?为什麽不对?均数做因变量造成均数做因变量造成“好好”的假象

13、的假象 !* 回归方程是否有统计学意义与反应的变异状况有关回归方程是否有统计学意义与反应的变异状况有关* 以诸个体反应值的均数作回归计算以诸个体反应值的均数作回归计算, 掩盖变异性掩盖变异性对 数 剂 量2.52.01.51.0.50.0-.5噬 菌 率 ( 均 数 )62605856545250484644回归方程:回归方程:Y=61.786 - 6.886 log(剂量剂量)决定系数:决定系数: R2=0.914。正确作法:用个体资料作回归分析正确作法:用个体资料作回归分析回归方程:回归方程: Y = 61.782-6.884 log(剂量剂量)决定系数:决定系数: R2=0.095回归方

14、程无统计学意义,无剂量回归方程无统计学意义,无剂量-反应关系!反应关系! 对数剂量 2.5 2.0 1.5 1.0 .5 0.0 -.5 噬菌率(原始数据90 80 70 60 50 40 30 20 6. 重复测量资料不能时点间两两比较重复测量资料不能时点间两两比较例例 各取各取7只兔子,分别以正常食物和待研究食物喂只兔子,分别以正常食物和待研究食物喂养,在实验前、喂养养,在实验前、喂养5周、周、10周后,各取血测量其中周后,各取血测量其中胆固醇浓度,自然对数转换后胆固醇浓度,自然对数转换后, 数据见表数据见表22.1, 问血清问血清胆固醇浓度随时间变化的趋势是否受该食物影响。胆固醇浓度随时

15、间变化的趋势是否受该食物影响。例例 某药物有新、旧两种剂型。为比较两种剂型的某药物有新、旧两种剂型。为比较两种剂型的代谢情况,对代谢情况,对16例某病患者服药后例某病患者服药后0、4、8、12小小时的血药浓度作了测量,问该药新旧两种剂型的时的血药浓度作了测量,问该药新旧两种剂型的血药浓度血药浓度-时间曲线的差别是否具有统计学意义。时间曲线的差别是否具有统计学意义。常见的不妥常见的不妥i)对每个时间点,分别计算均数、标准差;对每个时间点,分别计算均数、标准差; 将各时间点测量值的均值用线连接,标出将各时间点测量值的均值用线连接,标出“误差误差”线线ii)在各时间点做两组比较在各时间点做两组比较

16、( t 检验或非参数检验)检验或非参数检验)为什麽不对?为什麽不对?(1)连接各时间点测量值均数的方法将掩盖个体)连接各时间点测量值均数的方法将掩盖个体曲线位置和形状的特点:曲线位置和形状的特点: 各均数所对应的点连起来形成的曲线形状可各均数所对应的点连起来形成的曲线形状可能与诸个体的曲线形状毫不相干;能与诸个体的曲线形状毫不相干; 各时间点标上相应的标准差也会误导;各时间点标上相应的标准差也会误导;(2)上述方法无法体现不同时间点的数据来自同)上述方法无法体现不同时间点的数据来自同一个体,而每一个体的多次重复测量值间具有一个体,而每一个体的多次重复测量值间具有相关性。(关键所在)相关性。(关

17、键所在)应当如何?应当如何?1)综合指标法()综合指标法(summary measures approach) 或或 派生变量法(派生变量法(derived variable approach)w 采用少数独立的综合指标来概括每个个体多个时采用少数独立的综合指标来概括每个个体多个时间点的测量值;间点的测量值;w 用单变量方法比较各组的差异用单变量方法比较各组的差异综合指标综合指标2)重复测量资料的方差分析)重复测量资料的方差分析w 先做先做“球形检验:球形检验: 不同时间点上数据之间没有相关性?不同时间点上数据之间没有相关性? 任何两个时间点之间的相关性都一样?任何两个时间点之间的相关性都一样

18、?w得阴性结果才进一步作方差分析。得阴性结果才进一步作方差分析。例例 兔子喂养重复测量资料分析兔子喂养重复测量资料分析1) 处理因素(处理因素(group):):F=31.69,P=0.0001 食物对家兔血清胆固醇有影响;食物对家兔血清胆固醇有影响;2) 测量时间(测量时间(time):):F=11.93,P=0.0003 家兔血清胆固醇浓度随时间变化;家兔血清胆固醇浓度随时间变化;3) 交互效应(交互效应(timegroup):):F=10.57,P=0.0005 不同食物,血清胆固醇浓度变化趋势有所不同。不同食物,血清胆固醇浓度变化趋势有所不同。7. 多维列联表资料不可反复做多维列联表资

19、料不可反复做 检验检验例例 某地区呼吸系统疾病的患病率较高,有人怀某地区呼吸系统疾病的患病率较高,有人怀疑与当地室内点香的习惯有关,经抽样调查,得疑与当地室内点香的习惯有关,经抽样调查,得数据如下数据如下合并后作检验合并后作检验 ?!?! 为什麽不对?为什麽不对?i) 点香与不点香者患病率不可比!点香与不点香者患病率不可比! 年龄组合并掩盖了年龄组合并掩盖了: 点香(点香(B1)与不点香()与不点香(B2)者年龄结构不同)者年龄结构不同ii) 不同年龄组患病率不可比!不同年龄组患病率不可比! 点香与不点香者合并掩盖了点香与不点香者合并掩盖了: 不同年龄组中点香与不点香者比例的不同不同年龄组中点

20、香与不点香者比例的不同正确作法:正确作法: 对数线性模型或对数线性模型或 logistic 回归回归i) 对数线性模型对数线性模型平等地讨论平等地讨论A,B,C三因素对各格子中频数的影响三因素对各格子中频数的影响 仅当其他变量的影响与某变量无关时,才可通过仅当其他变量的影响与某变量无关时,才可通过合并消除该变量合并消除该变量ii) logistic回归回归 反应变量反应变量: 患病与否,解释变量患病与否,解释变量: 点香和年龄点香和年龄w 交互效应交互效应: 点香点香年龄年龄8. 中西医结合疗效研究,应设中西医结合疗效研究,应设 4 组组不少人作两组比较:不少人作两组比较: 试验组:西药试验组

21、:西药A和中药和中药B 对照组:西药对照组:西药A若若 (西药西药A和中药和中药B) 疗效疗效 西药西药A 疗效疗效能说能说 中西医结合好吗中西医结合好吗? 不妥之一不妥之一 如果如果 (西药西药A和中药和中药B) 疗效疗效 西药西药A 疗效疗效能说:能说:“在西药在西药A存在情形下,中药存在情形下,中药B有疗效有疗效”吗?吗?人们质疑:人们质疑:“中药中药B的疗效可能是安慰效应的疗效可能是安慰效应!?”于是,修改为:试验组:西药于是,修改为:试验组:西药A和中药和中药B 对照组:西药对照组:西药A和中药安慰剂和中药安慰剂不妥之二不妥之二若若 (西药西药A和中药和中药B) 疗效疗效 (西药西药

22、A和中药安慰剂和中药安慰剂) 疗效疗效则可以说:则可以说: “在西药在西药A存在情形下,中药存在情形下,中药B有疗效!有疗效!”但是,人们要问:但是,人们要问:w 在西药在西药A不存在情形下,中药不存在情形下,中药B有疗效吗?有疗效吗?w 由此,足以认为中西医结合好吗?由此,足以认为中西医结合好吗? 应当如何?应当如何? 析因设计!析因设计!试验组试验组1:西药:西药A和中药和中药B试验组试验组2:西药:西药A和中药安慰剂和中药安慰剂 试验组试验组3:中药:中药B和西药安慰剂和西药安慰剂 对照组:中药安慰剂和西药安慰剂对照组:中药安慰剂和西药安慰剂若若 (西药西药A和中药和中药B)疗效疗效 -

23、 对照疗效对照疗效 (西药西药A和中药安慰剂和中药安慰剂)疗效疗效 - 对照疗效对照疗效 + (中药中药B和西药安慰剂和西药安慰剂)疗效疗效 - 对照疗效对照疗效 则说:则说:中西医结合疗效比单独疗效之和还大!中西医结合疗效比单独疗效之和还大! 换一个角度看换一个角度看若若 (西药西药A和中药和中药B)疗效疗效 - 对照疗效对照疗效 (西药西药A和中药安慰剂和中药安慰剂)疗效疗效 - 对照疗效对照疗效 + (中药中药B和西药安慰剂和西药安慰剂)疗效疗效 - 对照疗效对照疗效 改写为:改写为:(西药西药A和中药和中药B)疗效疗效-(中药中药B和西药安慰剂和西药安慰剂)疗效疗效 (西药西药A和中药

24、和中药B安慰剂安慰剂)疗效疗效- 对照疗效对照疗效中药中药B存在存在情形下,西药情形下,西药A的疗效的疗效 中药中药B不存在不存在情形下,西药情形下,西药A的疗效的疗效则说:中药则说:中药B的存在的存在使西药使西药A的疗效有所增加!的疗效有所增加! 析因设计可以告诉我们什么?析因设计可以告诉我们什么?1. 西药西药A的作用的作用 2. 中药中药B的作用的作用3. 西药西药A和中药和中药B的协同作用的协同作用若若 西药西药A和中药和中药B的协同作用的协同作用 0才说:才说: 中西医结合好!中西医结合好!例:某中西结合研究例:某中西结合研究 22析因试验结果析因试验结果 (均数均数) 两因素间交互

25、效应(两因素间交互效应(interaction)小结小结1. 终点指标不宜过多终点指标不宜过多, 大海捞针,很可能捞大海捞针,很可能捞 上个假阳性。上个假阳性。2. 马后炮分析不足取,事先计划的分析才马后炮分析不足取,事先计划的分析才可信;不论干预性研究还是观察性研究,可信;不论干预性研究还是观察性研究,都要事先到国际网站注册,以接受同行都要事先到国际网站注册,以接受同行监督。监督。3. 随机化是国际公认的消除选择偏倚的好随机化是国际公认的消除选择偏倚的好办法,不可作为廉价名词,随便说说;办法,不可作为廉价名词,随便说说;说而不做,做而不严,自欺欺人。说而不做,做而不严,自欺欺人。小结小结4. 干预研究的论文要报告样本量估算的依据干预研究的论文要报告样本量估算的依据和方法;对不同的设计,样本量估算的方和方法;对不同的设计,样本量估算的方法不同。法不同。5. 剂量剂量-反应关系既不能通过均数间比较,也反应关系既不能通过均数间比较,也不能用均数对剂量的回归来反映趋势

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论