医学论文中的常见统计学错误_第1页
医学论文中的常见统计学错误_第2页
医学论文中的常见统计学错误_第3页
医学论文中的常见统计学错误_第4页
医学论文中的常见统计学错误_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、编辑课件医学论文中医学论文中的常见统计学错误的常见统计学错误中国疾病预防控制中心编辑课件正确的统计学方法必须贯穿于从课题的统计设计到论文撰写的全过程。编辑课件不管是实验室研究、临床研究还是现场调查,其数据的归纳整理,都要列成一定的标准格式,以便于进行计算机的录入及统计分析。其基本要求为:1. 横为记录,纵为变量2. 对每个变量要起合适的变量名3. 对分类变量中用字符表示的取值在进行计算机录入时必须按照一定的规矩将其转换为数值。编辑课件序号性别 年龄 职业 治疗分组收缩压(mmHg)舒张压(mmHg)心电图疗效001男23 工人A156120有效002男32 农民B 13289显效表1 高血压患

2、者治疗周后的效果编辑课件序号ID性别年龄民族婚姻状况。当前吸烟状况吸烟量(支/日)。0011101男23 汉未婚。不吸。001102男32 汉已婚。吸12 。表2 人群危险因素调查的数据格式编辑课件从统计学的角度,我们并不关心数据是来自临床还是实验室还是现场,我们首先关心的是:数据中那些属于研究者所关心的“产出”?即所谓的因变量反应变量?这些往往是研究者的研究设计假设中的产出。这些数据的属性:是定性还是定量资料。确定了所关心的研究产出后,其它的变量就都可以解释为是这类变量的属性。研究者要做的工作是:分析这些产出的基本情况研究这些属性是否对于他所关心的产出存在关联,或叫有影响。这就是统计的几件基

3、本工作:1. 定水平,作比较,找关系。编辑课件一、计数资料分析中的常见错误举例一、计数资料分析中的常见错误举例率与构成比某研究想了解筛查与自查相比发现的肝癌病例分期是否存在差异,是否筛查更能发现早期肝癌病人。编辑课件一、计数资料分析中的常见错误举例一、计数资料分析中的常见错误举例率与构成比(续)编辑课件一、计数资料分析中的错误举例一、计数资料分析中的错误举例2. 样本量/阳性例数较少时的统计分析某地区乙肝表面抗原阳性率5.04 1783531合计5.85 85145315-4.82 60124510-4.20 253215-5.75 5874-2.27 2253-4.26 4562-2.94

4、2381-阳性率(%)阳性人数样本人数年龄别编辑课件编辑课件年龄组 样本量阳性数阳性率(%)1-16910.595-29272.4010-248135.2415-130118.46某市乙肝表面抗原检测结果编辑课件年龄组东城西城南城北城1-3.030.000.000.005-0.007.144.763.0810-2.380.004.556.7815-0.0018.189.520.00某市各区的乙肝表面抗原阳性率(%)编辑课件一、计数资料分析中的错误举例一、计数资料分析中的错误举例3. 一般的2检验只能得到总的是否存在差异的结论。月份样本量阳性人数阳性率(%)311114036.042491532

5、1.351673148.46146385.5 762323.2 8521815.4 913617.4 某病不同月份检出率2=58.16 P0.0000编辑课件一、计数资料分析中的错误举例一、计数资料分析中的错误举例类似这样的错误不仅存在于计数资料的统计分析中,经常还发现于Logistic回归的结果分析中。不同职业对于某种职业肿瘤的危险度分析3.24丁0.58丙2.31乙1甲OR 职业类型编辑课件二、统计图表的错误使用1. 统计表的误用:主要是不符合主谓语要求。在统计表中,要突出研究者所要分析的指标,要将其准确的描述清楚,例如在不同条件下该指标的变化、差异等。因此一般,要将不同条件作为主语,指标

6、作为谓语。统计制表要符合主谓语的原则。编辑课件统计表的正确表达格式组别指标1指标2指标3指标4甲乙丙丁编辑课件主谓语颠倒的例子编辑课件正确的表达方式编辑课件二、统计图表的错误使用2. 统计图的误用:1)线图的误用:线图只能用于描述某个指标(如吸烟率)随定量指标(如时间、身高)发生变化的情况。而不能用来描述某个指标(如吸烟率)在某个定性/分类指标不同取值/分类(如地区)之间的差异。因为分类指标中的各个分类值之间没有大小的关系。 2)图的滥用:在PPT中用图比较清晰,而在论文中除非表示趋势,一般不建议用图。编辑课件二、统计图表的错误使用错误的横坐标表示正确的横坐标表示编辑课件三、 Logistic

7、 回归中的主要统计学错误哑变量设置中的错误比数比与相对危险度的关系用哑变量表示的自变量各个水平之间的比数比的估计比数比与相对危险度的正确解释(因素之间作用大小的比较)编辑课件三、 Logistic 回归中的主要统计学错误哑变量设置中的错误下例是一个有关分类变量赋值的例子: 某个吸烟调查中一些自变量的意义及赋值变量名变量意义 变量可能取值研究者对变量的赋值A 如果想要烟,你认为 非常容易;1 你能容易得到吗? 有点容易;2 有点困难;3 非常困难。4B 在过去的一个月里, 没有看到过;1 你是否在电视里看到 看到过,是关于反对吸烟的;2 过有关吸烟的任何内容? 看到过,是关于赞成吸烟的;3 看到

8、过,反对与赞成的都有。4C 你的祖母是否吸烟? 不吸;1 不知道;2 吸烟。3编辑课件三、 Logistic 回归中的主要统计学错误 哑变量设置中的错误:存在的主要问题剖析:变量A、B、C均为分类变量,而分类变量的各个分类值之间是没有大小的。解决的办法:设置哑变量。 用哑变量表示变量B的取值可能 可能回答B1B2B3 没有看到过 000 看到过,是关于反对吸烟的100 看到过,是关于赞成吸烟的010 看到过,反对与赞成的都有001编辑课件三、 Logistic 回归中的主要统计学错误2. 比数比与相对危险度的关系:队列研究中暴露与患病的关系暴露情况患病情况合计 患病未得病暴露组 a ba+b未

9、暴露组 c dc+d 合计 a+cb+da+b+c+d编辑课件三、 Logistic 回归中的主要统计学错误2. 比数比与相对危险度的关系:相对危险度:RR = a(a+b) /c(c+d) = a (c+d) / c (a+b)比数比:OR = a(a+b) / b(a+b) / c(c+d) / d(c+d) = (ad) /(bc)当,a (a+b), c(c+d)时,可以有a(a+b)ab 及c(c+d)cd此时,才可以有:RROR因此要分析什么时候存在这种关系,什么时候不存在。编辑课件三、 Logistic 回归中的主要统计学错误3. 用哑变量表示的自变量各个水平之间的比数比的估计假

10、设在研究吸烟与一些因素的关系时,拟合了下列形式的Logistic回归方程:Logit (P|y=1) = b0 + b1 B1+ b2 B2+ b3 B3 + b4 (SEX) + b5(AGE)y=1为吸烟,y=0 为不吸烟。AGE为年龄(岁)。SEX为性别,SEX =1为男性,SEX =0为女性。B1, B2, B3的定义同前。b0为截距,b1- b5分别为各自变量的偏回归系数。 编辑课件三、 Logistic 回归中的主要统计学错误3. 用哑变量表示的自变量各个水平之间的比数比的估计我们的研究设想是比较看到过烟草广告不同情况对于吸烟的影响。 进行比较的指标是OR。因此要估计不同情况下的O

11、R大小。自变量第一个水平,B1=0, B2=0, B3=0,其比数为:P0/(1-P0) = expb0 + b4 (SEX) + b5(AGE)。第二水平:B1=1, B2=0, B3 =0,P2/(1-P2) =expb0 + b1 +b4 (SEX)+ b5(AGE)。第三水平:B1=0, B2=1, B3 =0,P3/(1-P3) =expb0 + b2 +b4 (SEX)+ b5(AGE)。第四水平:B1=0, B2=0, B3 =1,P4/(1-P4) =expb0 + b3 +b4 (SEX)+ b5(AGE)。编辑课件三、 Logistic 回归中的主要统计学错误3. 用哑变量

12、表示的自变量各个水平之间的比数比的估计自变量的第二水平(看到过关于反对吸烟广告的组)与对照组(没有看到过任何吸烟广告组)的OR为:OR(二水平:一水平) = expb0 + b1 +b4 (SEX)+ b5(AGE) / expb0 + b4 (SEX) + b5(AGE) = exp(b1)。其他各组与对照组的OR可以仿照计算。即,OR(三水平:一水平) = exp(b2),OR(四水平:一水平) = exp(b3)。编辑课件三、 Logistic 回归中的主要统计学错误3. 用哑变量表示的自变量各个水平之间的比数比的估计设置为哑变量后各水平之间的比数比变量水平 一水平 二水平 三水平四水平

13、对照(一水平)1 exp(-b1) exp(-b2) exp(-b3)二水平exp( b1)1exp(b1-b2) exp(b1-b3)三水平exp( b2) exp(b2-b1) 1 exp(b2-b3)四水平exp( b3) exp(b3-b1) exp(b3-b2) 1编辑课件三、 Logistic 回归中的主要统计学错误3. 用哑变量表示的自变量各个水平之间的比数比的估计设置为哑变量后各水平之间的比数比变量水平 一水平 二水平三水平 四水平对照(一水平)1 1.56 3.56 0.86二水平0.641 0.44 1.81三水平0.28 2.28 1 4.14四水平1.16 0.55 0.24 1编辑课件三、 Logistic 回归中的主要统计学错误4. 比数比及相对危险度的正确解释某文献在研究影响妇女产前检查的可能因素时,拟合了一个Logistic回归模型。在进行分析后,认为由于量纲相同,可以由回归系数的绝对值直接判定它们与产前检查关联强弱。其结论为:孕产期卫生知识妇女文化程度妇女年龄丈夫文化程度丈夫职业家庭距卫生院距离。 编辑课件三、 Logistic 回归中的主要统计学错误4. 比数比及相对危险度的正确解释某文献对一些自变量的设置变量名分组年龄1:15- 2:20-45妇女受教育程度1:初中以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论