版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
常用医学统计分析方法基本知识胡国清副教授中南大学公共卫生学院流行病与卫生统计学系.2022/12/181常用医学统计分析方法基本知识胡国清副教授.2022/1一.统计学应用中的常见误区.2022/12/182一.统计学应用中的常见误区.2022/12/132问题1:统计学是数字游戏?数字形式仅是表面现象。几个示例统计学(Statistics):是一门研究数据的搜集、整理、分析的科学。更主要的是帮助人类探索未知事物规律的工具。统计学存在的必要性?.2022/12/183问题1:统计学是数字游戏?数字形式仅是表面现象。几个示例.2几个例子2003年湖南省省级计划生育工作的人员总数;2003年在湘雅医院出生的新生儿的平均体重;2003年中国艾滋病发病率;湖南省65岁以上人群的平均血压;返回.2022/12/184几个例子2003年湖南省省级计划生育工作的人员总数;返回.2三个原因人类要了解未知事物的特点或规律;如SARS的病因研究,一些恶性肿瘤的治疗方法探索,一些疾病的预防等等;差异或变异在研究总体中存在的普遍性;如全国正常人群的体重、身高、血压测量值等等。数据的表达或描述的难度。人、财、物的限制,不能够调查或检查总体中所有的观察单位,代价太大。.2022/12/185三个原因人类要了解未知事物的特点或规律;如SARS的病因研究留给统计学的问题如何简洁地、准确地从一大批杂乱无章的数据中提炼出代表性信息?(统计描述)如何合理地由样本的信息(部分信息)推断总体的信息(总体信息)?(统计推断).2022/12/186留给统计学的问题如何简洁地、准确地从一大批杂乱无章的数据中提统计方法的主要应用通过种种手段以最合适的方法搜集数据。采用统计指标、统计表、统计图描述数据的规律。采用合适的统计方法对数据进行分析,对整个研究的结果下结论。.2022/12/187统计方法的主要应用通过种种手段以最合适的方法搜集数据。.20问题2:数据被恰当地表达了吗?统计指标的使用准确吗?还是?各自使用的条件是什么?是万用通行证吗?率与构成比搞清楚了吗?如此计算率合适吗?统计表正确吗?统计图正确吗?.2022/12/188问题2:数据被恰当地表达了吗?统计指标的使用准确吗?.202.2022/12/189.2022/12/139集中趋势的描述——平均数平均数:描述一组变量值的集中位置或平均水平的指标体系。
(算术)均数:对称分布,尤其是正态分布;几何均数:对数转换后呈对称分布,尤其是对数正态分布;中位数:一般偏态分布;.2022/12/1810集中趋势的描述——平均数平均数:描述一组变量值的集中位置或平离散趋势描述:描述一组变量值的离散趋势或变异程度的指标体系。极差:任何计量资料,是参考变异指标四分位数间距:与中位数配套用标准差:与算术均数配套用变异系数:描述对称分布(特别是正态分布)资料的相对变异程度。.2022/12/1811离散趋势描述:描述一组变量值的离散趋势或变异程度的指标体系。示例1:率和构成比的区分.2022/12/1812示例1:率和构成比的区分.2022/12/1312
示例2:如某种疗法治疗5例病人5例全部治愈,则计算治愈率为5/5×100%=100%,若4例治愈,则治愈率为4/5×100%=80%,由100%至80%波动幅度较大,但实际上只有1例的变化。.2022/12/1813示例2:.2022/12/1313表10-3不同心理分值的冠心病危险因素水平比较.2022/12/1814表10-3不同心理分值的冠心病危险因素水平比较.202统计图的误导作用
直条图的纵轴尺度起点必须为零示意图.2022/12/1815统计图的误导作用直条图的纵轴尺度起点必须为零示意图.202问题3:t检验、卡方检验是万能的吗?正态分布、方差齐性的条件满足了吗?是t检验还是方差分析;是t检验还是U检验?是成组t检验还是配对t检验?是t检验,还是校正t检验,或者是非参数检验?对于计数资料,是通常的卡方检验,还是Yates校正检验,或是精确概率检验?是配对设计,还是成组设计的四格表资料?.2022/12/1816问题3:t检验、卡方检验是万能的吗?正态分布、方差齐性的条件误区4:统计检验决定论与统计无用论P值一定要小于0.05或者0.01才行吗?P值的决定因素您考虑了哪几个?统计检验判断结果与专业判断结果相比,哪个更重要?.2022/12/1817误区4:统计检验决定论与统计无用论P值一定要小于0.05或者2.数据特征与统计描述基本知识
.2022/12/18182.数据特征与统计描述基本知识.2022/12/1318计量资料的常用统计指标描述集中趋势的特征数(选代表)描述离散趋势的特征数(代表程度)目的:简单、明了传达信息.2022/12/1819计量资料的常用统计指标描述集中趋势的特征数(选代表).202表某地150名正常成年男子红细胞数(1012/L)
编号红细胞数编号红细胞数13.98……24.541434.6734.741445.4045.131455.2954.431464.7764.811475.3874.981485.1583.791494.64……1505.19问题:谁能一眼看出下述数据的分布规律?.2022/12/1820表某地150名正常成年男子红细胞数(1012/L)编一、描述集中趋势的特征数(平均指标)总称为平均数(average)反映了资料的集中趋势(centraltendency
)。常用的有:
1.算术均数(arithmeticmean),简称均数(mean)
2.几何均数(geometricmean)
3.中位数
(median)
.2022/12/1821一、描述集中趋势的特征数(平均指标)总称为平均数(avera算术均数(mean)符号:总体样本
适用条件:资料呈对称分布,尤其是正态或近似正态。
计算:
(1)直接法(2)频数表法.算术均数(mean)符号:总体样本
适用条件222.几何均数(geometricmean)适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料。.2022/12/18232.几何均数(geometricmean)适用条件:呈倍几何均数的示例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222问题:描述此类型资料集中趋势时,为什么倾向选用几何均数?.2022/12/1824几何均数的示例血清的抗体效价滴度的倒数分别为:10、100、频数表资料的几何均数抗体滴度⑴
人数,f⑵
滴度倒数,X⑶lgX⑷
f·lgX⑸1:4
1:81:161:32┇1:512
合计1562┇572481632┇5120.60210.90311.20411.5051┇2.70930.60214.51557.22463.0102┇13.546572.2471.2022/12/1825频数表资料的几何均数抗体滴度人数,f滴度倒数,Xlg3.中位数(median)
定义:是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md/M
适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。
.2022/12/18263.中位数(median)定义:是将一批数据中位数计算公式先将观察值按从小到大顺序排列,按以下公式计算:注意:公式中n的含义,数据自小到大排序后的编号。.2022/12/1827中位数计算公式先将观察值按从小到大顺序排列,按以下公式计算:频数表资料的中位数下限值L上限值Ui;fm中位数Md.2022/12/1828频数表资料的中位数下限值L上限值Ui;fm中位数Md.2潜伏期/h(1)
频数,f(2)
累计频数Sf所占百分比(3)0~17126~464312~387018~329224~69630~09636~49942~48
合计2100145例4-8中位数=12+6x[(145x50%-63)/38]=13.5(h).2022/12/1829潜伏期/h频数,f累计频数Sf所占百分比0~17126小结:
集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或平均水平的指标体系。
不同的分布使用不同的指标算术)均数:正态或近似正态分布的资料几何均数:对数正态分布或等比级数资料中位数:一般偏态分布.2022/12/1830小结:
集中趋势的描述——平均数平均离散趋势的特征数常用指标有:
1.极差或全距(Range)
2.四分位数间距(Quartilerange)
3.方差
(Variance)
4.标准差(StandardDeviation)
5.变异系数
(CoefficientofVariation)
考试要点:表示符号、定义、适用条件、区别.2022/12/1831离散趋势的特征数常用指标有:
1.极差或全距(Ran
盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙.2022/12/1832盘编号甲乙丙14404804902460490495351.极差(Range)(全距)
符号:R意义:反映全部变量值的变动范围。优点:简便缺点:只利用了两个观测值适用范围:任何计量资料.2022/12/18331.极差(Range)(全距)符号:R.2022/12/2.四分位数间距百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:Q=P75-P25
P100(max)P75P50(中位数)P25P0(min)Px.2022/12/18342.四分位数间距百分位数:数据从小到大排列;在百分尺度频数表资料的百分位数下限值L上限值Ui;fm百分位数Px.2022/12/1835频数表资料的百分位数下限值L上限值Ui;fm百分位数PxP25=6+6x[(145x25%-17)/46]=8.51(h)P75=18+6x[(145x75%-101)/32]=19.45(h)Q=19.45-8.51=10.94(h)潜伏期/h(1)
频数,f(2)
累计频数Sf所占百分比(3)0~17126~464312~387018~329224~69630~09636~49942~48
合计2100145.2022/12/1836P25=6+6x[(145x25%-17)/46]=8.51百分位数的应用可用多个百分位数描述计量资料的分布特征.2022/12/1837百分位数的应用可用多个百分位数描述计量资料的分布特征.2023.方差方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值,表示一组数据的平均离散情况。.2022/12/18383.方差方差(variance)也称均方差(meansq方差的优点和缺点优点:利用了所有的观测数值。缺点:容易受极大值或极小值的影响;单位与原观测单位不一致。.2022/12/1839方差的优点和缺点优点:利用了所有的观测数值。.2022/124.标准差标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。.2022/12/18404.标准差标准差(standarddeviation)即标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500126040012510001250250标准差50.9915.817.91.2022/12/1841标准差的计算盘编号甲乙丙甲2乙2丙2144048049015.变异系数(coefficientofvariation)适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数
标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%
意义:挑选指标时变异系数越小,指标越好。.2022/12/18425.变异系数(coefficientofvariatio变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,组合使用如正态分布:均数、标准差;
偏态分布:中位数、四分位半间距.2022/12/1843变异指标小结1.极差较粗,适合于任何分布.2022/12/1.2022/12/1844.2022/12/1344计数资料的常用统计指标一、计数资料的数据整理二、常用相对数指标三、应用注意事项.2022/12/1845计数资料的常用统计指标一、计数资料的数据整理.2022/12一、计数资料的数据整理计数资料/分类资料/定性资料:按某种属性分类,然后清点每类的例数。住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产202586129无大学剖宫产足月202460125农民中学顺产足月200038626无小学顺产足月.2022/12/1846一、计数资料的数据整理计数资料/分类资料/定性资料:按某种属二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:
1.如甲、乙两个医院某病出院人数不同时,比较两医院该病的死亡人数没有意义
2.如2002级附二院五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。.2022/12/1847二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的1.率(强度相对数):某现象或某事物发生的频率或强度。
率=(实际发生数/可能发生总数)×比例基数比例基数:100%、1000‰、10000/万、100000(1/10万)等(按习惯,使结果保留1-2位小数)。频率和速率的区别:分母是否考虑了时间因素(一)率.2022/12/18481.率(强度相对数):某现象或某事物发生的频率或强度。(一)(二)构成比构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布,其计算公式为:
问题:频率相对数与构成比有何区别?.2022/12/1849(二)构成比问题:频率相对数与构成比有何区别?.2022/1相对比简称比,是两个有关指标之比,说明两指标间的比例关系。计算公式为式中指标可以是绝对数、相对数或平均数。(三)相对比(ratio).2022/12/1850相对比简称比,是两个有关指标之比,说明两指标间的比例关系。(三、应用注意事项计算相对数的分母不宜过小。率与构成比的误用。正确求平均率。进行率的对比分析时,应注意资料可比性。对样本率(或构成比)比较时应做假设检验。.2022/12/1851三、应用注意事项计算相对数的分母不宜过小。.2022/12/问题:此篇论文作者的结论?.2022/12/1852问题:此篇论文作者的结论?.2022/12/1352统计图表.2022/12/1853统计图表.2022/12/1353统计表(statisticaltable)是表达统计分析结果中数据和统计指标的表格形式。统计图(statisticalgraph)是用点、线、面等各种几何图形来形象化表达统计数据。基本概念.2022/12/1854统计表(statisticaltable)是表达统计分析结统计表的意义与制作原则统计表的意义:统计表用简明的表格形式,有条理地罗列数据和统计量,方便阅读、比较和计算。制表原则:重点突出、层次清楚。.2022/12/1855统计表的意义与制作原则统计表的意义:统计表用简明的表格形式,统计表的基本结构与要求标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。.2022/12/1856统计表的基本结构与要求标题:概括表的主要内容,包括研究的时间统计表的基本结构与要求线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。.2022/12/1857统计表的基本结构与要求线条:至少用三条线,表格的顶线和底线将统计表的基本结构与要求数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。.2022/12/1858统计表的基本结构与要求数字:用阿拉伯数字表示。无数字用“—”顶线底线表名标题.2022/12/1859顶线底线表名
表某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)
受检人数异常人数检出率(%)
血压心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。.2022/12/1860表某省某工厂1994、1998年四项检测指标异常检统计表的种类.2022/12/1861统计表的种类.2022/12/13611.简单表:统计表的主语只有一个层次
例1
下表列出某地进行喷昔洛韦软膏治疗颜面单纯疱疹与阿昔洛韦软膏比较的随机对照临床试验结果。该表只有试验分组一个层次,属简单表。表某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较.2022/12/18621.简单表:统计表的主语只有一个层次例1下表列2.
组合表:统计表的主语有两个以层次
例2
某年某地分别在城乡进行乙型肝炎病毒抗原携带者的检测,该研究的对象按城乡和年龄两个特征分层,结果列在表10-2。该表属组合表。.2022/12/18632.组合表:统计表的主语有两个以层次例2某年某地分表10-2某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析.2022/12/1864表10-2某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率编制统计表的注意事项
例3
某地进行冠心病危险因素研究时,调查了居民的心理得分值与其它冠心病有关因素,结果列成表10-3。.2022/12/1865编制统计表的注意事项例3某地进行冠心病危险因素研究时.2022/12/1866.2022/12/1366上表存在的问题将太多的内容放在一个表里,特别是将两种不同类型资料(计量资料和计数资料)的统计量放在同一表中。互不相容的内容分别占了不同的列,导致表中有许多空格。纵横标目倒置。内容较多,层次复杂,表格中数据罗列无条理,较难读懂。.2022/12/1867上表存在的问题将太多的内容放在一个表里,特别是将两种不同类型表4某年某地居民不同心理分值的冠心病危险因素水平比较处理办法:将该表资料分别制成两个统计表,见表4和表5。.2022/12/1868表4某年某地居民不同心理分值的冠心病危险因素水平比较处理表-5某年某地居民不同心理分值的冠心病危险因素水平比较
.2022/12/1869表-5某年某地居民不同心理分值的冠心病危险因素水平比较.问题1:请评价下表是否符合统计表制作原则,并作改正?.2022/12/1870问题1:请评价下表是否符合统计表制作原则,并作改正?.202实例分析:下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请指出该表所存在的问题,并予以纠正。表
两个组的疗效观察
分型及疗效
单纯型慢性支气管炎
喘息型慢性支气管炎
指标
治愈
显效
好转
无效
治愈
显效
好转
无效
例数
60
98
51
12
23
83
65
11
合计
209
12
171
11
疗效
%
94.6
94.0
.2022/12/1871实例分析:下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效表复方猪胆胶囊治疗两型老年慢性支气管炎患者疗效比较.2022/12/1872表复方猪胆胶囊治疗两型老年慢性支气管炎患者疗效比较.2统计图统计图的意义:统计图将统计数据形象化,让读者更易于领会统计资料的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。.2022/12/1873统计图统计图的意义:统计图将统计数据形象化,让读者更易于领统计图的种类:根据资料类型和统计分析目的不同,需要用不同的统计图表达数据和统计指标值。常用的统计图:直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等。.2022/12/1874统计图的种类:根据资料类型和统计分析目的不同,需要用不同的统统计图制作的一般原则
根据资料性质和分析目的正确选用适当的统计图。必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题一般放在图的下方。.2022/12/1875统计图制作的一般原则根据资料性质和分析目的正确选用适当的统统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。纵横轴的比例一般以5:7或7:5为宜。统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。.2022/12/1876统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴二、常用统计图1.直条图(barchart)
2.圆图(piechart)和百分比条图(percentbarchart)
3.线图(linegraph)
4.直方图(histogram)
5.统计地图(statisticalmap)
6.其他特殊分析图
箱式图(boxplot)
茎叶图(stem-leafplot)
误差条图(errorbarchart).2022/12/1877二、常用统计图1.直条图(barchart)
2.圆图(p1.直条图(barchart)
用相同宽度的直条长短表示相互独立的某统计指标值的大小。直条图按直条是横放还是竖放分卧式和立式两种,按对象的分组是单层次和两层次分单式和复式两种。.2022/12/18781.直条图(barchart)用相同宽度的直条长短表示.2022/12/1879.2022/12/1379
例10-4图10-1显示某地某年主要死因的死亡率资料,不同死因是相互独立的不连续指标,因此用直条图。该图只按死因分类,为单式立式直条图。.2022/12/1880例10-4图10-1显示某地某年主要死因的死亡率资.2022/12/1881.2022/12/1381
直条图的纵轴尺度起点必须为零示意图药物有效率(%)A药70B药75.2022/12/1882直条图的纵轴尺度起点必须为零示意图药物有效率(%)A药70(a)(b).2022/12/1883(a)(b).2022/12/13832.圆图和百分比条图圆图(piechart)是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例。百分比条图(percentbarchart)是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。圆图和百分比条图适合描述分类变量的构成比资料。问题:这两类统计图适合于什么类型的资料?尤其适合哪个统计描述指标?.2022/12/18842.圆图和百分比条图圆图(piechart)是以圆形总面积
图10-2某年某地城市婴儿死因构成比
.2022/12/1885图10-2某年某地城市婴儿死因构成比.2022/12
例10-5
某年某地进行婴儿死亡原因的调查,根据城市婴儿死因的构成资料绘制成图10-2。
从图10-2可见出生窒息是婴儿死亡的首位死因,出生窒息、早产和肺炎头三位死因占总死亡的60.3%,是婴儿死亡防治的重点。.2022/12/1886例10-5某年某地进行婴儿死亡原因的调查,根据城市婴
例10-6
图10-3是根据某地20世纪70年代和80年代恶性肿瘤发病登记资料绘制成的百分比条图。由图可见不同年代主要恶性肿瘤中,鼻咽癌和肝癌构成减少,肺癌明显增加。百分比条图特别适合作多个构成比的比较。.2022/12/1887例10-6图10-3是根据某地20世纪70年代和80
图10-320世纪70年代和80年代某地7常见恶性肿瘤发病构成比较
.2022/12/1888图10-320世纪70年代和80年代某地7常见恶图美国1999、2000年死于机动车事故的人员构成.2022/12/1889图美国1999、2000年死于机动车事故的人员构成.203.线图(linegraph)
线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。
普通线图:横轴和纵轴都是算术尺度。
半对数线图:横轴是算术尺度,纵轴是对数尺度,特别适宜作不同指标变化速度的比较。.2022/12/18903.线图(linegraph)线图是用线段的升降来表示
例10-7
图10-4是根据1990~2000年某沿海城市甲状腺功能亢进(甲亢)发病率资料绘制的普通线图。
.2022/12/1891例10-7图10-4是根据1990~2000年某沿海图10-41990~2000年某沿海城市甲状腺功能亢进发病率变化趋势.2022/12/1892图10-41990~2000年某沿海城市甲状腺功能亢进
例10-8
调查某地1997年~2001年两种与性传播有关疾病—艾滋病和梅毒的发病率变化趋势,资料分别绘制成普通线图和半对数线图。.2022/12/1893例10-8调查某地1997年~2001年两种与性传播(a)纵轴为算术尺度;(b)纵轴为对数尺度图10-51997~2001年某地艾滋病和梅毒发病率的变化趋势.2022/12/1894(a)纵轴为算术尺度;(b)4.直方图(histogram)
以直方面积描述各组频数的多少,面积的总和相当于各组频数之和,适合表示数值变量的频数分布。直方图的横轴尺度是数值变量值,纵轴是频数。.2022/12/18954.直方图(histogram)以直方面积描述各组频数的
例10-91997年某地共报告乙型病毒性脑炎104例,其年龄分布如表10-6。.2022/12/1896例10-91997年某地共报告乙型病毒性脑炎10图10-61997年某地乙型病毒性脑膜炎病例的年龄分布.2022/12/1897图10-61997年某地乙型病毒性脑膜炎病例的年龄分布5.统计地图(statisticalmap)
统计地图是用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。例10-102003年广东省发生了某急性传染病的流行,图10-7描述了该急性传染病发病数在广东省的分布情况。.2022/12/18985.统计地图(statisticalmap)统计地图
图10-7 2003年广东省某急性传染病发病数的地理分布图例中括号内是发生相同病例数的行政区频数,其余指数据缺失的行政区.2022/12/1899 图10-7 2003年广东省某急性传染病发病数的地理分布谢谢!.2022/12/18100谢谢!.2022/12/13100常用医学统计分析方法基本知识胡国清副教授中南大学公共卫生学院流行病与卫生统计学系.2022/12/18101常用医学统计分析方法基本知识胡国清副教授.2022/1一.统计学应用中的常见误区.2022/12/18102一.统计学应用中的常见误区.2022/12/132问题1:统计学是数字游戏?数字形式仅是表面现象。几个示例统计学(Statistics):是一门研究数据的搜集、整理、分析的科学。更主要的是帮助人类探索未知事物规律的工具。统计学存在的必要性?.2022/12/18103问题1:统计学是数字游戏?数字形式仅是表面现象。几个示例.2几个例子2003年湖南省省级计划生育工作的人员总数;2003年在湘雅医院出生的新生儿的平均体重;2003年中国艾滋病发病率;湖南省65岁以上人群的平均血压;返回.2022/12/18104几个例子2003年湖南省省级计划生育工作的人员总数;返回.2三个原因人类要了解未知事物的特点或规律;如SARS的病因研究,一些恶性肿瘤的治疗方法探索,一些疾病的预防等等;差异或变异在研究总体中存在的普遍性;如全国正常人群的体重、身高、血压测量值等等。数据的表达或描述的难度。人、财、物的限制,不能够调查或检查总体中所有的观察单位,代价太大。.2022/12/18105三个原因人类要了解未知事物的特点或规律;如SARS的病因研究留给统计学的问题如何简洁地、准确地从一大批杂乱无章的数据中提炼出代表性信息?(统计描述)如何合理地由样本的信息(部分信息)推断总体的信息(总体信息)?(统计推断).2022/12/18106留给统计学的问题如何简洁地、准确地从一大批杂乱无章的数据中提统计方法的主要应用通过种种手段以最合适的方法搜集数据。采用统计指标、统计表、统计图描述数据的规律。采用合适的统计方法对数据进行分析,对整个研究的结果下结论。.2022/12/18107统计方法的主要应用通过种种手段以最合适的方法搜集数据。.20问题2:数据被恰当地表达了吗?统计指标的使用准确吗?还是?各自使用的条件是什么?是万用通行证吗?率与构成比搞清楚了吗?如此计算率合适吗?统计表正确吗?统计图正确吗?.2022/12/18108问题2:数据被恰当地表达了吗?统计指标的使用准确吗?.202.2022/12/18109.2022/12/139集中趋势的描述——平均数平均数:描述一组变量值的集中位置或平均水平的指标体系。
(算术)均数:对称分布,尤其是正态分布;几何均数:对数转换后呈对称分布,尤其是对数正态分布;中位数:一般偏态分布;.2022/12/18110集中趋势的描述——平均数平均数:描述一组变量值的集中位置或平离散趋势描述:描述一组变量值的离散趋势或变异程度的指标体系。极差:任何计量资料,是参考变异指标四分位数间距:与中位数配套用标准差:与算术均数配套用变异系数:描述对称分布(特别是正态分布)资料的相对变异程度。.2022/12/18111离散趋势描述:描述一组变量值的离散趋势或变异程度的指标体系。示例1:率和构成比的区分.2022/12/18112示例1:率和构成比的区分.2022/12/1312
示例2:如某种疗法治疗5例病人5例全部治愈,则计算治愈率为5/5×100%=100%,若4例治愈,则治愈率为4/5×100%=80%,由100%至80%波动幅度较大,但实际上只有1例的变化。.2022/12/18113示例2:.2022/12/1313表10-3不同心理分值的冠心病危险因素水平比较.2022/12/18114表10-3不同心理分值的冠心病危险因素水平比较.202统计图的误导作用
直条图的纵轴尺度起点必须为零示意图.2022/12/18115统计图的误导作用直条图的纵轴尺度起点必须为零示意图.202问题3:t检验、卡方检验是万能的吗?正态分布、方差齐性的条件满足了吗?是t检验还是方差分析;是t检验还是U检验?是成组t检验还是配对t检验?是t检验,还是校正t检验,或者是非参数检验?对于计数资料,是通常的卡方检验,还是Yates校正检验,或是精确概率检验?是配对设计,还是成组设计的四格表资料?.2022/12/18116问题3:t检验、卡方检验是万能的吗?正态分布、方差齐性的条件误区4:统计检验决定论与统计无用论P值一定要小于0.05或者0.01才行吗?P值的决定因素您考虑了哪几个?统计检验判断结果与专业判断结果相比,哪个更重要?.2022/12/18117误区4:统计检验决定论与统计无用论P值一定要小于0.05或者2.数据特征与统计描述基本知识
.2022/12/181182.数据特征与统计描述基本知识.2022/12/1318计量资料的常用统计指标描述集中趋势的特征数(选代表)描述离散趋势的特征数(代表程度)目的:简单、明了传达信息.2022/12/18119计量资料的常用统计指标描述集中趋势的特征数(选代表).202表某地150名正常成年男子红细胞数(1012/L)
编号红细胞数编号红细胞数13.98……24.541434.6734.741445.4045.131455.2954.431464.7764.811475.3874.981485.1583.791494.64……1505.19问题:谁能一眼看出下述数据的分布规律?.2022/12/18120表某地150名正常成年男子红细胞数(1012/L)编一、描述集中趋势的特征数(平均指标)总称为平均数(average)反映了资料的集中趋势(centraltendency
)。常用的有:
1.算术均数(arithmeticmean),简称均数(mean)
2.几何均数(geometricmean)
3.中位数
(median)
.2022/12/18121一、描述集中趋势的特征数(平均指标)总称为平均数(avera算术均数(mean)符号:总体样本
适用条件:资料呈对称分布,尤其是正态或近似正态。
计算:
(1)直接法(2)频数表法.算术均数(mean)符号:总体样本
适用条件1222.几何均数(geometricmean)适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料。.2022/12/181232.几何均数(geometricmean)适用条件:呈倍几何均数的示例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222问题:描述此类型资料集中趋势时,为什么倾向选用几何均数?.2022/12/18124几何均数的示例血清的抗体效价滴度的倒数分别为:10、100、频数表资料的几何均数抗体滴度⑴
人数,f⑵
滴度倒数,X⑶lgX⑷
f·lgX⑸1:4
1:81:161:32┇1:512
合计1562┇572481632┇5120.60210.90311.20411.5051┇2.70930.60214.51557.22463.0102┇13.546572.2471.2022/12/18125频数表资料的几何均数抗体滴度人数,f滴度倒数,Xlg3.中位数(median)
定义:是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md/M
适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。
.2022/12/181263.中位数(median)定义:是将一批数据中位数计算公式先将观察值按从小到大顺序排列,按以下公式计算:注意:公式中n的含义,数据自小到大排序后的编号。.2022/12/18127中位数计算公式先将观察值按从小到大顺序排列,按以下公式计算:频数表资料的中位数下限值L上限值Ui;fm中位数Md.2022/12/18128频数表资料的中位数下限值L上限值Ui;fm中位数Md.2潜伏期/h(1)
频数,f(2)
累计频数Sf所占百分比(3)0~17126~464312~387018~329224~69630~09636~49942~48
合计2100145例4-8中位数=12+6x[(145x50%-63)/38]=13.5(h).2022/12/18129潜伏期/h频数,f累计频数Sf所占百分比0~17126小结:
集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或平均水平的指标体系。
不同的分布使用不同的指标算术)均数:正态或近似正态分布的资料几何均数:对数正态分布或等比级数资料中位数:一般偏态分布.2022/12/18130小结:
集中趋势的描述——平均数平均离散趋势的特征数常用指标有:
1.极差或全距(Range)
2.四分位数间距(Quartilerange)
3.方差
(Variance)
4.标准差(StandardDeviation)
5.变异系数
(CoefficientofVariation)
考试要点:表示符号、定义、适用条件、区别.2022/12/18131离散趋势的特征数常用指标有:
1.极差或全距(Ran
盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙.2022/12/18132盘编号甲乙丙14404804902460490495351.极差(Range)(全距)
符号:R意义:反映全部变量值的变动范围。优点:简便缺点:只利用了两个观测值适用范围:任何计量资料.2022/12/181331.极差(Range)(全距)符号:R.2022/12/2.四分位数间距百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:Q=P75-P25
P100(max)P75P50(中位数)P25P0(min)Px.2022/12/181342.四分位数间距百分位数:数据从小到大排列;在百分尺度频数表资料的百分位数下限值L上限值Ui;fm百分位数Px.2022/12/18135频数表资料的百分位数下限值L上限值Ui;fm百分位数PxP25=6+6x[(145x25%-17)/46]=8.51(h)P75=18+6x[(145x75%-101)/32]=19.45(h)Q=19.45-8.51=10.94(h)潜伏期/h(1)
频数,f(2)
累计频数Sf所占百分比(3)0~17126~464312~387018~329224~69630~09636~49942~48
合计2100145.2022/12/18136P25=6+6x[(145x25%-17)/46]=8.51百分位数的应用可用多个百分位数描述计量资料的分布特征.2022/12/18137百分位数的应用可用多个百分位数描述计量资料的分布特征.2023.方差方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值,表示一组数据的平均离散情况。.2022/12/181383.方差方差(variance)也称均方差(meansq方差的优点和缺点优点:利用了所有的观测数值。缺点:容易受极大值或极小值的影响;单位与原观测单位不一致。.2022/12/18139方差的优点和缺点优点:利用了所有的观测数值。.2022/124.标准差标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。.2022/12/181404.标准差标准差(standarddeviation)即标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500126040012510001250250标准差50.9915.817.91.2022/12/18141标准差的计算盘编号甲乙丙甲2乙2丙2144048049015.变异系数(coefficientofvariation)适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数
标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%
意义:挑选指标时变异系数越小,指标越好。.2022/12/181425.变异系数(coefficientofvariatio变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,组合使用如正态分布:均数、标准差;
偏态分布:中位数、四分位半间距.2022/12/18143变异指标小结1.极差较粗,适合于任何分布.2022/12/1.2022/12/18144.2022/12/1344计数资料的常用统计指标一、计数资料的数据整理二、常用相对数指标三、应用注意事项.2022/12/18145计数资料的常用统计指标一、计数资料的数据整理.2022/12一、计数资料的数据整理计数资料/分类资料/定性资料:按某种属性分类,然后清点每类的例数。住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产202586129无大学剖宫产足月202460125农民中学顺产足月200038626无小学顺产足月.2022/12/18146一、计数资料的数据整理计数资料/分类资料/定性资料:按某种属二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:
1.如甲、乙两个医院某病出院人数不同时,比较两医院该病的死亡人数没有意义
2.如2002级附二院五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。.2022/12/18147二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的1.率(强度相对数):某现象或某事物发生的频率或强度。
率=(实际发生数/可能发生总数)×比例基数比例基数:100%、1000‰、10000/万、100000(1/10万)等(按习惯,使结果保留1-2位小数)。频率和速率的区别:分母是否考虑了时间因素(一)率.2022/12/181481.率(强度相对数):某现象或某事物发生的频率或强度。(一)(二)构成比构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布,其计算公式为:
问题:频率相对数与构成比有何区别?.2022/12/18149(二)构成比问题:频率相对数与构成比有何区别?.2022/1相对比简称比,是两个有关指标之比,说明两指标间的比例关系。计算公式为式中指标可以是绝对数、相对数或平均数。(三)相对比(ratio).2022/12/18150相对比简称比,是两个有关指标之比,说明两指标间的比例关系。(三、应用注意事项计算相对数的分母不宜过小。率与构成比的误用。正确求平均率。进行率的对比分析时,应注意资料可比性。对样本率(或构成比)比较时应做假设检验。.2022/12/18151三、应用注意事项计算相对数的分母不宜过小。.2022/12/问题:此篇论文作者的结论?.2022/12/18152问题:此篇论文作者的结论?.2022/12/1352统计图表.2022/12/18153统计图表.2022/12/1353统计表(statisticaltable)是表达统计分析结果中数据和统计指标的表格形式。统计图(statisticalgraph)是用点、线、面等各种几何图形来形象化表达统计数据。基本概念.2022/12/18154统计表(statisticaltable)是表达统计分析结统计表的意义与制作原则统计表的意义:统计表用简明的表格形式,有条理地罗列数据和统计量,方便阅读、比较和计算。制表原则:重点突出、层次清楚。.2022/12/18155统计表的意义与制作原则统计表的意义:统计表用简明的表格形式,统计表的基本结构与要求标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。.2022/12/18156统计表的基本结构与要求标题:概括表的主要内容,包括研究的时间统计表的基本结构与要求线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。.2022/12/18157统计表的基本结构与要求线条:至少用三条线,表格的顶线和底线将统计表的基本结构与要求数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。.2022/12/18158统计表的基本结构与要求数字:用阿拉伯数字表示。无数字用“—”顶线底线表名标题.2022/12/18159顶线底线表名
表某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)
受检人数异常人数检出率(%)
血压心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。.2022/12/18160表某省某工厂1994、1998年四项检测指标异常检统计表的种类.2022/12/18161统计表的种类.2022/12/13611.简单表:统计表的主语只有一个层次
例1
下表列出某地进行喷昔洛韦软膏治疗颜面单纯疱疹与阿昔洛韦软膏比较的随机对照临床试验结果。该表只有试验分组一个层次,属简单表。表某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较.2022/12/181621.简单表:统计表的主语只有一个层次例1下表列2.
组合表:统计表的主语有两个以层次
例2
某年某地分别在城乡进行乙型肝炎病毒抗原携带者的检测,该研究的对象按城乡和年龄两个特征分层,结果列在表10-2。该表属组合表。.2022/12/181632.组合表:统计表的主语有两个以层次例2某年某地分表10-2某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析.2022/12/18164表10-2某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率编制统计表的注意事项
例3
某地进行冠心病危险因素研究时,调查了居民的心理得分值与其它冠心病有关因素,结果列成表10-3。.2022/12/18165编制统计表的注意事项例3某地进行冠心病危险因素研究时.2022/12/18166.2022/12/1366上表存在的问题将太多的内容放在一个表里,特别是将两种不同类型资料(计量资料和计数资料)的统计量放在同一表中。互不相容的内容分别占了不同的列,导致表中有许多空格。纵横标目倒置。内容较多,层次复杂,表格中数据罗列无条理,较难读懂。.2022/12/18167上表存在的问题将太多的内容放在一个表里,特别是将两种不同类型表4某年某地居民不同心理分值的冠心病危险因素水平比较处理办法:将该表资料分别制成两个统计表,见表4和表5。.2022/12/18168表4某年某地居民不同心理分值的冠心病危险因素水平比较处理表-5某年某地居民不同心理分值的冠心病危险因素水平比较
.2022/12/18169表-5某年某地居民不同心理分值的冠心病危险因素水平比较.问题1:请评价下表是否符合统计表制作原则,并作改正?.2022/12/18170问题1:请评价下表是否符合统计表制作原则,并作改正?.202实例分析:下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请指出该表所存在的问题,并予以纠正。表
两个组的疗效观察
分型及疗效
单纯型慢性支气管炎
喘息型慢性支气管炎
指标
治愈
显效
好转
无效
治愈
显效
好转
无效
例数
60
98
51
12
23
83
65
11
合计
209
12
171
11
疗效
%
94.6
94.0
.2022/12/18171实例分析:下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效表复方猪胆胶囊治疗两型老年慢性支气管炎患者疗效比较.2022/12/18172表复方猪胆胶囊治疗两型老年慢性支气管炎患者疗效比较.2统计图统计图的意义:统计图将统计数据形象化,让读者更易于领会统计资料的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。.2022/12/18173统计图统计图的意义:统计图将统计数据形象化,让读者更易于领统计图的种类:根据资料类型和统计分析目的不同,需要用不同的统计图表达数据和统计指标值。常用的统计图:直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等。.2022/12/18174统计图的种类:根据资料类型和统计分析目的不同,需要用不同的统统计图制作的一般原则
根据资料性质和分析目的正确选用适当的统计图。必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题一般放在图的下方。.2022/12/18175统计图制作的一般原则根据资料性质和分析目的正确选用适当的统统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。纵横轴的比例一般以5:7或7:5为宜。统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。.2022/12/18176统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴二、常用统计图1.直条图(barchart)
2.圆图(piechart)和百分比条图(percentbarchart)
3.线图(linegraph)
4.直方图(histogram)
5.统计地图(stat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新余学院《大学物理》2021-2022学年第一学期期末试卷
- 西南林业大学《居住区景观设计实验》2022-2023学年第一学期期末试卷
- 应急管理安全培训
- 西华大学《手工制作一》2022-2023学年第一学期期末试卷
- 2024年01月11345市场调查期末试题答案
- 西华大学《传热学》2022-2023学年第一学期期末试卷
- 八年级英语上学期 单项选择常考点易错考点及专项训练
- 八年级历史期末模拟卷(考试版)【测试范围:八上全册】(新疆专用)
- 【课件】经产母猪和后备母猪管理技术
- 2025年中国五金工具行业发展前景及市场空间预测报告(智研咨询)
- JT-T-1180.7-2018交通运输企业安全生产标准化建设基本规范第7部分:汽车客运站
- 新时代我国特色社会主义思想考试试题100%对
- 哈尔滨工程大学 信号与系统 历年 考研真题
- 户外照明亮化工程劳动力安排计划
- 2022年青岛幼儿师范高等专科学校教师招聘考试试题及答案
- 高考生物晨背高中基础知识总结全册复习汇编
- 2024年军队文职统一考试《专业科目》会计学试卷试题真题
- 4.4.1 叠合板生产及质量控制(装配式混凝土建筑构件生产与管理)
- 非遗文化南音介绍
- Windows7用户组和权限
- 兽医寄生虫病学
评论
0/150
提交评论