卫生统计学课件 (2)_第1页
卫生统计学课件 (2)_第2页
卫生统计学课件 (2)_第3页
卫生统计学课件 (2)_第4页
卫生统计学课件 (2)_第5页
已阅读5页,还剩153页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、卫生统计学,第一节意义及基本概念,意义,卫生统计是研究居民健康状况以及认识医学现象数量特征的重要工具,是运用概率论、数理统计的基本原理与方法,进行医学科研设计和资料的收集、整理、分析与推断的过程。 包括:健康统计、卫生服务统计,总体与样本,总体与样本 总体:根据研究目的确定的研究对象的全体。 种类:有限总体、无限总体 样本:从总体中随机抽取的有代表性的一部分。 要求:有代表性。 抽样原则:1、随机化原则 2、样本量适当原则 3、同质的原则 抽样方法:单纯随机抽样、机械抽样、 分层抽样、整群抽样。,个体与变量,个体:个体即观察单位 变量:个体的某项特征测量所得的指标称变量。 变异:个体间变量值的

2、差异。 参数:总体的指标。 统计量:样本的指标。,误差,误差测量值与真值、样本值与总体值之间的差值。 分类:系统误差:产生原因、特点 随机误差: 随机测量误差 :产生原因、特点 抽样误差: 概念、原因、特点 不可消除 ,可以测量, 可以控制,概率,概率(P) 必然事件 P0、P1; 随机事件 0P1 小概率事件:P0.05或P0.01的事件, 小概率事件原理:现实中小概率事件一次不可能发生 频率(p):样本事件发生的可能性。,统计资料,统计资料 A 计量资料: B 计数资料:无序资料 有序资料-等级资料,医学统计和卫生统计中的几种资料类型,基本步骤,确定目的 计划和设计 收集资料 资料来源 (

3、日常资料、专题调查、实验研究) 收集方法 核查资料,整理资料(按量整理,按质整理) 分析资料,统计分析主要内容,一、计量资料 1、统计描述 集中趋势 : 、G、M 离散趋势: R、2、CV%、Q1/4 统计图表 2、统计推断 参数估计: 总体均数的估计(正态法) 假设检验: t检验、u检验、方差检验、秩和检验,统计分析主要内容2,一、计数资料 1、统计描述 实际数 相对数 率、构成比、相对比 统计图表 2、统计推断 参数估计: 总体率的估计- 正态法 假设检验 :u检验、2检验,练习 1 2 3 4,(一)试区分以下资料属于哪种类型? 1.某地一批人的血红蛋白值资料 比色法测得的具体值(如13

4、5g/L),为何类资料? 根据测得值进行分类(如“贫血”),为何类资料? 2.数据类型的相互转换 如年龄(岁),为何类资料? 转换为“未成年、成人”,是何类资料? 再转换为“婴幼儿、青年、中年、老年”则又是何类资料? 如治疗效果分类“无效、好转、显效、痊愈”为何类资料? (二)解释:样本 抽样误差 概率,第二节,统计表和统计图,一、统计表,1、表的种类:按用途分-调查表、整理表、统计表 按内容分-简单表、组合表 2、统计表的格式 组成:标题、线条、标目、数字 表序 标题,统计表的绘制要求,(1)标题:内容、位置 (2)标目:表明表的研究对象及指标。 横标目-研究对象,位于表的左侧。 纵标目-研

5、究指标,位于表的上方。 必要时可有单位。 (3)线条:顶线、标目线、底线。可有合计线。 注意:不得出现其他任何线条! (4)数字:只能填写阿拉伯数字 不得出现文字及空格 缺损值、注解的表示,统计表例,10%明矾液治疗面部深层海棉状血管瘤疗效 疗效 病例数 百分比(%) 特效 66 69.7 显效 14 14.7 有效 11 11.6 无效 4 4.2 合计 95 100.0,二、统计图,统计图是在统计表的基础上绘制的。 不同的资料用不同的图表示。常见的统计图有直条图、直方图、构成图、线图。,制图的基本要求,统计图构成: (一)标题 (二)图域长宽之比一般 7:5为美观,圆图除外。 (三)标目对

6、应纵横两轴 ,并注明度量衡单位。 (四)尺度 (五)图例,统计图的类型,(1)条图:又称直条图,表示独立指标在不同阶段的情况。注意直条的排列(宽度、间距、顺序、纵坐标起点)。类型:简单、复式,百分条图和圆图,(2):描述百分比(构成比)的大小, 注意:起点、方向、顺序。,线图,(3):用线条的升降表示事物的发展变化趋势。 常以横轴表示时间或变量,纵轴表示指标。,半对数线图,(4):纵轴用对数尺度,描述一组连续性资料的变化速度及趋势。,直方图,5、直方图:用面积表示连续性变化的频数资料。,散点图,散点图:用点的密集度和趋势表示两种现象的关系。 多用于相关分析时。,统计地图,(7):描述某种现象的

7、地域分布,第三节 计量资料的统计描述,常用方法有两种: 1、统计图表 2、集中趋势和离散趋势指标,一、频数分布表,1、编制 a 求极差 R=max-min b 划组段 确定组数 、确定组距i(i=R/组数)、 确定上下限 c 归组并统计频数 2、作用: a 描述资料的分布特点。 b 观察集中、离散趋势。 c 便于发现特大、特小的可疑值。 d 便于统计计算。,某市7岁男孩坐高频数分布表,续,3、分布的类型 对称分布: 偏态分布:正偏态、负偏态,二、集中趋势,1、算术均数(简称均数) 描述一组数据在数量上的平均水平 。 适用于正态或近似正态分布的资料 计算方法:直接法、加权法,加权法,132名高知

8、血清总胆固醇均数、标准差计算 血清胆固醇(mmol/L) X f fx fx2 3.0 3.25 3 9.75 31.69 3.5 3.75 6 22.50 84.38 4.0 4.25 20 85.00 361.25 4.5 4.75 22 104.50 496.38 5.0 5.25 31 162.75 854.44 5.5 5.75 26 149.50 859.62 6.0 6.25 18 112.50 703.12 6.5 6.75 5 33.75 227.81 7.0 7.25 1 7.25 52.56 合计 132 687.50 3671.25 X=fx/ f=687.50/132

9、=5.21mmol/L S= ( fx2 ( fx) 2/n)/(n1)= (3671.25687.5 2 /132)/(1321) =0.83mmol/L,2、几何均数G,描述对数正态分布或数据成倍数变化资料的平均水平。 适用于原始分布不对称,但经对数转换后呈对称分布的资料,如血清抗体滴度资料。,中位数,3、中位数M ,P50 (注意与百分位数的关系) 一组按大小排列的资料中处于中间位置的数值. 适用于任何分布的计量资料,但较粗糙。 方法:直接法 频数表法,三、离散趋势,甲 26 28 30 32 34 乙 24 27 30 33 36 丙 26 29 30 31 34 三组资料均数相同,但

10、分散度不同。 描述资料分散度的常用指标: 极差R、方差2 、标准差、 四分之一间距Q1/4及变异系数CV%。,标准差,计算 应用: 1、描述资料的离散程度,反映均数对变量值 的代表性,标准差越大,代表性越差。 2、计算变异系数和标准误。 3、估计频数的分布情况及指标的正常值范围 NR,变异系数,CV%用于两组资料比较变异程度,但存在下列情况之一时: a 资料的单位不一样 b 资料的均数相差太大,练习,某医科大学抽查了100名健康女大学生的血清总蛋白含量(g/L),检查结果如下: 74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 79.5 75.6 75.0 78.

11、8 72.0 72.0 72.0 74.3 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 74.0 72.0 76.5 74.3 76.5 77.6 67.3 72.0 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 75.8 73.5 75.0 72.7 70.4 77.2 68.8 67.3 75.8 73.5 75.0 72.7 73.5 72.7 81.6 73.

12、5 75.0 72.7 70.4 76.5 72.7 77.2 84.3 75.0 71.2 71.2 69.7 73.5 70.4 75.0 72.7 67.3 70.3 76.5 73.5 78.0 68.0 73.5 68.0 73.5 68.0 74.3 72.7 73.7 试回答以下问题: 1.这是总体还是样本资料? 2.上述资料的观察单位是什么?是数值变量还是分类变量? 3.怎样对这样一个资料(分布规律)进行简单描述?,第四节 正态分布,一、正态分布的概念和特征 1、概念 是概率的连续性分布,中间高,两边低,左右 对称,其曲线下的面积分布符合一定规律性。 常见的如: A 正常人的某

13、些生理、生化指标值的频数分布,如身 高、红细胞数、血糖等。 B 实验室里对同一样品多次重复测定结果的频数分布。 C 从正态或近似正态分布的总体中随机抽取的样本均 数的频数分布。,正态分布图形,特征,2、特征 A 曲线形状中间高,两边低,左右对称。 B 曲线随X绝对值的逐渐增大而逐渐接近横轴,但不会与 横轴相交。 C 曲线的形状和位置分别由标准差和均数两个参数决定。 D 曲线下与横轴相交的面积分布有规律性: 总面积为1; 1 范围内的面积占68.27% 1.96 范围内的面积占95.00% 2.58 范围内的面积占99.00%,面积的计算,二、标准正态分布,每一个正态分布曲线的形状和位置各不相同

14、,但各个系数(u值)所对应的面积是不变的, u=1, p=68.27% u=I.96,p=95.00% u=2.58,p=99.00% u=1.5, P= u=2, P= 根据这一点,可以制一张可供不同的、共同适应的面积分 布表。这张表所对应的曲线称为标准正态分布曲线N(0、1),而 任何一条正态分布曲线都可经过u转换成为N(0、1)。 U转换公式:由 u =X1,X2 u=(X),续,经变换后,对于服从N(、)的资料,均可借助标准正态曲线下面积分布表估计任意(X1,X2)范围内的频率。 例:某地男孩身高x=120.0cm,S=4.7cm,现有一男孩身高130cm,则当地比他高的男孩有多少?

15、U=(130-120)/4.7=2.13 查标准正态曲线下面积分布表,u2.13所对应的面积为0.0166,即当地身高在130cm以上的男孩占1.66%。,应用,三、正态分布的应用 a 估计频数分布 b 制定参考值范围(NR) 即绝大多数正常人某指标所在的范围。 绝大多数 正常人 样本量 单双侧确定 c 质量控制 d 统计处理方法的基础。,医学参考值的制定,四、医学参考值的制定 1、概念:大多数正常人的解剖、生理、生化等数据的波动范围。最常用的是95%参考值范围。 2、原则及步骤 (1)确定正常人 (2)确定样本含量 不少于100例(120) (3)选定范围 取决于资料的性质和研究目的 (4)

16、决定单双侧 取决于指标的特性 (5)判断是否按性别、年龄等因素分组 (6)根据资料特点选择具体方法(正态法、百分位数法),第五节 总体均数的估计和假设检验,一、均数的抽样误差与标准误 1、标准误的意义 已知1000名18岁女生的身高=160.00cm,=5.00cm,先从该 总体中随机抽样,每次抽100人,共抽K次,得K个样本均数和标准 差如下: X1=162.30cm, S1=4.12cm X2=160.32cm,S2=4.85cm X3=159.67cm,S3=5.04cm X4=161.48cm, S4=5.21cm X5=159.30cm, S5=4.98cm XK=162.30cm,

17、 SK=4.12cm X6 X5 X3 160 X2 X4 X1,标准误计算,标准误反映了样本均数与总体均数之间的差异,说明均数抽样误差的大小。 2、计算 X = /n 。总体 SX = S /n 。样本 从公式中可以再次得到抽样误差的特点: 可以计算,可以控制,但不能消灭。 3、标准误的应用: (1)、描述抽样误差的大小。 (2)、估计总体均数的可信区间。 (3)、作假设检验。,标准差与标准误的比较,标准差 标准误 意义 表示个体观察值间的变异, 表示样本均数间的变异程 说明观察值X围绕均数 度,说明样本均数围绕总 分散程度的指标. 体均数的分散程度的指标 计算公式不同 应用1表示个体观察值

18、间的变异 1表示样本均数间的变异程 不同 程度. 度,描述抽样误差的大小. 2计算标准误 2做假设检验 3估计正常值范围 3估计可信区间,二、t 分布,在一定条件下,样本均数的分布也是正态分布,也可经u转换成标准正态分布, u =(X-)/X , 但实际中X 并不知,多用S X代替,则 t =(X-)/SX 。 无数个t值构成了t 分布。 t分布多用于总体均数的区间估计和t检验。,T分布图形,特点,1、t分布的特点 A 以0为中心,中间高,两边低,左右对称。 B 形状由自由度(v)决定,v 越大,曲线越高耸,越接近标准正态分布。但v为时,t 分布便成为u分布。 2、t分布曲线下的面积分布(t

19、界值表),三、总体均数的估计,即用样本指标值估计总体指标值。 方法:点值估计、区间估计。 点值估计 可信区间(CI):按预先给定的概率确定的包含未知总体参数的可能范围。 预制的概率1-称为可信度,一般取95%。 95%CI的确切含义是:由样本均数确定的总体均数所在范围包含总体均数的可能性为95%。 CI的两个要素:准确度和精密度,可信区间的计算,A、 未知,按t分布估计 1、双侧CI: P(t/2, t t/2,)=1- t/2,(x)/(S/n)t/2, 即x-t/2,S/nx +t/2,S/n 2、单侧CI: x +t,S/n 或x -t,S/n,续,B 已知,或未知,但n足够大(n 50

20、),按 u分布估计 1、已知: x-u/2,/nx +u/2, /n 2、未知,但n足够大(n50): x -u/2,S/nx +u/2,S/n 注意:均数的可信区间和参考值范围是不同的两个概念。,四、假设检验,1、假设检验的基本思想和作用 为研究某山区的成年男子的脉搏均数是否高于一般成年男子脉搏均数,某医生在一山区随机抽查了25名健康成年男子,得其脉搏均数x为74.2次/分,标准差为6.0次/分。根据大量调查已知一般健康成年男子脉搏均数为72次/分,能否据此认为该山区成年的脉搏均数高于一般成年男子的脉搏均数0? 由资料已知样本均数与总体均数不等,原因有二: 1)是两者非同一总体,即两者间的差

21、异由地理气候等因素造成; 2)是两者为同一总体,即两者间的差异由抽样误差造成。,续,利用反证法思想,从 = 0出发,间接判断是否 0 。 而 = 0是否成立,看由抽样误差造成的可能性有多大。 如果x与0接近,其差别可用抽样误差解释,可认为x来自于总体0;如果x与0相差甚远,其差别不宜用抽样误差解释,则怀疑x来自于总体0 。那么x与0相差多大算是由抽样误差造成的呢? 可通过计算t 值判断,t =(x )/SX。如果x与0相差甚远,则t 值就大,其差别由抽样误差解释的可能性P就小,当P小于或等于预先规定的概率,则有理由 = 0认为可能不成立,其对立面 0 成立。,2、基本步骤,1)建立检验假设,确

22、定检验水准和单双侧。 2)选定检验方法,计算统计量。 3)确定P值,做出结论。 P:a 从H0规定的总体中随机抽得等于及大于(或等于及小于)现有统计量(如t 值)的概率。 b 被比较事物间的差别由抽样误差造成的可能性。 Pa,则拒绝H0 ,接受H1,差别有统计学意义。 Pa,则不拒绝H0 ,差别无统计学意义。,3、注意事项:,A 资料之间具有可比性。 B 根据资料特点选择不同的方法。 C 在计算统计量之前,根据研究要求选定检验水准,根 据专业知识选定单双侧。 D 正确理解“显著性差异”的含义 假设检验的结果只 反映性质的差异,而不能说明数量上的大小;只说明 是否有统计学意义,而不能说明专业上的

23、差异大小。 只有把统计结论和专业知识有机结合,才能得出恰当的专业结论。 E 其结论是一种概率性的推断,不管是拒绝0还是接受1,都有可能发生错误,故不能绝对化。,续,F 结论要书写完整 统计量值、概率大小、检验水准、单双侧等 H0:“拒绝”或“不拒绝”, H1:“接受” 例:t=1.247,v = 9 ,0.2双p0.4,按=0.05的水平,p,不拒绝H0,无统计学意义(统计结论),根据本调查还不能认为两种方法有差异(专业结论)。,t检验,4、t检验和u检验 (1)t检验 a 条件: n较小时,样本取自正态总体; 两样本方差齐性。若不齐,用t检验,如Cohran法、Cox法、Satterthwa

24、ite法。 (但在实际应用中,与条件略有偏离,只要其分布为单峰对称分布,也无大碍) b 种类: 一个样本和总体的比较 配对t检验 两个样本的t检验(成组t检验) a 方差齐性的情况 b 方差不齐的情况,用t检验 c 两样本几何均数比较,u检验,(2)u检验 条件: n(n50)较大,或已知。 种类: 一个样本和总体的比较 两个样本的u检验(成组u检验),五、型错误和型错误,1、型错误:拒绝了实际上成立的H0而犯的错误。其大小相当于。可有单双侧。 =0.05,当拒绝H0时,则理论上100次检验中平均有5次发生这样的错误。 2、型错误:接受了实际上不成立的H0而犯的错误。其大小用表示。的大小不可知

25、,一般越大,则越小,要同时减少这两类错误,只有增加样本数量。只有单侧。 1-称为检验效能,即当两者确有差异,按规定检验水准所能发现该差异的能力,六、可信区间与假设检验的区别和联系,1、可信区间用于说明量的大小,而假设检验用于推断质的不同。 2、可信区间也能回答假设检验的问题。 若可信区间包含了H0,则不拒绝H0;若不包含H0,则接受H1。 3、可信区间比假设检验可提供更多的信息。不但回答是否有统计学意义,还能提示差别是否有专业意义。(详见高等医学院校卫生统计学第四版P46)。,第六节 方差分析,一、基本思想 方差分析的基本思想是把变量值之间的差异进行分类,即组间变异和组内变异,通过比较两者的关

26、系,推论组间差异是否具有统计学意义。,例题分析,喂养饲料中含铝量不同的家兔血清含铝量 对照组 低铝组 高铝组 340(ug/L) 1700 (ug/L) 5900 (ug/L) 73.7 93.4 236.8 Xij 40.6 109.8 290.1 103.8 77.4 171.5 85.2 101.6 267.1 60.7 85.2 201.7 X X 364.0 467.4 1167.2 1998.6 n 5 5 5 15 X 72.8 93.48 233.44 133.24 X2 28798.02 44351.96 281669.8 354819.78,续,如本例,15个变量值之间存在

27、差异,原因有两个: 一是个体差异引起的抽样误差,它存在于组间,也存在于组内; 二是研究因素引起的差异,它存在于不同的组间。 如果饲料中含铝量的多少对血清中的含铝量没有影响,那么,组间、组内的差异都由抽样误差引起,也就是说组间变异和组内变异相等。 如果饲料中含铝量的多少对血清中的含铝量有影响,那么,差异除了由抽样误差引起外,各个组间还存在试验因素引起的差异,也就是说组间变异大于组内变异。,续,方差分析中,资料之间的变异的大小用均方(均方的本质就是方差)来表示,符号为MS,组间变异和组内变异的大小关系用它们的比值即F来表示, F= MS组间 / MS组内 若组间无差别,F值应接近于1,反之,F值将

28、明显大于1。 那么要达到多大程度才有统计学意义呢?通过查F界值表可以确定F值大小的统计学意义。,续,本例方差分析的结果见下表: 方差分析结果 变异来源 SS v MS F P 总变异 88526.316 14 组间变异 76369.456 2 38184.728 37.7 0.01 组内变异 12156.86 12 1013.072 SS: 相应变量值的离均差平方和。 SS总= SS组间+SS组内=X2 C C=(X)2 / N V: 自由度。 V总=N1 V组内=Nk V组间=k1 (k处理组数),续,MS:SS / v F=MS组间 / MS组内=37.7 查F界指表,F 0.05(2,1

29、2)= 3.88 , F 0.01(2,12)= 6。93, FF 0.01(2,12),所以P0.01,根据=0.05,P,拒绝H0,接受H1,即根据本研究可认为饲料中含铝量会影响到血清的含铝量。 注意:要说明哪些组间有差别,那些没有差别,需进一步作两两比较。,二、方差分析的条件,方差分析适用于两组以上计量资料(k2)的比较,k=2时,方差分析与t检验时等价的,F=t2。 1、各次观察独立,即任何两个观察值之间均不相关。 2、每一水平下的观察值分别服从相应的正态分布。 3、各总体的方差相等,即具有方差齐性。,三、方差分析的种类,1、完全随机设计的单因素方差分析 成组设计中只有一个研究因素,该

30、因素有k个水平,研究目的是比较不同水平的研究因素的效果是否具有统计学差异。如上例。,2,2、随机区组设计的两因素方差分析(配伍组设计) 不仅考虑研究因素的影响,还考虑到研究对象遗传特征的差 异,因此比前者更容易检验出处理组之间的差别,提高了检验效率。 它把资料之间的变异分为三块: 总变异 = 处理变异 + 随机变异 + 区组间变异,例题,三种不同浓度的黄曲霉素给大白鼠灌肠2周後体重增长值(g) 区组 黄曲霉素的浓度(mg/kg) 合计 0 9 18 1 48 26 25 99 2 50 46 29 125 3 58 49 14 93 4 52 20 12 60 5 30 35 16 81 X

31、238 176 44 458 n 5 5 5 15 X 47.6 35.2 8.8 30.5 X2 11772 6818 2062 20652,例题分析结果,方差分析结果 变异来源 SS v MS F P 总变异 6667.733 14 处理变异 3926.933 2 1963.47 7.93 0.05 区间变异 761.066 4 190.27 0.77 0.05 随机变异 1979.734 8 247.47 V总= N1 V区间= n1 V处理 = k1 V误差= (k1)(n1) 查F界值表,F 0.05(2,8)=4.46 ,F 0.01(2,8)= 8.65,F 0.01(2,8)F

32、处理F 0.05(2,8),所以0.01P处理0.05,根据=0.05,P,拒绝H0,接受H1,即根据本研究可认为不同浓度的黄曲霉素对体重增长有影响。,例题分析结果2,F 0.05(4,12)= 3.84 , F 0.01(4,12)= 7.01, F区组F0.05(4,12),所以P区组0.05,根据 =0.05,P区组,不拒绝H0,即根据本研究可认为5个区组的大白鼠体重增长无差别。说明区组的划分在本研究中不需要,反而降低了检验效应。所以把区间变异和随机变异合并成组内变异: SS 组内= 761.066 + 1979.734 =2740.800 V组内= 4 + 8 =12 MS 组内= 2

33、740.800/ 12 =228.4 F处理 =1963.47 /228.4 = 8.51,续,查F界值表,F0.05(2,12)= 3.88 , F 0.01(2,12)= 6.93, F处理F 0.01(2,12),所以P处理0.01,根据=0.05,P,拒绝H0,接受H1,即根据本研究可认为不同浓度的黄曲霉素对体重增长有影响。 从两个P处理的的范围可以发现,当区组之间无统计学差异时,反而是成组设计的方差分析的检验效应更高。所以并非是任何场合都需要区组设计。,三、多个样本均数间的两两比较,方差分析的结果提供了多个均数间差别的总的信息,但尚未提供各组间差别的具体信息,即尚未指出哪几个组均数之

34、间的差别具有或不具有统计学意义。为得到这方面的信息,可进行多个样本均数间的两两比较。 方法有: 1、最小有意义差异t检验(LSD-t检验) 适用于k组中某一对或某几对在专业上有特殊意义的均数的差值的总体水平是否为0。统计量为t,计算公式与q检验同,自由度为误差自由度,查t 值表。 2、Dunnett-t检验 适用于k1个试验组和一个对照组均数差别的多重比较。 统计量为t,查Dunnett-t 值表。,续,3、SNK-q检验 适用于多个样本均数间每两个均数的比较。 统计量为q,自由度为比较组数和误差自由度,查q值表。 以第一例为例(详见投影膜)。 XA-XB q = - MS误差/2(1/nA+

35、1/nB)1/2 4、新复极差法 适用于对照组与各处理组的比较。 XAX对照 q = - MS误差/2(1/nA+1/n对照)1/2,第七节 分类资料的统计描述,分类资料的统计描述:统计图表 绝对数 相对数,一、常用的相对数,1、率:说明某现象发生的频率或强度。 率 = 发生某现象的观察单位数 / 可能发生某现象的观察单位 数 K K 常有百分率、千分率、万分率、十万分率等。 选择原则: 习惯用法 使得到的数字一般保留12位整数,以便阅读。,2、构成比,说明某一事物内部各组成部分所占的比重。 构成比 = 某一组成部分的观察单位数 / 该事物各组成 部分的观察单位总数100%,3、相对比,说明两

36、事物之间的对比关系。 相对比 = A事物 / B事物 A、B可以是绝对数,也可是相对数; 计算结果可是小数,也可是倍数。 常用的有三种: (1)对比指标:同类事物指标的比值。如性别比。 (2)关系指标:非同类事物指标的比值。 如医护人员与病床数之比。 (3)计划完成指标:,二、注意事项,1、分母不可过小。 2、不能以比代率。 某化工厂慢支患病与工龄的关系 工龄 检查人数 患者数 百分比(%) 患病率(%) 1 340 17 11。56 5。00 5 254 30 20。41 11。81 10 432 73 49。66 16。90 15 136 27 18。37 19。85 合计 1162 14

37、7 100。00 12。65 3、如何计算合计率(总率)。 4、比较相对数时,注意资料的可比性。 5、样本率的比较要进行假设检验。,三、标准化法,甲乙两医院某传染病各型治愈率比较 病型 甲院 乙院 病人数 治愈数 治愈率(%) 病人数 治愈数 治愈率(%) 普通型 300 180 60。0 100 65 65。5 重型 100 40 40。0 300 135 45。0 爆发型 100 20 20。0 100 25 25。0 合计 500 240 48。0 500 225 45。0 这种分率和总率之间的矛盾是由两医院内部病人的病情构成不同引起的,这时要用总率来比较它们的治愈率水平的高低,显然不行

38、,因为除了两医院的治疗水平不同的影响外,还有病情的影响。所以要比较甲乙两医院某传染病治愈率,要先消除病情构成的影响,即选取一种共同内部构成作为计算总率的基础,这种方法称为率的标准化法,这样计算得到的率称为标准化率(标化率、调整率)。,根据资料不同,有直接法和间接法两种。 直接法 步骤: 1、选取一个标准,即一个标准的内部构成,可以是标准人口数,也可是标准人口构成比,还可以用标准阳性率(间接法)。 标准来源: A 具有代表性的、较稳定的、数量较大的人群作标准。如全国的、全省的或本地区的数据,时间最好与被标化资料一致或较接近。 B 以相比资料本身数据为标准,如甲院的数据、或医院的数据、或两院合并的

39、数据。 2、计算标化率。,直接法,续,例:以甲院数据为标准计算乙院治愈率的标化率(直接法) 乙院某传染病标化治愈率计算 病型 标准病人数 原治愈率(%) 预期治愈人数 普通型 300 65。0 195 重型 100 45。0 45 爆发型 100 25。0 25 合计 500 - 265 乙院某传染病标化治愈率= 265 / 500 = 0。53 = 53。0% 所以在共同的构成下,甲院治愈率为48%,乙院治愈率为53%,因此对该钟传染病的治疗率是乙院较高.,间接法: 间接法是在不知道被比较两者的分率,或某些组的调查人数太少,分率不可靠时采用的方法,如下例: 已知甲地死亡总数为845人,乙地为

40、679人,以及两地各年龄组人口数,比较两地死亡水平。 甲乙两地死亡标化率计算 年龄组 标准死亡率 甲地 乙地 (%) 人数 预期死亡数 人数 预期死亡数 0 62。6 9300 582 4800 300 5 3。9 12200 48 6600 26 20 6。5 19000 124 35300 230 40 12。7 7600 97 2800 36 60 41。3 1900 78 500 21 合计 15。4 50000 929 50000 613,间接法,计算标化死亡比(SMR): SMR = 实际死亡数 / 预期死亡数 SMR1,说明标化率大于标准组 SMR1,说明标化率小于标准组 甲地S

41、MR = 845 929 =0。91 甲地标化死亡率 = 15。4%0。91 = 14。03% 乙地SMR = 679 613 =1。14 乙地标化死亡率 = 15。4%1。14 = 17。58%,1、根据资料选用相应的方法。 2、标化率的大小随选定的标准的不同而不同。 3、率的标化的目的在于统一内部构成,是资料具有可比性,以便合理的比较。标化率的差别,只反映资料间率的高低、大小的相对关系,并不反映资料间率的实际水平。 4、如不计算标化率,而分别比较各组的分率,也可得到正确结论,但不能比较总率的大小。 5、被标化的样本率若要进一步推断总体结果,还需对标化后的样本率作假设检验。,注意事项,一、率

42、的抽样误差 一般地,从一个阳性率为的总体中随机抽取含量为n的样本,则样本中的阳性数X服从二项分布B(n,),样本阳性率p与总体率之间也存在抽样误差,其大小用样本率的标准差来表示,即率的标准误。 总体标准误 s=(1)/ n 样本标准误 Sp =p(1p)/ n,第八节 总体率的估计和卡方检验,1、查表法 适用:n50时 2、近似正态法 适用条件:n50,p和(1p)均不太小(不靠近0.1和0。9)时,样本率的分布近似正态分布,可按正态分布原理估计总体率的可信区间。 95%CI:p 1。96 Sp 99%CI:p 2。58 Sp,二、总体率的估计,1、直接计算概率进行比较 2、u检验 适用条件:

43、n50,p和(1p)均不太小(不靠近0.1和 0。9)时,样本率的分布近似正态分布。 3、2检验 2检验可用于 a 推断多个样本率或构成比之间又无差别 b 两种属性或两个变量之间有无关联性 c 频数分布的拟和优度检验,三、率的假设检验,基本思想 吸烟者与不吸烟者的慢性支气管炎患病率比较 分组 患病人数 未患病人数 合计 患病率(%) 吸烟者 43(33。86) 162(171。14) 205 (n1) 21。0 不吸烟者 13(22。14) 121(111。86) 134 (n2) 9。7 合计 56(m1) 283 (m2) 339(N) 16。5 红色为实际数(A),蓝色为理论数(T)。

44、假设吸烟与慢支之间无关,则两者总体的的患病率相同,暂时按合计率推算,即为16。5%。那么 T 11= n1m1 / N = 20556339 =33。86 T 12= n1m2/ N = 205283339= 171。14 T 21 = n2m1 / N = 13456339 = 22。14 T 22= n2m2/ N = 134283339 = 111。86,(1)四格表资料的2检验,续,如果假设成立,那么,实际值和理论值的差值为0,否则它们相差很大。实际值和理论值之间的差距用2值表示。 2 =(AT) 2 / T 。基本公式 2 =(adbc) 2N /(a+b)(a+c)(b+c)(b+

45、d) 。四个表专用公式 由此可见,2 反映了实际数和理论数的吻合程度。若假设成立,则实际数和理论数的差别不会很大,出现大的2值的可能性很小。若P,就拒绝假设;若P,则尚无理由拒绝它。,A 四格表资料指的是哪四个格子的数字(见有颜色 部分) B 2检验的自由度V的计算 V= (R1)(C1) 四格表资料的自由度恒定为1。 C 四格表资料2 检验的条件: 第一种情况:N40,且T均5,用普通2检验 第二种情况:N40,但有1T5时,用矫正2检验 第三种情况:N40,或T1 时,用确切概率法 D 当P接近检验水准时,不要轻易下结论。 E 在满足各自条件的前提下, 2检验与U检验等价, 2 值 = U

46、 2,注意:,例:有239份食品样品,分别用荧光抗体法与常规培养法检验沙门氏菌,结果如下: 荧光抗体法与常规培养法检验结果 荧光抗体法 常规培养法 合计 + - + 160 (a) 26 (b) 186 - 5 (c) 48 (d) 53 合计 165 74 239 a和d是结果相同的部分,c和b是结果不同部分,若两种检验方法效果相同,那么,理论上c = b ,但由于抽样误差的存在,对于样本b不等于c的情况,需进行假设检验。 2= (bc)2/ (b+c) v = 1 。普通公式 2 = (1bc11) 2 / (b+c) v = 1 。矫正公式 b+c 40时可不矫正,b+c40时必须矫正。

47、,(2)配对四个表资料2检验,适用于 A 多个率的比较 B 多个构成比的比较 C 双向有序分类资料的关联性检验,如 不同期次矽肺患者肺门密度级别分布 矽肺期次 肺门密度级别 合计 + + + 43 188 14 245 1 96 72 169 6 17 55 78 合计 50 301 141 492 从资料看,肺门密度级别有随着矽肺期次增加而增大的趋势,即这两个变量似乎有某种关联。如果这些频数在各格子里是均匀分布的,则表示两个变量无关联。,(3)RC表的2检验,续,注意: A: RC表的2检验适用于以下条件 T1;并且1T5的格子数不超过总格子数的1/5。 若条件不满足,可有三种方法处理: a

48、 增加样本数 b 删除理论数太小的行或列 c 将性质相近的行或列合并 B: 若结论是“差异具有统计学意义”,仅说明其中至少有一 组与其他组存在差异,是否各组两两之间均存在差异,还需进一步作2 黄金分割检验。 C: 在单项有序行列表中,若等级数大于3,用秩和检验更适合。 D: 有些RC表资料不能用RC表的2检验的,这种资料的特点是双向有序等级分类,且分类属性相同。(见新世纪教材医学统计学第三版主编马斌荣p96),第九节 秩和检验,前面讲述的统计推断方法,是在已知总体分布类型的基础上,对总体参数进行估计和检验,称为参数统计。如t-T、u-T、F-T等均属此类。 但在许多时候,有些资料并不符合参数统

49、计的要求,也不能通过数据转换使其符合参数统计的条件,这时就需要一种不依赖总体分布类型,也不对总体参数进行统计推断的假设检验方法,称为非参数检验。 多用于: 1、偏态分布或分布形式不明的计量资料。 2、有极大值或不确切值。 3、等级资料。 4、总体方差不齐。,优缺点,优点:非参数检验适用范围广,且收集资料、统计分析也较简单。其中最常用的是2检验、秩和检验,及等级相关分析. 但其缺点也是很明显的,对于适宜作参数统计的资料,若用非参数统计方法处理,常损失部分信息,即不够精确,犯第二类错误的可能性大于参数检验。 。,一、配对资料差值的符号秩和检验。(Wilcoxon配对法),用于计量配对比较的资料。,

50、十名健康人用离子交换法与蒸馏法测定尿汞值,编号 离子交换法 蒸馏法 差值 秩次 1 0。5 0。0 0。5 2 T+=26。5, 2 2。2 1。1 1。1 7 T-=18。5 3 0。0 0。0 0。0 - 4 2。3 1。3 1。0 6 5 6。2 3。4 2。8 8 6 1。0 4。6 -3。6 -9 7 1。8 1。1 0。7 3。5 8 4。4 4。6 -0。2 -1 9 2。7 3。4 -0。7 -3。5 10 1。3 2。1 -0。8 -5,1、建立假设及确定检验水准 H0:差值总体水平为0。 H1:差值总体水平不为0。 =0。05 2、计算T值 (1)求差:算出每对差值 (2)

51、编秩:按差值的绝对值大小从小到大编秩,并冠以原差值的正负号。 A 若差值为0,可删去不计,不编秩。 B 若差值的绝对值相等,符号相反,则以平均秩次作为每一个差值的秩次,保留原差值符号。 C 若差值完全相等,则按原秩号,不必平均。 (3)求秩和:将正负秩次分别相加,以秩和绝对值小则为T。本例T=18。5。 3、确定P值,判断结果。 查配对比较的T界值表,得双侧P0。10,按=0。05水平不拒绝H0,故不能认为两种方法有差别。,例题,注意:配对的对子数不能少于6。 本法的基本思想:若H0成立,则样本的正负秩和应较接近于T值的均数n(n+1)/4,T值不会很小。若正负秩和相差悬殊,则T值特别小,则在

52、H0成立的情况下,由于抽样误差所至的可能性很小,当P时,拒绝H0。 随着n增大,T的分布逐渐逼近均数为n(n+1)/4,方差为n(n+1)(2n+1)/24的正态分布。N50时,可用u-T代替秩和检验。 1Tn(n+1)/4 10。5 U= n(n+1)(2n+1)/24,基本思想,两组小白鼠发癌後生存日数 试验组 对照组 生存日数 秩次 生存日数 秩次 10 9。5 2 1 N1=10 T1=170 12 12。5 3 2 N2=12 T2=83 15 15 4 3 15 16 5 4 16 17 6 5 17 18 7 6 18 19 8 7 20 20 9 8 23 21 10 9。5 90以上 22 11 11 12 12。5 13 14,二、成组设计两样本比较的秩和检验(Wilcoxon法),1、编秩方法 将两组数据分别从小到大排队,再将它们从小到大编秩,凡属不同组的相同数据一律编为平均秩次,凡属同组的相同数据按原秩次,可不必平均。 2、秩和 n1n2 时,以样本量较少组的秩和为T n1n2 时,可取任意组秩和为T。本例T=170 3、确定P值 当n120,n2n110时(n1为样本量少者),可查两组比较的T值表,得双侧P0。01。 若n120,n2n110时(n1为样本量少者),即n1、n2较大时,T分布逼近= n1(n1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论