医学统计学基础_第1页
医学统计学基础_第2页
医学统计学基础_第3页
医学统计学基础_第4页
医学统计学基础_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——医学统计学基础医学统计学

第一讲绪论

一、《医学统计学》的理论基础和研究对象:

a)问题的提出:

在人们的实践活动中,往往会遇到类似下面的一些问题:一种新的疫苗,如何判断它是否有效?吸烟会不会使得肺癌的机遇增加?

如何抽检几百或几千人来估计某种病的流行程度?某批产品中合格品毕竟有多少?该不该报废?

如何消耗最少的资源和人力来得到我们所需要的某种信息?某种试验方法(或饲料配方)有没有明显改进?患者分组是否具有可比性?

所观测对象的数量是否足够说明其结论?试验结果的误差有多大?

研究结果是否适用于观测样本以外的同类对象?……等等.其共同特点:只知道事情的不完全信息,或者是单个试验的结果有某种不确定性。

例如:为了知道产品合格与否或它的使用寿命,我们往往需要对它作破坏性检验,此时显然不能把所有的产品都检验一下,而只能满足于对少数几个作品的抽检,这样获得的信息显然是不完全的;

要检验疫苗的有效性,就一般来说,接种过疫苗的动物也不一定

医学统计学

全不发病,而未接种的也不会全发病.那么发病与不发病的区别毕竟到多大时我们才能认为接种是有效的呢?

这些均涉及了我们如何评价一些并不确定的试验结果的问题。要从这类问题中得出科学的、可靠的结论,就必需依靠统计学.有人干脆给统计学下了这样的定义:“统计学就是从不完全的信息里取得确凿知识的一系列技巧〞。

另外,当必需根据有限的、完全的信息作出决策时(例如决定一

批产品是出厂还是报废,某种新药是否有效等等),统计学可以提供一种方法,使我们不仅能做出合理的决策,而且知道所冒风险的大小,并帮助我们把可能的损失减至最小。

其次,如何花费最小代价取得所关心的信息,也是统计学的一大课题(实险设计).不注意这一点可能使辛辛苦苦的工作全成为一种浪费.

2.理论基础:“根据数理统计的原理、方法紧凑结合医学实践,研究医药卫生领域中的资料收集、整理、分析和推断的一门应用学科,来分析和解释生物界各种现象和试验调查资料的科学〞。随着生物医学研究的不断发展,运用统计学方法来认识、推断和解释生命过程中的各种现象也越来越广泛。运用统计学方法可以帮助人们分析占有信息,达到去伪存真,去粗取精,正确认识世界的目的。

3.研究对象:人体及与人体健康有关的各种具有不确定性的医学数据(变异、数量、同质)。

医学统计学

二、《医学统计学》的主要任务和作用:

任务:1、结合专业知识和具体研究的要求进行统计设计2、对收集资料进行整理、做统计描述3、对资料进行统计分析和解释

作用:1、保证调查或试验设计的科学性、完整性

2、指标的确定应具有特异性、客观性,灵敏性和缜密度高3、样本含量足够大,数据真实可靠4、选用统计分析方法正确

三、医学统计学的主要内容:

1、统计设计(design)在进行统计工作和研究之前必需有一个周密的设计,设计的内容包括资料收集、整理和分析全过程总的设想和安排。

统计设计可依照在研究过程中对研究对象是否进行干预分作调查研究设计和试验研究设计。

调查研究设计:研究者旨在客观地描述研究总体,未加任何干预措施,如:调查了解某地的学龄儿童缺铁性贫血的患病率,某地新生儿畸形的发生率,北京地区溃疡病患病率等,其目的在于了解某一医学现象的实际状况,疾病的危害程度,以便为防治和研究这些疾病提供依据。调查设计主要有抽样方法、调查技术、质量控制技术等。

试验研究设计:研究者根据目的(研究假设),主动加以干预措施,并观测总结其结果,回复研究假设所提出的问题。

医学统计学

如:研究脂健乳是否有降脂作用,首先假设脂健乳可以降低血脂,再将条件相像的20只大鼠先用高脂饲料喂养做成高脂血症的模型,然后将动物随机分为试验组和对照组,试验组服用脂健乳和豆奶,对照组单纯服用豆奶,喂养一个月后观测比较两组之间各项血脂指标的区别有无统计学意义,进而得出脂健乳是否具有降低血脂的保健作用的结论。

试验设计主要有各种试验设计模型、分组方法、样本量估计等。由于统计设计的质量直接影响着试验结果的确凿性、可靠性、严密性和代表性,一旦出现设计上的失误或缺陷,可能导致整个研究的失败。因此,专业设计是研究者对专业知识的把握能力,直接影响着试验的深度和水平,而统计设计是研究者对医学统计知识的正确运用,以保证统计描述和推断正确的基础。

调查设计与试验研究设计

专业设计

运用专业知识进行设计

要求内容方向目的

统计设计运用统计学知识进行设计

选题、调查(试验)、方法、材料确定设计方案、收集整理资料、确定

统计指标、分析和推断方法探讨试验、观测结果的适用性和创探讨试验、观测结果的可重复性、高造性效性回复和解决科研课题,验证假说,减少和控制误差。保证样本的代表性保证科研结果的先进性和可靠性,保证明验结果的确切性和

可重复性

2、收集资料(collectionofdata)方式:1、统计报表2、经常性工作记录3、专题调查或试验

医学统计学

3、整理资料(sortingdata)将原始数据进行核对、整理,使其系统化、条理化,对数据进行规律检查,改正错误,提供整理和描述数据资料的科学方法,确定数据的数量特征。

4、分析资料(analysisofdata)根据不同的资料类型,选择不同的统计处理方法,计算有关指标,反映数据的综合特征,说明事物的内在联系和规律。统计分析包括:

①统计描述(descriptivestatistics):用统计指标、统计表、统计图等方法,对资料的数量特征及分布规律进行测定和描述。

②统计推断(inferentialstatistics):包括如何抽样,以及如何在随机变量的样本值基础上推断概率分布和总体值。统计推断中涉及的各种统计分析方法是本次授课的重点内容。

四、医学统计学在科研中的作用:

1、系统积累和表达经验

临床经验的积累在于大量的临床实践。实际上这些经验都可以整理和表达为统计信息,把握了一定的统计学知识,就可以将积累的经验,通过对资料的收集、整理和分析,转变为正规和系统的统计信息,用以报告或发表,使人类医学知识宝库不断充实和发展。

医学统计学

2、完成科研工作

生物学是一门试验科学,不管你从事的是生物学的哪一个分支,都不可能完全脱离试验,只进行规律推理.而试验所得到的结果几乎无例外地都带有或多或少的不确定性,即试验误差.在这种状况下,不用统计学要想得到正确的结论是不可能的,可以毫不夸诞地说,作为一个试验科学工,离开了统计学就寸步难行,希望通过这门课程的学习,能够把握常用的统计方法,特别是它们的条件,适用范围、优缺点等,从而能够应用它们去解决实践中遇到的问题。否则,他将无法知道其研究结果是否具有科学意义上的可重复性。要一一回复这些问题,要求研究者必需在整个研究过程中贯穿和运用统计学的理论和方法。

3、撰写研究报告和阅读书刊

医学研究中往往要涉及大量的数据,但在撰写研究报告和论文时,只能使用经过整理和归纳的统计指标,并且用规范的统计表和统计图表达。此外,在阅读国外期刊时,假使不具备统计学的基础知识,则不能判断别人研究结果的可信性和局限性,更谈不上吸收和借鉴。

五、《医学统计学》中几个重要的基本概念:

(1)总体(population)、样本(sample)、个体(observedunit)

a.总体:根据研究目的所确定的性质一致的所有个体的某种

变量值的集合。如:调查某地1999年正常成年男子的红细胞数,则

观测对象:该地1999年正常成年男子。

观测单位:统计研究中的最基本单位,如:一个人、一个家庭、

医学统计学

一个地区等。

观测值(变量值):每个人测得的红细胞数。

该地1999年正常成年男子的红细胞数就构成一个总体。同质基础:同一地区、同一年份、同为正常成人、同为男性有限总体(finitepopulation):有确定的时间、空间和有限个观测单位,如上例。

无限总体(infinitepopulation):没有确定的时间和空间限制,观测单位数为无限。如研究用某药治疗缺铁性贫血的疗效,此时,总体的同质基础是贫血患者,同时用某药治疗,该总体应包括用该药治疗的所有贫血患者的治疗结果。

b.样本:从总体中随机抽取部分个体所组成的集合。

(随机化原则:总体中每一个观测单位均有同等机遇被抽取)

(2)参数(parameter)、统计量(statistics)

统计学中把总体的指标称为参数,把所得样本的平均数称为统计量。

(3)误差(error):

抽样误差(samplingerror)由于总体中的个体间往往存在着变异,随机抽取的样本仅是总体中的一部分个体,因而样本测得的指标(统计量)往往与总体指标(参数)存在着差异,这种由于随机抽样而造成的样本的统计量与总体参数之间的差异,称为抽样误差,它既不定量,也不定性。

系统误差:由于设计不严,测量仪器不确凿,测量者水平的偏差而造成的,这种误差是定量的,可控的。

医学统计学

(4)统计资料

对每个观测单位的某项特征进行测量和观测,其特征称为变量,对变量的测值称为变量值,亦称为资料。

计量资料(quantitativedata)

统计资料类型计数资料(qualitativedata)

等级资料(rankeddat)

①、定量资料(quantitativedata)又称为计量资料:

用专业仪器测量,具有计量单位的测量数据,表现为数值的大小,如身高(cm)、体重(kg)、血压(kPa)等。特点:每个观测单位的观测值间有量的区别

②、定性资料(qualitativedata):其观测值是定性的,表现为互不相容的类别或属性(即将观测单位按某种属性或类别分组,所得各组的观测单位数)。

特点:每个观测单位的观测值间有质的区别分两种状况:

1、无序分类(unorderedcategories)又称为计数资料

a.二项分类检验结果可以是阳性或阴性、治疗结果可以是治愈或未愈、性别属性等,表现为两类间相互对立。

b.多项分类某种观测结果为互不相容的多个类别,如血型、职业等。

2、有序分类(ordinalcategories)又称为等级资料

介于定量测量和定性观测之间的半定量观测结果,如测定某人

医学统计学

群血清反应,以人为观测单位,结果分为—、±、+、++四级,又如观测以某种药治疗某病患者的治疗结果,以每个患者为观测单位,结果分为治愈、显效、好转、无效四级,寻常有两个以上等级。

等级资料与计数资料的区别在于,等级资料虽然是多分类资料,但各个类别存在着大小和程度上的区别。特点:各类之间有程度的区别

资料的转化和分析:根据分析问题的需要,各类变量可以相互转化。如:观测某人群成年男子的血红蛋白量(g/L),属数值变量;

若分析比较某种病人的血红蛋白水平与正常人有无区别,须按计量资料进行处理。

序号

123456789

正常人组

病人组

若按血红蛋白正常与偏低分为两类,可按二项分类资料处理;

正常偏低合计

正常人组

病人组

若按贫血的诊断标准将血红蛋白含量分为五个等级:重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高,可按等级资料处理。

医学统计学

重度贫血中度贫血轻度贫血正常血红蛋白增高

合计正常人组

病人组

(5)频率(frequency)、概率(probability)

医学研究的大多数现象是随机现象,例如用同一种治疗方法治疗某病的一群患者,可以知道治疗的结果有四种,但对于一个病人其治疗后的结果是不确定的,此时的每一种可能发生的结果都是一个随机事件(偶然事件、事件)。

定义:在n次随机试验中,随机事件A发生了k次,记fn?k??,则称fn?k?为随机事件A在n次试验中出现的频率。

实践证明,大量的试验中随机事件会浮现出频率稳定性。定义:描述随机事件A发生可能性大小的数值,称为A的概率,记作P(A),简记为P。假使临床观测中治疗200病人的样本,求得治愈率为75%,这只是一个频率。实际应用中,当概率不易求得时,常用n→∞时的频率作为概率的估计值。但当n较少时,频率的波动性是很大的,用于估计概率是不可靠的。

随机事件概率的大小在0与1之间。

P值越接近1,表示某事件发生的可能性越大;P值越接近0,表示某事件发生的可能性越小。

严格说,P=1表示事件必然发生,P=0表示事件不可能发生,他

kn

医学统计学

们是确定性的,不是随机事件,但可把他们看成随机事件的特例。

统计分析中的好多结论都是带有概率性的。习惯上将P≤0.05称为小概率事件,表示在一次试验或观测中该事件发生的可能性很小,可以视为很可能不发生。《医学统计学》的学习重点是:

1、把握其基本知识、基本技能、基本概念、基本方法。建立规律思维方法和提高分析问题的能力。2、把握调查设计和试验设计的基本原则。

培养收集、整理、分析统计资料的系统工作能力。3、把握一套统计软件的使用方法(SAS、SPSS、STATA等)。能够达到在完成《医学统计学》课程后,独立完成科研论

文和正确应用统计方法。

医学统计学

其次讲集中趋势

举例

设有A、B两名新战士,他们的射击技术可用下面的分布来表示:战士A战士B击中环数8910击中环数8910对应概率0.30.10.6对应概率0.20.50.3问哪一个战士射击技术较好?1、频数分布表1)、频数表的编制

一致观测结果出现的次数称为频数。将所有观测结果的频数按一定顺序排列在一起便是频数表(frequencytable)。步骤:

①找出最大和最小值,计算极差R=Xmax―Xmin②根据斯梯阶公式确定组距

H?R1?3.322logn

③扫描样本值,划记后获得频数

2)、频数表的用途

①大样本数据(不限于计量资料)常用的表达方式。

②便于观测数据的分布类型。

③便于发现资料中远离群体的某些特大或特小的可疑值,必要时经检验后舍去。

④当样本含量足够大时,各组段的分布频率作为分布概率的估计值。

例7.我国某地农村1995年已婚育龄妇女现有子女数的分布子女数(1)0123456789≥10合计

妇女数f(2)13751251913042628560217191369572553268151373156145525频率(%)(3)9.4517.3020.9119.6214.929.414.982.250.100.260.11100.00累计频数(4)13751389226934897908119627133322140577143845144996145369145525——累计频率(%)(5)9.4526.7547.6567.2882.2091.6196.6098.8599.6499.89100.00——医学统计学

2、集中位置的描述

平均数(average)是统计中最广泛、最重要的一个指标体系。用来描述一组变量的集中趋势、中心位置或平均水平,常作为一组资料的代表值,使资料产生简明概括的印象,又便于组间的比较。常用平均数有均数、几何均数和中位数。(一)、均数(mean)的计算

x?x2?x3...?xnx?1?n①直接法

?xin

例1、10名7岁男童体重(kg)分别为17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,

24.0,25.5.求平均体重。

x=(17.3+18.0+19.4+20.6+21.2+21.8+22.5+23.2+24.0+25.5)/10=21.35(kg)

②频数表法:

x?f1x1?f2X2?f3x3??fkxk???fxf?f

例2:某地随机检查了140名成年男性红细胞数(1012/L)

4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084.824.935.054.404.145.014.375.244.604.714.824.945.054.794.524.644.374.874.604.724.835.334.684.804.154.654.764.884.613.974.084.584.314.054.165.045.154.504.624.734.474.584.704.814.554.284.784.514.634.364.484.595.095.205.325.054.414.524.644.754.494.224.715.214.944.685.174.915.024.76

医学统计学

红细胞数(1012/L)(1)3.80~4.00~4.20~4.40~4.60~4.80~5.00~5.20~5.40~5.60~5.80~

合计频数f(2)

261125322717134

21

140(∑f)

组中值X(3)

3.904.104.304.504.704.905.105.305.505.705.90

Fx(4)=(2)*(3)7.8

24.647.3112.5150.4132.386.768.922.011.45.9

669.8(∑fX)

fx?f2X2?f3x3??fkxkx?11?f?

=4.78(1012/L)

均数的两个重要特征:

①各离均差的总和等于零

?fx?f

?(x-x)?0

证明:

?(xi?x)??xi?nx??xi??xi?0

??②各离均差的平方和小于各观测值X与任何数a之差的平方

?(x-x)??(x-a)22

均数的应用:

1.用来描述一组变量值的平均水平,具有代表性,因此变量值必需是同质的。2.适用于呈正态分布(对称分布)的资料。

医学统计学

(2)几何均数(geometricmean)的计算1)直接法

G?nx1?x2?x3???xnlgxlgx1?lgx2????lgxn)?lg?1(?)nn

例3:5人的血清滴度为:1:2,1:4,1:8,1:16,1:32,求平均滴度。

G?lg?1(G?n2?4?8?16?32

LgG=(lg2+lg4+lg8+lg16+lg32)/5=0.903

G=lg-10.903=8故平均滴度为1:8。

2)频数表法

G?lg?1(?

例4:40名麻疹疫苗接种麻疹疫苗后一个月,血凝抑制抗体滴度见下表,求平均滴度。抗体滴度人数f滴度倒数XLgXf*lgX(1)(2)(3)(4)(5)=(2)*(4)1:4140.60210.60211:8580.90314.51551:166161.20417.22461:322321.50513.01021:647641.806212.64341:128101282.107221.07201:25642562.40829.63281:51255122.709313.54654072.2471LgG=(?flgX/?f)=72.2471/40=1.8062G=lg-11.8062=64血凝抑制抗体滴度的平均滴度为1:64

几何均数的应用:用于等比级数资料和对数正态分布资料,

如:某些传染病的潜伏期、抗体滴度、细菌计数等。

flgx)?f

医学统计学

(3)、中位数和百分位数的计算

中位数(median,M)是将一组观测值从小到大按顺序排列,位次居中的数值对应的观测值就是中位数。因而全部观测值中,大于和小于中位数的观测值的个数相等。

1)直接法:将原始观测值按大小顺序排列:

M?Xn为奇数时,

(n?1)2

??X?X?(n)?n(?1)22?n为偶数时,M??2例5.测得5个人的低密度脂蛋白中载体B蛋白的含量(mg/dl)分别为0.84,2.58,5.46,8.58,9.60,求其中位数.

M?X

=X3=5.46mg/dl

例6.8名新生儿的身长(cm)依此为50,51,52,53,54,54,55,58,求其中位数。

??X?X?(n)?n(?1)22??53?54?53.5M??22(n?1)22)频数表法

Px?L?i(n?x%??fL)fx

医学统计学

例7.对某地630名50岁~60岁的正常女性检查了血清甘油三脂含量,并制成如

下频数表,试求中位数及第25、75、90百分位数。

甘油三脂mg/dl频数,f累计频数累计频率(%)

(1)(2)(3)(4)10~27274.340~16919631.170~16736357.6100~9445772.5130~8153885.4160~4258092.1190~2860896.5220~1462298.7250~462699.4280~362999.8310~1630100.0合计630

630?0.5?196m?70??30?91.4(mg/dl)

167

630?0.25?27p25?40??30?63.2(mg/dl)

169

630?0.75?457p75?130??30?135.7(mg/dl)

81

630?0.90?538p90?160??30?180.7(mg/dl)

42

医学统计学

例8.某日大气中SO2的日平均浓度(ug/m3)见下表,分别求第25、75、95

百分位数及中位数。浓度(ug/m3)天数,f累计频数累计频率(%)(1)(2)(3)(4)5~393910.850~6710629.475~6417047.1100~6323364.5125~4527877.0150~3030885.3175~1732590.0200~933492.5225~734194.5634796.1275~535297.5300~335598.3325~6361100.0361Px?l?i(n?x%??fl)fx

25(361?25%?39)?69.12(?g/m3)6725P75?125?(361?75%?233)?145.97(?g/m3)4525P95?250?(361?95%?341)?258.12(?g/m3)625P50?100?(361/2?170)?104.17(?g/m3)63

中位数和百分位数的应用:

1.用于描述偏态分布资料的集中位置。反映位次居中的观测值的水平。2.百分位数是用于描述样本或总体观测值序列在某百分位置水平,最常用的百分位数是中位数。

3.百分位数常用来确定医学参考值范围。

P25?50?医学统计学第三讲离散趋势离散程度的描述

三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。甲组2628303234X甲=30kgR=8S=3.16已组2427303336X乙=30kgR=12S=4.74丙组2629303134X丙=30kgR=8S=2.91哪一组数值的代表性好?(1)极差(range)

一组观测值中,最大值与最小值差,反映个体差异的范围。极差大,说明变异度大,各变量值离均数越远,数据越分散;反之亦然。(2)四分位数(quartile)间距

可看成是特定的百分位数,用它说明个体差异比极差稳定。

Q=P75–P25

一般来说,样本例数越多,四分位间距越稳定。(3)方差(variance)与标准差的计算方差:σ2=?(x??)2/N

2(x?x)?s2?

n?1

由上式可知:方差考虑了总体中每个变量值X与总体均数之差(x??),称为离均差平方和(SS),因此方差近似等于离均差平方和的算数均数,故又称为均方差(MS),由于SS利用了每一个观测值的信息,因而反映一批数据的变异程度优于极差和四分位间距。

(4)标准差(standarddeviation)

方差开方后称为标准差,其单位与变量值单位及均数单位一致,变异度越大,则离均差平方和越大,标准差越大,说明个体差异越大,均数的代表性越差。为了简化计算,标准差的计算公式还可写为:

(?x)2?x?nS?n?1

2医学统计学

分组资料的计算:

S??fx2?(?fx)2n

n?1如上例:n=110∑fx2=1584990∑fx=13194

S??fx2?(?fx)2n?

1584990?131942/110?4.72cm110?1n?1

(5)变异系数(cofficientofvariation,CV)定义:标准差与算术均数之比,cv?sx??100%

其描述了相对于算术均数而言标准差的大小,即描述数据的变异相对于其平均水平来说是大还是小。

与前面介绍的四种离散程度指标相比,变异系数有以下两个不同之处:1:它描述的不是数据分布的绝对离散程度,而是相对离散程度;2:它不象极差、四分位数间距、方差、标准差那样具有取值单位。这两个特点决定了变异系数的应用也不同于前面四个离散程度指标。它常用于:

1、比较度量衡单位不同的多组资料的变异度:

例如:某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm;其体重均数为53.72kg,标准差为4.96kg.欲比较身高与体重的变异何者为大,由于度量单位不同,不能比较其标准差而应比较其变异系数身高cv?体重cv?4.95cm?100%?2.98%

166.06cm4.96kg?100%?9.23%

53.72kg由此可见,该地20岁男子体重的变异大于身高的变异。

医学统计学

2.比较均数相差悬殊的多组资料的变异度:某地不同年龄组男子身高的变异程度

年龄组3-3.5岁30-35岁

表中可见,虽然30~35岁组的标准差明显大于3~3.5岁组的标准差,但事实上30~35岁组男子身高的变异并不大,而3~3.5岁组男童身高的变异却很大。这种均数相差悬殊的资料比较变异程度时,应当用变异系数说明其变异状况。

小结

为了解数值变量的分布规律,可将观测值编制频数表,绘制频数分布图,用于描述资料的分布特征(集中趋势和离散趋势),以及分布类型(对称分布和偏态分布)。一.

平均数是描述频数分布集中位置的指标,它代表一组观测值的平均水平,

人数100100

均数±标准差变异系数(%)90.1±3.1170.2±5.0

3.20.3

常用平均数的指标下表:平均数均数几何均数中位数意义平均数量水平平均增(减)倍数位次居中的观测值水平应用场合应用甚广,最适用于对称分布,特别是正态分布等比级数资料,对数正态分布偏态分布,分布不明,分布末端无确定值百分位数描述观测序列在某百分位置的水平,是分布的百分界值,可用于医学参考值范围,适用于任何分布。

二、描述频数分布离散程度的指标有:

1)极差与四分位间距,后者较稳定,但均不能综合反映各观测值的变异程度;2)方差和标准差,最为常用,对正态分布尤为重要;

3)变异系数常用于:不同测量单位的几组资料变异度的比较;均数相差悬殊

的几组资料变异度的比较。

医学统计学

第四讲正态分布及其应用

一、正态分布的概念和特征

根据频数表资料绘制成直方图,可以设想,假使将观测人数逐渐增多,线段不断分细,图中直条将逐渐变窄,其顶端将逐渐接近一条光滑的曲线,这条曲线称为频数曲线或频率曲线,略呈钟型,两头低,中间高,左右对称,近似于数学上的正态分布(normaldistribution)。由于频率的总和等于100%或1,故横轴上曲线下的面积等于100%或1。

正态分布是一种横重要的连续型分布,在生物统计学中,占有极其重要的地位。大量生物学现象所产生的数据,都听从正态分布。

1、正态分布的图形有了正态分布的密度函数f(X),即正态分布的方程,就可给出图形

f(x)

?

医学统计学

上式中右側?为均数,?为标准差,X为自变量。当X确定后,就可由此式求得其密度函数f(X),也就是相应的纵坐标的高度。所以,已知?和?,就能绘出正态曲线的图形。2、正态分布的特征

(1)正态分布以?为中心,左右对称。

(2)正态分布有两个参数,即?和?。?是位置参数,当?恒定后,

?越大,则曲线沿横轴越向右移动;?越小,则曲线沿横轴越向左移动。?是变异参数,当?恒定时,?越大,表示数据越分散,曲线越“胖〞;?越小,表示数据越分散,曲线越“瘦〞。(3)正态分布的偏斜度?1=0,峭度?2=0

为了应用便利,常将上式作如下变换,

u?X???

也就是将原点移到?的位置,使横轴尺度以?为单位,使?=0,?=1,则正态分布变换为标准正态分布。(standardnormaldistribution),u称为标准正态离差(standardnormaldeviate)标准正态分布的密度函数为:

?(u)?1e2??u22

一般用N(?,?2)表示均方为?,方差为?2的正态分布。于是标准正态分布用N(0,1)表示。

医学统计学

标准正态分布有以下特征:

(1)在u=0时,?(u)达到最大值。

(2)当u无论向哪个方向远离0时,?(u)的值都减小。(3)曲线关于Y轴对称,即?(u)=?(-u)。(4)曲线和横轴所夹的面积等于1。

二、标准正态曲线下面积的计算P(u1161cm的概率;(3)X在152~162cm间的概率。(1)依题意:

161?156.2P(X?161)??()??(1)?0.841344.82

所以,“三尺三〞的株高低于161cm的概率为0.84134。

(2)依题意得:

164?156.2P(X?164)??()?1??(1.62)?1?0.94738?0.052624.82

(3)依题意得:

162?156.2152?156.2)P(152?X?162)??()??(??(1.2)??(?0.87)?0.88493?0.19215?0.692784.824.82

医学统计学

以下一些值很重要,应予记忆:

u=-1到u=1面积=0.6827u=-1.96到u=1.96面积=0.9500u=-2.58到u=2.58面积=0.9900三、小结

1、正态分布是一种连续性的分布,不少医学现象听从正态分布或近似正态分布(宛如性别、同年龄儿童的身高,同性别健康成人的红细胞数、血红蛋白量、脉搏数等,以及试验中的随机误差等);或经变量变换转换为正态分布(如某些病人的潜伏期以及医院病人住院天数等),可按正态分布规律来处理,它也是大量统计方法的理论基础。

2、正态分布的特征是:

(1)曲线在横轴上方,均数处最高;(2)以均数为中心,左右对称;

(3)确定正态分布的两个参数是均数?和标准差?。

正态分布用N(?,?2)表示,为了应用的便利,常对变量x作u=(x-?)/?使?=0,?=1,则正态分布转换为标准正态分布用N(0,1)表示。

3、运用正态曲线下面积的分布规律,可计算医学参考值范围和质量控制等。

医学统计学

第四讲:总体均数的估计和假设检验医学统计学的最基本问题是研究总体与样本的关系。总体与样本的关系,可从两方面研究:

(1)由已知的总体,研究样本的分布规律,即由总体到样本的

研究过程;

(2)由样本如何去推断未知的总体,属于从样本到总体的研究

过程。

1、从一个正态总体中抽取的样本统计量分布

生物学中遇到最多的是正态总体。对于正态总体,可以用数学推演的方法,得出严格的样本统计量的抽样分布,有了严格的样本分布规律,就可以由样本来推断总体了。标准差已知时的样本平均数的分布——u分布

平均数为?,标准差为?的正态总体中,独立随机的抽取含量为n的样本,则:

?x???x??n

样本平均数是一听从正态分布的随机变量,记为X。将平均数标准化,则:

u?x???n

其中的分母称为平均数的标准误差(standarderrorofmean)。假使变量是正态的或近似正态的,则标准化的变量听从或近似地听从N(0,1)分布。

医学统计学

1、标准差已知时的样本平均数的分布——t分布(t-distribution)若上式中的?是未知的,可用样本标准差代替总体标准差,标准化变量并不听从正态分布,而听从具有n-1自由度的t分布。

t?x??Sn

t分布也是一种对称分布,它只有一个参数,即自由度(degreeoffreedom)t分布与标准正态分布相比有以下特征:(1)二者都是单峰分布,以0为中心,左右两侧对称。

(2)t分布的峰部较矮而尾部翘得较高,说明远側t值的个数相对较多,即尾部面积(概率P)较大。

自由度越小这种状况越明显。?逐渐增大时,t分布逐渐迫近标准正态分布;当?=?时,t分布就完全成为标准正态分布了。2、统计推断

统计推断是探讨如何通过样本去推断总体。由样本推断总体是以各种样本统计量的抽样分布为基础的。对总体做统计推断(statisticalinference),可以通过两条途径进行。

一是通过样本统计量估计总体参数;二是首先对所估计的总体提出一个假设,例如假设这个总体的平均数?等于某个值?0,然后,通过样本数据去推断这个假设是否可以接受,假使可以接受,样本很可能抽自这个总体;否则很可能不是抽自这个总体。前一种途径称为总体参数估计(estimationofpopulationparameter),后一种途径称为统计假设检验(statisticaltestofhypothesis)。这两种不同的统计分析方法

医学统计学

在实际工作中可相互参照使用。

1、总体均数的估计——区间估计(internalestimation)即按一定的概率估计总体均数在哪个范围。可根据资料的条件选用不同的方法。(1)?未知时。一般用t分布的原理作区间估计。根据

P(?t?,??t?t?,?)?1??(1-?为可信度)得P(-t?,??x??s/n?t?,?)?1??于是得可信度为1-?时,计算总体均数可信区间的通式为:

习惯上,常取1-?=0.95,即95%可信区间;或取1-?=0.99,即99%

X?t?,?(可信区间。

sn)???X?t?,?(sn)例题1、对某人群随机抽取20人,用某批号的结核菌素作皮试,平均侵润直径为10.9mm,标准差为3.86mm。问这批结核菌素在该人群中使用时,皮试的平均侵润直径的95%可信区间是多少?本例,n=20,?=n-1=20-1=19,?=0.05(双側)查附表,得t0.05,19=2.093

(10.9?2.093?3.8620,10.9?2.093?3.8620)?(9.1,12.7)所以,该人群皮试的平均侵润直径的95%可信区间为9.1~12.7mm。

医学统计学

(2)?已知或样本例数n足够大时,按正态分布原理作区间估计。

?已知时(X-u???nsn,X?u??,X?u???nsn)?未知但n大(X-u??)

例题2由某地成年男子中抽得144人的样本,求得红细胞数的均数为5.38?1012/L,标准差为0.44?1012/L,试估计该地成年男子红细胞均数的95%可信区间。

本例n?144,x?5.38,s?0.44,??0.05,由于n较大可取u0.05?1.96(5.38-1.96?0.44144,5.38?1.96?0.44144)?(5.31,5.45)该地成年男子红细胞均数的95%可信区间为(5.31,5.45)。

可信区间的涵义意思是从总体中作随机抽样,每个样本可以算出一个可信区间,如95%可信区间,意味着100次抽样,算得100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。5%是小概率事件,实际发生的可能性小,因此,在实际应用中就认为总体均数在算得的可信区间内,这种估计方法会冒5%犯错的风险。

可信区间的两个要素一是确凿度,反映在可信度1-?的大小,即区间包含总体均数的概率的大小,当然愈接近1愈好;二是精度,反映在区间的长度,当然长度愈小愈好。在样本例数确定的状况下,二者是矛盾的。一般状况下,在可信度确定的状况下,增加样本例数,

医学统计学

可减少区间长度,提高精度。

医学统计学

假设检验的基本步骤:

1.建立检验假设,确定检验水准α

H0:无效假设(假定所检验的两个总体均数相等)H1:备择假设(假定所检验的两个总体均数不相等)单侧检验:推断两总体均数有无区别

双侧检验:根据专业知识推断两总体均数中是否可以认为一个大于(高于)另一个

2.选择检验方法,计算统计量

根据分析目的、设计类型和资料类型,选择恰当的检验方法,计算相应的统计量(如:t、u、r、f、χ2等)。3.确定P值,作出统计结论

用计算出的统计量,根据不同自由度查相应的界值表,确定P值。P值的定义:在H0所规定的总体中随机抽样,获得等于及大于(或等于及小于)现有样本统计量的概率。结论:

①当计算的统计量≥界值表上所查到的理论值,则P≤α。此时,表示在H0成立的条件下,出现等于及大于现有样本统计量的概率是小概率,按其原理,现有信息不支持H0,因而拒绝H0。

②当计算的统计量〈界值表上所查到的理论值,则P〉α。此时,表示在H0成立的条件下,出现等于及大于现有样本统计量的概率不是小概率,现有信息还不足以拒绝H0,因此不拒绝H0。

医学统计学

第五讲均数差异的假设检验

假设检验的具体方法,寻常是以选定的检验统计量来命名的,

如t检验要用特定的公式计算检验统计量t值,u检验要用特定的公式计算检验统计量u值。应用时首先要了解各种检验方法的用途、应用条件和检验统计量的计算方法。

一、单组完全随机化设计资料均数的t检验和u检验

从一个总体中完全随机地抽取一部分个体进行研究,这样的设计称为单组完全随机化设计(completelyrandomizeddesignofsinglegroup)。

例题1:根据大量调查,已知健康成年男子脉搏均数为72次/分,某医生在某一山区随机抽查了25名健康成年男子,求得其脉搏均数为74.2次/分,标准差为6.0次/分,能否据此认为该山区成年男子脉搏均数高于一般成年男子脉搏均数?

这两个均数不等有两个可能:(1)由于抽样误差所致(2)由于环境条件的影响

如何作出判断呢?在统计上是通过假设检验来回复这个问题。以下介绍建立假设检验(t检验)的思想、方法与步骤。

1、

建立检验假设和确定检验水准H0:?1=?0(=72次/分)H1:?1??0(=72次/分)

医学统计学

?=0.05

本例分析目的是比较山区成年男子脉搏样本均数与一般成年男子脉搏总体均数有无区别?

?是未知的,可以假设?等于某一定值?0,?与?0的差等于零,

这样的假设称为无差异假设或零假设(nullhypothesis)记为H0:?1=?0

表示该山区的环境条件对脉搏数无影响,他们之间的差异是由于抽样误差所致。与零假设相对立的假设称为对立假设或备择假设(alternativehypothesis),符号为H1:?1??0,它是在拒绝H0的状况下而接受的假设。假设检验所用的检验统计量一般都是建立在零假设的基础上,由于H0比较单纯明确,而H1却包含着各种状况。

检验水准(sizeoftest)亦称显著性水准(significancelevel),符号为?,在实际工作中常取0.05或0.01。2、选定检验方法和计算统计量

本例:n=25x?74.2次/分S=6.0次/分检验统计量公式为:

?

x??0t?,??n-1sx

74.2?72.0?1.833,??25-1?246.0/25

将以上数据代入公式,得:

t?要根据研究类型和统计推断目的选用不同检验方法,不同检验方法有相应的检验统计量,本例的检验统计量t听从?=n-1的t分布。建设检验方法寻常是以检验统计量来命名的,故,本例检验称为t检验。

医学统计学

3、确定P值和作出推断结论

查t界值表单侧,t(24,0.05)=2.064,由于t0.05。得出结论按?=0.05水准,拒绝H0,接受H1。认为该山区的成年男子脉搏均数高于一般的成年男子脉搏均数。

关于检验水准是取0.05、0.01或其他数值,要根据不同的试验而定。?取值较小,有利于提高“阳性〞统计检验结果的可靠性;?取值较大,有利于发现研究总体可能存在的差异,但可靠性降低。较好的做法是确切地计算出P值,这会对人们认识你所作的试验有很大的参考价值。

二、随机化配对设计资料均数的t检验

配对设计资料分三种状况:

(1)配成对子的同对受试对象分别给予两种不同的处理;(2)同一受试对象分别接受两种不同处理;(3)同一受试对象处理前后的比较。

(1)与(2)结果的比较,其目的是推断两种处理的效果有无区别;(3)比较,其目的是推断某种处理有无作用。

因此,应当首先计算出各对差值d的均数。当两种处理结果无区别或某种处理不起作用时,理论上差值d的总体均数?d=0。故可将配对设计资料的假设检验视为样本均数与总体均数?d=0的比较,配对设计资料以小样本居多,故常用t检验。其计算公式为:

d??dd,??n-1t?sd?sd/n

医学统计学

例题2、将大白鼠配成8对,每对分别饲以正常饲料和缺乏维生素E饲料,测得两组大白鼠肝中维生素A的含量如下表,试比较两组大白鼠中维生素A的含量有无区别。

表不同饲料组大白鼠肝中维生素A的含量(U/g)

大白鼠配对号12345678合计

正常饲料组35502000300039503800375034503050维生素E缺乏组24502400180032003250270025001750差数,d

1100-4001200750550105095013006500

d212100001600001440000562500302500110250090250016900007370000

1)H0:?d=0,H1:?d?0,?=0.052)计算统计量

d6500?d???812.5(u/g)n8Sd?Sdn??d2?(?d)2/nn(n?1)?7370000?(6500)2/8?193.1298(u/g)

8?(8?1)t?812.5-0??4.2070??n?1?7193.1298Sd/nd??d3)确定P值下结论

查t界值表(双側),t>t0.05,7=4.029P医学统计学

三、两组完全随机化设计资料均数的t检验与u检验1、t检验

将受试对象完全随机地分派到两组中,这两组分别接受不同的处理。这样的设计称为两组完全随机化设计(completelyrandomizeddesignoftwogroups)。

有些研究设计既不能作自身对比,也不便于配对。如试验中只有把受试动物杀死后才能获得所需数据,则不可能对动物在处理前后各进行一次测定;再如比较两种治疗方法对同一疾病的疗效,每个患者一般只能接受一种方法的治疗,把受试患者配成若干对在实际工作中又十分困难,这时只能进行两组间均数的比较。在两组比较的资料中,每个观测对象都应依照随机的原则进行分组,两组样本量可以一致,也可以不同,但只有在两组例数一致时检验效率才最高。统计量计算公式为:

t?

(X1?X2)?(?1??2)Sx?x12?X1?X2Sx?x12

??n1?n2?2

Sx1?x2?Sc2(11?)n1n22222??x21?(?x1)/n1??x?(?X2)/n211(?)n1?n2?2n1n2

2(n1?1)S12?(n2?1)S2S?(n1?1)?(n2?1)2c

医学统计学

例题3、某医院研究乳酸脱氢同工酶(LDH)测定对心肌梗死的诊断价值时,曾用随机抽样方法比较了10例心肌梗死患者与10例健康人LDH测定值的区别,结果如下,试问LDH测定值在两组间有无区别?

心肌梗死患者(X1)23.245.045.040.035.044.142.052.550.058.0健康人(X2)20.031.030.523.124.238.035.537.839.0131.0(1)、H0:?1=?2H1:?1??2?=0.05

2n1?10,?X1?434.80,?X1?19742.30,X1?43.48,S1?9.64n1?10,?X2?310.10,?X?10025.59,X2?31.01,S1?6.7422

(2)、计算统计量:

将上述数据代入公式,得:

Sx1?x21974.230?434.82/10?10025.59?310.102/1011?(?)?3.7217(%)10?10?21010

t?43.48?31.013.7217?3.3506,??10?10-2?18(3)、确定P界作出结论

本例t>t0.05,18=3.197,Pu0.05,P医学统计学

(1)两个或多个样本均数间的比较;(2)分析两个或多个因素的交互作用;(3)回归方程的假设检验;(4)方差齐性检验等。

多个样本均数间比较的方差分析应用条件为:(1)各样本必需是相互独立的随机样本;(独立性)(2)各样本均来自正态总体;(正态性)

(3)相互比较的各样本所来自的总体其方差相等,(方差齐性)

一、完全随机设计的方差分析

医学试验中,根据某一试验因素,用随机的方法将受试对象分派到各组,各组分别接受不同的处理后,观测各种处理的效果,比较各组均数之间有无区别。

临床研究中,还可能往往比较几种不同疗法治疗某种疾病后某指标的变化,以评价它们的疗效;或比较某种疾病不同类型之间某一指标有无区别等。

这些都是一个因素不同水平(或状态)间几个样本均数的比较,可用单因素的方差分析(one-wayANOVA)来处理此类资料。

医学统计学

例题:某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量(L)测定,结果见下表:问三组石棉矿工的肺活量有无区别?表三组石棉矿工的用力肺活量(L)

Xij

合计(?Xij)nj均数Xj(?X2ij)

石棉肺患者

1.81.41.52.11.91.71.81.91.81.82.019.1111.7935.69

可疑患者

2.32.12.12.12.62.52.32.42.420.892.3148.34

非患者

2.93.22.72.82.73.03.43.03.43.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论