医学统计学复习提纲_第1页
医学统计学复习提纲_第2页
医学统计学复习提纲_第3页
医学统计学复习提纲_第4页
医学统计学复习提纲_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一节医学统计学的含义

1、医学统计学定义

医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析

的普遍原理和方法。

2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学

规律。

3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。

第二节、统计学的几个重要概念

一.资料的类型

1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。一

般有度量衡单位,每个对象之间有量的区别。

2、计数资料-(分类变量):对观察对象按属性或类型分组计数所得的资料。每个对象之间没

有量的差异,只有质的不同。

3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间

又有程度的差别。

注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。

二、总体

根据研究目的所确定的同质的所有观察对象某项变量值的集合

—1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。

2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的

三、样本

从总体中随机抽取部分观察对象,其某项变量值的集合。

从总体中随机抽取样本的目的是:用样本信息来推断总体特征。

四、随机事件

可以发生也可以不发生,可以这样发生也可以那样发生的事件。亦称偶然事件。

五、概率

描述随机事件发生可能性大小的数值,记作P,其取值范围0WPW1,一般用小数表示。

P=o,事件不可能发生必然事件(随机事件的特例);P=l,事件必然发生;P-0,事件发

生的可能性愈小;P-1,事件发生的可能性愈大

六、小概率事件

习惯上将PW0.05或PW0.01的随机事件称小概率事件。表示某事件发生的可能性很小。

七、参数和统计量

参数:总体指标,如总体均数、总体率,一般用希腊字母表示

统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示

八、学习医学统计学的方法

1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;

2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、

应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。

第三节统计工作的基本步骤

统计设计收集资料整理资料分析资料

一、统计设计

1、调查设计

2、实验设计

(详见第十三章)

二、收集资料

资料来源

(1)统计报表

(2)日常医疗工作原始记录和报告卡

(3)专题调查

三、整理资料

1.目的将收集的原始资料系统化、条理化,便于进一步计算和分析

2.整理分组方式

(1)性质分组

(2)数量分组

三、分析资料

1、统计描述

2、统计推断

第四节统计图表

一、统计表

1、统计表的作用

代替冗长的文字叙述,便于计算、分析和对比。

2、统计表的结构

1)标题

2)标目横标目(主语):说明表各横行数字的涵义,通常列在表的左侧

纵标目(谓语):说明表各纵栏数字的涵义

主语和谓语连贯起来能读成一句完整而通顺的话

3、统计表的种类:

1)简单表:只按单一变量分组

2)组合表:按两个或两个以上变量分组

某地1980年男、女HBsAg阳性率

性别调查数阳性数阳性率(%)

男42343037.16

女45301814.00

合计87644845.52

4、列表原则:重点突出,简单明了;主谓分明,层次分明

5、统计表的基本要求:

1)标题:概括地说明表的内容,必要时注明资料的时间和地点,写在表上方。常见的缺

点:过于简略,甚至不写标题;或过于繁琐;或标题不确切。

2)标目:文字简明扼要,有单位的标目要注明单位。常见的缺点:标目过多,层次不清

3)线条:不宜过多,除上面的顶线,下面的底线,纵标目与合计之间的横线外,其余线

条一般均省去。表的左上角不宜有斜线。

4)数字:

A、数字一律用阿拉伯数字表示

B、同一指标的小数位数应一致,位次对齐

C、表内不宜留空格,暂缺或未记录,用“…”表示,无数字,用“一”表示,数字为0,

填写0

D、绝对数太小而无法计算指标,则用“…”代替。

5)备注:般不列入表内,必要时可用“*”号标出,写在表的下面。

二、统计图

1、统计图作用:

通过点、线、面等形式表达统计资料,直观地反映事物之间的数量关系。但需注意,由于统计

图对数量的表达较粗糙,不便于作深入细致的分析,•般需附相应的统计表。

2、常见统计图种类:

条图、百分条图,圆图,线图,半对数线图,直方图,散点图

3、制图的基本要求:

1)按资料的性质和分析目的,选用适合的图形

2)要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。

3)横轴尺度从左到右,纵轴尺度从下而上,数量一律由小到大。横轴与纵轴坐标长度比例一

般为5:7

4)比较不同事物,用不同线条或颜色表示,并附上图例说明。

4、常见统计图适用范围及其绘制要点

1)条图:

(1)适用范围:相互独立的资料,常用形式:单式和复式

(2)绘制要点:

A.用等宽的直条的长短反映各指标的数量大小。

B.纵轴的尺度必须从0开始。

C.各直条之间的间隙应相等,•般将比较的指标按大小顺序排列。

2)百分条图:

(1)适用范围:构成比资料

(2)绘制要点:

A.将长条全长为100%,

B.将各百分构成比在长条上分割若干段,

C.各段按大小顺序排列。

3)圆图

(1)适用范围:构成比资料

(2)绘制要点:

A.将圆面积为100%,

B.将各百分构成比乘以3.6度,变为圆心角度数,

C.在圆上绘出各扇型面积

D.各扇型面积按大小顺序排列。

4)普通线图

(1)适用范围:连续性资料

(2)绘制要点:

A.纵横轴均用算术尺度,

B.纵横轴尺度比一般为5:7

C.相邻两点用直线连接。

(3)意义:反映事物的变化趋势。

5)半对数线图

(1)适用范围:连续性资料

(2)绘制要点:

A.横轴用算术尺度,纵轴用对数尺度,

B.纵横轴尺度比一般为5:7

C.相邻两点用直线连接。

(3)意义:反映事物的变化速度。

6)直方图

(1)适用范围:计量的频数表资料

(2)绘制要点:

A.横轴表示被观察事物,纵轴表示频数或频率,

B.用等宽的矩形面积表示各组段的频数或频率

7)散点图:

(1)适用范围:双变量资料

(2)分析目的:用点的密度程度和趋势表示两变量间的相关关系

第一讲绪论

一、《医学统计学》的理论基础和研究对象:

a)问题的提出:

在人们的实践活动中,常常会遇到类似下面的一些问题:

一种新的疫苗,如何判断它是否有效?

吸烟会不会使得肺癌的机会增加?

如何抽检儿百或儿千人来估计某种病的流行程度?

某批产品中合格品究竟有多少?该不该报废?

如何消耗最少的资源和人力来得到我们所需要的某种信息?

某种实验方法(或饲料配方)有没有明显改进?

患者分组是否具有可比性?

所观察对象的数量是否足够说明其结论?

试验结果的误差有多大?

研究结果是否适用于观察样本以外的同类对象?……等等.

其共同特点:只知道事情的不完全信息,或者是单个实验的结

果有某种不确定性。

例如:为了知道产品合格与否或它的使用寿命,我们常常需要

对它作破坏性检验,此时显然不能把所有的产品都检验一下,而只能

满足于对少数儿个作品的抽检,这样获得的信息显然是不完全的;

要检验疫苗的有效性,就一般来说,接种过疫苗的动物也不一定

全不发病,而未接种的也不会全发病.那么发病与不发病的差别究竟

到多大时我们才能认为接种是有效的呢?

这些均涉及了我们如何评价一些并不确定的实验结果的问题。要

从这类问题中得出科学的、可靠的结论,就必须依靠统计学.有人干

脆给统计学下了这样的定义:“统计学就是从不完全的信息里取得准

确知识的一系列技巧”。

另外,当必须根据有限的、完全的信息作出决策时(例如决定一

批产品是出厂还是报废,某种新药是否有效等等),统计学可以提供

一种方法,使我们不仅能做出合理的决策,而且知道所冒风险的大小,

并帮助我们把可能的损失减至最小。

其次,如何花费最小代价取得所关心的信息,也是统计学的一大

课题(实险设计).不注意这一点可能使辛辛苦苦的工作全成为一种

浪费.

2.理论基础:“根据数理统计的原理、方法紧密结合医学实践,

研究医药卫生领域中的资料收集、整理、分析和推断的一门应用学科,

来分析和解释生物界各种现象和实验调查资料的科学”。随着生物医

学研究的不断发展,运用统计学方法来认识、推断和解释生命过程中

的各种现象也越来越广泛。运用统计学方法可以帮助人们分析占有信

息,达到去伪存真,去粗取精,正确认识世界的目的。

3.研究对象:人体及与人体健康有关的各种具有不确定性的

医学数据(变异、数量、同质)。

二、《医学统计学》的主要任务和作用:

任务:1、结合专业知识和具体研究的要求进行统计设计

2、对收集资料进行整理、做统计描述

3、对资料进行统计分析和解释

作用:1、保证调查或试验设计的科学性、完整性

2、指标的确定应具有特异性、客观性,灵敏性和精密度高

3、样本含量足够大,数据真实可靠

4、选用统计分析方法正确

三、医学统计学的主要内容:

1、统计设计(design)

在进行统计工作和研究之前必须有一个周密的设计,设计的内容

包括资料收集、整理和分析全过程总的设想和安排。

统计设计可按照在研究过程中对研究对象是否进行干预分作调

查研究设计和实验研究设计。

调查研究设计:研究者旨在客观地描述研究总体,未加任何干预

措施,如:调查了解某地的学龄儿童缺铁性贫血的患病率,某地新生

儿畸形的发生率,北京地区溃疡病患病率等,其目的在于了解某一医

学现象的实际情况,疾病的危害程度,以便为防治和研究这些疾病提

供依据。调查设计主要有抽样方法、调查技术、质量控制技术等。

实验研究设计:研究者根据目的(研究假设),主动加以干预措

施,并观察总结其结果,回答研究假设所提出的问题。

如:研究脂健乳是否有降脂作用,首先如一脂健乳可以降低血

脂,再将条件相似的20只大鼠先用高脂饲料喂养做成高脂血症的模

型,然后将动物随机分为实验组和对照组,实验组服用脂健乳和豆奶,

对照组单纯服用豆奶,喂养一个月后观察比较两组之间各项血脂指标

的差别有无统计学意义,进而得出脂健乳是否具有降低血脂的保健作

用的结论。

实验设计主要有各种实验设计模型、分组方法、样本量估计等。

由于统计设计的质量直接影响着试验结果的准确性、可靠性、严

密性和代表性,一旦出现设计上的失误或缺陷,可能导致整个研究的

失败。因此,专业设计是研究者对专业知识的把握能力,直接影响着

实验的深度和水平,而统计设计是研究者对医学统计知识的正确运

用,以保证统计描述和推断正确的基础。

调查设计与实验研究设计

专业设计统计设计

运用专业知识进行设计运用统计学知识进行设计

要求

选题、调查(实验)、方法、材料确定设计方案、收集整理资料、确定

统计指标、分析和推断方法

向家

探讨实验、观察结果的适用性和创探讨实验、观察结果的可重复性、高

造性效性

方向

回答和解决科研课题,验证假说,减少和控制误差。保证样本的代表性

保证科研结果的先进性和可靠性,保证实验结果的精确性和

目的

可重复性

2、收集资料(collectionofdata)

方式:1、统计报表2、经常性工作记录3、专题调查或实验

3、整理资料(sortingdata)

将原始数据进行核对一、整理,使其系统化、条理化,对数据进行

逻辑检查,纠正错误,提供整理和描述数据资料的科学方法,确定数

据的数量特征。

4、分析资料(analysisofdata)

根据不同的资料类型,选择不同的统计处理方法,计算有关指标,

反映数据的综合特征,阐明事物的内在联系和规律。

统计分析包括:

①统计描述(descriptivestatistics):用统计指标、

统计表、统计图等方法,对资料的数量特征及分布规律进行测定

和描述。

②统计推断(inferentialstatistics):包括如何抽样,

以及如何在随机变量的样本值基础上推断概率分布和总体值。统

计推断中涉及的各种统计分析方法是本次授课的重点内容。

四、医学统计学在科研中的作用:

1、系统积臬和表达经验

临床经验的积累在于大量的临床实践。实际上这些经验都可以整

理和表达为统计信息,掌握了一定的统计学知识,就可以将积累的经

验,通过对资料的收集、整理和分析,转变为正规和系统的统计信息,

用以报告或发表,使人类医学知识宝库不断充实和发展。

2、完成科研工作

生物学是一门实验科学,不管你从事的是生物学的哪一个分支,

都不可能完全脱离实验,只进行逻辑推理.而实验所得到的结果儿乎

无例外地都带有或多或少的不确定性,即实验误差.在这种情况下,

不用统计学要想得到正确的结论是不可能的,可以毫不夸张地说,作

为一个实验科学工作者,离开了统计学就寸步难行,希望通过这门课

程的学习,能够掌握常用的统计方法,尤其是它们的条件,适用范围、

优缺点等,从而能够应用它们去解决实践中遇到的问题。否则,他将

无法知道其研究结果是否具有科学意义上的可重复性。要一一回答这

些问题,要求研究者必须在整个研究过程中贯穿和运用统计学的理论

和方法。

3、撰写研究报告和阅读书刊

医学研究中往往要涉及大量的数据,但在撰写研究报告和论文

时,只能使用经过整理和归纳的统计指标,并且用规范的统计表和统

计图表达。止匕外,在阅读国外期刊时.,如果不具备统计学的基础知识,

则不能判断别人研究结果的可信性和局限性,更谈不上吸收和借鉴。

五、《医学统计学》中几个重要的基本概念:

(1)总体(population)、样本(sample)、个体(observedunit)

a.总体:根据研究目的所确定的性质相同的所有个体的某种

变量值的集合。如:调查某地1999年正常成年男子的红细胞数,则

4察对衣:该地1999年正常成年男子。

4察草依:统计研究中的最基本单位,如:一个人、一个家庭、

一个地区等。

更察值(变量值人每个人测得的红细胞数。

该地1999年正常成年男子的红细胞数就构成一个总体。

同质基础:同一地区、同一年份、同为正常成人、同为男性

有限总体(finitepopulation):有确定的时间、空间和有限个观

察单位,如上例。

无限总体(infinitepopulation):没有确定的时间和空间限制,观

察单位数为无限。如研究用某药治疗缺铁性贫血的疗效,此时,总体

的同质基础是贫血患者,同时用某药治疗,该总体应包括用该药治疗

的所有贫血患者的治疗结果。

b.样本:从总体中随机抽取部分个体所组成的集合。

(随机化原则:总体中每一个观察单位均有同等机会被抽取)

(2)参数(parameter)、统计量(statistics)

统计学中把总体的指标称为参数,把所得样本的平均数称为统计量。

(3)误差(error):

抽祥篌差(samplingerror)由于总体中的个体间往往存在着

变异,随机抽取的样本仅是总体中的一部分个体,因而样本测得的指

标(统计量)往往与总体指标(参数)存在着差异,这种山于随机抽

样而造成的样本的统计量与总体参数之间的差异,称为抽样误差,它

既不定量,也不定性。

系统篌差:由于设计不严,测量仪器不准确,测量者水平的偏

差而造成的,这种误差是定量的,可控的。

(4)统计资料

对每个观察单位的某项特征进行测量和观察,其特征称为变量,

对变量的测值称为变量值,亦称为资料。

"计量资料(quantitativedata)

统计资料类型“计数资料(qualitativedata)

I等级资料(rankeddat)

①、定量资料(quantitativedata)乂称药计量资■料:

用专业仪器测量,具有计量单位的测量数据,表现为数值的大小,

如身高(cm)、体重(kg)、血压(kPa)等。

特点,每个现察单位的现察他同有蜃的区别

②、定嵯资料(qualitativedata):其观察值是定性的,表现为

互不相容的类别或属性(即将观察单位按某种属性或类别分组,所得

各组的观察单位数)。

特点,每个现察单位的现察他间有质的区别

分两种情况:

1、无序分类(unorderedcategories)X称为计数资料

a.二项分类检验结果可以是阳性或阴性、治疗结果可以是治

愈或未愈、性别属性等,表现为两类间互相对立。

氏多项分类某种观察结果为互不相容的多个类别,如血型、

职业等。

2、有序分类(ordinaCcategories)W称为等级资料

介于定量测量和定性观察之间的半定量观察结果,如测定某人

群血清反应,以人为观察单位,结果分为一、土、+、++四级,又如

观察以某种药治疗某病患者的治疗结果,以每个患者为观察单位,结

果分为治愈、显效、好转、无效四级,通常有两个以上等级。

等级资料与计数资料的区别在于,等级资料虽然是多分类资料,

但各个类别存在着大小和程度上的差别。

特点:各类之间/程度的差别

资料的转化和分析:根据分析问题的需要,各类变量可以互相转化。

如:观察某人群成年男子的血红蛋白量(g/L),属数值变量;

若分析比较某种病人的血红蛋白水平与正常人有无差别,须按计

量资料进行处理。

序号正常人组病人组

-T

2

3

4

5

6

7

8

9

若按血红蛋白正常与偏低分为两类,可按二项分类资料处理;

正常人组病人组

正常

_____偏低

合计

若按贫血的诊断标准将血红蛋白含量分为五个等级:重度贫血、

中度贫血、轻度贫血、正常、血红蛋白增高,可按等级资料处理。

正常人组病人组

重度贫血

中度贫血

轻度贫血

正常

血红蛋白增高

合计

(5)频率(frequency)、概率(probability)

医学研究的大多数现象是随机现象,例如用同一种治疗方法治

疗某病的一群患者,可以知道治疗的结果有四种,但对于一个病人其

治疗后的结果是不确定的,此时的每一种可能发生的结果都是一个随

机事件(偶然事件、事件)。

定义:在n次随机试验中,随机事件A发生了k次,记力⑹=£

n

则称⑹为随机事件A在n次试验中出现的频率。

实践证明,大量的试验中随机事件会呈现出频率稳定性。

定义:描述随机事件A发生可能性大小的数值,称为A的概率,

记作P(A),简记为P。假如临床观察中治疗200病人的样本,求得

治愈率为75%,这只是一个频率。实际应用中,当概率不易求得时一,

常用n—8时的频率作为概率的估计值。但当n较少时,频率的波动

性是很大的,用于估计概率是不可靠的。

随机事件概率的大小在0与1之间。

P值越接近1,表示某事件发生的可能性越大;

P值越接近0,表示某事件发生的可能性越小。

严格说,P=1表示事件必然发生,P=0表示事件不可能发生,他

们是确定性的,不是随机事件,但可把他们看成随机事件的特例。

统计分析中的很多结论都是带有概率性的。习惯上将PW0.05

称为小概率事件,表示在一次实验或观察中该事件发生的可能性很

小,可以视为很可能不发生。

《医学统计学》的学习重点是:

1、掌握其基本知识、基本技能、基本概念、基本方法。

建立逻辑思维方法和提高分析问题的能力。

2、掌握调查设计和试验设计的基本原则。

培养收集、整理、分析统计资料的系统工作能力。

3、掌握一套统计软件的使用方法(SAS、SPSS、STATA等)。

能够达到在完成《医学统计学》课程后,独立完成科研论

文和正确应用统计方法。

第二讲集中趋势

举例

设有A、B两名新战士,他们的射击技术可用下面的分布来表示:

战士A战士B

击中环数8910击中环数8910

对应概率0.30.10.6对应概率0.20.50.3

问哪一个战士射击技术较好?1、频数分布表

1人频数表的编制

相同观察结果出现的次数称为频数。将所有观察结果的频数按一定顺序排列

在,•起便是频数友(frequencytable)。

步骤:

①找出最大和最小值,计算极差R=Xmax-Xmin

②根据斯梯阶公式确定组距

1+3.3221ogn

③扫描样本值,划记后获得频数

2人频数表的用途

①大样本数据(不限于计量资料)常用的表达方式。

②便于观察数据的分布类型。

③便于发现资料中远离群体的某些特大或特小的可疑值,必要时经

检验后舍去。

④当样本含量足够大时,各组段的分布频率作为分布概率的估计值。

例7.我国某地农村1995年已婚育龄妇女现有子女数的分布

子女数妇女数f频率(%)累计频数累计频率(%)

(1)(2)(3)(4)(5)

0137519.45137519.45

12519117.303892226.75

23042620.916934847.65

32856019.629790867.28

42171914.9211962782.20

5136959.4113332291.61

672554.9814057796.60

732682.2514384598.85

81510.1014499699.64

93730.2614536999.89

N101560.11145525100.00

合计145525100.00——

2、集中位置的描述

平均数(average)是统计中最广泛、最重要的一个指标体系。用来描述一组变

量的集中趋势、中心位置或平均水平,常作为一组资料的代表值,使资料产生简

明概括的印象,又便于组间的比较。常用平均数有均数、几何均数和中位数。

(―)>均数(mean)的计算

①直接法〃〃

例1、10名7岁男童体重(kg)分别为17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,

24.0,25.5.求平均体重。

元=(17.3+18.0+19.4+20.6+21.2+21.8+22.5+23.2+24.0+25.5)/10=21.35(kg)

②频数表法:

F_/否+2+hX;+....+f/k_Zfx

■力苫

例2:某地随机检查了140名成年男性红细胞数(10"/L)

4.765.265.6115.954.464.574.315.184.924.274.774.88

5.004.734.475.344.704.814.935.044.405.274.635.50

5.244.974.714.444.945.054.784.524.635.515.244.98

4.334.834.565.444.794.914.264.384.874.995.604.46

4.955.074.805.304.654.774.505.375.495.224.585.07

4.814.543.824.014.894.625.124.854.595.084.824.93

5.054.404.145.014.375.244.604.714.824.945.054.79

4.524.644.374.874.604.724.835.334.684.804.154.65

4.764.884.613.974.084.584.314.054.165.045.154.50

4.624.734.474.584.704.814.554.284.784.514.634.36

4.484.595.095.205.325.054.414.524.644.754.494.22

4.715.214.944.685.174.915.024.76

红细胞数(10'7L)频数f组中值XFx

(1)(2)(3)(4)=(2)*(3)

3.80-23.907.8

4.00-64.1024.6

4.20-114.3047.3

4.40-254.50112.5

4.60-324.70150.4

4.80-274.90132.3

5.00-175.1086.7

5.20-135.3068.9

5.40-45.5022.0

5.60-25.7011.4

5.80-15.905.9

合计140(Zf)669.8(SfX)

T:_/|斗++于3毛+.…+于占_

£fF

=4.78(107L)

均数的两个重要特征:

①各离均差的总和等于零

Z(x-X)=O

证明:-x)=22七一〃x=Zx,—22七=0

②各离均差的平方和小于各观察值X与任何数a之差的平方

Z(x-X)2<Z(x-ap

均数的应用:

1.用来描述一组变量值的平均水平,具有代表性,因此变量值必须是同质的。

2.适用于呈正态分布(对称分布)的资料。

(2)几何均数(geometricmean)的计算

1)直接法

G=4须-x2•x3•••xn

G=lg-'*♦+—+…lgx")=lg-.(Z]g±)

nn

例3:5人的血清滴度为:1:2,1:4,1:8,1:16,1:32,求平均滴度。

G=^/2x4x8xl6x32

LgG=(lg2+lg4+lg8+lg16+lg32)/5=0.903

G=lg'0.903=8故平均滴度为1:8。

2)频数表法

G=lg-'(容臀)

例4:40名麻疹疫苗接种麻疹疫苗后一个月,血凝抑制抗体滴度见下表,

求平均滴度。

抗体滴度人数f滴度倒数XLgXf*lgX

(1)(2)(3)(4)(5)=(2)*(4)

14140.60210.6021

18580.90314.5155

1166161.20417.2246

1322321.50513.0102

1647641.806212.6434

1128101282.107221.0720

125642562.40829.6328

151255122.709313.5465

4072.2471

LgG=(ZflgX/XD=72.2471/40=1.8062G=lg'1.8062=64

血凝抑制抗体滴度的平均滴度为1:64

几何均数的应用:用于等比级数资料和对数正态分布资料,

如:某些传染病的潜伏期、抗体滴度、细菌计数等。

(3)、中位数和百分位数的计算

中位数(median,M)是将一组观察值从小到大按顺序排列,位次居中

的数值对应的观察值就是中位数。因而全部观察值中,大于和小于中位数的

Da接法:将原讼观察值按大小顺序排列:

M=X四

n为奇数时,-

X“,+X

n为偶数时,M=1=―一一」

例5.测得5个人的低密度脂蛋白中载体B蛋白的含量(mg/dl)分别为0.84,2.58,

5.46,8.58,9.60,求其中位数.

M=Xn+i

W

=X3=5.46mg/dl

例6.8名新生儿的身长(cm)依此为50,51,52,53,54,54,55,58,求

其中位数。

X弓)+X(>1)_53+

2—2

2)频数表法

乙=乙+.("%%一£九)

例7.对某地630名50岁~60岁的正常女性检查了血清甘油三脂含量,并制成如

下频数表,试求中位数及第25、75、90百分位数。

甘油三脂mg/dl频数,f累计频数累计频率(%)

(1)(2)(3)(4)

10~27274.3

40~16919631.1

70~16736357.6

100-9445772.5

130-8153885.4

160-4258092.1

190-2860896.5

220-1462298.7

250-462699.4

280-362999.8

310-1630100.0

合计630——

”630x0.5-196”…、

m=70H------------------x30=91.4(mg/dl)

4八630x0.25-27“0〜/」八

“25=40H-----------------------x30=63.2(〃2g/dl)

i630x0.75-457”……,」八

p=130+---------------------x30=135.1(mg/dl)

1581

v八630x0.90-538.1。八十…、

〃9o=160H--------------------------x30=180.7(mg/d/)

例8.某日大气中SO2的日平均浓度(ug/n?)见下表,分别求第25、75、95

百分位数及中位数。

浓度(ug/mD天数,f累计频数累计频率(%)

(1)(2)(3)(4)

5~393910.8

50~6710629.4

75~6417047.1

100-6323364.5

125-4527877.0

150-3030885.3

175-1732590.0

200-933492.5

225-734194.5

634796.1

275-535297.5

300-335598.3

325-6361100.0

361

P,=/+/(〃.x%_£力)

253o

/^5=50+-(361x25%-39)=69.12(//g/m)

67

252

P75=125+1|(361x75%-233)=145.97(〃g/m3)

25a3

/^5=250+—(361x95%-341)=258.12(//g/m)

6

253

/^0=100+—(361/2-170)=104.17(/zg/m)

63

中位数和百分位数的应用:

1.用于描述偏态分布资料的集中位置。反映位次居中的观察值的水平。

2.百分位数是用于描述样本或总体观察值序列在某百分位置水平,最常用

的百分位数是中位数。

3.百分位数常用来确定医学参考值范围。

第三讲离散趋势

离散程度的描述

三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。

甲组2628303234X甲=30kgR=8S=3.16

已组2427303336X乙=30kgR=12S=4.74

丙组2629303134X丙=30kgR=8S=2.91

哪一组数值的代表性好?

(1)极差(range)

一组观察值中,最大值与最小值差,反映个体差异的范围。极差大,说明变

异度大,各变量值离均数越远,数据越分散;反之亦然。

(2)四分位数(quartile)间距

可看成是特定的百分位数,用它说明个体差异比极差稳定。

Q=P75-P25

一般来说,样本例数越多,四分位间距越稳定。

(3)方差(variance)与标准差的计算

方差:o2=X(x-|i)2/N

n-\

由上式可知:方差考虑了总体中每个变量值x与总体均数之差(x-m,称

为离均差平方和(SS),因此方差近似等于离均差平方和的算数均数,故又称为

均方差(MS),由于SS利用了每一个观察值的信息,因而反映一批数据的变异

程度优于极差和四分位间距。

(4)标准差(standarddeviation)

方差开方后称为标准差,其单位与变量值单位及均数单位相同,变异度越

大,则离均差平方和越大,标准差越大,说明个体差异越大,均数的代表性越差。

为了简化计算,标准差的计算公式还可写为:

J〃

n-1

分组资料的计算:

n

S寸n-\

如上例:n=110£仅2=1584990£fx=13194

s=1-

但84990-131942/110

Viio-i

(5)变异系数(cofflcientofvariation,CV)

定义:标准差与算术均数之比,cv=4x100%

X

其描述了相对于算术均数而言标准差的大小,即描述数据的变异相对于其平

均水平来说是大还是小。

与前面介绍的四种离散程度指标相比,变异系数有以下两个不同之处:

1:它描述的不是数据分布的绝对离散程度,而是相对离散程度;

2:它不象极差、四分位数间距、方差、标准差那样具有取值单位。

这两个特点决定了变异系数的应用也不同于前面四个离散程度指标。

它常用于:

1、比较度量衡单位不同的多组资料的变异度:

例如:某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm;

其体重均数为53.72kg,标准差为4.96kg.欲比较身高与体重的变异何者为大,

由于度量单位不同,不能比较其标准差而应比较其变异系数

身高cv=495夕〃*io。%=2.98%

166.06c机

体重CV=496版X100%=923%

53.72kg

由此可见,该地20岁男子体重的变异大于身高的变异。

2.比较均数相差悬殊的多组资料的变异度:

某地不同年龄组男子身高的变异程度

年龄组人数均数土标准差变异系数(%)

3—3.5岁10090.1±3.13.2

30—35岁100170.2±5.00.3

表中可见,虽然30〜35岁组的标准差明显大于3-3.5岁组的标准差,但事

实上30〜35岁组男子身高的变异并不大,而3〜3.5岁组男童身高的变异却很

大。这种均数相差悬殊的资料比较变异程度时,应当用变异系数说明其变异情况。

小结

为了解数值变量的分布规律,可将观察值编制频数表,绘制频数分布图,

用于描述资料的分布特征(集中趋势和离散趋势),以及分布类型(对称分布

和偏态分布)。

平均数是描述频数分布集中位置的指标,它代表一组观察值的平均水平,

常用平均数的指标下表:

平均数意义应用场合

均数平均数量水平应用甚广,最适用于对称分布,特别是正态分布

几何均数平均增(减)倍数等比级数资料,对数正态分布

中位数位次居中的观察值水平偏态分布,分布不明,分布末端无确定值

百分位数描述观察序列在某百分位置的水平,是分布的百分界值,可用于

医学参考值范围,适用于任何分布。

二、描述频数分布离散程度的指标有:

1)极差与四分位间距,后者较稳定,但均不能综合反映各观察值的变异程度;

2)方差和标准差,最为常用,对正态分布尤为重要;

3)变异系数常用于:不同测量单位的几组资料变异度的比较;均数相差悬殊

的儿组资料变异度的比较。

第四讲正态分布及其应用

一、正态分布的概念和特征

根据频数表资料绘制成直方图,可以设想,如果将观察人数

逐渐增多,线段不断分细,图中直条将逐渐变窄,其顶端将逐渐

接近一条光滑的曲线,这条曲线称为频数曲线或频率曲线,略呈

钟型,两头低,中间高,左右对称,近似于数学上的正态分布(normal

distribution)o由于频率的总和等于100%或1,故横轴上曲线下的

面积等于100%或lo

有极其重要的地位。许多生物学现象所产生的数据,都服从正态

分布。

1、正态分布的图形有了正态分布的密度函数f(X),即正态

上式中右侧JR为均数,b为标准差,x为自变量。当x确定

后,就可由此式求得其密度函数f(x),也就是相应的纵坐标的高度。

所以,已知和就能绘出正态曲线的图形。

2、正态分布的特征

(1)正态分布以日为中心,左右对称。

(2)正态分布有两个参数,即日和o。日是位置参数,当o恒定

后,日越大,则曲线沿横轴越向右移动;口越小,则曲线沿横

轴越向左移动。o是变异参数,当日恒定时,o越大,表示数

据越分散,曲线越“胖”;a越小,表示数据越分散,曲线越

,,瘦二

(3)正态分布的偏斜度Yi=O,峭度Y2=0

为了应用方便,常将上式作如下变换,

X-LI

U=-----------

(J

也就是将原点移到日的位置,使横轴尺度以Q为单位,使

口=0,b=l,则正态分布变换为标准正态分布。(standardnormal

distribution),u称为标准正态离差(standardnormaldeviate)

标准正态分布的密度函数为:

1--

一般用N(口,er2)表示均方为w方差为o?的正态分布。于是

标准正态分布用N(0,1)表示。

标准正态分布有以下特征:

(1)在u=0时,<p(u)达到最大值。

(2)当u无论向哪个方向远离0时,(p(u)的值都减小。

(3)曲线关于Y轴对称,即(p(u)=(p(-u)o

(4)曲线和横轴所夹的面积等于1。

二、标准正态曲线下面积的计算

P(ui<IU|<u2)=(p(u2)-<p(U!)

举例

已知高梁品种“三尺三”的株高服从正态分布N(156.2,4.822),

求:(l)X<161cm的概率;(2)X>161cm的概率;(3)X在152-162cm

间的概率。

(1)依题意:

P(X<161)=火F:;:?)=/⑴=0.84134

所以,“三尺三”的株高低于161cm的概率为084134。

(2)依题意得:

P(X>164)==1—0(1.62)=1-0.94738=0.05262

(3)依题意得:

P(152<X<162)=制162;;;6.2)_火152;;;6.2)=例|_^>(-0.87)=0.88493-0.19215=0.69278

下列一些值很重要,应予记忆:

U=-1到U=1面积=0.6827

u=-1.96至Uu=1.96面积=0.9500

u=-2.58至I」u=2.58面积=0.9900

三、小结

1、正态分布是一种连续性的分布,不少医学现象服从正态分布

或近似正态分布.(如同性别、同年龄儿童的身高,同性别健康成人的

红细胞数、血红蛋白量、脉搏数等,以及实验中的随机误差等);或

经变量变换转换为正态分布(如某些病人的潜伏期以及医院病人住院

天数等),可按正态分布规律来处理,它也是许多统计方法的理论基

础。

2、正态分布的特征是:

(1)曲线在横轴上方,均数处最高;

(2)以均数为中心,左右对称;

(3)确定正态分布的两个参数是均数目和标准差

正态分布用N(|i,Q2)表示,为了应用的方便,常对变量x作

u=(x-p)/a使口=0,a=l,则正态分布转换为标准正态分布用N(0,

1)表示。

3、运用正态曲线下面积的分布规律,可计算医学参考值范围和

质量控制等。

第四讲:总体均数的估计和假设检验

医学统计学的最基本问题是研究总体与样本的关系。

总体与样本的关系,可从两方面研究:

(1)由已知的总体,研究样本的分布规律,即由总体到样本的

研究过程;

(2)由样本如何去推断未知的总体,属于从样本到总体的研究

过程。

1、从一个正态总体中抽取的样本统计量分布

生物学中遇到最多的是正态总体。对于正态总体,可以用数

学推演的方法,得出严格的样本统计量的抽样分布,有了严格的样

本分布规律,就可以由样本来推断总体了。

标准差已知时的样本平均数的分布——u分布

平均数为山标准差为b的正态总体中,独立随机的抽取含

量为n的样本,贝I」:

(T

样本平均数是一服从正态分布的随机变量,记为Xo

将平均数标准化,则:

x-U

LI=

(J

其中的分母称为平均数的标准误差(standarderrorofmean)0如果

变量是正态的或近似正态的,则标准化的变量服从或近似地服从N

(0,1)分布。

1、标准差已知

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论