职称考试卫生统计学重点学习笔记_第1页
职称考试卫生统计学重点学习笔记_第2页
职称考试卫生统计学重点学习笔记_第3页
职称考试卫生统计学重点学习笔记_第4页
职称考试卫生统计学重点学习笔记_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卫生统计学

第一章统计学的基本内容

第一节医学统计学的含义

1、医学统计学定义

医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析的普

遍原理和方法。

2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学规律。

3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。

第二节、统计学的几个重要概念

资料的类型

1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。一

般有度量衡单位,每个对象之间有量的区别。

2、计数资料(分类变量):对观察对象按属性或类型分组计数所得的资料。每个对象之间没

有量的差异,只有质的不同。

3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间

又有程度的差别。

注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。

二、总体

根据研究目的所确定的同质的所有观察对象某项变量值的集合

—1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。

2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的

三、样本

从总体中随机抽取部分观察对象,其某项变量值的集合。

从总体中随机抽取样本的目的是:用样本信息来推断总体特征。

四、随机事件

可以发生也可以不发生,可以这样发生也可以那样发生的事件。亦称偶然事件。

五、概率

描述随机事件发生可能性大小的数值,记作P,其取值范围0WPW1,一般用小数表示。

P=o,事件不可能发生必然事件(随机事件的特例);P=l,事件必然发生;P~o,事件发

生的可能性愈小;p~l,事件发生的可能性愈大

六、小概率事件

习惯上将P<0.05或PW0.01的随机事件称小概率事件。表示某事件发生的可能性很小。

七、参数和统计量

参数:总体指标,如总体均数、总体率,一般用希腊字母表示

统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示

八、学习医学统计学的方法

1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;

2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、

应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。

第三节统计工作的基本步骤

统计设计收集资料整理资料分析资料

一、统计设计三、整理资料

1、调查设计1.目的将收集的原始资料系统化、条

2、实验设计理化,便于进一步计算和分析

(详见第十三章)2.整理分组方式

二、收集资料(1)性质分组

资料来源(2)数量分组

(1)统计报表四、分析资料

(2)日常医疗工作原始记录和报告卡1、统计描述

(3)专题调查2、统计推断

第四节统计图表

-、统计表

1、统计表的作用

代替冗长的文字叙述,便于计算、分析和对比。

2、统计表的结构

1)标题

2)标目横标目(主语):说明表各横行数字的涵义,通常列在表的左侧

纵标目(谓语):说明表各纵栏数字的涵义

主语和谓语连贯起来能读成•句完整而通顺的话

3、统计表的种类:

1)简单表:只按单一变量分组

2)组合表:按两个或两个以上变量分组

某地1980年男、女HBsAg阳性率

性别调查数阳性数阳性率(%)

男42343037.16

女45301814.00

合计87644845.52

4、列表原则:重点突出,简单明了;主谓分明,层次分明

5、统计表的基本要求:

1)标题:概括地说明表的内容,必要时注明资料的时间和地点,写在表上方。常见的缺点:

过于简略,甚至不写标题;或过于繁琐;或标题不确切。

2)标目:文字简明扼要,有单位的标目要注明单位。常见的缺点:标目过多,层次不清

3)线条:不宜过多,除上面的顶线,下面的底线,纵标目与合计之间的横线外,其余线条

•般均省去。表的左上角不宜有斜线。

4)数字:

A、数字一律用阿拉伯数字表示

B、同■指标的小数位数应一致,位次对齐

C、表内不宜留空格,暂缺或未记录,用“…”表示,无数字,用“一”表示,数字为0,填写

0

D、绝对数太小而无法计算指标,则用“…”代替。

5)备注:一般不列入表内,必要时可用“*”号标出,写在表的下面。

二、统计图

1、统计图作用:

通过点、线、面等形式表达统计资料,直观地反映事物之间的数量关系。但需注意,由于统计

图对数量的表达较粗糙,不便于作深入细致的分析,•般需附相应的统计表。

2、常见统计图种类:

条图、百分条图,圆图,线图,半对数线图,直方图,散点图

3、制图的基本要求:

1)按资料的性质和分析目的,选用适合的图形

2)要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。

3)横轴尺度从左到右,纵轴尺度从下而上,数量一律由小到大。横轴与纵轴坐标长度比例一

般为5:7

4)比较不同事物,用不同线条或颜色表示,并附上图例说明。

4、常见统计图适用范围及其绘制要点

1)条图:

(1)适用范围:相互独立的资料,常用形式:单式和复式

(2)绘制要点:

A.用等宽的菁条的长短反映各指标的数量大小。

B.纵轴的尺度必须从0开始。

C.各直条之间的间隙应相等,一般将比较的指标按大小顺序排列。

2)百分条图:

(1)适用范围:构成比资料

(2)绘制要点:

A.将长条全长为100%,

B.将各百分构成比在长条上分割若干段,

C.各段按大小顺序排列。

3)圆图

(1)适用范围:构成比资料

(2)绘制要点:

A.将圆面积为100%,

B.将各百分构成比乘以3.6度,变为圆心角度数,

C.在圆上绘出各扇型面积

D.各扇型面积按大小顺序排列。

4)普通线图

(1)适用范围:连续性资料

(2)绘制要占:

A.纵横轴向用算术尺度,

B.纵横轴尺度比一般为5:7

C.相邻两点用直线连接。

(3)意义:反映事物的变化趋势。

5)半对数线图

(1)适用范围:连续性资料

(2)绘制要点:

A.横轴用算术尺度,纵轴用对数尺度,

B.纵横轴尺度比一般为5:7

C.相邻两点用直线连接。

(3)意义:反映事物的变化速度。

6)直方图

(1)适用范围:计量的频数表资料

(2)绘制要点:

A.横轴表示被观察事物,纵轴表示频数或频率,

B.用等宽的矩形面积表示各组段的频数或频率

7)散点图:

(1)速用范围:双变量资料

(2)分析目的:用点的密度程度和趋势表示两变量间的相关关系

(3)绘制要点(见第五章)

第二章数值变量(计量)资料的统计分析

第一节计量资料的统计描述

・、计量资料的频数分布

(一)频数表的编制

1、求极差(全距)

口=最大值一最小值

=132.5-108.2=24.3

2、求组距(i)

i=极差/组数=24.3/10=2.4丝2

3、分组段

原则:第一组段包括最小值,最后组段包括最大值。

每一组段都有上限和下限

上限:组段的终点(最大值)

下限:组段的起点(最小值)

4、列表划记

45

40

35

30

频25

数20

(

人15

)

124-1M-132-136-140-!44-148-152-156-160-

身高(cm)

图9-1某农村地区1999年14岁

女孩身高的分布

(-)频数分布的特征

1、集中趋势:数据向某数值集中的倾向

2、离散趋势:数据的数值大小不等的倾向

(三)频数分布的类型

1、对称分布:集中位置在中间,左右两侧频数大体对称

2、偏态分布:

(1)正偏态:集中位置偏向数值小的一侧;

(2)负偏态:集中位置偏向数值大的•侧

(四)频数表的用途:

1、揭示资料的分布特征和分布类型

2、便于进一步计算指标和统计分析

3、便于发现特大或特小的可疑值

二、集中趋势的描述

(-)常用平均数的种类:

1、算术均数(简称均数)

2、几何均数

3、中位数

(二)算术均数(均数)

样本均数用X表示,一&体均数用U表示

1、适用范围:对称分布,尤其是正态分布的资料

2、计算方法:

(1)直接法X=£X/n-

(2)加权法适用于频数表资料

X=EfX/Ff

其中X=组中值=(上限+下限)/2

f=频数

(三)几何均数(简记为G)

1、适用范围:

(1)等比级数资料,如血清滴度资料

(2)对数正态分布资料

2、计算方法:

(1)直接法

G=log-1(ElogX/n)

(2)加权法

G=log-I(EflogX/Ef)

(四)中位数(简记M)

1、中位数的定义:

中位数:将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。在全部观察

值中,大于和小于中位数的观察值的个数相等。

2、中位数的适用范围:

(1)偏态分布资料

(2)分布不明资料

(3)分布末端无确定值资料(开口资料)

理论上,中位数可用于任何分布的计量资料,但实际应用中常用于偏态分布,特别是

开口资料。在对称分布资料中,M=X

3、计算方法:

(1)直接法:适用于观察数少资料

n为奇数时,M=X(n+l)/2

n为偶数时,M=(Xn/2+X(n/2+l))/2

(2)频数表法:适用于频数表资料

步骤:①从小到大计算累计频数和累计频数;

②确定中位数所在组段;

③计算中位数M

M=LM+iM/fM(n/2-SfL)

1乂=乂所在组段的下限

iM=M所在组段的组距

fM=M所在组段的频数

£比=小于L各组段的累计频数

M在8~组段

L=8

i—4

fX=48

EfL=26

n=108

M=L+i/fX(n/2-EfL)=10.33

(五)小结:常用平均数的意义及其应用场合

平均数意义应用场合

均数平均数量水平最适用于对称分布,特别是

正态分布

几何均数平均增(减)倍数等比资料或对数正态分布

中位数位次居中的观察值(1)偏态分布,(2)分布不明,

(3)分布末端王确定水平

三离散趋势的描述

甲组26,28,30,32,34.X甲=30

乙组24,27,30,33,36.X乙二30

丙组26,29,30,31,34.X丙三30

(--)反映离散程度的常用指标:

1、极差

2、四分位数间距

3、方差

4、标准差

5、变异系数

(二)极差(全距)R

1、计算公式:1^=最大值一最小值

2、意义:R愈大,离散度愈大,R愈小,离散度愈小。

3、优点:计算简单,意义明了

4、缺点:(1)不能反映每一个观察值的变异;

(2)样本例数越大,R可能越大;

(3)R抽样误差大,不稳定。

(三)四分位数间距(简记Q)

1.百分位数(记作PX)

(1)定义:将一组观察值从小到大按顺序排列,一个百分位数将全部观察值分为两部分,

理论上有x%的观察值比它小,有(100-x)%的观察值比它大。P50分位数也就是中位数。

(2)计算步骤与公式

①从小到大计算累计频数和累计频数;

②确定百分位数所在组段;

③计算百分位数Px

Px=L+i/fx(n.x%—EfL)

L=Px所在组段的下限

i=Px所在组段的组距

fx=Px所在组段的频数

EfL=小于L各组段的累计频数

如计算P25

P25在8~组段

L25=8,i25=4,£25=48,EfL=108,n=108

P25=L25+i25/f25(n.25%-LfL)=8.083

计算P75

P75在12-组段

L75=12,i25=25,f75=4,EfL=74,n=108

P75=L75+i75/f75(n.75%-EfL)=13.120

2.四分位数间距

(1)计算公式:P25:下四分位数简记QL

P75:上四分位数简记QU

四分位数间距Q=QU-QL

=13.120-8.083

=5.037

(2)意义:中间一半观察值的极差,与R意义相似。

⑶特点:

A.比R稳定,但仍未考虑每一个观察值的变异;

B.常用于描述偏态资料的离散度。

(四)方差(总体方差简记。2,样本方差简记S2)

一组观察值的离均差平方和,取其均数,即方差。

1、计算公式:

错误!不能通过编辑域代码创建对象。

错误!不能通过编辑域代码创建对象。

2、意义:方差越大,离散度越大;

方差越小,离散度越小。

(五)标准差(总体标准差简记。,样本标准差简记S)

1、定义:方差的开方,即标准差。

错误!不能通过编辑域代码创建对象。错误!不能通过编辑域代码创建对

象。

错误!不能通过编辑域代码创建对象。

2、意义:与方差的意义相同

3、样本标准差计算方法:

(1)直接法:

错误!不能通过编辑域代码创建对象。

(2)加权法:

错误!不能通过编辑域代码创建对象。

4.应用:

(1)用于表示正态或近似正态分布资料的离散度;

(2)结合均数描述正态分布的特征;

(3)计算标准误。

(4)计算变异系数

(六)变异系数(简记CV)

1、计算公式:CV=S/XX100%—

2、用途:

(1)比较度量衡单位不同的多组资料的变异度

(2)比较均数相差悬殊的多组资料的变异度

例1_

身高:X=166.06cm,S=4.95cm

体重:X=53.72kg,S=4.96kg

身高CV=4.95cm/166.06cmX100%=2.98%

体重CV=4.96kg/53.72kgX100%=9.23%

例2

表2.6某地不同年龄男子身高(cm)的变异程度

年龄组人数均数标准差变异系数(%)

3-3.5岁30096.13.13.2

30-35岁400170.25.00.3

3、CV特点:没有单位,是相对数,便于资料间的比较。

->

第二节正态分布和参考值范围的估计

一、正态分布

(一)正态分布图形

两头低,中间高,左右对称,呈钟型的单峰曲线。

作U变换后:

U=(X-P)/O

正态分布变成U=0,。=1的标准正态分布。

(二)正态分布特征

1、曲线在横轴上方均数处最高;

2、以均数为中心,左右对称;

3、正态分布有两个参数:

(1)U:位置参数,确定曲线位置

当。一定时,口越大,曲线越向右移动;口越小,曲线越向左移动。

(2)。:离散度参数,决定曲线的形态:

当口一定时,。越大,表示数据越分散,曲线越“胖”;。越小,表示数据越集中,

曲线越“瘦”。

4、正态分布曲线下的面积有一定的分布规律。

二、正态分布曲线下的面积分布规律。

以曲线下总面积为100%,则有:

1、U±1。的区间占总面积的68.27%,即口±1。的区间内包含的观察值个数占观察值总

个数的68.27%。

1、U±1.96。的区间占总面积的95%,即u±1.96。的区间内包含的观察值个数占观察值

总个数的95%。

3、口±2.58。的区间占总面积的99%,即U±2.58。的区间内包含的观察值个数占观察

值总个数的99%o

正态分布的应用

1.估计频数分布情况

2.估计参考值范围

三、参考值范围的估计

1.参考值范围意义:

参考值范围(亦称为正常值范围)是指正常人的解剖、生理、生化等各种指标的波动

范围。它主要用于划分正常与异常的界限。

2.正常值范围制定的一般原则

(1)抽取足够数量的正常人作为调查对象

A.“正常人”一不是指任何一点小病都没有的人,而是指排除影响被研究指标的疾病

和因素的人。

如制定SGPT(谷丙转氨酶)正常值范围,正常人的条件是:

a.无肝、肾、心、脑、肌肉等疾患;

b.近期无服用损肝的药物(如氯丙嗪,异烟期)

c.测定前未作剧烈运动。

B.正常值范围制定所需的样本例数,一般要求n>100

(2)确定是否分组制定参考值范围

(3)确定取单侧还是双侧正常值范围。

A.白细胞数过高和过低均属于异常,则需同时制定正常值范围的下限(最小值)和

上限(最大值),称双侧正常值范围。

B.肺活量只过低为异常,只需制定正常值范围的下限;尿铅只过高为异常,只需制

定正常值范围的上限;均称单侧正常值范围。

(4)选定适当的百分界限。

正常值范围的意思:绝大多数正常人的某项观察值均在该范围之内。这个绝大多,习惯

上指正常人的80%、90%、95%、99%(最常用是95%)。那么,在正常值范围之外的正常

人有:

单侧:20%、10%、5%、1%

双侧每侧:10%、5%、2.5%0.5%

根据所选定的百分界限,会造成假阳性或/和假阴性。

如SGPT,正常值单侧95%上限为146单位(King法)

按该范围,5%的正常人(>146)被错判为异常,称假阳性;

而肝功能异常者中,也可能有<146者,按该范围错判为正常,称假阴性。

显然,上限值提高,假阳性减少,假阴性增多;

上限值降低,假阳性增多,假阴性减少;

(5)选择适当制定方法。

3、正常值范围常用制定方法

(1)正态分布法.

A.适用范围:(近似)正态分布或对数正态分布资料

B.计算公式:_

双侧95%X±1.96S

99%X±2.58S

单侧上限95%士+1.645S

99%X+2.326S

下限95%X-1.645S

99%X-2.326S

例114处孩身高95%参考值范围是:

X±T96S=143.08+1.96X6.58

=(130.18-155.98)

(2)百分位数法

A.适用范围:

1、偏态分布资料

2、开口资料

B.计算公式:

双侧95%P2.5-P97.5

99%P0.5〜P99.5

单侧上限95%P95

99%P99

下限95%P5

99%P1

第三节计量资料的统计推断

一、均数的抽样误差与标准误

一、均数的抽样误差概念

由于总体中存在个体变异,所以由抽样得到的样本均数与总体均数之间存在差异,这种

差异称均数的抽样误差。在抽样研究中,抽样误差是不可避免的,但可以估计其大小。

二、中心极限定理

1、在正态总体中,随机抽取例数为n的样本,样本望汉服从正态分布;

2、在偏态总体中随机抽样,当n足够大时(n>50),又也近似正态分布;

3、从均数为U,标准差为。的正态或偏态总体中,抽取例数为n的样本,样本均数X的

总体均数仍为P,标准差为。x

三、标准误意义及其计算方法

I、意义:说明均数则误差大小的指标,用Q表示。元越大,均数抽样误差越大;

反之,ox越小,均数抽释误差越小。

2、计算公式:

错误!不能通过编辑域代码创建对象。………(理论值)

错误!不能通过编辑域代码创建对象。.....(估计值)

错误!不能通过编辑域代码创建对象。与错误!不能通过编辑域代码创建对象。成

正比,与错误!不能通过编辑域代码创建对象。成反比,可以通过增加n减小错误!不能

通过编辑域代码创建对象。。

3.均数的标准误的用途:

(1)说明均数抽样误差大小,反映均数的可靠性。ox越大,用样本均数推论总体均数越

可靠,反之亦然

(2)估计总体均数的可信区间

(3)用于进行假设检验

二、t分布

(一)t分布含义:

由于错误!不能通过编辑域代码创建对象。呈正态分布N(错误!不能通过编辑域代码创建

对象八错误!不能通过编辑域代码创建对象。),则可以将一般正态变量错误!不能通过编

辑域代码创建对象。变换成标准正态变量错误!不能通过编辑域代码创建对象。:

错误!不能通过编辑域代码创建对象。

将一般的正态分布变换为标准正态分布N(0、1)。

在实际应用中,错误!不能通过编辑域代码创建对象。往往未知,用错误!不能通过

编辑域代码创建对象。代替,则只能对错误!不能通过编辑域代码创建对象。做t变换而不

是错误!不能通过编辑域代码创建对象。变换:

错误!不能通过编辑域代码创建对象。=错误!不能通过编辑域代码创建对象。

每个错误!不能通过编辑域代码创建对象。可以算出一个t值,t值的分布称t分布。

(二)t分布特征:

1、以0为中心,左右对称的单峰分布;

2、t分布的形态与自由度v有关:

v越小,t分布曲线峰部越低平而尾部翘得越高;(t分布与u分布相差较大,即相同的

曲线下面积,t值>u值)

v逐渐增大,t分布逼近标准正态分布;

v=8,t分布=标准正态分布。(同样的曲线下面积,1值加值)

自由度不同,t分布曲线形态就不相同,因此t分布是一簇曲线,则就是说,自由度不

同,相同的I值所对应的面积不同,或说,出现该t值的概率不同。

(三)1值表

对应于每一自由度取值,就有一条t分布曲线,每条曲线都有自身曲线下t值的分布规

律,相同曲线下面积所对应的t值不同,计算t值较为繁杂。为此,统计学家已制成t值表,

通过查表即获得相应的t值。查表须注意:

1、横标目(左边第一列)为自由度(错误!不能通过编辑域代码创建对象。),纵标目为概

率(P或错误!不能通过编辑域代码创建对象。),也就是t界值以外单侧或双侧尾部的面积

占总面积的百分比,表中的数字就是对应于错误!不能通过编辑域代码创建对象。和错误!

不能通过编辑域代码创建对象。的t界值,用ta,v表示;

2、t值有正负值,由于t分布是以0为中心的对称分布,故表中只列正值,查表时,不管

t值正负只用绝对值;

3、当v一定时,t值越大,P越小;

4、当P一定时,v越大,t值越小;v=8时,t=u;

5、当v和t值一定时,双侧P=2倍单侧P。

即双侧ta,v=单侧ta/2,v。

例v=10时:

单侧错误!不能通过编辑域代码创建对象。=1.812

即P(t^-1.812)=0.05或P(t21.812)=0.05

双侧错误!不能通过编辑域代码创建对象。=2.228

即P(tW-2.228)+P(t22.228)=0.05

三、总体均数的估计

(-)估计方法:

1、点值估计:用样本均数直接作为总体均数的估计值

2、区间估计

(-)总体均数的区间估计

1、定义:按一定的概率(1-a)确定包含未知总体均数的可能范围。所确定的范围称

为总体均数的可信区间(或置信区间,CI);1-a称可信度,最常用双侧95%。

2、估计方法:

(1)当。未知,而且样本例数n较小(n<50)时,按t分布原理估计:

错误!不能通过编辑域代码创建对象。±ta,v.错误!不能通过编辑域代

码创建对象。

(2)当。已知,或。未知但样本例数足够大(n>50)时,按标准正态分布原理估计:

A.o已知:

(错误!不能通过编辑域代码创建对象。一ua.错误!不能通过编辑域代码创建对象。,

错误!不能通过编辑域代码创建对象。+ua.错误!不能通过编辑域代码创建对象。)u

a为u界值,

错误!不能通过编辑域代码创建对象。错误!不能通过编辑域代码创建

对象。ua.错误!不能通过编辑域代码创建对象。

B.。未知但n足够大(n>50):

(错误!不能通过编辑域代码创建对象。一ua.错误!不能通过编辑域代码创建对象。,

错误!不能通过编辑域代码创建对象。+ua.错误!不能通过编辑域代码创建对象。)

错误!不能通过编辑域代码创建对象。错误!不能通过编辑域代码创建对

象。ua.错误!不能通过编辑域代码创建对象。

按标准正态分布原理估计总体均数可信区间时,熟记下列常用区间:

95%总体均数可信区间:错误!不能通过编辑域代码创建对象。错误!不能通过

编辑域代码创建对象。1.96错误!不能通过编辑域代码创建对象。

或错误!不能通过编辑域代码创建对象。错误!不能通过

编辑域代码创建对象。1.96错误!不能通过编辑域代码创建对象。

99%总体均数可信区间:错误!不能通过编辑域代码创建对象。错误!不能通过

编辑域代码创建对象。2.58错误!不能通过编辑域代码创建对象。

或错误!不能通过编辑域代码创建对象。错误!不能通过

编辑域代码创建对象。2.58错误!不能通过编辑域代码创建对象。

例9.10n=20,错误!不能通过编辑域代码创建对象。=118.4mmHg,s=10.8mmHg,估计其

95%可信区间。

(错误!不能通过编辑域代码创建对象。一ta,v.错误!不能通过编辑域代码创

建对象。,错误!不能通过编辑域代码创建对象。+ta,v.错误!不能通过编辑域代码

创建对象。)

t0.05,19=2.093错误!不能通过编辑域代码创建对象。=错误!不能通过编

辑域代码创建对象。=2.41

(118.4-2.093X2.41,118.7+2.093X2.41)

(113.3,123.5)mmHg

例n=200,错误!不能通过编辑域代码创建对象。=3.64mmol/L.s=1.20mmol/L,估计其95%

可信区间。

错误!不能通过编辑域代码创建对象。错误!不能通过编辑域代码创建对象。

ua.错误!不能通过编辑域代码创建对象。

(3.64-1.96X错误!不能通过编辑域代码创建对象。,3.64+1.96X错误!不能通过编辑域

代码创建对象。)

(3.47,3.81)mmol/L

3、可信区间内涵义

以95%总体均数可信区间为例:

有95%的可能所计算出的区间包含了总体均数,即估计正确的概率为95%,错误5%。

4、可信区间两个要素:

(1)准确度:反映在可信度(1-a)的大小。1-a越接近1,越准确。

如可信度99%比95%准确。

(2)精确度:反映在区间范围宽窄。范围越摘越好。

95%可信区间精度优于99%。

在n确定的情况下,准确度t,精确度I»

在兼顾准确度和精确度时,一般取95%可信区间。

在可信度确定的情况下,增加样本例数,可提高精确度。

5、可信区间与正常值范围区别:

(1)意义不同:正常值范围是指绝大多数观察值在某个范围;可信区间是指按一定的可

信度估计总体参数(均数)可能所在的范围;

(2)计算公式不同

可信区间错误!不能通过编辑域代码创建对象。±ua.错误!不能通过

编辑域代码创建对象。(大样本)

正常值范围错误!不能通过编辑域代码创建对象。±i1a.s

前者用标准误,后者用标准差。

(3)用途不同:可信区间用于估计总体均数,参考值范围用于判断观察对象某项指标正

常与否。

四、假设检验的基本思想和步骤

(~)提出问题:

例:根据大量调查的资料,已知健康成年男子的脉搏均数为72次/分。某医生在山区随

机抽取了25名健康成年男子,得其脉搏均数为74.2次/分,标准差为6.5次/分。问能否认

为该山区成年男子的脉搏数高于一般人?

本研究H的是判断是否错误!不能通过编辑域代码创建对象。>错误!不能通过编辑域

代码创建对象。(72次/分)。由于存在抽样误差,来自某一总体的随机样本其样本均数(错误!

不能通过编辑域代码创建对象。)与总体均数(错误!不能通过编辑域代码创建对象。)往往

不等;从同一总体中抽取的两个随机样本的样本均数也往往不同。因此,在比较一个样本均

数与一个总体均数的差别,或比较两个样本均数的差别时,需要判断这种差别的性质和意义,

造成这种差别有两种可能:

(1)总体均数不等(来自不同总体),有本质差别;

(2)总体均数相等(来自相同的总体),其差别由抽样误差所致,无本质差别。

要判断属于那种可能,需要通过假设检验来回答。

(-)假设检验原理(基本思想)

要检验两指标的差别是由抽样误差引起的,还是由于总体均数不同所致,运用反证法。

首先建立检验假设,假设样本来自同一总体,在此假设的基础上计算有关的统计量,根据统

计量的大小来判断假设成立的概率的大小。一般把概率PW0.05的事件称为小概率事件,小

概率事件在一次观察中可以认为是不会发生的,如与这原则不符,则认为原先的假设是不正

确的,就是说“假设”不能成立,则拒绝这个“假设”。否则不拒绝原来的“假设”。这

就是假设检验的基本思想。

(三)假设检验的一般步骤

A.建立假设

两种假设

(1)检验假设(无效假设)用H0表示:即假设两总体均数相等,差别仅仅由于抽样误差

所致;

(2)备择假设用H1表示:是与H0对立的假设,当H0被拒绝,则接受HI。

2、确定单双侧检验(常用双侧检验)

根据研究目的和专业知识还要确定是双侧检验还是单侧检验。若目的是推断两总体是

否不等(如是否UWU0),不管是U>U0还是口VU0,都是我们所关心的,则用双侧检

验,此时HO:u=n0,Hl:PP0;若从专业知识已知不会口<N0(或不会N>N0),

目的是推断是否U>NO(或U<UO),则用单侧检验,此时HO:ii—nO,H1:u>u0

(或y<P0)o

注意:单侧检验更容易得到有统计学意义的结果,因此,做单侧检验要通过专业知识

来确定,否则,一律做双侧检验,双侧检验更稳妥。

3.确定检验水准

检验水准用错误!不能通过编辑域代码创建对象。表示,错误!不能通过编辑域代码

创建对象。是拒绝或不拒绝H0的概率标准,也就是小概率事件标准,是人为选定的概率值,

一般取a=0.05(根据需要也可取0.2、0.15、0.1、0.01等)。

B、选定检验方法和计算统计量

根据研究设计方案、资料类型、样本含量大小及分析目的选用适当的检验方法,并根

据样本资料计算相应的检验统计量。不同的检验方法要用不同的公式计算现有样本的检验统

计量(t,u,F值)。检验统计量是在H0成立的前提下计算出来。

C、确定P值

P值是指在H0所规定的总体中作随机抽样,获得等于及大于(或等于及小于)现有样本

统计量的概率。P也可以通俗地说,P是指H0成立的概率大小。用计算所得的检验统计量

(t、u值)与相应的界值比较,确定P值。

D、作出推断结论

假设检验的结论:

(1)统计学结论(拒绝或接受H0,即有无统计学意义);

(2)专业结论。

2、推断结论方法

(1)当PWa时,结论是:拒绝H0,接受H1(差别有显著意义或有统计学意义);

(2)当P>a时,结论是:不拒绝H0。(差别无显著意义,或无统计学意义);

作出上述推断的理山

(1)如果PWa,则按a水准拒绝HO,接受Hl。因为抽取一个样本,仅代表一次试

验,现PWa,为小概率事件,小概率事件在一次试验中竟然发生,与概率理论的一个基本

原则:小概率事件在一次试验中不会发生产生矛盾,因此拒绝H0。

(2)如果P>a,则按a水准不拒绝H0,因为概率较大,没有理由拒绝H0,认为其成

立。所以,研究者只是在概率上从H0与H1两者中选择一个较为合理的判断。

由此可见,假设检验所作出的结论是具有概率性质的,不是绝对的肯定或否定。不论拒

绝或不拒绝H0都可能发生错误。

拒绝实际上是成立的H0,这类“弃真”的错误称I型错误或第一类错误。

不拒绝(接受)实际上是不成立的H0,这类“存伪”的错误称口型错误或第二类错误。

即拒绝H0,犯I型错误;接受H1,犯H型错误。

两类错误的关系

第一类错误的概率为a,第二类错误的概率为B

a越大,6越小,a越小,B越大。

第四节t检验和u检验

一、t检验和u检验用途

1、样本均数与总体均数的比较;

2、配对计量资料的比较;

3、两样本均数的比较;

二、t检验和u检验应用条件

1、t检验应用条件:

(1)样本来自正态总体;

(2)两小样本均数比较,还要求样本的总体方差相等。

2、u检验应用条件:

样本例数n较大(n>100),或n虽小而总体标准差已知(少见)。

三、单样本I检验(样本均数与总体均数比较t检验)

1、目的:检验样本均数错误!不能通过编辑域代码创建对象。所代表的未知总体均数错

误!不能通过编辑域代码创建对象。是否等于以已知的总体均数错误!不能通过编辑域代

码创建对象。。

已知的总体均数错误!不能通过编辑域代码创建对象。指:

(1)理论值;

(2)标准值;

(3)经大量调查得到的稳定值。

2、检验公式

t=错误!不能通过编辑域代码创建对象。v=n-l

四、配对t检验

1、配对设计含义:将受试对象按一定条件配成对子,再随机分配每对的两个受试对象到

不同的处理组。

2、配对设计形式

①同对的两个受试对象分别给予两种处理;

②同一受试对象分别给予两种处理(如同一个样品用

两种方法检测,或同一受试对象不同部位某指标的值)

③同一受试对象处理前后比较

3、检验公式:t=错误!不能通过编辑域代码创建对象。v=n-l

五、两样本均数比较

(-)两大样本均数的u检验

1、适用条件

两个样本含量均足够大(nl>50和n2>50)

2、检验公式:

错误!不能通过编辑域代码创建对象。

(二)两小样本均数的比较一t检验

1、应用条件

(1)样本来自正态总体;

(2)两样本所来自的总体方差相等。

2、检验公式

错误!不能通过编辑域代码创建对象。

或错误!不能通过编辑域代码创建对象。

六、假设检验应注意的问题

(-)要有严密的抽样研究设计,考虑到被比较的样本的可比性,这是假设检验的前提。

(-)选用的假设检验方法应符合其应用条件。

(三)当所比较的差异无实际意义时,不必进行假设检验。

(四)正确理解差别有无显著性的统计意义。

(五)结论不能绝对化。

是否拒绝H0,取决于:

1、被研究的事物有无本质的差异

2、抽样误差大小:

(1)个体差异大小

(2)样本例数多少

3、检验水准a的高低

(六)报告结论时最好写出较确切的P值,并且单侧检验需作注明(习惯上采用双侧检验

不需作注明)

第五节方差分析(F检验)

(analysisofvarianceANOVA)

一、方差分析的用途及应用条件

(-)用途

1、检验两个或多个样本均数间的差异有无统计学意义;

2、回归方程的线性假设检验;

3、检验两个或多个因素间有无交互作用。

(二)应用条件

1、各个样本是相互独立的随机样本;

2、各个样本来自正态总体;

3、各个处理组(样本)的总体方差方差相等,即方差齐。

二、方差分析的基本思想

(-)方差分析中变异的分解

此资料的变异,可以分出三种:

1、总变异:表现为所有数据大小不等,用总的离均差平方和表示,记为SS总。

错误!不能通过编辑域代码创建对象。(i代表第i个组,j代表第j个观察值)

错误!不能通过编辑域代码创建对象。的大小还与总例数N有关,确切讲是与总的自由度

错误!不能通过编辑域代码创建对象。有关,错误!不能通过编辑域代码创建对象。=N-lo

2、组间变异:组间变异表现为各组均数错误!不能通过编辑域代码创建对象。大小不等,

描述其大小指标

(1)用各组均数错误!不能通过编辑域代码创建对象。与总均数X的离均差平方和

表示,记为SS组间

SS组间的大小与处理因素的作用、随机误差(测量误差和个体差异)和组间自由度有关。

错误!不能通过编辑域代码创建对象。,错误!不能通过编辑域代码创建对象。

(2)用SS组间除于组间自由度表示,称组间均方

错误!不能通过编辑域代码创建对象。

组间均方反映处理因素和随机误差的作用。

3、组内变异:组内变异表现为各组内部各个观察值大小不等。

描述其大小指标:

(1)用各组内部每个观察值错误!不能通过编辑域代码创建对象『与组均数X的离

均差平方和表示,记为SS组内。SS组内的大小与随机误差(测量误差和个体差异)和组内

自由度有关。

错误!不能通过编辑域代码创建对象。,错误!不能通过编辑域代码创建对象。

(2)用SS组内除于组内自由度表示,称组内均方

错误!不能通过编辑域代码创建对象。

组内均方只反映观察值的随机误差(个体差异及随机测量误差)。

三种变异的关系:55总=$5组内+SS组间,错误!不能通过编辑域代码创建对象。。

(-)方差分析思想

1、如果两个或多个样本来自同一个总体,或者处理因素的效应一样(没有差异),则组间

和组内的变异相等,即:

MS组间=MS组内

或两者相差不大,它们的比值用F表示:

错误!不能通过编辑域代码创建对象。

则F=l,或F与1相差不大。

2、若两个样本或多个样本来自不同总体,或者处理因素的效应不•样,则组间变异大于

组内变异,即:

MS组间〉MS组内

则F值明显大于Io要大到多大程度才有统计学意义?按错误!不能通过编辑域代码

创建对象。和错误!不能通过编辑域代码创建对象。查F界值表,由F值确定P值,按P

值大小作出推断。

方差分析基本思想:在方差分析时,根据资料的设计类型不同,将总的离均差平方和及

自由度分解为两个或多个部分,除随机误差外,其余部分的变异反映处理因素的作用,通过

比较不同来源的均方,借助F分布原理作出统计推断,从而了解处理因素对观测指标有无

影响。

三、单因素方差分析

(-)计算方法

____________单因素方差分析的计算公式___________________________________________

变异来源SSvMSF

Wi~~错误!不能通过编辑域代码创建对象。in错误!不能通过编辑域代

码创建对象。错误!不能通过编辑域代码创建对象。

组内(误差)SS总-SS组间N-k错误!不能通过编辑域代码创建对象。

总错误!不能通过编辑域代码创建对象。N-1

*错误!不能通过编辑域代码创建对象。

四、分析步骤

1、建立假设和确定检验水准;

H0:错误!不能通过编辑域代码创建对象。

H1:错误!不能通过编辑域代码创建对象。或不全相等

错误!不能通过编辑域代码创建对象。

2、计算检验统计量F值

表9-15例9-16方差分析结果________________________

变异来源SSuMSFP

组间2.027630.675910.24<0.01

组内0.791812

总2.819415

3、确定P值和推断结论

以组间自由度错误!不能通过编辑域代码创建对象。为错误!不能通过编辑域代码创建

对象。,以组内自由度错误!不能通过编辑域代码创建对象。为错误!不能通过编辑域代码

创建对象。,查附表3,F界值表:错误!不能通过编辑域代码创建对象。=3.49,由于错误!

不能通过编辑域代码创建对象。错误!不能通过编辑域代码创建对象。,故P<0.05;按错误!

不能通过编辑域代码创建对象。,拒绝H0,接受H1,可以认为四组均数不等或不全相等。

注意:以上仅是总的结论,尚需对四个样本均数进行两两比较(见后)。

五、多个样本均数的两两比较勺检验

多个样木均数比较经F检验后,若得出有统计学意义的结论后,要进一步推断哪些组

之间有差别,哪些组之间没有差别,还是所有各组之间都有差别,要解决这些问题,就要进

一步做均数间的两两比较了。

多个样本均数间的两两比较又称多重比较,由于涉及的对比组数大于2,就不能应用前面

介绍的t检验,只能使用下面介绍的方法。若仍用前述前述的t检验方法,对每两个对比

组作比较,会使犯第一类错误(拒绝了实际上成立的H0所犯的错误)的概率a增大,即可能

把本来无差别的两个总体均数判为有差别。

(-)检验统计量q的计算公式为:

错误!不能通过编辑域代码创建对象。

式中错误!不能通过编辑域代码创建对象。为两个对比组的样本均数。错误!不能

通过编辑域代码创建对象。为方差分析中算得的组内均方),错误!不能通过编辑域代码创

建对象。和错误!不能通过编辑域代码创建对象。分别为两对比组的样本例数。

(­)q检验的方法步骤

对例9-16资料作两两比较。

1、建立假设

H0:任两对比组的总体均数相等,即错误!不能通过编辑域代码创建对象。

H1:任两对比组的总体均数不等,错误!不能通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论