复旦大学社会医学与卫生事业管理考研复习-医学统计学_第1页
复旦大学社会医学与卫生事业管理考研复习-医学统计学_第2页
复旦大学社会医学与卫生事业管理考研复习-医学统计学_第3页
复旦大学社会医学与卫生事业管理考研复习-医学统计学_第4页
复旦大学社会医学与卫生事业管理考研复习-医学统计学_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复旦大学社会医学与卫生事业管理

考研复习-医学统计学

第一章医学统计学的基本内容

第一节医学统计学的含义

1、医学统计学定义

医学统计学(statistics)作为一门学科的定义是:关

于医学数据收集、表达和分析的普遍原理和方法。

2、医学统计学研究方法:通过大量重复观察,发现不确定

的医学现象背后隐藏的统计学规律。

3、医学统计推论的基础:在一定条件下,不确定的医学现

象发生可能性,即概率。

第二节、统计学的几个重要概念

一.资料的类型

1、计量资料(数值变量):对每一观察对象用定量的方

法,测定某项指标所得的资料。一般有度量衡单位,每个

对象之间有量的区别。

2、计数资料(分类变量):对观察对象按属性或类型分

组计数所得的资料。每个对象之间没有量的差异,只有质的

不同。

3、等级资料(有序分类变量):对观察对象按属性或类

型分组计数,但各属性或类型之间又有程度的差别。

注意:不同类型的资料采用的统计分析方法不同;三类

资料类型可以相互转化。

二、总体

根据研究目的所确定的同质的所有观察对象某项变量值

的集合

1、有限总体:只包括在确定时间、空间范围内的有限个

观察对象。

2、无限总体:没有时间、空间范围的限制,观察对象的

数量是不确定的,无限的

三、样本

从总体中随机抽取部分观察对象,其某项变量值的集

合。

从总体中随机抽取样本的目的是:用样本信息来推断

总体特征。

四、随机事件

可以发生也可以不发生,可以这样发生也可以那样发

生的事件。亦称偶然事件。

五、概率

描述随机事件发生可能性大小的数值,记作P,其取值

范围O<P<1,一般用小数表示。P=0,事件不可能发生必

然事件(随机事件的特例);P=l,事件必然发生;P-0,

事件发生的可能性愈小;P-1,事件发生的可能性愈大

六、小概率事件

习惯上将P40.05或P40.01的随机事件称小概率

事件。表示某事件发生的可能性很小。

七、参数和统计量

参数:总体指标,如总体均数、总体率,一般用希腊字母

表示

统计量:样本指标,如样本均数、样本率,一般用拉丁字

母表示

八、学习医学统计学的方法

1、重点掌握“四基”:基本知识、基本概念、基本原理

和基本方法;

2、重视统计方法在实际中应用,重视实习和综合训练;

注意学习每种统计方法的应用范围、应用条件,大多数公式

只要求了解其意义和使用方法,不用记忆和探究数理推导。

第三节统计工作的基本步骤

统计设计收集资料整理资料分析资料

一、统计设计

1、调查设计

2、实验设计

(详见第十三章)

二、收集资料

资料来源

(1)统计报表

(2)日常医疗工作原始记录和报告卡

(3)专题调查

三、整理资料

1.目的将收集的原始资料系统化、条理化,便于进一步

计算和分析

2.整理分组方式

(1)性质分组

(2)数量分组

四、分析资料

1、统计描述

2、统计推断

第四节统计图表

一、统计表

1、统计表的作用

代替冗长的文字叙述,便于计算、分析和对比。

2、统计表的结构

1)标题

2)标目横标目(主语):说明表各横行数字的涵义,

通常列在表的左侧

纵标目(谓语):说明表各纵栏数字的涵义

主语和谓语连贯起来能读成一句完整而通顺

的话

3、统计表的种类:

1)简单表:只按单一变量分组

2)组合表:按两个或两个以上变量分组

某地1980年男、女HBsAg阳性率

性别调查数阳性数阳性率(%)

男42343037.16

女45301814.00

合计87644845.52

4、列表原则:重点突出,简单明了;主谓分明,层次分明

5、统计表的基本要求:

1)标题:概括地说明表的内容,必要时注明资料的时间和

地点,写在表上方。常见的缺点:过于简略,甚至不写标题;

或过于繁琐;或标题不确切。

2)标目:文字简明扼要,有单位的标目要注明单位。常见

的缺点:标目过多,层次不清

3)线条:不宜过多,除上面的顶线,下面的底线,纵标目

与合计之间的横线外,其余线条一般均省去。表的左上角

不宜有斜线。

4)数字:

A、数字一律用阿拉伯数字表示

B、同一指标的小数位数应一致,位次对齐

C、表内不宜留空格,暂缺或未记录,用“…”表示,无数

字,用“一”表示,数字为0,填写0

D、绝对数太小而无法计算指标,则用“…”代替。

5)备注:一般不列入表内,必要时可用“*”号标出,写

在表的下面。

二、统计图

1、统计图作用:

通过点、线、面等形式表达统计资料,直观地反映事物

之间的数量关系。但需注意,由于统计图对数量的表达较粗

糙,不便于作深入细致的分析,一般需附相应的统计表。

2、常见统计图种类:

条图、百分条图,圆图,线图,半对数线图,直方图,散

点图

3、制图的基本要求:

1)按资料的性质和分析目的,选用适合的图形

2)要有标题,扼要说明资料的内容,必要时注明时间、地

点,一般写在图的下面。

3)横轴尺度从左到右,纵轴尺度从下而上,数量一律由小

到大。横轴与纵轴坐标长度比例一般为5:7

4)比较不同事物,用不同线条或颜色表示,并附上图例说

明。

4、常见统计图适用范围及其绘制要点

1)条图:

(1)适用范围:相互独立的资料,常用形式:单式和复式

(2)绘制要点:

A.用等宽的直条的长短反映各指标的数量大小。

B.纵轴的尺度必须从0开始。

C.各直条之间的间隙应相等,一般将比较的指标按大小顺

序排列。

2)百分条图:

(1)适用范围:构成比资料

(2)绘制要点:

A.将长条全长为100%,

B.将各百分构成比在长条上分割若干段,

C.各段按大小顺序排列。

3)圆图

(1)适用范围:构成比资料

(2)绘制要点:

A.将圆面积为100%,

B.将各百分构成比乘以3.6度,变为圆心角度数,

C.在圆上绘出各扇型面积

D.各扇型面积按大小顺序排列。

4)普通线图

(1)适用范围:连续性资料

(2)绘制要点:

A.纵横轴均用算术尺度,

B.纵横轴尺度比一般为5:7

C.相邻两点用直线连接。

(3)意义:反映事物的变化趋势。

5)半对数线图

(1)适用范围:连续性资料

(2)绘制要点.

A.横轴用算术尺度,纵轴用对数尺度,

B.纵横轴尺度比一般为5:7

C.相邻两点用直线连接。

(3)意义:反映事物的变化速度。

6)直方图

(1)适用范围:计量的频数表资料

(2)绘制要点:

A.横轴表示被观察事物,纵轴表示频数或频率,

B.用等宽的矩形面积表示各组段的频数或频率

7)散点图:

(1)适用范围:双变量资料

(2)分析目的:用点的密度程度和趋势表示两变量间的

相关关系

(3)绘制要点(见第五章)

第二章数值变量(计量)资料的统计分析

第一节计量资料的统计描述

一、计量资料的频数分布

(一)频数表的编制

1、求极差(全距)

R=最大值-最小值

=132.5-108.2=24.3

2、求组距(i)

i=极差/组数=24.3/10=2.4g2

3、分组段

原则:第一组段包括最小值,最后组段包括最大值。

每一组段都有上限和下限

上限:组段的终点(最大值)

下限:组段的起点(最小值)

4、列表划记

45

40

频35

(30

人25

)20

15

图9-1某农村地区1999年14岁

女孩身高的分布

(二)频数分布的特征

1、集中趋势:数据向某一数值集中的倾向

2、离散趋势:数据的数值大小不等的倾向

(三)频数分布的类型

1、对称分布:集中位置在中间,左右两侧频数大体对称

2、偏态分布:

(1)正偏态:集中位置偏向数值小的一侧;

(2)负偏态:集中位置偏向数值大的一侧

(四)频数表的用途:

1、揭示资料的分布特征和分布类型

2、便于进一步计算指标和统计分析

3、便于发现特大或特小的可疑值

二、集中趋势的描述

(一)常用平均数的种类:

1、算术均数(简称均数)

2、几何均数

3、中位数

(二)算术均数(均数)

样本均数用7表示,总体均数用以表示

1、适用范围:对称分布,尤其是正态分布的资料

2、计算方法:

(1)直接法x=XX/n

(2)加权法适用于频数表资料

X=SfX/Xf

其中X=组中值=(上限+下限)/2

f=频数

(三)几何均数(简记为G)

1、适用范围:

(1)等比级数资料,如血清滴度资料

(2)对数正态分布资料

2、计算方法:

(1)直接法

G=log-1(LlogX/n)

(2)加权法

G=log-1(SflogX/Sf)

(四)中位数(简记M)

1、中位数的定义:

中位数:将一组观察值从小到大按顺序排列,位次居中

的观察值就是中位数。在全部观察值中,大于和小于中位数

的观察值的个数相等。

2、中位数的适用范围:

(1)偏态分布资料

(2)分布不明资料

(3)分布末端无确定值资料(开口资料)

理论上,中位数可用于任何分布的计量资料,但实际

应用中常用于偏态分布,特别是开口资料。在对称分布资料

中,M=X

3、计算方法:

(1)直接法:适用于观察数少资料

n为奇数时,M=X(n+1)/2

n为偶数时,M=(Xn/2+X(n/2+l))/2

(2)频数表法:适用于频数表资料

步骤:①从小到大计算累计频数和累计频数;

②确定中位数所在组段;

③计算中位数M

M=LM+iM/G(n/2-SfL)

1^=乂所在组段的下限

1认=乂所在组段的组距

£从=乂所在组段的频数

Xf\=小于L各组段的累计频数

M在8-组段

L=8

i=4

fX=48

SfL=26

n=l08

M=L+i/fX(n/2-SfL)=10.33

(五)小结:常用平均数的意义及其应用场合

平均数意义应用场合

均数平均数量水平最适用于对称分布,特别是

正态分布

几何均数平均增(减)倍数等比资料或对数正态分布

中位数位次居中的观察值⑴偏态分布,⑵分布不明,

(3)分布末端无确定水平

三离散趋势的描述

甲组26,28,30,32,34.X甲=30

乙组24,27,30,33,36.又乙=30

丙组26,29,30,31,34.又丙=30

(一)反映离散程度的常用指标:

1、极差

2、四分位数间距

3、方差

4、标准差

5、变异系数

(二)极差(全距)R

1、计算公式:!<=最大值-最小值

2、意义:R愈大,离散度愈大,R愈小,离散度愈小。

3、优点:计算简单,意义明了

4、缺点:(1)不能反映每一个观察值的变异;

(2)样本例数越大,R可能越大;

(3)R抽样误差大,不稳定。

(三)四分位数间距(简记Q)

1.百分位数(记作PX)

(1)定义:将一组观察值从小到大按顺序排列,一个百分

位数将全部观察值分为两部分,理论上有x%的观察值比它

小,有(100-x)%的观察值比它大。P50分位数也就是中位

数。

(2)计算步骤与公式

①从小到大计算累计频数和累计频数;

②确定百分位数所在组段;

③计算百分位数Px

Px=L+i/fx(n.x%-SfL)

L=E所在组段的下限

i=Px所在组段的组距

fx=Px所在组段的频数

Xf\=小于L各组段的累计频数

如计算P25

P25在8-组段

L25=8,i25=4,f25=48,SfL=108,n=108

P25=L25+i25/f25(n.25%-SfL)=8.083

计算P75

P75在12-组段

L75=12,i25=25,f75=4,SfL=74,n=108

P75=L75+i75/f75(n.75%-SfL)=13.120

2.四分位数间距

(1)计算公式:P25:下四分位数简记QL

P75:上四分位数简记G

四分位数间距Q=QI「QL

=13.120-8.083

=5.037

⑵意义:中间一半观察值的极差,与R意义相似。

⑶特点:

A.比R稳定,但仍未考虑每一个观察值的变异;

B.常用于描述偏态资料的离散度。

(四)方差(总体方差简记。样本方差简记S2)

一组观察值的离均差平方和,取其均数,即方差。

1、计算公式:

Z(X-4)2

(T二--------

N

2

2ZU-X)

s=------------

72-1

2、意义:方差越大,离散度越大;

方差越小,离散度越小。

(五)标准差(总体标准差简记。,样本标准差简记S)

1、定义:方差的开方,即标准差。

,丁

2、意义:与方差的意义相同

3、样本标准差计算方法:

(1)直接法:

s~\

(2)加权法:

S~\Z/-1

4.应用:

(1)用于表示正态或近似正态分布资料的离散度;

(2)结合均数描述正态分布的特征;

(3)计算标准误。

(4)计算变异系数

(六)变异系数(简记CV)

1、计算公式:CV=S/Xx100%

2、用途:

(1)比较度量衡单位不同的多组资料的变异度

(2)比较均数相差悬殊的多组资料的变异度

例1

身高:X=166.06cm,S=4.95cm

体重:X=53.72kg,S=4.96kg

身高CV=4.95cm/166.06cmx100%=2.98%

体重CV=4.96kg/53.72kgx100%=9.23%

例2

表2.6某地不同年龄男子身高(cm)的变异程度

年龄组人数均数标准差变异系数觥)

3-3.5岁30096.13.13.2

30-35岁400170.25.00.3

3、CV特点:没有单位,是相对数,便于资料间的比较。

第二节正态分布和参考值范围的估计

一、正态分布

(一)正态分布图形

两头低,中间高,左右对称,呈钟型的单峰曲线。

作U变换后:

U(X-M)/Q

正态分布变成M=0,a=1的标准正态分布。

(二)正态分布特征

1、曲线在横轴上方均数处最高;M

2、以均数为中心,左右对称;

3、正态分布有两个参数:

(1)M:位置参数,确定曲线位置

当。一定时,R越大,曲线越向右移动;口越小,

曲线越向左移动。

(2)a:离散度参数,决定曲线的形态:

当口一定时,。越大,表示数据越分散,曲线越

“胖”;。越小,表示数据越集中,曲线越“瘦:

4、正态分布曲线下的面积有一定的分布规律。

二、正态分布曲线下的面积分布规律。

以曲线下总面积为100%,则有:

1、.±1。的区间占总面积的68.27%,即的区间

内包含的观察值个数占观察值总个数的68.27%。

2、.±1.96◎的区间占总面积的95%,即口±1.96。的区

间内包含的观察值个数占观察值总个数的95%。

3、口±2.58。的区间占总面积的99%,即口±2.58o的区

间内包含的观察值个数占观察值总个数的99%。

正态分布的应用

1.估计频数分布情况

2.估计参考值范围

三、参考值范围的估计

1.参考值范围意义:

参考值范围(亦称为正常值范围)是指正常人的解剖、

生理、生化等各种指标的波动范围。它主要用于划分正常与

异常的界限。

2.正常值范围制定的一般原则

(1)抽取足够数量的正常人作为调查对象

A.“正常人”-不是指任何一点小病都没有的人,而是

指排除影响被研究指标的疾病和因素的人。

如制定SGPT(谷丙转氨酶)正常值范围,正常人的条件

是:

a.无肝、肾、心、脑、肌肉等疾患;

b.近期无服用损肝的药物(如氯丙嗪,异烟肿)

c.测定前未作剧烈运动。

B.正常值范围制定所需的样本例数,一般要求n>100

(2)确定是否分组制定参考值范围

(3)确定取单侧还是双侧正常值范围。

A.白细胞数过高和过低均属于异常,则需同时制定正

常值范围的下限(最小值)和上限(最大值),称双侧正常

值范围。

B.肺活量只过低为异常,只需制定正常值范围的下限;

尿铅只过高为异常,只需制定正常值范围的上限;均称单侧

正常值范围。

(4)选定适当的百分界限。

正常值范围的意思:绝大多数正常人的某项观察值均在

该范围之内。这个绝大多,习惯上指正常人的80%、90%、

95%、99%(最常用是95%)o那么,在正常值范围之外的

正常人有:

单侧:20%、10%、5%、1%

双侧每侧:10%、5%、2.5%0.5%

根据所选定的百分界限,会造成假阳性或/和假阴性。

如SGPT,正常值单侧95%上限为146单位(King法)

按该范围,5%的正常人(>146)被错判为异常,称假阳

性;

而肝功能异常者中,也可能有<146者,按该范围错判为正

常,称假阴性。

显然,上限值提高,假阳性减少,假阴性增多;

上限值降低,假阳性增多,假阴性减少;

(5)选择适当制定方法。

3、正常值范围常用制定方法

(1)正态分布法.

A.适用范围:(近似)正态分布或对数正态分布资料

B.计算公式:

双侧95%X±1.96S

99%X±2.58S

单侧上限95%X+1.645S

99%X+2.326S

下限95%X-1.645S

99%X-2.326S

例114岁女孩身高95%参考值范围是:

T±1.968=143.08±1.96x6.58

=(130.18-155.98)

(2)百分位数法

A.适用范围:

1、偏态分布资料

2、开口资料

B.计算公式:

双侧95%?2,5~P97.5

99%P“5~?99.5

单侧上限95%P95

99%P99

下限95%P5

99%Pi

第三节计量资料的统计推断

一、均数的抽样误差与标准误

一、均数的抽样误差概念

由于总体中存在个体变异,所以由抽样得到的样本均数

与总体均数之间存在差异,这种差异称均数的抽样误差。在

抽样研究中,抽样误差是不可避免的,但可以估计其大小。

二、中心极限定理

1、在正态总体中,随机抽取例数为n的样本,样本均数仅

服从正态分布;

2、在偏态总体中随机抽样,当n足够大时(n>50),现也近

似正态分布;

3、从均数为以,标准差为。的正态或偏态总体中,抽取例

数为n的样本,样本均数7的总体均数仍为口,标准差为

Q-

三、标准误意义及其计算方法

1、意义:说明均数抽样误差大小的指标,用。傣示。

。求大,均数抽样误差越大;反之,越小,均数抽样误

差越小。

2、计算公式:

(7

........(理论值)

S

..........(估计值)

%与S成正比,与而成反比,可以通过增加n减小

%O

3.均数的标准误的用途:

(1)说明均数抽样误差大小,反映均数的可靠性。。[越

大,用样本均数推论总体均数越可靠,反之亦然

(2)估计总体均数的可信区间

(3)用于进行假设检验

二、t分布

(一)t分布含义:

由于京呈正态分布N(〃、ax),则可以将一般正态变量》变

换成标准正态变量〃:

(X-ju)

u=--------

将一般的正态分布变换为标准正态分布N(0、1)。

在实际应用中,°于往往未知,用力代替,则只能对丫

做t变换而不是〃变换:

.=(.一四)

每个元可以算出一个t值,t值的分布称t分布。

(二)t分布特征:

1、以。为中心,左右对称的单峰分布;

2、t分布的形态与自由度v有关:

V越小,t分布曲线峰部越低平而尾部翘得越高;(t分

布与U分布相差较大,即相同的曲线下面积,t值>u值)

V逐渐增大,t分布逼近标准正态分布;

V=oo,t分布=标准正态分布。(同样的曲线下面积,

t值=u值)

自由度不同,t分布曲线形态就不相同,因此t分布是

一簇曲线,则就是说,自由度不同,相同的t值所对应的面

积不同,或说,出现该t值的概率不同。

(三)t值表

对应于每一自由度取值,就有一条t分布曲线,每条曲

线都有自身曲线下t值的分布规律,相同曲线下面积所对应

的t值不同,计算t值较为繁杂。为此,统计学家已制成t

值表,通过查表即获得相应的t值。查表须注意:

1、横标目(左边第一列)为自由度(V),纵标目为概率(P

或。),也就是t界值以外单侧或双侧尾部的面积占总面积的

百分比,表中的数字就是对应于v和a的t界值,用ta,v

表示;

2、t值有正负值,由于t分布是以0为中心的对称分布,

故表中只列正值,查表时,不管t值正负只用绝对值;

3、当v一定时,t值越大,P越小;

4、当P一定时,v越大,t值越小;v=°o时,t=u;

5、当v和t值一定时,双侧P=2倍单侧P。

即双侧ta,v=单侧toc/2,vo

例v=10时:

单侧%.O5,IO=I.812

即P(t<-1.812)=0.05或P(t)1.812)=0.05

双侧0.05,10=2.228

即P(t<-2.228)+P(t>2.228)=0.05

三、总体均数的估计

(一)估计方法:

1、点值估计:用样本均数直接作为总体均数的估计值

2、区间估计

(二)总体均数的区间估计

1、定义:按一定的概率(1-a)确定包含未知总体均

数的可能范围。所确定的范围称为总体均数的可信区间(或

置信区间,CI);1-a称可信度,最常用双侧95%。

2、估计方法:

(1)当Q未知,而且样本例数n较小(n<50)时,按t分布

原理估计:

X±ta,v.sx

⑵当。已知,或。未知但样本例数足够大(n>50)时,按

标准正态分布原理估计:

A.o已知:

(X-uoc.M山1,X+ua.w屈)ua为u界值,

X+uaL

B.o未知但n足够大(n>50):

(X一ua.,X+ua.SIJi)

X±ua.s/&

按标准正态分布原理估计总体均数可信区间时,熟记下列常

用区间:

95%总体均数可信区间:X+1.96〃册

或X±1.96§/近

99%总体均数可信区间:X+2.58〃〃

或X±2.58$/6

例9.10n=20,X=118.4mmHg,s=10.8mmHg,估计其95%

可信区间。

(X-ta,v.sx,X+toc,v.sx)

10.8

to.05,19=2.0935X=V20=2.41

(118.4-2.093x2,41,118.7+2.093x2,41)

(113.3,123.5)mmHg

例n=200,X=3.64mmol/L,s=l.20mmol/L,估计其95%

可信区间。

X±uoc.s/赤

(3.64-1.96x3.7200)

120/V200,64+1>96xL20/

(3.47,3.81)mmol/L

3、可信区间内涵义

以95%总体均数可信区间为例:

有95%的可能所计算出的区间包含了总体均数,即估计正

确的概率为95%,错误5%o

4、可信区间两个要素:

(1)准确度:反映在可信度(-a)的大小。越接近

1,越准确。

如可信度99%比95%准确。

(2)精确度:反映在区间范围宽窄。范围越摘越好。

95%可信区间精度优于99%。

在n确定的情况下,准确度T,精确度

在兼顾准确度和精确度时,一般取95%可信区间。

在可信度确定的情况下,增加样本例数,可提高精确度。

5、可信区间与正常值范围区别:

(1)意义不同:正常值范围是指绝大多数观察值在某个范

围;可信区间是指按一定的可信度估计总体参数(均数)

可能所在的范围;

(2)计算公式不同

可信区间X±ua.Sq(大样本)

正常值范围X±ua.S

前者用标准误,后者用标准差。

(3)用途不同:可信区间用于估计总体均数,参考值范

围用于判断观察对象某项指标正常与否。

四、假设检验的基本思想和步骤

(一)提出问题:

例:根据大量调查的资料,已知健康成年男子的脉搏均

数为72次/分。某医生在山区随机抽取了25名健康成年男

子,得其脉搏均数为74.2次/分,标准差为6.5次/分。问

能否认为该山区成年男子的脉搏数高于一般人?

本研究目的是判断是否(72次/分)。由于存在抽

样误差,来自某一总体的随机样本其样本均数(书与总体均

数(N)往往不等;从同一总体中抽取的两个随机样本的样本

均数也往往不同。因此,在比较一个样本均数与一个总体均

数的差别,或比较两个样本均数的差别时,需要判断这种差

别的性质和意义,造成这种差别有两种可能:

(1)总体均数不等(来自不同总体),有本质差别;

(2)总体均数相等(来自相同的总体),其差别由抽样误差

所致,无本质差别。

要判断属于那种可能,需要通过假设检验来回答。

(二)假设检验原理(基本思想)

要检验两指标的差别是由抽样误差引起的,还是由于总

体均数不同所致,运用反证法。首先建立检验假设,假设样

本来自同一总体,在此假设的基础上计算有关的统计量,根

据统计量的大小来判断假设成立的概率的大小。一般把概率

P<0.05的事件称为小概率事件,小概率事件在一次观察中

可以认为是不会发生的,如与这原则不符,则认为原先的假

设是不正确的,就是说“假设”不能成立,则拒绝这个“假

设”。否则不拒绝原来的“假设”。这就是假设检验的基本

思想。

(三)假设检验的一般步骤

A.建立假设

两种假设

(1)检验假设(无效假设)用H0表示:即假设两总体

均数相等,差别仅仅由于抽样误差所致;

(2)备择假设用H1表示:是与H0对立的假设,当H0

被拒绝,则接受H1。

2、确定单双侧检验(常用双侧检验)

根据研究目的和专业知识还要确定是双侧检验还是

单侧检验。若目的是推断两总体是否不等(如是否R工口0),

不管是口〉门0还是口<门0,都是我们所关心的,则用双侧

检验,此时H0:r=口0,H1:口云R0;若从专业知识

已知不会口<R0(或不会R.0),目的是推断是否以〉R

0(或以<R0),则用单侧检验,此时H0:以=r0,H1:

口〉口0(或以〈口0)。

注意:单侧检验更容易得到有统计学意义的结果,因

此,做单侧检验要通过专业知识来确定,否则,一律做双侧

检验,双侧检验更稳妥。

3.确定检验水准

检验水准用。表示,a是拒绝或不拒绝H0的概率标准,

也就是小概率事件标准,是人为选定的概率值,一般取a=

。05(根据需要也可取0.2、0.15、0.1、0.01等)。

B、选定检验方法和计算统计量

根据研究设计方案、资料类型、样本含量大小及分析

目的选用适当的检验方法,并根据样本资料计算相应的检验

统计量。不同的检验方法要用不同的公式计算现有样本的检

验统计量(t,u,F值)。检验统计量是在H0成立的前提下

计算出来。

C、确定P值

P值是指在H0所规定的总体中作随机抽样,获得等于及大

于(或等于及小于)现有样本统计量的概率。P也可以通俗

地说,P是指H0成立的概率大小。用计算所得的检验统计量

(t、u值)与相应的界值比较,确定P值。

D、作出推断结论

假设检验的结论:

(1)统计学结论(拒绝或接受H0,即有无统计学意义);

(2)专业结论。

2、推断结论方法

(1)当P<a时,结论是:拒绝H0,接受H1(差别有

显著意义或有统计学意义);

(2)当P>a时,结论是:不拒绝H0。(差别无显著意义,

或无统计学意义);

作出上述推断的理由

(1)如果P&a,则按a水准拒绝HO,接受Hl。因

为抽取一个样本,仅代表一次试验,现P4a,为小概率事

件,小概率事件在一次试验中竟然发生,与概率理论的一个

基本原则:小概率事件在一次试验中不会发生产生矛盾,因

此拒绝H0。

(2)如果P>a,则按a水准不拒绝HO,因为概率较大,

没有理由拒绝H0,认为其成立。所以,研究者只是在概率

上从H0与H1两者中选择一个较为合理的判断。

由此可见,假设检验所作出的结论是具有概率性质的,

不是绝对的肯定或否定。不论拒绝或不拒绝H0都可能发生

错误。

拒绝实际上是成立的H0,这类“弃真”的错误称I型错

误或第一类错误。

不拒绝(接受)实际上是不成立的H0,这类“存伪”的

错误称II型错误或第二类错误。

即拒绝H0,犯I型错误;接受H1,犯II型错误。

两类错误的关系

第一类错误的概率为a,第二类错误的概率为B

a越大,。越小a越小,。越大。

第四节t检验和u检验

一、t检验和U检验用途

1、样本均数与总体均数的比较;

2、配对计量资料的比较;

3、两样本均数的比较;

二、t检验和u检验应用条件

1、t检验应用条件:

(1)样本来自正态总体;

(2)两小样本均数比较,还要求样本的总体方差相等。

2、u检验应用条件:

样本例数n较大(n>100),或n虽小而总体标准差已知

(少见)。

三、单样本t检验(样本均数与总体均数比较t检验)

1、目的:检验样本均数》所代表的未知总体均数〃是否

等于以已知的总体均数

已知的总体均数〃。指:

(1)理论值;

(2)标准值;

(3)经大量调查得到的稳定值。

2、检验公式

无一A)

t=v=n-l

四、配对t检验

1、配对设计含义:将受试对象按一定条件配成对子,再

随机分配每对的两个受试对象到不同的处理组。

2、配对设计形式

①同对的两个受试对象分别给予两种处理;

②同一受试对象分别给予两种处理(如同一个样品用

两种方法检测,或同一受试对象不同部位某指标的值)

③同一受试对象处理前后比较

3、检验公式:v=n-l

五、两样本均数比较

(一)两大样本均数的u检验

1、适用条件

两个样本含量均足够大(nl>50和n2>50)

2、检验公式:

(二)两小样本均数的比较一t检验

1、应用条件

(1)样本来自正态总体;

(2)两样本所来自的总体方差相等。

2、检验公式

一(X7)2/玉—(X%)2及2(1+L)

\%+%―24%

—x

/=।X]}2o

/(%-l)s;+(%一l)s;(l।1)

或Vn}+n2-2/n2

六、假设检验应注意的问题

(一)要有严密的抽样研究设计,考虑到被比较的样本的可

比性,这是假设检验的前提。

(二)选用的假设检验方法应符合其应用条件。

(三)当所比较的差异无实际意义时,不必进行假设检验。

(四)正确理解差别有无显著性的统计意义。

(五)结论不能绝对化。

是否拒绝H0,取决于:

1、被研究的事物有无本质的差异

2、抽样误差大小:

(1)个体差异大小

(2)样本例数多少

3、检验水准a的高低

(六)报告结论时最好写出较确切的P值,并且单侧检验

需作注明(习惯上采用双侧检验不需作注明)

第五节方差分析(F检验XanalysisofvarianceANOVA)

一、方差分析的用途及应用条件

(一)用途

1、检验两个或多个样本均数间的差异有无统计学意义;

2、回归方程的线性假设检验;

3、检验两个或多个因素间有无交互作用。

(二)应用条件

1、各个样本是相互独立的随机样本;

2、各个样本来自正态总体;

3、各个处理组(样本)的总体方差方差相等,即方差齐。

二、方差分析的基本思想

(一)方差分析中变异的分解

此资料的变异,可以分出三种:

1、总变异:表现为所有数据大小不等,用总的离均差平

方和表示,记为SS总。

k/_

SS总=EE(X)-x)2

H(i代表第i个组,j代表第j

个观察值)

SS总的大小还与总例数N有关,确切讲是与总的自由度V总有

V

关,^=N-1O

2、组间变异:组间变异表现为各组均数京,大小不等,

描述其大小指标

(1)用各组均数与总均数X的离均差平方和表示,

记为SS组问

SS组间的大小与处理因素的作用、随机误差(测量误差和

个体差异)和组间自由度有关。

SS组间:举«厂”)/组间=人一1;

(2)用SS组间除于组间自由度表示,称组间均方

SS组间

MS组间=

匕且间

组间均方反映处理因素和随机误差的作用。

3、组内变异:组内变异表现为各组内部各个观察值大小

不等。

描述其大小指标:

(1)用各组内部每个观察值X,与组均数元的离均差平

方和表示,记为SS组内。SS组内的大小与随机误差(测量

误差和个体差异)和组内自由度有关。

k_

ss组内

=漆产厂匕)啕内=N—

(2)用SS组内除于组内自由度表示,称组内均方

“q_SS组内

以3组内_TT-

V组内

组内均方只反映观察值的随机误差(个体差异及随机测

量误差)。

三种变异的关系:SS总=SS组内+SS组间,

V总=V组内+V组间

O

(二)方差分析思想

1、如果两个或多个样本来自同一个总体,或者处理因素

的效应一样(没有差异),则组间和组内的变异相等,即:

MS组间=MS组内

或两者相差不大,它们的比值用F表示:

p-MS组间

MS组内

则F=l,或F与1相差不大。

2、若两个样本或多个样本来自不同总体,或者处理因素

的效应不一样,则组间变异大于组内变异,即:

MS组间>MS组内

则F值明显大于L要大到多大程度才有统计学意义?

按以组间和叱组内查F界值表,由F值确定P值,按P值大小作

出推断。

方差分析基本思想:在方差分析时,根据资料的设计类

型不同,将总的离均差平方和及自由度分解为两个或多个部

分,除随机误差外,其余部分的变异反映处理因素的作用,

通过比较不同来源的均方,借助F分布原理作出统计推断,

从而了解处理因素对观测指标有无影响。

三、单因素方差分析

(一)计算方法

单因素方差分析的计算公式

变异来源SSvMSF

n:

k

-c*

U

组间»=1ik-1〜间

MS组问

MS组内

ss组内

组内(误差)SS总-SS组间N-k喉内

kn;

ZEX;-c*

总I=V=1N-l

k〃i.

(EZX/

i=U=l

N

四、分析步骤

1、建立假设和确定检验水准;

HO:4=〃2=〃3=〃4

Hl:〃尸〃2或不全相等

a=0.05

2、计算检验统计量F值

表9-15例9-16方差分析结果

变异来源SSVMSFP

组间2.027630.675910.24<0.01

组内0.791812

总2.819415

3、确定P值和推断结论

以组间自由度啕间为匕,以组内自由度”组内为匕,查附

表3,F界值表:工。5,3,12=3.49,由于方>工05.3」2,故p<0.05;

按a=0.05,拒绝HO,接受Hl,可以认为四组均数不等或不

全相等。

注意:以上仅是总的结论,尚需对四个样本均数进行两

两比较(见后)。

五、多个样本均数的两两比较F检验

多个样本均数比较经F检验后,若得出有统计学意义的

结论后,要进一步推断哪些组之间有差别,哪些组之间没有

差别,还是所有各组之间都有差别,要解决这些问题,就要

进一步做均数间的两两比较了。

多个样本均数间的两两比较又称多重比较,由于涉及的

对比组数大于2,就不能应用前面介绍的t检验,只能使用

下面介绍的方法。若仍用前述前述的t检验方法,对每两

个对比组作比较,会使犯第一类错误(拒绝了实际上成立的

H0所犯的错误)的概率a增大,即可能把本来无差别的两个

总体均数判为有差别。

(一)检验统计量q的计算公式为:

q=(幻-羽)/产浮d+L

/V2nAnB

式中XA,XB为两个对比组的样本均数。MS误差为方

差分析中算得的组内均方),%和分别为两对比组的样

本例数。

(二)q检验的方法步骤

对例9-16资料作两两比较。

1、建立假设

H0:任两对比组的总体均数相等,即M4二〃B

Hl:任两对比组的总体均数不等,"A手NB

a-0.05

2、选择检验方法,计算统计量q

将四个样本均数从大到小顺序排列,并编上组次:

组次1234

均数3.32003.09752.68502.4025

组别DCBA

列出两两比较计算表,见表9-17

表9-17四个样本均数两两比较的q检验

对比组两均数之差标准误q值组数q界值P

S葭』&

A与BXA-XB0.050.01

(1)(2)(3)

⑷=(2)/(3)⑸(6)(7)(8)

1与40.91750.12857.14044.20

5.50<0.01

1与30.63500.12854.94233.77

5.05<0.05

1与20.22250.12851.73223.08

4.32>0.05

2与40.69500.12855.40933.77

5.05<0.01

2与30.41250.12853.21023.08

4.32<0.05

3与40.28250.12852.19823.08

4.32>0.05

3、确定P值,判断结果

第三章分类资料的统计分析

第一节分类资料的描述

一、相对数的意义和定义

对于分类资料常采用相对数进行描述。

收集到的分类资料,表现为绝对数,绝对数说明事物发生的

实际水平,是进行统计分析的基础,但不便于事物进行深入

地分析比较。

相对数:是两个有联系指标之比,说明事物发生的相对水平,

便于对分类资料进行分析和比较。

二、常用的相对数

1、比(Ratio)亦称相对比,是A、B两个有关指标之

比,说明A是B的多少倍或百分之几。

比(Ratio)=A/B(或x100%)

A与B的性质可以相同,也可以不同,可以是绝对数也

可以是相对数或平均数。

2、构成比(Proportion)又称构成指标,说明一事物

内部各个组成部分所占的比重或分布,常以百分数表示,又

称百分比。

杓成出=某一组成部分的观察单位数[cog

一同一事物各组成部分的观察单位总数“°

构成比两个特点:

(1)一组构成比之和等于100%或1;

(2)某部分构成增加或减少,则其它部分构成就相应减少

或增加。

3、率(Rate)又称频率指标,是指在一定时间内发生

某现象的观察单位数与可能发生该现象的总观察单位数之

比,常以百分率(%)、千分率(%。)、万分率(1/万)、十万

分率(1/10万)等表示,它说明某现象发生的频率或强度。

女发生某现象的观察单位数/

可能发生该现象的观察单位总数

K为比例基数,可以是百分率(%)、千分率(%。)、万分率(1/

万)或十万分率3/10万),可根据习惯或使计算出的率保

持一、二位整数。

人口出生率、死亡率、自然增长率、婴儿死亡率等采用千

分率,某病死亡率采用十万分率。

三、应用相对数时注意的问题

1、计算相对数的分母不宜过小

分母过小则计算所得的相对数不稳定,不可靠。如少于

30例时,以绝对数表示较好。

2、分析时不能以比代率

3、对观察单位数不等的几个率,不能直接相加求平均率;

4、资料的对比应注意可比性;

5、率或构成比的比较要遵循随机抽样的原则,要做假设检

验。

四、率的标准化法

(一)概念

率的标准化:是指在比较两个或多个总率时,采用一

个共同的内部构成标准,将两个或多个样本不同的内部构成

调整为相同的内部构成,以消除因内部构成不同对总率产生

的影响,使算得的标准化率具有可比性。

采用标准化方法计算得到的率简称标化率,又调整率。

基本思想:采用统一的标准内部构成(年龄、性别),在

相同的内部构成条件下,计算预期的发生率(死亡率);

目的:消除因内部构成不同对总率产生的影响,使标化

率具有可比性。

(二)标准化率计算步骤

1、选择计算方法:直接法和间接法。

(1)若已知被标化组各小组的率,即Pi,采用直接法;

(2)若已知被标化组各小组的人数,即a,以及总率,采用

间接法。

2、选定标准

标准选择原则:

选择有代表性的、较稳定的、数量较大的人群,如全世界的、

全国的、全省的、本地区的人群数;

选择相互比较的人群合并做标准;

3、选择相互比较的人群某一组做标准。

3、计算预期数及预期率,即标化率。

(1)直接法:按公式10.4或10.5计算;

(2)间接法:按公式10.6。

(三)应用标准化率注意事项

1、应用直接法计算标准化率时,由于所选定的标准人

口不同,算得的标准化率也不同,因此,比较几个标准化率

时,应采用同一标准人口;

2、当各年龄组的率出现明显交叉时,宜直接比较各年

龄组的发生率,而不宜用标准化法;

3、两样本标准化率的比较应作假设检验;

第二节分类资料统计推断

一、率的抽样误差与标准误

1、率的抽样误差含义

在抽烟研究中,样本率与总体率之间存在的差异称为率

的抽样误差。

2、描述率的抽样误差大小的指标-率的标准误

计算公式

_卜(1一.)

*一』〃(理论值)

s=

°V〃(估计值)

二、总体率的估计

1、估计方法

(1)点估计

(2)区间估计

2、区间估计方法

(1)正态近似法

A.适用条件:np>5且n(1-p)>5

B.常用两个区间的估计公式

总体率的95%的可信区间:p±1.96Sp

总体率的99%的可信区间:p±2.58Sp

⑵查表法

A.适用条件:n<50,特别p接近于。或1

B.查表方法:以样本含量n和阳性数x查统计学专著的附

三、总体率的u检验

(一)样本率与总体率的比较

1、适用条件:np>5且n(l-p)>5

2、检验公式

\p-7l\\

U——।------------

*7T(1-7T)

3、检验步骤

(1)建立假设HO:71=7T0

Hl:兀¥兀0

a=0.05

(2)计算u值7T=0.11,n=598,p=0.14

\p-7l\\p-71)

U=---------=-r

%k(l-7T)

Vn=2.34

⑶确定P值

因u=2.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论