《卫生统计学》网上教案_第1页
《卫生统计学》网上教案_第2页
《卫生统计学》网上教案_第3页
《卫生统计学》网上教案_第4页
《卫生统计学》网上教案_第5页
已阅读5页,还剩137页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《卫生统计学》网上教案..................................................................2

第一章绪论.....................................................................2

第一节卫生统计学的定义和内容.................................................3

第二节统计工作的步骤.........................................................4

第三节统计学中的几个基本概念.................................................5

第四节学习卫生统计学应注意的问题.............................................8

第二章定量资料的统计描述.........................................................8

第一节数值变量资料的频数表...................................................8

第二节集中趋势的统计描述指标................................................10

第三节离散程度的统计描述指标................................................12

第三章正态分布及其应用...........................................................14

第一节正态分布的概念和特征..................................................14

第二节正态分布的应用........................................................16

第四章总体均数的估计和假设检验..................................................18

第一节抽样研究与抽样误差....................................................18

第二节匕分布.................................................................21

第三节总体均数的估计........................................................23

第四节假设检验的基本步骤....................................................24

第五节样本与总体比较的假设检验..............................................26

第六节配对设计(paireddesign)资料的假设检验................................27

第七节两样本比较的假设检验..................................................28

第八节第一类错误与第二类错误................................................29

第五章方差分析...................................................................30

第一节方差分析的基本思想.....................................................31

第二节完全随机设计的单因素方差分析(one-wayANOVA)..................................................34

第三节随机区组设计的两因素方差分析(two-wayANOVA)...............................................36

第四节多个样本均数间的多重比较...............................................39

第五节多个样本的方差齐性检验.................................................43

第六节变量变换................................................................44

第六章定性资料的统计描述........................................................45

第七章二项分布与Poisson分布及其应用............................................48

第一节二项分布的概念与特征..................................................48

第二节二项分布的应用........................................................51

第三节Poisson分布的概念与特征...............................................52

第四节Poisson分布的应用......................................................55

第八章三检验..................................................................58

第一节四格表资料的才检验....................................................58

第二节配对四格表资料的%2检验................................................60

第三节四格表资料的Fisher确切概率法.........................................62

第四节行x列表资料的公检验..................................................64

第五节多个样本率比较的%2分割法..............................................65

第六节频数分布拟合优度的%2检验..............................................69

第九章秩和检验...................................................................70

第一节配对设计和单样本资料的符号秩和检验...................................71

第二节完全随机化设计两独立样本的秩和检验..................................73

第三节完全随机化设计多组独立样本的秩和检验................................74

第四节随机化区组设计资料的秩和检验..........................................75

第五节多个样本间的多重比较...................................................77

第六节小结..................................................................80

第十章直线回归与相关............................................................81

第一节直线回归...............................................................81

第二节直线相关分析..........................................................90

第三节等级相关..............................................................94

第四节曲线拟合..............................................................96

第十二章统计表和统计图..........................................................99

第十三章实验设计................................................................105

第一节实验设计的特点及分类.................................................106

第二节实验设计的基本要素...................................................106

第三节实验设计的基本原则...................................................109

第四节常用的实验设计方法...................................................123

第十四章调查设计...............................................................131

第一节调查研究的特点.......................................................131

第二节调查设计的基本原则与内容.............................................132

第三节常用的抽样方法.......................................................134

第四节调查的质量控制.......................................................134

第十五章医学人口统计学与疾病统计常用指标.......................................135

第一节医学人口统计常用指标.................................................135

第二节疾病统计常用指标......................................................140

《卫生统计学》网上教案

第一章绪论

学时分配:2学时

掌握内容:

1、卫生统计学的定义

2、统计工作的步骤

3、统计学中的几个基本概念

4、学习卫生统计学应注意的问题

了解内容:卫生统计学的内容

第一节卫生统计学的定义和内容

1、卫生统计学的定义

统计学(statistics)是研究数据的收集、整理和分析的一门科学,帮助人们分析所

占有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。

卫生统计学(healthstatistics)是应用数统计学的原理与方法研究居民健康状况以及

卫生服务领域中数据的收集、整理和分析的一门科学。

Webster国际大辞典(第三版)对统计学的定义是“asciencedealingwiththecollection,

analysis,interpretationandpresentationofnumericaldata"。LastJM主编的一本流行病学

辞典对统计学的定义是"thescienceandartofdealingwithvariationindatathrough

collection,classificationandanalysisinsuchawayastoobtainreliableresults^^。由此看出:

统计学是处理资料中变异性的科学和艺术,是在收集、归类、分析和解释大量数据的过

程中获取可靠结果的一门学科。这里强调了“过程”,但在实际工作中,许多人往往是忽

略了设计、收集和归类(整理),到了分析数据时才想到统计学,此时难免发生“悔之晚

矣”的憾事。作为统计学的应用者应充分认识到这一点。

2、卫生统计学的内容:

1)健康统计:医学人口统计、疾病统计和生长发育统计等;

2)卫生服务统计:包括卫生资源利用、医疗卫生服务的需求、医疗保健体制改革

等方面的统计学问题。

本教材的主要内容为:

1)卫生统计学的基本原理和方法:包括统计描述(定量资料和分类资料的描述性

指标以及常用统计图表)、常见的理论分布及其应用(正态分布、二项分布与Poisson分

布)、总体参数的估计(分总体均数、总体率和总体平均数)、假设检验C检验、〃检验、

方差分析、「检验、秩和检验等)、回归与相关、多元线性回归与logistic回归、实验设

计和调查设计(第2〜第14章);

2)健康统计:医学人口与疾病统计中常用的指标(第15章)、寿命表(第16章)、

生存率分析(第17章);

3)常用的综合评价方法(第18章)。

第二节统计工作的步骤

统计学对统计工作的全过程起指导作用,任何统计工作和统计研究的全过程都可分

为以下四个步骤:

1、设计(design):在进行统计工作和研究工作之前必须有一个周密的设计。设计

是在广泛查阅文献、全面了解现状、充分征询意见的基础上,对将要进行的研究工作所

做的全面设想。其内容包括:明确研究目的和研究假说,确定观察对象、观察单位、样

本含量和抽样方法,拟定研究方案、预期分析指标、误差控制措施、进度与费用等。设

计是整个研究工作中最关键的一环,也是指导以后工作的依据(详见第13、14章)。

2、收集资料(collection):遵循统计学原理采取必要措施得到准确可靠的原始资料。

及时、准确、完整是收集统计资料的基本原则。卫生工作中的统计资料主要来自以下三

个方面:①统计报表:是由国家统一设计,有关医疗卫生机构定期逐级上报,提供居民

健康状况和医疗卫生机构工作的主要数据,是制定卫生工作计划与措施、检查与总结工

作的依据。如法定传染病报表,职业病报表,医院工作报表等。②经常性工作记录:如

卫生监测记录、健康检查记录等。③专题调查或实验。

3、整理资料(sortingdata):收集来的资料在整理之前称为原始资料,原始资料通

常是一堆杂乱无章的数据。整理资料的目的就是通过科学的分组和归纳,使原始资料系

统化、条理化,便于进一步计算统计指标和分析。其过程是:首先对原始资料进行准确

性审查(逻辑审查与技术审查)和完整性审查;再拟定整理表,按照“同质者合并,非

同质者分开”的原则对资料进行质量分组,并在同质基础上根据数值大小进行数量分组;

最后汇总归纳。

4、分析资料(analysisofdata):其目的是计算有关指标,反映数据的综合特征,阐明

事物的内在联系和规律。统计分析包括统计描述(descriptivestatistics)和统计推断

(inferentialstatistics)<,前者是用统计指标与统计图(表)等方法对样本资料的数量特

征及其分布规律进行描述(详见第2、6、12章);后者是指如何抽样,以及如何用样本

信息推断总体特征(详见第4、5、7、8、9、10、11、17、18章)。进行资料分析时,

需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。

统计工作的四个步骤紧密相连、不可分割,任何一步的缺陷,都将影响整个研究结

果。

第三节统计学中的几个基本概念

1>同质(homogeneity)与变异(variation)

严格地讲,同质是指被研究指标的影响因素完全相同。但在医学研究中,有些影响

因素往往是难以控制的(如遗传、营养等),甚至是未知的。所以,在统计学中常把同

质理解为对研究指标影响较大的、可以控制的主要因素尽可能相同。例如研究儿童的身

高时,要求性别、年龄、民族、地区等影响身高较大的、易控制的因素要相同,而不易

控制的遗传、营养等影响因素可以忽略。

同质基础上的个体差异称为变异。如同性别、同年龄、同民族、同地区的健康儿童

的身高、体重不尽相同。事实上,客观世界充满了变异,生物医学领域更是如此。哪里

有变异,哪里就需要统计学。若所研究的同质群体中所有个体一模一样,只需观察任一

个体即可,无须进行统计研究。

2、总体(population)与样本(sample)

任何统计研究都必须首先确定观察单位(observedunit),亦称个体(individual)。

观察单位是统计研究中最基本的单位,可以是一个人、一个家庭、一个地区、一个样

品、一个采样点等。

总体是根据研究目的确定的同质观察单位的全体,或者说,是同质的所有观察单位

某种观察值(变量值)的集合。例如欲研究山东省2002年7岁健康男孩的身高,那么,

观察对象是山东省2002年的7岁健康男孩,观察单位是每个7岁健康男孩,变量是身

高,变量值(观察值)是身高测量值,则山东省2002年全体7岁健康男孩的身高值构

成一个总体。它的同质基础是同地区、同年份、同性别、同为健康儿童。总体又分为有

限总体(finitepopulation)和无限总体(infinitepopulation)0有限总体是指在某特定的

时间与空间范围内,同质研究对象的所有观察单位的某变量值的个数为有限个,如上例;

无限总体是抽象的,无时间和空间的限制,观察单位数是无限的,如研究碘盐对缺碘性

甲状腺病的防治效果,该总体的同质基础是缺碘性甲状腺病患者,同用碘盐防治;该总

体应包括已使用和设想使用碘盐防治的所有缺碘性甲状腺病患者的防治效果,没有时间

和空间范围的限制,因而观察单位数无限,该总体为无限总体。

在实际工作中,所要研究的总体无论是有限的还是无限的,通常都是采用抽样研究。

样本是按照随机化原则,从总体中抽取的有代表性的部分观察单位的变量值的集合。如

从上例的有限总体(山东省2002年7岁健康男孩)中,按照随机化原则抽取100名7

岁健康男孩,他们的身高值即为样本。从总体中抽取样本的过程为抽样,抽样方法有多

种,详见第14章。抽样研究的目的是用样本信息推断总体特征。

统计学好比是总体与样本间的桥梁,能帮助人们设计与实施如何从总体中科学地抽

取样本,使样本中的观察单位数(亦称样本含量,samplesize)恰当,信息丰富,代表

性好;能帮助人们挖掘样本中的信息,推断总体的规律性。

3、资料(data)与变量(variable)及其分类

总体确定之后,研究者应对每个观察单位的某项特征进行测量或观察,特征称为变

量。如“身高”、“体重”、“性别”、“血型”、“疗效”等。变量的测定值或观察值称为变量

值(valueofvariable)或观察值(observedvalue),亦称为资料。

按变量的值是定量的还是定性的,可将变量分为以下类型,变量的类型不同,其分

布规律亦不同,对它们采用的统计分析方法也不同。在处理资料之前,首先要分清变量

类型。

1)数值变量(numericalvariable):其变量值是定量的,表现为数值大小,可经测

量取得数值,多有度量衡单位。如身高(cm)、体重(kg)、血压(mmHgkPa)、脉搏

(次/min)和白细胞计数(X1()9/L)等。这种由数值变量的测量值构成的资料称为数值

变量资料•,亦称为定量资料(quantitativedata)。大多数的数值变量为连续型变量,如身

高、体重、血压等;而有的数值变量的测定值只能是正整数,如脉搏、白细胞计数等,

在医学统计学中把它们也视为连续型变量。

2)分类变量(catagoricalvariable):其变量值是定性的,表现为互不相容的类别或

属性。分类变量可分为无序变量和有序变量两类:

(1)无序分类变量(unorderedcategoricalvariable)是指所分类别或属性之间无程

度和顺序的差别。,它又可分为①二项分类,如性别(男、女),药物反应(阴性和阳性)

等;②多项分类,如血型(0、A、B、AB),职业(工、农、商、学、兵)等。对于无

序分类变量的分析,应先按类别分组,清点各组的观察单位数,编制分类变量的频数表,

所得资料为无序分类资料,亦称计数资料。

(2)有序分类变量(ordinalcategoricalvariable)各类别之间有程度的差别。如尿

糖化验结果按一、土、+、++、+++分类;疗效按治愈、显效、好转、无效分类。

对于有序分类变量,应先按等级顺序分组,清点各组的观察单位个数,编制有序变量(各

等级)的频数表,所得资料称为等级资料。

变量类型不是一成不变的,根据研究目的的需要,各类变量之间可以进行转化。例

如血红蛋白量(g/L)原属数值变量,若按血红蛋白正常与偏低分为两类时,可按二项

分类资料分析;若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等

级时,可按等级资料分析。有时亦可将分类资料数量化,如可将病人的恶心反应以0、

1、2、3表示,则可按数值变量资料(定量资料)分析。

4、随机事件(randomevent)与概率(probability)

医学研究的现象,大多数是随机现象,对随机现象进行实验或观察称为随机试验。

随机试验的各种可能结果的集合称为随机事件,亦称偶然事件,简称事件。例如用相同

治疗方案治疗一批某病的患者,治疗转归可能为治愈、好转、无效、死亡四种结果,对

于一个刚入院的患者,治疗后究竟发生哪一种结果是不确定的,可能发生的每一种结果

都是一个随机事件。

对于随机事件来说,在一次随机试验中,某个随机事件可能发生也可能不发生,但

在一定数量的重复试验后,该随机事件的发生情况是有规律可循的。概率是描述随机事

件发生的可能性大小的数值,常用P表示。例如,投掷一枚均匀的硬币,随机事件A

表示“正面向上”,用n表示投掷次数;m表示随机事件A发生的次数;f表示随机事

件A发生的频率(f=m/n),0<m<n,0<^lo用不同的投掷次数n作随机试验,结果如

下:m/n=8/l0=0.8,7/20=0.35,,249/500=0.498,501/1000=0.501,10001/2000=0.5000,

由此看出当投掷次数n足够大时户m/n-0.5,称尸(A)=0.5,或简写为:P=0.5。当n足

够大时,可以用f估计P。

随机事件概率的大小在0与1之间,即0<P<l,常用小数或百分数表示。P越接近

1,表示某事件发生的可能性越大;尸越接近0,表示某事件发生的可能性越小。尸=1

表示事件必然发生,P=0表示事件不可能发生,它们是确定性的,不是随机事件,但

可以把它们看成随机事件的特例。

若随机事件A的概率尸(A)ga,习惯上,当方0.05时,就称A为小概率事件。其统

计学意义是小概率事件在一次随机试验中不可能发生。例如,某都市大街上疾驶的汽车

撞伤行人的事件的发生概率为1/万,但大街上仍有行人,这是因为“被撞”事件是小概

率事件,所以行人认为自己上街这“一次试验”中不会发生“被撞”事件。“小概率”的标准

a是人为规定的,对于可能引起严重后果的事件,如术中大出血等,可规定好0.01,甚

至更小。

第四节学习卫生统计学应注意的问题

卫生统计学是从事公共卫生领域研究和工作的必要基础。预防医学专业的学生在学

习本课程时应注意:

1、医学生在学习过程中必须运用逻辑思维方法掌握卫生统计学的基本知识、基本

技能、基本概念和基本方法。切忌死记硬背、生搬硬套,应通过实例提高综合分析问题

的能力。

2、掌握调查设计和实验设计的原则,培养收集、整理、分析统计资料的系统工作

能力。在统计工作中要以实事求是、严谨的科学态度对待原始资料,反对伪造和篡改统

计数字。通过学习这门课程,逐步树立起实事求是、严谨的工作作风。

3、在学习统计指标与分析方法时,应重点掌握统计公式的意义、用途和应用条件,

不必深究其数学推导。最终掌握正确的分析思路:进行资料分析时,需根据研究目的、

设计类型和资料类型选择恰当的描述性指标和统计推断方法。

(王洁贞)

第二章定量资料的统计描述

学时分配:4学时

掌握内容:

1、频数表的编制

2、集中趋势的描述

3、离散趋势的描述

第一节数值变量资料的频数表

统计描述是用统计指标、统计图或统计表描述资料的分布规律及其数量特征。

频数表是统计描述中经常使用的基本工具之一。

1.频数表(frequencytable)的编制

在观察值个数较多时,为了解一组同质观察值的分布规律和便于指标的计算,可编

制频数分布表,简称频数表。

(1)求全距(range):找出观察值中的最大值与最小值,其差值即为全距(或极差),

用R表示。

(2)确定组段和组距:根据样本含量的大小确定“组段”数,一般设8-15个组段,

观察单位较少时组段数可相对少些,观察单位较多时组段数可相对多些,常用全距的

1/10取整做组距,以便于汇总和计算。第一组段应包括全部观察值中的最小值,最末组

段应包括全部观察值中的最大值,并且同时写出其下限与上限。各组段的起点和终点分

别称为下限和上限,某组段包含下限,但不包含上限,其组中值为该组段的(下限+上

限)/2。相邻两组段的下限之差称为组距。

(3)列表划记:确定组段界限,列成表2.1的形式,采用计算机或用划记法将原始

数据汇总,得出各组段的观察例数,即频数,表中的第(1)、(3)栏即所需的频数表。

表2.1某地110名18岁男大学生身高(cm)均数的频数表

身高组段划记频数,f组中值,X

(1)(2)(3)(4)

108-—1109

110-T3111

112-正IF9113

114-正F9115

116-正正正15117

118-正正正下18119

120-正正正正一21121

122〜正正F14123

124-正正10125

126~iF4127

128-T3129

130〜T2131

132T34—1133

合计110

2.频数分布的特征

由频数表可看出频数分布的两个重要特征:集中趋势(centraltendency)和离散程

度(dispersion)。身高有高有矮,但多数人身高集中在中间部分组段,以中等身高居多,

此为集中趋势;由中等身高到较矮或较高的频数分布逐渐减少,反映了离散程度。对于

数值变量资料•,可从集中趋势和离散程度两个侧面去分析其规律性。

3.频数分布的类型

频数分布有对称分布和偏态分布之分。对称分布是指多数频数集中在中央位置,两

端的频数分布大致对称。偏态分布是指频数分布不对称,集中位置偏向一侧,若集中位

置偏向数值小的i侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布,

如冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布。临床上正偏态分布

资料较多见。不同的分布类型应选用不同的统计分析方法。

4.频数表的用途

可以揭示资料分布类型和分布特征,以便选取适当的统计方法;便于进一步计算指

标和统计处理;便于发现某些特大或特小的可疑值。

第二节集中趋势的统计描述指标

描述一组同质观察值的平均水平或中心位置的常用指标有均数、儿何均数、中位数

等。

1.均数(mean,average):是算术均数(arithmeticmean)的简称。常用X表示样

本均数,〃表示总体均数。均数用于反映一组同质观察值的平均水平,适用于正态或近

似正态分布的数值变量资料。其计算方法有:

(1)直接法:用于样本含量较少时,其公式为:

下二江=X+X?+…X”(2.1)

nn

式中,希腊字母E(读作sigma)表示求和;X,为,…,Xn为各观察值;〃为样本含

量,即观察值的个数。

(2)加权法(weightingmethod):用于频数表资料或样本中相同观察值较多时,其

公式为:

又_//+人工+...+,3=

(2.2)

'/+力+…+£,Z/

式中,X,E,…,及与力,力,…,人分别为频数表资料中各组段的组中值和相应

组段的频数(或相同观察值与其对应的频数)。

2.几何均数(geometricmean)用G表示,适用于①对数正态分布,即数据经过对

数变换后呈正态分布的资料;②等比级数资料,即观察值之间呈倍数或近似倍数变化的

资料如医学实践中的抗体滴度、平均效价等。其计算方法有

(1)直接法:

G=NXH2...X“

G=ig-iJgX]+吆/+…+lgX“)=-i(Z:X)

或lg(2.3)

nn

(2)加权法:

G-./JgM+/21gX2+…+/lgX*

=lglgT(W/:X)(2.4)

./;+,/;+••••+工J

注意:计算儿何均数时观察值中不能有0,因0不能取对数;-组观察值中不能同

时有正或负值。

3.中位数(median)用"表示。中位数是一组由小到大按顺序排列的观察值中

位次居中的数值。中位数可用于描述①非正态分布资料(对数正态分布除外);②频数

分布的一端或两端无确切数据的资料③总体分布不清楚的资料。在全部观察中,小于和

大于中位数的观察值个数相等。

(1)直接法:将观察值由小到大排列,按式(2.6)或式(2.7)计算。

〃为奇数,M=X(n+l)/2(1.5)

〃为偶数,+X”)(1.6)

2ir1

式中下标紧下、为有序数列的位次。X苧、“、为相应位次的

观察值。

(2)频数表法:用于频数表资料。

计算步骤是:①计算]的大小,并按所分组段由小到大计算累计频数和累计频率,

如表2.1第(3)、(4)栏;②确定〃所在组段。累计频数中大于的最小数值所在的组段

即为〃所在的组段;或累计频率中大于50%的最小频率所在的组段即为/所在的组段。

③按式(2.7)求中位数”。

屈=2+3q-”)(2.7)

式中:L、八£”分别为“所在组段的下限、组距和频数;E九为小于L的各组

段的累计频数。

例1.1由表2.1计算中位数

表2.1199名食物中毒患者潜伏期的〃和Px的计算

潜伏明(小时)W累计频数X/累计频率(%)

泊1A""(2)(3)(4)=(3)/〃

(1)

0〜303015.1

12〜7110150.8

24〜4915075.4

36〜2817889.4

48〜1419296.5

60〜619899.5

72〜841199100.0

合计199

本例”=199,根据表2.3第(2)栏数据,自上而下计算累计频数及累计频率,见

第(3)、(4)栏。1=99.5,由第(3)栏知,101是累计频数中大于99.5的最小值,

或由第(4)栏知50.8%是大于50%的最小的累计频率,故”在“12〜”组段内,将

相应的A、八%o、代入(2.8),求得M。

止尸50=£+-!-(〃.50%-2人)=12+12/71(199x50%-30)=23.75(小时)

人0

4.百分位数(percentile)用?表示。一个百分位数Px将一组观察值分为两部

分,理论上有X%的观察值比它小,有(100-X)%的观察值比它大,是一种位置指

标。中位数是一个特定的百分位数,即止P50。百分位数的计算步骤与中位数类似,

首先要确定Px所在的组段。先计算〃“%,累计频数中大于〃•*%的最小值所在的

组段就是Px所在组段。计算见公式(2.8)。

人=£+/(〃.X%-“)(2.8)

JX

式中:L、八△分别为外所在组段的下限、组距和频数;为小于L的各组段的

累计频数。

百分位数用于描述一组数据某一百分位位置的水平,多个百分位数的结合应用

时,可描述一组观察值的分布特征;百分位数可用于确定非正态分布资料的医学参

考值范围。应用百分位数,样本含量要足够大,否则不宜取靠近两端的百分位数。

第三节离散程度的统计描述指标

描述数值变量资料频数分布的另一主要特征是离散程度,用变异指标表示。只有把

集中指标和离散指标结合起来才能全面反映资料的分布特征。常用变异指标有全距、四

分位数间距、方差、标准差、变异系数。

1.全距(range,简记为R):亦称极差,是一组同质观察值中最大值与最小值之差。

它反映了个体差异的范围,全距大,说明变异度大;反之,全距小,说明变异度小。用

全距描述定量资料的变异度大小,虽然计算简单,但不足之处有:①只考虑最大值与最

小值之差异,不能反映组内其它观察值的变异度;②样本含量越大,抽到较大或较小观

察值的可能性越大,则全距可能越大。因此样本含量相差悬殊时不宜用全距比较。

2.四分位数间距(quartile,简记为0):为上四分位数Qu(即P75)与下四分位数

QL(即尸25)之差。四分位数间距可看成是中间50%观察值的极差,其数值越大,变异度

越大,反之,变异度越小。如例2.7中,已求得0尸尸75=35.82小时,例=尸25=15.34小时,

则四分位数间距Q=QU-QL=35.82-15.34=20.48(小时)。由于四分位数间距不受两端个别

极大值或极小值的影响,因而四分位数间距较全距稳定,但仍未考虑全部观察值的变异

度,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。

3.方差(variance):为了全面考虑观察值的变异情况,克服全距和四分位数间距

的缺点,需计算总体中每个观察值X与总体均数〃的差值(X-〃),称之为离均差。由于

2(不〃尸0,不能反映变异度的大小,而用离均差平方和Z(X-〃)2(sumofsquaresof

deviationsfrommean)反映之,同时还应考虑观察值个数N的影响,故用式(2.9)即总体

方差/表示。

"("(2.9)

N

在实际工作中,总体均数日往往是未知的,所以只能用样本均数工作为总体均数〃

的估计值,即用Z(X-又)2代替Z(X-〃)2,用样本例数〃代替M但再按式(2.9)

计算的结果总是比实际/小。英国统计学家W.S.Gosset提出用n-\代替〃来校正,这

就是样本方差§2其公式为:

相=E(X-.)(2.10)

n-\

式中的n-\称为自由度(degreeoffreedom)0

4.标准差(standarddeviation):方差的度量单位是原度量单位的平方,将方差开

方后与原数据的度量单位相同。标准差大,表示观察值的变异度大;反之,标准差小,

表示观察值的变异度小。计算见公式(2.11)和(2.12)。

2

C=(1.11)

s=JX(x-X)[(1.1:

vn-\

离均差平方和Z(X-又)2常用SS或/xx表示。数学上可以证明:

SS=G=E(X-灭)2=\X2—(三°,所以,样本标准差的计算公式可写成:

直接法:s=^(2.13)

Yn—\

卜田0)2

加权法:",乙(1.14)

5.变异系数(coefficientofvariation,简记为CT):常用于比较度量单位不同或均数相

差悬殊的两组或多组资料的变异度。其公式为

CV=*100%(2.15)

(丁守銮)

第三章正态分布及其应用

学时分配:2学时

掌握内容:

1、正态分布的概念、特征和标准正态分布

2、正态分布的应用

第一节正态分布的概念和特征

一、正态分布的概念

由表1」的频数表资料所绘制的直方图,图3.1(1)可以看出,高峰位于中部,左

右两侧大致对称。我们设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连

线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横

轴相交的光滑曲线图3.1(3)。这条曲线称为频数曲线或频率曲线,近似于数学上的正

态分布(normaldistribution)o由于频率的总和为100%或1,故该曲线下横轴上的面积

为100%或lo

图3.1频数分布逐渐接近正态分布示意图

为了应用方便,常对正态分布变量X作变量变换。

该变换使原来的正态分布转化为标准正态分布(standardnormaldistribution),亦称u

分布。”被称为标准正态变量或标准正态离差(standardnormaldeviate)。

二、正态分布的特征:

1.正态曲线(normalcurve)在横轴上方均数处最高。

2.正态分布以均数为中心,左右对称。

3.正态分布有两个参数,即均数〃和标准差〃是位置参数,当。固定不变时,

〃越大,曲线沿横轴越向右移动;反之,〃越小,则曲线沿横轴越向左移动。。是形状

参数,当〃固定不变时,b越大,曲线越平阔;。越小,曲线越尖峭。通常用N(〃02)

表示均数为〃,方差为人的正态分布。用N(0,1)表示标准正态分布。

4.正态曲线下面积的分布有一定规律。

实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以

便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。正态

曲线下一定区间的面积可以通过附表1求得。对于正态或近似正态分布的资料,已知均

数和标准差,就可对其频数分布作出概约估计。

查附表1应注意:①表中曲线下面积为-8到〃的左侧累计面积;②当已知以、◎和

X时先按式(3.1)求得〃值,再查表,当卬。未知且样本含量“足够大时,可用样本

均数斤和标准差S分别代替H和°,按〃=(X-亍)/£式求得“值,再查表;③曲线下对

称于0的区间面积相等,如区间(-00,-1.96)与区间(1.96,00)的面积相等,④曲线

下横轴上的总面积为100%或I0

正态分布曲线下有三个区间的面积应用较多,应熟记:①标准正态分布时区间(-1,1)

或正态分布时区间(pi-ldR+lo)的面积占总面积的68.27%;②标准正态分布时区间

(-1.96,1.96)或正态分布时区间(中1.96。小+1.96。)的面积占总面积的95%;③标准正

态分布时区间(-2.58,2.58)或正态分布时区间(匕2.58研+2.58。)的面积占总面积的99%。

如图3.2所示。

图3.2正态曲线与标准正态曲线的面积分布

第二节正态分布的应用

某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验

中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后

可成为正态或近似正态分布,故可按正态分布规律处理。

1.估计正态分布资料的频数分布

例1.10某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=1名.70cm,

标准差5=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学

生总数的百分数;②分别求灭±ls、了±1.96s、了±2.58s范围内18岁男大学生占该地

18岁男大学生总数的实际百分数,并与理论百分数比较。

本例,〃、b未知但样本含量〃较大,按式(3.1)用样本均数X和标准差S分别

代替"和b,求得〃值,H=(168-172.70)/4.01=-1.17O查附表标准正态曲线下的面积,在

表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大

学生身高在168cm以下者,约占总数12.10%。其它计算结果见表3.1。

表3.1100名18岁男大学生身高的实际分布与理论分布

实际分布

身高范围(cm)-理论分布(%)

X±s人数百分数(%)

X±ls168.69〜176.716767.0068.27

J±1.965164.84〜180.569595.0095.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论