版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《卫生统计学》网上教案错误!未定义书签。个样本的方差齐性检验20
第一章绪论1第六节变量变换20
第一节卫生统计学的定义和内容1第六章定性资料的统计描述21
第二节统计工作的步骤1第七章二项分布与Poisson分布及其应用22
第三节统计学中的几个根本概念1第一节二项分柞的概念与特征22
第四节学习卫生统计学应注意的问题2第二节二项分布的应用23
第二章定量资料的统计描述2第三节Poisson分立的概念与特征24
第•节数值变量资料的频数表2第四节Poisson分布的应用25
第第八章无2检
验26
节第一节四格
表资料的公
检验27
:卫生统计学第二节配对
势四格表资料
的的%2检验28
统HealthStatistics第三节四格
计表资料的
描Fisher确切概
述指标3率法29
第三节离散程度的统计描述指标4第四节行x列表资料的炉检验30
第三章正态分布及其应用5第五节多个样本率比拟的%2分割法31
第一节正态分布的概念和特征5第六节频数分布拟合优度的好检验33
第二节正态分布的应用6笫九章秩和检验34
第四章总体均数的估计和假设检验7第一节配对设计和单样本资料的符号秩和
第一节抽样研究与抽样误差7检验34
第二节[分布9第二节完全随机化设计两独立样本的秩和检
第三节总体均数的估计9验35
第四节假设脸验的根本步骤10第三节完全随机化设计多组独立样本的秩和
第五节样本与总体比拟的假设检验|1检验36
第六节配对设计(paireddesign)资料的假设第四节随机化区组设计资料的秩和检验37
检验II第五节多个样本间的多重比拟38
第七节两样本比拟的假设检验12第六节小结40
第八节第一类错误与第二类错误12第十章直线回归与相关40
第五章方差分析13笫一节直线回归41
第一节方差分析的根本思想13第二十直线相关分析45
第二节完全随机设计的单因素方差分析第三节等级相关47
(one-wayANOVA)15笫四节曲线拟合48
第三节随机区组设计的两因素方差分析第十二章统计表和统计图49
(two-wayANOVA)16第十三章实验设计51
第四节多个样本均数间的多重比拟18第一节实验设计的特点及分类52
第第二节实验
五口设计的根本
节2023/10/4要素52
多第三节实验
设计的根本原那么53第三节常用的抽样方法64
第四节常用的实验设计方法60第四节调查的质量控制65
第十四章调查设计63第十五章医学人口统计学与疾病统计常用指标65
第一节调查研究的特点63第一节医学人匚统计常用指标65
第二节调查设计的根本原那么与内容64第二节疾病统计常用指标67
第一章绪论
学时分配:2学时
掌握内容:
1、卫生统计学的定义
2、统计工作的步骤
3、统计学中的几个根本概念
4、学习卫生统计学应注意的问题
了解内容:卫生统计学的内容
第一节卫生统计学的定义和内容
I、II生统计学的定义
统计学(statistics)是研究数据的收集、整理和分析的一门科学,帮助人们分析所占有的信息,到达去伪存
真、去粗取精、正确认识世界的一种重要手段。
卫生统计学(healthstatistics)是应用数统计学的原理与方法研究居民健康状况以及卫生效劳领域中数据的
收集、整理和分析的一门科学。
Webster国际大辞典(第三版)对统计学的定义是“asciencedealingwiththecollection,analysis,interpretation
andpresentationofnumericaldata"。LastJM主编的一本流行病学辞典对统计学的定义是“thescienceandartof
dealingwithvariationindatathroughcollection,classificationandanalysisinsuchawayastoobtainreliable
results"。由此看出:统计学是处理资料中变异性的科学和艺术,是在收集、归类、分析和解释大量数据的过
程中获取可靠结果的一门学科。这里强调了“过程",但在实际工作中,许多人往往是忽略了设计、收集和归类
(整理),到了分析数据时才想到统计学,此时难免发生“悔之晚矣”的憾事。作为统计学的应用者应充分认识到
这一点。
2、卫生统计学的内容:
I)健康统计:医学人口统计、疾病统计和生长发育统计等;
2)卫生效劳统计:包括卫生资源利用、医疗卫生效劳的需求、医疗保健体制改革等方面的统计学问题。
在教材的主要内容为:
1)卫生统计学的根本原理和方法:包括统计描述(定量资料和分类资料的描述性指标以及常用统计图表)、
常见的理论分布及其应用(正态分布、二项分布与Poisson分布)、总体参数的估计(分总体均数、总体率和总
体平均数)、假设检验。检验、〃检验、方差分析、/检验、秩和枪验等)、回归与相关、多元线性回归与logislic
回归、实验设计和调查设计(第2〜第14章);
2)健康统计:医学人口与疾病统计中常用的指标(第15章)、寿命表(第16章)、生存率分析(第17章);
3)常用的综合评价方法(第18章)。
第二节统计工作的步骤
统计学对统计工作的全过程起指导作用,任何统计工作和统计研究的全过程都可分为以下四个步骤:
1、设计(design):在进行统计工作和研究工作之前必须有一个周密的设计。设计是在广泛查阅文献、全面
了解现状、充分征询意见的根底上,对将要进行的研究工作所做的全面设想。其内容包括:明确研究目的和研究
假说,确定观察对象、观察单位、样本含量和抽样方法,拟定研究方案、预期分析指标、误差控制措施、进度与
费用等。设计是整个研究工作中最关键的一环,也是指导以后工作的依据(详见第13、14章)。
2、收集资料(collection):遵循统计学原理采取必要措施得到准确可靠的原始资料。及时、准确、完整是收
集统计资料的根本原那么。卫生工作中的统计资料主要来自以下三个方面:①统计报表:是由国家统•设计,有
关医疗卫生机构定期逐级上报,提供居民健康状况和医疗卫生机构工作的主要数据,是制定卫生工作方案与措施、
检查与总结工作的依据。如法定传染病报表,职业病报表,医院工作报表等。②经常性工作记录:如卫生监测记
录、健康检查记录等。③专题调查或实验。
3、整理资料(sortingdata):收集来的资料在整理之前称为原始资料,原始资料通常是一堆杂乱无章的数据。
整理资料的目的就是通过科学的分组和归纳,使原始资料系统化、条理化,便于进一步计算统计指标和分析。其
过程是:首先对.原始资料进行准确性审查(逻辑审查与技术审查)和完整性审查;再拟定整理表,按照“同质者
合并,非同质者分开”的原那么对资料进行质量分组,并在同质根底上根据数值大小进行数量分组;最后汇总归
纳。
4、分析资料(analysisofdata):其目的是计算有关指标,反映数据的综合特征,说明事物的内在联系和规律。
统计分析包括统计描述(descriptivestatistics)和统计推断(inferentialstatistics)o前者是用统计指标与统计图(表)
等方法对样本资料的数量特征及其分布规律进行描述1详见第2、6、12章);后者是指如何抽样,以及如何用样
本信息推断总体特征(详见第4、5、7、8、9、10、II、17、18章)。进行资料分析时,需根据研究目的、设计
类型和资料类型选择恰当的描述性指标和统计推断方法。
统计工作的四个步骤紧密相连、不可分割,任何一步的缺陷,都将影响整个研究结果。
第三节统计学中的几个根本概念
1、同质[homogeneity)与变异(variation)
严格地讲,同质是指被研究指标的影响因素完全相同。但在医学研究中,有些影响因素往往是难以控制的(如
遗传、营养等),甚至是未知的。所以,在统计学中常把同质理解为对研究指标影响较大的、可以控制的主要因
素尽可能相同。例如研究儿童的身高时,要求性别、年龄、民族、地区等影响身高较大的、易控制的因素要相同,
而不易控制的遗传、营养等影响因素可以忽略。
同质根底上的个体差异称为变异。如同性别、同年龄、同民族、同地区的健康儿童的身高、体重不尽相同。
事实上,客观世界充满了变异,生物医学领域更是如此。哪里有变异,哪里就需要统计学。假设所研究的同质群
体中所有个体一模一样,只需观察任一个体即可,无须进行统计研究。
2、总体[population)与样本(sample)
任何统计研究都必须首先确定观察质位(observedunit),亦称个体(individual)o观察单位是统计研究,中最
根本的单位,可以是一个人、一个家庭、一个地区、一个样品、一个采样点等。
总体是根据研究目确实定的同质观察单位的全体,或者说,是同质的所有观察单位某种观察值(变量值)的
集合。例如欲研究山东省2002年7岁健康男孩的身高,那么,观察对象是山东省2002年的7岁健康男孩,观察
单位是每个7岁健康男孩,变量是身高,变量值(观察值)是身高测量值,那么山东省2002年全体7岁健康男
孩的身高值构成一个总体。它的同质根底是同地区、同年份、同性别、同为健康儿童。总体又分为有限总体(finite
population)和无限总体(infinitepopulation)«有限总体是指在某特定的时间与空间范围内,同质研究对象的所
有观察单位的某变量值的个数为有限个,如上例;无限总体是抽象的,无时间和空间的限制,观察单位数是无限
的,如研究碘盐对缺碘性甲状腺病的防治效果,该总体的同质根底是缺碘性甲状腺病患者,同用碘盐防治:该总
体应包括已使用和设想使用碘盐防治的所有缺碘性甲状腺病患者的防治效果,没有时间和空间范用的限制,因而
观察单位数无限,该总体为无限总体。
在实际工作中,所要研究的总体无论是有限的还是无限的,通常都是采用抽样研究。样本是按照随机化原那
么,从总体中抽取的有代表性的局部观察单位的变量值的集合。如从上例的有限总体(山东省2002年7岁健康
男孩)中,按照随机化原那么抽取100名7岁健康男孩,他们的身高值即为样本。从总体中抽取样本的过程为抽
样,抽样方法有多种,详见第14章,抽样研究的目的是用样本信息推断总体特征。
统计学好比是总体与样本间的桥梁,能帮助人们设计与实施如何从总体中科学地抽取样本,使样本中的观察
单位数(亦称样本含量,samplesize)恰当,信息丰富,代表性好:能帮助人们挖掘样本中的信息,推断总体的
规律性。
3、资料(data)与变量(variable)及其分类
总体确定之后,研究者应对每个观察单位的某项特征进行测量或观察,特征称为变量。如“身高”、"体重〃、
“性别"、"血型"、“疗效”等。变量的测定值或观察值称为变量值(valueofvariable)或观察值(observedvalue),
亦称为资料。
按变量的值是定量的还是定性的,可将变量分为以下类型,变量的类型不同,其分布规律亦不同,对它们采
用的统计分析方法也不同。在处理资料之前,首先要分清变量类型。
1)数值变量(numericalvariable):其变量值是定量的,表现为数值大小,可经测量取得数值,多有度量衡
单位。如身高(cm)、体重(kg)、血压(mmHgkPa)、脉搏(次/min)和白细胞计数(xlO9/D等。这种由数
值变鼠的测显值构成的资料称为数值变量资料,亦称为定晟•资料(quantitativedata)o大多数的数值变量为连续
型变量,如身高、体重、血压等;而有的数值变量的测定值只能是正整数,如脉搏、白细胞计数等,在医学统
计学中把它们也视为连续型变量。
2)分类变量(catagoricalvariable):其变量值是定性的,表现为互不相容的类别或属性。分类变量可分为无
序变量和有序变量两类:
(1)无序分类变量(unorderedcategoricalvariable)是指所分类别或属性之间无程度和顺序的差异。,它又
可分为①二项分类,如性别(男、女),药物反响(阴性和阳性)等;②多项分类,如血型(O、A、B、AB),
职业(工、农、商、学、兵)等。对于无序分类变量的分析,应允按类别分组,清点各组的观察单位数,编制
分类变量的频数表,所得资料为无序分类资料,亦称计数资料。
(2)有序分类变量(ordinalcategoricalvariable)各类别之间有程度的差异。如尿糖化验结果按一、土、+、
++、+++分类;疗效按治愈、显效、好转、无效分类。对于有序分类变量,应先按等级顺序分组,清点各
组的观察单位个数,编制有序变量:各等级)的频数表,所得资料称为等级资料。
变量类型不是一成不变的,根据研究H的的需要,各类变量之间可以进行转化。例如血红蛋白量(g/L)原
属数值变量,假设按血红蛋白正常与偏低分为两类时,可按二项分类资料分析;假设按重度贫H1、中度贫血、
轻度苗血、正常、血红率白增高分为五个等级时,可按等级资料分析。有时亦可将分类资料数后化,如可将病
人的恶心反响以0、1、2、3表示,那么可按数值变量资料[定量资料)分析。
4、随机事件(randomevent)与概率(probability)
医学研究的现象,大多数是随机现象,对随机现象进行实验或观察称为随机试验。随机试验的各种可能结果
的集合称为随机事件,亦称偶然事件,简称事件。例如用相同治疗方案治疗一批某病的患者,治疗转归可能为治
频数分布有对称分布和偏态分布之分。对称分布是指多数频数集中在中央位置,两端的频数分布大致对称。
偏态分布是指频数分布不对称,集中位置偏向一侧,假设集中位置偏向数值小的一侧,称为正偏态分布;集中位
置偏向数值大的一侧,称为负偏态分布,如冠心病、大多数恶性肿解等慢性病患者的年龄分布为负偏态分布。临
床上E偏态分布资料较多见。不同的分布类型应选用不同的统计分析方法。
4.频数表的用途
可以揭示资料分布类型和分布特征,以便选取适当的统计方法;便于进一步计算指标和统计处理;便于发现
某些特大或特小的可疑值。
第二节集中趋势的统计描述指标
描述一组同质观察值的平均水平或中心位置的常用指标有均数、几何均数、中位数等。
1.均数[mean,average):是算术均数(arithmeticmean)的简称。常用X表示样本均数,〃表示总体均
数。均数用于反映一组同质观察值的平均水平,适用于正态或近似正态分布的数值变量资料。其计算方法有:
(1)直接法:用干样本含量较少时,其公式为:
q=…X”(2J)
nn
式中,希腊字母E(读作sigma)表示求和;X,X2,…,K为各观察值;〃为样本含量,即观察值的个数。
(2)加权法(weighingmethod):用于频数表资料或样本中相同观察值较多时,其公式为:
j笠优:二小野四-
式中,X”X2,...»Xk与力,力,…,次分别为频数表资料中各组段的组中值和相应组段的频数(或相同观察
值与其对应的频数)。
2.几何均数(geometricmean)用G表示,适用于①对数正态分布,即数据经过对数变换后呈正态分布的
资料;②等比级数资料,即观察值之间呈倍数或近似倍数变化的资料。如医学实践中的抗体滴度、平均效价等。
其计算方法有
(I)直接法:
或G=IgT(虻上电X"…+电X")=igT(Z蛀)(2.3)
nn
(2)加权法:
G也怔"泮户+…/"—锣).J
/+人+.••.+/工f
注意;计算几何均数时观察值中不能有0,因0不能取对数;一组观察值中不能同时有正或负值。
3.中位数(median)用M表示。中位数是一组由小到大按顺序排列的观察值中位次居中的数值。中位数
可用于描述①非正态分布资料(对数正态分布除外);②频数分布的一端或两端无确切数据的资料③总体分布不
清楚的资料。在全部观察中,小于和大于中位数的观察值个数相等。
(I)直接法:将观察值由小到大排列,按式(2.6)或式(2.7)计算。
〃为奇数,M=X(,J+1)/2(1.5)
”为偶数,M=?(X“+X”)(1.6)
2J”
式中下标二、巴+i、Ml为有序数列的位次。X“+1、X,、X“为相应位次的观察值。
222(争9出)
(2)频数表法:用于频数表资料。
计算步骤是:①计算卷的大小,并按所分组段由小到大计算累计频数和累计频率,如表2.1第(3)、(4)栏;
②确定”所在组段。累计频数中大于5的最小数值所在的组段即为M所在的组段;或累计频率中大于50%的
最小频率所在的组段即为M所在的组段。③按式(2.7)求中位数M°
用"十六(/匕)(2.7)
JM乙
式中:/.、i、九分别为历所户组段的下限、组距和频数:Z/乙为小于/.的各组段的累计频数C
例1.1由表2.1计算中位数M。
表2.1199名食物中毒患者潜伏期的M和Px的计算
潜伏期〔小时)人数/累计频数Z/累计频率(%)
(1)(2)(3)(4)=(3)/〃
()〜303015.1
12〜7110150.8
24〜4915075.4
36〜2817889.4
48〜1419296.5
60〜619899.5
72〜841199100.0
合计199
木例〃=199,根据表2.3第⑵栏数据,自上而下计算累计频数及累计频率,见第(3)、(4)栏。3=99.5,
由第⑶栏知,101是累计频数中大于99.5的最小值,或由第(4)栏知50.8%是大于50%的最小的累计频
率,故M在“12〜”组段内,将相应的L、八/0、Z力.代入(2.8),求得M。
M=P5O=£+—(/7.50%-4)=12+12/71(199x50%-30)=23.75(小时)
J50
4.百分位数(percentile)用Px表示。一个百分位数Px将一组观察值分为两局部,理论上有X%的观察
值比它小,有(100-X)%的观察值比它大,是一种位置指标。中位数是一个特定的百分位数,即M=P50。
百分位数的计算步骤与中位数类似,首先要确定Px所在的组段。先计算〃•》%,累计频数中大于〃的
最小值所在的组段就是Px所在组段。计算见公式(2.8)。
Px=L4-(n.X%—^//)(2.8)
Jx
式中:L、i、八分别为Px圻在组段的下限、组距和频数;为小于L的各组段的累计频数。
百分位数用丁•描述组数据某百分位位置的水平,多个百分位数的结合应用时,可描述组观察值的
分布特征;百分位数可用于确定非正态分布资料的医学参考值范围。应用百分位数,样本含量要足够大,否
那么不宜取靠近两端的百分位数。
第三节离散程度的统计描述指标
描述数值变量资料频数分布的另一主要特征是离散程度,用变异指标表示。只有把集中指标和离散指标结合
起来才能全面反映资料的分布特征。常用变异指标有全距、四分位数间距、方差、标准差、变异系数。
1.全距(range,简记为R):亦称极差,是一组同质观察值中最大值与最小值之差。它反映了个体差异的范
围,全距大,说明变异度大;反之,全距小,说明变异度小。用全距描述定量资料的变异度大小,虽然计算简单,
但缺乏之处有:①只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度;②样本含量越大,抽到较
大或较小观察值的可能性越大,那么全距可能越大。因此样本含量相差悬殊时不宜用全距比拟。
2.四分位数间距(quartile,简记为。):为上四分位数如(即P75)与下四分位数QL(即25)之差。四分位
数间距可看成是中间50%观察值的极差,其数值越大,变异度越大,反之,变异度越小。如例2.7中,已求得
如=85=35.82小时,QL=P25=15.34小时,那么四分位数间距QU-QL==35.82-15.34=20.48(小时)。由于四分位数
间距不受两端个别极大值或极小值的影响,因而四分位数间距较全距稳定,但仍未考虑全部观察道的变异度,常
用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。
3.方差(variance):为了全面考虑观察值的变异情况,克服全距和四分位数间距的缺点,需计算总体中每
个观察值X与总体均数〃的差值(X-〃),称之为离均差。由于Z(X-")=0,不能反映变异度的大小,而用离均差平
方和£(X-p)2(sumofsquaresofdeviationsfrommean)反映之,同时还应考虑观察值个数N的影响,故用式(2.9)
即总体方差,表示。
一—*2.9)
N
在实际工作中,总体均数p往往是未知的,所以只能用样本均数X作为总体均数〃的估计值,即用
工(乂一9)2代替工(乂一〃)2,用样本例数〃代替M但再按式(2.9)计算的结果总是比实际b?小。英国统
计学家W.S.Gosset提出用代替“来校正,这就是样本方差其公式为:
,y(x-x)2
S2---------------(2.10)
n-1
式中的1称为自由度(degreeoffreedom)。
4.标准差(standarddeviation):方差的度量单位是原度量单;立的平方,将方差开方后与原数据的度量单位
相同。标准差大,表示观察值的变异度大;反之,标准差小,表示观察值的变异度小。计算见公式(2.11)和(2.12)。
Z(x-〃)
CT=(1.11)
n
Z(x-G)2
s=(M2)
n-\
离均差平方和Z(x-》)2常用ss或仪〉:表示。数学上可以证明:
SS=,xx=Z(X—刈2=2>2-所以,样本标准差的计算公式可写成:
直接法:s=]—〃(2.13)
n-l
■y仅2(Z#)2
加权法:
S(1.14)
5.变异系数(coefficientofvariation,简记为CV):常用于比拟度量单位不同或均数相差悬殊的两组或多组资
料的变异度。其公式为
CV=JX100%(2.15)
(丁守銮)
第三章正态分布及其应用
学时分配:2学时
掌握内容:
I、正态分布的概念、特征和标准正态分布
2、正态分布的应用
第一节正态分布的概念和特征
一、正态分布的概念
日表1.1的频数表资料所绘制的直方图,图3.1(1)可以看出,顶峰位于中部,左右两侧大致对称。我们设
想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条顶峰位于中央(均数所在处),
两侧逐渐降低且左右对称,不与横轴相交的光滑曲线图3.1(3)。这条曲线称为频数曲线或频率曲线,近似于数
学上的正态分布(normaldistribution)e由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。
⑴⑵
图3.1频数分布逐渐接近正态分布示意图
为了应用方便,常对正态分布变量X作变量变换。
X—,
u=-------(3.1)
(T
该变换使原来的正态分布转化为标准正态分布(standardnonnaldistribution),亦称〃分布。”被称为标准正
态变量或标准正态离差(standaidiiminaldeviate)«
二、正态分布的特征:
1.正态曲线(normalcune)在横轴上方均数处最高。
2.正态分布以均数为中心,左右对称。
3.正态分布有两个参数,即均数〃和标准差〃是位置参数,当C固定不变时,〃越大,曲线沿横轴
越向右移动;反之,〃越小,那么曲线沿横轴越向左移动。。是形状参数,当〃固定不变时,。越大,曲线越
平阔;。越小,曲线越尖峭。通常月N(〃,b2)表示均数为〃,方差为的正态分布。用N(0,1)表示标准
正态分布。
4.正态曲线下面积的分布有一定规律。
实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总
例数的百分数(频数分布)或观察值落在该区间的概率。正态曲线卜.一定区间的面积可以通过附表1求得。对于
正态或近似正态分布的资料,均数和标准差,就可对其频数分布作出概约估计。
宜附表1应注意:①表中曲线下面积为-8到〃的左侧累呼积;②当jo和X时先按式(3.1)求得〃值,
再查表,当卜、。未知且样本含量〃足够大时,可用样本均数亍和标准差5分别代替卜i和。,按〃=(X-》)/s
式求得〃值,再查表;③曲线下对称于。的区间面积相等,如区间(-00,-1.96)与区间(1.96,00)的面积相等,
④曲线下横轴上的总面积为100%或1。
E态分布曲线下有三个区间的面枳应用较多,应熟记:①标准正态分布时区间(-1,1)或正态分布时区间
3-10山+1。)的面积占总面积的68.27%;②标准正态分布时区间(-1.96,1.96)或正态分布时区间(的1.96叫+1.96G)
的面积占总面积的95%;③标准正态分布时区间(-2.58258)或正态分布时区间(M-2.58O^+2.58O)的面积占总
面积的99%。如图3.2所示。
图3.2正态曲线与标准正态曲线的面积分布
第二节正态分布的应用
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正
态或近似正态分布:有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可按正态分布规律
处理。
I.估计正态分布资料的频数分布
例1.10某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,①
估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;②分别求又±卜、无±1.96$、
5±2.58s范围内18岁男大学生占该地18岁男大学生总数的实际股数,并与理论百分数比拟。
在例,〃、。未知但样本含量"较大,按式(3.1)用样本均数歹和标准差S分别代替〃和求得〃值,
w=(163-172.70)/4.01=-I.l7o查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交
处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。其它计算结果见表3.1。
表3.1100名18岁男大学生身高的实际分布与理论分布
实际分布
身高范围(cm)-理论分布(%)
X±s人数百分数(%)
X±\s168.69~176.716767.0068.27
X±1.965164.84—180.569595.0095.00
X±2.585162.35〜183.059999.0099.00
2.制定医学参考值范围:亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范
闱。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓"正常人”不是指"健康人〃,而是
指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,
如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属
不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单恻上界,肺活量过低属不正常须确定单侧下界。
另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:
(1)正态分至法:适用于正态或近似些态分布的资料。
双侧界值:X±uaS单侧上界:X+uaS,或单侧下界:X-uaS
(2)对数正态分坐法:适用于对数正态分布资料。__
双侧界值:lgT*g.”土〃HgJ;单侧上界:lgT*"+/S*),或单侧下界:IgT(凡1―怆J。
常用〃值可根据要求由表3.2查出。
(3)百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。
双侧界值:。2.5和^97.5;单侧上界:。95,或单侧卜界:25。
表3.2常用〃值表
参考值范围(%)单侧双侧
800.8421.282
901.2821.645
951.6451.960
992.3262.576
3.正态分布是许多统计方法的理论根底:如,分布、厂分布、/分布都是在正态分布的根底上推导出来的,
〃检验也是以正态分布为根底的。此外,/分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可
以按正态分布原理来处理。
(丁守銮)
第四章总体均数的估计和假设检验
学时分配:8学时
掌握内容:
1./分布的概念和特征
2.总体均数的区间估计
3.总体率的区间估计
4.假设检验的根本步骤
5.假设检验的根本原理
6.常用的数值型变量假设检验的方法
熟悉:1、抽样误差的概念
2、引起抽样误差的原因
3、均数、率的标准误的计算
4、标准差和标准误的区别
了解内容:
1.假设检验中概率P与检验水准a的关系
2.抽样研究的意义
3.中心极限定理的内容
第一节抽样研究与抽样误差
一.抽样研究
(一)抽样研究的意义
前面已经讲述了总体与样本两个统计学术语,人们在医学研究中多采用由样本信息来推论总体特征的方法,
这在实际工作中是十分必要的,经理论与实践证明也是行之有效的。目前对某一总体进行研究的最重要、最常用
的方法就是抽样研究。
日于研究对象很多是无限总体,要直接研究总体的情况是不可能的。即使对有限总体来说,假设包含的观察
单位数过多,需要消耗大量的人力、物力和时间,而且也不易组织,难以保证工作的质量。有的时候,观察的实
质就是一种破坏性实验,根本就不允许对总体中的每一个体逐一观察.如对一批注射药剂作质量卷查,不可能将
所有的药剂瓶都翻开加以检验,这显然是不可能的。
抽样研究作为一种由局部认识整体的观察方法,从古到今一直被人们自觉或不自觉地应用着,如炒菜时尝尝
咸淡,就医时取几滴血作化验等。实践证明这是行之有效的方法。目前抽样研究的理论与技术口开展成熟,只要
严格按照有关抽样研究的要求去做,这是完全可行的。所以,在实际工作中人们多采用抽样研究的方法,其目的
就是要用样本信息来推断总体特征,这就叫统计推断Isialislicalinference).
(二)抽样研究和抽样误差
抽样研究是指从总体中按照随机化的原那么,抽取一定数量的个体组成样本进行研究,从而推断总体的研究
方法。在实际工作中,由于总体中各观察对象之间存在着个体变异,且随机抽取的样本乂只是总体中的一局部,
因此计算的样本统计量,不一定恰好等于相应的总体参数。这种由于个体变异的存在,在抽样研究中产生的样本
统计量与相应的总体参数间的差异,称为抽样误差(samplingerror),同样,来自同一总体的假设干样本的统计
量之间,也会存在误差,这种误差也反映在样本统计量与总体参数间的差异。当样本是来自相应息体的随机样本
时,抽样误差为随机误差,其误差大小可以依据中心极限定理进行估计。中心极限定理的内容是,以数值变量资
料为例,假设从均数为〃的正态总体中以固定〃反复屡次(比方100次)抽样时,所得的样本均数元的分布是正
态分布;即使是从偏态总体中抽样,只要〃足够大,天的分布也近似正态分布。
在抽样研究中抽样误差是不可防止的,根据资料的性质和指标种类的不同,抽样误差有多种,例如:①从某
地7岁男童中随机抽取110名,测得平均身高为119.95cm,该样本均数不一定等于该地7岁男童身高的总体均
数,这种样本均数与总体均数间的差异,称为均数的抽样误差。②某县为血吸虫病流行区,从该县人群中随机抽
取400人,测得的血吸虫感染人数为60人,感染率为15%,该样本率不一定等于该地人群的总体感染率。此为
样本率与总体率之间的差异,称为率的抽样误差。此外,样本方差和相应的总体方差也存在抽样误差,后面介绍
的相关系数和回归系数也有抽样误差的问题。
二.均数的抽样误差
在抽样研究中,彳后设从同一总体中随机抽取样本含量相同的假设干个样本,并计算出某种样本统计量(如样
本均数),由于生物间的个体变异是客观存在的,抽样误差是不可防止的,这些样本统计量之间具有离散趋势。
数理统计研究说明,抽样误差具有一定的规律性,可以用特定的指标来描述。这个指标称为标准误(standard
error),标准误除了反映样本统计量之间的离散程度外,也反映样本统计量与相应总体参数之间的差异,即抽样
误差大小。本章主要介绍最常用的均数标准误以及率的标准误。
[一)均数标准误的意义
将来自同一总体的假设干个样本均数看成一组新的观察值,研究其频数分布,包括集中趋势和离散趋势,可
计算样本均数的均数和标准差。
例3.1假定某市16岁女中学生的身高分布服从均数(//)为155.4cm,标准差M为5.3cm的正态分布。
现用电子计算机作抽样模拟试验,每次随机抽出10个观察值(即样本含量〃=10),共抽取100个样本,求得100
个样本均数并编制成频数分布表如表4.1o
_______表4.110()个样本均数的频数分布"=]55.4cm,k5.3cm)
组段(cm)
151〜1
152~6
153-15
154~19
155-27
156-16
157-8
158~5
159-3
合计100
从表4.1中可以发现,当原始观察值的分布为正态分布时,这些样本均数的频数分布根本服从正态分布。统
计理论证明,假设原始观察值的分作为偏态分布,当样本含量〃足够大时,其样本均数的分布仍近似服从正态分
布。所以,可以求得样本均数的均数为155.38cm,与总体均数155.4cm接近。中心极限定理说明,样本均数的
均数等于原总体的总体均数同样,也可以求得样本均数的标准差为b1为了与描述观察值离散程度的标
准差相区别,用均数标准误来表示样本均数的标准差。均数标准误反映来自同一总体的样本均数的离散程度以及
样本均
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论