精选卫生统计学知识点汇总_第1页
精选卫生统计学知识点汇总_第2页
精选卫生统计学知识点汇总_第3页
精选卫生统计学知识点汇总_第4页
精选卫生统计学知识点汇总_第5页
已阅读5页,还剩170页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、卫生统计学知识点汇总PAGE PAGE 175第一讲 绪论总体:是研究目的所确定的所有同质个体某指标实际值的集合;或说, 总体是根据研究目确实定的所有同质观察对象的全体。样本:根据随机化的原那么从总体中抽取有代表性的局部观察单位,其变量实测值构成样本。样本含量:样本所包含个体或个体值的个数。抽样Sampling :从总体中抽取有代表性的一局部样本的过程,称为抽样。抽样研究:从确定的同质总体中随机抽取局部样本进行观察,用样本信息来推断总体特征,该研究方法叫抽样研究。统计推断:样本的现象推断所研究总体的特征。即分析样本数据,获得关于总体的知识。同质homogeneity:指研究对象在一定范畴的各种

2、可能影响主要观察指标的其它因素处于相同或非常相似的情况,即把具有相同性质的观察单位简称为同质的homogeneous,否那么称为异质的heterogeneous 。变异variation:同质根底上的各观察单位间的差异 参数:根据总体变量值统计计算出来,描述总体特征的统计指标。统计量:根据样本个体值统计计算出来,描述特征的统计指标。变量:变异性表现为取值上的大小就是变量。通常把观察单位的观察指标称为变量。如身高、体重等变量值:观察单位 的观察值 叫变量值,如身高 118cm,体重26kg 等。误差:为观察值X与实际值之差。抽样误差sampling error :由抽样造成的样本统计量和总体参数

3、的差异、以及样本统计量之间的差异称为抽样误差。随机事件(Radom event):随机试验中可能出现的各种结果,叫随机事件。即在一定条件下具有多种可能发生的结果,而究竟发生那一个结果不能肯定,又称偶然事件。概率Probability:描述随机事件发生的可能性大小的一种度量,常用P 表示。 小概率事件:当随机事件A的概率P(A),习惯上,当=0.05时,就称A为小概率事件;其统计学意义是小概率事件在一次随机试验中不可能发生。频率(Frequency):在n次试验中,假设事件A发生的次数为m,那么:m称为事件A在n次试验中的频数,fn(A)称为事件A在n次试验中发生的频率。统计描述:用统计指标、统

4、计表、统计图等方法,对样本资料的数量特征及其分布规律进行描述统计推断:指用样本信息推断总体特征,包括参数估计和假设检验。第二讲:数值变量的统计描述一、频数表与频数分布图一根本概念:频数( frequency ):指在一个抽样资料中,某变量值出现的次数。频数分布表frequency distribution table:将各数值变量的值及其相应的频数列表,简称频数表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率为100%或1。频数分布图frequency distribution figure :根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。二连续型变量频数表的编制方

5、法: 求全距(Range,简记R ):是一组资料中最大值Xmax与最小值Xmin之差,亦称极差。2. 定组距:将全距分为假设干段,称为组段。组与组之间的距离,称为组距;用小写i 表示。原那么:1“组段数一般为10-15个;2“组距一般为R/10取整;3为计算方便根据组距采取取整数方法3.写组段:即将全距分为假设干段的过程。原那么:1第一组段要包括Xmin,最末组段包括 Xmax ; 2每组段均用下限值加 “ 表示,最终组段同时注明上下限。4. 列表划记:根据预定的组段和组距,用划记的方法整理原始资料。三频数表的用途:1.揭示频数的分布特征:集中趋势与离散趋势结合能全面反映频数的分布特征2.揭示

6、频数的分布类型 对称分布 : 集中部位在中部,两端渐少,左右两侧的根本对称,为对称正态分布。 正偏 : 集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。负偏 : 集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。3.便于发现某些特大或特小的可疑值。4. 样本含量足够大时,以频率作为概率的估计值。5.作为陈述资料的形式。二、集中趋势的指标集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数average表示。注意:1.同质的事物或现象才能求平均数.应根据资料分布状态选用适当的均数。 算术均数 : 单峰对称分布包括 几何均数 : 对数正态

7、分布中位数、百分位数 : 偏态分布一 算术平均数arithmetic mean 使用条件:数据分布比拟均匀呈正态分布或近似正态分布。 样本均数用符号:X 表示 总体均数用符号:表示 计算方法有两种:直接法小样本和加权法大样本1直接法:举例: 某地10名18岁健康男大学生身高为cm: 168.7, 178.4, 170.0, 170.4, 172.1, 167.6, 172.4, 170.7, 177.3, 169.7求平均身高?10X)(171.7cm7169.4178.168.7 适用范围:小样本资料,n30方法:将观察值X1、X2、X3、Xn直接相加,再除以观察值的个数n。公式:2加权法:

8、适用范围:大样本含量的分组资料或频数表资料。方法:计算各组段的组中值 Xi与其频数f i的乘积和f x,然后除以总频数f。公式:举例: 用加权法计算某市8岁男童身高平均数(表3.1 )计算各组段的组中值xi、fxi和fx第1组段:117.5121191162上限下限x 用加权法计算该组身高值的均值)(050cmnfXX二 几何均数geometric mean, G 概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数G。 使用条件:用于原始数据分布呈偏态分布,等比资料倍数变化或对数正态分布资料的平均数的计算。 表示符号:G

9、 计算方法:直接法和加权法1直接法:适用范围:小样本资料方法:将n个观察值X1,X2,3,Xn直接相乘再开n次方。公式:用对数形式表示为:举例:设有5份血清样品,滴度分别为: 1:1, 1:10, 1:100, 1:1000, 1:10000 求其平均滴度。G或 Glg-1(lg1+lg10+lg100+lg1000+lg10000)/5) lg-1(0+1+2+3+4)/5) lg-12 =100即:平均滴度为1:100;较好地代表了观察值的平均水平。 2加权法:适用范围:大样本含量的分组资料或频数表资料。公式:Glg-1 (f lgX/f )举例:有95名麻疹易感儿童,接种麻疹疫苗一个月后

10、,血凝抑制抗体滴度见下表,试求平均滴度例3.3。 Glg-1 (f lgX/f )lg-1(145.0948/95) 33.68即95名易感儿童接种疫苗一个月后,血凝抑制抗体的 平均滴度为1:33.68。计算几何均数G 考前须知:1观察值不能为0;2观察值不能同时有正有负;3同一组资料求得的几何均数小于算术均数。练习:1.有8份血清的抗体效价分别为:1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640 求平均抗体效价。将各抗体效价的倒数代入公式:所以血清的抗体平均为1:56.572.有50人的血清抗体效价,分别为:5人1:10, 9人1:20, 20

11、人1:40, 10人1:80, 6人1:160 求平均抗体效价。将各抗体效价的倒数代入公式:所以该50人的血清抗体效价为1:41.70三中位数Median,M 概念:把一组变量值从小到大排列,位于中间位置的变量值叫中位数,用M表示。 使用条件:当一组资料类型分布不清或明显 偏态分布时的平均数的计算。 表示符号:M 计算方法:直接法和加权法百分位数Percentile,P 概念:为一种位置指标,表示位于全部观察值第X%位置处的数值。一个PX将总体或样本的全部观察值分为两局部,理论上有X%的观察值比它小,100-X%的观察值比它大,P50分位数即是中位数。 表示符号:x 计算方法: 频数表计算1直

12、接法由原始数据计算中位数:当n为奇数时:2用频数表计算中位数和百分位数步骤:按所分组段,由小到大计算累计频数和累计频率代入公式计算中位数及其它百分位数中位数计算公式 百分位数计算公式(mm)2/LfnfiLP注:fm 、 fx为所在组的频数, i 为该组段的组距, L为其下限 ,fL 为小于L的各组段的累积频数。例:求164例沙门菌食物中毒病人潜伏期的中位数和百分位数P5、P95潜伏期(h) 频数f 累积频数 累计频率(%) 0 21 2115.2412 58 7948.1724 4412375.0036 2314689.0248 1215896.3460 516399.3972 116410

13、0.001. 由表第(4)、 (1)栏可见,M(P50)在24 组段, 所以 L=24、i=12、fx=44、fL=79。2. 把 L=24、i=12、fx=44、fL=79代入公式, 求M。1244M(P50) = 24+ 164/2-79=24.8(h)3. 同样方法,可求P5、P95 。P5 = 0+ 1645%-0=4.7(h)P95 = 48+ 16495%-146=57.8(h)应用:1.中位数: 常用于描述偏态分布资料的集中位置,反映位置居中的观察值的水平,它和均数、几何均数不同,不是由全部观察值的数量值综合计算出来的,只受居中变量值的影响,不受两端特大值和特小值的影响。因此,当

14、分布的一端或两端无确定数值或资料的分布不清可以求中位数。 2.百分位数: A.用于描述数据某一百分位的位置,最常用的是P50,即中位数;也可用多个百分位数的结合来描述一组资料的分布特征,如用P25和 P75合用时,反映中间50%观察值的分布情况。B.用于确定参考值范围: WBC的95%参考值范围:P2.5 P97.5过高过低均异常 肺活量95%参考值范围:P5 过低异常 尿铅95%参考值范围:P95 过高异常C.用一组PX可较全面地描述总体或样本的分布特征。 三、离散趋势的指标离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。 极差Range, R四分位数间距Quartile

15、, Q包括 方差Variance, 标准差Standard deviation,S2变异系数Coefficient of variation,CV一 极差Range, 简称R计算:R=最大值最小值= Xmax - Xmin 意义:反映样本变量值的全范围。条件:对变量值的各种分布类型的资料都适用。优点:简单明了,容易理解,使用方便。缺点:仅考虑了极大值和极小值,未考虑其它变量的个体差异。建议:与其他离散指标共同使用。极差的缺点:1.R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度。2.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比拟极差。3.即使样本例数不变,极差

16、的抽样误差亦较大,即不够稳定。二 四分位数间距uartile, 简称计算:=-=P75-P25意义:中间一半观察值的极差。条件:对变量值的各种分布类型的资料都适用。优点:类似值但比其稳定。缺点:未考虑全部观察值的变异度。建议:与其他离散指标共同使用。例:有164例沙门氏菌食物中毒病人的潜伏期小时, 求该潜伏期的四分位数间距。 P25 L i / f25 ( n25 % fL ) 12 12/5816425%21 16.14小时P75 L i / f 75 ( n75 % f L ) 24 12/4416475%79 36小时Q= P 75 - P 25 =36-16.14=19.86 小时 即

17、该潜伏期的四分位数间距为19.86小时。三 方差 Variance, 简称 计算:总体方差 样本方差 意义:克服了值的缺乏,考虑了每个变量值的离散情况并消除了的影响。优点:全面地考虑每个变量值的离散情况缺点:其单位是原度量单位的平方。)2nXXs1(四标准差Standard deviation,SD或S计算:总体标准差: 样本标准差: 标准差的计算: 直接法: 加权法:1直接法:用于小样本资料举例 现有一影像医生,测得10名患者的EA值分别为: 0.47, 0.60, 0.86, 0.96, 1.01, 1.13, 1.27, 1.58, 1.72, 2.88试计算其标准差?首先列表,求出X

18、和X 2表3.6将X、X2代入公式:2加权法:用于大样本资料或频数表资料举例 计算100名8岁男孩身高的标准差从列表可知:fx =13 055.0、fX2 =1 707 127.00 和n =100代入公式:五 变异系数:简称CV概念:是同一组资料的标准差与均数之比,又叫变异度或离散系数。计算:实际含义:标准差相对于同组均数的百分比。优点:CV 消除了度量衡单位,用于比拟 1.单位不同的多组资料的变异度。 2.均数相差悬殊的多组资料的变异度身高体重举例 :某地7岁男孩身高的均数为123.10cm,标准差4.71 cm;体重均数为22.29kg,标准差2.26kg。试比拟其身高、体重的变异程度。

19、说明其体重的变异度大于身高的,即身高比体重稳定。小 结为描述数值变量的分布特征,可将观察值编制频数表,绘制频数分布图。集中趋势描述的主要指标是平均数。百分位数,传染病潜伏期可用于医学参考值范围,适用于任何分布观察序列在某百分位置的水平,是分布的百分界值3.描述频数分布离散程度的指标有:极差与四分位数间距,后者较稳定,但均不能综合反映个观察值的变异程度。方差和标准差,最常用,对正态分布尤重要。 变异系数,可用于多组资料间单位不同或均数相差较大时,变异度的比拟。注意: 变异指标的大小这与平均指标值的大小无关。平均指标和变异指标相结合,能对各种分布的资料作很好的描述。集中趋势 离散趋势 应用场合算术

20、均数 方差、标准差适用于对称分布,特别是正态分布几何均数正偏态分布资料或对数正态分布资料中位数 极差百分位数 四分位数间距 变异系数 适用于任何分布资料,特别是偏态 分布、分布不明、分布末端无确定 值适用于均数相差悬殊或度量衡单位不同的资料第三讲 概率分布一、二项分布及其应用摸球模型摸摸球模型球模型一个袋子里有5个乒乓球,其中2个黄球、3个白球,我们进行摸球游戏,每次摸1球,放回后再摸。先后摸100次,请问: 摸到0次黄球的概率是多大?解: 每次摸到白球的概率 =0.6 第1次摸到白球的概率=0.6第2次摸到白球的概率=0.6第100次摸到白球的概率=0.6 100次摸到0次黄球的概率=0.6

21、0.60.6=0.6100先后摸100次,摸到3次黄球的概率是多大?解:每次摸到黄球的概率 =0.4黄白黄白黄白白白概率=(0.4)3(0.6)97 100次摸到3次黄球的概率 = (0.4)3(0.6)97+ (0.4)3(0.6)97+ (0.4)3(0.6)97+ =C1003 (0.4)3(0.6)97每次摸到白球的概率 =0.6黄黄黄白白白白白黄白黄黄白白白白概率=(0.4)3(0.6)97概率=(0.4)3(0.6)97 先后摸100次,摸到x次黄球的概率是多大?解:100次摸到x次黄球的概率=C100 x (0.4)x(0.6)100-x 先后摸n次,摸到x次黄球的概率是多大?n

22、次摸到x次黄球的概率=Cnx (0.4)x(0.6)100-x解: 如果摸到黄球的概率不是0.4,而是,先后摸n次,摸到x次黄球的概率是多大?n次摸到x次黄球的概率=Cnx ()x(1- )100-x解:小结:摸球模型二分类:每次摸球都有两种可能的结果黄球或白球独立:每次摸球都是彼此独立的重复:每次摸到黄球的概率都是、 摸到白球的概率都是1- 所以,先后摸n次,摸到x次黄球的概率为:n次摸到x次黄球的概率=Cnx ()x(1- )100-x二项分布的概念假设变量X在n此独立实验中,具有:1各观察单位只能具有相互对立的两种结果之一。2发生某一结果阳性的概率为,其对立结果的概率为1-。3n次试验在

23、相同条件下进行,且各个观察单位的观察结果相互独立。那么称变量X服从二项分布,记作:BX;n, 一般地,假设随机变量取值x的概率为:P(x)=Cnx ()x(1- )n-x x 取值0、1、2、nCnx= x!(n-x)!(n)!其中:那么称此随机变量附合二项分布那么 :P(x)=Cnx ()x(1- )n-x 称为二项分布的概率函数。 小结:一个二分类的情况、独立重复事件n次,假设每次出现某事物的概率为,那么n次中有x次出现该事物的概率服从二项分布。举 例:临床上用针炙治疗某型头痛,有效的概率为60%;现以该法治疗患者3例,其中 0 例、1例、2例、3例有效的概率各是多大?解:P(x)=Cnx

24、 ()x(1- )n-x 有效人数xC3x x1-n-x出现该结果概率P(x)010.600.430.064130.610.420.288230.620.410.432310.630.400.216二项分布的概率分布示意图 n=30,=0.3n=10,=0.3n=20,=0.5n=5,=0.3二项分布图形的特征:二项分布图的形态取决于和n,顶峰在= n处。或说:和n是二项分布的两个参数,n决定x的取值范围,n和P决定了x的概率分布。 当=0.5,图形是对称的; 离0.5愈远,对称性愈差。 当0.5,随着n的增大,分布趋于对称。当n时,只要不太靠近0或1特别是n 和n(1-) 都 大于5时,二项

25、分布接近于正态分布。二项分布的均数和标准差对于二分类情况,进行n次随机试验,每次试验出现阳性结果的概率为,出现阳性结果的次数为x,那么X的总体均数 、方差2及标准差分别为: 总体均数: =n总体方差: 2= n 1- 总体标准差: = 1- 二项分布的应用: 概率估计:例:如果某地钩虫感染率是13%,随机观察当地150人,其中10人感染钩虫的概率有多大?解析:二分类感染、不感染独立假定互不影响重复=150,每人感染钩虫机率均为=0.13故:感染钩虫的人数x附合二项分布B(150,0.13)所以: P(x=10)=C15010 0.13100.87140=0.0055单侧累积概率的计算:单纯计算

26、二项分布x恰好取某值的概率没有太大意义经常需要计算的是二项分布的累积概率1出现阳性次数至多为k次的概率为:P(xk)= Cnx ()x(1- )n-x kx=02出现阳性次数至少为k次的概率为:P(xk)= Cnx ()x(1- )n-x nx=k举例:某地钩虫感染率是13%,随机观察当地150人。1其中最多有2人感染的概率有多大?解:P(x2)= C150 x 0.13x(0.97)150-x = C1500 0.130 0.97150 +C1501 0.131 0.97149+C1502 0.132 0.971482其中最少有2人感染的概率有多大?解:P(x2)= C150 x 0.13x

27、(0.97)150-x = 1 -C1500 0.130 0.97150 +C1501 0.131 0.971493其中最少有20人感染的概率有多大?解:P(x20)= C150 x 0.13x(0.97)150-x =1-C150 x 0.13x(0.97)150-x 练习: 5人服药,该药肠胃反响概率为10%;求:k个人、不多于2人、有人有反响的概率。二、Possion分布及其应用Poission分布的概念:是描述罕见事件发生次数的概率分布。Poisson分布可看作是二项分布的特例:独立重复的次数很大很大每次出现某事件的概率很小,或未出现某事件的概率1- 很小。Poission分布的概念:

28、对二项分布,当n,n 时,可以证明:P(x)=Cnx ()x(1- )n-x P(x)=e-xX!所以,假设随机变量X的概率函数为:P(x)=e-xX!假设那么称此变量服从Poission分布,记叙X () 。 =n为Poission分布的总体均数,X 为观察单位内某稀有事件的发生次数, 是Poisson分布的总体参数,也是唯一的参数举例:某地20年间共出生肢短畸形儿10名,平均每年0.5名,估计该地每年出生此类畸形人数为0、1、2的概率P(X )。解析: e=2.71828, =0.5=2.71828-0.50.5 0!0 x=0时,P(0)=e-xX!=0.607故:所以不同x取值时,概率

29、值如下表示:x012345P(x)0.6070.3030.0760.0130.0020.000Poission的概率分布示意图: poisson分布图形与有关。当20时,其分布近似正态分布。=nPoission分布图形的特征:二项分布图的形态取决于 , 5时为偏峰, 愈小分布愈偏,随着的增大,分布趋向于对称。总体均数=总体方差= ; 当观察结果具有可加性,即:假设X1服从总体均数为1的Poission分布, X2服从总体均数为2的Poission分布, 那么T= X1+ X2为服从总体均数为1+2的Poission分布。举例:从同一水源独立取水样5次,进行细胞培养。第1样水样的菌落数 X1 (

30、1)第2样水样的菌落数 X2 (2)第5样水样的菌落数 X5 (5)把5份水样混合,那么合计菌落数也符合Poission分布,那么:X1+X2 +X3 +X4+ X5 (1+ 2 +3+ 4+ 5)医学研究中常利用其可加性,将小的观察单位合并,来增大发生次数X,以便用后面讲到的正态近似法作出统计推断。Poission分布的应用: 概率估计:举例1:假设某地新生儿先生性心脏病的发病概率是8 ,那么该地120名新生儿中有4人患先天性心脏病的概率是多少?解析:发病、不发病 二项分布发病概率8,概率很小 Poission分布n=120,相对较大 =n=1208=0.960.964 4!=2.71828

31、-0.96P(4)=e-xX!=0.014单侧累积概率的计算:1稀有事件发生次数至多为k次的概率为:P(xk)= kx=0e-xX!2稀有事件发生次数至少为k次的概率为:P(xk)= nx=ke-xX! k -1= 1- x=0e-xX!三、正态分布及其应用一正态分布normal distribution的概念:又称高斯分布,Gauss distribution):是描述连续型随机变量最重要的分布。正态分布的密度函数f(x) ,即正态曲线的函数表达式: 当给定不同的x 值后,就可以根据此方程求得相应的纵坐标高度频数,并可绘制出正态曲线的图形,记作XN(,2) : 正态分布曲线:顶峰位于中间,两

32、侧逐渐下降并完全对称,曲线两端永远不与横轴相交的“钟型曲线。决定正态曲线图形的两个参数: 和 当固定不变时,越大,曲线沿横轴越向右移动;反之, 越小,那么曲线沿横轴越向左移动,所以叫正态曲线N, 2的位置参数, 。当固定不变时,越大,曲线越平阔;越小,曲线越尖峭, 叫正态曲线 N, 2的形状参数。 为了应用方便,常将上述函数中的 x 作如下变量代换,令: 相对于正态变量 x,u 没有度量单位。根据 u 的不同取值,代入上式可绘出标准正态分布的图形。正态分布曲线 标准正态分布曲线 XN(,2) XN(0,1)这样就把原来个别的正态分布转换为一般的标准正态分布 N0,1,亦称为分布有书中用 Z表示

33、 。二正态分布特征及曲线下面积分布规律: 正态分布有五个方面的特征:1. 集中性: 正态曲线在横轴上方,且均数位于曲线的最高处,即当x=时, f (x)取最大值。2. 对称性:正态分布以均数为中心,左右对称,即曲线 f (x)关于x=对称。3. 正态分布有两个参数,通常用 N (, 2) 表示均数为,标准差为的正态分布;用 N(0,1表示均数为 0 和标准差为 1 的标准正态分布。 反映曲线的位置,反映曲线的形状。4. 正态曲线在,标准正态曲线在1处各有一个拐点5. 正态曲线下的面积分布有一定的规律性。 由于正态曲线下累计频数的总和等于 100% 或 1,故横轴上曲线下的面积概率就等于 100

34、% 或 1。均数两侧的面积或频数概率各占 50%。正态分布和标准正态分布曲线下的面积分布规律正态分布 标准正态分布 面积分布规律 68.27% 95.00% 99.00%当总体均数和总体标准差未知时,就用样本均数和样本标准差来代替, u 值可用下式计算:此时可用 来代替, 代替 , , 代替 。对于正态分布或近似正态分布资料,只要求出均数和标准差,便可就其频数分布作出概略性的估计举例: 120 名 12 岁男孩身高均数为 143 cm,标准差为 5.8 cm,试估计该地 12 岁男孩身高在 135 cm 以下者有多少人?答:1. 首先按题意计算 u 值:2. 查 u 值表 当 u = -1.3

35、8 时,左侧尾部面积 0.0838,即身高在 135cm 以下者占总人数的 8.38%。 3.据概率计算人数:身高在 135 cm 以下者有:1208.38% =10人练 习:某地正常成年女子的血清总蛋白数服从正态分布,调查了该地110名正常成年女子,得样本血清总蛋白均数为72.8g/L,标准差为3.8g/L,试估计该地正常成年女子血清总蛋白介于66.075.0 g/L之间的比例,以及110名正常成年女子中血清总蛋白介于66.075.0 g/L之间的人数。 . 解析:由于本例是大样本,可用样本均数X和样本标准差 S 作为总体、 的估计值,即将该地正常成年女子的血清总蛋白数近似看作服从N72.8

36、, 3.82的正态分布。 1. 将变量作如下标准化变换:2. 查 u 值表得3. 求所定区间概率: z2- (z1)=0.719-0.0367=68.23%即估计血清总蛋白介于66.075.0g/L的比例为68.23%4. 求所定区间的可能人数: 所以110名正常成年女子中血清总蛋白介于之间的人数约为 110 68.23% =75人。 三、正态分布在医学中的应用一 制定医学参考值范围 参考值范围reference range):指所谓“正常人的解剖、生理、生化等指标的波动范围。制定方法:制定参考值范围时,首先要确定一批样本含量足够大的“正常人。所谓“正常人不是指“健康人,而是 指排除了影响所研

37、究指标的疾病和有关因素的同质人群,必须是随机选择的大样本。而后根据指标的实际用途确定单侧或双侧界值?根据研究目的和使用要求选定适当的百分界值,常用95%。 .双侧临界值:标准正态分布双侧尾部面积之和等于时所对应的正侧变量值,记作Z/2或U/2。单侧临界值:标准正态分布单侧尾部面积等于时所对应的正侧变量值,记作Z或U。以不同的方法计算参考值范围:1正态分布法:适用于正态或近似正态分布资料常用参考值范围的制定举例1:调查某地120名健康女性血红蛋白,直方图显示其分布近似正态,试估计该地健康女性血红蛋白的95%参考值范围。解析:1. 分布近似正态 正态分布法求参考值范围2. 过高过低均为异常 设定双

38、侧界值3. 求上、下界值下界:上界 所以,该地健康女性血红蛋白的95%参考值范围是97.41,137.39g/l。举例2: 某地调查120名健康成年男性的第一秒肺通气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估计其第一秒肺通气量的95%参考值范围。 1. 分布近似正态 正态分布法求参考值范围 2. 仅过低为异常 单侧下限3. 求下界值所以,该地健康成年男子第一秒肺通气量的95%参考值范围为不低于3.05L。 2百分位法:特别适用于偏态分布资料以及资料中一端或两端无确切数值的资料。如95%参考值范围:双侧界值单侧下限单侧上限P 2.5和P 97.5P 5 P 95二估计频数

39、分布举例:定出生体重低于2500g的婴儿为低体重儿,假设由某项研究得某地婴儿出生体重均数为3200g ,标准差为350g,估计当年出生低体重儿所占的比例。1. 分布近似正态, X= 3200g ,S=350g。2. 转化为标准正态分布,求u 值 说明标准正态曲线下 (-,-2的面积为2.28%,故此题正态曲线(-,2500g的比例为2.28% ,即X2500g的为2.28%,故估计当年出生低体重儿的比例为2.28%。 三进行质量控制根本原理:许多临床检验指标,当影响某一指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,那么往往服从正态分布。控制方法:常以 作为

40、上下警戒值,以 作为上下控制值。这里的2s和3s可视为1.96s和2.58s的约数。第四讲:抽样分布及参数估计一、抽样研究和抽样误差一正态分布样本均数的抽样分布【实验一】假定某年某地16岁所有女学生的身高服从总体均数=155.4cm,总体标准差s2=5.3cm的正态分布N ( , s2),在这样的一个总体中进行随机抽样: 1.每次均抽取30例组成一个样本 2.共抽100次 3.计算每个样本的平均身高得出了一组数据:153.6,153.1,154.9,157.7 n=100从正态总体 N (155.4, 5.32) 抽样得到的100个样本均数的分布频数表n=30组段cm频数频率%152.6 1

41、1.0153.2 4 4.0153.8 4 4.0154.4 22 22.0155.0 25 25.0155.6 21 21.0156.2 17 17.0156.8 3 3.0157.4 2 2.0158.0 158.6 1 1.0合 计100100.0正态分布样本均数的分布规律:1.各样本均数未必等于总体均数。2.样本均数之间存在差异。3.样本均数的分布总是围绕着总体均数,近似于正态分布。4.样本均数的变异程度较之原变量的变异程度大大的缩小了。所以假设随机变量X服从XN ( , s2) 的正态分布,那么以之随机抽样计算的样本均数所构成的分布也呈正态分布。1. 样本均数的总体均数仍等于原来的总

42、体均数。 2. 样本均数的标准差 叫做标准误 (standard error of mean, SEM),记作 ,是描述均数的抽样误 差大小的指标。样本均数的标准误的意义:1衡量样本均数的可靠性:均数标准误越小,说明均数的抽样误差越小,样本均数代表总体均数就越可靠。2估计总体均数的可信区间。3用于均数的假设检验。标准误的计算:1. 理论标准误:2. 实际工作中,常用 S 代,计算样本标准误。样本量 n越大 ,样本均数的标准误就越小。所以增加样本量 n ,可以降低抽样误差。标准差 标准误区别公式与n 关系n 增大,标准差趋于稳定。n 越大,标准误越小概念描述的是样本个体观察值的变异程度大小。描述

43、的是样本均数的变异程度和抽样误差大小。意义小说明变量值围绕均数的波动小,均数对一组变量值的代表性好。小表示样本均数围绕总体均数的波动小,用样本推断总体的可靠性越强。用途与均数结合,描述观察值的分布范围,常用于估计医学参考值范围、计算变异系数、标准误等。均数结合,用于估计总体均数可能出现的范围,即可信区间,并用于假设检验。联系1.都是描述变异程度的指标2.标准误与标准差成正比, n一定时,标准差越大,标准误也越大。二非正态分布样本均数的抽样分布【实验二】:图6-2是一个正偏态分布,用电脑从中随机抽取样本含量分别为5、10、30、50的样本各1000次,计算样本均数,绘制直方图,并观察其样本均数的

44、分布。n = n = 5 5n = 10n = 30n = 50当样本容量足够大时(n 30) ,样本均数的抽样分布逐渐趋于正态分布假设随机变量X呈偏态分布,当每次抽取的样本量 n 足够大时例如,当n= 50,样本均数的分布也近似于正态分布。1. 样本均数的总体均数仍等于原来的总体均数。 2. 样本均数的标准差 仍叫做标准误,记作 。二、样本统计量的分布 规律-t 分布一t 分布的概念: 1n=SXXXSn【实验三】:从前述13岁女学生身高这个正态总体中分别作样本量为3或50的随机抽样,各取1000份样本,分别得到1000个样本的均数及其标准误,对它们分别作t 转换,将t 值绘成直方图: 。n

45、 =3时的t分布 n =50时的t分布二t 分布的图形特征图6-2 不同自由度的t分布的曲线t 分布的图形特征 : 1. 分布是一簇曲线,它有一个参数即自由度 。2. 单峰分布,以0为中心,左右对称; 3. t 分布曲线较标准正态曲线要扁平,越小,t 值的越分散,曲线的峰越矮,尾越高。4. 增大, t 分布逐渐逼近标准正态分布;假设,那么t 分布完全成为标准正态分布。三t 界值表:以自由度为横标目,概率P为纵标目,表中数字表示当和 P确定时,对应的是正侧或双侧的t 临界值表,记作t(,)或t(/2,) 。单侧概率的t 临界值,记作t(,)双侧概率的t 临界值,记作t(/2,)1. 相同 时,t

46、 值越大,对应的尾部概率就越小2. 相同t 值,双侧尾部概率是单侧尾部概率的2倍。单侧和双侧2的t界值同,即单侧t,双侧t2, 三、总体均数可信区间的估计一)根本概念参数估计:用样本统计量来估计总体参数。点值估计( Point estimation ):不考虑抽样误差,直接用样本统计量来估计总体参数 区间估计(Interval estimation):考虑抽样误差,按一定的概率估计总体参数的所在范围。总体参数的可信区间(confidence interval, CI ) 1-可信区间,一般取值0.05或0.01, 所以1-为0.95或0.99可信区间:总体均数的1-可信区间指一个范围,指包含在

47、内的可能性为1-,不包含在内的可能性为。常用的可信区间为95%和99%,又称置信区间。可信限:指可信区间的下限和上限,即两个端点值。可信区间是指以上、下可信限为界的一个范围,但不包含上下限两个值,故用 表示,其为开区间。二总体均数的区间估计的计算t =资料不同计算方法也不同:t 分布法 1.未知 n 较小时n 30服从自由度n-1的t分布u =正态分布法 2. t =3.未知 n 较大时n30 t分布 接近于标准正态u分布1. t 分布法:样本均数呈正态分布,将变量进行t 转换:1n=SXXXSn举例:确定1- = 0.95,双侧SXX-t0.05/2, t0.05/2, X-t0.05/2,

48、SX X+tSX 注释:可信程度95%。举例:抽样得到一个n=9的样本,样本均数为70.54,标准差为5.79,求该次抽样的95% 及99%的可信区间。查t 值表答:即:此次抽样95%的可信区间为(69.40,74.68);99%的可信区间为63.59,76.49。t 分布法适用条件和计算公式适用条件:未知n 较小时n 30区间范围:举例:测得某地110名18岁男大学生身高=172.73cm,S=4.19cm,估计该地18岁男大学生身高均数的95%和99%的可信区间。 答:1.明确条件 n=110, =172.73cm,S=4.19cm,双侧u0.05=1.96 2.用正态分布法求可信区间).

49、49173,97.171()0194.11.9617317241.,11019.96.73172( 即:该地18岁男大学生身高均数的95%可信区间为171.97cm173.49cm 第五讲:定量资料的假设检验一、假设检验的概念与原理一假设检验的根本概念:假设检验(hypothesis test):亦称显著性检验(significance test),是依据样本提供的有限信息,对样本所代表的总体 是否与某特定的总体相等做出统计学结论的决策过程。 目的:分辨某样本是否来自于某特定总体,并以一定的概率对总体的假设作出推断。 二假设检验的步骤:1.提出无效假设和备择假设2.规定显著性水平3.计算检验统

50、计量4.确定P值,作出统计推断结论1. 选择检验方法,建立检验假设确定水准:1选择检验方法:根据研究目的、设计类型和资料特点等因素选择适宜的检验方法,并计算出对应统计量。变量分类变量数值变量单样本资料两、多组独立样本资料配对设计资料2提出无效假设和备择假设 什么是无效假设 (Null Hypothesis) ? 一般是作没有差异的假设,又称“原假设或“零假设 ,表示为 H0,即 H0: = 某一数值,如 = 0该假设将差异的原因归结为抽样误差什么是备择假设 (Alternative Hypothesis) ?与无效假设相对立有差异的假设,由不等号 , 或 组成,常表示为 H1;即H1: 某一数

51、值;或 某一数值, 某一数值。该假设将差异的原因归结为非抽样误差.3规定检验水准 (size of test): 抽样分布H0值临界值临界值/2 /2 样本统计量拒绝域拒绝域接受域1 - 置信水平什么检验水准? 规定了规定了小概率事件的最大概率,概率不超过 的事件就是小概率事件; 旨在假设H0成立的前提下,而根据样本的信息拒绝H0可能性大小的度量。注意:由研究者事先确定。 表示为 ,常用的 值有0.01、0.05; 是一个概率值,假设原假设为真时,拒绝原假设的概率,又被称为抽样分布的拒绝域。什么双侧检验和单侧检验? 双侧检验:用于推断两总体有无差异时,对两总体间可能存在的两种位置关系均要考虑在

52、内。单侧检验:用于推断两总体有无差异时,仅考虑两总体间可能存在的两种位置关系的一种。一般情况下,如结果不明确时,采用双侧假设 H1: 某一数值,如 0双侧,包括 0和 0 两方面如果从专业上能肯定其中一侧是不可能的,那么采用单侧对立假设 H1: 某一数值;如 0 右单侧 2. 计算检验统计量:根据样本数据算出相应的统计量,此步骤的目的是把样本信息以检验统计量的方式反映出来。3. 确定 p 值p 值意义是:在H0成立的前提下,统计量获得现有数值以及更不利于H0的可能性概率有多大? 即假设成立= 0)的 概率有多大?4. 作出统计结论假设检验的推断结论是指对 “ 假设的H0 是否真实 作出判断的过

53、程。 即:比拟 p 值和检验水准,得出拒绝或不拒绝无效假设的结论。在两个对立的检验假设间二取一的规那么是: 假设 p ,意味着在H0成立的前提下,不大可能发生当前或是更不利的状况 拒绝 假设 p , 意味着在H0成立的前提下,发生当前状况或是更不利的状况的可能性还是比拟大的 不拒绝【举例7-1】北方农村儿童前囱门闭合月龄为14.1月;某研究人员从东北某县抽取36名儿童,得前囱门闭合月龄为14.3月,标准差为5.08月。 问该县儿童前囱门闭合月龄的均数是否大于一般儿童?答:假设检验:HO : = 14.1月, 即该县儿童前囱门闭合月龄的均数与一般儿童相同;H : 14.1月, 该县儿童前囱门闭合

54、月龄的均数大于一般儿童检验水准:右单侧检验,设=0.05。总体0=14.1;样本 n=36、 X=14.3、 S=5.08 35,t 检验 = 0.236=SXX14.3 -14.15.0836t = 样本统计量 t = 0.236,所以 P0.05 。二、不同设计类型资料 的假设检验一单样本的假设检验二两组独立样本资料的假设检验三配对设计资料的假设检验一单样本的假设检验:确定方法主要考虑样本例数及分布状况:样本例数n 较大如n50时,t 检验样本例数n 较小如n50时,但样本来自正态分布,t检验样本例数n50且样本来自偏态分布,变量变换或秩和检验【例 1】根据大量调查,健康成年男子的脉搏均数

55、是72.2次/min;某医生在山区随机抽查25名健康成年男子,求得其脉搏均数为74.5次/min,标准差为6.0次/min。 . 否据此认为山区成年男子的脉搏均数与一般健康男性脉搏均数相同? 资料特点: 1. 条件:总体:总体均数记为0,一般为理论值、标准值或经过大量观察所得的稳定值。. 抽样样本:认为来自一个未知总体,均数为。2. 检验目的:假推断样本所代表的未知总体,与总体均数为0有无差异。资料类型:数值变量资料设计类型:单样本单样本的假设检验中无效假设和备那么假设假设研究的问题双侧检验单侧检验H0m = m0m = m0H1m m0m m0【案例解析】1. 由于样本例数n 50且总体标准

56、差未知,所以首先考虑t 检验,2. t 检验要求样本来自正态分布的总体,所以首先对进行正态性检验,结果说明该样本所属总体来自正态分布3. 计算公式:t 检验统计量为:检验过程:4 步骤1. 建立假设:确定显著性水平:2. 计算检验统计量:3. 确定 p 值,得出结论:查t 界值表,得t (0.05,24) =2.064,按0.05 检验水准,不拒绝H0。 故本研究尚不能认为山区成年男子的脉搏均数与一般健康男性脉搏均数不同。二两组独立样本资料的假设检验:当样本量n50时,要求两样本均来自正态总体且总体方差齐,t 检验当n50时数据的正态性可以忽略,t 检验两样本来自正态总体但总体方差不齐,t检验

57、当数据来自偏态分布总体时,首先考虑采用变量变换,再考虑选用秩和检验。1.总体方差齐时双样本的假设检验【例 2】为研究某新药治疗贫血患者的疗效,将20名贫血患者随机分成两组,一组用新药治疗,另一组用常规药治疗,测得血红蛋白增加量 (g/L) 见下表。问新药与常规药治疗贫血患者后的血红蛋白增加量有无差异?. 附表 两种药物治疗贫血患者结果资料特点: 1. 条件:从一个人群中随机抽取一定数量的观察单位,随机分配到两个不同的处理组,测量某项指标后进行组间比拟。 处理组1:认为其所在总体均数为1。. 处理组2:认为其所在总体均数为2。. 2. 检验目的:其实质就是比拟两个处理组的观察指标有无差异,即 是

58、否成立。资料类型:数值变量资料 设计类型:两独立样本双样本的假设检验中无效假设和备那么假设假设研究的问题双侧检验单侧检验H0m1 = m2m1 = m2H1m 1 m0m1 m2【案例解析】1.由于两处理组样本量均小于50,故考虑用t 检验。2. 计算公式:两样本均数比拟 t 检验的统计量:式中X1、X2分别为两样本均数,S12、S22分别为两样本的方差,n1+n2 -2为自由度。检验过程:1. 建立假设:新药和常规药治疗后血红蛋白增加量同,即 H0: 1 = 2新药和常规药治疗后血红蛋白增加量同,即 H1 :1 2确定显著性水平:a =0.052. 计算检验统计量:3. 确定 p 值,得出结

59、论:t =4.137,查 t界值表, p 0.05; 按a = 0.05水准拒绝H0,接受H1 。故可认为新药和常规药治疗后血红蛋白增加量不同,根据样本均数的信,认为,即服用新药后血红蛋白含量平均增加量高于常规药。【结果报告】在a=0.10检验水准下,新药组和常规药物组血红蛋白的增加量均服从正态分布W检验:P1=0.466, P2=0.482且两总体方差齐F =1.345, P=0.261;采用两独立样本的 t 检验:t =4.137, =18,P=0.001。结果说明:在a=0.05双侧检验水准下,可认为两药疗效不同,新药治疗患者的血红蛋白平均增加量高于常规药治疗患者。1 -2 的95%可信

60、区间3.829,11.731也说明新药治疗的患者血红蛋白质平均增加量高。组别nHb含量g/L新药组1027.994.56常规药组1020.213.82表7.2 不同组别血红蛋白增加量()两样本均数t 检验的前提条件是数据的正态性和方差齐性。1.假设两样本所属总体均为正态,方差齐, t 检验2.假设两样本所属总体均为正态,但方差不齐, t 检验,同时校正自由度3.假设两样本所属总体偏态,变量变换后再t 检验或非参数检验2. 总体方差不齐时双样本的假设检验【例 3】为探讨硫酸氧钒对糖尿病性白内障大鼠血糖的影响,研究人员将已诱导糖尿病模型的100只大鼠随机分为两组,实验组给予硫酸氧钒治疗,对照组为空

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论