卫生统计学讲义绍兴医学继续教育_第1页
卫生统计学讲义绍兴医学继续教育_第2页
卫生统计学讲义绍兴医学继续教育_第3页
卫生统计学讲义绍兴医学继续教育_第4页
卫生统计学讲义绍兴医学继续教育_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一单元概述.定义统计学(Statistics):是研究数据的收集、整理、分析的一门科学。卫生统计学(healthstatistics):是研究居民健康状况以及干生服务领域中数据的设计、的隼、壑理与分析推断的一门学科。.统计工作的步骤(1)统计设计根据研究的目的,从统计学的角度对各步提前做出的周密的计划和安排。主要分为:实验设计和调杳设计。(2)收集资料根据研究目的、实验设计的要求,收集准确的、完整的、充满信息的原始资料。收集资料的方式:直接观察、采访、填表、通信、实验室等形式。统计资料主要来自:卫生统计报表;经常性工作记录;专题调查或实验研究。(3)整理资料就是将收集来的资料有目的,有计划地进行科学加工,有些资料有问题要去掉或重新审核,有些资料要归成组,以便分析。(4)分析资料就是将经过统计整理的结果,作一系列统计描述和统计推断,阐明事物的规律性。.资料的类型数值变量与分类变量。变量的具体表现形式:数值变量:计量资料(定量资料)对每个观察单位用定量方法测定某项指标的数值大小所得的资料。特点:有计量单位,如患者的身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、红细胞计数(1012L)。分类变量(定性资料或分类资料):其观察值是定性的,表现为互不相容的类别或属性。分为两种情况:(1)计数资料按性质或类别进行分组,然后再清点各组数目所得的资料。包括:二项分类和多项分类。特点:无固有计量单位,如肤色(黑、白)、性别(男、女)、血型A、B、AB、0)、职业(工、农、兵)。(2)等级资料将观察单位按某项指标的等级顺序分组,再清点各组观察单位的个数所得的资料。特点:半定性或半定量的观察结果。有序多分类(ordinalcategorydata)。①癌症分期:早、中、晚。②药物疗效:治愈、好转、无效、死亡。③尿蛋白:-,土,+,++,+++及以上。

表1 某病患者部分体■征及化验结果病例性别年龄肝肿大白细胞总中性粒细胞尿蛋日住院天治疗□情而^xw7l所占比例(%)数氏)结果(1)⑵⑶⑷⑸⑹⑺⑻1男18+8.780+25治愈2男21+4.97838治愈3男23+9.488±42无效4男2010.382+29无效5支20+10.786+++51无效6支22+14.486+++51死亡7男1920.586++28死亡8男21+5.980+30好转9男21+5.980+30好转三类资料间关系例:测量了140人20〜40岁成年人的血压。例;测量了140人20〜40岁成年人的血压等级资料<«低血压8-等级资料<«低血压8-正常血压12〜轻度高血压15〜中度高血压17〜重度高血压计量资料计数资料以12kPa为界分为正常与异常两组,统计每组例数.几组基本概念(1)总体与样本总体:根据研究的目的所划定范围内的同质的个体构成的全体,所有同质观察单位某种观察值(即变量值)的集合。样本:总体中随机抽取的一部分观察单位的观测值的集合。样本要具有:代表性、随机性和可靠性。(2)误差泛指观测值与真实值之差,以及样本指标与总体指标之差。系统误差:由于某种原因,可使观测结果造成倾向性的偏大或偏小。随机测量误差:没有固定的倾向,可使观测结果有大有小。抽样误差:由于抽样造成的样本指标与总体指标之间的差别。(3)参数和统计量参数:总体的数值特征称为参数,用希腊字母表示。统计量:根据样本算得的某些数值特征称为统计量,用英文字母表示。(4)概率与频率表2某试脸者抛掷硬币的试璇概率是度量随机事件A发生可能性大小的一个数量,记为P(A)。频率若在n次同样的随机试验,事件A发生了k次,则比值k/n称为频率。可以证明:若当试验次数n充分大以后,频率k/n稳定地在某一确定值P的附近摆动。TOC\o"1-5"\h\z可用事件A的频率作为所求概率的近似值: 0.30P(A)7f(A)=k/n。 7 0.35频率与概率的关系: 26 0.52抛掷硬币的试验,试验结果如表2。 0.52历史上许多名家做过抛掷硬币的试验,抛掷硬币试验结果如表3。表34大抛掷硬币试验结果试验者抛掷次数(n)出现止面次数也)频率(k/n)DeMorgan204810610.518Buffon4,04020480.5069Pearson12,00060190.5016Pearson24,000120120.5005第二单元定量资料的统计描述、频数分布表与直方图1.频数分布表例1、现有145例粪链球菌食物中毒病人,其潜伏期分布如表4所示。表4娄链球菌食物中毒潜伏期潜伏期(小时)频数(f)累计频数1818日〜456312〜40103比〜3013324〜613930〜013936-414342〜2145

表5某地144名正常成年男子红细胞数频数表组段频数£4.2〜24.4〜44.6〜74.B〜165.0〜205.2〜255.4〜245.6-225.8-166.0〜26.2〜56.4〜日.612.直方图3.频数分布类型(1)对称分布:指集中位置在中间,左右两侧的频数基本对称。(2)偏态分布:又称不对称型分布,指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值较小的一侧,称为正偏态:若集中位置偏向数值较大的一侧,称为负偏态。二、集中位置的描述(平均数average)1.定义

反映计量资料的集中趋势(位置)或反映计量资料的数量水平的指标。2.常用平均数的计算(1)算术均数应用条件:描述单峰对称分布资料,特别是正态分布或近似正态分布资料的集中位置。计算:直接法:即将所有观察值X1,X,……Xn直接相加,再除以观察值的个数n,计算公式为:加权法:受/团+加权法:受/团+4凡+…+九x=当二口£Z+--+A例1、9例氯丙烯中毒的患者腓总神经的传导速度(米/秒)记录如下:55.941.244.150.741.945.250.742.843.7(2)几何均数应用条件:原始观察值呈偏态分布,但经过对数变换后呈正态分布或近似正态分布的资料,如血清抗体滴度等。计算:G=#J=1g-1(2丝,直接法: 犬加权法:加权法:例2、5个人的血清滴度为:1:21:41:81:161:32求:平均滴度G

G=^2x4x8xl6x32=8或lgG=lg2+lg4+lg8+lgl6+lg32=omG=lg-10.903=8故平均滴度为1:8。(3)中位数应用条件:适用于各种分布的资料,实际工作中常用来描述不对称分布的资料、两端无确切值或分布不明确的资料的集中位置。意义:中位数是将一组观察值按大小顺序排列后位次居中的数值。计算:直接计算法:例:1.00.9例:1.00.90.91.00.91.04.52.22.22.22.24.53.43.46.9例:1.00.9例:1.00.90.91.00.91.04.52.22.22.22.24.53.43.46.96.96.94.5中位数为2.24.56.9中位数为(2.2+3.4)/2=2.8计算公式为:当n为奇数时.M=X (n+1)/2当n为偶数时,MutX.4Xv式中:X式中:X(n+1)/2、%/2、汇/2+1为有序数列中相应位次上的观察值。中位数的频数表计算法:河=4+:5石0%-二⑴其中:J为中位数所在组段下限;i为中位数所在组段的组距;以为中位数所在组段的频数;二五为中位数所在组段前所有组段的累计频数。例3、现有145例粪链球菌食物中毒病人,其潜伏期分布如表6所示。表6粪建球菌食物中毒潜伏期潜伏期(小时)频数(f)累计频数1818g〜456312〜4010318-3013324〜613930〜0139的〜414342〜2145中位:145X50%=72.5中位数:M=12+6(145X50%—63)/40=13.4中位数的推广:百分位数。其中:Lx为Px所在组段下限;i为该组段的组距;fx为该组段的频数;-尤为所在组段前所有组段的累计频数。例4、测得某地200名正常人发汞值(〃g/g),其资料见表7,试计算以、P75表7某地28名正常人发汞值g/g)组段(5(1)频数f⑵频率(%)(3)累计频数⑷累计频率(%)(5)0.3〜2010.02010.00.T〜5025.07035.01.1〜4623.011658.01.5〜3015.014673.0L9〜2512.517185.52.3〜168.018793.52.T〜63.019396.53.1〜42.019798.53.5〜21.019999.53.9—4.310.5200100.0合计200100.0%=0.7+—(200x25%-20)=0.9心且/g)^5=1.9+—(200x75%-146)=1.96C/^g/g)25习题:.卫生统计工作步骤可分为:A.统计研究调查、设计、收集资料、分析资料B.统计研究调查、统计描述、统计推断C.统计研究设计、收集资料、整理资料、分析资料D.统计研究收集、整理资料、统计描述、统计推断E.统计研究设计、统计描述、统计推断、统计图表『正确答案』C.为了搞好统计工作,达到预期目标,最重要的是:A.原始资料要多B.原始资料要真实可靠C.整理资料要详细D.分析资料要先进E.统计计算精度要高『正确答案』.统计资料的类型包括:A.频数分布资料和等级分类资料B.多项分类资料和二项分类资料C.正态分布资料和频数分布资料D.数值变量资料和等级资料E.数值变量资料和分类变量资料『正确答案』E.抽样误差是指:A.样本指标与总体指标之间由于抽样产生的差别B.由于抽样产生的各观察值之间的差别C.通过统一的标准可以减少D.参数与统计量之间由于过失而产生的差别E.以上均不对『正确答案』A.计量资料,计数资料和等级资料三者的关系是:A.计数资料兼有计量资料和等级资料的一些性质B.等级资料又称为半计数资料C.计量资料有计数资料和等级资料的一些性质D.等级资料兼有计数资料和计量资料的一些性质E.以上均不对『正确答案』.用两种不同成份的培养基(分别为701批与702批)分别培养鼠疫杆菌,重复试验单元数为5个,将48小时内各试验单元上生长的活菌数记录如下:701批:4884 90 123171702批:90116 124 22584那么该资料的类型为:A.计数资料B.计量资料C.等级资料D.名义性资料E.以上均不是『正确答案』.某医院用某种新疗法治疗某病患者41人,治疗结果如下:治疗结果:治愈显效好转恶化死亡治疗人数:8 23 6 3 1该资料的类型为:A.计数资料.计量资料C.等级资料D.名义资料E.以上均不是『正确答案』C三、变异程度(离散程度的描述)现有甲、乙、丙三组数据甲组60708090100乙组7075808590丙组607580851001、极差(Range)K^最大值^最小值R武100—60=40R乙=90—70=20R丙=100—60=402、方差:描述对称分布,特别是正态分布或近似正态分布资料变异程度的指标。总体方差用b2表示,样本方差用S2表示。3、标准差(StandardofDeviation)直接法一一计算公式:加权法计算公式:4、,四分位数间距:反映了一组观察值按从小到大的顺序排列后,中间一半观察值的波动范围。QU—QL=P75-P25适用于非正态分布!!百分位数:指将观察值从小到大排列后,处于第x百分位上的数值,用符号Px表示。5、变异系数(CoefficientofVariance)变异系数也称离散系数,用CV表示。其计算公式为:cy=£xioo%四、正态分布及其应用1、正态分布的概念和特性图2.2频数分布逐渐接近正态分布示意图如果将观察人数逐渐增多,组距也不断缩小,图中直条将逐渐变窄,整个图形将逐渐接近于一条光滑的曲线,即接近于近似正态分布曲线。正态分布的密度函数:/W=-k/32bM:总体均数,o总体标准差。正态分布的特性(1)正态分布曲线略呈钟形;(2)正态分布以均数p为中心,左右对称;(3)正态分布有两个参数,即均数p和标准差o。(4)正态分布曲线下的面积分布有一定的规律。

正态分布曲线下的面积分布规律:标准正态分布:均数为0,标准差为1的正态分布,称为标准正态分布,即X〜N(0,1)。任何正态分布X〜N(p,o2)经过Z变换,均服从标准正态分布。Z变换又称为标准化变换,其公式如下:对于任意X〜N(p,o2),当p,o取值不同时,正态曲线下任意两点(XjX2)范围内的曲线下面积会不限但其标准正态分布曲线下(Z「ZJ范围内的曲线下面积则是相等的,,其中叮 仃。因此,可以编制标准正态曲线下面积分布表,即标准正态分布表,对于正态分布X〜N(p,o2),均可借助此表估计正态分布曲线下任意两点(X,X)范围内的面积。1 2

2.正态分布的应用估计医学正常值范围:医学参考值范围是指绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标的波动范围。这里的“绝大多数”可以是90%、95%或99%,最常用的是95%。(1)近似正态法对于正态分布嗖似正态分布的资料,只要样本含量足够大(N〉100)时,可用:作为双侧95%的正常值范围。单侧时界值为1.645。g/irnlCC"工4/古代国里'工3能,X+2.5SS)a双侧99%正常值范围:140名成年男子的红细胞数,其和分别为:均数4.78(X1012/L)标准差0.37(X1012/L)因此,其95%正常值范围可定为:(4.78—1.96X0.37,4.78+1.96X0.37)X1012/L即(4.06,5.51)X1012/L。(2)百分位数法应用条件:偏态分布资料。95计算公式:双侧界值:P单侧上界:P单侧下界:P95例题:1.各观察值均加(或减)同一数后A.均数不变,标准差改变B.均数改变,标准差不变C.两者均不变D.两者均改变E.根据资料不同,二者变化不同『正确答案』B2.要全面描述正态分布或近似正态分布资料的分布特征,可采用:A.均数与标准差B.中位数与四分位间距C.全距与中位数D.均数与变异系数E.采用频数表『正确答案』A3.要全面描述一般偏态分布资料的分布特征,可采用:A.均数与标准差B.中位数与四分位间距C.全距与中位数D.均数与变异系数E.采用频数表『正确答案』B第三单元总体均数的估计和假设检验第一节均数的抽样误差与标准误

1.均数的抽样误差例如:在北京市估计10岁男孩1.均数的抽样误差例如:在北京市估计10岁男孩样本均数与总体均数之间的差异或样本均数之间的差异都是由于抽样引起的,称为均数的抽样误差。影响均数的抽样误差大小的因素有两个:总体内各个个体间的变异程度;样本的含量n的大小。与样本量的关系:S一定,nt,标准误I。2.标准误描写抽样误差大小的统计量称为标准误。对计量资料其计算公式为:例1、1量140名正常人的空腹血糖,得弄=鸵.55唾%£=12.97^g%,试计算标准误。用,处,叫…,后服从正态分布J自由度p=刘-1例1、1量140名正常人的空腹血糖,得弄=鸵.55唾%£=12.97^g%,试计算标准误。用,处,叫…,后服从正态分布J自由度p=刘-1口2.图形特征t分布以0为中心,左右对称;形状与自由度有关,自由度越小,曲线的峰部越低,尾部越高;随自由度增大逼近标准正态分布,当自由度为8时,t分布就是标准正态分布。3.曲线下面积特点与t临界值表t值表(附表1)横坐标:自由度,u。纵坐标:概率p,即曲线下阴影部分的面积;表中的数字:相应的|t|界值。『点第三节总体均数的估计r参教估计一统计推断 I区间估计〔假设检验参数估计:用样本指标值(统计量)估计总体指标值(参数)。统计推断的任务就是用样本信息推论总体特征。参数估计,用样本均数估计总体均数。1、点(值)估计(近似值)2、区间估计(近似范围)▲概念:根据样本均数,按一定的可信度计算出总体均数很可能在的一个数值范围,这个范围称为总体均数的可信区间(confidenceinterval,CI)。区间估计:.当n足够大时,总体均数的区间估计:总体均数的95%的置信区间:(X-l,96S^,X+1,968^)总体均数的99%的置信区间:(X-2,5^,X+2,538^)140名正常人的空腹血糖的95%与99%的区间估计为:(88.55—1.96X1.096,88.55+1.96X1.096)即: (86.40,90.70)(88.55—2.58X1.096,88.55+2.58X1.096)即: (85.72,91.38).当n较小且总体方差未知时,总体均数的区间估计(■工-b2HS友,友+ ,S友)

例2、测得25名1岁婴儿血红蛋白均数为123.7g/L,标准差为11.9g/L。计算1岁婴儿血红蛋白均数的95%可信区间。v=25—1=24,比=口.口3查表得j口口3/224=2口日4(123.7-2.064x11.9/725,12 工口Mx11.9/衣)t界值去规律:(1)自由度(U)一定时,p与t成反比;(2)概率(p)一定时,u与t成反比。正常值范围估计与可信区间估计可信区间(置信区间)正常值范围概念:总体均数所在的数值范围概念:绝大多数正常人的某指标范围。(95%,99%,指95%,99%指可信度)绝大多数正常人)计算公式:计算公式:1、正态分布资料的95%参考值范围:正态分布法:2、o2、o未知,但n较大:双侧:■了一1.9版勃1.95S.X土兀无只有下限:XT64S只有上限:X+1.64S2、非正态分布资料的95%参考值范围:百分位数法双侧:P2.5〜P97.5只有下限:〉P5只有上限:<P95用途:判断观察对象的某项指标是否正常用途:估计总体均数例题:.减少均数的抽样误差的可行方法之一是:A.严格执行随机抽样B.增大样本含量C.设立对照D.选一些处于中间状态的个体E.选一些处于极端状态的个体『正确答案』.在标准差与标准误的关系中,说法正确的是:A.样本例数增大时,样本差减小,标准差不变B.可信区间大小与标准差有关,而参考值范围与标准误有关C.样本例数增大时,标准差增大,标准误也增大D.样本的例数增大时,标准差与标准误均减小E.总体标准差一定时,增大样本例数会减小标准误『正确答案』E.统计推断包括两个重要方面是:A.统计量与参数.统计量与假设检验C.参数估计与假设检验D.参数估计与统计预测E.区间估计与假设检验『正确答案』C第四节假设检验1.假设检验的基本原理及思想▼科本1•...同一常年.工总抽村注注引起P-OX'5界串土就廿字定文兑体即杆本I工舁小砥不同引星改⑴婚(本亚不同) /' 有统Y1手忠义总体人——打本之不AUH融格展若束解畀2.假设检验的步骤一一以t检验为例(1)建立假设,确定检验水准检验假设或者称零假设(无效假设),用H0表示,H/假设是假设两总体均数相等。对立假设(备择假设),用斗表示。斗是与H0相反的假设,假设两总体均数不相等。检验水准(a)就是我们用来区分大概率事件和小概率事件的标准(即预先规定的小概率事件的水准),是人为规定的。通常a取0.05或0.01。(2)计算统计量根据资料类型与分析目的选择适当的公式计算出统计量t值。(3)确定概率值,作出推断将计算得到的t值与查表tau或t“2口比较,得到P值的大小。或采用统计软件计算,可得到精确其P值。当a=0.05:如果P〉0.05,不拒绝H。,差别无统计学意义,结论是不认为两总体均数不相等。如果P<0.05,拒绝H0,接受斗,差别有统计意义,结论:可以认为是两总体均数不相等。第五节t检验一、单个样本的t检验(样本均数与总体均数比较的t检验)(onesamplettest)1区一闻区一㈤自由度u=n—1例1、根据大量调查,已知健康成年男子脉搏的均数为72次/分钟。某医生在某山区随机调查了25名健康成年男子,求得其脉搏均数74.2次/分钟,标准差为6.5次/分钟,能否据此认为该山区成年男子的脉搏数高于一般地区。H0:p=p0,即该山区健康成年男子脉搏数与一般地区相同。H1:p>p。,即该山区健康成年男子脉搏数高于一般地区。a=0.05。年=74.2,『n,―6.5,h=25当H成立时,统计量:03.自由度u=n—1=25—1=24。查t界值表(附表1)单侧得:0.05<P<0.10,不能拒绝H0,差异无统计学意义。尚不能认为该山区健康成年男子脉搏数高于一般地区。二、配对资料比较的t检验(pairedsamplettest)1、配对资料(三种情况)①配对的两个受试对象分别接受两种处理之后的数据:②同一样品用两种方法(或仪器等)检验的结果;⑶同一受试对象两个部位的数据。2、目的:判断不同的处理间是否有差别?即:差值的总体均数为03、公式:J刊_且_工办办1u—n—1例2、某地区随机抽取12名贫血儿童的家庭,实行健康教育干预三个月,干预前后儿童的血色素(%)测量结果如表所示,试问干预前后该地区贫血儿童血色素(%)平均水平有无变化?表1健康教育干预三个月前后血色素(%)编号干预刖干预后136452466435366457575657066055742708454592550105580115160125960表2健康教育干预三个月前后血色素(%)序号干预削干预后差值1364592466418353661345757056570566055-5742702884545092550251055802511516091259601使用配对t检验解:1.建立检验假设,确定检验水准H。:p「0,即干预前后血色素(%)差值的总体均数为零Hjpd#0a=0.05.计算t值^=10.67Sd=11,18t= 1067-°=3.305Sd11.18/^v=总一1=12-1=11.确定P值,作出推断查t临界值得:0.005<P<0.01,按a=0.05水准拒绝H°,差异有统计学意义。可以认为健康教育干预措施前后该地区儿童血色素(%)有变化,且血色素(%)有所增加。三、两独立样本均数比较的t检验(成组t检验)(twoindependentsamplettest)▲目的:由两个样本均数的差别推断两样本所取自的总体中的总体均数间有无差别?▲公式:阂-♦其中:

u=n+nu=n+n—21 2例3、某克山病高发区测得11例急性克山病患者与该地13名健康人的血磷值(mg%)如表所示,定两组均数差异有否统计学意义。表3患者与健康者的血磷测定值(mg%)患者编号X: 健康者编号 X;14.7312.3426.4022.5032.6031.9843.2441.6756.5351.9865.1863.6075.5872.3383.7383.7394.3294.57105.78104.82113.73115.78124.17134.14解:1.H0:p]=p2,即克山病患者与当地健康者的血磷值的总体均数相同。H1:p1半p2,即克山病患者与当地健康者的血磷值的总体均数不相同。a=0.052.计算t为=4.71应=1.3031X2=335,52=1,30423.自由度u=n+n—2=11+13—2=221 2查附表1可得:0.01<P<0.02,按a=0.05水准拒绝H0,差异有统计学意义。可以认为克山病患者血磷的平均值高于当地健康人的血磷平均值。四、t检验的应用条件1、正态性2、方差齐性.正态性检验(normalitytest):统计指标:偏度系数、峰度系数;检验方法:W值、D值(大样本)等;统计图:P—P图、Q—Q图、直方图等。对于非正态分布的资料,若可以通过变量变换的方法,使之满足正态分布的要求,则对变换的数据采用相应的t检验即可。.方差齐性检验:两独立样本均数比较的t检验,要求相应的两总体方差相等,即方差具有齐性。为此我们要对两样本的方差作统计学检验。方差齐性的检验:用F检验,计算公式为:?_41校大)一K第六节I型错误与n型错误假设检验中作出的推断结论可能发生两种错误:.拒绝了实际成立的Ho.称为第一类错误,它的概率用a表示。设H。:厂0,若p确实为。,则H。实际上是成立的。但是,由于抽样的偶然性,得到了较大的t值,因而t〉tj而按所取的检验水准a,拒绝H。,结论为pW0(假阳性),此推断当然是错误的,其错误的概率为a。.不拒绝实际上不成立的H。,称为第二类错误,它的概率用R表示。设H。:p=0,但实质上pW0,即H。实际上是不成立的。但是,由于抽样的偶然性,得到了较小的t值,t<tj因而按检验水准a,接受了Ho(假阴性),未拒绝p=0的错误假设,即接受了不成立的假设H0,此推断当然是错误的。I型错误和H型错误由样本推断的结果真实结果拒绝H:不拒绝H:H二成立I型错误0推断正确(1一口)H二不成立推断正确([一B)II型错误B(1-P)即把握度或功效(powerofatest):两总体确有差别,被检出有差别的能力;(1—a)即可信度(confidencelevel):重复抽样时,样本区间包含总体参数的百分数。a与F间的关系:减少(增加)I型错误,将会增加(减少)II型错误,通常n固定时,a愈小,F愈大;反之,a愈大.F愈小。增大n-同时降低a与F。第七节假设检验的注意事项.所观察的样本必须具备代表性,随机性和可靠性;如果是两个样本比较,一定要注意两个样本间的齐同均衡性,即可比性。.必须根据实验设计的不同,选择不同假设检验方法。.“有统计学意义”,一般选P值为0.05作为界限,但这种选择不是绝对的。应当根据所研究事物的性质,在实验设计时加以选定,不能在得出计算结果后再决定。当然,在一般无特殊要求的条件下,可采用一般采用的界限。.统计分析不能代替专业分析。假设检验结果“有”或“无”统计学意义,主要说明抽样误差的可能性大小。在分析资料时还必须结合临床医疗,预防医学特点,来加以分析。总之,不能用统计分析来代替专业分析,当然,也不能认为统计分析可有可无。.t值小于或很接近t°05时,下结论要慎重。.正确理解P值的意义P值很小时拒绝H。,接受斗,但是不要把很小的P值误认为总体均数间差异很大。Significance并不含“显著”之意。选择题:.假设检验的一般步骤中不包括以下哪一项?A.选择检验方法和计算检验统计量B.对统计参数作出区间估计C.建立假设和确定检验水准D.直接算出P值E.作出推断性结论『正确答案』B.两样本均数比较,经t检验差别有统计学意义时,P值越小,说明:A.两样本均数差别越大.两总体均数差别越大C.越有理由认为两总体均数不同D.越有理由认为两样本均数不同E.以上均不正确『正确答案』C3.第1类错误(I型错误)的概念是:4是不对的,统计检验结果未拒绝H0H。是对的,统计检验结果未拒绝H0H。是不对的,统计检验结果拒绝H0H。是对的,统计检验结果拒绝H0E.以上都不对『正确答案』D4.统计推断中,I,II型错误均有可能发生,若要使两者都减小,则:A.只要减小a就可以了B.只要减小F就可以了C.可适当减少样本含量D.可适当增大样本含量I,II型错误不可能同时减小『正确答案』D.在比较两组资料的均数时,需要进行t检验的前提条件是:A.两总体均数不等.两总体均数相等C.两总体方差不等D.两总体方差相等E.以上都不对『正确答案』D第四单元方差分析一、方差分析的基本思想和适用条件(一)方差分析的基本思想——方差分析,又称变异数分析。常用于多个样本均数比较的假设检验。方差分析的基本思想是:把全部观察值间的总变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。现以完全随机设计为例来介绍方差分析的基本思想。.总变异:总变异反映所有观察值的变异,其大小用均方MS总来反映。MS总为观察值X与总均值离均差平方和SS总与相应的自由度u总之比,计算公式为:SS=E(X一重)2=£X2—C,u=N—1总总MSJSS总/u总式中:C=(£X)2/N,N代表总样本含量。完全随机设计的方差分析将总变异分解为组间变异和组内变异两部分。.组间变基不同处理组样本均数之间的差异称为组间变异。组间变异可以采用组间均方MS组间来反映,MS组间为组间离均差平方和SS组间与相应自由度u组间之比,计算公式为:防期间二二旗京一口口二二[(二苞)叮%]—C%间=无一1式中:k表示不同的处理组;2代表第i组的样本含量。.组内变异:处理组内每个观察值之间的差异称为组内变异,引起组内变异的原因是个体变异和测量误差。组内变异采用组内均方MS,由来反映,MS,由为组内的离均差平方和SS,力与相应的自由度u,由之比,组内 组内 组内 组内计算公式为:X,SS=E(X— )2或SS=SS-SS,u=N—k组内 组内 总 组间组内MS组内=SS组内/u组内可以证明:SSJSS组间+SS组内 u_^u + 总组间组内一方差分析的无效假设H0为:p1=p2=・“=pk,即所有总体均数相等,相应的检验统计量F为:F=MS组间/MS组内若无效假设成立,即处理效应相同,则组间变异应与组内变异一样均只反映随机误差的大小,F值接近于1。相反,若根据样本算得F的值过大,则拒绝无效假设。(二)方差分析的适用条件一数据应满足以下两个基本条件:——1.各样本是相互独立的随机样本,均服从正态分布。.各样本的总体方差相等,即方差齐性。.独立性。二、多个均数的比较(一)完全随机设计方差分析.完全随机设计中变异的分解:完全随机设计方差分析又称单因素方差分析,是将受试对象随机地分配到各处理组,再观察其实验效应。完全随机设计方差分析的计算按照表2-8进行。表2-8完全随机设计方差分析表变异来源SSMSF总变异组同殳异EXL-C占1处理二二[N—1(工2/nJ-Ck—1ss组向八组间”士组间/MS组内组内变异SS瑟号占组间N—k N—kss组内八组内.方差分析的步骤:下面以例2.19来说明方差分析的一般步骤。例2.19:为研究大豆对缺铁性贫血的恢复作用,某研究者进行了如下实验:选取已做成贫血模型的大鼠36只,随机等分为3组,每组12只,分别用三种不同的饲料喂养:不含大豆的普通饲料、含10%大豆饲料和含15%大豆饲料。喂养一周后,测定大鼠红细胞数(X1012/L),试分析喂养三种不同饲料的大鼠贫血恢复情况是否不同?(1)建立检验假设,确定检验水准H0:3个总体均数相等,即喂养三种不同饲料的大鼠红细胞数相同―):3个总体均数不全相等,即喂养三种不同饲料的大鼠红细胞数不全相同a=0.05

表2-9喂养三种不同饲料的大鼠红细胞数(X1012/L)普通饲料10%大豆饲料15%大豆饲料合计4.784.656.804.656.925.913.984.447.284.046.617.513.445.997.513.776.677.743.655.298.194.914.707.154.795.058.185.316.015.534.055.677.795.164.688.03nL12121236(N)EX:52.5366.2387.62206.3S(EX)EX:234.2783373.2851647.73211255.2946(EX:)(2)计算统计量1)计算CC=(EX)2/N=(206.38)2/36=1183.13072)计算离均差平方和及相应的自由度SS=£(X—H)2=£X2—C=1255.2946—1183.1307=72.1639总u=N—1=36—1=35总SE想间=Z屐%L牙=二[(二区//玛]—C=(52.532/12+66.232/12+87.622/12)—1183.1307=52.1258组间=k—1=3—组间=k—1=3—1=2SSSS组内=SS总一SS组间=72.1639—52.1258=20.0381组内=N—k=33组内=N—k=333)计算均方M编『萍="二独皿u觌间 乙乂端小评二誓I-.?%内a4)计算F值F=MS组间/MS组内=26.0629/0.6072=42.92u=2,u=33组间 组内方差分析结果见表2—10。表2-10完全随机设计方差分析表变异来源SSMSFP总变异72.163935组间变异52.1258226.062942.92<0.01组内变异20.0381330.6072(3)确定P值,作出推断本例u1=2,u2=33查F界值表,因表中u2无33,在保守的原则下取不大于33且与其最接近者u2=32,得F005(232)=3.29,F001(232)=5.34,P<0.01。按a=0.05水准,拒绝H0,差异有统计学意义,可以认为嗯养三种不同饲料的大鼠红细胞数的总体均值不全相同。(二)随机区组设计方差分析1.随机区组设计方差分析中的变异分解:随机区组设计又称配伍组设计,通常是将受试对象按性质相同或相近者组成b个区组,再将每个区组中的受试对象分别随机分配到k个处理组中去。随机区组设计的方差分析属无重复数据的两因素方差分析。随机区组设计资料的总离均差平方和与自由度可以分解为以下3部分:SSJSS处理+SS区组+SS误差u=u4u+u总处理区组误差

随机区组设计方差分析的计算按表2-11进行。表2-11随机区组设计方差分析计算表变异来源SSuMS F总变异Ex:-cN—1处理组工[(ZxJ7b-ck—1SS处埋八处理脏处理/M5误差区组E[(Ex:)7k-cb—13S区组八区组MS区组/M3误差i天麦ss总一S占处理一±S区组。总一u处理一。区组占占误匏/0误髭2.方差分析的步骤以例2.20来说明随机区组设计资料方差分析的步骤。例2.20:为观察不同剂量木贼药液对心率的影响,取体重300〜400g的雄性Wistar大鼠24只,按照月龄及体重相近原则每3只配成一组。将每组的3只动物随机分配到三个处理组,分别给予不同剂量的木贼灌流液,测定大鼠的心率,结果见表2-12。试问不同剂量木贼灌流液对心率的影响是否不同?表2-12给予不同剂量木贼灌流液后的大鼠心率(次/分)区组低剂量中剂量局剂量12101861305262211179122512321217812251242291821345455218184137539622118514555172111911525548213182143538工及1725146710854277(ZX)2X:372261269131147971789363(工相)(1)建立检验假设,确定检验水准1)处理组间H。:不同剂量木贼灌流液对心率的影响相同,即p]=p2=p3H1:pjp「p3不全相等a=0.O52)区组间H0:不同区组动物心率的总体均数相等斗:不同区组动物心率的总体均数不全相等a=0.05

(2)计算统计量1)计算CC=(EX)2/N=(4277)2/24=762197.0422)计算离均差平方和及相应的自由度SS总=£先—C=789363—762197.042=27165.958u^=N-1=24-1=23SS,a=E(EXi)2/b-C(1725了(1725了+(iog5y-762197.042=25920.333=25920.333u=k-1=3—1=2处理SS区组=£(£Xj)2/k一C=(526)2+(5^+(538)2"阳9加42=626.625u=b-1=8-1=7区组SS误差=SS总一SS处理-SS区组=27165.958-25920.333-626.625=619.000u=u-u -u=23-2-7=14误差总处理区组3)计算均方MS=SS /u=25920.333/2=12960.167处理 处理处理MS=SS /u=626.625/7=89.518区组 区组 区组MS=SS /u=619.000/14=44.214误差 误差 误差4)计算F值F处理=MS处理/MS误差=12960.167/44.214=293.123处理=2处理=2误差=14F区组=MS区组/MS误差:89.518/44.214:2.025区组=7,误差=14区组=7,误差=14方差分析结果见表2-13。表2-13随机区组设计方差分析表变异来源SSMSFP总变异27165.95823处理组25920.333212960.167293.123<0.01区组626.625789.5182.025>0.05送麦619.0001444.214(3)确定P值,作出推断以u =2为u,u=14为u,查F界值表,得P<0.01。按a=0.05水准拒绝H,接受H,差异处理 1误差 2 0 1有统计学意义,可认为接受不同剂量木贼灌流液的大鼠心率有差异。对于不同动物区组,以u=7为u,u =14为u,查F界值表,得P〉0.05。按a=0.05水准不区组 1误差 2拒绝H。,差异无统计学意义,尚不能认为不同区组间大鼠心率的总体均数有差异。(三)多个均数间两两比较在处理组数大于2时.若仍用t检验对任意两个均数进行比较.会增大犯1型错误的概率.即可能将实际上无差异的两个总体均数误判为有差异。两两比较的方法很多,如SNK法、LSD法、Dunnett-t检验等。SNK法,又称q检验,其检验统计量为:u=ue式中: 分别为两对比组的样本均数;nA、nB为两对比组的样本例数;MSe为方差分析中算得的误差均方;ue为误差的自由度。以例2.19资料来介绍q检验的一般步骤,对喂养三种不同饲料的大鼠红细胞数的总体均数进行两两比较。将三组大鼠红细胞数的均数从大到小排列,并编上组次:组次123均数7.305.524.38组另U15%大豆饲料10%大豆饲料普通饲料H0:任两组大鼠红细胞数的总体均数相同,即pA=pb斗:任两组大鼠红细胞数的总体均数不同,即pAWpba=0.05列出两两比较计算表:表2-14三组红细胞均数两两比较q检验分析表对比组内Q界值对比组两均数之差包含组数q值-P值也与EXa-Xba0.050.01(1)(2)(3)⑷(5)(6)(7)1与32.92313.273.494.45<0.011与21.7828.092.893.89<0.012与31.1425.182.893.89<0.01表中第(1)列为所有可能的对比组。第(2)列为两对比组均数之差,如第一行的2.92=7.30—4.38。第(3)列的a是排序后两对比组间包含的组数(包含本身在内),如1与3比较,a为3。第(4)列是按q=2.92公式计算的统计量,如第一行, 7 2 1212=13.27。第(5)、(6)列是按自由度u=33和组数a查q界值表得出,第(7)列是P值。结果显示任意两组红细胞数的差异均有统计学意义,可以认为3组大鼠的红细胞数的总体均数两两不相同。第五单元分类资料的统计描述分类资料一般采用相对数指标进行统计描述。常用相对数有率、构成比和相对比。一、常用相对数(一)率率又称频率,指某现象实际发生数与可能发生该现象的观察单位总数之比,用以说明某现象发生的频率或强度。计算公式为:去一某时期内实际发生某现象的观察单位数R’一同时期可能发生该现象的观察单位总数式中:K称为比例基数,K可以选择100%、1O00%。、100000/10万等。例2.21:某地2005年平均人口数为580360人,该年细菌性痢疾新发病人数为400人,则该地2005年细菌性痢疾发病率为400/580360X100000/10万=68.92/10万。(二)构成比构成比是指事物内部某一组成部分观察单位数与事物内部各组成部分观察单位总数之比。计算公式为:构成比-某一组成部分的观察单位数“加化一同一事物各组成部分的观察单位总数1UU此构成比有两个特点:①事物内部各组成部分的构成比之和等于100%或1;②事物内部各组成部分之间呈此消彼长的关系。例如,表2-15为某市2006年食物中毒发生场所的分布,其中“家庭”在食物中毒发生场所中所占的比重为92/156X100%=58.97%。表2-15某市2006年食物中毒发生场所的分布场所中毒起效构成比(%)家庭9258.97集体食堂3723.72誓依单位、摊贩148.98其他138.33合计156100.00(三)相对比相对比是指两个有关指标之比,用以说明一个指标是另一个指标的几倍或几分之几。计算公式为:相对比=号需(或父10瀚例2.22:抽查某地社区卫生服务机构180家,其中医生761人,全科医学培训率为33.66%;护士452人,其全科医学培训率为27.12%,则医护比为761/452=1.68,即医生的数量是护士数量的1.68倍;医生与护士的全科医学培训率之比为33.66%/27.12%=1.24,即医生全科医学培训率为护士的1.24倍。二、应用相对数应注意的问题(一)构成比和率在应用中的区别在实际应用中,以构成比代替率的错误通常发生在以下两种情况:.相同时期率的比较:例如,表2-16为2005年某地区各年龄组心脑血管疾病死亡资料。在表2-16中,第4列为各年龄组心脑血管疾病死亡人数构成比,其中40〜岁组的构成比大于60〜岁组,说明2005年该地区心脑血管疾病死亡人口中,属于该年龄组的人较多。但若据此认为40〜岁组的心脑血管疾病死亡发生频率比60〜岁组高,则犯了以构成比代替率的错误,利用第3列和第2列的数据按公式计算出第5列各年龄组的心脑血管疾病死亡率,才能反映各年龄组心脑血管疾病死亡水平。表2-162005年某地年龄别心脑血管疾病死亡构成比与死亡率年龄组(岁)(1)平均人口数(2)死亡数(3)死亡人数构成比(%)死亡率(1/10万)⑷(5)Q〜5325195.7716.9020〜82308159.6218.22如〜554716843.59122.59249126441.02256.90合计215942156100.0072.24.不同时期率的动态比较:例如表2-17为某县2000年与2005年5种传染病的发病情况。若要反映各类型疾病的发病强度,应比较2005年与2000年各类型传染病的发病率。要注意假设检验表2-17某县2000年与2005年传染病的发病情况疾病2000年2005年病例数构成比(妇病例数构成比呼吸道传染病217648.8960341.59血源及性传播疾病157335.3467146.27肠道传染病61113.7315S10.90体表传染病591.32181.24虫媒及自然疫源性疾病320.7200.00合计4451100.001450100.00(二)合计率的计算对分组资料计算合计率时,不能简单地把各组率取平均数,而应该用各率的分子合计除以分母合计。例如,表2-16资料中2005年某地区各年龄组心脑血管疾病的合计死亡率为156/215942X1OOO00/10万=72.24/10万。(三)相对数比较时应注意其可比性通常应注意:.观察对象是否同质,研究方法、观察时间是否相同。.其他影响因素在各组的内部构成是否相同。(四)观察例数问题观察单位不能太少,观察单位数太少,会造成计算出的相对数不稳定。三、动态数列及其分析指标动态数列是一系列按时间顺序排列起来的统计指标(包括绝对数、相对数或平均数),用以观察和比较事物在时间上的变化水平和发展趋势。动态数列常用的分析指标及其应用如下:.绝对增长量:两指标之差。.发展速度和增长速度:说明某事物在一定时期的速度变化。发展谏展表示报告期指标水平是基期水平的百分之多少。可计算:①定基比龙比速度,即报告期指标与基期指标之比,用符号表示为a1/a0,a/a0,…,an/a。;②环比发展速度,即报告期指标与前一期指标之比,用符号表示为a/a°,a/%…,an/an^o增长速度=发展速度一1,表示发展速度的净增长量,可计算定基比增长速度和环比增长速度。.平均发展速度和平均增长速度:常用于说明某一时期某事物的平均变化速度。平均发展速度= ,平均增长速度=平均发展速度-1o表2-18动态数列分析指标计算式中的符号示意时间No.1No.2 No.3 No.(n+1)指标符号 a: a: a; … &例2.23:某市医疗机构2002〜2006年床位数的变化情况见表2-19第2歹U。试就该资料作动态分析。ia/66003/618252002〜2006年床位数的平均发展速度= =101.3%2002〜2006年床位数的平均增长速度=101.3%—1=1.3%表2-19某市区疗机构2002〜2006年床位的发展动态年份床位数绝对增长量发展速度(%)噌长速度(%)累计逐年定基比环比定基比环比200261825100.00100.0020036328714621462102.4102.42.42.420046497131461684105.1102.75.12.72005656563831685106.2101.16.21.12006660034178347106.8100.56.80.5四、标准化法(一)标准化法的基本思想、及其意义标准化法选用统一的混杂因素构成作为标准,以消除因混杂因素构成不同对总指标的影响,以增强可比性。(二)直接和间接标准化法的应用

标准化率常用的计算方法有直接法和间接法,但两种方法的应用条件不同。表2-20计算标准化率的数据符号年龄组标准组被标化组人口人死亡数死亡率人口口死亡数死亡率1N-艮P111亡2N;R:P;11;工;P:k氐巳.工.合计NRPnYP.直接接:当已知知标化组的年龄别死亡率pi时,宜采用直接法计算标准化率。丁二二第跖已知标准组年龄别人口数时:已知标准组年龄别人口构成比时:已知标准组年龄别人口构成比时:.间接法:当被标化组的年龄别死亡率pi未知,只有年龄别人口数和死亡总数时,可采用间接法。r/EniPi是被标化组的实际死亡数与预期死亡数之比,称为标准化死亡比(SMR)。若SMR〉1,表示被标化组的死亡率高于标准组;若SMR<1,表示被标化组的死亡率低于标准组。.标准化率的计算步骤一(1)根据被标化组的数据条件选择直接法或间接法。(2)选择标准组:①根据研究目的选择有代表性的、较稳定的、数量较大的人群。如以全国的、全省的或本地区历年累计的数据作为标准较为理想;②也可将欲比较的两地或两组的人口数合并或选择其中一组人口作为标准。(3)计算标准化率。

例2.24:欲了解2006年甲、乙两地人群贫血患病情况,分别在两地进行了抽样调查,结果见表2-21。试比较甲、乙两地人群贫血的患病率。表2-212006年甲、乙两地人群贫血患病例情况用比 乙包三糜组调查人翱年龄词成比,1姐患病率(啕调堂J.数年的构成匕,(患痛率(率6皿8.71匕09E7415,)9田-121'必犯匕奂2(.21732(.-175928.14*,必115519.M2^,814-L683把灰15,211(55区21W.5916.86K.8(EJT13,)515⑼i合计■535-100.0014.T二57J31M)017(1)已知甲、乙两地人群的年龄别患病率,采用直接法计算标准化患病率。(2)选择甲、乙两地人群各年龄组合并人口数作为标准人口数Ni见表2-22第2歹U。表2-22直接法计算甲、乙两地调查人群贫血的标准化患病率三鬣组标他人口鼓甲地3地内原由西壁⑺地朝目后人戒阵患石芨前期患病;■药P;什31P;P:)口〜111:3.前WG〜3222S.LG-23'?,D.I'D2?G£一如1;20.47双23.51□944'.」必二1-41cId.:jy454也一r-bl14.cj州♦lb.JuL7y合计12)^1门门1-1.741j6(z(二艮口:14.17(二RpJ(3)按式 计算甲、乙两地调查人群的标准化患病率。尸甲甲地调查人群贫血标准化患病率空?父100%12043=13.84%尸甲甲地调查人群贫血标准化患病率空?父100%12043=13.84%乙地调查人群贫血标准化患病率=15.32%可见,经标准化以后,甲地调查人群贫血患病率低于乙地,与各年龄组的两率比较的结果一致。例2.25:已知某地2005年恶性肿瘤死亡总数48人,该地2005年各年龄组平均人口数,见表2-23第(3)歹U。试比较该地恶性肿瘤死亡率是否高于所属省份的平均水平。表2-23间接法计算某地2005年恶性肿瘤标准化死亡率if止血4-n标准死亡率(1/1。万)某地年聆组人口数预期死亡数(t)(nJ(1)⑵(3)⑷=(2)(3)2.61171810.44820〜10.59310063.28478.031690313.189吕。〜251.491035526.042合计49.387544542.963(Zn.Pj(1)由于知道该地恶性肿瘤死亡总数r和各年龄组人口数n/,未知该地各年龄组的恶性肿瘤死亡率p「故选用间接法计算标准化死亡率。(2)选择该地所属省份同期各年龄组恶性肿瘤死亡率Pj作为标准死亡率,见表2-23第(2)歹U。(3)用式 13'计算该地恶性肿瘤标化死亡率。42某地恶性肿瘤的标化死亡比smr=42.963=i.i2某地恶性肿瘤的标准化死亡率p'=49.38/10万*42.963=55.31/10万该地恶性肿瘤的标化死亡比为1.12,说明该地恶性肿瘤的死亡率是该省平均水平的1.12倍;该地恶性肿瘤的标化死亡率为55.31/10万,略高于其所属省份的平均水平。4.应用标准化法的注意事项一(1)选择的标准不同,计算出的标准化率也不相同。(2)在已知被标化组各年龄段死亡率时,宜采用直接法计算标准化率。但如果被标化组各年龄段人口数太少,年龄别死亡率波动较大时,宜采用间接标准化法。

(3)当所比较的两组内部各分组率呈现交叉或非平行变化趋势时,不宜采用标准化法,应分层比较。(4)比较样本代表的总体标准化率是否不同时,需作假设检验。第六单元率的抽样误差与Z检验一、率的标准误(一)率的抽样误差在抽样研究中,抽样误差是不可避免的。由于随机抽样造成的样本率与总体率的差别称为率的抽样误差。描述率的抽样误差大小的指标为率的标准误。(二)率的标准误的含义若从阳性率为n的总体中随机抽取m个样本含量均为n的样本,可得到m个样本阳性率p1,凡,…,p。当n较大,n既不接近0也不接近1时,样本率的分布近似服从正态分布N(n,。2)。样本率的标m p准差。反映各样本率对总体率n的离散程度,可用于描述率的抽样误差大小,称为率的标准误。率的标准p误越小,说明其抽样误差越小;反之,抽样误差越大。(三)率的标准误的计算率的标准误。计算公式为:

p率的标准误。计算公式为:

p式中:n为总体率;n为样本含量。实际工作中总体率n往往是未知的,常用样本率p作为总体率n的估计值,相应可得到op的估计值Sp,钎尸其计算公式为:从上式可以看出,减小率的抽样误差的有效方法是适当增大样本含量。例2.26:为调查某县成年人乙型肝炎表面抗原(HBsAg)的携带情况,随机抽查了100名成年人,发现HBsAg阳性者12人,试估计此次HBsAg阳性率调查的抽样误差大小。样本阳性率p=12/100=0.12。p~y—vwo=0.0325=3.25%即此次HBsAg阳性率调查的抽样误差为3.25%。二、总体率的置信区间总体率的估计包括点估计和区间估计。点估计是直接用样本率来估计总体率,没有考虑抽样误差。区间估计则考虑到抽样误差,按一定的概率1—a(即置信度为1—a)估计总体率的可能范围,此范围称为总体率的置信区间。总体率的置信区间估计方法有以下两种:.查表法:当nW50,可采用查表法,获得总体率的95%和99%置信区间。.正态近似法:当n足够大,p和1—p均不太小时(一般要求np与n(1—p)均大于5),样本率的抽样分布1斤似服从正态分布,这时可利用正态分布理论来估计总体率的置信区间。总体率的(1—a)置信区间按下式计算:(p-Za/2S,p+Za/2S)例2.2;:根据例2.26的资料,估计该县成年人HBsAg阳性率的95%置信区间。本例n=100,p=0.12,可采用正态近似法估计总体率的置信区间。阳性率的95%的置信区间按式(p-Za/2Sp,p+Za/2Sp)计算:下限:p-1.96S=0.12—1.96X0.0325=0.0563上限:p+1.96S=0.12+1.96X0.0325=0.1837所以该县成年人HBsAg阳性率的95%置信区间为(5.63%,18.37%)。三、率的Z检验(一)样本率与总体率比较样本率与总体率比较的目的是推断样本所代表的未知总体率n与已知总体率n。是否相同。有以下两种方法可供选用:.利用二项分布原理直接计算概率。.正态近似法(Z检验):Z检验适用于样本含量n较大,p和1—p均不太小,如np和n(1—p)均大于5的资料。检验统计量Z的计算公式为:回1一/)\nZ=例2.28:一项调查结果表明某市一般人群艾滋病知识的知晓率为65%。现对该市吸毒人群进行艾滋病知识调查,在150名吸毒人员中有130人回答正确。问该市吸毒人群的艾滋病知识知晓率是否高于一般人群?记该市一般人群的艾滋病知识知晓率n=65%,吸毒人群的艾滋病知识知晓率为n,样本含量n=150,0样本率p=130/150=86.7%,可采用样本率与总体率比较的Z检验。假设检验步骤如下:(1)建立检验假设,确定检验水准H0:n=0.65,即该市吸毒人群的艾滋病知识知晓率等于该市一般人群H1:n〉0.65,即该市吸毒人群的艾滋病知识知晓率高于该市一般人群a=0.05(2)计算检验统计量7P一飞0367—0.65, — — —III1"]耳(1—耳)-10,65x(1-0.65)-'V-7 \ 150(3)确定P值,作出推断查t界值表(u-8),得PV0.0005,按a=0.05水准,拒绝H0,接受H1,差异有统计学意义,可以认为该市吸毒人群的艾滋病知识知晓率高于该市一般人群。(二)两样本率比较采用Z检验的条件是两个样本含量n1与4均较大,且凡与\均不接近于0也不接沂于1,一般要求%和n2分别为两样本的样本含量;X1和X2分别为两样本的事件发生数。例2.29:为了解某校本科生体测合格率的性别差异,在本科生中随机抽查了男生110人和女生130人,结果男生有100人合格,女生有70人合格,问该校男女生体测合格率是否不同?此题需进行两样本率的比较,符合Z检验的条件。假设检验步骤如下:(1)建立检验假设,确定检验水准H0:n1=n2,该校男生的体测合格率与女生相同H1:n1Wn2,该校男生的体测合格率与女生不同a=0.05(2)计算检验统计量ni=110,X1=100,P1=X1/nx=100/110=0.9091;n2=130,{=70,P2=X2/n2=70/130=0.5385;以二3也点为受嗨+玲 110+130Z二i- S9⑼-0.E -E"叫+?加吟舄+2)(3)确定P值,作出推断查t界值表(u-8),得p<0.001,按a=0.05水准,拒绝H。,接受斗,差异有统计学意义,可以认为该校男生的体测合格率与女生的不同,男生体测合格率较高。第七单元x2检验X2检验是一种用途很广泛的统计方法,在分类资料的统计推断中,可用于推断两个及多个总体率(或构成比)是否有差别,检验两个分类变量是否有关联,以及检验频数分布的拟合优度等。一、四格表资料(一)成组设计四格表资料X2检验的计算及应用条件.1.成组设计四格表资料:表2-24为成组设计四格表的一般形式,包含a、b、c、d四个基本数据,其余数据均由这4个数据计算出来,这种两组二分类的资料,称为2X2列联表资料,亦称四格表资料。表2-24成组设计四格表资料组别属性合计1aba+bCdc+d合计a+cb+dn成组设计四格表资料的X2检验可用于检验两个样本率(或构成比)是否有差别。.X2检验的基本思想:X2检验中,从样本观察到的频数称为实际频数,用符号A表示。在无效假设H0成立的前提下,根据实际频数算得的各个格子的期望频数称为理论频数,用符号T表示。T可由下式求得:式中:q为第R行第C列格子的理论频数;nR为该格相应的行合计数;nc为该格相应的列合计数;n为总例数。X2检验的基本公式为:X-2值反映了实际频数和理论频数之间的吻合程度。若H0成立,则A与T相差不应该很大,即X2统计量不应该很大。A与T相差越大,X2值越大,相应的P值越小。若PWa,则A与T相差较大,有理由认为无效假设不成立,从而拒绝H。,接受H1。由式 可以看出,由于每个格子的 〉0,因此格子数越多,X2值也会越大,即X2值的大小除了和A与T的差别大小有关外,还与格子数有关。因而在考虑X2值大小的同时,应同时考虑格子数的多少(严格地说是自由度u的大小),这样才能更准确地反映A与T的吻合程度。自由度u可由下式求得:(R—1)(C—1)

.成组设计四格表资料X2检验的步骤例2.30:某研究欲了解某市在校男、女中学生对艾滋病知识的掌握情况,随机抽取该市某中学243名学生进行问卷调查,其中对问题“与艾滋病患者握手是否会感染艾滋病?”的回答情况见表2-25。问该市男、女中学生对该问题的知晓率是否有差异?表2-25某市男、女中学生对“与艾滋病患者握手是否会感染艾滋病”知晓率的比较性别知道不知道合计知晓率(%)男903012075.00支705312356.91合计1608324365.84(1)建立检验假设,确定检验水准H0:n^n2,即该市男、女中学生的知晓率相等H1:ni#n2,即该市男、女中学生的知晓率不等a=0.05(2)计算统计量1)计算理论频数本例若H本例若H0成立,则a、b、c、d各格的理论频数分别为:120x160=79Q12 120x83=4098g243 243_123xl60_ _123x83_2--|n— —i」U.2— —斗心.U1乙243 2432)计算X2值:按公式计算X2值(90-79,012)2(30-40,988)2(70-80,988)2(53-42,012)2=79.01240.98880,98842.012=8.8383)计算自由度u:u=(2—1)(2—1)=1(3)确定P值,作出推断查X2界值表得p<0.005,按a=0.05水准,拒绝H。,接受斗。差异有统计学意义,可以认为该市男、女中学生对该问题的知晓率不相同,男生知晓率较高。.成组设计四格表资料X2检验的专用公式2 (ad—bc^n2_(90x50-30x70)2x243_J— —.I」将例题2.30数据代入上式,得 120父123次160M苫3 ,结论同前。.成组设计四格表资料X2检验的应用条件用式一『 g+H)g+#g+c)@+d)算得的*2值在所有格子的一且nN40时,近似服从自由度为1的X2分布。当有理论频数小于5时,这种近似程度降低。因此,在分析成组设计四格表资料时,需根据具体情况作不同处理:(1)当n?40.日T丁5时.用X2检验基本公式或成组设计四格表X2检验的专用公式。(2)当n力40.日1WTV5时,用成组设计四格表X2检验的校正公式或用四格表的确切概率法。出口-川2_ (|ad-bc\-^l2),‘ (0+占)匕+以+g@+以)(3)当n<40或T<1时,不能用X2检验,应当用四格表的确切概率法。当样本含量较大时,两样本率比较也可采用两样本率比较的Z检验,两种假设检验方法等价,且Z2=X2=T2X2,而相对应的界值的关系为皿…(二)配对设计四格表资料X2检验的计算及应用条件.配对设计四格表资料的X2检验:配对设计且实验结果为二分类资料时,可整理为配对设计四格表资

料,如表2-26所示。表2-26配对设计四格表形式乙甲曾计+a b a+bc d c+d合计a+c b十d n配对设计四格表资料的X2计算公式为:U=1U=1卜式又称McNemar检验.当b+c<40时,需作连续性校正.见下式。.假设检验步骤:本节以例2.31为例介绍配对设计四格表资料X2检验的步骤。例2.31:某研究者欲比较心电图和生化测定诊断低血钾的价值,分别采用两种方法对79名临床确诊的低血钾患者进行检查,结果见表2-27。问两种方法的检测结果是否相同?表2-27两种方法诊断低血钾的结果生化测定心电图+曾计+452570459合计493079(1)建立检验假设,确定检验水准H:B=C,即两种方法的检测结果相同0H:BWC,即两种方法的检测结果不同1a=0.05

(2)计算统计量本例b+c=29<40,故用式计算:二号卢(2)计算统计量本例b+c=29<40,故用式计算:二号卢—(3)确定P值,作出推断查X2界值表,得P<0.005,按a=0.05水准,拒绝H,接受H,差异有统计学意义,可以认为两种0 1方法的检测结果不同,由于b〉C,故心电图的阳性检出率高于生化测定方法。二、行X列表资料(一)行X列表资料的X2检验.行X列表资料:当比较组数大于等于2,或资料的属性分类数大于等于2种时,数据可采用多行X多列表形式来表达,称行X列表。行X列表的X2检验用于检验两个或多个样本率(构成比)的差别是否有统计学意义。.行X列表资料X2检验的计算公式U=(R—1)(C—1).行X列表资料x2检验的步骤(1)多个样本率的比较例2.32:某研究者欲比较A、B、C三种方案治疗轻、中度高血压的疗效,将年龄在50〜70岁的240例轻、中度高血压患者随机等分为3组,分别采用三种方案治疗。一个疗程后观察疗效,结果见表2-28。问三种方案治疗轻、中度高血压的有效率有无差别?表2-28三种方案治疗轻、中度高血压的效果方案有效无效合计有效率(%)A7468092.50B58228072.50C7198088.75合计2033724084.581)建立检验假设,确定检验水准H0:n1』2』3,即三种方案治疗轻、中度高血压的有效率相同斗:三种方案治疗轻、中度高血压的有效率不全相同a=0.052)计算x2值和自由度将表2-28的数据代入公式,得X二二7TOC\o"1-5"\h\z.房,7甲62 582 222 712 92 八240x( + + + + + -1)80x203 80x37 80x203 80x37 80x203 80x37=13.868u=(3—1)(2—1)=23)确定P值,作出推断查X2界值表得P<°.005,按a=0.05水准,拒绝H。,接受斗,差异有统计学意义,可以认为三种方案治疗轻、中度高血压的有效率不全相同。(2)两组构成比的比较例2.33:为了解新型农村合作医疗对于农村贫困居民住院服务利用的影响,在经济条件相似的甲、乙两个国家级贫困县(其中甲县2006年已开展新型农村合作医疗,乙县2006年尚未开展)分别进行抽样调查,得到2006年应住院者未住院原因,见表2-29。问甲、乙两县应住院者未住院原因的构成比是否不同?

表2-29甲乙两县应住院者未位院原因构成比(%)县别经济困难没有必要没有时间其他合计甲293(87.99)10(5.11)17(3.00)13(3.90)333(100.00)乙282(92.16)9(2.94)9(2.94)6(1.96)306(100.00)合计5751926196391)建立检验假设,确定检验水准,:甲、乙两县应住院者未住院原因的总体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论