职称考试卫生统计学重点学习笔记_第1页
职称考试卫生统计学重点学习笔记_第2页
职称考试卫生统计学重点学习笔记_第3页
职称考试卫生统计学重点学习笔记_第4页
职称考试卫生统计学重点学习笔记_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

/卫生统计学第一章统计学的基本内容第一节医学统计学的含义1、医学统计学定义医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析的普遍原理和方法。2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学规律。3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。第二节、统计学的几个重要概念一.资料的类型1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。一般有度量衡单位,每个对象之间有量的区别。2、计数资料(分类变量):对观察对象按属性或类型分组计数所得的资料。每个对象之间没有量的差异,只有质的不同。3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间又有程度的差别。注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。二、总体根据研究目的所确定的同质的所有观察对象某项变量值的集合1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的三、样本从总体中随机抽取部分观察对象,其某项变量值的集合。从总体中随机抽取样本的目的是:用样本信息来推断总体特征。四、随机事件可以发生也可以不发生,可以这样发生也可以那样发生的事件。亦称偶然事件。五、概率描述随机事件发生可能性大小的数值,记作P,其取值范围0≤P≤1,一般用小数表示。P=0,事件不可能发生必然事件(随机事件的特例);P=1,事件必然发生;P→0,事件发生的可能性愈小;P→1,事件发生的可能性愈大六、小概率事件习惯上将P≤0.05或P≤0.01的随机事件称小概率事件。表示某事件发生的可能性很小。七、参数和统计量参数:总体指标,如总体均数、总体率,一般用希腊字母表示统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示

八、学习医学统计学的方法1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。第三节统计工作的基本步骤统计设计收集资料整理资料分析资料一、统计设计1、调查设计2、实验设计(详见第十三章)二、收集资料资料来源(1)统计报表(2)日常医疗工作原始记录和报告卡(3)专题调查三、整理资料1.目的将收集的原始资料系统化、条理化,便于进一步计算和分析2.整理分组方式(1)性质分组(2)数量分组四、分析资料1、统计描述2、统计推断第四节统计图表一、统计表1、统计表的作用代替冗长的文字叙述,便于计算、分析和对比。2、统计表的结构1)标题2)标目横标目(主语):说明表各横行数字的涵义,通常列在表的左侧纵标目(谓语):说明表各纵栏数字的涵义主语和谓语连贯起来能读成一句完整而通顺的话3、统计表的种类:1)简单表:只按单一变量分组2)组合表:按两个或两个以上变量分组某地1980年男、女HBsAg阳性率━━━━━━━━━━━━━━━━性别调查数阳性数阳性率(%)────────────────男42343037.16女45301814.00──────────────合计87644845.52━━━━━━━━━━━━━━━━4、列表原则:重点突出,简单明了;主谓分明,层次分明5、统计表的基本要求:1)标题:概括地说明表的内容,必要时注明资料的时间和地点,写在表上方。常见的缺点:过于简略,甚至不写标题;或过于繁琐;或标题不确切。2)标目:文字简明扼要,有单位的标目要注明单位。常见的缺点:标目过多,层次不清3)线条:不宜过多,除上面的顶线,下面的底线,纵标目及合计之间的横线外,其余线条一般均省去。表的左上角不宜有斜线。4)数字:

A、数字一律用阿拉伯数字表示B、同一指标的小数位数应一致,位次对齐C、表内不宜留空格,暂缺或未记录,用“…”表示,无数字,用“—”表示,数字为0,填写0D、绝对数太小而无法计算指标,则用“…”代替。5)备注:一般不列入表内,必要时可用“*”号标出,写在表的下面。二、统计图1、统计图作用:通过点、线、面等形式表达统计资料,直观地反映事物之间的数量关系。但需注意,由于统计图对数量的表达较粗糙,不便于作深入细致的分析,一般需附相应的统计表。2、常见统计图种类:条图、百分条图,圆图,线图,半对数线图,直方图,散点图3、制图的基本要求:1)按资料的性质和分析目的,选用适合的图形2)要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。3)横轴尺度从左到右,纵轴尺度从下而上,数量一律由小到大。横轴及纵轴坐标长度比例一般为5:74)比较不同事物,用不同线条或颜色表示,并附上图例说明。4、常见统计图适用范围及其绘制要点1)条图:(1)

适用范围:相互独立的资料,常用形式:单式和复式(2)绘制要点:A.用等宽的直条的长短反映各指标的数量大小。B.纵轴的尺度必须从0开始。C.各直条之间的间隙应相等,一般将比较的指标按大小顺序排列。2)百分条图:(1)适用范围:构成比资料(2)绘制要点:A.将长条全长为100%,B.将各百分构成比在长条上分割若干段,C.各段按大小顺序排列。3)圆图(1)适用范围:构成比资料(2)绘制要点:

A.将圆面积为100%,B.将各百分构成比乘以3.6度,变为圆心角度数,C.在圆上绘出各扇型面积D.各扇型面积按大小顺序排列。4)普通线图(1)适用范围:连续性资料(2)绘制要点:

A.纵横轴均用算术尺度,B.纵横轴尺度比一般为5:7C.相邻两点用直线连接。(3)意义:反映事物的变化趋势。5)半对数线图(1)适用范围:连续性资料(2)绘制要点:A.横轴用算术尺度,纵轴用对数尺度,B.纵横轴尺度比一般为5:7C.相邻两点用直线连接。(3)意义:反映事物的变化速度。6)直方图(1)适用范围:计量的频数表资料(2)绘制要点:A.横轴表示被观察事物,纵轴表示频数或频率,B.用等宽的矩形面积表示各组段的频数或频率7)散点图:(1)适用范围:双变量资料(2)分析目的:用点的密度程度和趋势表示两变量间的相关关系(3)绘制要点(见第五章)第二章数值变量(计量)资料的统计分析第一节计量资料的统计描述一、计量资料的频数分布(一)频数表的编制1、求极差(全距)R=最大值-最小值=132.5-108.2=24.32、求组距(i)i=极差/组数=24.3/10=2.4≌23、分组段原则:第一组段包括最小值,最后组段包括最大值。每一组段都有上限和下限上限:组段的终点(最大值)下限:组段的起点(最小值)4、列表划记(二)频数分布的特征1、集中趋势:数据向某一数值集中的倾向2、离散趋势:数据的数值大小不等的倾向(三)频数分布的类型1、对称分布:集中位置在中间,左右两侧频数大体对称2、偏态分布:(1)正偏态:集中位置偏向数值小的一侧;(2)负偏态:集中位置偏向数值大的一侧(四)频数表的用途:1、揭示资料的分布特征和分布类型2、便于进一步计算指标和统计分析3、便于发现特大或特小的可疑值二、集中趋势的描述(一)常用平均数的种类:1、算术均数(简称均数)2、几何均数3、中位数(二)算术均数(均数)样本均数用X表示,总体均数用μ表示1、适用范围:对称分布,尤其是正态分布的资料2、计算方法:(1)直接法X=∑X/n(2)加权法适用于频数表资料X=∑fX/∑f其中X=组中值=(上限+下限)/2f=频数(三)几何均数(简记为G)1、适用范围:(1)等比级数资料,如血清滴度资料(2)对数正态分布资料2、计算方法:(1)直接法G=log-1(∑logX/n)(2)加权法G=log-1(∑flogX/∑f)(四)中位数(简记M)1、中位数的定义:中位数:将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。在全部观察值中,大于和小于中位数的观察值的个数相等。2、中位数的适用范围:(1)偏态分布资料(2)分布不明资料(3)分布末端无确定值资料(开口资料)理论上,中位数可用于任何分布的计量资料,但实际应用中常用于偏态分布,特别是开口资料。在对称分布资料中,M=X3、计算方法:(1)直接法:适用于观察数少资料n为奇数时,M=X(n+1)/2n为偶数时,M=(Xn/2+X(n/2+1))/2(2)频数表法:适用于频数表资料步骤:①从小到大计算累计频数和累计频数;②确定中位数所在组段;③计算中位数MM=LM+iM/fM(n/2-∑fL)LM=M所在组段的下限iM=M所在组段的组距fM=M所在组段的频数∑fL=小于L各组段的累计频数M在8~组段L=8i=4fX=48∑fL=26n=108M=L+i/fX(n/2-∑fL)=10.33(五)小结:常用平均数的意义及其应用场合平均数意义应用场合─────────────────────────均数平均数量水平最适用于对称分布,特别是正态分布几何均数平均增(减)倍数等比资料或对数正态分布中位数位次居中的观察值(1)偏态分布,(2)分布不明,(3)分布末端无确定水平三离散趋势的描述甲组26,28,30,32,34.X甲=30乙组24,27,30,33,36.X乙=30丙组26,29,30,31,34.X丙=30(一)反映离散程度的常用指标:1、极差2、四分位数间距3、方差4、标准差5、变异系数(二)极差(全距)R1、计算公式:R=最大值-最小值2、意义:R愈大,离散度愈大,R愈小,离散度愈小。3、优点:计算简单,意义明了4、缺点:(1)不能反映每一个观察值的变异;(2)样本例数越大,R可能越大;(3)R抽样误差大,不稳定。(三)四分位数间距(简记Q)1.百分位数(记作PX)(1)定义:将一组观察值从小到大按顺序排列,一个百分位数将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。P50分位数也就是中位数。(2)计算步骤及公式①从小到大计算累计频数和累计频数;②确定百分位数所在组段;③计算百分位数PxPx=L+i/fx(n.x%-∑fL)L=Px所在组段的下限i=Px所在组段的组距fx=Px所在组段的频数∑fL=小于L各组段的累计频数如计算P25P25在8~组段L25=8,i25=4,f25=48,∑fL=108,n=108P25=L25+i25/f25(n.25%-∑fL)=8.083计算P75P75在12~组段L75=12,i25=25,f75=4,∑fL=74,n=108P75=L75+i75/f75(n.75%-∑fL)=13.1202.四分位数间距(1)计算公式:P25:下四分位数简记QLP75:上四分位数简记QU四分位数间距Q=QU-QL=13.120-8.083=5.037(2)意义:中间一半观察值的极差,及R意义相似。(3)特点:A.比R稳定,但仍未考虑每一个观察值的变异;B.常用于描述偏态资料的离散度。(四)方差(总体方差简记σ2,样本方差简记S2)一组观察值的离均差平方和,取其均数,即方差。1、计算公式:2、意义:方差越大,离散度越大;方差越小,离散度越小。(五)标准差(总体标准差简记σ,样本标准差简记S)1、定义:方差的开方,即标准差。2、意义:及方差的意义相同3、样本标准差计算方法:(1)直接法:(2)加权法:4.应用:(1)用于表示正态或近似正态分布资料的离散度;(2)结合均数描述正态分布的特征;(3)计算标准误。(4)计算变异系数(六)变异系数(简记CV)1、计算公式:CV=S/X×100%2、用途:(1)比较度量衡单位不同的多组资料的变异度(2)比较均数相差悬殊的多组资料的变异度例1身高:X=166.06cm,S=4.95cm体重:X=53.72kg,S=4.96kg身高CV=4.95cm/166.06cm×100%=2.98%体重CV=4.96kg/53.72kg×100%=9.23%例2表2.6某地不同年龄男子身高(cm)的变异程度━━━━━━━━━━━━━━━━━━━━━━━年龄组人数均数标准差变异系数(%)───────────────────────3-3.5岁30096.13.13.230-35岁400170.25.00.3━━━━━━━━━━━━━━━━━━━━━━━3、CV特点:没有单位,是相对数,便于资料间的比较。第二节正态分布和参考值范围的估计一、正态分布(一)正态分布图形两头低,中间高,左右对称,呈钟型的单峰曲线。作u变换后:u=(X-μ)/σ正态分布变成μ=0,σ=1的标准正态分布。(二)正态分布特征1、曲线在横轴上方均数处最高;2、以均数为中心,左右对称;3、正态分布有两个参数:(1)μ:位置参数,确定曲线位置当σ一定时,μ越大,曲线越向右移动;μ越小,曲线越向左移动。(2)σ:离散度参数,决定曲线的形态:当μ一定时,σ越大,表示数据越分散,曲线越“胖”;σ越小,表示数据越集中,曲线越“瘦”。4、正态分布曲线下的面积有一定的分布规律。二、正态分布曲线下的面积分布规律。以曲线下总面积为100%,则有:1、μ±1σ的区间占总面积的68.27%,即μ±1σ的区间内包含的观察值个数占观察值总个数的68.27%。1、μ±1.96σ的区间占总面积的95%,即μ±1.96σ的区间内包含的观察值个数占观察值总个数的95%。3、μ±2.58σ的区间占总面积的99%,即μ±2.58σ的区间内包含的观察值个数占观察值总个数的99%。正态分布的应用1.估计频数分布情况2.估计参考值范围三、参考值范围的估计1.参考值范围意义:参考值范围(亦称为正常值范围)是指正常人的解剖、生理、生化等各种指标的波动范围。它主要用于划分正常及异常的界限。2.正常值范围制定的一般原则(1)抽取足够数量的正常人作为调查对象A.“正常人”-不是指任何一点小病都没有的人,而是指排除影响被研究指标的疾病和因素的人。如制定SGPT(谷丙转氨酶)正常值范围,正常人的条件是:a.无肝、肾、心、脑、肌肉等疾患;b.近期无服用损肝的药物(如氯丙嗪,异烟肼)c.测定前未作剧烈运动。B.正常值范围制定所需的样本例数,一般要求n>100(2)确定是否分组制定参考值范围(3)确定取单侧还是双侧正常值范围。A.白细胞数过高和过低均属于异常,则需同时制定正常值范围的下限(最小值)和上限(最大值),称双侧正常值范围。B.肺活量只过低为异常,只需制定正常值范围的下限;尿铅只过高为异常,只需制定正常值范围的上限;均称单侧正常值范围。(4)选定适当的百分界限。正常值范围的意思:绝大多数正常人的某项观察值均在该范围之内。这个绝大多,习惯上指正常人的80%、90%、95%、99%(最常用是95%)。那么,在正常值范围之外的正常人有:单侧:20%、10%、5%、1%双侧每侧:10%、5%、2.5%0.5%根据所选定的百分界限,会造成假阳性或/和假阴性。如SGPT,正常值单侧95%上限为146单位(King法)按该范围,5%的正常人(>146)被错判为异常,称假阳性;而肝功能异常者中,也可能有<146者,按该范围错判为正常,称假阴性。显然,上限值提高,假阳性减少,假阴性增多;上限值降低,假阳性增多,假阴性减少;(5)选择适当制定方法。3、正常值范围常用制定方法(1)正态分布法.A.适用范围:(近似)正态分布或对数正态分布资料B.计算公式:双侧95%X±1.96S99%X±2.58S单侧上限95%X+1.645S99%X+2.326S下限95%X-1.645S99%X-2.326S例114岁女孩身高95%参考值范围是:X±1.96S=143.08±1.96×6.58=(130.18~155.98)(2)百分位数法A.适用范围:1、偏态分布资料2、开口资料B.计算公式:双侧95%P2.5~P97.599%P0.5~P99.5单侧上限95%P9599%P99下限95%P599%P1第三节计量资料的统计推断一、均数的抽样误差及标准误一、均数的抽样误差概念由于总体中存在个体变异,所以由抽样得到的样本均数及总体均数之间存在差异,这种差异称均数的抽样误差。在抽样研究中,抽样误差是不可避免的,但可以估计其大小。二、中心极限定理1、在正态总体中,随机抽取例数为n的样本,样本均数X服从正态分布;2、在偏态总体中随机抽样,当n足够大时(n>50),X也近似正态分布;3、从均数为μ,标准差为σ的正态或偏态总体中,抽取例数为n的样本,样本均数X的总体均数仍为μ,标准差为σx三、标准误意义及其计算方法1、意义:说明均数抽样误差大小的指标,用σx表示。σx越大,均数抽样误差越大;反之,σx越小,均数抽样误差越小。2、计算公式:(理论值)(估计值)及成正比,及成反比,可以通过增加n减小。3.均数的标准误的用途:(1)说明均数抽样误差大小,反映均数的可靠性。σx越大,用样本均数推论总体均数越可靠,反之亦然(2)估计总体均数的可信区间(3)用于进行假设检验二、t分布(一)t分布含义:由于呈正态分布N(、),则可以将一般正态变量变换成标准正态变量:将一般的正态分布变换为标准正态分布N(0、1)。在实际应用中,往往未知,用代替,则只能对做t变换而不是变换:=每个可以算出一个t值,t值的分布称t分布。(二)t分布特征:1、以0为中心,左右对称的单峰分布;2、t分布的形态及自由度ν有关:ν越小,t分布曲线峰部越低平而尾部翘得越高;(t分布及u分布相差较大,即相同的曲线下面积,t值>u值)ν逐渐增大,t分布逼近标准正态分布;ν=∞,t分布=标准正态分布。(同样的曲线下面积,t值=u值)自由度不同,t分布曲线形态就不相同,因此t分布是一簇曲线,则就是说,自由度不同,相同的t值所对应的面积不同,或说,出现该t值的概率不同。(三)t值表对应于每一自由度取值,就有一条t分布曲线,每条曲线都有自身曲线下t值的分布规律,相同曲线下面积所对应的t值不同,计算t值较为繁杂。为此,统计学家已制成t值表,通过查表即获得相应的t值。查表须注意:1、横标目(左边第一列)为自由度(),纵标目为概率(P或),也就是t界值以外单侧或双侧尾部的面积占总面积的百分比,表中的数字就是对应于和的t界值,用tα,ν表示;2、t值有正负值,由于t分布是以0为中心的对称分布,故表中只列正值,查表时,不管t值正负只用绝对值;3、当ν一定时,t值越大,P越小;4、当P一定时,ν越大,t值越小;ν=∞时,t=u;5、当ν和t值一定时,双侧P=2倍单侧P。即双侧tα,ν=单侧tα/2,ν。例ν=10时:单侧=1.812即P(t≤-1.812)=0.05或P(t≥1.812)=0.05双侧=2.228即P(t≤-2.228)+P(t≥2.228)=0.05三、总体均数的估计(一)估计方法:1、点值估计:用样本均数直接作为总体均数的估计值2、区间估计(二)总体均数的区间估计1、定义:按一定的概率(1-α)确定包含未知总体均数的可能范围。所确定的范围称为总体均数的可信区间(或置信区间,CI);1-α称可信度,最常用双侧95%。2、估计方法:(1)当σ未知,而且样本例数n较小(n<50)时,按t分布原理估计:±tα,ν.(2)当σ已知,或σ未知但样本例数足够大(n>50)时,按标准正态分布原理估计:A.σ已知:(-uα.,+uα.)uα为u界值,uα.B.σ未知但n足够大(n>50):(-uα.,+uα.)uα.按标准正态分布原理估计总体均数可信区间时,熟记下列常用区间:95%总体均数可信区间:1.96或1.9699%总体均数可信区间:2.58或2.58例9.10n=20,=118.4mmHg,s=10.8mmHg,估计其95%可信区间。(-tα,ν.,+tα,ν.)t0.05,19=2.093==2.41(118.4-2.093×2.41,118.7+2.093×2.41)(113.3,123.5)mmHg例n=200,=3.64mmol/L,s=1.20mmol/L,估计其95%可信区间。uα.(3.64-1.96×,3.64+1.96×)(3.47,3.81)mmol/L3、可信区间内涵义以95%总体均数可信区间为例:有95%的可能所计算出的区间包含了总体均数,即估计正确的概率为95%,错误5%。4、可信区间两个要素:(1)准确度:反映在可信度(1-α)的大小。1-α越接近1,越准确。如可信度99%比95%准确。(2)精确度:反映在区间范围宽窄。范围越摘越好。95%可信区间精度优于99%。在n确定的情况下,准确度↑,精确度↓。在兼顾准确度和精确度时,一般取95%可信区间。在可信度确定的情况下,增加样本例数,可提高精确度。5、可信区间及正常值范围区别:(1)意义不同:正常值范围是指绝大多数观察值在某个范围;可信区间是指按一定的可信度估计总体参数(均数)可能所在的范围;(2)计算公式不同可信区间±uα.(大样本)正常值范围±uα.S前者用标准误,后者用标准差。(3)用途不同:可信区间用于估计总体均数,参考值范围用于判断观察对象某项指标正常及否。四、假设检验的基本思想和步骤(一)提出问题:例:根据大量调查的资料,已知健康成年男子的脉搏均数为72次/分。某医生在山区随机抽取了25名健康成年男子,得其脉搏均数为74.2次/分,标准差为6.5次/分。问能否认为该山区成年男子的脉搏数高于一般人?本研究目的是判断是否>(72次/分)。由于存在抽样误差,来自某一总体的随机样本其样本均数()及总体均数()往往不等;从同一总体中抽取的两个随机样本的样本均数也往往不同。因此,在比较一个样本均数及一个总体均数的差别,或比较两个样本均数的差别时,需要判断这种差别的性质和意义,造成这种差别有两种可能:(1)总体均数不等(来自不同总体),有本质差别;(2)总体均数相等(来自相同的总体),其差别由抽样误差所致,无本质差别。要判断属于那种可能,需要通过假设检验来回答。(二)假设检验原理(基本思想)要检验两指标的差别是由抽样误差引起的,还是由于总体均数不同所致,运用反证法。首先建立检验假设,假设样本来自同一总体,在此假设的基础上计算有关的统计量,根据统计量的大小来判断假设成立的概率的大小。一般把概率P≤0.05的事件称为小概率事件,小概率事件在一次观察中可以认为是不会发生的,如及这原则不符,则认为原先的假设是不正确的,就是说“假设”不能成立,则拒绝这个“假设”。否则不拒绝原来的“假设”。这就是假设检验的基本思想。(三)假设检验的一般步骤A.建立假设两种假设(1)检验假设(无效假设)用H0表示:即假设两总体均数相等,差别仅仅由于抽样误差所致;(2)备择假设用H1表示:是及H0对立的假设,当H0被拒绝,则接受H1。2、确定单双侧检验(常用双侧检验)根据研究目的和专业知识还要确定是双侧检验还是单侧检验。若目的是推断两总体是否不等(如是否μ≠μ0),不管是μ>μ0还是μ<μ0,都是我们所关心的,则用双侧检验,此时H0:μ=μ0,H1:μ≠μ0;若从专业知识已知不会μ<μ0(或不会μ>μ0),目的是推断是否μ>μ0(或μ<μ0),则用单侧检验,此时H0:μ=μ0,H1:μ>μ0(或μ<μ0)。注意:单侧检验更容易得到有统计学意义的结果,因此,做单侧检验要通过专业知识来确定,否则,一律做双侧检验,双侧检验更稳妥。3.确定检验水准检验水准用表示,是拒绝或不拒绝H0的概率标准,也就是小概率事件标准,是人为选定的概率值,一般取α=0.05(根据需要也可取0.2、0.15、0.1、0.01等)。B、选定检验方法和计算统计量根据研究设计方案、资料类型、样本含量大小及分析目的选用适当的检验方法,并根据样本资料计算相应的检验统计量。不同的检验方法要用不同的公式计算现有样本的检验统计量(t,u,F值)。检验统计量是在H0成立的前提下计算出来。C、确定P值P值是指在H0所规定的总体中作随机抽样,获得等于及大于(或等于及小于)现有样本统计量的概率。P也可以通俗地说,P是指H0成立的概率大小。用计算所得的检验统计量(t、u值)及相应的界值比较,确定P值。D、作出推断结论假设检验的结论:(1)统计学结论(拒绝或接受H0,即有无统计学意义);(2)专业结论。2、推断结论方法(1)当P≤α时,结论是:拒绝H0,接受H1(差别有显著意义或有统计学意义);(2)当P>α时,结论是:不拒绝H0。(差别无显著意义,或无统计学意义);作出上述推断的理由(1)如果P≤α,则按α水准拒绝H0,接受H1。因为抽取一个样本,仅代表一次试验,现P≤α,为小概率事件,小概率事件在一次试验中竟然发生,及概率理论的一个基本原则:小概率事件在一次试验中不会发生产生矛盾,因此拒绝H0。(2)如果P>α,则按α水准不拒绝H0,因为概率较大,没有理由拒绝H0,认为其成立。所以,研究者只是在概率上从H0及H1两者中选择一个较为合理的判断。由此可见,假设检验所作出的结论是具有概率性质的,不是绝对的肯定或否定。不论拒绝或不拒绝H0都可能发生错误。拒绝实际上是成立的H0,这类“弃真”的错误称Ⅰ型错误或第一类错误。不拒绝(接受)实际上是不成立的H0,这类“存伪”的错误称Ⅱ型错误或第二类错误。即拒绝H0,犯Ⅰ型错误;接受H1,犯Ⅱ型错误。两类错误的关系第一类错误的概率为α,第二类错误的概率为βα越大,β越小,α越小,β越大。第四节t检验和u检验一、t检验和u检验用途1、样本均数及总体均数的比较;2、配对计量资料的比较;3、两样本均数的比较;二、t检验和u检验应用条件1、t检验应用条件:(1)样本来自正态总体;(2)两小样本均数比较,还要求样本的总体方差相等。2、u检验应用条件:样本例数n较大(n>100),或n虽小而总体标准差已知(少见)。三、单样本t检验(样本均数及总体均数比较t检验)1、目的:检验样本均数所代表的未知总体均数是否等于以已知的总体均数。已知的总体均数指:(1)理论值;(2)标准值;(3)经大量调查得到的稳定值。2、检验公式t=v=n-1四、配对t检验1、配对设计含义:将受试对象按一定条件配成对子,再随机分配每对的两个受试对象到不同的处理组。2、配对设计形式①同对的两个受试对象分别给予两种处理;②同一受试对象分别给予两种处理(如同一个样品用两种方法检测,或同一受试对象不同部位某指标的值)③同一受试对象处理前后比较3、检验公式:t=v=n-1五、两样本均数比较(一)两大样本均数的u检验1、适用条件两个样本含量均足够大(n1>50和n2>50)2、检验公式:(二)两小样本均数的比较—t检验1、应用条件(1)样本来自正态总体;(2)两样本所来自的总体方差相等。2、检验公式或六、假设检验应注意的问题(一)要有严密的抽样研究设计,考虑到被比较的样本的可比性,这是假设检验的前提。(二)选用的假设检验方法应符合其应用条件。(三)当所比较的差异无实际意义时,不必进行假设检验。(四)正确理解差别有无显著性的统计意义。(五)结论不能绝对化。是否拒绝H0,取决于:1、被研究的事物有无本质的差异2、抽样误差大小:(1)个体差异大小(2)样本例数多少3、检验水准α的高低(六)报告结论时最好写出较确切的P值,并且单侧检验需作注明(习惯上采用双侧检验不需作注明)第五节方差分析(F检验)(analysisofvarianceANOVA)一、方差分析的用途及应用条件(一)用途1、检验两个或多个样本均数间的差异有无统计学意义;2、回归方程的线性假设检验;3、检验两个或多个因素间有无交互作用。(二)应用条件1、各个样本是相互独立的随机样本;2、各个样本来自正态总体;3、各个处理组(样本)的总体方差方差相等,即方差齐。二、方差分析的基本思想(一)方差分析中变异的分解此资料的变异,可以分出三种:1、总变异:表现为所有数据大小不等,用总的离均差平方和表示,记为SS总。(i代表第i个组,j代表第j个观察值)的大小还及总例数N有关,确切讲是及总的自由度有关,=N-1。2、组间变异:组间变异表现为各组均数大小不等,描述其大小指标(1)用各组均数及总均数X的离均差平方和表示,记为SS组间SS组间的大小及处理因素的作用、随机误差(测量误差和个体差异)和组间自由度有关。,(2)用SS组间除于组间自由度表示,称组间均方组间均方反映处理因素和随机误差的作用。3、组内变异:组内变异表现为各组内部各个观察值大小不等。描述其大小指标:(1)用各组内部每个观察值及组均数X的离均差平方和表示,记为SS组内。SS组内的大小及随机误差(测量误差和个体差异)和组内自由度有关。,(2)用SS组内除于组内自由度表示,称组内均方组内均方只反映观察值的随机误差(个体差异及随机测量误差)。三种变异的关系:SS总=SS组内+SS组间,。(二)方差分析思想1、如果两个或多个样本来自同一个总体,或者处理因素的效应一样(没有差异),则组间和组内的变异相等,即:MS组间=MS组内或两者相差不大,它们的比值用F表示:则F=1,或F及1相差不大。2、若两个样本或多个样本来自不同总体,或者处理因素的效应不一样,则组间变异大于组内变异,即:MS组间>MS组内则F值明显大于1。要大到多大程度才有统计学意义?按和查F界值表,由F值确定P值,按P值大小作出推断。方差分析基本思想:在方差分析时,根据资料的设计类型不同,将总的离均差平方和及自由度分解为两个或多个部分,除随机误差外,其余部分的变异反映处理因素的作用,通过比较不同来源的均方,借助F分布原理作出统计推断,从而了解处理因素对观测指标有无影响。三、单因素方差分析(一)计算方法单因素方差分析的计算公式

变异来源SSυMSF

组间k-1组内(误差)SS总-SS组间N-k总N-1────────────────────────────

*

四、分析步骤1、建立假设和确定检验水准;H0:H1:或不全相等2、计算检验统计量F值表9-15例9-16方差分析结果变异来源SSυMSFP组间2.027630.675910.24<0.01组内0.791812总2.8194153、确定P值和推断结论以组间自由度为,以组内自由度为,查附表3,F界值表:=3.49,由于,故P<0.05;按,拒绝H0,接受H1,可以认为四组均数不等或不全相等。注意:以上仅是总的结论,尚需对四个样本均数进行两两比较(见后)。五、多个样本均数的两两比较-q检验多个样本均数比较经F检验后,若得出有统计学意义的结论后,要进一步推断哪些组之间有差别,哪些组之间没有差别,还是所有各组之间都有差别,要解决这些问题,就要进一步做均数间的两两比较了。多个样本均数间的两两比较又称多重比较,由于涉及的对比组数大于2,就不能应用前面介绍的t检验,只能使用下面介绍的方法。若仍用前述前述的t检验方法,对每两个对比组作比较,会使犯第一类错误(拒绝了实际上成立的H0所犯的错误)的概率α增大,即可能把本来无差别的两个总体均数判为有差别。(一)检验统计量q的计算公式为:式中为两个对比组的样本均数。为方差分析中算得的组内均方),和分别为两对比组的样本例数。(二)q检验的方法步骤对例9-16资料作两两比较。1、建立假设H0:任两对比组的总体均数相等,即H1:任两对比组的总体均数不等,2、选择检验方法,计算统计量q将四个样本均数从大到小顺序排列,并编上组次:组次1234均数3.32003.09752.68502.4025组别DCBA列出两两比较计算表,见表9-17表9-17四个样本均数两两比较的q检验对比组两均数之差标准误q值组数q界值PA及BSa0.050.01(1)(2)(3)(4)=(2)/(3)(5)(6)(7)(8)1及40.91750.12857.14044.205.50<0.011及30.63500.12854.94233.775.05<0.051及20.22250.12851.73223.084.32>0.052及40.69500.12855.40933.775.05<0.012及30.41250.12853.21023.084.32<0.053及40.28250.12852.19823.084.32>0.053、确定P值,判断结果第一节分类资料的描述一、相对数的意义和定义对于分类资料常采用相对数进行描述。收集到的分类资料,表现为绝对数,绝对数说明事物发生的实际水平,是进行统计分析的基础,但不便于事物进行深入地分析比较。相对数:是两个有联系指标之比,说明事物发生的相对水平,便于对分类资料进行分析和比较。二、常用的相对数比(Ratio)亦称相对比,是A、B两个有关指标之比,说明A是B的多少倍或百分之几。比(Ratio)=A/B(或×100%)A及B的性质可以相同,也可以不同,可以是绝对数也可以是相对数或平均数。2、构成比(Proportion)又称构成指标,说明一事物内部各个组成部分所占的比重或分布,常以百分数表示,又称百分比。构成比两个特点:(1)一组构成比之和等于100%或1;(2)某部分构成增加或减少,则其它部分构成就相应减少或增加。3、率(Rate)又称频率指标,是指在一定时间内发生某现象的观察单位数及可能发生该现象的总观察单位数之比,常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示,它说明某现象发生的频率或强度。K为比例基数,可以是百分率(%)、千分率(‰)、万分率(1/万)或十万分率(1/10万),可根据习惯或使计算出的率保持一、二位整数。人口出生率、死亡率、自然增长率、婴儿死亡率等采用千分率,某病死亡率采用十万分率。三、应用相对数时注意的问题1、计算相对数的分母不宜过小分母过小则计算所得的相对数不稳定,不可靠。如少于30例时,以绝对数表示较好。2、分析时不能以比代率3、对观察单位数不等的几个率,不能直接相加求平均率;4、资料的对比应注意可比性;5、率或构成比的比较要遵循随机抽样的原则,要做假设检验。四、率的标准化法(一)概念率的标准化:是指在比较两个或多个总率时,采用一个共同的内部构成标准,将两个或多个样本不同的内部部构成调整为相同的内部构成,以消除因内部构成不同对总率产生的影响,使算得的标准化率具有可比性。采用标准化方法计算得到的率简称标化率,又调整率。基本思想:采用统一的标准内部构成(年龄、性别),在相同的内部构成条件下,计算预期的发生率(死亡率);目的:消除因内部构成不同对总率产生的影响,使标化率具有可比性。(二)标准化率计算步骤1、选择计算方法:直接法和间接法。(1)若已知被标化组各小组的率,即pi,采用直接法;(2)若已知被标化组各小组的人数,即ni,以及总率,采用间接法。2、选定标准标准选择原则:选择有代表性的、较稳定的、数量较大的人群,如全世界的、全国的、全省的、本地区的人群数;选择相互比较的人群合并做标准;(3)选择相互比较的人群某一组做标准。3、计算预期数及预期率,即标化率。(1)直接法:按公式10.4或10.5计算;(2)间接法:按公式10.6。(三)应用标准化率注意事项1、应用直接法计算标准化率时,由于所选定的标准人口不同,算得的标准化率也不同,因此,比较几个标准化率时,应采用同一标准人口;2、当各年龄组的率出现明显交叉时,宜直接比较各年龄组的发生率,而不宜用标准化法;3、两样本标准化率的比较应作假设检验;第二节分类资料统计推断一、率的抽样误差及标准误1、率的抽样误差含义在抽烟研究中,样本率及总体率之间存在的差异称为率的抽样误差。2、描述率的抽样误差大小的指标-率的标准误计算公式(理论值)(估计值)二、总体率的估计1、估计方法(1)点估计(2)区间估计2、区间估计方法(1)正态近似法A.适用条件:np>5且n(1-p)>5B.常用两个区间的估计公式总体率的95%的可信区间:p±1.96Sp总体率的99%的可信区间:p±2.58Sp(2)查表法A.适用条件:n≤50,特别p接近于0或1B.查表方法:以样本含量n和阳性数x查统计学专著的附表三、总体率的u检验(一)样本率及总体率的比较1、适用条件:np>5且n(1-p)>52、检验公式3、检验步骤(1)建立假设H0:π=π0H1:π≠π0α=0.05(2)计算u值π=0.11,n=598,p=0.14=2.34(3)确定P值因u=2.34>1.96,故P<0.05(4)推断∵P<0.05,∴按α=0.05的水准,拒绝H0,接受H1。故可认为油田职工家属高血压患病率高于一般人。(二)两个样本率的比较1、适用条件(1)n1p1>5且n1(1-p1)>5(2)n2p2>5且n2(1-p2)>52、检验公式第三节X2检验一、X2检验用途1、两个及以上率(或构成比)之间差异比较;2、推断两变量间有无相关关系;3、检验频数分布的拟合优度。二、X2检验类型1、四格表X2检验;2、行×列表X2检验;3、配对四格表X2检验。三、X2检验基本思想及检验步骤假设两总体率相等H0:两总体阳性率相等,即π1=π2=53.59%;H1:两总体阳性率不等,即π1≠π2;α=0.05。如果H0成立,则表10.7的第一行第一列理论上的生存数为:86×97/181=86×53.59%=46.09此结果称为理论数,用T表示。上述计算可由下式计算Trc=nr=同行合计数,nC=同列合计数,n=总例数按此公式,可以计算四个理论数T11=86×97/181=46.09T12=86×84/181=39.91T21=95×97/181=50.91T22=95×84/181=44.09表10.7内,52344550只有这四个格子的数据是基本的,其它的数据都是由这四个数据推算出来的,这种资料又称为四格表资料。且表格内的数字为实际资料的数字,故称为实际数,用A表示。从表10.7可见,基本格子的实际数都不等于理论数显而易见:两样本率相差愈大,则实际数及理论数的差值就愈大。实际数及理论数的差值服从X2分布:X2=∑X2值的大小,除了决定于A-T的差值外,还取决于格子数,严格地说是及自由度v有关。因为各格的(A-T)2/T都是正值,故格子数愈多,X2值也就会愈大。自由度的计算公式为v=(行数-1)(列数-1)四格表的v=(2-1)(2-1)=1。如果检验假设成立,则实际数和理论数的差别不会很大,X2值也不会很大;否则X2值会很大。要大到多大程度才有统计学意义?按v查X2界值表,由X2值确定P值,按P值大小作出推断。表10.8x值、P值和统计结论x值P值统计结论<x>0.05不拒绝H,差异无统计学意义≥x≤0.05拒绝H,接受H,差异有统计学意义≥x≤0.01拒绝H,接受H,差异有高度统计学意义X2界值表特点:(1)X2>0;(2)P一定时,自由度ν越大,X2值越大;(3)自由度ν一定时,X2值越大,P越小;以v=1查X2界值表得:X21,0.05=3.84,X21,0.01=6.63四、四格表资料的X2检验(一)用途:两个样本率(或构成比)差异的比较(二)检验步骤1、建立假设H0:两总体阳性率相等,即π1=π2=53.59%;H1:两总体阳性率不等,即π1≠π2;α=0.05。2、计算X2值X2=3.113、查X2界值表,确定P值四格表的v=(2-1)(2-1)=1因X2=3.11<X21,0.05=3.84,故P>0.054、推断∵P<0.05,∴按α=0.05的水准,不能拒绝H0,查X2界值表得,0.1>P>0.05,按α=0.05水准不拒绝,故尚不能认为两种疗法的3年生存率有差别。(三)四格表专用公式首先将四格表的基本格子的实际数命名为:abcd此时,行合计为(a+b)和(c+d),列合计为(a+c)和(b+d),以a、b、c、d代入公式X2=∑,得简化后的四格表专用公式为四格表资料的两种公式的检验结果相同,但显然,专用公式计算更为简便。(四)四格表X2值的校正1、校正原由X2分布原来是正态变量的一种分布,X2界值表就是根据这种连续性分布而计算出来的。但是分类资料是间断性的,由此计算的X2值不连续,尤其是自由度为1的四格表,其P值可能偏小,此时要对X2值作连续性校正。2、校正条件1≤T<5且n≥403.校正公式:X2=∑(五)四格表X2检验的应用条件1、当n≧40且所有T≧5时,用四格表X2检验;2、当n≧40但有1≦T<5时,用校正四格表X2检验;3、当n<40或有T<1时,不能用X2检验,改用确切概率法。注意:四格表X2检验及前节两样本率比较的u检验是等价的。若对同一资料同时作两种检验,两个统计量X2=u2,检验的条件是一致的。五、配对四格表资料的X2检验(一)配对四格表资料的特点(二)计算公式:当b+c<40时,(三)计算举例a.建立假设H0:两总体b=cH1:两总体b≠cα=0.05b.计算X2值b=5c=10b+c<40=1.07c.查X2表确定P值首先确定自由度自由度=(行数-1)(列数-1)=(2-1)(2-1)=1然后查X2界值表X20.05,1=3.84X2=1.07<X20.05,1=3.84P>0.05d.推断在α=0.05水准上,不能拒绝H0,故尚不能认为两法检查的效果不同。六、行×列表的X2检验(一)用途:1、多个样本率差异的比较2、多个样本构成比差异的比较3、双向有序分类资料的关联性检验(二)计算公式:或(三)举例1)多个样本率差异的比较2)多个样本构成比差异的比较(四)行×列表的X2检验的应用注意事项1、不宜有理论数小于1,或1≤T<5格子数不超过总格子数的1/5★理论数太小的处理方法:(1)增加样本的含量-常规方法(2)删除理论数太小的行和列(3)合理合并理论数太小的行或列第(2)和第(3)种处理方法损失信息和损害随机性,故不宜作为常规处理方法。2、当三个及以上率(或构成比)比较,结论拒绝H0时,只能总的说有差别,但不能说明它们彼此间都有差别,或某两者间有差别。☆解决此问题方法:X2分割法。第四章秩和检验概述一、参数统计概念:在样本来自的总体分布型已知的情况下,对总体参数进行估计和检验。二、非参数检验:1、含义:不依赖于总体分布型,不考虑资料属于何种分布以及分布是否已知,比较的是分布而不是参数。这种检验方法称非参数检验。2、优点:(1)适用范围广;(2)某些非参数方法计算简便;(3)易于理解和掌握;(4)尤其适用于等级资料和开口资料;3、缺点:适宜用参数方法的资料,用非参数方法处理,会损失信息,降低检验效率。因为非参数检验犯Ⅱ型错误概率β比参数检验大。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论