医学统计学(执业医师考试)_第1页
医学统计学(执业医师考试)_第2页
医学统计学(执业医师考试)_第3页
医学统计学(执业医师考试)_第4页
医学统计学(执业医师考试)_第5页
已阅读5页,还剩160页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基本概念观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、家庭、标本、国家等。基本概念总体与样本(Population&sample)总体:根据研究目的而确定的性质相同的观察单位的全体(同质的所有观察单位某项变量值的集合)样本:按随机化原则从总体中抽取部分观察单位的某一变量值的集合。抽样误差(Samplingerror)

由抽样的偶然性和个体差异导致的样本统计量(样本均数、样本率等)与总体参数(总体均数、总体率等)的差异称为抽样误差。基本概念误差(error):测量值与真值之差。

系统误差:单向,可以避免随机测量误差:双向,不可避免,但可控制抽样误差:统计学主要研究部分分类变量(categoricalvariable,计数资料)

其变量值是定性的,表现为互不相容的类别或属性无序分类变量二项分类:阳性和阴性,治愈和未愈等多项分类:A、B、O、AB血型有序分类变量(等级资料)血清反应可分-++++++

四级变量的类型数值变量(numericalvariable

,计量资料)

其变量值是定量的,表现为数值的大小,一般有度量衡单位。如身高、体重、浓度。统计描述(Statisticaldescription)

统计描述是统计推断的基础,它作用是通过绘制统计图表和计算数据分布特征的基本统计量来了解样本观察值的分布特征,为进一步的统计推断打下基础。基本概念统计推断(Statisticalinference)

在医学研究中,通常在总体中随机抽取一定数量观察单位作为样本进行抽样研究,然后由样本信息推断总体特征,这一过程称为统计推断。基本概念小概率事件

统计学上,习惯上将P≤0.05或P≤0.01的事件称为小概率事件,表示该事件发生的可能性很小。基本概念统计工作的步骤1.设计(design)统计工作中最关键的一环。设计的内容包括资料搜集、整理和分析全过程总的设想和安排,要周密考虑,细致安排。2.收集资料(datacollection)根据研究目的,按设计要求,及时取得准确完整的原始数据。主要有四个来源:1.统计报表;2.报告卡(单);3.日常医疗卫生工作记录;4.专题调查或实验3.整理资料(sortingdata)按设计要求,使原始数据系统化、条理化,以便近一步计算指标和分析。分组有两种:质量分组、数量分组4.分析资料(analysisdata)基础数据计算分析、统计处理,作出结论。包括:1.统计描述2.统计推断集中趋势指标集中趋势指标用于描述一组同质计量资料的集中趋势或反映一组观察值的平均水平。常用的平均数有算术均数、几何均数及中位数三种。数值变量的统计描述一、算术均数(mean)算术均数简称均数。X表示变量X的样本均数,

(希腊字母)表示总体均数。均数适用于对称分布资料,正态或近似正态分布资料。二、几何均数

(geometricmean,G)几何均数用G表示。适用于对数正态分布资料或等比资料,例如抗体的平均滴度和平均效价。计算方法:直接法:样本含量n较小时,选用此法。有n个观察值X1,X2,……Xn,几何均数的计算公式为:三、中位数(median,M)将一组观察值从小到大按顺序排列,位次居中的观察值就称中位数。用M表示。中位数适用于任何一种分布的计量数据,一般多用于描述偏态分布或数据一端无界资料的集中趋势。附:百分位数(PX)百分位数是一种位置指标,用PX表示。对总体来说,它表示总体中数值小于PX的个体恰有X%;对样本来说,它表示按照升序排列的数列里小于PX的个体恰占X%百分位数是一个有序数列百等分的分割值。第50百分位数(P50)也就是中位数,中位数是一个特定的百分位数。计算公式:一、全距(range,R)亦称极差,用R表示,是一组观察值中最大值与最小值之差,反映个体差异的范围。全距大,说明变异度大;反之,说明变异度小。但全距除了最大值和最小值之外,不能反映组内其它数据的变异度;易受个别数据的影响,稳定性较差,抽样误差较大,而且还受n大小的影响,平均起来,n越大,全距越大。离散趋势指标二、四分位数间距

(quartilerange,Q)四分位数间距是两个特定的百分位数之差,用Q表示Q=QU-QL=P75-P25适用于任何分布的计量资料,尤其适用于偏态分布的资料(不宜用标准差表示离散度)四分位数间距比全距稳定,但仍然未考虑到每个观察值的变异。三、方差与标准差为克服全距的缺点,应全面考虑组内每个观察值的离散情况。可考虑以总体中每个变量值X与总体平均数之差,称为离均差X-

。由于离均差有正有负,其和为0,这样仍不能反映变异度的大小。故将离均差平方后再相加,称离均差平方和为了消除观察值的总个数N的影响,将离均差平方和除以N,这就是总体方差,用σ2表示。方差的单位是原度量单位(如kg)的平方,把总体方差开平方,这就是总体标准差,度量单位与原始观察值一致,即方差(variance)标准差(standarddeviation)实际工作中经常得到的是样本资料,总体均数

是未知的,只能用样本均数X代替。这样用代替,用样本含量n代替N,所得的结果比σ偏小。英国统计学家W.S.Gosset提出用n-1代替n,求得样本标准差更接近总体标准差σ,样本标准差用S表示,公式为:上式n-1称为自由度(ν)。样本标准差计算也可用直接法或加权法。n较小时,选择直接法,n较大,选择加权法四、变异系数

(coefficientofvariation,CV)适用:(1)比较度量单位不同的多组资料的变异度(2)比较均数相差悬殊的多组资料变异度计算公式为:正态分布的特征1.正态分布在横轴上方,均数处最高,以均数μ为中心,左右对称。2.正态分布的X取值范围理论上没有边界,X离μ越远,f(X)值越接近0,但不会等于0。3.正态分布曲线下的面积分布有一定的规律。所有的正态分布曲线,在μ左右任意个标准差范围内面积相同。4.正态分布完全由两个参数即均数μ与标准差σ决定,其中μ是位置参数,σ是变异参数。常用N(μ,σ2)来表示。μ=0、σ=1的标准正态分布医学参考值范围的估计正态分布法

95%参考值范围百分位数法一、均数的抽样分布与抽样误差抽样研究的目的就是要用样本信息来推断总体特征。由于存在个体变异,样本均数(X)往往不等于总体均数(),因此抽样后各个样本均数也往往不等于总体均数,且各个样本均数间也不一定都相等。这种由抽样造成的样本均数与总体均数的差异或各样本均数之间的差异称为抽样误差,抽样误差是不可避免的。数值变量的参数估计均数的标准误及计算

反映均数抽样误差大小的指标是样本均数X的标准差简称标准误(理论值),用表示,或SE、SEM。由于在实际抽样研究中

往往未知,通常用某一样本标准差s来替代,得标准误的估计值(通常也简称为标准误),其计算公式为:标准误的应用1.反映样本均数的可靠性;

标准误反映抽样误差的大小。标准误大,表示抽样误差大,则样本均数估计总体均数的可靠性差。反之,标准误小,抽样误差小,样本均数估计总体均数的可靠性好。2.估计总体均数的可信区间;3.用于均数的假设检验。

即用样本指标(统计量)估计总体指标(参数)有两种常用方法:点估计和区间估计(一)点估计:样本均数()就是总体均数的点估计值(μ)

该法简单,但未考虑抽样误差,而抽样误差在抽样研究中是不可忽视的。结合样本统计量和标准误可以确定一个具有一定可信度的包含总体参数的区间,该区间称为总体参数的1-α可信区间(confidenceinterval,CI)总体均数的可信区间估计(1)

未知,但样本例数n足够大(如n﹥50),总体均数的1-α双侧可信区间为总体均数95%的双侧可信区间为:总体均数可信区间的计算总体均数99%的双侧可信区间为:例某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,试估计该市2000年19岁健康男大学生平均身高的95%可信区间。本例n=90,可按正态分布近似法计算故该市2000年19岁健康男大学生平均身高的95%可信区间为(171.3,173.1)cm。1.单峰分布,以0为中心,左右对称;2.t分布是一簇曲线,其形态变化与自由度

的大小有关

n-1

越小,与的差别越大,t值越分散,曲线的峰部越矮,尾部越粗。

越大,t分布越接近于标准正态分布。t分布的特征:(2)

未知,且n较小时,总体均数可信区间的计算或简写为:

t检验和u检验可用于样本均数和总体均数的比较及两样本均数的比较。t检验的应用条件:(1)

未知,样本例数n较小;(2)要求样本来自正态分布的总体;(3)作两样本均数比较时还要求两样本的总体方差相等。u检验的应用条件:

已知或

未知,但n足够大(一般大于100);(2)、(3)同上。一、样本均数与总体均数比较u检验[例3]根据大量调查,已知健康成年男子的脉搏均数为72次/分,标准差为6.0次/分。某医生在某山区随机调查25名健康成年男子,求得脉搏均数为74.2次/分,且已知该山区该组脉搏数总体标准差为6.0次/分,能否认为该山区的成年男子的脉搏均数高于一般成年男子的脉搏均数?H0:

0,H1:≠0已知0=72.0次/分,=6.0次/分,

=74.2次/分,n=25。第一步:建立两个假设。第二步:确定检验水准。=0.05第三步:计算u值。第四步:判断P值。

u=1.833<1.96,P>0.05,按=0.05检验水准,不拒绝H0,认为山区成年男子和一般男子的脉搏均数无统计学差异。二、完全随机设计的两样本均数的比较(用于n1、n2均足够大时)u检验[例4]某地抽查了部分健康成人的红细胞数,其中男性360人,均数为4.660×1012/L,标准差为0.575×1012/L;女性255人,均数为4.178×1012/L,标准差为0.291×1012/L,试问该地男、女红细胞数的均数有无差别?H0:

1=

2,H1:

1

2=4.660×1012/L,s1=0.575×1012/L,n1=360,=4.178×1012/L,s2=0.291×1012/L,n2=255。第一步:建立两个假设。第二步:确定检验水准。=0.05第三步:计算u值。第四步:判断P值。

u=13.63>1.96,P<0.05,按=0.05检验水准拒绝H0,接受H1,可认为该地男、女性红细胞均数有统计学差异。样本均数与总体均数的比较---单个样本t检验[例1]根据大量调查,已知健康成年男子的脉搏均数为72次/分,某医生在某山区随机调查25名健康成年男子,求得脉搏均数为74.2次/分,样本标准差为6.5次/分,能否认为该山区的成年男子的脉搏均数高于一般成年男子的脉搏均数?(1)建立假设:H0:

0,

H1:

≠0,确定检验水准:

0.05(2)(3)自由度df=25-1=24,查t界值表,得t24,0.05/2=2.064。t=1.692<2.064,则P>0.05,按

0.05检验水准,不拒绝H0,因此该山区成年男子与一般男子的脉搏均数无统计学差异。配对设计资料t检验配对设计:目的:控制可能存在的非处理因素。①同一受试对象实验(或治疗)前后的比较②同一样品用两种方法检验结果的比较③配对的两种受试对象分别接受两种处理后的数据比较

[例2]

有12名接种卡介苗的儿童,八周后用两批不同的结合菌素,一批是标准结核菌素,一批是新制结核菌素,分别注射在儿童前臂,比较两种结核菌素的皮肤侵润反应平均直径,问两种结核菌素的反应性有无差别?12名儿童使用两种结核菌素皮肤侵润反应结果(mm)儿童号标准品新制品差值dd2112.010.02.04.00214.510.04.520.25315.512.53.09.00411.012.0-1.01.00513.010.03.09.00612.05.56.542.25710.58.52.04.0087.56.51.01.0099.05.53.512.251015.08.07.049.001113.06.56.542.251210.59.51.01.00合计--39(

d)195(

d2)1.建立假设:H0:

d=0,

H1:

d

0,

0.05。

d为治疗前后差值的总体均数。

2.计算统计量t值先计算差值d及d2(如表1),得

d=0.58,

d22.1182计算差值均数计算差值的标准差

计算差值的标准误

3.确定临界值(t

),判断结果

自由度=n-1=12-1=11,

t0.05/2,11=2.201

4.以统计量(t)与临界值(t

)比较本例t=4.519>t0.05/2,11,P<0.05,按

0.05检验水准,拒绝H0,接受H1,认为两法皮肤侵润反应平均直径有差别。完全随机设计的两样本均数的比较---两组独立样本资料t检验[例3]某克山病区测11例克山病患者与13名健康人的血磷值(nmol/L)如下,问该地急性克山病患者与健康人的血磷值是否有差别?患者0.841.051.201.201.391.531.671.801.872.072.11健康人0.540.640.640.750.760.811.161.201.341.351.481.561.87(1)Ⅰ型错误是指拒绝了实际上成立的H0,也即“弃真”。在H0成立的前提下,由于抽样的偶然性,得到了较大的t值,若t>t0.05(

),则P<0.05,按

0.05水准拒绝H0,则犯了Ⅰ型错误。确定以tα为临界值时,犯Ⅰ型错误的概率就是α。作假设检验时,有可能发生两种错误,现以样本均数和总体均数的单侧检验为例说明。(2)Ⅱ型错误是指接受了实际上不成立的H0,也即“取伪”。在实际上H1成立的前提下,由于抽样的偶然性得到了较小的t值,若t<t0.05(

),则P>0.05,按

0.05的水准不拒绝H0。这就犯了Ⅱ型错误,Ⅱ型错误的概率用

表示。假设检验的注意事项(一)保证组间的可比性:严密的实验设计,样本从同质总体中随机抽取;(二)根据研究目的、设计和资料类型选用恰当的检验方法;(三)正确理解差别有无统计学意义和实际意义的区别:差别有无统计意义与有无专业上的实际意义是两个不同的概念;(四)结论不能绝对化:当P接近检验水准

时,下结论要慎重单侧和双侧检验选用单侧检验的条件是在研究开始之前,表明不会出现

0的情况(或不会出现

0的情况),才能选用单侧检验。若没有这方面的依据,一般选用双侧检验。(五)u检验和t检验理论上要求样本来自正态分布总体,还要注意方差齐性。方差分析应用条件各样本是相互独立的随机样本各样本来自正态总体各处理组方差齐性第一节完全随机设计的方差分析

(单因素方差分析)试验设计时,将受试对象随机分配到两组或多组中进行实验观察,这里涉及到一个因素,该因素的各个水平就是各个处理组。单因素方差分析的计算公式变异离均差平方和SS自由度df均方MSFN-1k-1N-k第二节随机区组设计的方差分析是两因素方差分析。两个因素指主要的研究因素和区组因素。它把总变异分解为处理间(因素)变异、区组间(配伍组)变异及误差三部分。它除了推断k个样本所代表的总体均数

1,2,3,…是否相等外,还要推断b个区组(配伍组)所代表的总体均数是否相等。由于从总变异中分离出配伍组变异,考虑了个体变异对处理的影响,使误差更能反映随机误差的大小,因而提高了研究效率。公式:变异来源SSdfMSF总处理间配伍间误差N-1k-1b-1df总-df处-df配相对数常用的种类1、率(rate)2、构成比(constituentratio)3、相对比(relativeratio)相对数是两个有关联事物数据之比。

相对数的概念一、构成比(constituentratio)

又称构成指标,说明某一事物内部各组成部分所占的比重或分布,常以百分数表示。

二、率(rate)

又称频率指标,说明某现象发生的频率或强度。K为比例基数,常用百分率(%)、千分率、万分率等表示。

率=×K发生某现象的观察单位数可能发生某现象的观察单位总数统计中常用的率的指标:死亡率、发病率、患病率、感染率、病死率等。三、相对比(relativeratio)

相对比型指标是指任何两个相关联的变量A和B之比,说明A为B的若干倍或百分之几。两个指标可以是性质相同,也可以是性质不同。

A和B可以是绝对数、相对数和平均数。(1)构成比与率是意义不同的两个统计指标,分析时不能以构成比代替率。(2)计算相对数时,分母不宜过小,即应有足够例数。(3)对观察单位数不等的几个率,不能直接相加求其平均率。(4)资料的对比应注意可比性:即除了研究因素外,其余的重要影响因素应相同或相近。(5)对比不同时期资料时,应注意客观条件是否有变化。(6)对样本率(或构成比)的比较应遵循随机抽样,要做假设检验。应用相对数时的注意事项由于个体差异与偶然性的影响,这种样本频率与样本频率之间、样本频率与总体概率之间的差异称为频率的抽样误差。表示率的抽样误差指标叫率的标准误。率的抽样误差设样本率pi的总体参数为π,则率的标准误(SE)为:当总体概率π未知时,可用样本率近似地代替π,得到率标准误的估计值(通常也称为标准误)总体率的可信区间估计(一)正态近似法np和n(1-p)均≥5时,可根据近似正态分布的原理估计可信区间。总体率的可信区间估计(二)查表法

当样本例数n较小,如n≤50,特别是P很接近0或1时,按二项分布原理确定总体率的可信区间,可直接查表。率的u检验例某医院称治疗声带白斑的有效率为80%,今统计前来求医的此类患者60例,其中45例治疗有效。试问该医院宣称的疗效是否客观?按ν=∞查t临界值表:(单侧)u0.10,∞=1.2816u<u0.10,得P>0.10按α=0.05水准不拒绝H0,故可认为该医院宣称的有效率尚属客观。组别有效无效合计有效率%化疗组19(a)24(b)4344.2化放疗组34(c)10(d)4477.3合计53348760.9表1化疗组和化放疗组疗效比较一、

四格表资料的χ2检验例1某医院分别用化疗和化放疗结合法治疗卵巢癌患者,结果如下表,问两种方法有无差别?A:实际频数T:理论频数若H0:π1=π2成立→p1=p2=p

5387→43×=26.2检验步骤1.建立假设:

H0:π1=π2H1:π1≠π2

α=0.052.计算理论频数

第1行1列:T1,1=43×53/87=26.2依次类推T1,2=16.8T2,1=26.8T2,2=17.23.计算χ2

4.确定P值,作出统计推论自由度ν=(行-1)(列-1)=1

χ2

=10.01>χ2

0.05(1)=3.84,P<0.05,按α=0.05水准,拒绝H0,接受H1,差异有统计学意义,可认为化疗加放疗治疗卵巢癌疗效与单用化疗的有效率之间存在统计学差异。二.四格表专用公式a、b、c、d各代表四格表中四个实际频数例1中计算χ2值,也可用此专用公式二、四格表的校正条件:当n≥40,且1≤T<5时,应使用校正公式

注意:当n<40或出现T<1时,校正法也不能用,只能用确切概率法直接计算概率。三、四格表χ2检验的确切概率法(Fisher’sexacttest)(a+b)!(c+d)!(a+c)!(b+d)!a!b!c!d!n!P=行×列表的卡方检验

适用于多个(两个组以上)的率或构成比差别的显著性检验。例

某省观察三个地区的花生污染黄曲霉毒素B1的情况,见表8.5,问三个地区花生污染黄曲霉毒素B1污染率有无差别?一、多个率比较地区检验的样品数合计污染率%

污染未污染甲2362979.3乙14304431.8丙381127.3合计40448447.6表3三地花生黄曲霉毒素B1污染率检验步骤1、建立假设:H0:三个地区花生污染黄曲霉毒素B1污染率相等H1:三个地区花生污染黄曲霉毒素B1污染率不全相等

α=0.052.计算χ2值3.确定P值自由度ν=(3–1)(2–1)=2

χ2

=17.91>χ2

0.05(2)=5.99,则P<0.05,按α=0.05水准,拒绝H0,接受H1,差异有统计学意义,故可认为三个地区花生污染黄曲霉毒素B1污染率不全相等。【注意事项】不宜有1/5以上格子的理论频数小于5,或出现小于1的理论频数。处理方法:

1)增加样本含量

2)去除上述理论频数过小的行或列

3)合并理论频数太小的性质相近的行或列配对计数资料的卡方检验

配对设计的四格表资料:即将含量为n的一份随机样本同时按照两个二项分类的属性进行交叉分类,形成2行2列的交叉分类表。例8.10在表8-18资料中,A培养基的阳性培养率为36.36%,B培养基的阳性培养率为34.34%,试问A、B两种培养基的阳性培养率是否相同?表8-18两种培养基的培养结果A培养基B培养基合计+—

+48(a)24(b)72

—20(c)106(d)126

合计68130198公式若b+c≥40,用公式:若b+c<40,用校正公式:检验步骤:

1.建立假设并确定检验水准:

H0:两种培养基的阳性培养率相等

H1:两种培养基的阳性培养率不相等

α=0.052.计算χ2值3.确定P值,作出统计推论自由度ν=1χ2=0.3636<χ20.05(1)=3.84,查χ2界值表得P>0.05,按α=0.05水准,不拒绝H0,差异无统计学意义,故认为A、B两种培养基的阳性培养率无统计学差别。

非参数

检验Non-parametrictest秩和检验RankSumTest适用资料:1.总体分布为偏态或分布形式未知2.等级资料3.个别数据偏大或数据的某一端无确定的数值4.各总体方差不齐

非参数检验优点:不受总体分布的限定,适用范围广

非参数检验不足之处:符合作参数检验的资料(如两样本均数比较的t检验),如用非参数检验,检验效率低于参数检验。一般犯第二类错误的概率β比参数检验大

第一节

配对资料的符号秩和检验又称差数秩和检验(wilcoxon配对法)

用于分布状况不明的配对设计的两样本比较

例1

对10名健康人分别用离子交换法与蒸馏法,测得尿汞值,如表1中的(2)、(3)栏,问两法所得结果有无差别?二、配对资料的符号秩和检验编号离子法蒸馏法差值秩次

T+

T-(1)(2)(3)(4)(5)(6)10.50.00.5222.21.11.1730.00.00.0--

42.31.31.0656.23.42.8861.04.6-3.6971.81.10.73.584.44.6-0.2192.73.4-0.73.5101.32.1-0.85合计26.518.5

表110名健康人用离子交换法与蒸馏法测定尿汞值(μg/L

)1.建立假设

H0:两方法无差别,即差值的总体中位数Md=0H1:两方法有差别,即差值的总体中位数Md≠0α=0.05检验步骤2.求各对数值的差数3.编秩:(1)按差值的绝对值由小到大编秩(将秩次按差值的正负分两栏);(2)差值为0,则弃去不计,同时样本例数相应减1;(3)遇差值的绝对值相等,符号相反应取平均秩次,符号相同顺次排列。4.求秩和并确定统计量T:分别求正负秩次之和,正秩和用T+表示,负秩和的绝对值用T-表示,任取T+或T-作检验统计量T。本例取18.5T++T-=n(n+1)/2本例中26.5+18.5=45n=10-1=9n(n+1)/2=455.确定P值,作出推论(1)查表法:当n≤50时,查T界值表(符号秩和检验用)。

自左侧找到N,先用T值与最左侧的一列界值相比,若检验统计量T值在上、下界值范围内,其P值大于表上方相应概率水平;若T值在上、下界值上或范围外,则P值小于相应的概率水平,可右移一行再比较。

本例有10对数值,但由于第三对数值差值为0,所以n=10-1=9,T=18.5,查附表18-1,T界值表,T0.05(9)=5,得到双侧P>0.05,按α=0.05水准,不能拒绝H0,故尚不能认为两法测定尿汞值有差别。第二节成组设计两样本比较的秩和检验(Wilcoxon两样本比较法)用于分布状况不明的完全随机设计的两样本比较例2

某实验室观察局部温热治疗小鼠移植肿瘤的疗效,以生存日数作为观察指标,实验结果见表2,试检验两组小鼠生存日数有无差别?二、原始数据的两样本比较(查表法)

实验组对照组生存日数秩次生存日数秩次

109.5211212.5321515431516541617651718761819872020982321109.590以上2211111212.51314n1=10T1=170n2=12T2=83表2两组小鼠发癌后生存日数1.建立假设

H0:两组小鼠生存日数总体分布相同

H1:两组小鼠生存日数总体分布不同

α=0.05

检验步骤2.编秩将两组原始数据分别由小到大排队,并统一编秩,遇相同数据取其平均秩次。如表2中实验组中有两个15,顺次编秩15、16;如表2中两个10在不同组中,本应编秩次9、10,现取平均秩次为9.5;上表中两个12也在不同组中,本应编秩次12、13,现取平均秩次为12.5。3.求秩和并确定检验统计量T

当n1≠n2时,取较小n的秩和为T

当n1=n2时,任取一组的秩和为T

本例n1=10,n2=12,则T取T1值170

查表法查附表18-2,T界值表先找到n1与n2-n1相交处所对应的4行界值,再逐行考虑:将检验统计量T值与T界值相比,若T值在界值范围内,其P值大于相应的概率;若T值恰好等于界值,则P值等于相应概率;若T值在界值范围外,其P值小于相应的概率。4.确定P值,作出推论本例n1=10,n2-n1=2,T=170,查附表18-2,得双侧P<0.01,按双侧α=0.05,拒绝H0,接受H1,故可认为实验组生存日数较对照组长。第三节成组设计多个样本比较的秩和检验

H检验(Kruskal-Wallis法)用于完全随机设计的多个样本比较的非参数法例4

分别于课前、课中和课后,随机各在教室中抽取6个点测空气中CO2的含量,结果见表4,问不同时间空气中CO2含量的平均水平有无差别?

课前课中课后含量秩次含量秩次含量秩次0.4814.4512.52.9570.5324.73143.0780.5534.77153.1890.5544.82163.20100.5854.89173.30110.6265.00184.4512.5Ri2192.557.5Ni666表4不同时间空气中CO2含量(mg/m3)1.建立假设H0:三个不同时间空气中CO2含量总体分布相同H1:三个不同时间空气中CO2含量总体分布不同或不全相同α=0.05检验步骤2.编秩将各组数据混合,由小到大排列并统一编秩,如遇相同数据在不同组取其平均秩次。本例课前组中0.55有2个,顺次排秩为3、4在不同组中4.45有2个,取平均秩次(12+13)/2=12.5

课前课中课后含量秩次含量秩次含量秩次0.4814.4512.52.9570.5324.73143.0780.5534.77153.1890.5544.82163.20100.5854.89173.30110.6265.00184.4512.5Ri2192.557.5Ni666表4不同时间空气中CO2含量(mg/m3)课前、课中、课后的秩和分别为21,92.5,57.5Ni为各组的观察数,可以不同3.求各组秩和Ri

Ri=各组秩次相加

4.计算统计量H

ni为各组观察值个数,

本例:

5.确定P值,作出推论若组数k=3,每组n≤5,可查附表18-3,H界值表,得出P值;若最小样本例数大于5,则H近似服从υ=k-1的χ2分布。本例ni均为6,按υ=k-1=3-1=2,查χ2界值表H=14.95>χ20.05(2)=5.99故P

<0.05结论:可认为三个不同时间空气中CO2含量有差别。第一节直线相关(linearcorrelation)什么是相关?

当所研究的两个事物或现象之间,既存在着密切的数量关系,又不象函数关系那样,能以一个变量的数值精确地求出另一个变量的数值,我们称这类变量之间的关系为相关关系,简称相关。

目的:研究事物或现象之间有无关系、关系的方向和密切程度。直线相关的概念直线相关(linearcorrelation)又称简单相关,用于双变量正态分布资料。相关关系并不一定是因果关系,相关分析的任务就是对相关关系给以定量的描述。第一节直线相关(linearcorrelation)直线相关的性质和相关之间的密切程度:1.正相关2.负相关3.无相关4.非线性相关直线相关系数(一)相关系数的意义

相关系数(coefficientofcorrelation)又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示。它是说明具有直线关系的两个变量间相关密切程度和相关方向的统计指标。直线相关系数(一)相关系数的意义

r>0:正相关,r<0:负相关,r=0:零相关。|r|=l:完全相关相关系数没有单位,其值为-1≤r≤l

进行直线相关分析时的注意事项直线相关表示两个变量之间的关系是双向的,当散点图出现直线趋势时,再作分析。相关系数的计算只适用于两个变量都服从正态分布的资料。样本相关系数是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,必须作假设检验。相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,相关关系不一定是因果关系。出现异常值时慎用相关。进行直线相关分析时的注意事项第二节直线回归(linearregression)直线回归的概念

假设两个变量X,Y中,当一个变量X改变时,另一个变量Y也相应地改变,此时称X为自变量(independentvariable),Y为应变量(dependentvariable)。当这两个变量之间存在着直线关系时,不仅可以用相关系数r表示变量Y与X直线关系的密切程度,也可以用表示Y与X的直线关系,称为直线回归(1inear

regression)。为了区别于一般函数方程,我们将它称为直线回归方程。由上图可见,肺活量Y有随体重X增加而增大的趋势,且散点呈直线趋势,但并非12个点子恰好全都在一直线上。直线回归方程的求法

一般表达式

:a为回归直线在Y轴上的截距(intercept)。a>0:直线与纵轴的交点在原点的上方a<0:则交点在原点的下方a=0:则回归线通过原点b为回归系数(regressioncoefficient),即直线的斜率(slope)b>0:表示直线从左下方走向右上方,即Y随X增大而增大b<0:表示直线从左上方走向右下方,即y随X增大而减少b=0:表示直线与X轴平行,即X与Y无直线关系b的统计学意义是X每增(减)一个单位,Y平均改变b个单位根据数学上的最小二乘法(leastsquaremethod)原理(即保证各实测点至直线的纵向距离的平方和最小),可导出a、b的算式如下:直线回归方程的应用

1.

描述两变量间的依存关系2.利用回归方程进行预测(forecast)3.利用回归方程进行统计控制(statisticalcontrol)应用直线回归应注意的问题(1)作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种观象间的内在联系有所认识。(2)作回归分析时,一般以“因”的变量为X,以“果”的变量为Y。若变量之间无因果关系,则以容易测定、较稳定或变异较小者为X。应用直线回归应注意的问题(3)应变量是随机变量。自变量也是随机变量时,两者均应服从正态分布;自变量为给定的量时,与每个X取值相对应的变量Y必须服从正态分布。(4)回归方程只有经过检验拒绝了无效假设后才有意义。(5)回归方程的适用范围有其限度,一般仅适用于自变量X的原数据范围内,而不能任意外推。1、区别:(1)直线相关的两个变量都需服从正态分布直线回归中Y必须服从正态分布,X不一定(2)相关表示相互关系(双向),回归表示数量依存关系(单向)2、联系(1)同一样本r与b的正负号是一致的(2)同一样本r与b的假设检验是等价的(3)相关回归可互相解释

r2

决定系数

Logistic回归分析常用于应变量为分类变量的资料

在医学研究中,经常要分析某种结果的产生与哪些因素有关。例如:生存与死亡,发病与未发病,阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素有关。如何找出其中哪些因素对结果的产生有显著性影响呢?

logistic回归模型是一种概率模型,它是以疾病、死亡等结果发生的概率为因变量,影响疾病发生的因素为自变量建立回归模型。它特别适用于因变量为二项、多项分类的资料。在临床医学中多用于鉴别诊断、评价治疗措施的好坏及分析与疾病预后有关的因素等。

若因变量y为连续型正态定量变量时,可采用多重线性回归分析应变量y与多个自变量X1,X2,…

,Xm之间的关系:

现y为发病或未发病,生存与死亡等定性分类变量。

能否用发病的概率P来直接代替y呢?logistic回归模型的基本结构logistic回归的应用1.校正混杂因素2.疾病影响因素的研究3.预测与判别(1)疾病预后的估计(2)疾病诊断流行病学中的一些基本概念相对危险度(relativerisk):RR=P1/P2优势

Odds=P/(1-P)优势比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率较小情况下,OR≈RR回归系数的意义生存分析一、生存分析的概念将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。二、适用条件

结局变量多为二项分类变量(如生存、死亡),且有生存时间的信息,生存时间往往不服从正态分布,且资料收集过程中会出现删失值的问题。生存时间有2种类型:(1)完全数据(completedata):是指被观测对象从观察起点至出现终点事件所经历的时间。(2)不完全数据(censoreddata):是指在出现终点事件前,被观测对象的观测过程终止了。由于被观测对象所提供的信息是“不完全的”,只知道他们的生存时间超过了截尾时间。常用229+、689+、955+来表示不完全数据(删失数据)。

生存分析生存率(survivalrate)

用S(tk)表示,是指病人经历tk个单位时间后仍存活的概率。若无删失数据,则

但如果资料中含有删失数据,分母必须按时段进行校正,此公式则不再适用,此时生存率的计算公式应为

生存分析生存曲线的比较log-rank检验(对数秩检验、时序检验)

该检验属非参数检验,用于比较两组或多组生存曲线或生存时间是否相同。检验统计量为卡方值,自由度=组别数-1。若P≤0.05,两组或多组生存曲线有统计学差异;若P>0.05,两组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论