(完整word版)医学统计学第三版复习总结_第1页
(完整word版)医学统计学第三版复习总结_第2页
免费预览已结束,剩余27页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章绪论统计的三大特征:实用性、丰富性、公平性总体(population):是根据研究目的确定的、同质的全部研究对象中所有观察单位某种变量值的集合。同质基础:时间、空间、条件等(1)有限总体(finite population):有限观察单位(2)无限总体(infinite population):很多为无限总体。样本根据随机化原则从总体中抽取的一定数量(sample size)的个体,称为样本(sample),用样本信息来推断总体特征。从总体中抽取部分个体的过程称为抽样(sampling)。同质(homogeneity)是指影响被研究指标的非实验因素相同。变异(variation, var

2、iablility)同质基础上的各观察单位(亦称为个体)之间的差异为变异。如同性别、同年龄、 同民族、同地区儿童的身高有高有低,称为身高的变异。参数(parameter)禾口统计量(statistic)总体的统计指标称为参数。女口:总体均数(卩),总体发病率,总体死亡率,等,样本的统计指标称为统计量女口:样本均数(x),样本发病率,样本死亡率,等,统计学上用不同的符号表示。误差(error)观察值与实际值的差异,成为误差。分为:过失误差;系统误差;随机测量误差;随机抽样误差;(1)过失误差(mistaken error):过失所致的误差(不认真,错误判断,记录等原因);(2)系统误差(syst

3、ematic error):仪器未校准所致的误差(统一偏高,或偏低);这两类误差可以避免。(3)随机测量误差(random measurement error):不同观察者或同一观察者多次观察值的不相同。这种误差不可避免。(4)抽样误差(sampling error):总体中存在个体变异,抽样研究中所抽取的样本,只包 含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),表现为多次抽样的样本均数或率不同。这种由抽样引起的差异称为抽样误差。抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。由于生物的个体变异是客观存在的,因而抽样误差是不可避免的,但抽样误差有一定的规律性

4、。小概率事件定理:“小概率事件一次抽样不可能发生”变量及变量值变量(variable):观察对象的特征或指标。对变量进行取值所采用的工具或标准成 为测量尺度(scale)。测量的结果称为变量值(value of variable)或观察值(observed value, measurements)。随机化(randomization)使总体中的每个个体有均等的机会成为样本观察单位的过程,称为随机化。_随机抽样旨在避免人的主观性,让机遇起作用,以反映总体的客观情况。 常用:抽签法,随机数目表法,计算器随机数法;单纯随机抽样(simple random sampling):总体全部观察单位编号,再

5、用随机数字法或抽签整群抽样cluster sampling:直接由若干个群组成的总体中随机抽取若干个群,再对被 抽取的每个群的全部观察单位加以调查。系统抽样systematic sampling:(间隔抽样,机械抽样)先将总体观察单位按某顺序号分成n个部分,再从第一部分抽第k号观察单位,依次用此相等间隔机械地从每一部分各抽一个观察单位组成样本。分层抽样stratified sampling:先按某种特征将总体分为若干组别、类型、区域,再从每一层内随机抽样,组成样本。抽样误差:分层抽样系统抽样单纯随机抽样整群抽样第二章统计资料的收集和整理一、资料的类型根据是否定量划分:(1)计量资料 (meas

6、urement data)用定量方法测量每个观察单位的某项指标,所得的数值资料为计量资料,亦称数值 变量资料。一般有度量衡单位。常用:平均数,标准差,t检验,方差分析,相关与回归等分析。(2)计数资料(enumeration data)将观察单位按某种属性或类别分组,然后清点各组的观察单位数,为计数资料(亦 称分类变量资料,无序分类资料)。常用:率、构成比、卡方检验等(3)等级资料(ranked data)将观察单位按某种属性的不同程度分组,所得各组的观察单位数为等级资料,亦称 有序分类资料。常用:率、构成比、秩和检验等。三者联系:等级资料与计数资料不同:属性的分组有程度差别,各组大小顺序排列

7、; 等级资料与计量资料不同:每个观察单位未确切定量,称为半定量资料。介于计量资料与计数资料之间。计量资料T计数资料T等级资料调查设计和实验设计调查设计一般包括专业设计和统计设计。实验设计(experiment design)医学实验的基本要素包括处理因素、受试对象和实验效应三部分。实验设计应 遵循对照(空白对照,试验对照,安慰剂对照,配对对照,组间对照)、随机、重复(即样本例数)的 原则。频数分布表(frequency distribution table)用途:(1) 揭示频数的分布特征:两个重要特征:集中趋势(central ten de ncy):数值高低不等,但中等水平的人数最多。离散

8、趋势(tendency of dispersion):数值之间参差不齐;逐渐变大(或变小)的人数渐少。向两端分散。第三章计量资料的统计描述集中趋势central tendency平均数(average):用于描述数值变量资料的集中趋势(平均水平)。特点:简明概括,便于比较。包括:算术平均数,几何平均数,中位数,百分位数1、算术平均数 (arithmetic mean)一组变量值之和除以变量值个数所得的商,简称均数。总体均数,样本均数x表示。适用条件:资料成正态分布(或近似正态,或对称分布)。计算方法:直接法,加权法 均数的两个重要属性:(1)各离均差(各观察值与均数之差)的总和等于零。(2)离

9、均差的平方和小于各个观察值X与任何数a(a不等于均数)之差的平方和。 均数是一组观察值理想的代表值。均数的应用:(1) 只能在合理分布的基础上,对同质事物求均数才有意义,才能反映事物的特性。(2)均数最适用于对称分布,尤其是正态分布资料。此时,均数位于分布的中央,能反映 观察值的集中趋势。2、 几何均数geometric mean G将n个观察值的乘积再开n次方的方根(或各观察值对数值均值的反对数)。适用条件:(1)观察值为非对称分布,差距较大,用算术均数表示其平均水平会受少数特大或特小值 影响;(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如:抗体滴度,药物 效价等;(3)

10、观察值不能有0;(4) 观察值不能同时有正值和负值。几何均数的应用:(1)常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正 态分布资料;(2)同一组资料求得的几何均数小于算术均数。3、 中位数 (median, M):位于中间位置上的数值。把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变 量值的均值(偶数个)。是位置指标,以中位数为界,将观察值分为两半,有一半比它大, 一般比它小。适用于:(1)资料偏态分布;(2)两端无确定数值;(3)资料分布不清楚;女口:潜伏期,毒物测定值等用中位数表示其集中趋势。5、百分位数(percentile, P)

11、:位于某个百分位置上的数值。把一组数据从小到大排列,分成100等份,各等份含1%的观察值,处在分割界线上的数值,就是百分位数,Pr表示。百分位数将总体或样本的全部观察值分为两部分,理论上有(100-r)%的观察值比它大。如含量为n的样本,P5即表示:理论上有n5%个观察值比P5小,有n95%个观察值比P5大。一般说,分布中部的百分位数相当稳定,具有较好代表性,靠近两端的百分位数, 只在样本含量足够大时,才稳定,故,样本量不够大时,不应取太近两端的百分位数。常用的百分位数:5,25,75, 95分位数。百分位数常用于确定医学正常值范围(normalr%的观察值比它小,有range)。中位数是特定

12、的百分位数。四者的比较:中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的变量值的大小。不受 特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。而均数,几何均数 是由全部观察值综合计算出的,敏感性好。但理论上,中位数等于算术均数。百分位数常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合 使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。离散趋势tendency of dispersion常用指标:全距,四分位数间距,方差,标准差,变异系数1、全距(Range):极大与极小值之差。全距大,资料离散程度大,但易受极端值大小的 影响。样本量越大,抽到

13、极端值的可能性越大,全距可能会越大。故:全距不宜单独使用。2、 四分位数间距(quartile interval Q):将一组资料分为四等份,上四分位数P75和下四分位数P25之差,叫四分位数间距。意义:Q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为离散指标。缺点:未考虑全部观察值,不能全面反映资料离散趋势。3、方差(varianee)和标准差(standard deviation SD)对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考 虑到各个观察值,离均差的平方和是最好的指标,意义:方差,标准

14、差越大,变异程度越大。其值越小,观察值的离散度越小,用均数 反映平均水平的代表性越好。标准差应用:(1)反映一组观察值的离散程度:数值单位相同:直接比较标准差;数值单位不同:计算变异系数;变异系数(coefficientof variation,CV)也称离散系数(coefficientof dispersion)标准差与均数之比用百分数表示。公式:常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了均数和标准差, 更客观。比如:身高,体重的变异比较(2)估计变量值的频数分布:(3)计算标准误(4)估计医学正常值范围:双侧:均数土1.96倍标准差(95%)单侧:均数土1.645倍标准差

15、(95%正态分布(normal distribution)概念: 频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多,两侧逐渐减少的对称分布。是一种连续型分布。又称 高斯分布正态分布用N(y,b)表示,其位置与均数有关,形状与标准差有关。 标准正态分布:为了应用方便,常将式进行变量变换,即:u变换所得到的新变量u的分布即为标准正态分布。u的含义:变量到均数间的距离相当于标准差的倍数。u变换后,卩=0,b=1,使原来的正态分布变换为标准正态分布(standard normaldistribution)亦称u分布。正态分布的特征和分布规律:(1)曲线

16、在x轴的上方,与x轴不相交,当x=时,曲线位于最高点。f(u=0)=0.3989(2) 曲线关于直线x=左右对称。(3) 正态分布有两个参数:均数,标准差;标准正态的参数分别为:0, 1。(4) 正态分布的面积分布有一定规律。 正态曲线下面积的分布规律正态曲线下,横轴上一定区间的面积,等于该区间的频数发生的概率(即所有随机事件发生的概率)。正态曲线下面积的分布规律的应用:一、确定医学参考值范围意义:是正常人指标测定值的波动范围,可用于划分正常,或异常。步骤:1、抽样2、控制测量误差3、取单侧或双侧4、选定合适的百分界限5、资料正态性检验6、进行参考值估计补充:常用方法:正态分布法(正态分布),

17、对数正态分布法(对数正态分布或近似正态分布),百分位数法(偏态分布)二、确定概率分布三、质量控制第四章 均数的抽样误差和t分布一、均数的抽样误差和标准误均数的扌由样误差sampli ng error of mean由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因 而样本均数(或率)往往不等于总体均数(或率),样本均数之间也互不相等,这种由抽样引起的差异称为均数的抽样误差。用样本均数的标准差来估计,称标准误(sta ndard error)。即总体标准差和样本例数的比值,通常以样本标准差作为总体标准差的估计值标准误越大,均数的抽样误差越大,样本均数与总体均数间的差异越大

18、。S区别是方差的平方根。说明一组数据在其X周围的分散 情况(变异程度)。反映X对这组数值的代表性。SX是均数的标准差。说明一组均数在“均数的均数”总体 均数)周围的分散情况。反映用样本均数代表总体均数的可靠性。表示抽样误差的大小。标准误的应用1用来衡量抽样误差的大小:标准误越小,样本均数与总体均数越接近,样本均数的可信度越高;2、 结合标准正态分布与t分布曲线下的面积规律,估计总体均数的置信区间。3、用于假设检验。二、t分布(t-distribution) -标准化的均数的分布t分布曲线特征:? t分布是一簇对称于0的单峰分布曲线。?自由度越小(相当于标准差大),曲线的中间越低,两边越高;随自

19、由度增大,t分布曲线逐渐逼近于标准正态分布曲线。?当自由度无穷大时,t分布就是标准正态分布曲线。?每一条t分布曲线,都对应于相应的自由度。t分布曲线下的面积规律:与标准正态曲线下的面积规律相似:外部总面积为1%勺界限的t值称为t0.01/2(U)。?因此,中部占95%面积的t值范围:t0.05/2(u)- t0.05/2(中部占99%面积的t值范围:t0.01/2(u)- t0.01/2(使用t值表注意:?同一自由度下,P越小,t值越大;P值相同时,自由度越大, 穷大时,t值与u值相等。这也是u分布与t分布的区别。t分布的主要应用:?总体均数置信区间估计;? t检验;三、总体均数置信区间的估计

20、统计推断:参数估计,假设检验参数估计:点估计 (point estimati on):用样本统计量作为对总体参数的估计值(卩)。比如均数的估计。?区间估计(intervalestimation):根据选定的置信度估计总体均数所在的区间(a卩50)足够大,也可参考u分布进行? 3、总体标准差未知,样本例数较小,按t分布原理,依据自由度,查出某个概率相应的t界值95%置信区间的意义:?理论上,用一次抽样所得的样本均数估计总体均数,犯错误的概率为5%.?或进行100次抽样,可算得100个置信区间,平均有95个置信区间包括客观存在 的总体均数,只有5个置信区间未包括总体均数。置信区间与正常值范围:95

21、%E常值范围一般是指同质总体内包括95%个体值的估计范围,?在某一个自由度下,两侧外部总面积为5%的界限的t值称为t0.05/2(U),把两侧u),u)。t越小;当自由度无若总体为正态分布X _ 1.96S95%t信区间是指按照95%置信度估计的总体参数的可能范围,常按照下式计算X 1.96SX。前者用标准差,后者用标准误。第五章 假设检验,u,t-检验 假设检验基本思想:?先对总体的参数或分布作出某种假设,如假设总体均数(或总体率)为一定值,两 总体均数(或总体率)相等,总体服从正态分布或两总体分布相同等。?然后,用适当方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。 _结果将有助

22、于研究者作出决策取措施假设检验步骤:1建立检验假设和设定检验水准无效假设(null hypothesis) HO:假设差异仅由抽样误差所致,而两个总体参数 相同。是从反证法的思想提出的。备择假设(alternative hypothesis), H1:即差别不仅是由抽样误差所致,而且 总体参数不同。H1是和H0相联系的,对立的假设。 确定检验水准(size of a test)也叫显著性水准(significaneelevel):用a表示。即:拒绝了实际上成立的H0的概率;一般取0.05,或0.01.2、计算统计量根据研究设计类型,资料特征,统计方法的适用条件,选择和计算统计量。3、确定概率P

23、值,作出统计推断结论计算统计量后,判断在H0成立条件下,出现该统计量或更大统计量的概率。如果P大于a,是接受H0的区间;如果大于或等于界值的范围,P小于或等于a,是拒绝H0的区间。双侧,单侧检验:根据专业知识,可能大于,也可能小于卩0,称双侧检验;若认为 卩大于、等于不可能小于 卩0(或相反),为单侧检验。若不能确定单侧的情况,应采用双侧检验。在同一t值的界限上单侧检验的概率仅相当于双侧检验概率的一半。因此,总体均数间确有差别时,单侧检验比双侧检验更易得出差别有统计意义的结论。对同一资料进行检验,有可能双侧检验无统计意义而单侧检验有统计意义。但用单侧还是双侧检验,必须事先根据专业知识予以确定,

24、不能等到计算完t值以后再主观选定选择原则:?双侧检验永远是正确的?单侧检验只有在少数情况下才是合适的?即使要做单侧检验,也必须事先确定?单侧检验:有某种倾向时使用;?双侧检验:没有任何倾向;第一类错误与第二类错误假阳性错误(false positive error),统计上称为第一类错误(type I error),用a表示。即无效假设(H0:u=u0)是正确的,但被拒绝,误判为有差别(弃真错误)。统计学上定PW0.05为有意义,即在统计推断上允许犯假阳性错误的概率为5%当无效假设正确时,在100次抽样中,可以有5次推断是错误的。同样,如果定P0,Y随X的增大而增大(减少而减少)-斜上;b0,

25、Y随X的增大而减小(减少而增加)- 斜下;b=0,Y与X无直线关系-水平。Ib丨越大,表示Y随X变化越快,直线越陡峭。3直线回归方程参数的计算最小二乘法原则(least square method):使各实际散点(Y)到直线(Y?)的纵向距离的平方和最小。即使丫 一(残差或剩余值)最小Y - Y二Y - Y? Y? - Y1,2 _SS总= (Y -Y),Y的离均差平方和(total sum of squares)未考虑X与Y的回归关系时Y的总变异。-二n - 1SS剩= (Y -Y)2,为剩余平方和(residual sum of squares)X对丫的线性影响之外的一切因素对丫的变异,即

26、总变异中,无法用X解释的部分。SS剩越小,回归效果越好。=n - 2SS回=jY-Y)2,为回归平方和(regression sum of squares)由于X与Y的直线关系而使Y变异减小的部分,即总变异中, 可以用X解释的部分。SS回越大,回归效果越好。-1t检验法yxS b为样本回归系数标准误;S yx为剩余标准差同一组资料作直线相关与回归时tb与tr等值回归系数的标准误决定系数:回归平方和与总平方和之比,大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。总体回归线的95濾信带,即 卩(x=xi)的可信区间方差由Y及b (x - x)的方差两部分构成 个体Yi值

27、的范围预测回归系数的检验方法:方差分析法LSbb为总体回归系数1的估计值,其误差为SbSjy2FMS回MS剩F/lift-+世/立5-)缩写为Y土ta/I直线回归方程的应用描述两变量的依存数量关系利用回归方程进行预测利用回归方程进行控制第二 直线相关(linear correlation)简单相关(simple correlation),用于双变量正态分布资料。进行直线相关分析的基本任务在于根据x、y的实际观测值计算表示两个相关变量x与y线性相关程度和性质的统计指标一相关系数r,并进行显著性检验。1直线相关的概念直线相关是研究两变量 x、y 之间协同变化的线性关系的分析方法。2对资料的要求x、

28、y都是正态分布资料的随机变量。3.相关系数(correlation coefficient,r )*表示方法:-1 r 1意义:描述两个变量直线相关的方向与密切程度的指标。4、直线回归与直线相关的联系与区别区别:1)意义直线回归反映两变量的依存关系;直线相关反映两变量的相互关系。2)对资料的要求直线回归:自变量是正态总体的随机变量或指定变量,y定是正态总体的随机变量;直线相关:两变量均为正态总体的随机变量。联系:1)同一组资料的r与b的正负符号是一致的;2)同一组资料的r和b的假设检验结果是一致的,即t r = t b。3)两变量间有相关关系,不一定有因果关系;但两变量间有因果关系,一定有相关

29、关系。第三节Spearma n秩相关适用资料:不服从双变量正态分布总体分布类型未知原始数据用等级表示等级相关系数rs(即Spearman Correlation Coefficient)反映两变量间相关的密切程度与方向第八章相对数计数资料的统计描述一、常用相对数(relative number)1、比(ratio)a -吃迟X-X)2又称对比指标或相对比,表示两个有联系的同类指标之比,常用倍数或百分数表示。2、比例(proportion)又称构成指标,表示某一事物内部各组成部分所占的比重或分布,常用百分数表示。3、率(rate):又称频率指标,表示某现象发生的频率或强度,比例基数用k表示,据习

30、惯定,一般至少保留K2为整数。包括%。、1/万、1/10万二、医学中常用的相对数指标1、医学人口统计指标(1)人口总数(2)人口构成(3)人口生育自然增长率=粗出生率粗死亡率(4) 人口死亡粗死亡率(总死亡率)mortality rate2、反映疾病发生水平的频率指标(疾病统计指标)发病率 (in cide nee rate)某病发病率=(一定时期某病新发生的病例数/同时期内可能发生某病的人口数)K(1)时期:指观察所包括的时间范围,通常为年或月;(2)新发生的病例数:指第一次发生某种疾病,以第一次就诊为准。(3)可能发生“某病”:指存在发生某病的危险性和条件(流行病学上为暴露人群)。 患病率

31、(prevalenee rate)指在某时点接受医学检查时,可能发生某病的全体受检人群中被发现的某病病人现患 新、旧病例数。某病患病率=(检查时发现的某病现患病例数/该时点受检人口数)K适用于病程较长的疾病的统计,反映某种疾病在一定人群中流行的规模或水平病死率(fatality)某病死亡率=(观察期间内因某病死亡人数/同期某病病人总数)K三、 应用相对数应注意的问题1,计算率和构成比的分母不宜过小:否则样本率不稳定,易造成错觉;2,不要将构成比作率分析;3,求平均率时不能直接将几个率相加求其合并率或平均率,而应以总发生数除以 总可能发生例数。4,应注意资料的可比性 资料是否存在偏性 当内部结构

32、不同的相对数间进行比较时, 若比较合计率,应计算标准化率。率的抽样误差与标准误率的抽样误差:由抽样造成的样本率和总体率的差别称为率的抽样误差。P (1一P)总体率的区间估计当n_5和n(1-二)_5时,样本率p近似服从均数为二、标准误为cP的正态分布,当二p的样本估计值为率的样本标准误sp率的总体标准误用表示总体率的假设检验(u检验)适用条件:1.适用于一个样本率与一个总体率的比较,或两个样本率间的比较。而不能用于多个率或构成比资料的比较;2.要求样本量较大,一般np与n(1-p)均大于5,率的分布近似于正态分布。率的标准化1.标准化法(Standardization)的 意义当比较两个总率时

33、,如果两组内部某种能影响指标水平的重要特征的构成上有差别,往往造成总率的升高或下降,影响两个总率的对比;因此要设法消除其内部构成的差异,使之能合理地进行比较,所用的方法称为标准化法。标准化法即在一个指 定的标准构成条件下进行率的比对的方法。目的:采用统一的标准构成以消除内部构成不同对总率的影响,使标准化后的标准化总率具有可比性。(1). _选择标准人口:a.应选择有代表性、较稳定的、数量较大的人群b.将比较的两组(或多组)的人口数合并作为标准组c.选其中一组(选人口数较多组)作为标准组1、 直接法:以标准人口构成与实际的年龄组别死亡率求得一个调整死亡率。2、 间接法:采用标准年龄组别死亡率与相

34、互比较的两组年龄组别人口数计算求得的死亡率。 第九章卡方检验(一)概念:检验两组(或几组)率或构成比差异是否有统计意义(样本量不限)。行与列两个顺序变量之间是否相关。卡方检验的基本思想反映了实际频数和理论频数吻合的程度。如果检验假设成立,则实际频数与理论频数 之差一般不会很大,出现大的卡方值的概率是很小的 基本公式:逬=三(A -T )1 21Tv =(R-1)(C-1)X2检验的专用公式法Z2(ad bc )2n(a + b)(c + d)(a + c)(b + d)=(2 - 1 )( 2 - 1 )连续性较正公式:条件:当四格表中有任一格子理论数1WT5;假设1/5以上格子理论数小于5,

35、a.增加实验样本含量b.相邻行或列数字合并;C.删除所在行或列的数据D.直接计算概率(2)x2检验的结果接受H1时仅提示所比较的各组总体来说有差别,但不能表示其间任 一两者间有差别,也不表示差别的强度.(3) 对于顺序变量,用秩和检验更合适.卡方检验(二)2-(I。一“(when b c:40)b c2(b -c)2(when b c _40)b c配对四格表资料的关联性分析2(ad - bc) n2(a - b)(c d )( a - c)(b - d ) =(2 -1)(2 -1)四格表精确检验法条件:四格表资料中若n40,或有任一格子理论数T2 or C2两个以上的率的比较两个或多个构成

36、比的比较按两种属性分类的频数表资料的关联性分析 计算公式:2n(二1)nRnCv = (R - 1)( C - 1)行x列表分类资料的关联性分析Pearson列联系数r :多个样本率间的多重比较Bonferroni法:a=比较的次数(1)多组间的两两比较a= k ( k - 1 ) / 2(2 )实验组与同一个对照组的比较行乘列表资料的分类和相应检验目的及方法:A、对于双向无序行乘列表资料1若研究目的为多个样本率(或构成比)的比较,可用行列表资料的检验;2若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表资料的检验以及Pearson列联系数进行分析。B单向有序行乘列表资

37、料有两种形式一种是表资料中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序的。其研究目的通常是分析不同年龄组各种传染病的构成情况,此种单向有序表资料可用行列表资料的检验进行分析。另一种情况是表资料中的分组变量(如疗法)为无序的,而指标变量(如疗效按等级分组)是有序的(列为顺序变量)。其研究目的为比较不同疗法的疗效,此种单向有序表资料宜用行平均分检验或秩转换的非参数检验进行分析。C双向有序属性相同的行乘列表资料资料中的两个分类变量皆为有序且属性相同。实际上是配对四格表资料的扩展,即 水平数3或以上的配伍资料,如用两种检测方法同时对同一批样品的测定结果。其研究 目的通常是分析两种检

38、测方法的一致性,此时宜用一致性检验或称Kappa检验。D双向有序属性不同的行乘列表资料资料中两个分类变量皆为有序的,但属性不同,对于该类资料,1若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表料,选用秩转换的非参数检验;2若研究目的为分析两个有序分类变量间是否存在相关关系,宜用行列平均分检验计算或等级相关分析(spearma n等级相关)或Pears on积矩相关分析。3若研究目的为分析两个有序分类变量间是否存在线性变化趋势,宜用有序分组资料的线性趋势检验。E、多层列联表的分析-Ma ntel-Hae nszel An alysis分层分析,按资料多来源(多中心,多地区)

39、,性别,年龄等分层校正。多层2 r:分层分析时,每层有一个2 r表形成多层2 r表。求校正的2SMH加权2检验-(率的Cochran检验)内部构成不同的两个率差别的统计意义检验,用此法最合适!第十章二项分布与普哇松分布二项分布:从阳性率为n的总体中随机抽取许多大小为n的样本,则出现阳性数为x(x=0,1,2,3,,n)的样本的分布呈二项分布。二项分布的条件:1、 各事件是相互独立的2、 各事件是相互排斥的,适于非遗传,非传染性疾病二项分布的形态:当阳性率n0.5时,分布是对称的;当n工0.5时,分布是偏态的,但n增大时可趋于对称;1、n 50且np和n(1-p)均5时(同率utest),二项分

40、布近似正态分布:1)n可信区间:可用p1.96Sp2) 样本率与总体率,样本率之间的比较用utest2、一般当nn5时,二项分布是偏的,不能用以上方法二项分布的应用:1、 计算概率大小,判断疗效2、 求总体率的可信区间:*50且np和n(1-p)均0.05),则不能认为该病具有家族聚集性。普哇松分布是指单位时间,单位空间或单位容积中颗粒数或某罕见事件发生数的概率分布。条件:各事件是相互独立的与二项分布的比较:(1)当总体比例n很小,样本含量n趋向于无穷大时(重复次数n100,每次出现概率50),Poission分布越接近正态 分布。(二项,Poission,正态三角)3 43可加性:如果X1,

41、X2,,xn是从Poission分布总体中(可以是相同或不同的总体) 随机抽取的样本中的计数,则它们之和也服从Poission分布;4总数的分布也属Poission分布:每小格的计数是Poission分布,共有400个格子计数。 若以此400格为一单元进行观察,则每400格的计数的分布也属Poission分布。总体均数的可信区间:1、 当样本计数x50时,用近似正态分布法(1.96,2.58)计数差别的检验:1、 样本计数与总体计数:(1) 较小时,Poission分布确切概率法(2)较大时(50),近似正态法fLV上丄1一J.; |2、 两样本计数(不同情况采用不同公式):(1)时间或体积单

42、位相同;又包括xi,X220和xi,X2(5,20)(2)时间或体积单位不同第十一章非参数检验参数检验:以特定的总体分布为前提,对总体参数进行假设检验的一类检验方法非参数检验:是一种不依赖于总体分布的具体形式的统计方法,其比较的是分布,而不是 参数,不受总体参数的影响。非参数检验的优点:(1)适用范围广: 适用于任意分布一- 数据一端无界限资料分布不明,偏态,方差不齐,半定量资料,(2)收集资料方便:可使用“等级”,“符号”等评定结果(3)有较好的稳健性缺点:对适用参数检验的资料,采用非参数检验,则会损失信息,在小样本时降低检验效能Power(即检验出相同大小的差异需要较多例数) 配对资料:符

43、号等级检验(查表法/公式法) 两样本比较:两样本等级和检验/中位数检验中位数检验 意义:如果两组分布位置相同,则在两组合并算得的中位数上下每组应各有一半的数目, 故可以检验在中位数上下各观察值数目的差异在两组是否有统计学意义。ni,n2均10用四格表卡方检验,ni或亚10用确切概率法 多组比较:(1) 多组计量资料:H-test两两比较(专用公式)中位数检验(ni10时效果较好)两两比较(专用公式)(2) 多组等级资料(单向有序):H-test两两比较(两样本的等级和检验,但要调 整水准a)秩变换分析方法,可代替以上(1) (2)和两两比较H检验条件:假定抽样总体是连续和相同的,检验其分布位置

44、是否相同。此法与单因素方差分析 相对应。适用:等级资料(两组或多组);不适用参数检验(F检验)的多组计量资料 等级资料:是介于计量资料与计数资料之间的一种资料,其等级的差别包含了量的差异,具有计 量资料的性质;清点各组例数,又具有了计数资料的性质。秩变换分析方法:适用同H-test原理:(1)求原变量秩次(2)用秩次代替原变量进行参数检验(方差分析及两两比较的LSD检验)样本量较大时结果与非参数分析基本一致,但可充分利用现有的参数分析方法。第十二章 Ridit 分析(R-test)适用资料:1.等级分组资料(与秩和H检验等价);2.数量分组不很确切的资料(e.g. 0.8的两个自变量中的一个;

45、将一组多重共线性自变量合成一个变量正态Histogram:残差应正态:基本呈中央咼两头低P-P图:残差应正态:SR散点应接近一条直线方差相等SR散点图应位于0对称的水平带内,即 残差的方差齐。流行病学调查资料分析流行病学是研究疾病在人群中发生、发展及其分布的原因,以及制订预防、控制和消灭这些疾病和促进健康的对策与措施的科学。进入方程的自变量个数越多,因此,评价方程可看 共线性:Coefficie nt Correlatio nsColli nearity Diag no stics判断无共线性存在:*r绝对值0;(a)(a)R2必然越大(尽管有的X无意义!),但FAdj2反而变小。相关性检验(

46、r的绝对值)共线性诊断(Eigenvalue、Condition Index)*容忍度Tolerance0.1;*条件指数Condition Index 30流行病学研究方法、观察法1.描述性研究(descriptive study):描述流行病学(descriptive epidemiology)提出线索或假说2.分析性研究(analytical study):分析流行病学(analytical epidemiology)验证所提出的假说。 病例对照研究-回顾性(retrospective)研究: 从疾病(果)去寻找原因(病 因)的方法队列(定群)研究-前瞻性(prospective)研究:

47、从有无可疑原因(病因)开始去观察是否发生结果(疾病)的研究方法叫队列(定群)研究(cohort study)。它是将特定人群按照是否暴露于某因素或暴露程度分成暴露组与非暴露组(对照组),随访适当长的时间,比较两组或多组之间结局的差异,以研究暴露因素与结局之间有无关联及关联大小的一种观察性研究方法。二、实验法实验流行病学(experimentalepidemiology)-主要在人群现场进行。分为:临床试验(clinical trial)和人群现场试验(community field trial)。三、理论和方法的研究1.理论流行病学(theoretical epidemiology)-数理流

48、行病学(mathematical epidemiology)研究1.病例一对照研究优缺点:病例一对照研究是一种回顾性具有对照的调查研究方法,是分析性研究中常用的一种设计方案;优点:病例一对照研究可以很快地为病因学研究、防治研究和预后研究提供重要信息,它具有节约时间、花费较少。缺点:容易产生回忆偏倚;它是一种从结果到原因的研究方法,因而它不能确切地论证病因学因一果联系。2.定群(队列)研究优缺点:定群研究是一种前瞻性调查研究方法,也是分析性研究中常 用的一种设计方案;优点:可以避免回忆偏倚;它是一种从原因到结果的研究方法,因 而它对论证病因学因 一果联系有更强的说服力。缺点:短期不容易得到结果,

49、需要较长 的研究时间、花费较大。成组病例-对照研究资料分别从病例及对照者中获得一个随机样本,并分调查这两组人暴露于可疑病因的情况。病例对照研究的四大要素:人群、对照、病例和暴露大样本四格表传统四格表X5专用公式公式:OR=(a/c)/(b/d)=ad/bc5传统X专用公式法与(M-H)方法计算结果一致(两者用一即可)比数比ORodds ratio)-相对危险度RR的估计值,指病例组暴露人数与非暴露人数的2(M-H)X检验方法(Mantel-Haenszel)2M- H=(a - E(a)2V(a)比值除以对照组中暴露人数与非暴露人数的比值。OR = psai相对危险度RF-是暴露者的发病率对非

50、暴露者的发病率的倍数。但是病例-对照研究中不能计算发病率。在发病率很低时,可以用OR估计相对危险度(ORRR)。OR的95%可信范围包含1:表明暴露因素与疾病的联系无统计学意义或暴露致病的危险性并不显著高于非暴露。1:1配对资料的分析OR=c/b队列(定群)研究资料分析(一)累积发病率(cumulative incidenee,CI) p499指某一固定人群在一定时期内某病新发生例数与观察开始时总人数之比。随访期越长,则病例发生越多,累积发病率的作用:1.表示发病率的累积影响;2.是平均危险度的一个指标,即一个人在特定时期内发生该病的概率。累积发病率的适用条件:样本量大。人口稳定,资料比较整齐

51、。发病密度(incidenee density,ID)是指一定时期内的平均发病率。其分子仍是一个人群在观察期内新发生的病例数,分母则是该人群 每一成员所贡献的 人时的总和。发病密度既说明该人群发生的新病例数,又说明了该人群的大小和发生这些例数所经历的时间。标化比1.适用条件样本量小,发病率或死亡率低。2常用指标及其计算公式标化比最常用的指标为标化死亡比(standardized mortalityratio,SMR)标化死亡比-是以全人口死亡率作标准,算出观察人群的理论死亡数,再用实际死亡数与之比较而得出的。相对危险度或率比1.定义相对危险度(relativerisk,RR)或率比(rate ratio)是指暴露组发病率(Ie)与非暴露组发病率(Io)之比,它反映了暴露与疾病的关联强度。相对危险度(RR)无单位,比值范围在0至8之间。RR= 1-表明暴

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论