




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、医学统计学总结绪论1、随机现象:在同一条件下进行试验,一次试验结果不能确定,而在一定数量的重复试验之 后呈现统计规律的现象。2、同质:统计学中对研究指标影响较大的,可以控制的主要因素。3、变异:同质基础上各观察单位某变量值的差异。广数值变量:变量值是定量的,由此而构成的资料称为数值变量资料或计量资料, 其数 值是连续性的,称之为连续型变量。变量<r无序分类变量:所分类别或属性之间无顺序和程度上的差异分类变量:定性变量有序分类变量:有顺序和程度上的差异4、总体:根据研究目的确定的同人研究对象中所有观察单位某变量值的集合。可以分为有限 总体和无限总体。5、样本:是按随机化原则从同质总体中随机
2、抽取的部分观察单位某变量值的集合。样本代表 性的前提:同质总体,足够的观察单位数,随机抽样。统计学中,描述样本特征的指标称为统计量,描述总体特征的指标称为参数。6、概率:描述随机事件发生的可能性大小的一个度量。若p (a) =1,则称a为必然事件;若p (a) =0,则称a为不可能事件;随机事件 a的概率为0<p< 1.小概率事件:若随机事件 a的概率p&a,则称随机事件a为小概率事件,其统计学意义为: 小概率事件在一次随机试验中认为是不可能发生的。统计描述1、频数分布有两个重要的特征:集中趋势和离散程度。频数分布有对称分布和偏态分布之分。 后者是指频数分布不对称,集中趋势
3、偏向一侧,如偏向数值小的一侧为正偏态分布, 如偏向数 值大的一侧为负偏态分布。2、常用的集中趋势的描述指标有:均数,几何均数,中位数等。均数:适用于正态或近似正态的分布的数值变量资料。样本均数用表示,总体均数用以表示。几何均数:适用于等比级数资料和对数呈正态分布的资料。注意观察值中不能有零,一组 观察值中不能同时有正值和负值。中位数:适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料。3、常用的离散程度的描述指标有:全距,四分位数间距,方差,标准差,变异系数。全距:任何资料,一组中最大值与最小值的差。四分位数间距:适用于偏态分布以及分布的一端或两端无确切数据资料。方差和标准差:正态分布
4、资料。标准差表示观察值的变异度的大小。变异系数:比较度量单位不同或均数相差悬殊的两组资料的变异度。4、标准正态分布:对正态分布的(x-n)/进行u的变换,u= (x-n)/,则正态分布变换为n =0, (7=1的标准正态分布,亦称u分布。u被称为标准正态变量或标准正态离差。两个参数:n是位置参数,(t是形状参数。用n (0,1 )表示标准正态分布。常用估计医学参考值范围的方法有:(1)正态分布方法:适用于正态或近似正态分布的资料。双侧界值:x± u“2s 单侧上界:x+u, s,或单侧下界:x-u.s(2)对数正态分布方法:适用于对数正态分布资料。双侧界值:lg1 (x g±
5、; u“2s膜)单侧上界:lg1 (x膜+u用膜),或单侧下界:lg-1 (x igx -u 6 g)(3)百分位数法:用于偏态分布资料以及资料中一端或两端无确切数值的资料。 双侧上界:p2.5和p97.5;单侧上界:p95,或单侧下界:p5常用的u值表参考值范围(%¥1m800.8421.282901.2821.645951.6451.96992.3262.5765、分类变量资料的统计描述:常用相对数指标描述,包括:率,构成比,相对比。率:说明某现象发生的频率或强度。(病死率不等于死亡率)构成比:说明某现象内部组成部分所占的比重或分布,常以百分数表示。相对比:亦称比,是a、b 2个
6、有关指标之比,说明a为b的若干倍或百分之几。两个指 标可以性质相同,也可以性质不同。应用相对数时的注意事项:1 、计算相对数的分母不宜过小;2、分析时不能以构成比代替率;3、对观察单位数不等 的几个率,不能直接相加求其平均率;4、比较相对数时应注意其可比性;5、对样本率(或构 成比)的比较应遵循随机抽样,并做假设检验。6、标准化法:标准化的目的在于消除混杂因素对结果的影响,使资料更具有可比性。其基本 思想是:将所比较的两组或多组资料的构成按统一的“标准”调整后,计算标化率,使其更具 有可比性。标准化率的计算方法:亦称标化率,直接法用于已知被标化组的年龄别率, 以及已知标准组的 年龄别人口数或年
7、龄别人口构成比时;间接法用于已知被标化组的年龄别人口数与发病 (死亡) 总数,但年龄别率未知,以及已知标准组年龄别发病(死亡)率与总发病(死亡)率时。通常可从下列3种方法选用标准组:以两组资料中任一组的年龄别人口数或构成比作为标准 组;以两组资料合并的各年龄组的人口数或构成比作为标准组;以公认的或便于与他人资料比较的标准作为标准组。7、统计表:结构:由标题、标目、线条和数字构成。编制统计表的要求:标题:概括表的内容,列于表的上方居中,应注明时间和地点;标目:主语和谓语分别列于横、纵标目,文字简明,层次清楚。横标目列于表的左侧,通常 为被研究的事物,纵标目列于表的上端,为说明横标目的统计指标。线
8、条:通常,除表的顶线、底线、纵标目下以及合计上的横线外,其余线条均省去,顶线和底线应略粗些,表的左上角不宜用斜线。数字:用阿拉伯数字表示,同一指标的小数位数要一致并对齐, 数字暂缺或无数字者分别用 “”或"-”表示,数字为0者要记作“ 0”,不应空项,为方便核实和分析,应有合计。备注:一般不列入表内,必要时可用“i标出,列于表下。8、统计图:条图:用于相互对比关系的资料;圆图与百分条图:适用于百分构成比资料,表示事物各组成部分所占的比重或构成;线图:用于连续性资料,用于说明事物在时间上的发展变化, 或某现象随另一现象而变动的 情况;直方图:表示连续性资料的频数分布;散点图:适用于直线
9、相关分析,说明两个变量间的数量关系和变化趋势。抽样分布与参数估计抽样研究的目的是用样本信息来推断总体特征,即统计推断,包括两个内容:一是总体参数的估计,二是假设检验。1、抽样误差:由于变异的存在,抽样研究所造成的样本统计量与总体参数之间的差异或各样 本统计量之间的差异称为抽样误差。常用标准误x反映均数抽样误差的大小;用率的标准误6p反映率的抽样误差的大小;用possion计数的标准误v7反映其抽样误差的大小。2、中心极限定理和正态分布推理:从正态分布 n(p ,63、t分布:将x看成变量值,那么可将正态变量进行 u变换(u=x-仙/)后,也可将n(j2x)变换成标准正态分布n (0, 1)。常
10、用s作为6的估计值,统计量为t,此分布为t分布。统计量t= t曲线的形态变化与自由度v的大小有关。v越小,t值越分散,曲线越低 sx平,v逐渐增大时,则t分布逐渐逼近正态分布,当丫=无穷大时,t分布即为u分布。4、总体均数的估计有两种方法:一种是点估计,即用统计量 x估计总体均数 ;二是区间估计,亦称可信区间。 (t 未知且 n 小:x-t a/2, v s x< n < x+t a/2, v s x (2)(t未知,但n足够大,t分布逼近u分布:x-u -2sx< n < x+u/2sx (t 已知: x -u a/2 ct x< n < x +u
11、1;/2 ct x)总体中以固定n随机抽取样本,样本均数x的分布仍服从正态分布,即使是从偏态分布总体中随机抽样,只要n足够大,x的分布也近似正态分布。样本均数的均数仍为n ,样本均数的标准差为-0样本均数的抽样误差 x (简称标准误)是反映均数抽样误差大小的指标。x =9用样本均数s作为6的估计值,则sx=-s,nn标准差标准差和标准误的比较标准误s=-2(x x)n 1表示观察值的变异程度大小s%1 n估计均数的抽样误差大小计算变异系数cv=s 100% x估计总体均数可信区问确定医学参考值的范围 计算标准误x -t a/2, v s x< n < x +t a/2, v s x
12、进行假设检验数值变量资料的假设检验1、假设检验的原理:假设在一次抽样研究中得出了 u>1.96,则p0 0.05,此为小概率事件, 依据“小概率事件在一次随机试验中认为是不可能发生的” 的定理,可认为此样本不是来自该 总体。2、步骤:建立假设和确定检验水准;假设有两种,一种是检验假设,常称 无效假设或零假 设,记为代,假设样本所代表的总体参数与已知总体参数相等;另一种是 备择假设,记为h, 是与h0相联系且对立的假设;检验水准,亦称显著性水准,是判断拒绝或不拒绝 代,也是允 许犯i型错误的概率,通常用0.05。选定检验方法和计算统计量确定 p值,做出推断结论。p值是指从h0所规定的总体中
13、随机 抽样时,获得等于及大于现有样本统计量的概率。3、t检验:适用于:样本均数与总体均数比较(6未知且n<50或n<30);成组设计的两小样本均数的比较(m, n2均小于30或50);配对设计的两样本均数比较。应用条件:当样本含量较小(n<50或n<30)时,要求样本来自正态分布总体;用于成组设计的两样本均数比较时,要求两样本来自总体方差相等的总体。4、单样本t检验:用于样本均数与已知总体均数的比较,研究目的是推断样本所代表的总体均数以与已知总体均数以0有无差别。统计量t= 土w v=n-1s/ n5、配对t检验:用于配对设计资料的 两均数的比较。其研究目的是推断某种处
14、理有无作用, 或两种处理的效果有无差别。配对设计类型有3种:先将受试对象按配比条件配对,然后用随机分组方法将各对中的2个受试对象分别分配到不同的处理组;同一对象分别接受2种不同处理;同一对象处理前后。t= 上一 (d是差值的样本均数)v=n-1 sd / . n比较,两个样本来自两个总体,具研究6、两样本t检验:用于完全随机设计的两样本均数的 目的是推断两样本所分别代表的总体均数是否相等。xix1x2-2 ,1、2 ,s1 (n1 1) s2(n2t=lxsxiv=n i+n2-2n1n2 21)(11)ni n27、单样本u检验:用于样本均数与已知总体均数比较,其研究目的同 t检验。研究目的
15、是推断样本所代表的总体均数以与已知总体均数小。有无差别。其统计量u=x no s/ . n8、两样本的u检验:用于完全随机设计的两样本均数的比较,两个样本来自两个总体,具研 究目的是推断两样本所分别代表的总体均数是否相等。其统计量为:xi x2 u=s-xi x2xi x2s2 / n1 s2 /n29、正态性检验和方差齐性检验:资料在做假设检验之前首先应该检验资料是否来自正态总体, 并且它们的方差是否齐。1。、两类错误:i型错误:拒绝了实际上成立的h0,即样本来自以=-的总体,由于抽样的偶然性,按a=0.05 检验水准拒绝了 h0,接受h。这类在假设检验中拒绝了原本正确的h0的错误称为i型错
16、误。,理论上犯i型错误的概率为a , a值得大小视研究目的而定。通常设a =0.05。r型错误:不拒绝了实际上不成立的 h0,即样本来自。的总体,由于抽样的偶然性,按 a =0.05检验水准不拒绝h,这类在假设检验中不拒绝原本不正确的 h的错误称为ii型错误。 犯h型错误的概率为b ,它只有与特定的 h结合起来才有意义。同时减少a和b的方法是 增加样本含量。1- b称为检验效能或把握度,即两总体确有差别时, 按a水准能识别该差别的能力。 如1- b =0.95表示:若两总体确有差别,理论上平均100次抽 样中,有95次能得出两总体有差别的结论。11、假设检验时应注意的事项:要有严密的抽样研究设
17、计一假设检验的前提正确选用检验方法:完全随机的设计的两数值变量资料比较时, 若n小且方差齐,则选用两 样本t检验;若方差不齐,则选用t检验或成组设计的两样本比较的秩和检验;若 m, n2均大 于50,则选用两样本u检验。正确理解“显著性”的含义对差别有无统计学意义的判断不能绝对化。方差分析1、基本思想:按研究目的和设计类型,将总变异的离均差平方和ss和自由度v分别分解成若干部分,并求得各相应部分的变异。其中的组内变异或误差主要反映个体差异或抽样误差, 其它部分的变异与之比较得出统计量 f值,由f值的大小确定p值,并作出推断,从而了解 该因素对观测指标有无影响。组内变异主要由个体差异所致,组间变
18、异可能由两种原因所致:一是抽样误差,二是由于接 受的处理不同。2、总离均差平方和ss和自由度vk ni_ 2ss总二(xij x) = x2 ( x) 2 / nv 总"n-l3、组间离均差平方和ss组间,自由度v组间和均方ms且间nik ( xj)2 ( x)2ssss组间= _jj-v组间=k-1 ms组间=1i i ninv组间4、组内离均差平方和 ss组内,自由度v组内和均方ms且内ss组内-ss总-ss 组间 v 组内 =n-k ms 组内 =ss组内/v 组内多样本均数比较的方差分析的应用条件:各样本是相互独立的随机样本;各样本来自正态 分布总体;各总体方差相等,即方差齐
19、。5、完全随机设计资料的方差分析:亦称单因素的方差分析,可用于完全随机设计的多个样本 均数比较的资料,研究目的是推断各个样本所代表的总体均数是否相等。单因素方差分析的计算公式变异来源ssvmsf总变异x2 cn-1组间变异nik ( xij)2 j 1ck-1ssa间ms组间i 1niv组间ms组内组内变异ss总-ss组间n-kss组内/v组内*c为校正系数c= ( x)2/n6、配伍组设计资料的方差分析:亦称两因素的方差分析,用于配伍组设计的多个样本均数比较的资料,其研究目的是推断各样本所代表的总体均数是否相等, 但考虑了个体差异对试验 效 应的影响。两因素方差分析的计算公式 变异来源ss
20、v ms f总变异x2 c n-1b k(xij)2处理组j c k-1 ss处理/v处理ms处理/ms误差i i bk b(xj)2配伍组 c b-1ss配伍/v配伍ms配伍/ms误差j i k误差ss总-ss处壬i-ss配伍(k-1) (b-1)ss误差/v误差*c为校正系数c= ( x)2/n b为配伍组数分类资料的假设检验1、二项分布:应用条件:各观察单位只能具有两种相互对立的结果已知发生某结果的概率为冗,其对立结果的概率为 1-九n次试验是在相同的条件下进行的。性质:=n:t0- = n'n it 11ft若均数和标准差用率表示,则pp=兀p p=如(1 冗)/ n冗未知时,
21、用样本率p作为冗的估计值,则 sp=jp(1 p)/n总体率的估计:正态近似法:当样本含量n足够大,且样本率p或1-p均不太小,如np与n(1-p)均大于5时样本率p的抽样误差分布近似正态分布,可信区间为:(p-u /2sp, p+u/2sp)2、poisson分布:对于二项分类变量,若某结果发生的概率很小,如冗<0.05时,单位时间、人群、空间内“阳性”发生次数x (x=0, 1, 2,)的概率可用poisson分布概率函数来描述:_g , x 、p(x)=e(!)递推公式:p (0) =e "p (x) =_p_ix_jl_e应用条件:兀< 0.05外,其余同二项分布
22、。分布的性质:(1)、poisson分布式一种单参数的离散型分布,其参数为表示单位时间、人群、空间内 某事件平均发生的次数。(2)、poisson分布的方差j与均数相等。(3)、poisson分布可以看成是二项分布的极限形式。(4)、poisson分布的极限形式也是二项分布,一般当 n20时,可按正态分布处理,当冗&0.01时,二项分布可以当作 poisson分布来处理。(5)、poisson分布具有 可加性。总体均数的估计:(正态近似法)x 1 , jx , x | ,_vx u a/ 27u a / 23、服从二项分布资料的假设检验:(1)样本率和总体率的估计:k直接计算法:最多有
23、k例阳性的概率:p(x< k)= p(x) 0nk 1最少有k例阳性的概率:p (x>k) = p(x)=1-p(x)k0正态近似法:当兀0不太靠近0或1,且样本含量n足够大;或n兀05且n (1-兀0) 5时,二项分布接近正态分布p 九0x n tt0u=曲o(1 兀0) njn 兀o(1 九0)(2)两样本率的比较:目的是推断两个样本各自代表的两总体率是否相等,当两个样本率均 满足正态近似条件时,可用u检验。其公式为:u= p1 p2 =p1 p2s【pc(1 pc)c n12)pc为合并阳性率, p =(x1+x2)/(nl+n2)x1,x2为两个样本的阳性例数。4、服从po
24、isson分布的假设检验:对于poisson分布的假设检验,对于总体均数可以用乘法将 小单位化大,也可以用除法将大单位化小,对于样本均数,只能用除法将大单位化小,而不能 用乘法将小单位化大。(1)样本均数与总体均数的比较:适用于仙0<20,且样本阳性数x较小作单侧检验时。k直接计算法:最多有k例阳性的概率:p(x< k)= p(x)0nk 1最少有k例阳性的概率:p (x>k) = p(x)=1- p(x)k0正态近似法:当20时,poisson分布逼近正态分布。u=(x n0)/j阿(2)两样本阳性数的比较:目的是推断两样本各自代表的两总体平均数是否相等。当两样本 阳性数x
25、1, x2均大于20时,可用u检验。其计算用两种情况:两样本观察单位(时间、面积、容积等)相同时: u= ;x2= ;12xx2 x1x2两样本观察单位(时间、面积、容积等)不同时: u=x1 x1 =x1 1x2 n25、2检验:是一种连续型分布,u分布的平方即为 2分布。对于同一份资料,检验的检验统计量为2,其基本公式为:22(a/,自由度 v=(行数-1)(列数-1). . . . . .n - * ric式中a为实际频数,t为理论频数。理论频数t的计算公式为:trc比上 丁为第r n 1 rc行第c列的理论频数,nr为相应行的合计,nc为相应列的合计,n为总例数。自由度v= (r-1)
26、(c-1).2反映了实际频数与理论频数的吻合程度。只有考虑了自由度v的影响,2值才能正确地反应实际频数a和理论频数t的吻合程度6、四格表资料的检验:最小理论频数丁的判断,r行与c列中,行合计数中的最小值与 | rc(1)四个表资料2检验的专用公式:(ad bc)2 n(a b)(c d)(a c)(b d)(2)四个表资料2检验的校正公式:(a t0.5)2(adbc n 2)2 n在实际工作中,对于四个表资料,(a b)(c d)(a c)(b d)通常规定为:2(1)当n40且所有的t5时,用检验的基本公式或四个表资料2检验的专用公式;当p= a时,改用四个表资料的 fisher确切概率法
27、。 ,、2,1(2)当 240,但1wt&5时,用四格表资料的检验的校正公式;或改用四个表资料的fisher确切概率计算法。(3)当n<40,或t<1时,用四个表资料的fisher确切概率法。2(4)连续性校正仅用于v=1的四格表资料,尤其是n小时。当v2时一般不做校正。7、配对四个表资料的检验:由于在抽样研究中,抽样误差是不可避免的,样本中的往往不相等(即bwc),为此,需进行假设检验,具检验统计量为:2 (b c)2v=1 (条列合计数中的最小值所对应的理论频数最小。件为:b+c> 40)2 (|b c上 v=1 (条件为:b+c< 40)而未考而b与c本方
28、法只适用于样本含量不太大的资料,它仅考虑了两种方法结果不一致的情况, 虑样本含量n和两种方法一致的两种情况,所以当 n很大且a与d的数值也很大, 的数值相对较小时,即使检验统计结果有统计学意义,其实际意义也不大。8、行*列表资料的 2检验:只适用于多个样本率的比较,两个或多个构成比的比较以及双向无序分类资料的关联性检验。其基本数据由三种情况:多个样本率的比较时,有 r行2歹i,称为r*2表两个样本的构成比比较时,有 2列c歹1,称为2*c表多个样本的构成比比较以及双向无序分类资料关联性检验时,有 r行c歹i,称为r*c表。 以上三种可统称为行*列表资料基本公式:基本公式为:2(a t)2an(
29、1)nrnc自由度 v=(行数-1)(列数-1)注意事项:一般人行*列表资料中各格的理论频数不能小于 1,且仃5格子数不能超过总数的1/5。如果 出现以上情况,可通过以下方法解决:最好是增加样本含量,使得理论频数增大;根据专 业知识,考虑能否删去理论频数太小的行和列, 能否将理论频数太小的行和列于性质相近的邻 行或邻列合并;改用双向无序 r*c的fisher确切概率计算法。当多个样本率比较时,所得统计推断为拒绝 ho,接受h1时,只能认为各样本率问总的来说 有差别,但不能说明任两个样本率间均有差别,需要做多个样本率的多重比较。对于有序的r*c表资料不宜用 2检验。对于r*c表的资料要根据分类类
30、型和研究目的选用恰当的检验方法。9、双向无序分类资料的关联性检验: 对于此资料,常常需要分析两个分类变量之间有无关系,关系的密切程度如何,进一步分析密切程度时,可以用pearson列联系数p , rprp取值在01之间,0表示完全不相关,1表示完全相关,愈接近于0,关系愈不密切,愈 接近1,关系愈密切。11、r*c表的分类及检验方法的选择:分类:双向无序、单向有序、双向有序属性相同和双向有序但属性不同四种。双向无序r*c表:两个分类变量皆为无序分类变量,对于该资料:如果研究目的为两个样本率(或构成比)的比较,可用行*列资料的 2检验;如果研究目的是分析两个分类变量之间有无关联性以及关系的密切程
31、度时,可用行*列表资料的检验以及pearson列联系数进行分析。单向有序r*c表:有两种形式:一种是r*c表的分组变量是有序的,而指标变量是无序的; 研究的目的通常是多个构成比的比较,可用行 *列表资料的 2检验进行分析。另一种是 r*c 表中的分组变量是无序的,而指标变量是有序的,研究目的通常是多个 等级资料的比较,可用 秩和检验或ridit分析。双向有序属性形同的r*c表:两个分类变量皆为有序且属性相同,研究目的通常是分析两 种检测方法的一致性,此时宜用 一致性检验(或称kappa检验);也可用特殊模型分析方法。 双向有序属性不同的r*c表:两分类变量皆为有序的,但属性不同,对于该资料:如
32、果 研究目的是分析不同年龄组患者疗效见有无差别,可把它视为单向有序的r*c表资料,选用秩和检验;如果研究目的是分析两个有序分类变量间是否存在相关关系,可以用等级相关分析或pearso制矩相关分析;如果研究目的是分析两个有序分类变量是否存在线性变化趋势, 可以用有序分组资料的线性趋势检验。非参数检验非参数检验的统计推断基础是比较分布而不是比较参数,所以不必考虑被研究对象的为何种分布以及分布是否已知。在实际工作中,对符合参数检验应用条件的资料,或经变量变换后 符合参数检验应用条件的资料应首选参数检验; 而不能满足参数检验应用条件的资料, 应选用 非参数检验。主要选择编秩的方法,比较统计变量 t,而
33、做出统计推断。直线回归与相关分析1、直线相关:如果两个随机变量中,当其中的一个变量由大到小的变化时,另一个变量也相 应的由大到小(后由小到大)的变化,并且相应变化的散点图在直角坐标系呈现直线趋 势,则称这两个随机变量存在直线相关。相关分析是研究变量和变量集合之间数量协同变化关系的密切程度和方向的统计方法。要求:两个变量x和y都服从正态分布,严格说应服从双变量正态分布。直线相关系数:用于说明具有直线相关关系的两个变量间的相关关系的密切程度和相关方向;亦称积差相关系数,总体的为p ,样本的为丫。x和y的协方差(x x)(y y) lxy#x 的方差) (y 的方差)( (x_x)2 (yy)2 l
34、xxl yy的取值在-1,1之间。其意义如下:若0则x与y存在直线相关关系;0为正相关;0为负相关;|越大,说明两变量间的相关关系越密切;|越小,说明两变量间的相关关系越不密切;若| 1为完全相关;若 0 ,则x和y不存在相关关系。0 | | 1表示存在不同程度的线性相关关系:0 | | 0.4为低度线性相关;0.4 | | 0.7为显著线性相关;0.7 | | 1为高度显著线性相关。相关分析的步骤:(在x与y均服从双变量正态分布的情况下)绘制散点图:呈线性趋势,计算相关性;呈曲线趋势,进行曲线拟合;无任何趋势,不必分析。根据上述公式计算丫的值;相关系数的假设检验,由于抽样误差的存在,判断是否
35、来自0的总体,常用t检验,公式:t 0 .n 2 (或直接查t界值表)s 12 n 2总体相关系数的区间估计:当0时,从这样的总体中抽样,计算出的丫不服从正态分布,而进行反正切变换后,n较大时,z近似服从均数为z,方差为 2 °的正态分布。n 32ze* 12ze1l xx(x)2n1ln(1一)则z的可信区间为( u/j匠与,u /j行与),对其进行的变换,可以得出 的可信区问。直线相关分析的注意事项: 算相关系数时首先绘制散点图,判断两变量是否存在线性趋势;相关分析时要求x、y均为随机变量,而不能用于事先界定 x、y的资料;相关分析时必须剔除异常点;相关分析要有实际意义,两变量相
36、关,并不一定存在联系,可能是另外一种因素引起的;分层资料不宜盲目的合并,进行相关分析;同时进行相关分析时,如果不能确定各层研究对 象具有同质基础,不宜盲目合并。不能将假设检验中 显著性大小理解为两变量相关程度的大小,后者是由相关系数的大小决定 的。2、等级相关:适用于不服从双变量正态分布或总体分布未知的资料,还可用于等级资料的相关分析。等级相关系数表示两个变量间相关系数的密切程度与相关方向。s基本思想:对于不符合正态分布的资料或等级资料, 将两个变量的原始观察值分别由小到大编 秩,然后利用量变量的秩次计算相关系数。3、直线回归: 处理两个变量间线性数量依存关系的一种统计分析方法。回归方程为:?
37、 a bx ?为应变量,给定x的y的条件均数的估计值;b为回归斜率,表示a y bx绘制回归线;注意:不应超过l xyxyx的实测值范围;(x)( y)n所绘制的直线必然通过当自变量x每变化1个单位时,应变量y平均变化b个单位;a为截距,表示没有自变量x时 其他因素对y的平均影响。(x, y);直线的左端延长与纵轴的焦点必然是截距 a。回归方程的假设检验:检验方法有方差分析和t检验方差分析:基本思想:将应变量 y的总变异ss总分解成ss回归和ss剩余两部分,然后利用f 检验来判断回归方程是否成立。任意一点p (x, y)的纵坐标被回归直线与均数y截成3段:三部分的变异可以表示为:-9一(y y
38、) =(?y)2+ (y y)2即ss 总"ss回归+ss剩余各部分的意义:ss总:即lyy(y y)2 ,为y的总离均差平方和,反映未考虑 x和y的回归关系时的y的变异;ss回归:即(?y)2 ,称回归平方和,反映在y的总变异中,由于x和y的直线关系而使y变异减小的部分,即在总变异中可以用 x解释的部分;ss回归越大,说明回归效果越好,即ss总中可用x与y线性关系解释的变异越多。ss剩余:即 (y y)2 ,残差平方和或剩余平方和,反映x和y的线性影响之外的一切因素对y的变异的作用,即在总变异中无法用x解释的部分 小;该部分越小说明直线回归的估计值误差越各部分的自由度为:总=回归+
39、 剩余总=口-1,回归=1剩余 =n-2各部分变异的计算公式为:$总=(y y)2(y)2s%归2l xybl xy i1 xxss剩余=ss总-ss回归统计量f的计算公式:fs0归 回归ms回归ssu余/剩余 ms剩余回归系数的t检验:基本思想:通过样本回归系数 回归方程是否成立。有关公式如下:b与总体均数回归系数b进行比较来判断sb /二; sxy 4ms剩余sxy为剩余标准差,是指扣除了 x因变量线性影响后离散程度。拟合效果评价:回归模型的拟合优度假设检验,检验回归方程对样本数据的拟合程度。 决定系数r2表示,r2(y ?)22 sa归(y y)2 r '22r rt_,n 2&
40、amp;)2总体回归系数的区间估计:(b t.sb, b一n 2 2回归方程的应用:利用回归方程进行预报;统计控制。直线回归分析的注意事项:i回归分析要有实际意义,注意变量之间的内在联系和规律,两变量之间还必须是因果关系; n对资料的要求:一般y来自正态总体的随机变量,x可以是正态总体的随机变量,也可以 是精确测量和严密控制的值; 田进行分析前应先绘制散点图;iv必须剔除一些异常点;v回归方程的适用范围不能随意外延。其适用范围一般以自变量取值范围为界。直线相关和回归的区别与联系:区别:资料的要求不同:相关要求两个变量呈双变量正态分布;回归要求y服从正态分布,而x可以是精确测量和严格控制的变量;
41、统计意义不同:相关反映的是两变量间的伴随关系, 二者的关联程度如何,而回归反映的是 两变量间的依存关系,即因果关系,或从属关系;分析的目的不同:相关分析的目的是描述两个变量间的相互关系, 用r来反映这种关系的方 向以及密切程度,而回归分析的目的是描述两个变量间的数量依存关系, 从而进行统计预测和 统计控制;联系:对于同一资料,r和b的符号一致,说明两变量间关系的方向;相关系数与回归系数的假设检验是等价的,对于同一样本,tr tb ,实际应用中只检验其中之一即可;二者可以相互解释,相关系数的平方和等于回归平方和占总平方和的比例,即反映应变量y的总变异中归因于x的部分;实验设计的概述c实验室研究:
42、以动物或标本为研究对象实验研究的分类 临床试验:以人为研究对象仁 社区干预试验:以社区人群为研究对象,又称半试验性研究处理因素试验设计的基本因素j受试对象q实验效应1、处理因素:研究者根据研究目的确定的,通过合理安排实验,从而科学的考察其作用大小 的因素;非处理因素:对正确的评价处理因素的作用有一定的干扰,但研究者并不想通过本次实验考察 其作用大小的因素;注意事项:要区分处理因素和非处理因素;主要依据研究目的来确定;抓住实验中的主要因素,且 因素的水平数不宜过多;处理因素必须标准化,即保证处理因素在整个实验过程中始终如 一,保持不变;2、实验效应:通过观察指标来反映观察指标的基本原则:客观性;
43、精确性(包括准确度和精确度,准确度是指测值与真实值的接近程度,属系统误差;而精确度是指对同一变量重复观测时,观 测值与平均值的接近程度);灵敏性;特异性3、实验设计的基本原则:对照,随机,重复,均衡对照组设计的三个条件 对照的形式:空白对照 实验对照 标准对照 自身对照 相互对照 历史对照配对对照;安慰剂对照对照:使实验组和对照组内的非处理因素基本一致,从而使处理因素的效应得以显示;专设,同步,对等;不给对照组施加任何处理因素,临床试验中不宜用空白对照;不给对照组施加处理因素,但施加某种实验因素;与现有的标准法或常规方法、公认的有效药物作对照;对照与实验在同一受试对象上进行;不单独设立对照组,
44、而是 2个或几个实验组相互对照;除了非处理因素影响较小的少数疾病外,一般不宜用此种对照 随机:包括随机抽样与随机分配;重复:样本含量与四个因素有关:a, b, 6,小且均呈反变的关系。均衡:各组的受试对象除接受的处理因素不同外,其他影响实验的非处理因素要基本相同常用的实验设计方法1、完全随机设计:亦称单因素实验设计,不考虑个体差异的影响,仅涉及1个处理因素,但可以有2个或2个以上的水平。将受试对象随机分配到处理组合对照组中,各组的例数可以 相等或不等。分析方法同前。2、配对设计和配伍组设计:先将受试对象按配比条件配成对子,再按随机化的原则把每对中 的受试对象分配到实验组和对照组中。通常以影响实
45、验效应的主要处理因素为配对条件。医 学实验中的自身对照也是配对设计,但容易产生混杂影响,最好设立平衡对照。配伍组设计, 亦称随机区组设计,是配对设计的扩大。分析方法:配对设计:如果各对的观察值的差值服从均数为 0的正态分布,用配对设计的t检验,否则 用配对设计的秩和检验。配伍组设计:满足方差分析条件的用方差分析,不满足的经变量变换后也可以用,仍达不 到要求的用配伍组设计的秩和检验。3、交叉设计:是在自身配对设计基础上发展起来的双因素设计,该设计考虑了 1个处理因素,此因素有两个水平(a,b),并且还考虑了 2个与处理因素无交互作用的非处理因素对实验效 应的影响。适用条件及应注意的问题:处理因素
46、只有2个水平(a, b),且2个非处理因素(实验阶段、受试对象)与处理因素之 间无交互作用;两个实验阶段之间要安排一定的间隔时间, 以便消除前一阶段治疗措施的残留效应, 保证两 个阶段的起始条件一样;两次观察的时间不能过长,处理效应不能持续过久;适用于病情较稳定,病程可以分阶段,短期治疗可见疗效的疾病;为消除患者的心理作用或防止研究者的暗示,一般多采用盲法。分析方法:符合方差分析条件的应用方差分析, 不符合的经变量变换后也可以用,仍达不到要 求的用秩和检验。方差分析将总变异分为4部分:受试者问,阶段问,处理间和误差。4、拉丁方设计:是按拉丁方阵的字母、行和列安排实验的三因素等水平的设计。考虑了
47、 3个 因素对实验效应的影响。基本要求:必须是3个因素的实验,且3个因素的水平数相等(若不等,以主要的处理因素的水平数为主,其他2个进行调整);3个因素是相互独立的,均无交互作用;各行、列和字母所得实验数据的方差齐;设计步骤:根据主要处理因素的水平数确定基本型拉丁方;先将基本型拉丁方随机化,然后按随机化后拉丁方阵安排实验,随机化是通过拉丁方的任两行或任两列交换位置实现;规定行、歹h字母所代表的因素或水平,通常用字母表示主要的处理因素;分析方法:可用方差分析,将总变异分为列间、行间、字母间和误差4部分。5、析因实验设计:是一种将2个或多个因素的各水平交叉分组安排实验的设计,不仅可以检验各因素内部不同水平间有无差异,还可以检验 2个或多个因素间是否存在交互作用。常用的设计模型有2 2析因实验设计、2 2 2析因实验设计和2 2 3 2析因实验设计。分析方法:可以用方差分析。2 2析因实验设计:将总变异分为 a问、b间、交互作用(a b)和误差4部分。2 2 2析因实验设计:将总变异分为 a间、b问、c间、a b、a c、b c、a b c和 误差8部分。回归系数的意义1、多元线性回归分析中偏回归系数的意义:在其他自变量保持不变的条件下,自变量 x改变 一个单位是因变量y的平均该变量。流行病学意义:在其他因素不变的条件下,某因素改变1个单位时,疾病
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 06防火墙双机热备技术
- 黑龙江省哈尔滨市第九中学2025届普通高中毕业班综合测试(二)语文试题含解析
- 衡水中学高三下学期第二次摸底考试理综生物试题
- 丙肝科普知识
- 2024年3月保健品代理合同中的跨境电子处方对接技术标准
- 投资咨询税务筹划试题及答案
- 婴儿综合评估的2024试题及答案
- 人力资源管理师案例分析试题及答案
- 有效备考的人力资源管理师试题及答案
- 2024年基金从业资格实战试题及答案
- 小学数学教学中小组合作学习课件
- 病历的书写基本规范培训讲座课件
- 2024年晋中职业技术学院单招职业技能测试题库附答案
- 2024-2025学年全国中学生天文知识竞赛考试题库(含答案)
- 《甘肃省自然村(组)通硬化路建设技术指南》
- 美国概况课件
- UL1484标准中文版-2017住宅煤气探测器UL中文版标准
- 【MOOC】电子线路设计、测试与实验(一)-华中科技大学 中国大学慕课MOOC答案
- 保证食品安全的规章制度清单
- 第七届江苏技能状元大赛物流服务师项目样题
- 医院数据备份与恢复管理制度
评论
0/150
提交评论