(完整版)研究生医学统计学考点总结_第1页
(完整版)研究生医学统计学考点总结_第2页
(完整版)研究生医学统计学考点总结_第3页
(完整版)研究生医学统计学考点总结_第4页
(完整版)研究生医学统计学考点总结_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学统计学基本概念:医学统计学Statistics:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。同质和异质:具有相同性质的事物称为同质(homogeneous)。否则称为异质的或者间杂的(heterogeneous)。不同质的个体不能笼统地混在一起分析,同质和异质是相对的概念。变异:同质事物之间的差别称为变异(variation),亦称个体变异。变异的两个方面:个体与个体间的差别同一个体重复测量值间的差别结果是随机的,不可预测的;一种或多种不可控因素(已知的或未知的)作用下的综合表现;个体变异是普遍存在的;个体变异是有规律

2、的;没有个体变异,就没有统计学。总体和样本:总体(population):根据研究目的所确定的同质观察单位的全体;分为有限总体和无限总体。个体(individual):是构成总体的最基本观察单位。样本(sample):是从总体中按照一定的目的随机抽取的一部分具有代表性的个体集合。样本含量(samplesize):样本中包含的个体个数。参数和统计量:总体参数(parameter):描述某总体特征的指标,简称参数,一般用希腊字母表示,如:卩、n。统计量(statistic):描述某样本特征的指标,一般用拉丁字母表示,如:、s、p。在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否确切

3、知其大小;而统计量是几乎总是随着样本而变的。随机(random):是指机会均等,目的是保证样本对总体的代表性、可靠性。概率和频率:频率(relativefrequency):在n次随机试验中,事件A发生了m次,则比值m/n称为事件A在这n次试验中出现的频率。概率(probability):是随机事件发生可能性大小的一个度量,是一种参数,常用P表示,0P按照取值的特性:数值变量numericalVariable定量变量:既有顺序的意义,又有间隔的意义,可以认为是连续的;往往有单位;取值间的差异是可以度量的。分类变量categoricalVariable定性变量:取值是是分散、定性的,表现为互不相

4、容的类别和属性。无序分类unorderedcategorics:无顺序,无间隔,仅有分类-二项分类-多项分类1-W-爼別y開成甲人的血瓯値tl压1卜萍血圧盪1llf-协:血忤普料丨敬怛hi讥击艸莎訥nE第弓异常芮爼J有序分类orderedcategories等级变量:仅有顺序,无单位;取值间的差异是不可度量的不同分类的互相转化数值变量f无序分类变量数值变量f有序分类变量有序分类变量f无序分类变量信息量只有减少,不可增加统计描述指标,呈现方式可分为两种统计图:直观,但精确度稍差统计报表:能尽量详细,精确,但不够直观统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答参数估计:样本f所在

5、总体特征假设检验:该指标可能的影响因素分析频数分布频数表编制步骤求极差:R=Xmax-Xminmaxmin选定适当的组段数后估计组距:组段数的选取以能反映资料的分布特征为宜,一般取812组列出组段:组段的含义:包括组段的下限而不含组段的上限。如:3.2等价于3.2,3.5)。划记归组获得频数求频率,完成频数表:相应的频数除以总数即为频率,各组段的频率总和为1或者100%。频数分布所提供的信息频数分布图用以表示数据的分布规律。观察有无可疑值。考察分布的类型。对称分布非对称分布(偏态分布)左偏态(负偏态):指分布的长尾在峰的左侧。右偏态(正偏态):指分布的长尾在峰的右侧。考察分布的特征集中位置(C

6、entralTendency):描述指标有平均数(算术均数(Mean)、几何均数(GeometricMean)、中位数(Median)、百分位数(Percentile)。离散趋势(TendencyofDispersion):描述指标有极差(Range)、四分位数间距(interquartilerange)、方差(Varianee)、标准差(StandardDeviation)、变异系数(coefficientofvariation)。平均数应用的注意事项:同质的资料计算平均数才有意义。均数适用于:单峰对称分布的资料。几何均数适用于:对数变换后单峰对称的资料。等比资料、滴度资料、对数正态分布资料

7、。计算几何均数时:变量值中不能有0同一组变量值不能同时存在正、负值,若变量值全为负值,可先将负号除去,算出结果后再冠以负号中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料,有不确定值的资料的集中位置。但当资料适合计算均数或几何均数时,不宜用中位数。中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。不同质的资料应考虑分别计算平均数。百分位数:样本含量较少时不宜计算靠近两端的百分位数。平均数要与变异指标结合使用。变异度指标:四分位数间距(inter-quartilerange):QUQ值的极差。Y(x-沙EG

8、-XJ2b2=s=n一1P75P25,即中间一半观察2(X-2=方差及标准差:变异系数(coefficientofvariation,CV):为标准差和均数的比值,排除了平均水平的影响,并取消了单位。因此变异系数常用于:CV=Sx100%比较度量衡单位不同的两组或多组资料的变异度一X比较均数相差悬殊的两组或多组资料的变异度变异度的正确应用:极差不稳定,不灵敏A标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即

9、变量值的分布集中、整齐、波动较小。变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。6.总结:A每个观察指标均有其特定的变异规律;描述变异:图形描述统计量描述平均数:均数、几何均数、中位数和百分位数变异度:极差、方差、标准差、四分位数间距、变异系数不同分布的指标,用不同的统计量描述;用平均数与变异度共同描述。欝散程屢的描谨朋小结篥中适势的描困斷小蜡LU分拉粒问距方建.标准英匪异幣敎中便数目廿住裁等比对赴正盂計布客种空耶,a苦种牛朮”怕16用窘料住何分布常用于偏姦井正击井布度鼻祈準41不冋,,均敦和輕运用资料单峰对律廿市盘费和.平确定忸搭伽、年确左徂卄豹特点阳到全詣致摇JU

10、剧全皿效据中啊散弗il算特点用計两竭致留用到卞间敦番舉响时曲止负数正态分布公式:如果随机变量X的概率密度函数为f(X)=1e弋苗(-xVXV+8)g2兀则称X服从正态分布,记作XN(师2),其中,卩为分布的均数,c为分布的标准差。卩为总体均数,c为总体标准差。n为圆周率,e为自然对数的底,X为变量,代表横轴的数值,f(X)为纵轴数值。正态分布的特征(重要):单峰分布;高峰在均数处;以均数为中心,均数两侧完全对称。正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。正态曲线下的面积分布有一定的规律。X轴与

11、正态曲线所夹面积恒等于1,对称区域面积相等。卩-1.64cy+1.64c内面积为90%;卩-1.96c附1.96c内面积为95%;片2.58cy+2.58c内面积为99%。正态分布曲线下的面积与标准正态分布曲线下的面积对应(以标准正态离差为单位)。标准正态分布:标准正态分布(standardnormaldistributen)是均数为0,标准差为1的正态分布。记为N(0,1)。标准正态分布是一条曲线。概率密度函数为:甲(时(-xVuV+x)2k正态分布转换为标准正态分布:若XN(pQ2),作变换:u二则u服从标准正态分布,u称为标准正态离差(standardnormaldeviation)正态

12、分布的应用:估计频数分布、质量控制、确定临床参考值范围参考值范围:参考值范围(refereneeinterval):是绝大多数正常人的某观察指标所在的范围,绝大多数:90%,95%,99%等等。确定参考值范围的意义:用于判断正常与异常。“正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。参考值范围确定的原则:选定足够例数的同质的正常人作为研究对象:例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性控制检测误差判断是否分组(性别,年龄组)单、双侧问题(onesidedortwosided)选择百分界值(90%,95%)确定可疑范围参考值范围的估计方

13、法:正态分布法、百分位数法方法限单侧上限正态分布迭AX十uas百分竝敷法抽样误差1概念:由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(samplingerror)。抽样误差的表现:样本均数和总体均数间的差别、样本均数和样本均数间的差别。中心极限定理(eentrallimittheorem):从均数为,爭准差为。的正态总体中随机抽样,样本均数服从均数为卩,标准差为en的正态分布。ox=2从均数为小标准差为。的任意,总体中随机抽样,当样本含量足够大时,样本均数近似服从均数为”,标准差为z的正态分布。3.标准误(standarderror):用样本统计量的标准差来

14、反映抽样误差的大小,又称标准误。ss=X其中,。为总体标准差,n为抽样的样本例数在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计标准误的意义:反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。t分布根据中心极限定理的内容,当样本含量足够大时,对从均数为,标准差为。的任意总体中随机抽样所

15、得的样本均数进行标准化变换,有gN(o,i)Qi:n由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差:X-卩t这里,v为自由度,取值为n-1t=苛气t分布的性质:t分布为一簇单峰分布曲线,高峰在0的位置上,说明从正态总体中随机抽样所得样本计算出的t值接近0的可能性较大。t分布以0为中心,左右对称。分布的高峰位置比u分布低,尾部高。t分布与自由度v有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。每一自由度下的t分布曲线都有其自身分布规律。t界值表。可信区间统计推断(statistical

16、inferenee):是指如何抽样,以及如何用样本性质推断总体特征,分为参数估计(parameterestimation)、假设检验(hypothesistesting)。参数估计:点估计(PointEstimation):用样本统计量作为总体参数的估计。区间估计(IntervalEstimation):可信区间定义:按一定的概率或可信度(1-a)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confideneeinterval,Cl),预先给定的概率(1-a)称为可信度或者置信度(confideneelevel),常取95%或99%。可信区间(C.CU)是一开

17、区间cLq称为可信限。可信区间的计算:、_样本含量较小时(n100):下限:X-1s-上限:X+1sa,vX口,vX样本含量较大时(n100):下限:X-us-上限:X+us-TOC o 1-5 h z均数之差可信区间的计算:aXax均数之差”与“均数之差的标准误”之比,服从自由度v=n1+n2-2的t分布。X-Xt=2t一珥+n2-2X1-X2-样本含量较大时,服从标准正态分布。t=X1-X2N(0,1)s-X、-X2I合并方差:=(ni-1)S:+(n2;1)S;均数之差的标准误s_=:S2(丄+丄)cn+n2-2X1-X2VCn/1212可信区间的两个要素:可信度(Confidenee)

18、:准确性,可靠性,即1-a。一般取90%,95%,可人为控制。精确性(Precision):区间的大小,越小越好。必须二者兼顾可信区间的宽度:可信度越大,可信区间越宽,说明用该区间来估计总体参数(总体均数)越可靠。标准差越小,可信区间就越窄,意味着如果总体内变异程度较小时,在相同的可信度下,只需要一个比较窄的可信区间就可以估计总体均数。随着样本含量的增加,可信区间逐渐变窄。正确理解可信区间:可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间!总体参数虽未知,但却是固定的值,而不是随机变量值。假设

19、检验假设检验的目的:基本目的就是分辨两个样本是否属一个总体或两个不同的总体,并对总体作出适当的结论。假设检验的一般步骤:步骤1:建立假设,在假设的前提下有规律可寻零假设(nullhypothesis),记为H0,表示目前的差异是由于抽样误差引起的。备择假设(alternativehypothesis),记为叫,表示目前的差异是主要由于本质上的差别引起。步骤2:确立检验水准a(significaneelevel),用于确定何时拒绝H0,一般取0.05。步骤3:计算检验统计量和P值计算检验统计量,即计算样本与所假设总体的偏离;样本均数与总体均数卩。间的差别可以用统计量t来表示厶出sn统计量t表示,

20、在标准误的尺度下,样本均数与总体均数卩。的偏离。这种偏离称为标准t离差(standardtdeviation)。根据抽样误差理论,在H0的假设前提下,统计量t服从自由度为n-1的t分布,即t值在0的附近的可能性大,远离0的可能性小,离0越远可能性越小。步骤5:界定P值并作结论假设检验应用的注意事项:I型错误和II型错误:第一类错误(TypeIError):拒绝了实际上是成立的H。;第二类错误(TypeIIError):不拒绝实际上是不成立的H。检验水准的选择:检验水准有单双侧之分。选择要有专业背景。检验水准大小的选择要慎重。选择要在计算检验统计量之前。双侧检验与单侧检验:在相同的检验水准下,正

21、确地选择单侧检验将比双侧检验得到更多的检验效能。P和a的涵义:P值意义:从H0总体中随机获得等于或大于现有统计量值的概率。拒绝H0时所冒的风险。a的意义:犯第一类错误的概率;在假设检验之前人为规定;说明拒绝H0所冒的风险不可超过a。正确对待统计结论和专业结论专业上有差别,假设检验拒绝H。:结果有效,可以下专业结论;专业上无差别,假设检验不拒绝H。:下无差别的结论;专业上有差别,假设检验不拒绝H。:增大样本含量,减少二类误差;专业上无差别,假设检验拒绝H。:改进试验,减少误差。Significant的意义假设检验和可信区间的区别:在相同的a之下,若假设检验拒绝H0(p=a),那么可信度为(1-a

22、)的可信区间必然不包括总体参数;反之成立。可信区间和假设检验是对同一问题所作的不同结论,效果等价。t检验1.成组设计计量资料比较的t检验:X-XIt=12s-X1-X2合并方差(方差的加权平均):(n-1)s2+(n-1)s2s2=1122Cn+n212均数之差的标准误:X-X:吩n+n自由度V=n,+n2-21212两组资料比较的u检验:当随机抽样的样本例数足够大时,t检验统计量的自由度逐渐增大,t分布ijiij逐渐逼近于标准正态分布,可以利用近似正态分布的原理进行u检验。IX-Xu=ABS-XA-XBX-XAR芒nA+SRnR配对计量资料的t检验:配对t检验的实质就是检验样本差值的总体均数

23、是否为0。均数的假设检验应用条件:独立性、正态性、方差齐性与应用条件有关的一些内容:正态性检验、方差齐性检验、方差不齐时的近似t检验、大样本时,均数比较的u检验两个方差的齐性检验:Levene法:从同一总体随机抽取的样本之两方差,其方差比(大方差/小方差)的分布服从F分布:F=S2大s2(小)F(a,2)方差分析(ANOVA)AnalysisofVariancet检验的局限性单因素两水平因素和水平:因素(factors):将试验对象随机分为若干个组,加以不同的干预,称为处理因素。方差分析中所要检验的对象。在相同的因素下的不同干预,称为不同的水平(level)。方差分析中因素的不同表现。假如每次

24、t检验犯第一类错误的概率是0.05,那么要完全地进行比较,犯第一类错误的概率是1-(1-a)ko此为多组间不能进行t检验的原因。单因素方差分析:研究的是一个处理因素的不同水平间效应的差别。完全随机设计资料的方差分析:完全随机设计是医学科研中最为常用的一种实验设计方法,它是将受试者随机地分配到各实验组(可包括对照组)中,进行实验并观察实验效应。该设计适用面广,可用于两组或多组实验研究,且各组的样本含量可不相等。工工(X-X)=Sn(X-+工工(X-X)ijiiiji2每组平均水平悵离总均数的稈庭忑质差异+礎机谋差每一组内部的变昇程.底之和髓机谨差证明:共计w个个怵,廿为屮r组.毎组有巧卞炸休2J

25、ssatm-E4?:-1z嘔内=丫(血-可1心甘工工(X-X)=乞工血.-X)+(X-X=ZX(X一X)+2XZ(X一X)G一X)ii+”SG-X=ZZ,(X-X1+nX(X-XijjiiijiiiijiMSSSvSS(k-1)MS”F=组间=组间_组间=组间F=BetweenFMSSSvSS(n-k)MS组内组内,组内组内.W”hin随机区组(配伍组)设计的方差分析(两因素多个样本均数的比较):概念:随机区组设计又称配伍组设计,是配对设计的扩展,也可看作1:X的配对设计。它是将几个条件相同的受试者划为一个区组(block)或配伍组,然后再按随机的原则,将同一区组的受试者随机分配到各实验组中。

26、实质:两因素方差分析。变异分解,N为总样本含量,k为水平数,n为区组数;SS=工艺(X-X,V=N-1总ij总MSSSvF=处理=处理处理处理MSSSV误差误差误差MSSSVF=配伍=配伍配伍配伍MSSSV误差误差误差i=1j=1SS:艺(X-X)2处理i处理i=1j=1SS乏(X-X)配伍j配伍i=1j=1SS=SS+SS+SS总处理配伍误差v=v+v+v总处理配伍误差多个样本均数的两两比较:又叫多重比较,MultipleComparison;分类:事先计划好的多个试验组与一个对照组之间的比较,多个组与一个特定组间的比较或者特定组间的比较;(PlannedMultipleComparison

27、)方差分析得到有差别的结论后多个组之间的相互比较的探索性研究(PostHoc);Student-Newman-Keuls法(SNK法)LSD法Dunnet法:两两比较的注意事项:对于方差分析后的两两比较均应以方差分析拒绝相应的H0为前提,且结论均不应与方差分析的结论相悖;出现模糊结论,下结论应该谨慎;方差分析拒绝H。,但两两比较得不出有差异的结论,因为方差分析效率高。两种错误的说法:、X:耳X所来自的总体位于x1所来自的总体和x3所来自的总体之间;X1和X2来自同一总体,X2和X3来自同一总体。只能说明无法判断样本2来自于何总体!不能用t检验代替方差分析,也不能用t检验代替两两比较。无论是SN

28、K法还是Dunnett法,用于两组比较时,结果与t检验等价。方差分析的要求:独立随机抽样(Independence);正态性(Normality);方差齐性(Homoscedascity)方差齐性检验:两个方差的齐性检验:Levene法f=s;/v二n-1,v=n-1,s2s2多个方差的齐性检验:Bartlett法zs;111112方差分析小结:均数、方差的比较样本均数与总体均数的比较(t检验)配对设计样本均数的比较(配对t检验)两样本均数的比较(t检验,u检验,F检验,SNK,Dunnett)口多样本均数的比较(F检验,ANOVA)各组间的比较(SNK法);各试验组与某一对照组间的比较用(D

29、unnett法)口两个方差的比较(F检验)两个方差的比较(Bartlett检验)分析单因素多水平间的比较或多个因素对结果的影响;要求数据满足正态性、独立性、方差齐性单因素方差分析两因素方差分析两两比较变量变换方差分析应用于两组资料的比较时,等价于t检验。变量变换(VariableTransformation)方差齐性是一个很strong的假设,如果不齐,就一般不能直接进行方差分析;变量变换:目的:方差齐性化,正态化,线性化常用方法:对数变换、平方根变换、倒数变换、平方根反正弦变换分类资料的统计描述statisticaldescriptionforcategoricaldata巾分类资料1Exa

30、mpkn-A统计分析统计描述率、比、构威比葬数估计总体率的可恬区间统计推断.假设检验严检验、能验常用的相对数:作用:第一,表示事物出现的频度。第二,便于比较。率:说明某现象发生的频率与强度率=单位时间内)实际发生某现象的观察单位数x100%率单位时间内)可能发生某现象的观察单位数构成比:说明某一事物内部各组成部分所占比例构成比=某一组成部分的观察单位数同一事物各组成部分的观察单位数比:说明A是B的多少倍,或百分之几。2相对数应用的注意事项:计算相对数时,分母不宜太小对两个或多个相对数指标进行比较时,要考虑抽样误差,进行假设检验,并不能凭相对数的数值大小轻易做出结论。区分构成比和率合计率的计算不

31、是直接求率的平均两合计率的比较需注意两者的内部构成是否相同3.标准化率标准化法就是用统一的标准对内部构成不同的各组频率进行调整和对比的方法。不同的标准,所得标准化率不同;标准化率是相对的,其作用仅在于比较,而不表示实际水平;标准化率不代表总率,也不能完全代替分组比较。二项分布及其应用Binomialdistributionanditsapplication:概率分布:随机变量的概率分布:离散分布和连续分布,依赖于相应的随机变量是离散的还是连续的。概念:令x为n次试验中的二项随机变量,成功的概率P(成功)=p,则x的取值为0,1,2,,n,其联合概率分布为二项分布。二项分布的概率设事件A出现的概

32、率为兀。则在n次独立试验中,事件A恰好出现k次的概率为:P(X=*)=Ck(l-3T)n*是撤实验结果为“成功”,另外賤次结71Jc果为“失畋的槪率厂点称为二项系数*是片次试验中发生比次“成功、個占次失败情形的可能数rt+(1兀)=兀0(1兀)n+1(1兀)n-1+L+Ck兀k(1兀)n-kn+L+n兀n-1(1兀)1+兀n(1兀)0二项分布的均数和方差如果XB(n,兀),贝VR=nrtXo2=nrt(1一兀)X.o=K(1兀)X若均数与标准差不用绝对数而用率表示时,二项分布的累计概率:g=兀po2=rt(1rt)/npopnkP(Xk)=XP(X)=P(0)+P(l)+.+P(k)0p(x+

33、1)=n4-亠p(x)X+llrt5.二项分布的图形:当兀=0.5,分布对称;当兀H0.5,分布呈偏态;当兀0.5时分布呈正偏态;当兀0.5时分布呈负偏态;特别是当n值不是很大时,兀偏离0.5愈远,分布愈偏。随着n的增大,二项分布逐渐逼近正态分布。一般地说,如果n兀或n(1-兀)大于5时,常可用正态近似原理处理二项分布问题。二项分布的应用条件:各观察单位只能有互相对立的一种结果,如阳性或阴性,生存或死亡等。已知发生某一结果(如阴性)的概率兀不变,其对立结果(如阳性)的概率贝为1-rt。n次试验在相同条件下进行,且各观察单位的结果互相独立。二项分布的应用率的抽样分布及其性质总体率的可信区间估计两

34、总体率之差叫-兀2的区间估计两样本率的比较样本率与总体率的比较7.1率的抽样分布及其性质(P37)在n足够大时,样本率p的分布近似正态分布。率的均数和方差XB(n,p),p=X/n7.2总体率的可信区间估计查表法n5n(1-p)5puasp当样本例数n足够大,且样本率p利1-p)都不太小时,即np和n(1-p)均大于5时,样本率p的抽样分布近似正态分布.率的95%的CI:(p一1.96s,p+196s)pp7.3两总体率之差n1-n2的区间估计设pi=r1/n1,p2=r2/n2是两个样本率,p1p2是它们的差。如果nipi,n1(1-p1),n1p1,n2(1-p2)均大于5,则正态近似的方

35、法可用于求总体率之差的可信区间:)P1-P2)-1.96xs,(pi-p2)+1.96xs丿12p1-p212p1-p2sP1-P2P1(1-P1)+P2(1P2)nn127.4两样本率的比较(n较大时)(page73)p-p0.679-0.830u=2=1.874s0.0806p厂p2I111s=p(1-p+丄)=0.0806卩严2斗ccnn127.5样本率与总体率的比较(n较小时)例甌=0-0L=1/400,Hq-11=TTo,/|.71.a=0.05(单侧)兀S=HX=0)+/U二I)=Oh99400+400XO+99X0.01=0.0905(直接计算槪率法)按045水准,不拒绝尽,尚不

36、能认为该地新生儿染色体异常率低与一般新生儿级X检验一、两个率的比较1.卡方四格表根据检验假设H0计算出来的数称作理论频数(theoreticalfrequency)T。差值属于随机误差,用X2统计量表示:咒2事(AT)2X2分布2x检验的基本思想:如果H0假设成立,则实际频数与理论频数应该比较接近。|A-TH0成立时,实际数与理论数的差别不会很大,出现较大X2值概率很小。若PWa,则拒绝H。;若Pa,则尚无理由拒绝它。*2检验的步骤:假设两总体率相等H。:两组总体存活率相同,即兀厂兀2;H:两组总体存活率不同,即兀严兀2;a=0.05。实际数与理论数的差值服从X2分布查X2分布界值表确定P值并

37、作出推论卡方总结:4.1比较两个样本率所代表的总体率是否有差别,实质是考察现有的样本频数分布是否与假设下的理论频数分布间差异到底是否包含了本质上的差异。X2统计量代表了实际数与理论数吻合的程度。X,检验料,风冋题一尸分伤Chk-s40,T5,用2检验;N40,但1WT5,用校正2。n40,或T1,用确切概率法。二、配对四格表资料的/2检验计算公式:,b+c、/b+c、(b)2(c)222y2=2+2(bc)2(b+c)2.当20b+c40,T5,用/2;n40,但1T5,用校正2。n40,或T40;20b+c40用校正X2。b+c10或n2-n110时_|T-n(N+1)/2-0.5u_1nn

38、(N+1)/1212N_n+n12相同秩次多时校正u_u/*cC_1Y(t3t)(N3N)cjj配对设计样本比较的秩和检验:口Wilcoxon符号秩和检验计算等级之差值,对差值进行编秩,按差值的绝对值从小到大编秩,差值为0则舍去,绝对值相等则取平均秩次,最后求秩和并冠以差值的符号。查T界值表,或用近似u检验,计算P值;界定P值,作出结论。4.1步骤:H0:差值的总体中位数为0;H:差值的总体中位数不为0。a=0.05。T-n(n+1)/4-0.5x.n(n+1)(2n+1)/24当n50时,用u近似4.2符号秩和检验的基本思想:口总秩和为T=N(N+1)/2口如H0成立,则正负各半,T+与T_

39、均接近N(N+1)/4。口如果相差太大,超出了事先规定的界值,则H0不成立。秩和检验的正确应用口主要对等级资料进行分析;口秩和检验可用于任意分布(distributionfree)的资料;口秩和检验用于定量资料:极度偏态资料,如L型分布,或或个别数值偏离过大而不属于过失误差者各组离散度相差悬殊,即使经过变换也难以达到方差齐性。资料中某一端或两端含有不确定值分布型尚未确知时可以先用秩和检验法进行分析口兼有等级和定量性质的资料成组设计两样本比较:口如资料满足t检验的条件,应该用t检验进行分析。此时,如果对这类资料用Wilcoxon秩和检验,实际上是将观察单位的具体数值舍弃不用,只保留了秩次的信息,

40、使检验功效降低;尤其样本含量较小时,降低更加明显。口如资料不满足t检验的条件,而用了t检验,同样降低了检验效能。参数检验和非参数检验口参数检验(ParametricTest):针对的是总体参数,需要原始资料的总体分布信息t检验,u检验,F检验口非参数检验(NonParametricTest,DistributionFreeTest):无法获知原始总体的情况;或者,不需要对原始总体的情况进行假定;检验的对象并非总体参数。卡方检验秩和检验口方差齐性的卡方检验属于?口大样本含量的秩和检验属于?相关分析CorrelationAnalysis相关概念:当两个数值变量之间出现如下情况:当一个变量增大,另一

41、个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positivecorrelation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negativecorrelation)。直线相关(linearcorrelation),又称简单相关,用以描述两个呈正态分布的变量之间的线性共变关系,常简称为相关。用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(correlationcoefficient),又称为积差相关系数(coefficientofproduct

42、-momentcorrelation),Pearson相关系数。总体相关系数用希腊字母p表示,而样本相关系数用厂表示,取值范围均为-1,1。直线相关系数的计算:S(xX)(yY)r=QGX)工6ylllXXYY相关系数的确定及假设检验步骤:(1)画散点图,判断是否有线性趋势计算样本相关系数r(3)对r进行假设检验:H0:p=0,两变量间无直线相关的关系;H1:pHO。t=n一2(4)查表,求得P值,作出推论总体相关系数的区间估计从相关系数P等于0的总体中抽样,样本相关系数的分布是对称的。但是从相关系数P不等于0的总体中抽样,样本相关系数的分布是偏态的。Fisher(1921)的z变换,使其趋于

43、正态分布:1(1+r、z=2叫JZ近似服从均数为Tin1(1+r)/(1r)标准差为1/石一3的e2正态分布。2e2z1r=e2z+1将r变换为z;根据z服从正态分布,估计z的可信区间;再将z变换回r。两个相关系数的比较步骤:(1)画散点图(2)分别计算两样本r分别对两相关系数进行假设检验H0:PiF;H1:P1HP2。a=0.05。(4)求两者z并计算检验统计量u,按标准正态分布进行推论szz12zz(5)查界值表求得P,作出推论。相关的注意事项:相关是共变,而非因果。充分利用散点图:判断线性趋势、判断离群值排除资料的间杂性谨防多个变量间的相关性所带来的虚假关系对资料本身的要求:双变量正态分布线性回归Linearregression1.直线回归方程的建立取小一乘法y=a+bX”Z(X-X)(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论