第八章、非参数检验.ppt_第1页
第八章、非参数检验.ppt_第2页
第八章、非参数检验.ppt_第3页
第八章、非参数检验.ppt_第4页
第八章、非参数检验.ppt_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学统计学 福医卫生统计系 林征 2013.11 第八章. 秩转换的非参数检验Chapter VIII. Nonparametric Test,1,一些常见的“特殊”数据与资料,无法确认样本所来自的总体分布形式如何 (任意分布) 非正态或样本例数较少分布类型明显偏态的资料 只能以严重程度、优劣等级、次序先后等表示的资料(等级资料) 有些分组资料一端或两端是不确定数值,如5克以上,非参数检验,统计推断方法可分为两大类:参数统计(parametric statistics)和非参数统计(nonparametric statistics) t检验和方差分析属参数统计方法,其共同特点是假定随机样本来自

2、可用有限个参数描述的总体(如正态分布),并对总体分布的参数(如总体均数)进行估计或检验 而对上述“特殊”类型资料可以采用非参数统计:即对总体分布不作严格规定,不考虑总体分布类型是否已知,不比较总体参数,只比较总体分布的位置是否相同的统计方法 实际工作中,非参数统计方法可以发挥作用的情形有:总体分布不易确定;分布呈非正态而又无适当的数据转换方法;不能或未加精确测量,如等级资料等,秩和检验,基于以上不依赖总体分布参数的特点,非参数检验又称任意分布检验(distribution-free test) 非参数统计方法很多,本讲主要介绍基于秩和的非参数检验,也称秩和检验(rank sum test) 对

3、于适合参数检验的资料,如果使用秩和检验会造成信息的丢失,导致检验功效降低(当H0不成立时,不拒绝它)发现不了这种差别 而如果资料不满足参数检验条件,秩和检验与参数检验方法如t检验相比,其检验效率更好 (特别是小样本、资料特征不态满足t检验、方差分析的情况下),秩次与秩和,秩次(rank),又称为秩统计量,是指全部观察值按某种顺序排列的位序 秩和(rank sum)是指同组数据的秩次之和 不同设计类型的资料其编秩原则不同,秩次与秩和,设有以下两组数据: A组 4.7 6.4 2.6 3.2 5.2 B组 1.7 2.6 3.6 2.3 3.7 两组各有5个变量值;现在欲依从小到大的顺序将它们排列

4、起来,并标明秩次计算秩和,排序结果: 原始值中有两个“2.6”,分属A、B组,它们的秩次应是3和4,然而它们的数值本来是同样大小的,哪组取“3”,哪组取“4”呢?我们计算它们的平均数(3+4)/2=3.5,作为“2.6”的秩次,这种情况称为称为“秩次相持” (tie),这样两组所得的秩次及秩和如下: A组秩和: 3.5+ 5+8+9+10=35.5 B组秩和: 1+2+3.5+6+7=19.5,秩次与秩和,二、配对设计和单样本资料的秩和检验,例81:对12份血清分别用新、旧两种方法检测谷丙转氨酶活性(nmol.S-1/L),请问结果是否有别? 由医学常识可知,酶活力通常不满足正态分布,且其活力

5、随时间通常不呈线性改变,因而差值d通常也不满足正态,配对设计资料的编秩原则,按照配对设计,先求出对子之间的差值,按其差值的绝对值,从小到大进行排序,其序号即秩次,并在秩次之前保持原差值的正负号不变 编秩遇到差值为零时则舍去不编秩,对绝对值相等的差值取平均值,并在秩次之前保持原差值的正负号 一般来说,秩次最小为1,最大为对子数n,当有差值为零时,最大秩次等于对子数n减去差值为零的个数,T+=54.5,T-=11.5,3,4,1.5,-1.5,配对设计资料的编秩原则,5,6,7,8,9,-10,11,Wilcoxon sign rank test原理,在新旧两种方法检测结果无差别时(H0成立时),

6、正差值的秩和与负差值的秩和理论上应相等,即使有些差别,也只能是一些随机因素造成的,所以两者差别不大 换句话说,如果H0成立,一份随机样本中“不太可能”出现正差值的秩和与负差值的秩和相差悬殊的情形 如何判断其可能性大小?换而言之,秩和是否有规律可循?,Wilcoxon sign rank test原理,秩次之和是有规律性的 假定只有4对数值,若其差值的绝对值d不存在0,也不存在相等的情况 如果两种方法的差值的中位数为0,意味着将二者差值排序后正秩次之和应该与负秩次之和相等,现将所有可能性列出如下:,Wilcoxon sign rank test原理,Wilcoxon sign rank test

7、原理,所有可能的组合有2n=16种(n为对子数,下同) 正秩与负秩绝对值之和等于n(n+1)/2=10 正秩或负秩的秩和出现的概率关于n(n+1)/4=5对称,自5向两端出现的概率逐渐将少,Wilcoxon sign rank test原理,如果已有专业知识背景,认为B方法的检测值不会低于A法(意味着T+T-,即单侧检验),如果出现T+=8,T-=2,以及更极端情况,其概率P有多大? P=P(T+ 8),或者P=P(T- 2);根据上表,得出P(T+ 8)=0.1875 而如果没有专业背景支持(双侧检验),出现了T+=8,T-=2,问其概率P有多大? 则P值的含义为P (T+) (T-) 6)

8、=0.18752 = 0.375,Wilcoxon sign rank test原理,统计学家将对子数介于550的情况列出,见附表9(表中的N为非0对子数) N=11时,双侧0.05的秩和界值为1056;其含义为当(不等0)对子数为11时,正秩和或负秩和小于等于10以及大于等于56的可能性之和为0.05(相当于假设检验中的拒绝域) 本例出现了T+=54.5的情况(T-也一样),不在拒绝域内,则尚不拒绝H0,Wilcoxon sign rank test,计算步骤如下: 求各对数据的差值d H0:差值的总体中位数等于零,即:Md=0 H1:差值的总体中位数不等于零,即Md0 a=0.05(双侧)

9、 按前述编秩原则对差值d编秩 查表,确认当前的秩和是否在拒绝域内(任意取正或负秩和查表均可),Wilcoxon sign rank test,本例中出现一例差值为0的情况,故n=11 理论上其正、负秩和之和为(1211)/2=66;本例T+T-=66故认为编秩计算秩和过程无误 任意取T+或T-,查附表9;均落在双侧0.05的秩和界值内(10,56),故在0.05的水准上不拒绝H0,尚不认为两种方法的检测结果不同。,秩和分布的正态近似性,当不等0的对子数n50时,正或负秩和的概率分布就逼近正态(在n50的情况下,其概率分布也是对称的) 记为:TN(mT,sT2),秩和分布的正态近似性,满足正态分

10、布就可以作标准正态性转换: 根据样本资料计算的u值大小判断是否有理由拒绝H0,秩和分布的正态近似性,若秩次相同的现象出现较多(如超过不等0的总对子数n的25%),用上式求得的u值偏小,应计算校正的统计量值uc 式中tj为第j(j=1,2)次相持时,所含相同秩次的个数 ;在本例中,共有2例秩次相持,故S(tj3-tj)= (23-2)=6,单样本资料的符号秩和检验,若单组随机样本来自正态总体,比较其总体均数与某常数是否不同,可用t检验 若样本来自非正态总体或总体分布无法确定,也可用Wilcoxon符号秩和检验,检验总体中位数是否等于某已知数值 所不同的只是差值为各观察值与已知总体中位数之差,其他

11、符号的意义同配对设计资料,单样本资料的符号秩和检验,已知某地正常人的尿氟含量的中位数为45.30mol/L;在该地的某厂随机抽取12名工人,测得尿氟含量见下表,问该厂工人的尿氟含量是否高于正常人?,3,4,5,6,7,8,9,10,11,单样本资料的符号秩和检验,计算步骤如下: 求各数据与已知总体中位数的差值d H0:差值的总体中位数等于零,即:Md=0 H1:差值的总体中位数不等于零,即Md0 a=0.05(单侧) 按差值的绝对值由小到大编秩,并按差值的正负给秩次加上正负号;编秩时,若差值为0,舍去不计;若差值的绝对值相等,称为相持(tie),这时取平均秩次 合计T+=64.5,T-=1.5

12、,正、负秩和之和为66,与理论值一致;查表时取n=11(原始数据有12例,但是有一例与已知中位数差值等于0),查表界值为(13,53),故在0.05的水准上拒绝H0,认为该工厂工人的尿氟含量高于当地正常人,三、两独立样本秩和检验,完全随机设计两个独立样本比较的Wilcoxon秩和检验,目的是推断两样本分别代表的总体分布位置是否不同 Wilcoxon秩和检验的基本思想是:假设两总体分布相同,两样本可认为是从同一总体中抽取的随机样本 将二者混合后由小到大编秩,然后分别计算两样本组的秩和,如果两总体分布的中心位置相同,则两样本的秩和在n1=n2时应该大致相等,如果n1n2 时则应与各样本含量成比例(

13、即:两样本的平均秩次应该接近),其差别是由于随机抽样引起;如果按上述方法计算的两样本平均秩次差别很大,我们就有理由认为原假设不成立,两定量资料的秩和检验,例8-3:对10例肺癌与12例矽肺患者用x线片测量其肺门横径右侧距RD(cm),能否认为肺癌患者RD高于矽肺病例?,1,T1=141.5,T2=111.5,7,14,17,18,19,22,21,20,4,5,6,8,9,10,11,12,13,15,16,计算步骤如下: H0:两总体分布位置相同(即:两总体的平均秩次相同) H1:两总体分布位置不同(即:两总体的平均秩次不同) a=0.05(单侧) 将两组数据由小到大统一编秩(为便于编秩可先

14、将两组数据分别由小到大排序);编秩时如遇有相同数据,取平均秩次 两组秩次分别相加,合计T1=141.5,T2=111.5,两秩和之和为253,与理论值N(N+1)/2一致,表示编秩、计算无误 若两组例数相等,则任取一组的秩和为统计量;若两组例数不等,为了查表方便以样本例数较小者对应的秩和为统计量(本例中取甲断面,T1=141.5),两定量资料的秩和检验,查附表10(成组设计用):先从左侧找到n1(n1和n2中的较小者),本例为10;再从表上方找两组例数的差(n2-n1),本例, n2-n1 =2;在两者交叉处即为T的临界值(89,141) 将检验统计量T=141.5与T临界值相比,若T值在界值

15、范围内,其P值大于相应的概率;若T值等于界值或在界值范围外,其P值等于或小于相应的概率 本例中由于141.5落在界值范围外,故在0.05的水准上拒绝H0,认为肺癌RD值高于矽肺患者,两定量资料的秩和检验,如果n1或n2-n1超出了成组设计T界值的范围,可用正态近似检验 在H0成立的情况下,任意一组资料秩和的概率分布近似正态,记为:TiN(mTi,sTi2),两定量资料的秩和检验,满足正态分布就可以作标准正态性转换: 根据样本资料计算的u值判断是否拒绝H0,两定量资料的秩和检验,若秩次相同的现象出现较多(如超过不等0的总对子数n的25%)用上式求得的u值偏小,应计算校正的统计量值uc 式中tj为

16、第j(j=1,2)次相持时,所含相同秩次的个数 ,N为总例数;在本例中,共有2例秩次相持;故S(tj3-tj)= 23-2=6,c=1-6/(223-22)=0.99943534,两定量资料的秩和检验,两有序变量资料的秩和检验,某研究者欲评价某口服液治疗高甘油三酯血症的疗效,将患者189例随机分为两组,分别使用口服液与降脂片,数据见下问两种药物的疗效是否不同?,187,44,4417,4470,88125,106.5,106.525,106.513,126189,157.5,157.527,157.537,7663,10292,计算步骤如下: H0:两总体分布位置相同(即:两总体的平均秩次相同

17、) H1:两总体分布位置不同(即:两总体的平均秩次不同) a=0.05(双侧) 本例为等级资料,在编秩时,相同等级的个体属于相持;先按组段计算各等级的合计人数,由此确定各组段秩次范围,然后计算出各组段的平均秩次 两组秩次分别相加,合计T1=7663,T2=10292,两秩和之和为17955,与理论值N(N+1)/2一致,表示编秩、计算无误 本例中,n1与n2-n1已经超出了附表10的范围,故采用正态近似法估计,两有序变量资料的秩和检验,由于例数足够多,考虑采用正态近似法;而且本例题中存在大量秩次相持的情况,故需要校正: 故在0.05的水准上拒绝H0,认为口服液疗效分布与降脂片不同,两有序变量资

18、料的秩和检验,四、完全随机设计多样本秩和检验,完全随机设计多个样本比较,是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,亦可从不同总体中或大样本中随机抽样进行对比观察,各组受试对象组成的是相互独立的随机样本 该非参数方法是由Kruskal和Wallis在Wilcoxon秩和检验的基础上扩展而来,又称为K-W检验或H检验 完全随机设计多个样本比较的Kruskal-Wallis秩和检验,目的是推断多个样本分别代表的总体分布位置是否不同,多组定量变量的秩和检验,某医院用三种疗法治疗15例胰腺癌患者,每种方法各5例;患者的生存时间见下表,请问三组患者的生存时间是否有别?,多组定量变量的秩和

19、检验,通常情况下,生存时间不满足正态(正偏态) 而且三组例数均较少,所以不满足方差分析条件(正态性无法满足) 可以考虑变量转换或直接采用非参数检验分析,多组定量变量的秩和检验,假设各样本来自相同总体,于是可以将各样本合并,依据从小到大的顺序进行排序,如果有多个相等的变量值分布在不同组中,则按顺序排序然后取其平均秩次 分别计算多样本组的秩和,如果所有样本来自总体分布的中心位置相同,则这些样本的平均秩应该接近(TA:TB:TC=nA:nB:nC),其差别是由于随机抽样引起 如果按上述方法计算的样本间平均秩差别很大,我们就有理由认为原假设不成立,多组定量变量的秩和检验,15,14,13,12,10,

20、10,10,6,5,4,1,2.5,2.5,7.5,7.5,34,60,26,多组定量变量的秩和检验,计算步骤如下: H0:三总体分布位置相同 H1:三总体分布位置不全相同 a=0.05 按照之前编秩要求对三组资料进行编秩 三组秩次分别相加,合计T1=34,T2=60, T3=26;三秩和之和为120,与理论值N(N+1)/2一致,表示编秩、计算无误,多组定量变量的秩和检验,当H0成立时,第i组样本的秩和Ti的期望值与方差分别为: 检验统计量H为:,多组定量变量的秩和检验,对上式化简得:,多组定量变量的秩和检验,当组数k=3,且各组例数均不超过5例时,查附表11 如果超出以上范围,则查v=k-

21、1的卡方界值表 本例查表得界值为1738,计算H=6.32,故P0.05,拒绝H0,认为三组生存时间不全相同,多组有序变量的秩和检验,例8-7:四种疾病患者痰液内嗜酸性粒细胞的检查结果见下表,问四种患者痰液内嗜酸性粒细胞的等级分布有无差别?,111,6,60,63,63,65,多组有序变量的秩和检验,计算步骤如下: H0:四总体分布位置相同 H1:四总体分布位置不同或不全相同 a=0.05 按照之前编秩要求对四组资料进行编秩 四组秩次分别相加,合计T1=739.5,T2=436.5, T3=409.5 ,T4=244.5 ;四秩和之和为1830,与理论值N(N+1)/2一致,表示编秩、计算无误

22、,多组有序变量的秩和检验,五、随机区组设计的秩和检验,随机化区组设计连续型变量资料,若各实验组来自非正态总体,不宜做随机化区组设计方差分析,可采用Friedman秩和检验 该检验方法是由M. Friedman在符号检验的基础上提出来的,常称为Friedman检验,又称M检验,目的是推断各处理组样本分别代表的总体分布位置是否不同,随机区组设计资料的秩和检验,1 2 3 4,1 4 2 3,2 1 4 3,2 1 3 4,2 1 3.5 3.5,1 3 2 4,1 2 3 4,2 1 3 4,随机区组设计的秩和检验,Friedman秩和检验的基本思想是:各区组内的观察值按从小到大的顺序进行编秩 如

23、果各处理的效应相同,各区组内秩1,2,k应以相等的概率出现在各处理(列)中,各处理组的秩和应该大致相等,不太可能出现较大差别 如果按上述方法所得各处理样本秩和T1,T2,T3Tk,相差很大, 便有理由怀疑各处理组的总体分布是否相同,随机区组设计资料的秩和检验,检验步骤如下: H0:四总体分布位置相同 H1:四总体分布位置不同或不全相同 a=0.05 先将各区组内数据由小到大编秩,遇相同数值取平均秩次。再将各处理组的秩次相加,得到各处理组秩和 Ti 计算统计量M值:,随机区组设计资料的秩和检验,当区组数b15,处理组数k 15时,可直接查本书附表12 本例b=8,k=4,M界值为105,故在0.

24、05的水准上,拒绝H0,认为四组的总体分布不同或不全相同,随机区组设计资料的秩和检验*,当区组数与处理组数较多时(超出了附表的范围),可以考虑采用卡方检验近似 其基本原理如下:,随机区组设计的秩和检验*,上表中rij表示第i处理组(共k个处理组)第j个区组(共b个区组)的观察值对应的相应秩次 任意区组的秩和为:,随机区组设计的秩和检验*,则k个处理组,b个区组所有观测对象的秩次之和为: 如果H0成立,则认为各处理组的秩次之和应该差不多,理论上都等于T/k(每组的例数均为b例,共有k组,每组的秩和Ti等于b(k+1)/2) 故任意组的秩和的期望值与方差为:,随机区组设计的秩和检验*,但是与前面H统计量不同的是,所有各组的秩和经过标准化后求得的平方和并不满足卡方分布,随机区组设计的秩和检验*,六、多个样本间的多重比较*,无论是对完全随机设计多个样本比较用Kruskal-Wallis秩和检验,还是对随

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论