非参数第五章_第1页
非参数第五章_第2页
非参数第五章_第3页
非参数第五章_第4页
非参数第五章_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非参数第五章第一页,共六十九页,编辑于2023年,星期五§5.1Kruskal–Wallis秩和检验例5.1在一项健康试验中,三组人有三种生活方式,它们的减肥效果如下表:生活方式123一个月后减少的重量(单位500g)3.77.39.03.75.24.93.05.37.13.95.78.72.76.5ni554

人们想要知道的是从这些数据能否得出它们的减肥效果(位置参数)是一样的.第二页,共六十九页,编辑于2023年,星期五数据形式为(这里各个样本的大小不一定一样,观测值总数记为)12…k第三页,共六十九页,编辑于2023年,星期五在各个总体为等方差正态分布及观测值独立的假定下,问题归结于各个样本所代表的总体均值是否相同.零假设为;备择假设通常为.检验统计量为F在下的分布为自由度为的F分布.第四页,共六十九页,编辑于2023年,星期五若假定这个样本有相似的连续分布(除了位置可能不同外),而且所有的观测值在样本内和样本之间是独立的.即:假定个独立样本有连续分布函数,零假设为;而备择假设为,这里是某连续分布函数,而且这些位置参数并不全部相同第五页,共六十九页,编辑于2023年,星期五这个问题也可以写成线性模型的形式,假定有个样本,各样本的样本量为,那么,观测值可以写成下面的线性模型:这里,误差是独立同分布的.我们要检验的是第六页,共六十九页,编辑于2023年,星期五

把多个样本混合起来后求秩,再求各自样本的秩之和12…k

…其中,第七页,共六十九页,编辑于2023年,星期五Kruskal-Wallis统计量这里为所有观测值得秩的平均水平的Kruskal-Wallis检验可以定义为:如果使的值大于其实现值的分配数目小于(这里)则拒绝零假设。第八页,共六十九页,编辑于2023年,星期五在时,其在零假设下的分布有表可以查;在大时,并且对每个趋于某个非零数,则在零假设下近似于有个自由度的分布。另外在大样本时,还有一个零假设下近似于分布的统计量第九页,共六十九页,编辑于2023年,星期五第十页,共六十九页,编辑于2023年,星期五生活方式123一个月后减少的重量(单位500g)3.7(3.5)7.3(12)9.0(14)3.7(3.5)5.2(7)4.9(6)3.0(2)5.3(8)7.1(11)3.9(5)5.7(9)8.7(13)2.7(1)6.5(10)秩和秩平均15464439.211第十一页,共六十九页,编辑于2023年,星期五Kruskal-Wallisranksumtestdata:a[,1]anda[,2]Kruskal-Wallischi-squared=9.4322,df=2,p-value=0.00895在存在打结的情况,上面的检验统计量可以修正为这里的为结统计量,而为结的个数.第十二页,共六十九页,编辑于2023年,星期五§5.2正态记分检验假定个独立样本有连续分布函数,零假设为;而备择假设为,这里是某连续分布函数,而且这些位置参数并不全部相同.构造正态记分的过程如下:先把所有的样本混合,然后按照升幂排列,再把每一个观测值在混合样本中的秩替换为第个标准正态分位点(正态记分),记之为.正态记分定义为第十三页,共六十九页,编辑于2023年,星期五2.711-1.501085953.012-1.110771623.713-0.841621233.714-0.622925723.915-0.430727304.936-0.253347105.227-0.083651735.3280.083651735.7290.253347106.52100.430727307.13110.622925727.32120.841621238.73131.110771629.03141.50108595第十四页,共六十九页,编辑于2023年,星期五>d=read.table("E:/data/wtloss.txt")>d=d[order(d[,1]),]>n1=sum(d[,2]==1)>n2=sum(d[,2]==2)>n3=sum(d[,2]==3)>n=nrow(d)>r=rank(d[,1])>w=qnorm(r/(n+1))>z=cbind(d,r,w)第十五页,共六十九页,编辑于2023年,星期五nn=sum(sum(w[z[,2]==1])^2/n1,sum(w[z[,2]==2])^2/n2,sum(w[z[,2]==3])^2/n3)>T=(n-1)*nn/sum(w^2)pchisq(T,3-1,low=F)[1]0.01067903[1]9.078947第十六页,共六十九页,编辑于2023年,星期五§5.3Jonckheere-Terpstra检验假定个独立样本有相同形状的连续分布函数,有位置参数(比如中位数),令为来自第个样本的第个独立观测值同样这个问题也可以写成线性模型的形式,假定这个样本的样本量分别为,那么,观测值可以写成下面的线性模型:这里,误差是独立同分布的。第十七页,共六十九页,编辑于2023年,星期五如果样本的位置显现出趋势,比如持续上升的趋势,则可能在检验中考虑下面参数有序的备择假设如果样本呈现下降趋势,则备择假设为:本节的Jonckheere-Terpstra统计量先计算第十八页,共六十九页,编辑于2023年,星期五然后,对所有的在范围求和,这样就产生了Jonckheere-Terpstra统计量:它的大小从0到变化.如果有结出现,可稍作变更为而也相应地变为第十九页,共六十九页,编辑于2023年,星期五当或大时,应拒绝零假设.可以通过查表,从及检验水平来得到在零假设下的临界值,它满足.然而,当有结时,表不准确(样本大的时候较好).在样本太大,超出表的范围时,可以用正态近似,即当时Jonckheere-Terpstra检验是由Terpstra(1952)和Jonckheere(1954)独立提出来的.它比Kruskal-Wallis检验有更强的势().第二十页,共六十九页,编辑于2023年,星期五再看上节的减肥例子,因为觉得可能有上升趋势,所采取的备择假设为生活方式123一个月后减少的重量(单位500g)3.77.39.03.75.24.93.05.37.13.95.78.72.76.5ni554比较上面数据表中的每两列,很容易得出第二十一页,共六十九页,编辑于2023年,星期五第二十二页,共六十九页,编辑于2023年,星期五利用正态近似,得到,进而得到值为0.00096,因此,可以在水平时拒绝零假设.第二十三页,共六十九页,编辑于2023年,星期五§5.4区组设计数据分析回顾上面减肥数据的例子中,假定在每一个样本中的观测值是相互独立的,样本之间也是相互独立的.每一个样本代表了一个变量或因素,习惯上称为“处理”.然而在实践中,除了处理之外,往往还有别的因素起作用.比如在关于肥料(处理)效能的农业试验中,不同条件的土壤就构成了另外一个因素,习惯上称为“区组(block)”.如果随机地把所有处理分配到所有的区组中,使得总的变化可以分解为:(1)处理造成的不同;(2)区组内的变化;(3)区组之间的变化.这就是随机化完全区组设计(RandomizedCompleteBlockDesign).当区组存在时,代表处理的样本的独立性就不再成立了.第二十四页,共六十九页,编辑于2023年,星期五以一例来说明一些常见的概念.例5.2在不同的城市对不同的人群进行血液中铅的含量测试;一共有A,B,C三个汽车密度不同的城市代表着三种()不同的处理.对试验者按职业分四组()取血(4个区组).他们血中铅的含量列在下面表中():城市(处理)职业(区组)ⅠⅡⅢⅣABC8010051655276525340523435每一个处理在每一个区组中出现并仅出现一次.这是一个完全区组设计,每个处理和区组的组合都有一个观测值.第二十五页,共六十九页,编辑于2023年,星期五在实践中,并不一定能把每一个处理分配到每一个区组中,这样就产生了不完全区组设计.在不完全区组设计中最容易处理的是平衡的不完全区组设计(BalancedIncompleteBlockDesign--BIBD).如果一共有个处理及个区组,而且在每一个区组含有个处理.平衡的不完全区组设计满足下面条件:(1)每个处理在同一区组中最多出现一次;(2);(3)每个处理都出现在相同多()个区组中;(4)每两个处理在一个区组中相遇次数一样(次).用数学语言来说,这些参数满足如果,则为完全区组设计.第二十六页,共六十九页,编辑于2023年,星期五例5.3一个BIB设计的例子是比较四种材料在四个部位的磨损,数据可以写成下面两种形式:

材料(处理)部位(区组)ⅠⅡⅢⅣABCD342836363045404860445459部位(区组)ⅠⅡⅢⅣ34(A)30(B)48(C)59(D)36(B)28(A)54(D)60(C)40(C)44(D)36(A)45(B)这里第二十七页,共六十九页,编辑于2023年,星期五在正态假定下,如何进行这种检验,用表示第个处理在第个区组的观测值(这里仅考虑对于每对只有一个观测值的情况).在检验处理的均值是否相等时的零假设为,备择检验为“不是所有的都相等.”对于完全区组试验,正态总体条件下的检验统计量为第二十八页,共六十九页,编辑于2023年,星期五§5.5完全区组设计:Friedman秩和检验

完全区组设计中每个处理在每个区组中恰好有一个观测值.关于处理的位置参数(用表示)的零假设为;而备择假设为:“不是所有的位置参数都相等.”由于区组的影响,要首先在每一个区组中计算各个处理的秩,再把每一个处理在各区组中的秩相加.如果表示在各区组中处理的秩。则秩按照处理而求得的和为这样做的目的是在每个区组内比较处理.第二十九页,共六十九页,编辑于2023年,星期五区组处理

12…b12k第三十页,共六十九页,编辑于2023年,星期五Friedman统计量定义为:

该统计量是Friedman(1937)提出来的,后来又被Kendall(1938,1962),Kendall&Smith(1939)发展到多元变量的协同系数相关问题上.对于有限的和,有零假设下的分布表可查,查的时候要作变换,当查不到时,可用自由度为的分布近似.对于固定的,当时,在零假设下有第三十一页,共六十九页,编辑于2023年,星期五第三十二页,共六十九页,编辑于2023年,星期五第三十三页,共六十九页,编辑于2023年,星期五城市(处理)职业(区组)

1194ⅠⅡⅢⅣABC80(3)100(3)51(2)65(3)52(2)76(2)52(3)53(2)40(1)52(1)34(1)35(1)由此可得,对查表得到相应于的临界值为这里.由于,由此对于水平可以拒绝零假设.

第三十四页,共六十九页,编辑于2023年,星期五在某区组存在结时,可以修正为Friedman检验和通常正态假定下方差分析相比较的渐近相对效率(ARE).记的分布为,如果由于区组效应,尺度参数不一样,则Friedman检验对于通常方差分析的ARE即使对正态总体也可以超过1.如果区组效应造成其尺度和位置二参数在区组间都不同,该ARE有下界.在正态假定成立并且等方差时,ARE可高达.因此,即使正态假定成立,作方差分析时,为了对抗异方差性,可以考虑Friedman检验.第三十五页,共六十九页,编辑于2023年,星期五成对处理的比较

上面的零假设和备择假设是关于所有处理的,但有时想知道某两个处理的比较.下面介绍大样本时的基于Friedman秩和检验的一个方法.如果零假设为:“处理和处理没有区别”,那么,双边检验的统计量为;对于置信水平,如果则拒绝零假设,这里第三十六页,共六十九页,编辑于2023年,星期五d=read.table("E:/data/blead.txt")>dV1V2V318052402100765235152344655335>friedman.test(as.matrix(d))Friedmanranksumtestdata:as.matrix(d)Friedmanchi-squared=6.5,df=2,p-value=0.03877第三十七页,共六十九页,编辑于2023年,星期五§5.6

Kendall协同系数检验

在实践中,经常需要按照某特别的性质来多次(次)对个个体进行评估或排序;比如个裁判员对于种品牌酒类的排队,个选民对个候选人的评价,个咨询机构对一系列(个)企业的评估以及体操裁判员对运动员的打分等等.人们往往想知道,这个结果是否或多或少地一致.如果不一致,则这个评估多少有些随机性,没有多大意义.第三十八页,共六十九页,编辑于2023年,星期五例5.4(airp.txt)下面是4个独立的环境研究单位对10个城市空气等级排序的结果:评估机构

被评估的10个城市(A-J)的排名()ABCDEFGHIJABCD924107685311387596428421097563191210674853368113829252625157人们想知道这四个评估机构的结果是否是随机的.第三十九页,共六十九页,编辑于2023年,星期五令零假设为:“这些评估(对于不同个体)是不相关的或是随机的”,而备择假设为:“它们(对各个个体)是正相关的或者是多少一致的.”

Kendall和Smith(1939)提出了协同系数(coefficientofconcordance),协同系数可以看成为二元变量的Kendall在多元的推广.Kendall协同系数定义为这里是个体的总秩与平均秩的偏差的平方和.每个评估者(共个)对于所有参加排序的个体有一个从1到的排序(秩);而每个个体有个打分(秩)第四十页,共六十九页,编辑于2023年,星期五记为第个个体的秩的和(),则Kendall协同系数还可以写成下面的形式:

的取值范围是从0到1.第四十一页,共六十九页,编辑于2023年,星期五>d=read.table("E:/data/airp.txt")>dV1V2V3V4V5V6V7V8V9V10192410768531210138759642384210975631491210674853>R=apply(d,2,sum)>RV1V2V3V4V5V6V7V8V9V10368113829252625157>第四十二页,共六十九页,编辑于2023年,星期五>m=nrow(d)>m[1]4>n=ncol(d)>n[1]10>S=sum((R-m*(n+1)/2)^2)>S[1]1126>W=12*S/m^2/(n^3-n)>W[1]0.8530303第四十三页,共六十九页,编辑于2023年,星期五当大时,可以利用大样本性质:在零假设下,对固定的,当,

pchisq(m*(n-1)*W,n-1,low=F)[1]0.0003320349可能更精确一些的近似为统计量第四十四页,共六十九页,编辑于2023年,星期五

的值大(显著),意味着各个个体在评估中有明显的不同;可以认为这样所产生的评估结果是有道理的.而如果不显著,意味着评估者对于各个个体意见很不一致,则没有理由认为能够产生一个共同的评估结果.第四十五页,共六十九页,编辑于2023年,星期五§5.7完全区组设计:关于二元响应的Cochran检验例5.5(candid.txt)下面是某村村民对四个候选人(A,B,C,D)的赞同与否的调查(数字“1”代表同意,“0”代表不同意);处理区组:20个村民对A,B,C,D四个候选人的评价ABCD011001111111111101111100011111011011000001111000010001101010000011001000010110001611961321232233122333212142第四十六页,共六十九页,编辑于2023年,星期五

所关心的是这四个候选人在村民眼中有没有区别.即检验,对应于备择假设“不是所有的位置参数都相等.”

如果用Friedman检验,将会有很多打结现象,即许多秩相同.而Cochran检验就解决了打结问题.Cochran把看成为固定的,在零假设下,对每个,个“1”在各个处理中是等可能的.也就是说每个处理有同等的概率得到“1”,而且该概率依赖于固定的值.的值随着不同的观察而不同.下面给出Cochran检验统计量的定义第四十七页,共六十九页,编辑于2023年,星期五在零假设下,对于固定的,当时这里检验了排列的对称性,即在零假设下,在给定时和有同样的条件分布,这里为的任意排列.第四十八页,共六十九页,编辑于2023年,星期五V1V2V3V4101002111031010400105001161101711008110091101101110V1V2V3V4111000121100131100141011151110161101170011181000191010201000>x=read.table("E:/data/candid.txt")>x第四十九页,共六十九页,编辑于2023年,星期五>n=apply(x,2,sum)>nV1V2V3V4161196>N=sum(n)>N[1]42>L=apply(x,1,sum)>L123456789101112131415161718192013212322331223332121第五十页,共六十九页,编辑于2023年,星期五>k=dim(x)[2]>k[1]4>Q=(k*(k-1)*sum((n-mean(n))^2))/(k*N-sum(L^2))>Q[1]9.352941>pvalue=pchisq(Q,k-1,low=F)>pvalue[1]0.02494840第五十一页,共六十九页,编辑于2023年,星期五§5.8完全区组设计:Page检验对于完全区组设计的检验问题Page(1963)引进下面的检验统计量.和Friedman统计量一样,首先在每一个区组中,对处理排序;然后对每个处理把观测值在各区组中的秩加起来,得到.它具体定义为

第五十二页,共六十九页,编辑于2023年,星期五

其中每一项乘以的主要思想在于:如果是正确的,这可以“放大”备择假设的效果.在总体分布为连续的条件下,如果没有打结,则该检验是和总体分布无关的.对于一部分和的值可以由查表来得到在零假设下的临界值,满足,当固定,而时,在零假设下有正态近似第五十三页,共六十九页,编辑于2023年,星期五在区组内有打结的情况下,可以修正为这里为在第个处理中及第个结中的观测值个数(结统计量).城市(处理)职业(区组)

1194ⅠⅡⅢⅣABC80(3)100(3)51(2)65(3)52(2)76(2)52(3)53(2)40(1)52(1)34(1)35(1)例5.2第五十四页,共六十九页,编辑于2023年,星期五第五十五页,共六十九页,编辑于2023年,星期五城市(处理)职业(区组)

4911ⅠⅡⅢⅣCBA40(1)52(1)34(1)35(1)52(2)76(2)52(3)53(2)80(3)100(3)51(2)65(3)检验问题为:第五十六页,共六十九页,编辑于2023年,星期五>d=read.table("E:/data/blead1.txt")>dV1V2V314052802527610033452514355365>rd=apply(d,1,rank)>rd1234V11111V22232V33323第五十七页,共六十九页,编辑于2023年,星期五>R=apply(rd,1,sum)>RV1V2V34911>L=sum(R*1:length(R))>L[1]55>k=dim(d)[2]>k[1]3>b=dim(d)[1]>b[1]4第五十八页,共六十九页,编辑于2023年,星期五m=b*k*(k+1)^2/4>m[1]48>s=sqrt(b*(k^3-k)^2/144/(k-1))>s[1]2.828427>Z=(L-m)/s>Z[1]2.474874>P=pnorm(Z,low=F)>P[1]0.006664164第五十九页,共六十九页,编辑于2023年,星期五§5.9不完全区组设计:Durbin检验

考虑不完全区组设计BIBD().首先假定总体分布为连续的,而且不存在打结;再假定区组之间相互独立.考虑检验,对“不是所有的位置参数都相等.”和前面的Friedman检验一样,在每一个区组中,对处理排序;然后对每个处理把观测值在各区组中的秩加起来.如果记为在第区组中的第个处理的秩,按处理相加得到,第六十页,共六十九页,编辑于2023年,星期五Durbin(1951)检验统计量为

对于显著性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论