第二章非参数统计分析演示文稿_第1页
第二章非参数统计分析演示文稿_第2页
第二章非参数统计分析演示文稿_第3页
第二章非参数统计分析演示文稿_第4页
第二章非参数统计分析演示文稿_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章非参数统计分析演示文稿*1目前一页\总数八十七页\编于七点*2优选第二章非参数统计分析目前二页\总数八十七页\编于七点思考的要点各种检验方法的思路各种检验方法统计量的构造各种检验方法的应用场合在SAS与R中如何完成

目前三页\总数八十七页\编于七点第一节符号检验第二节Cox-Stuart趋势检验第三节游程检验第四节Wilcoxon符号秩检验第五节正态记分检验第六节与参数检验相对效率比较目前四页\总数八十七页\编于七点符号检验的统计量为B=得正号的个数。符号检验。设随机变量X1,…,Xn是从某个总体X中抽出的简单随机样本。且分布函数F(X)在X=0是连续的。假设检验问题检验的统计量可以取B。第一节符号检验在原假设为真的条件下,B服从参数为n和0.5的二项分布b(n,0.5)。由于原假设为真时,B应该不太大,也不太小,如果B太大或太小,应该拒绝原假设。目前五页\总数八十七页\编于七点

精确的符号检验是指检验的p值是由精确的概率给出的。我们利用正号和负号的数目,来检验某假设,这是一种最简单的非参数方法。

【例4】联合国人员在世界上71个大城市的生活花费指数(上海是44位,数据为63.5)按自小至大的次序排列如下。一、精确中位数的符号检验目前六页\总数八十七页\编于七点有人说64应该是这种大城市花费指数的中位数,有人说64顶多是低位数(下四分位数),进行检验。数据如下:122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8,49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,36.4,32.7,32.7,32.2,29.1,27.8,27.8目前七页\总数八十七页\编于七点目前八页\总数八十七页\编于七点通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t检验有关的方法进行的。然而,在本例中,总体分布是未知的。为此,首先看该数据的直方图从图中很难说这是什么分布。假定用总体中位数来表示中间位置,这意味着样本点,取大于me的概率应该与取小于me的概率相等。所研究的问题,可以看作是只有两种可能“成功”或“失败”。

目前九页\总数八十七页\编于七点符号检验的思路,记成功:X-0大于零,即大于中位数M,记为“+”;失败:X-0小于零,即小于中位数M,记为“-”。令S+=得正符号的数目

S-=得负符号得数目可以知道S+或S—均服从二项分布B(65,0.5)。则可以用来作检验的统计量。其假设为:目前十页\总数八十七页\编于七点关于非参数检验统计量需要说明的问题在非参数检验中,可以得到两个相互等价的统计量,比如在符号检验中,得负号与得正好的个数,就是一对等价的统计量,因为S++S-=N。那么我们在检验时应该用那个呢?约定选择统计量目前十一页\总数八十七页\编于七点假设检验统计量S-=28是得负号的个数得正号的个数43。P-值检验的结果拒绝零假设结论中位数大于64目前十二页\总数八十七页\编于七点该检验R的代码x<-c(122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8,49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,36.4,32.7,32.7,32.2,29.1,27.8,27.8)y=sum(sign(x-64)==1)pbinom(71-y,71,0.50)目前十三页\总数八十七页\编于七点二、大样本的情形当样本容量足够大,我们可以利用二项分布的正态近似来对该问题进行检验。因为计数统计量在原假设为真时,服从b(n,0.5)。且其均值为0.5n,方差为0.25n。则检验的统计量为

目前十四页\总数八十七页\编于七点第二节Cox-Stuart趋势检验人们经常要看某项发展的趋势.但是从图表上很难看出是递增,递减,还是大致持平.

【例5】我国自1985年到1996年出口和进口的差额(balance)为(以亿美元为单位)

—149.0119.737.777.5—66.087.480.543.5122.254.0167.0122.2从这个数字,我们能否说这个差额总的趋势是增长,还是减,还是都不明显呢?下图为该数据的点图.从图可以看出,总趋势似乎是增长,但1993年有个低谷;这个低谷能否说明总趋势并不是增长的呢?我们希望能进行检验.目前十五页\总数八十七页\编于七点目前十六页\总数八十七页\编于七点三种假设:

怎么进行这些检验呢?可以把每一个观察值和相隔大约n/2的另一个观察值配对比较;因此大约有n/2个对子.然后看增长的对子和减少的对子各有多少来判断总的趋势.具体做法为取和。这里目前十七页\总数八十七页\编于七点在这个例子中n=12,因而c=6。这6个对子为(x1,x7),(x2,x8),(x3,x9),(x4,x10),(x5,xl1),(x6,x12)。目前十八页\总数八十七页\编于七点用每一对的两元素差Di=xi-xi+c的符号来衡量增减。令S+为正Di=xi-xi+c的数目,而令S-为负的Di=xi-xi+c的数。显然当正号太多时,即S+很大时(或S-很小时),有下降趋势,反之,则有增长趋势.在没有趋势的零假设下它们应服从二项分布b(6,0.5),这里n为对子的数目(不包含差为0的对子)。该检验在某种意义上是符号检验的一个特例。目前十九页\总数八十七页\编于七点类似于符号检验,对于上面1,2,3三种检验,分别取检验统计量K=S+,K=S-和K=min(S+,S-)。在本例中,这6个数据对的符号为5负1正,所以我们不能拒绝原假设。假设统计量

P值K=min(S+,S-)P(K<k)K=min(S+,S-)P(K<k)K=min(S+,S-)2P(K<k)目前二十页\总数八十七页\编于七点

【例6】天津机场从1995年1月到2003年12月的108个月旅客旅客吞吐量数据如下:

543794546155408597126077657635633357129670250768667556166427613305818667799763608620775509830208961475791808357217961520667266062968549733108071967759703528282570541746316893853318626535857863292695357337962859728738726067559766477059058935581616405763051588076366357367708547994966992801406226055942583675667361039749588585967263871839757579988885016860058442689555683567021815478511870145950801061868610388548700906555069223851388979999513981146817297366116820956651098818706875362882688518387909799762768750178100878131788116293120770104958109603讨论是否存在显著的增长趋势。目前二十一页\总数八十七页\编于七点目前二十二页\总数八十七页\编于七点SPSS无此检验,我们用R完成该检验,代码如下。x<-c(54379,45461,55408,59712,60776,57635,63335,71296,70250,76866,75561,66427,61330,58186,67799,76360,86207,75509,83020,89614,75791,80835,72179,61520,66726,60629,68549,73310,80719,67759,70352,82825,70541,74631,68938,53318,62653,58578,63292,69535,73379,62859,72873,87260,67559,76647,70590,58935,58161,64057,63051,58807,63663,57367,70854,79949,66992,80140,62260,55942,58367,56673,61039,74958,85859,67263,87183,97575,79988,88501,68600,58442,68955,56835,67021,81547,85118,70145,95080,106186,86103,88548,70090,65550,69223,85138,89799,99513,98114,68172,97366,116820,95665,109881,87068,75362,88268,85183,87909,79976,27687,50178,100878,131788,116293,120770,104958,109603)d=x[1:54]-x[55:108]y=sum(sign(d)==1)pbinom(y,54,0.5)

直接得到p值=0.001919<0.05,拒绝无趋势的原假设原假设。目前二十三页\总数八十七页\编于七点补充:检验的p值在假设检验中,常常通过检验的p值来决策。p值为拒绝原假设的最小概率。对于t检验,如果计算出的统计量的值为t0,则左尾检验的p值为概率p(tt0)右尾检验的p值为概率p(tt0)双尾检验的p值为概率p(|t||t0|)。但是对于非参数检验来说由于有两个等价的统计量,如得正号的个数与得负号的个数之和等于样本容量n;两个总体的秩和等于N(N+1)/2。目前二十四页\总数八十七页\编于七点比如是左侧检验,如果总体真实的中位数比假设的小,则检验的统计量w+表现出过小,w-表现出大,检验的p值为p(w+w小),此时用的最小的统计量。对于右侧检验,如果总体真实的中位数比假设的大,则检验的统计量w+表现出过大,w-表现出小。检验的p值为p(w+w大)。实际上

p(w+w大)

=p(-w+-w大)=p[N(N+1)/2-w+N(N+1)/2-w大]=p[w-w小]可见检验的统计量用k=min(w+,w-)是合理的。另外双侧检验的p值是单侧的两倍。目前二十五页\总数八十七页\编于七点游程检验是样本的随机性检验,其用途很广。例如当我们要考察生产中次品出现是随机的,还是成群的,一个时间序列是平稳的还是非平稳的。第三节游程检验目前二十六页\总数八十七页\编于七点从生产线上抽取产品检验,是否应采用频繁抽取小样本的方法。在一个刚刚建成的制造厂内,质检员需要设计一种抽样方法,以保证质量检验的可靠性。生产线上抽取的产品可以分成两类,有瑕疵,无瑕疵。检验费用与受检产品数量有关。一般情况下,有毛病的产品如果是成群出现的,则要频繁抽取小样本,进行检验。如果有毛病的产品是随机产生的,则每天以间隔较长地抽取一个大样本。现随机抽了28件产品,按生产线抽取的顺序排列:检验瑕疵的产品是随机出现的吗?

有瑕疵的产品是随机出现有瑕疵的产品是成群出现目前二十七页\总数八十七页\编于七点随机抽取的一个样本,其观察值按某种顺序排列,如果研究所关心的问题是:被有序排列的两种类型符号是否随机排列,则可以建立双侧备择.假设组为H0:序列是随机的

H1:序列不是随机的(双侧检验)如果关心的是序列是否具有某种倾向,则应建立单侧备择,假设组为H0:序列是随机的

H1:序列具有混合的倾向(右侧检验,游程过多)

H0:序列是随机的H1:序列具有成群的倾向(左侧检验,游程过小)游程:连续出现的具有相同特征的样本点为一个游程。目前二十八页\总数八十七页\编于七点检验统计量。在H0为真的情况下,两种类型符号出现的可能性相等,其在序列中是交互的。相对于一定的m和n,序列游程的总数应在一个范围内。若游程的总数过少,表明某一游程的长度过长,意味着有较多的同一符号相连,序列存在成群的倾向;若游程总数过多,表明游程长度很短,意味着两个符号频繁交替,序列具有混合的倾向。选择的检验统计量为R=游程的总数目。

目前二十九页\总数八十七页\编于七点可以证明则目前三十页\总数八十七页\编于七点游程R的分布为,奇数时关于此可以做如下的考虑游程R的分布为,偶数时目前三十一页\总数八十七页\编于七点

先在m+n个抽屉里随机选择m个,抽出的抽屉里放入“1”,没有的放入“0”,所有可能基本的基本事件数为:有种。

或先在m+n个抽屉里随机选择n个,抽出的抽屉里放入“0”,没有的放入“1”,所有可能基本的基本事件数为:有种。目前三十二页\总数八十七页\编于七点1、必定有k+1个由“1”构成的游程和k个由“0”构成的游程;2、或必定有k+1个由“0”构成的游程和k个由“1”构成的游程。如果游程数为奇数R=2K+1,这意味着:目前三十三页\总数八十七页\编于七点这就必须在m-1个位置中插入K个“隔离元”,使有“1”有k+1个游程,可以有种,同样可以在n-1个“0”的n-1个空位上插入K-1个“隔离元”,有种。共有有利基本事件数。目前三十四页\总数八十七页\编于七点在第二种情形下,有故:得同理目前三十五页\总数八十七页\编于七点备择假设P值序列具有混合的倾向右尾概率序列具有聚类的倾向左尾概率序列是非随机的较小的左尾概率的两倍目前三十六页\总数八十七页\编于七点

【例7】,在我国的工业和商业企业随机抽出22家进行资产负债率行业间的差异比较。有如下资料:这两个行业的负债水平是否相等。首先,设“1”为工业,“2”为商业,将两个行业的数据排序,得行业编号得游程:1111121111222111222222工业647655825982707561647383商业7780806593918491848686目前三十七页\总数八十七页\编于七点游程检验的菜单选择。目前三十八页\总数八十七页\编于七点目前三十九页\总数八十七页\编于七点游程检验的结果:共有21个个案,12个小于1.4286,9个大于等于1.4286。游程6个。检验的统计量的值为-2.19,相应的渐近p值=0.029,则拒绝原假设。目前四十页\总数八十七页\编于七点

【例8】公司委托市场调查公司进行随机抽样调查。为了对调查表的真伪进行判断,市场调查公司按顺序抽取了20份问卷。其中消费者每年消费该公司的产品的花费数据如下表,分析问卷数据是否真实。用游程检验。样本编号12345678910消费额405205245465257234445375291291样本编号11121314151617181920消费额261210305295125257260197160150目前四十一页\总数八十七页\编于七点检验结果说明p值=0.808,不能拒绝随机数据的原假设。目前四十二页\总数八十七页\编于七点第四节单样本的Wilcoxon符号秩检验一、Wilcoxon符号秩检验

前面几种推断的方法都只依赖于数据的符号,即方向。没有考虑数据的大小,Wilcoxon符号秩检验是检验关于中位数对称的总体的中位数是否等于某个特定值,检验的假设:目前四十三页\总数八十七页\编于七点检验的步骤:1.计算,它们代表这些样本点到的距离;2.把上面的n个绝对值排序,并找出它们的n个秩;如果有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4),然后分别将得正号的秩和得负号的秩相加。另指满足括号里的条件等于1,不满足等于零。目前四十四页\总数八十七页\编于七点

3.双在零假设下,和应差不多.因而,当其中之一非常小时,应怀疑零假设;取检验统计量T=min(,);

目前四十五页\总数八十七页\编于七点统计量的均值和方差如下:目前四十六页\总数八十七页\编于七点5.根据得到的T值,查Wilcoxon符号秩检验的分布表以得到在零假设下p值.如果n很大要用正态近似:得到一个与T有关的正态随机变量Z的值,再查表得P值或直接用计算机得到P值。目前四十七页\总数八十七页\编于七点Wilcoxon符号秩检验表假设检验的统计量P值

目前四十八页\总数八十七页\编于七点

【例9】欧洲10个城镇每人每年平均消费酒类相当于纯酒精数(单位:升)。

4.125.817.639.7410.3911.9212.3212.8913.5414.45。人们普遍认为其中位数为8。检验该假设。

x<-c(4.12,5.81,7.63,9.74,10.39,11.92,12.32,12.89,13.54,14.45)wilcox.test(x-8)目前四十九页\总数八十七页\编于七点

Wilcoxonsignedranktestdata:x-8V=46,p-value=0.06445alternativehypothesis:truelocationisnotequalto0目前五十页\总数八十七页\编于七点

【例10】为了了解垃圾邮件对大型公司决策层工作的影响程度,某个网站收集了19家大型公司的CEO每天收到的垃圾邮件件数,得到如下数据:310,350,370,375,385,400,415,425,440,195,325,295,250,340,295,365,375,360,385检验收到的垃圾邮件的数量的中间位置是否超过了320封。目前五十一页\总数八十七页\编于七点x<-c(310,350,370,375,385,400,415,425,440,195,325,295,250,340,295,365,375,360,385)wilcox.test(x-320)data:x-320V=146,p-value=0.04207alternativehypothesis:truelocationisnotequalto0目前五十二页\总数八十七页\编于七点注Holdges-Lemmann估计量

定义2.1

假设X1,X2,…,Xn为简单随机样本,计算任意两个样本点的平均数,从而得到一个样本长度为n(n+1)/2的新的数据,这组数据称为Walsh平均值,即目前五十三页\总数八十七页\编于七点定理由定义2.1,Wilcoxon符号秩统计量W+可以表示为

即W+是Walsh平均值中符号为正的个数。如果中心是,则定义即W+()是检验的统计量。目前五十四页\总数八十七页\编于七点定义2.2假定假设X1,X2,…,Xn为F(X-)的简单随机样本,如果F(X)为对称,则定义Walsh中位数如下:

作为的Holdges-Lemmann估计量。

目前五十五页\总数八十七页\编于七点从应用的角度看,这种中位数的计算对于样本容量非常小时,更为合理。比如X11季节调整中,季节变动和不规则变动相对数的平均值,就是计算的Holdges-Lemmann中位数估计量。补充:X11季节调整。目前五十六页\总数八十七页\编于七点

定理假定假设X1,X2,…,Xn为F(X-)的简单随机样本,如果F(X)为对称,则定义Walsh平均,记为{WA(1),WA(2),...WA(N)},则其中目前五十七页\总数八十七页\编于七点x<-c(4.12,5.81,7.63,9.74,10.39,11.92,12.32,12.89,13.54,14.45)walsh=NULLi<-c(1:10)for(iin1:10)for(jini:10)walsh=c(walsh,(x[i]+x[j])/2)walsh=sort(walsh)qsignrank(0.025,10)目前五十八页\总数八十七页\编于七点为了了解垃圾邮件对大型公司决策层工作的影响程度,某个网站收集了19家大型公司的CEO影响每天收到的垃圾邮件件数,得到如下数据:310350370375385400415425440195325295250340295365375360385从平均的意义看,收到的垃圾邮件的数量的中间位置是否超过了320封。目前五十九页\总数八十七页\编于七点dataa;inputx1-x19;cards;310350370375385400415425440195325295250340295365375360385;%macro

PGI;datab;seta;%doi=1%to19;%doj=&i%to19;walsh=(x&i+X&j)/2;ifwalshthenoutput;keepwalsh;%end;%end;%mend;%PGI;目前六十页\总数八十七页\编于七点proc

printdata=b;run;proc

sortdata=bout=b2;bywalsh;proc

printdata=b2;run;datab3;setb2;n+1;l=int(19*20/4-1.96*(19*20*39/24)**0.5)+1;ifn=95thenoutput;ifn=96thenoutput;elsedelete;proc

printdata=b3;run;目前六十一页\总数八十七页\编于七点

Obswalshnl1355.095472357.59647目前六十二页\总数八十七页\编于七点第五节正态得分检验

(一)思想在各种各样的秩检验中,检验的统计量为秩的函数,而秩本身在没有结时是有限个自然数的排列,它的分布是均匀分布。人们自然会用其他分布的样本。自然我们会想到正态分布。正态记分检验的基本思想就是把升幂排列的秩Ri用升幂排列的正态分位点来替代。我们在Wilcoxon符号检验的基础上,建立线性符号秩统计量。目前六十三页\总数八十七页\编于七点正态记分检验的基本思想就是:把升幂排列的秩用升幂排列的正态分位点来替代。首先将按升幂排列,记秩为目前六十四页\总数八十七页\编于七点例如Wilcoxon统计量为Wilcoxon记分函数1n-1n累积概率1/(n+1)(n-1)/(n+1)n/(n+1)正态记分函数例如正态记分检验统计量为目前六十五页\总数八十七页\编于七点正态积分检验的统计量为:目前六十六页\总数八十七页\编于七点(二)检验

检验的假设为:目前六十七页\总数八十七页\编于七点则检验的统计量为

目前六十八页\总数八十七页\编于七点例、下面的数据是亚洲10个国家的新生儿死亡率(‰)33

363115964657788目前六十九页\总数八十七页\编于七点

符号秩

平方33110.090909-1.33518-1.335181.78270136220.181818-0.90846-0.908460.82529531330.272727-0.60459-0.604590.365523151940.363636-0.34876-0.348760.12163192550.454545-0.11419-0.114190.01303862860.545

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论