非参数第三章_第1页
非参数第三章_第2页
非参数第三章_第3页
非参数第三章_第4页
非参数第三章_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、非参数第三章第1页,共37页,2022年,5月20日,3点16分,星期四 可以假定这个样本是从世界许多大城市中随机抽样得到的,所有大城市的指数组成了总体.有人说64应该是这种大城市花费指数的中位数(median);而另外有人说,64顶多是下四分位数(first quantile).这里看上去有两个关于位置参数的不同检验问题.(1)样本中位数M是否大于64.(2)样本下四分位点Q0.25是否小于64.由于中位数也是分位点(0.5分位点).这两个问题实际上是一个问题,即关于分位点的检验问题.当然也出现了求 分位点 的 置信区间问题.第2页,共37页,2022年,5月20日,3点16分,星期四第3页

2、,共37页,2022年,5月20日,3点16分,星期四3.1.1 广义符号检验:对分位点进行的检验所谓的广义符号检验是对连续变量 分位点 进行的检验;而狭义的符号检验则是仅针对中位数 进行的检验.假定检验的零假设是 ,而备择假设则可能为记样本中小于 的点数为 ,而大于 的点数为并且用小写的 和 分别代表 和 的实现值.记 第4页,共37页,2022年,5月20日,3点16分,星期四在零假设 下, 应该服从二项分布 对 的检验,下面变量K 的分布为 , 为样本 分位点备择假设值使检验有意义的条件第5页,共37页,2022年,5月20日,3点16分,星期四而对于 的特例,这时 为中位数,通常记为M

3、 ,则有下面的表.对 的检验,变量 的分布为备择假设 值第6页,共37页,2022年,5月20日,3点16分,星期四例3.1(续)下面讨论例3.1的样本下四分位点 是否小于64的检验.则检验问题是第7页,共37页,2022年,5月20日,3点16分,星期四再看关于64是否为中位数的检验,大样本正态近似第8页,共37页,2022年,5月20日,3点16分,星期四3.1.2 基于符号检验的中位数及分位点的置信区间中位数 的对称置信区间.首先我们考虑关于中位数 的基于符号检验的 置信区间.它定义为:对于显著性水平为 的中位数的双边符号检验 ,不会使 被拒绝的那些零假设点 的集合.第9页,共37页,2

4、022年,5月20日,3点16分,星期四例3.2(数据:tax.txt)下面是随机抽取的22个企业的纳税额.数据已经按照升幂排列. 1.00 1.35 1.99 2.05 2.06 2.10 2.30 2.61 2.86 2.95 2.98 3.23 3.73 4.03 4.82 5.24 6.10 6.64 6.81 6.86 7.11 9.00实际置信度置信区间0.9999995(1,9)0.999989(1.35,7.11)0.9998789(1.99,6.86)0.9991446(2.05,6.81)0.9830995(2.10,6.10)0.9475212(2.30,5.24)第10

5、页,共37页,2022年,5月20日,3点16分,星期四 3.2 Wilcoxon符号秩检验,点估计和区间估计Wilcoxon符号秩检验:把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计量.注意,该检验需要假定样本点 来自连续对称总体分布.例3.3 (数据:EuroAlc.txt)下面是10个欧洲城镇每人每年平均消费的酒类相当于纯酒精数(单位:升),数据已经按照升幂排列.4.12 5.81 7.63 9.74 10.39 11.92 12.32 12.89 13.54 14.45 检验问题是:第11页,共37页,2022年,5月20日,3点16分,星期四Wilco

6、xon符号秩检验步骤如下:(1)计算3.88 2.19 0.37 1.74 2.39 3.92 4.32 4.89 5.54 6.45(2)把上面的n个绝对值排序,并找出它们的n个秩,如果有相同的样本点,每个点取平均秩.5 3 1 2 4 6 7 8 9 10(3)令 等于 的 的秩的和. 而 等于 的 的秩的和.注意:第12页,共37页,2022年,5月20日,3点16分,星期四(4)对双边检验 ,在零假设下, 和 应该差不多.因而,当其中之一很小时,应怀疑零假设.取检验统计量 类似的,对 的单边检验取对 的单边检验取 第13页,共37页,2022年,5月20日,3点16分,星期四(5)根据

7、得到的W值,利用统计软件或查Wilcoxon符号秩检验的分布表以得到在零假设下的p值.Psignrank(w,10)得到p=0.032(6)如果p值较小,则可以拒绝零假设.如果p值较大则没有充分证据来拒绝零假设,但不意味着接受零假设. wilcox.test(x-8,alt=greater) Wilcoxon signed rank testdata: x - 8 V = 46, p-value = 0.03223alternative hypothesis: true location is greater than 0 第14页,共37页,2022年,5月20日,3点16分,星期四W+在零

8、假设下的分布.秩符号的8种组合123 + - - + + - + - + - + - + +- - - + - + + + W+0 1 2 3 3 4 5 6概率注意 W+和 W- Wilcoxon分布的关系第15页,共37页,2022年,5月20日,3点16分,星期四3.2.2 基于Wilcoxon符号秩检验的点估计和区间估计.首先求每两个数的平均 (一共有 个)来扩大样本数目.这样的平均称为Walsh平均.可以证明前面的统计量 W+等于大于零的Walsh平均的个数.即 如果考虑移位 ,即 ,同样可以用第16页,共37页,2022年,5月20日,3点16分,星期四 对称中心 可由Walsh平

9、均的中位数来估计,称为Hodge-Lehmann估计量: 利用Walsh平均还可以得到 的置信区间,先按照升幂排列Walsh平均,记为 ,则 的 置信区间为这里整数k由 来决定. 第17页,共37页,2022年,5月20日,3点16分,星期四在大样本时,用类似于Wilcoxon检验的近似得到例3.3欧洲酒精人均消费的例子.Walsh平均有55个值(按照升幂排列)4.120 4.965 5.810 5.875 6.720 6.930 7.255 7.630 7.775 8.020 8.100 8.220 8.505 8.685 8.830 8.865 9.010 9.065 9.285 9.35

10、0 9.675 9.740 9.775 9.975 10.065 10.130 10.260 10.390 10.585 10.830 11.030 11.040 11.155 11.315 11.355 11.640 11.640 11.920 11.965 12.095 12.120 12.320 12.405 12.420 12.605 12.730 12.890 12.930 13.185 13.215 13.385 13.540 13.670 13.995 14.450第18页,共37页,2022年,5月20日,3点16分,星期四3.3 正态记分检验考虑线性秩统计量 ,要按照正态分布

11、来定义记分函数,为了使 ,不用 作为这里的记分,而稍微改变一下记分函数使其为经过相应的替换后第19页,共37页,2022年,5月20日,3点16分,星期四把 标准化,就得到这里的对单样本位置的所谓正态记分检验统计量如果观测值的总体分布接近于正态,或者在大样本情况下,可以认为T近似的有标准正态分布.实际上,对于很小的样本也适用.如果记 ,则有 大约等于 ,也就是说,它和期望正态记分相近.第20页,共37页,2022年,5月20日,3点16分,星期四4.125.187.639.7410.3911.9212.3212.8913.5414.453.882.190.371.742.393.924.324

12、.985.546.4553124678910-0.6045-0.3487-0.11410.22980.47270.74780.90841.09681.33511.69064.125.187.639.7410.3911.9212.3212.8913.5414.458.386.694.872.762.110.580.180.391.041.9510987631245-1.6906-1.3351-1.0968-0.9084-0.7478-0.3487-0.11410.22980.47270.6045Sn=5.41406,T=1.9135,p=0.02783Sn= -4.9346 T= -1.7440

13、9 p=0.0405结论:拒绝零假设结论:拒绝零假设例3.3 的正态记分检验第21页,共37页,2022年,5月20日,3点16分,星期四正态记分(NS+)相对于Wilcoxon符号秩检验(W+)对于不同总体分布的ARE总体分布均匀 正态 Logistic 重指数 CauchyARE(NS+,W+)+ 1.047 0.955 0.847 0.708第22页,共37页,2022年,5月20日,3点16分,星期四3.4 Cox-Stuart趋势检验例3.4(数据:TJAir.txt )天津机场从1995年1月到2003年12月的108个月旅客吞吐量(人次)54379 45461 55408 597

14、12 60776 57635 63335 71296 70250 76866 75561 66427 61330 58186 67799 76360 86207 75509 83020 89614 75791 80835 72179 61520 66726 60629 68549 73310 80719 67759 70352 82825 70541 74631 68938 53318 62653 58578 63292 69535 73379 62859 72873 87260 67559 76647 70590 58935 58161 64057 63051 58807 63663 573

15、67 70854 79949 66992 80140 62260 55942 58367 56673 61039 74958 85859 67263 87183 97575 79988 88501 68600 58442 68955 56835 67021 81547 85118 70145 95080 106186 86103 88548 70090 65550 69223 85138 89799 99513 98114 68172 97366 116820 95665 109881 87068 75362 88268 85183 87909 79976 27687 50178 100878

16、 131788 116293 120770 104958 109603第23页,共37页,2022年,5月20日,3点16分,星期四 plot(x,xlab=Month,ylab=Number of Passenger) lines(x)第24页,共37页,2022年,5月20日,3点16分,星期四主要有三种检验:(1)H0:无增长趋势; H1:有增长趋势.(2)H0:无减少趋势; H1:有减少趋势.(3)H0:无趋势; H1:有增长或减少趋势. 形式上,该检验问题可以重新叙述为:假定独立观测值 分别来自分布为 的总体,这里 对称于零点.上面第一个单边检验为 ,对 (至少一个不等式是严格的).

17、第25页,共37页,2022年,5月20日,3点16分,星期四可以把每个观测值和相隔大约 的另一个观测值配对比较,因此大约有 个对子.然后看增长的对子和减少的对子各有多少来判断总的趋势.具体做法为,取 和 组成一对 ,这里用每一对的两元素差 的符号来衡量增减.令 为正的 的数目,而令 为负的 的数目.显然当正号太多时,即 很大时,有下降趋势,反之,则有增长趋势.第26页,共37页,2022年,5月20日,3点16分,星期四类似于符号检验,对于上面1,2,3三种检验,分别取检验统计量 .这里在例3.4中,由于 ,表明可能有增长的趋势,考虑检验:H0:无增长趋势; H1:有增长趋势.第27页,共3

18、7页,2022年,5月20日,3点16分,星期四Cox-Stuart趋势检验的过程总结如下:零假设:H0备择假设:H1检验统计量(K)p值H0:无增长趋势H1:有增长趋势H0:无减少趋势H1:有减少趋势H0:无趋势H1:有增长或减少趋势大样本时,用近似的正态统计量 作出结论第28页,共37页,2022年,5月20日,3点16分,星期四关于随机性的游程检验(run test) 游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的.例1:假定下面是由0和1组成的一个这种变量的样本(数据run1.sav):0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0

19、 0 0 0 0其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算).这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10. 第29页,共37页,2022年,5月20日,3点16分,星期四例2 (数据:run01.txt)假定我们掷一个硬币,以概率p出现正面(记为1),以概率1-p出现反面(记为0);这是一个Bernoulli试验,如果这个试验是随机的,则不大可能出现许多1或许多0连在一起,也不可能0和1交替出现的太频繁.例如,下面为一例这样的结果0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 1 1

20、1 1 0 0 则上面这组数中有3个0游程,2个1游程,一共5个游程.0的总个数为m=13,1的总个数n=10,总的试验次数N=m+n=23.第30页,共37页,2022年,5月20日,3点16分,星期四出现0和1的的这样一个过程可以看成是参数为某未知p的Bernoulli试验。但在给定了m和n之后,在0和1的出现是随机的零假设之下,R的条件分布就和这个参数无关了。根据初等概率论,R的分布可以写成(令N=m+n)第31页,共37页,2022年,5月20日,3点16分,星期四关于随机性的游程检验(run test) 于是就可以算出在零假设下有关R的概率,以及进行有关的检验了。利用上面公式可进行精

21、确检验;也可以利用大样本的渐近分布和利用Monte Carlo方法进行检验。利用上面数据的结果是 第32页,共37页,2022年,5月20日,3点16分,星期四关于随机性的游程检验(run test) 当然,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0和1的个数)是否随机的问题。看下面例子。例 (run2.sav): 从某装瓶机出来的30盒化妆品的重量如下(单位克) 71.6 71.0 71.8 70.3 70.5 72.9 71.0 71.0 70.1 71.8 71.9 70.3 70.9 69.3 71.2 67.3 67.6 67.7 67.6 68.1 68.0 67.5 69.8 67.5 69.7 70.0 69.1 70.4 71.0 69.9为了看该装瓶机是否工作正常,首先需要验证是否大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。 第33页,共37页,2022年,5月20日,3点16分,星期四关于随机性的游程检验(run

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论