单样本问题和检验方法_第1页
单样本问题和检验方法_第2页
单样本问题和检验方法_第3页
单样本问题和检验方法_第4页
单样本问题和检验方法_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、单样本问题和检验方法1主要内容 2.1 广义符号检验(SIGN TEST) 及 有关的置信区间 2.2 Wilcoxon符号秩检验,点估计和区间估计 2.3 正态记分检验 2.4 Cox-Stuart 趋势检验 2.5 关于随机性的游程检验2总体X,iid样本X1 , X2, , Xn,若XN(. , .), 对于假设检验问题:中心:EX=,VarX=2未知,检验统计量为前面的学习已知,在正态前提下t分布效率最高,但t检验并不稳健(改变正态前提时,效率变低,结果不准确),在不知总体分布时,特别是小样本时,应用t检验就可能有风险。这时就要考虑使用非参数方法。说明:如果在基本前提变弱时,还可保持其

2、效率,则为稳健.有时,EX不存在,但中位数总是存在的,中位数可以作为描述中心位置的参数.即 中位数中心位置的参数.本章工作:用非参数方法进行 1.分布中心位置的参数的检验、估计. 2.样本趋势检验. 3.样本随机性检验.非参数方法往往简单实用,更稳健. 32.1 广义符号检验(SIGN TEST) 及有关的置信区间4定义(总体中位数):设X是一个随机变量,M(或Me)是一个常数.满足:则称M是一个中位数(总体中位数)注意1:中位数恒存在.注意2:中位数未必唯一.例1:X 1 2 3 4 5所以3是一个中位数唯一.例2:X 1 2 3 4 5 6 7P任取M2,3所以M是一个中位数无穷多个5注意

3、3:对连续分布,使则称M是一个中位数(总体中位数)注意4:对于对称分布,则M即分布中心.位置参数.的M即是一个中位点(中位数)定义(总体分位数):设X是一个随机变量,是一个常数.满足:则称 是X的一个分位数(总体分位数)6一、广义符号检验总体连续, 分位数是, iid样本X1 , X2, , Xn 1. 对线性符号秩统计量:符号统计量=大于q0 的个数=正号的个数=小于q0 的个数=负号的个数当H0为真时,7当H0为真时,当H1为真时,q0 1-当H0为真时,8当H0为真时,9当H0为真时,当H1为真时,q0 1-2. 10当H0为真时,当H1为真时,3. 说明:1.在所有样本点都不等于q0时

4、,n就等于样本容量。2.如果有些样本点等于q0,那么这些样本点就不参加统计推断(因为它们对判断分位点在哪里不起作用),应该把它们从样本中除去,这时,n就小于样本量了。3.对于连续变量,样本点等于q0的可能很小。23页表格11特别, 时, =M e ,这时1. 当H0为真时,当H1为真时,M0 Mek对称k122. 当H0为真时,当H1为真时,M0 Me同上.3. 23页表格13P25例1. 解: P25例1. 解: n比较小时,可用二项分布的公式计算精确概率,但当n较大时,精确计算概率太麻烦,所以在大样本时做近似计算. 14H0真即 连续性修正: 3. 大样本近似. H0真: 与精确概率相比,

5、误差较小.15时, P17: 因为N(0,1)为连续分布, B(n,0.5)为离散分布,所以进行连续性修正.与精确概率相比,误差较小,更方便.有时,用不用连续性修正,对结果影响不大.16二、基于符号检验的中位数置信区间参数中:T1= T1(X1 , X2, , Xn), T2= T2(X1 , X2, , Xn), S枢轴变量非参数中:M ()()M ()M ii-1 j-1 j 对(X(i) ,X(j)而言,前面有i个观察值,后面有n-j+1个观察值,i n-j+1时,区间(X(i) ,X(j)关于M非对称.17考虑对称区间(X(k) ,X(n-k+1),k=1,2, ,偶数个如(1)k=1

6、,2,3.k=1时:(X(1) ,X(6)k=2时:(X(2) ,X(5)k=3时:(X(3) ,X(4)奇数个如(2)k=1,2,3.k=1时:(X(1) ,X(7)k=2时:(X(2) ,X(6)k=3时:(X(3) ,X(5) 对称 这时置信区间最大,是(X(1) ,X(n),k=1.P31.例)18在求置信区间时,人们既希望置信度大,又希望置信区间小.对称区间:在本例中,可以选择k=6,即22个企业的纳税额的中位数的置信度为98.3%的置信区间为(X(6) ,X(17)=(2.10,6.10).非对称区间: 如果不强求对称性,可能会得到置信度相同的宽度更窄的区间.对(X(k) ,X(n

7、-k+1)中的k,n充分大时:大样本近似:19如在例中,如果,查表得而n=71有取中位数M的95%的置信区间在第26个和第(71-26+1=)46个顺序统计量之间,即(X(26) ,X(46)=(60.8,77.9).也就是说:正态近似的世界大城市的花费指数的中心位置的置信度为95%的置信区间为(60.8,77.9).若利用二项分布进行精确计算,则得到置信度为的置信区间为(X(27) ,X(45)=(62.7,77.7).作业201. 仅使用了Xi-M0的符号,未使用|Xi-M0|的大小当总体分布为连续、对称时,这一信息未被利用,这导致 符号检验的效率不高.当总体分布为连续、对称时,比符号检验

8、效率更高的检验Wilcoxon符号秩检验 .Wilcoxon符号秩检验 将各观察值距离中心的远近位置考虑进去了,所以比符号检验更有效.符号检验的局限性:212.2 Wilcoxon符号秩检验,点估计和区间估计22对称分布: 设X是随机变量,其分布函数为F(x),x(- ,+), 若对任意x(- ,+),F(-x)=1F(x)成立, 则称F(x)关于0对称,也称X关于0分布对称. 定义:设X是随机变量,若X-关于0分布对称 则称F(x) (或X)关于 对称. F(x+)=1F(x -).注意:连续、对称的总体分布的对称点是中位数, 等于均值,只有唯一一个.前提:总体具有连续、对称分布23一、Wi

9、lcoxon符号秩检验 1. Wilcoxon符号秩统计量Wilcoxon符号秩统计量若H0 :M=M0不真,若H0:M=M0为真,M0 MMM024当H1 :MM0为真时,当H0:MM0为真时,P34 例38页表格25定义:设X为一随机变量,若对某一对称区间(-h,h)(h0)内的任意t,etX的数学期望E(etX )存在(即E|etX |0),都有MX()= MY(),则X,Y具有相同的分布推论:设随机变量X1 ,X2 ,Xn互相独立,则27 X1 X2 X3 X4 1 3 6 2|Xi| 1 3 6 2Ri+ 1 3 4 2当H0为真时为独立随机变量之和相互独立28(惟一性定理):若随机

10、变量X,Y的矩母函数MX(t)和MY(t)都存在,且对任意t(-h,h)(h0),都有MX(t)= MY(t),则X,Y具有相同的分布.29P35 例:(从表格上一段开始,表格表格下一段)知道了分布就可以相应地求出p值,从而得到检验的拒绝域.当n很大时,可用正态近似:当H0为真时均为对称分布.当H0为真时P36 例30Wilcoxon符号秩检验为什么要求总体分布连续、对称呢?R=(R1 , R2,Rn) ,R分布与总体分布F(x)无关的分布一般与总体分布F(x)有关当F(x)连续、对称时,此时可证:的分布与总体分布F(x)无关.31二、基于Wilcoxon符号秩检验的点估计和置信区间 对样本X

11、1 , X2, , Xn做walsh平均可以利用更多的样本信息:对样本X1 , X2, , Xn做walsh平均后,样本容量扩大了,成为自身平均的个数任取两个做平均的个数, 总体的对称中心为这时统计量为基于样本X1 , X2, , Xn的 Wilcoxon符号秩检验统计量下页证明32 设样本X1 , X2, , Xn iid ,总体分布关于0 对称.即:W+是walsh平均值中符号为正的个数.说明:如果X1 , X2, , Xn iid,总体分布关于 0 对称,这时定理:Wilcoxon符号秩检验统计量W+可以表示为证明:记Xi1 , Xi2, , Xip 为p个正的样本点, 以原点为中心,

12、Xi1为半径,画闭区间 I1 =Xi1 ,Xi1 , Xi1绝对值的秩Ri+ 等于在闭区间 I1中的样本点的个数. 注意到: I1中的样本点和Xi1 构成的平均值都大于0. 将这个过程对每一个样本点重复一遍,就得到了所有的秩和, 这些秩和恰好为walsh平均值中大于0的个数.33 X1 X2 X3 X4 1 4 7 5 Xi M0 : 1 6 5 3|Xi M0 | : 1 6 5 3 Ri+ : 1 4 3 2如M0=2W+ =3+2=5 2walsh平均:1 4 7 5 4 3 6 4 1 3 4 5 6 7 升幂排列:5个,W+ =5M0=2234对称中心 可用walsh平均值的中位数估

13、计,称为LH估计将 个walsh平均值按升幂排列,设为:点估计区间估计则 的(1) 置信区间为: W( k+1 ) ,W( N-k))P40 例35区间估计则 的(1的 置信区间为: W( k+1 ) ,W( N-k) )= W( 10 ) ,W( 46) )=8.02,12.73)P40 例,在P34例中,n=10walsh平均值1查表得k=9N-k=55-9=46作业362.3 正态记分检验37 秩本身在没有结时是有穷个自然数的排列,当H0为真时它的分布是均匀分布。自然我们会想到用其他分布的样本体现来代替秩。如用正态分布。正态记分检验的基本思想就是:首先将升幂排列的秩Ri 用升幂排列的正态

14、分位点 来替代,一、正态记分检验的基本思想 (均匀分布)从分位点的角度,1,2, ,n是其n 个分位点.线性秩统计量秩本身的和秩的函数的和38二、线性符号正态记分秩统计量及正态记分检验线性符号秩统计量:若若符号统计量Wilcoxon符号秩统计量更一般的线性秩统计量:其中为正态记分线性秩统计量39为正态记分线性秩统计量约定而时改进为计算|Xi-M0|, i=1,2, ,n. 由小到大排列后|Xi-M0|的秩为Ri+ (取值1,2, ,n) .符号函数符号秩40H0 :M =M0为真时符号正态记分线性符号正态记分秩统计量:因为样本X1 , X2, , Xn ,所以sign(Xi-M0), i=1,

15、2, ,n. iid41因为样本X1 , X2, , Xn ,所以sign(Xi-M0), i=1,2, ,n. iid所以H0 :M =M0为真,n很大时,近似有将Sn标准化得到正态记分检验统计量421. 当H0为真时,当H0不真时,2. M0 3. 当H0为真时,当H0不真时,M当H0为真时,当H0不真时,43当H0为真时,当H0不真时,P43 : (P34)例的正态记分检验M0 =8M当H0不真时,MM0 当H0为真时,44 s=function(i,n)si=qnorm(n+1+i)/(2*n+2);list(si) s(1:10,10)1P43: (P34)例的正态记分45三、记分函

16、数an ()的选择分位点Ri代之以,由于总体不同,所以不能用同一个工具对不同总体.充分利用已知信息,正确的选择记分函数,检验效果会更好.正态分布,用正态记分函数更好其它分布,用其它比如基于秩的记分函数特别:样本量很大时,由大数定律、中心极限定理知道,可以近似为正态分布,这时用正态记分检验更好.P44上面L+2表作业462.4 Cox-Stuart 趋势检验47人们经常要研究某项发展的趋势是递增,递减,还是大致持平。类似于前面的检验,这里有三种假设: 1、 H0 :无增长趋势 H1 :有增长趋势 2、 H0 :无减少趋势 H1 :有减少趋势 3、 H0 :无趋势 H1 :有增长或减少趋势设独立观

17、测的时间序列数据X1 , X2, , Xn分别来自分布为F(xi )的总体,而总体分布F(x)关于0 对称. 其中i 位置参数=中位数即48进行这些检验,可以把每一个观察值和后面的另一个观察值配对比较;即对独立观测的时间序列数据X1 , X2, , Xn ,合理选择 c ,得到成对数据(X1 , X1+ c ), ( X2, X2+ c ), , ( Xn c , Xn )然后看增长的对子和减少的对子各有多少来判断总的趋势因为相邻数据难以区分小的误差,而间隔太大,成对数据又太少,信息不足,所以一般选数对个数:i=1,2, ,n . 49i=1,2, ,n . S偏小时有减少趋势S+偏小时有增长

18、趋势为真时,对iid样本X1 , X2, , XnS+ + S = n 一般不考虑差为零的数对前项大于后项的数对的个数前项小于后项的数对的个数50即: H0 :无增长趋势 H1 :有增长趋势当H0为真时,当H1为真时,即: H0 :无减少趋势 H1 :有减少趋势当H0为真时,当H1为真时,51即: H0 :无趋势 H1 :有增长或减少趋势当H0为真时,当H1为真时,若样本量n太小,即信息量不足,则n会很小,检验效果不佳,所以 n不能太小. 【P47表格】52P44例2.4. 天津机场旅客吞吐量 n=108, c=n/2=54, n =54H0 :无增长趋势 H1 :有增长趋势,认为有增长趋势.

19、作业532.5 关于随机性的游程检验54一个可以属性总体,如按性别区分的人群,按产品是否有毛病区分的总体等等,随机从中拍取一个样本,样本也可以分为两类;类型I和类型E。 数理统计中,总假设样本X1 , X2, , Xn iid,但实际中,样本有时带有系统性的差异,样本的产生是否具有随机性是需要讨论的.55对二元数据样本0 0 0 0 1 1 1 0 0 1 1 0 1 0 1 0 0 0 1 1 1 0 1 1 0 0定义 游程(run): 在一个两种类型的符号(如0与1)的有序排列中, 相同符号(0或1)连续出现的段.游程长度: 每一个游程所包含的符号的个数,称为游程的长度.游程个数: 在一

20、个两种类型的符号(如0与1)的有序排列中, 游程的总个数. 记为R .R =13m0的个数记n1的个数m=14n=12N=m+n数据的总个数N=2656m0的个数n1的个数N=m+n数据的总个数R游程个数简单性质:1、 2R2min(m,n)+1. 2、 0的游程数与1的游程数至多相差1. 3、 0与1的不同排列可以有相同的游程数.如0 1 0 1 10 1 1 0 1 说明:若游程为 11(游程的长度过长)、 或01010101(游程总数过多表明游程长度很短)、 周期性或等距等都可能怀疑其随机性.注意:游程的总数R过大或过小,都意味样本可能非随机产生. 而是系统性作用. 57H0 :样本是随

21、机产生的H1 :样本是非随机产生的选用R为统计量,取c 1 、 c 2使若R c 1或R c 2可以拒绝H0 ,认为样本是非随机产生的.反之,若c 1 R c 2 ,则接受H0 ,认为样本是随机产生的.下面,关键是=? c 1 =?, c 2 =?两种方法:精确计算(小样本)与近似计算(大样本)对给定的显著性水平 ,精确计算: 首先,要找R的概率分布,并可以将有关的概率求出, 列表表示有关的临界值c 1 =?, c 2 =?58证明:在一个容量为的样本中,个、个排列的总方式为首先,要找R的概率分布.假设m与n固定,即 N=m+n 固定.1. R为偶数时:R2k时,0的游程数与1的游程数均为k,

22、由于一个游程至少由一个0或一个1组成, 为得到k个0的游程,只需在m个0之间的m-1个空隙中任意插入k-1个隔板即可,有Cm-1k-1种, 为得到k个1的游程,只需在n个0之间的n-1个空隙中任意插入k-1个隔板即可,有Cn-1k-1种, 0游程与1游程的位置可以互换,故0、1游程的次数排列方式:故59证明:在一个容量为的样本中,个、个排列的总方式为首先,要找R的概率分布.假设m与n固定,N=m+n固定.2. R为奇数时:R2k+1时,0的游程数与1的游程数只能相差1,若0的游程数为k,则1的游程数为k+1, 为得到k个0的游程,只需在m个0之间的m-1个空隙中任意插入k-1个隔板即可,有Cm

23、-1k-1种, 为得到k+1个1的游程,只需在n个0之间的n-1个空隙中任意插入k个隔板即可,有Cn-1k种, 排列方式为:故若0的游程数为k+1,则1的游程数为k,类似有 最后查分位数表求 p 值.60先在m+n个抽屉里随机选择m个,有种方法。如果游程数为奇数R=2K1,这意味着: 1、必定有k+1个由“1”构成的游程和k个 由“0”构成的游程; 2、或必定有k+1个由“0”构成的游程和k个 “1”构成的游程。 这就必须在m1个位置中插入K个“隔离元”,使有 “1”有k+1个游程,可以有 种,同样可以在n-1个“0”的n-1个空位上插入K-1个“隔离元”,有种。共有有利基本事件数。所以61例1:对某型号电缆进行耐压试验,测得20根

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论