版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第五讲 非参数检验2n统计推断方法是根据样本数据推断总体特征(均值,方差等)的方法,包括参数检验和非参数检验两种方法。n参数检验是适用于总体分布已知的情况。n非参数检验适用于总体分布未知或知道甚少的情况。(由于在推断过程中不涉及有关总体分布的参数,故得名“非参数”检验)3单样本的非参数检验两配对样本的非参数检验两独立样本的非参数检验多独立样本的非参数检验多配对样本的非参数检验4单样本的非参数检验nSPSS单样本非参数检验是对单个总体的分布形态等进行推断的方法,其中包括: K-S检验 二项分布检验 游程检验 51.单样本K-S检验 K-S检验是以俄罗斯数学家Kolmogorov Smirnov
2、命名的一种非参数检验方法。该方法能够利用样本数据推断样本来自的总体是否服从某一理论分布,是一种拟合优度的检验方法,适用于探索连续性连续性随机变量的分布。 原假设原假设:样本来自的总体与指定的理论分布无显著差异。SPSS的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。 基本原理基本原理: 首先,在原假设成立的前提下,计算各样本观测值在理论分布中出现的累计概率值 ;其次,计算各样本观测值的实际累计概率值 ;然后计算两者之差 ;最后,计算差值序列中的最大绝对差值,即 ( )F x( )S x( )D xmax( )( )iiDS xF x6通常,由于实际累计概率为离散值,因此修正 为称为
3、K-S统计量。 小样本下,原假设成立时 统计量服从Kolmogorov分布; 大样本下,原假设成立时 统计量服从 分布:显然,若样本总体分布与理论分布差异不明显,那么 不应较大。若 统计量的P值大于显著性水平 ,则接受原假设;反之,拒绝原假设。无论大样本还是小样本,SPSS仅给出大样本下的 和对应的概率P值。 D1max(max( ( )( ),max( ()( )iiiiDS xF xS xF xDnD2200( )( 1)exp( 2)0jDK xj xDDnD( )K x72. 二项分布检验(二值数据) 原假设原假设:样本来自的总体与指定的概率为 的二项分布无显著差异。 基本原理基本原理
4、:1 小样本情况(精确检验法):计算 次试验中某类(1或0)事件出现的次数小于等于 次的概率,即2 大样本情况(近似检验):采用 检验统计量,在原假设成立下统计量近似服从正态分布,即(当 小于 时加0.5,当 大于 时减0.5。)SPSS自动计算上述精确概率和近似概率值。若概率值小于显著性水平,则拒绝原假设,认为样本来自的总体与指定二项分布有显著差异;若大于显著性水平,则接受原假设,认为样本来自的总体与指定的二项分布无显著差异。pnx0 xiin iniP XxC p qZ0.5(1)xnpZnppx2n2nx8 生活中的有些总体只能划分为两类,如性别、硬币的正反面等。通常将这样的二值分别用1
5、和0表示。如果进行 次独立重复实验,则出现两类的次数可以用离散型随机变量来表述。如果随机变量值为1的概率设为 ,则为0的概率为 ,形成二项分布。np1p93. 变量值随机性检验(游程检验) 通过对样本变量值的分析,实现对总体的变量值出现是否随机进行验。 原假设原假设:总体变量值出现是随机的。 基本原理基本原理:利用游程数构造检验统计量。游程数(Runs),样本序列中连续出现相同的变量值的次数。例如,如果28次投掷硬币出现正反面的变量值序列为1 0 11 0 11 0 1 00 11 000 1 0 1 0 1 0000 111游程数为17。如果硬币的正反面出现是随机的,那么在该数据序列中,许多
6、个1或0连续出现的可能性将不太大,同时,1和0频繁交叉出现的可能性也会较小。故游程数太大或太小都将表明变量值存在不随机现象。 设 为出现1的个数, 为出现0的个数,当 , 较大时,游程的抽样分布的均值为:1n2n1n2n12122rnnnn10方差为: 大样本时,游程近似服从正态分布,即其中, 为游程数。SPSS自动计算 值和概率P值。 2121212212122(2)() (1)rnnnnnnnnnnrrrZrZ11两配对样本的非参数检验 两配对样本的非参数检验是在对总体分布不甚了解的情况下,通过对两组配对样本的分析,推断样本来自的两个配对总体的分布是否存在显著差异的方法。 配对样本的样本数
7、是相同的,且各样本值的先后次序是不能随意更改的。 SPSS提供的检验方法有: 符号检验 Wilcoxon符号秩检验 McNemar检验 Marginal Homogeneity检验121. 符号检验 原假设原假设:两配对样本来自的两总体的分布无显著差异基本思路基本思路: (1)分别用第二组样本的各个观察值减去第一组对应的观察值。差值为正记为正号,差值为负记为负号。 (2)将正号的个数与负号的个数进行比较:若正、负号个数大致相当,则认为两组配对样本的数据分布差距较小;相反,如果正、负号个数相差较多,则可认为两个配对样本的数据分布差距较大。 原理原理:二项分布检验,检验正号个数和负号个数的分布是否
8、服从概率p为0.5的二项分布,即对正负符号变量进行单样本二项分布检验。 注:该方法注重对变化方向的分析,只考虑数据变化的性质,没有考虑变化幅度,即定性而非定量,故对数据的利用不充分。132. Wilcoxon符号秩检验 原假设原假设:两配对样本来自的两总体的分布无显著差异。 基本思想基本思想:(1)同符号检验的基本思路(1),但这里要保存差值数据;(2)将差值变量按升序排序,并求出差值变量的秩;(3)分别计算正号秩总和 和负号秩总和 ,如果总样本数为 ,则 的最小可能值为0,最大可能值为 。如果 与 大致相当,则说明一组样本值大于另一组样本值和小于时的幅度大致相当,两组样本数据差的正负变化程度
9、基本相当,两配对总体的分布无显著差异。 原假设成立下,小样本的检验统计量 服从Wilcoxon符号秩分布;大样本下利用 可构造Z统计量,它近似服从正态分布。W1Wn1WW(1)2n nW1W1min(,)WWWW143. McNemar检验 McNemar检验是基于列联表进行分析的,它注重处理前后的变化情况。 McNemar检验采用二项分布检验的方法,计算处理前后变化的分布是否服从概率p为0.5的二项分布。在小样本下计算二项分布的累积精确概率,大样本下采用修正的Z统计量,它近似服从正态分布。 SPSS自动计算Z统计量和相应的概率P值。如果拒绝原假设,则认为处理前后变化的分布与p为0.5的二项分
10、布存在显著差异,即两配对样本来自的两总体的分布存在显著差异;反之,接受则认为没有显著差异。 注:这里分析的变量是二值变量。在实际应用中,若不是,应首先进行数据转换方可采用该方法。故它在应用范围上有一定局限性。McNemar检验是一种变化显著性检验,它将研究对象自身作为对照者检验其“前后”的变化是否显著。 原假设原假设:两配对样本来自的两总体的分布无显著差异。4. Marginal Homogeneity检验 是McNemar方法向多分类情形下的扩展15两独立样本的非参数检验n两独立样本的非参数检验是对总体分布不太了解的情况下,通过对两组独立样本的分析来推断样本来自的两个总体的分布等是否存在显著
11、差异的方法。独立样本是指在两个总体中的分别随机抽样互相没有影响。检验方法有: 曼-惠特尼U检验 K-S检验 W-W游程检验 极端反应检验1. 曼-惠特尼U检验(Mann-Whitney U) 原假设原假设:两组独立样本来自的两总体分布无显著差异。 基本原理基本原理:通过对两组样本平均秩的研究来实现推断。秩,是变量值排序的名次。 可以将数据按升序排列,每个变量值都会有一个在整个变量值序列中的名次,这个名次就是变量值的秩。变量值有几个,对应的秩便有几个。 首先,将两组样本数据 和 混合并按升序排序,得到每个数据各自的秩 ; 然后,分别对两组样本数据的秩求平均,得到两个平均秩 和 。对两个平均秩的差
12、距进行比较:如果两个平均秩相差甚远,则应是一组样本的秩普遍偏小,另一组样本的秩普遍偏大的结果,也就是一组样本的值普遍偏小,另一组样本的值普遍偏大的结果。此时,原假设很可能不成立; 再次,计算样本 每个秩优先于样本 每个秩的个数 ,以及样本 每个秩优先于样本 每个秩的个数 。12,mXXX12,nY YYiRX MWY NW12,mXXX12,nY YY1U12,nY YY12,mXXX2U并对 和 进行比较:如果 和 相差较大,则有必要怀疑原假设的真实性; 最后,依据 和 计算Wilcoxon W统计量和曼-惠特尼U统计量。曼-惠特尼U统计量计算公式为:式中,W值为Wilcoxon W; 为W
13、对应样本组的样本个数。 小样本下,U统计量服从曼-惠特尼分布。SPSS自动计算U统计量和概率P值。并依据此U统计量的概率P值决策。1U2U2U1U1U2U W=YXWmnWilcoxonWmnmn第一个变量值所在样本组的W值1(1)2UWk kk 大样本下,U统计量近似服从正态分布,计算公式为 SPSS将自动计算Z统计量和对应的概率P值。依据Z统计量的概率P值决策。 不过,这些计算过程也可以通过SPSS的数据处理功能自己计算。121(1)12UmnZmn mn2. K-S检验 K-S检验不仅能够检验单个总体是否服从某一理论分布,还能够检验两总体是否存在显著差异。 原假设原假设:两组独立样本来自
14、的两总体的分布无显著差异。 基本原理基本原理与前面讨论的单样本情况大体一致。主要差别在于:这里是以变量值的秩作为分析对象,而非变量值本身。 首先,将两组样本混合并按升序排序; 然后,分别计算两组样本秩的累计频数和累计频率两组样本秩的累计频数和累计频率; 最后,计算两组累计频率的差,得到秩的差值序列并得到D统计量(同单样本的K-S检验,但无须修正)。 SPSS中将自动计算在大样本下的 的观测值和概率P值。据此作出决策。nD3. 游程检验(Wald-Wolfwitz Runs) 两独立变量的游程检验用来检验两独立样本来自的总体的分布是否存在显著差异。不同于单样本情况的目的。 原假设原假设:两组独立
15、样本来自的两总体的分布无显著差异。 基本原理基本原理和单样本情况基本相同,不同的是计算游程数的方法。在两独立样本的游程检验中,游程数依赖于变量的秩。 步骤步骤:(1)将两组样本混合并按升序排序。在变量值排序的同时,对应的组标记值会随之重新排列;(2)对组标记值序列组标记值序列按前面讨论的计算游程的方法计算游程数,如果两总体的分布存在较大差距,那么游程数会相对比较少;如果游程数比较大,则应是两组样本值充分混合的结果,两总体的分布不会存在显著差异。(3)根据游程数据计算Z统计量,该统计量近似服从正态分布。SPSS自动计算Z统计量的观测值和对应的概率P值。根据P值决策。4. 极端反应检验(Moses
16、 Extreme Reactions) 该检验法从另一角度检验两独立样本所来自的两总体分布是否存在显著差异。 原假设原假设:两组独立样本来自的两总体的分布无显著差异。 基本原理基本原理:将一组样本作为控制样本,另一组样本作为实验样本。以控制样本作为对照,检验试验样本相对于控制样本是否出现了极端反应。如果试验样本没有出现极端反应,则认为两总体分布无显著差异,反之,有显著差异。 步骤步骤:(1)将两组样本混合按升序排序;(2)求出控制样本的最小秩 和最大秩 ,并计算出跨度(Span):(3)为消除样本数据中极端值对分析结果的影响,在计算跨度之前可按比例(通常为5%)去除控制样本中部分靠近两端的样本
17、值,然后再求跨度,得到截头跨度。minQmaxQmaxmin1SQQ 极端反应检验注重对跨度和截头跨度的分析:如果跨度或截头跨度较小,则是两组样本数据无法充分混合,一组样本值显著大于另一组样本值的结果,可以认为相对控制样本和实验样本出现了极端反应,则样本来自的两总体分布存在显著差异;相反,如果跨度或截头跨度较大,则是两组样本数据充分混合,一组样本值没有显著大于另一组样本值的结果,可以认为没有出现极端反应,则样本来自的两总体没有显著差异。 对跨度或截头跨度计算H检验统计量,即式中, 为控制样本的样本数, 为控制样本在混合样本中的秩; 为控制样本的平均秩。SPSS自动计算H统计量及其概率P值,据此
18、决策。 小样本下,H统计量服从Hollander分布; 大样本下,H统计量近似服从正态分布。21()miiHQQmiQQm多独立样本非参数检验 多独立样本的非参数检验是通过分析多组独立样本数据,推断样本来自的多个总体的中位数或分布是否存在显著差异。多组独立样本是指按独立抽样方式获得的多组样本。SPSS提供的多独立样本非参数检验的方法主要有: Kruskal-Wallis检验 中位数检验 Jonckheere-Terpstra检验1. Kruskal-Wallis检验 多独立样本Kruskal-Wallis检验实质上是两独立样本的曼-惠特尼U检验在多个独立样本下的推广。 原假设原假设:多个独立样
19、本来自的多个总体的分布无显著差异。 基本原理基本原理(1)将多组样本数据混合并按升序排序,求出个变量值的秩;(2)考察各组秩的均值是否存在显著差异:如果不存在显著差异,则是多组数据混合,数值相差不大的结果,可以认为各个总体的分布无显著差异,反之,如果均值存在显著差异,说明某些组的数值偏大,另一些组的数值普遍偏小的结果,则可认为各总体的分布有显著差异; 研究各组秩的差异可借鉴方差分析法。方差分析认为,各样本组秩的总变差一方面源于组间差异,另一方面源于各样本组组内抽样误差。如果各样本组秩的总变差的大部分可由组间差解释,则表示各样本组的总体分布存在显著差异;反之,表明没有显著差异。基于此思路可以构造
20、K-W统计量,即KW秩的组间平方和秩总平方和的平均式中,组间平方和为 其中, 为样本组数, 为第 组的秩和, 为第 组的样本数, 为总样本数。秩总平方和的平均为于是,得到 其中, 为第 组的平均秩; 为总平均秩。K-W统计量服从Kruskal-Wallis分布。当样本个数较大时(通常大于3),K-W近似服从自由度为 的卡方分布。 SPSS自动计算K-W统计量和相应的概率P值。根据其作出决策。 211()2kiiiiRNnnkiRiiniN21111(1)()212inkijijNN NRN212()(1)kiiiKWn RRN NiiiRRni12NR(1)k 2. 中位数检验 原假设原假设:
21、多个独立样本来自的多个总体的中位数无显著差异。 基本思想基本思想:原假设成立下,即多个总体有共同的中位数,那么这个共同的中位数应处于每个样本组的中间位置。于是,每组样本中大于该中位数或小于该中位数的样本数目应大致相同。 首先,将多组样本混合按升序排序并求出混合样本的中位数 然后,分别计算各组样本中大于和小于等于上述中位数的样本个数(列联表) 最后,利用卡方检验方法分析各组样本来自的总体对于上述中位数分布是否一致:如果各组中大于(或小于)上述中位数的样本比例大致相同,则可以认为多组样本有共同的中位数,它们来自的总体的中位数无显著差异;反之,比例相差较大则认为多组样本的中位数不全相同,它们来自的总
22、体的中位数存在显著差异。在上述列联表基础上构造卡方统计量 自由度为 。SPSS自动计算卡方统计量和对应的概率P值。02201()erkijijijijfff(2 1) (1)n3. Jonckheere-Terpstra检验 原假设原假设:多个独立样本来自的多个总体的分布无显著差异。 基本原理基本原理:计算一组样本的观察值小于其他组样本的观察值的个数。 用 表示第 组样本观察值小于第 组样本观察值的个数,则J-T统计量定义为: J-T统计量是所有 在 组范围内的总和,称为观测的J-T统计量,在大样本下近似服从正态分布,检验统计量为 SPSS将自动计算J-T统计量、Z统计量和相应的概率P值。根据
23、P值作出决策。ijUijijijJTUijUij221221() 4(23)(23) 72kiikiiiJNnZNNnn多个相关样本非参数检验 多个相关样本的非参数检验是通过多组配对样本数据,推断样本来自的多个总体的中位数或分布是否存在显著差异。 例如:收集乘客对多家航空公司是否满意的数据,分析航空公司的服务水平是否存在显著差异;再例如,手机不同促销形式下的若干种商品的销售额数据,分析比较不同促销形式的效果等等。 SPSS提供的检验方法有: Friedman检验 Kendall协同系数检验 Cochran Q检验1. Friedman检验(定距型数据)Friedman检验利用秩对多个总体分布检
24、验是否存在显著差异。 原假设原假设:多个配对样本来自的多个总体的分布无显著差异。 基本思想基本思想:(1)以行为单位将数据按升序排序,并求得各变量值在各自行中的秩;(2)分别计算各组样本下的秩总和与平均秩。 无论观察哪个区组,每一种处理方式下数据的秩在本区组内的所有可能取值为 中的任何一个值。如果 种处理不存在差异,那么对于每一种处理下各区组的秩总和 (或平均秩 )应等于其他任何一种处理方式下各区组的秩总和 (或平均秩 )。由于 ( 为样本数)于是每一种控制下的 应与 相当,或者 应与 相当;反之,如果存在显著差异,如第 种处理下的数据普遍偏小,那么, 必然较大, 必然较小,它们的差异必然较大
25、。iRjRn1 kkiRiR12(12)(1)2knRRRnkkiR(1)2nk iR12k kiRjR 为研究上述秩的差异问题,Friedman检验用类似方差分析的方法进行分析和构造检验统计量。如果不同处理下的秩不存在显著差异,则由不同处理引起的秩的变差(组间差) 应在秩的总平均变差中占相对较小的比例,于是Friedman检验统计量为: 可见,从表示形式上看, Friedman检验统计量与多独立样本的K-W检验统计量很相似,但K-W统计量中的秩是全体数据排序后得到的,而这里的秩却是在各个区组内分别独立排序得出的。大样本下Friedman检验统计量近似服从 个自由度的卡方分布。 SPSS自动计算Friedman检验统计量和对应该率P值。据此决策。211()2kiikn R21121Friedman=(-)(1)2kiinkn Rk k1k 2. Kendall协同系数检验 案例:有6名歌手参加比赛,4名评委进行评判打分。现在需要根据打分数据推断这4个评委的评判标准是否一致。 如果将每个被评判对象的分数看作来自多个总体的配对样本,那么该问题就能够转化为多配对样本的非参数检验问题,仍可采用Friedman检验,于是相应的原假设为:多个配对样本来自的多个总体的分布无显著差异。但对该问题的分析需要继续延伸,并非站在对6名歌手的演唱水平是否存在显著差异的角度进行分析,而是在认定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度废纸回收权转让合同
- 2024年度厂房设备维护合同
- 正规收据合同范例
- 2024年度仓储物流中心运营管理合同
- 2024年度信息技术咨询合同内容
- 2024年度办公场所保洁员合同
- 捐赠项目合同范例
- 《CDMA网络技术》课件
- 2024年度版权许可合同的许可使用方式及权利限制
- 油罐安全合同模板
- 酒店住宿水单模板1
- Unit 4 Body Language Using Language 说课稿课件-2023-2024学年高中英语人教版(2019)选择性必修第一册
- 《寒号鸟》说课课件
- 边坡土石方开挖及支护专项施工方案
- 新时代科学家精神(2023春)学习通超星课后章节答案期末考试题库2023年
- 初中化学《我们周围的空气》大单元教学设计
- 大学物理(本科理工科非物理专业)PPT完整全套教学课件
- 建筑电气工程施工质量验收规范演讲教学课件资料
- 景观石安装施工合同
- 放射医学概论-苏州大学中国大学mooc课后章节答案期末考试题库2023年
- 注塑工艺卡片
评论
0/150
提交评论