卡方检验与非参数检验_第1页
卡方检验与非参数检验_第2页
卡方检验与非参数检验_第3页
卡方检验与非参数检验_第4页
卡方检验与非参数检验_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、卡方检验和非参数检验卡方检验和非参数检验u在总体分布形式已知条件下未知参数检在总体分布形式已知条件下未知参数检验问题。但实际问题中总体的分布形式验问题。但实际问题中总体的分布形式往往是未知的,虽然根据中心极限定理往往是未知的,虽然根据中心极限定理可以有相当的把握认为大多数经济变量可以有相当的把握认为大多数经济变量服从或近似服从正态分布,但有时为了服从或近似服从正态分布,但有时为了使所做的统计推断更具说服力,就需要使所做的统计推断更具说服力,就需要对总体的分布形式进行检验。对总体的分布形式进行检验。 1 本章主要内容本章主要内容:u(1)总体分布的卡方()总体分布的卡方( )检验;)检验;u(2

2、)两个比例差异的卡方()检验(独立样本);)两个比例差异的卡方()检验(独立样本);u(3)两个以上比例差异的卡方()检验(独立样本);)两个以上比例差异的卡方()检验(独立样本);u(4)独立性的卡方()检验;)独立性的卡方()检验;u(5)两个比例差异的)两个比例差异的McNEMAR检验(相关样本);检验(相关样本);u(6)两个独立总体的非参数检验()两个独立总体的非参数检验(Wilcoxon秩和检验);秩和检验);u(7)单因素方差分析的非参数检验()单因素方差分析的非参数检验(Kruskal-Wallis秩秩检验)检验)22222u检验的基本原理检验的基本原理u(1)设设x1,x2,

3、xn为总体为总体X的一组样本观察值,的一组样本观察值,F(x)为某一已知分布的分布函数,为某一已知分布的分布函数, 1, 2, r是的是的r个待定参数,分别是个待定参数,分别是r个参数的点估计,个参数的点估计,以分别代替以分别代替 1, 2,., r ,作原假设,作原假设 H0:总体:总体X的分布函数为的分布函数为F(x) u(2) 将将F(x)的定义域划分为的定义域划分为k个互不相交的区个互不相交的区间间 (ai , ai+1 ,i =1,2, k;记;记fi为样本为样本观 察 值观 察 值 x 1 , x 2 , , x n 落 在 第 个 区 间落 在 第 个 区 间(ai ,ai+1

4、内的频数,并记内的频数,并记 Pi=Pai X ai+1= F(ai+1)-F(ai ) 32.1总体分布的总体分布的 检验检验u为以为以F(x)为分布函数的随机变量在区间为分布函数的随机变量在区间 (ai ,ai+1 上取值的概率,上取值的概率,i =1,2, k。则当则当H0为真时,由贝努里定理,当为真时,由贝努里定理,当n充分大时,充分大时,n次独立重复试验结果的实际频率次独立重复试验结果的实际频率 与其概率与其概率Pi之间的差异并不显著,于是显然可以用统计之间的差异并不显著,于是显然可以用统计量来刻画它们间总的差异的大小。其中量来刻画它们间总的差异的大小。其中nPi为为理论频数。当理论

5、频数。当H0为真时,下式的值就应当较为真时,下式的值就应当较小小 4nfi221()kiiiifnPnPu(3) 可以证明,当可以证明,当n充分大时充分大时(n 50),若,若H0为真,则统计量为真,则统计量u近似服从近似服从(k -r -1)分布。其中分布。其中r为分布为分布F(x)中待定参数的个数中待定参数的个数 u于是在给定显著性水平于是在给定显著性水平 下,若下,若u就拒绝就拒绝H0,说明总体,说明总体X的真实分布函数与的真实分布函数与F(x)间存在显著差异;否则接受间存在显著差异;否则接受H0,即可以认为,即可以认为两者在水平两者在水平 下并无显著差异。下并无显著差异。5221()k

6、iiiifnPnP22(1)k r 某厂有一台经常需要维修的设备,该设备中有一个易损某厂有一台经常需要维修的设备,该设备中有一个易损坏的重负荷轴承,设备故障的主要原因是轴承损坏。为了坏的重负荷轴承,设备故障的主要原因是轴承损坏。为了制定该设备的维修计划和维修预算,需要了解该轴承的寿制定该设备的维修计划和维修预算,需要了解该轴承的寿命分布。表命分布。表10.1给出了给出了100个轴承寿命的观察数据,问:个轴承寿命的观察数据,问:该轴承寿命是否服从正态分布?该轴承寿命是否服从正态分布?6107 155 105 148 49 143 120 115 142 87 103 141 118 168 12

7、3 105 80 107 172 122 89 69 97 135 92 31 68 88 95 146 99 121 104 63 12 57 120 139 107 156 167 136 173 136 179 129 88 75 144 105 192 149 128 111 127 91 103 145 113 114 123 136 8 190 181 121 158 83 223 93 72 120 130 103 144 89 113 60 76 176 94 190 139 140 151 145 142 118 185 140 59 118 212 117 52 128 1

8、68 174 155 116 解:由表中数据,用解:由表中数据,用Excel可求得可求得 =120.95, S2=40.582 ,故可作原假设,故可作原假设 H0:X N (120,402) 将实轴划分为如下将实轴划分为如下7个互不相交的区间。用个互不相交的区间。用Excel的的FREQUENCY函数计算数据落在各区间内的频函数计算数据落在各区间内的频数,用数,用NORMDIST函数求出各理论频数函数求出各理论频数nPi ,统计量的计算如表所示。统计量的计算如表所示。7x区 间 fi nPi iiinPnPf2)( (- , 70 11 10.56 0.0183 (70, 90 10 12.1

9、0 0.3645 (90, 110 18 17.47 0.0161 (110, 130 21 19.74 0.0804 (130, 150 19 17.47 0.1340 (150, 170 10 12.10 0.3645 (170, +) 11 10.56 0.0183 合计 100 100 0.9961 8u取显著性水平取显著性水平 = 0.25 (由于原假设由于原假设H0是我们希望得到的结果,为使检验结论更是我们希望得到的结果,为使检验结论更具说服力,控制的重点应是与原假设具说服力,控制的重点应是与原假设H0不不真而接受真而接受H0的概率,故的概率,故 应取的稍大些应取的稍大些)。本例中

10、本例中k = 7,r = 2,k r -1 = 4。u故在水平故在水平 = 0.25下接受原假设下接受原假设H0,即,即可认为该轴承的使用寿命服从可认为该轴承的使用寿命服从N (120,402)分布。分布。9220.250.9961(4)5.385.2 比例差异的比例差异的 检验(独立样本)检验(独立样本) u10.2.1 两个比例差异的检验两个比例差异的检验 u前面,我们研究了两个比例的前面,我们研究了两个比例的Z检验。这部分从不同角检验。这部分从不同角度检验数据。假设检验过程使用近似卡方()分布的度检验数据。假设检验过程使用近似卡方()分布的检验数据。检验数据。u如果想要比较两个独立样本组

11、的分类变量,可以做两如果想要比较两个独立样本组的分类变量,可以做两维的列联表,显示每组的第维的列联表,显示每组的第1类(正向类,如类(正向类,如“成功成功”,“是是”等)和第等)和第2类(反向类,如类(反向类,如“失败失败”,“否否”等)等)出现的频数,如表所示出现的频数,如表所示 22102u为了检验组一样本有关类为了检验组一样本有关类1的比例是否等于第二组样本的比例是否等于第二组样本有关类有关类1的比例,即假设检验为:的比例,即假设检验为:u原假设为两比例之间无显著差异:原假设为两比例之间无显著差异: u备择假设为两比例之间有差异:备择假设为两比例之间有差异: u使用卡方(使用卡方( )检

12、验的基本思路为:)检验的基本思路为:u(1).确定统计量为确定统计量为 (10.2.1) u其中其中 为列联表中特定单元的观测频数,为列联表中特定单元的观测频数, 为列联表中为列联表中特定单元的期望频数,因此这里的统计量特定单元的期望频数,因此这里的统计量 是观测频数是观测频数和期望频数差的平方除以每单元的期望频数,并对表中和期望频数差的平方除以每单元的期望频数,并对表中的所有单元格取和求得;的所有单元格取和求得;211012:Hpp112:Hpp22()oeefff表 格 中 所 有 元ofef22u(2)可以证明上述统计量)可以证明上述统计量 近似服从自由度为近似服从自由度为1的的 分布,

13、因此在显著性水平下,决策规则为:分布,因此在显著性水平下,决策规则为:u如果如果 ,拒绝,拒绝 u否则,接受否则,接受 。0H122222(1)0H为了计算任意单元期望频数ef, 必须知道如果原假设为真, 两项比例1p和2p是相同的。但要计算的每组样本比例有可能不同。每组的样本比例都可以作为参数1p和2p的估计值。 将两个独立比例参数估计组合起来的统计量比各自独立的比例参数估计提供更多的信息。用p表示两组组合样本属于表 10.3 中类 1 比例的估计值,则1p就是两组组合样本中属于类 2 比例的估计值。使用表 10.3 中的符号,p的定义如式(10.2.2)所示。 1212xxXpnnn13这

14、样,为了计算属于类 1(即列联表中第一行)的期望频数ef,用p乘以组一(或组二)的样本容量1n(或2n)即可得到;类似的,为了计算属于类 2(即列联表中第二行)的期望频数ef,用1p乘以组一(或组二)的样本容量1n(或2n)即可得到,如表 10.4 所示。 行变量 列变量 组一 组二 类 1(正向) 1pn 2pn 类 2(反向) 1(1)pn 2(1)pn 应用案例应用案例 u 有两家酒店,为了确定服务质量,要求有两家酒店,为了确定服务质量,要求顾客离开时做满意度调查,顾客可能会再顾客离开时做满意度调查,顾客可能会再次入住;根据调查数据得到的列联表如表次入住;根据调查数据得到的列联表如表10

15、.5所示。问在显著性水平的情况下,顾所示。问在显著性水平的情况下,顾客会回到酒店一和酒店二的比例是否相同客会回到酒店一和酒店二的比例是否相同。 14酒店 是否再次入住 酒店一 酒店二 总计 类 1(是) 163 154 317 类 2(否) 64 108 172 总计 227 262 489 解:(1)设1p和2p分别为顾客会回到酒店一和酒店二的比例。 原假设为顾客回到两酒店的比例之间无显著差异:012:Hpp 备择假设为两比例之间有差异:112:Hpp; (2)由表 10.5,利用公式,计算得到 1212163 1540.6483227262xxpnn; (3)根据表 10.4,计算各个单元

16、的期望频数ef,如表 10.6 所示 15(3)根据表 10.4,计算各个单元的期望频数ef,如表 10.6 所示 表 10.6 酒店满意度的 22 列联表的期望频数ef 列变量 是否再次入住 酒店一 酒店二 类 1(是) 1p n0.6483 227147.16 20.6483 262169.84p n 类 2(否) 1(1)0.3517 22779.84pn 2(1)0.3517 26292.16pn 16(4)根据公式,计算2,计算过程如表 10.7 所示。得到计算结果29.05。 表 10.7 酒店顾客满意度调查的2检验计算 0f ef (0f-ef) 20eff eefff/20 1

17、63 147.16 15.84 250.91 1.71 154 169.84 -15.84 250.91 1.48 64 79.84 -15.84 250.91 3.14 108 92.16 15.84 250.91 2.72 9.05 (5) 查附录 3 的2分布表, 由于0.05, 自由度为 1, 查得20.05(1)3.841。 171810.2.2 两个以上比例差异的检验两个以上比例差异的检验 假设有c组独立样本,对两类指标(类 1 和类 2)有不同的频数,形成c个对于类 1 指标的独立比例12,cppp。 如此, 可以构建具有两行c列的列联表 (如表 10.8) 。 表 10.8 2

18、c 列联表 列变量 行变量 组一 组二 组c 总计 类 1(正向) 1x 2x cx 12, ()cXxxx 类 2(反向) 11nx 22nx ccnx nX 总计 1n 2n cn 12, ()cnnnn 为了检验c项比例有没有区别的假设,假设检验需要解决的是: 原假设为: cpppH.:210 备择假设为: :1H不是所有的ip都相同(1,2,ic) u统计量是观测频数和期望频数差的平方除以每统计量是观测频数和期望频数差的平方除以每单元的期望频数,并对表中的单元的期望频数,并对表中的2c个所有单元个所有单元格取和求得格取和求得 因此统计量因此统计量 的自由度为的自由度为 192(1)c因

19、此在显著性水平下,两个以上源自独立样本的比例差异假设检验的决策规则为: 如果22(1)c,拒绝cpppH.:210 否则,接受0H。 类似两个比例差异的假设检验,为了计算式(10.2.1)中的期望频数ef, 引入p作为组合 c 项独立检验为一个总比例检验的统计量,如式(10.2.4)。 nXnnnxxxpcc2121 (10.2.4) 20表 10.9 2c 列联表中ef的计算 行变量 列变量 组一 组二 组c 类 1(正向) 1p n 2p n cp n 类 2(反向) 1(1) pn 2(1)pn (1)cpn 应用案例应用案例 u如果有四家酒店,根据调查数据得到的列联表如果有四家酒店,根

20、据调查数据得到的列联表如表如表10.10所示。问在显著性水平的情况下,所示。问在显著性水平的情况下,顾客会回到这四家酒店的比例是否相同。顾客会回到这四家酒店的比例是否相同。21表 10.10 酒店满意度的 24 列联表 酒店 是否再次入住 酒店一 酒店二 酒店三 酒店四 总计 类 1(是) 173 164 186 199 722 类 2(否) 66 108 71 33 278 总计 239 272 257 232 1000 解:(1)设1p,2p,3p和4p分别为顾客会回到酒店一、酒店二、酒店三和酒店四的比例。 原假设为顾客回到四家酒店的比例之间无显著差异:01234:Hpppp;备择假设为不

21、是四个比例都相等。 (2)由表 10.10,利用公式(10.2.4),计算得到 12341234173 1641861990.722239272257232xxxxpnnnn; (3)根据表 10.9,计算各个单元的期望频数ef,如表 10.11 所示 22表 10.11 酒店满意度的 24 列联表的期望频数ef 列变量 是否再次入住 酒店一 酒店二 酒店三 酒店四 类 1(是) 172.56 196.38 185.55 167.50 类 2(否) 66.44 75.62 71.45 64.50 表 10.12 酒店顾客满意度调查的2检验计算 0f ef (0f-ef) 20eff eefff

22、/20 173 172.56 0.44 0.19 0.00 164 196.38 -32.38 1048.72 5.34 186 185.55 0.45 0.20 0.00 199 167.50 31.5 992.25 5.92 66 66.44 -0.44 0.19 0.00 108 75.62 32.38 1048.72 13.87 71 71.45 -0.45 0.20 0.00 33 64.50 -31.5 992.25 15.38 40.52 23(5) 查附录 3 的2分布表, 由于0.05, 自由度为 3, 查得20.05(3)7.815。由于220.0540.52(3)7.81

23、5,因此,拒绝原假设0H,可以认为顾客会回到四家酒店的比例不是都相同的 独立性检验独立性检验对于独立性检验,要检验的原假设和备择假设分别是: 0H:两类变量独立(即它们间没有联系) 1H:两类变量不独立(即它们间有联系) 再次使用公式(10.2.1)计算统计量2。则类似的,在显著性水平下,检验的决策规则为: 拒绝0H,如果)1)(1(2rc2 否则,不拒绝0H 24独立性的2检验与比例2检验相似。检验变量和决策规则相同,但假设和结论不同。在比例检验中,有一个因子有两个或两个水平以上(组别,即列联表中的列)。这些水平之间是相互独立的。每一水平下有两类结果(类别,即列联表中的行),例如成功和失败。

24、目的是比较和计算不同水平下成功比例间的差异。然而,在独立检验中,存在两个因子,每个因子有两个或两个以上的水平(即列联表中的行数和列数可能分别有两个或两个以上)。选择一个样本,在列联表单元中记录两类变量不同水平间组合的个数。 u假设在上面例子中的酒店顾客满意度的调查中,假设在上面例子中的酒店顾客满意度的调查中,向表明不会再次入住酒店的顾客问第二个问题。向表明不会再次入住酒店的顾客问第二个问题。即不会再次入住的原因是什么,包括价格、位即不会再次入住的原因是什么,包括价格、位置、客房服务和其他等。调查结果的列联表如置、客房服务和其他等。调查结果的列联表如表表10.14所示。试问在显著性水平的情况下,

25、所示。试问在显著性水平的情况下,不会再次入住理由与酒店之间是否有联系?不会再次入住理由与酒店之间是否有联系?25表 10.14 不会再次入住酒店理由的列联表 酒店 不再入住理由 酒店一 酒店二 酒店三 酒店四 总计 价格 23 20 40 10 93 位置 35 55 5 10 105 客房服务 6 11 20 6 43 其他 2 22 6 7 37 总计 66 108 71 33 278 解:在上述44列联表中,每个单元的观测频数表示顾客不会再次入住酒店的联合记录。检验所要完成的任务是分析这些不再入住理由与酒店之间是否独立。因此,分析步骤如下: (1) 原假设与备择假设分别是: 0H:不会再

26、次入住理由和酒店间没有联系 1H:不会再次入住理由和酒店间有联系 26(1) 根据公式(10.2.1)计算统计量2,这里公式中0f即为表 10.14 中特定单元的观测频数;ef为如果独立假设为真,特定单元的期望频数。为了计算ef,根据独立事件概率的乘法法则,引入公式(10.2.6) n nnn 列总计行总计列总计行总计样本容量列 因 子 概 率行 因 子 概 率PPfe (10.2.6) 表 10.15 不会再次入住酒店理由的期望频数ef 酒店 不再入住理由 酒店一 酒店二 酒店三 酒店四 总计 价格 22.08 36.13 23.75 11.04 93 位置 24.93 40.79 26.8

27、2 12.46 105 客房服务 10.21 16.71 10.98 5.10 43 其他 8.78 14.37 9.45 4.39 37 总计 66 108 71 33 278 27通过计算得统计量07.692 (1) 显著性水平0.05,自由度=(4 1)(4 1)9,查附录 3 得到919.16) 9 (205. 0,由于919.16) 9 (07.69205. 02,因此拒绝原假设,即认为不会再次入住的理由与酒店之间是不独立的,存在很大的相关性, 结果也可以通过 Excel 表求得的 P值说明 (如图 10.3 所示) ,P值等于112.31 10远远小于0.05。 2810.3 两个

28、相关样本比例差异检验两个相关样本比例差异检验 上述几节用2检验来检验比例差异时都要求独立性条件。 然而, 有时检验比例间差异的数据来自重复度量或配对取样,因此样本相关。譬如,当希望确定在一段时期态度、比例、或行为是否发生变化时,这样的情况经常发生。 29下面首先介绍 McNEMAR 检验的基本思路。假设从一样本总体中调查条件 1 和条件 2 的情况,得到结果的汇总表如表 10.17 的列联表。 表 10.17 McNEMAR 检验的 22 列联表 条件(组)条件(组)2 条件(组)条件(组)1 是是 否否 总计总计 是是 A B A+B 否否 C D C+D 总计总计 A+C B+D n 则样

29、本比例是 nBAfo1为对条件 1 反应为是的比例; nAfCo2为对条件 2 反应为是的比例; 总体比例为: 1ef:对条件 1 反应为是的总体比例; 2ef:对条件 2 反应为是的总体比例; 30McNEMAR 检验所要进行的检验任务是: 原假设为012:eeHff 备择假设是112:eeHff 为此,定义如公式(10.3.1)的统计量 CBCBZ (10.3.1) 该统计量近似服从标准正态分布,因此在特定的显著性水平下,可以运用如下的检验决策规则: 如果2/ZZ ,则拒绝原假设0H 否则,就接受原假设0H。 31应用案例应用案例假设有一 600 人的顾客组被选择来作酒店入住的市场调查,顾

30、客被要求在两竞争酒店 S 和 V 之间作选择。有 282 位成员选择 S 酒店,318 位成员选择 V 酒店。在得知 V 酒店实行市场竞争策略后,同样的 600 人组被询问选择,得出以下结果:在先前选择 S 酒店的 282 人中,246 人维持原有选择,36 人改投 V 酒店。在先前选择V 酒店的 318 人中,306 人维持原有选择,12 人改投 S 酒店。结果显示于表 10.18所示。请问在显著性水平0.05下,V 酒店实行市场竞争策略前后,两个总体比例之间是否有差异。 32表 10.18 酒店的支持率 市场竞争后 市场竞争前 S 酒店 V 酒店 总计 S 酒店 246 36 282 V

31、酒店 12 306 318 总计 258 342 600 解:(1)设12,eeff为 S 酒店实行市场竞争策略前后的两个总体比例。为了确定市场竞争策略对总体比例的差异,问题抽象成为两个相关样本的比例差异检验,其原假设为012:eeHff,备择假设是112:eeHff (1) 确定统计量36 123.464136 12BCZBC,得到47. 0600362461nBAfo, 43. 060012246Co2nAf (2) 查 附 录 2 的 标 准 正 态 分 布 表 , 得 到/20.0251.96ZZ, 由 于0.0253.46411.96ZZ, 因此拒绝原假设, 即认为实行市场竞争策略后

32、,选择两酒店的比例是显著不同的。由于12ooff,因此说明实行市场竞争策略后,更多的顾客选择了 V 酒店,放弃了 S 酒店。 33u如果样本容量很小,并且无法确定样本数据是如果样本容量很小,并且无法确定样本数据是否来自正态分布总体,此时可以选择以下两种否来自正态分布总体,此时可以选择以下两种方法来分析两独立总体均值间的区别:方法来分析两独立总体均值间的区别:u(1)用不依赖于正态总体假设的)用不依赖于正态总体假设的Wilcoxon秩和检验;秩和检验;u(2)对于数据进行正态转换后使用合并方差)对于数据进行正态转换后使用合并方差的的t检验。检验。u本节介绍用本节介绍用Wilcoxon秩和检验来检

33、验两组值秩和检验来检验两组值间是否有差别。在合乎这些检验的条件下,间是否有差别。在合乎这些检验的条件下,Wilcoxon秩和检验和合并方差及独立方差的秩和检验和合并方差及独立方差的t检验一样有效;当检验一样有效;当t检验假设不符合时,检验假设不符合时,Wilcoxon秩和检验更有效。秩和检验更有效。3410.4 两个独立总体的非参数分析:两个独立总体的非参数分析:Wilcoxon秩和检验秩和检验秩 设X为一总体,将一容量为n的样本观察值按从小到大的次序编号排列成 (1)(2)( )nXXX,称( ) iX的足标i为( ) iX的秩,1,2,in。当其中几个数据相等时,那么这几个数据的秩取平均值

34、。 35现设自总体 1,2 分别抽取容量为12,n n的样本,设两样本独立,且设12nnn。这里总假定12nn,将这12nn个样本值放在一起,按自小到大的次序排列,求出每个样本值的秩,然后将属于第 1 个总体的样本值的秩相加,设为1T,称为第 1 个样本的秩和;其余样本的秩总和记为2T,称为第 2 样本的秩和。且满足公式(10.4.1)。 2) 1(2) 1)(212121nnnnnnTT (10.4.1) 当样本1n和2n都不大于 10 时,使用附表 6 找出检验数据1T的临界值。对于双边检验, 如果计算值1T等于或大于上临界值或1T等于或小于下临界值, 拒绝原假设。对于备择假设 211:M

35、MH的单边检验,如果观测值1T等于或小于下临界值,拒绝原假设。 对于备择假设211:MMH的单边检验, 如果观测值1T等于或大于上临界值,拒绝原假设。 36对于大样本,检验统计量1T近似服从均值1T,标准差为1T的正态分布,其中 2111nnT (10.4.2) 121211nnnT (10.4.3) 因此,可以采用 Z 检验,统计量为: 121212111nnnnnTZ (10.4.4) 应用案例应用案例为了说明超市物品的销售情况是否跟物品的摆放位置有关。考虑如某一物品的摆放位置:正常货架和过道摆放。假设共有 20 家配置基本相同的店面,随机选择其中的 10 家作为第 1 组,将物品放置在正

36、常货架;剩余 10 家作为第 2 组,将物品放置在过道;一周后,记录该物品的销售额,表 10.20 所示。如果认为总体不服从正态分布,请用 Wilcoxon 秩和检验说明在显著性水平0.05的情况下,两种摆放位置是否影响销售额。 表 10.20 两种不同的销售位置的每周销量比较 正常 过道 22 34 52 62 30 40 64 84 56 59 52 71 76 54 67 83 66 90 77 84 37解:(1)由于不能确定哪个位置的均值高,使用以下原假设和备择假设的双边检验: 210:MMH(均值相等) 211:MMH(均值不等) (2)为了进行 Wilcoxon 秩和检验,计算1

37、n=10 正常货架分布销售和2n=10 过道销售的秩。表 10.21 显示了组合秩。 38表 10.21 组合秩 销售销售 正常货架(正常货架(1n=10=10) 组合秩组合秩 过道摆放(过道摆放(2n=10=10) 组合秩组合秩 22 1.0 52 5.5 34 3.0 71 14.0 52 5.5 76 15.0 62 10.0 54 7.0 30 2.0 67 13.0 40 4.0 83 17.0 64 11.0 66 12.0 84 18.5 90 20.0 56 8.0 77 16.0 59 9.0 84 18.5 (3) 计算小样本秩的总和1T。 在这案例中, 两样本容量相等,

38、任一组可计算1T。选择正常货架摆放作为第一样本, 1T=1+3+5.5+10+2+4+11+18.5+8+9=72 为了对秩和检验进行检验,计算2T 2T=5.5+14+15+7+13+17+12+20+16+18.5=138 使用公式(10.4.1)显示组合秩的总和等于1T+2T: 2121nnTT 72+138=20(21)/2=210 210=210 (4)为了检验原假设,两总体均值间没有区别,使用附表 6 决定检验数据1T的上下临界值。表 10.22 是附表 6 的一部分,在 0.05 显著性水平下,临界值是 78 和132。决策规则是 拒绝0H,如果1T78 或1T132; 否则,接

39、受0H 39(5)因为检验统计量1T=7278,拒绝0H,认为两种摆放的销售均值间有很大差异。因为通道销售秩总和较高,因而通道销售均值较高 4010.5 单因素方差分析的非参数分析:单因素方差分析的非参数分析:Kruskal-Wallis秩检验秩检验u如果第如果第9章中单因素方差分析的章中单因素方差分析的F检验的正态分检验的正态分布假设条件不符合时,可以使用布假设条件不符合时,可以使用Kruskal-Wallis秩检验。秩检验。Kruskal-Wallis秩检验是秩检验是两独立总体两独立总体Wilcoxon秩和检验的延伸,主要秩和检验的延伸,主要用于检验项独立总体是否有相等均值。用于检验项独立

40、总体是否有相等均值。Kruskal-Wallis秩检验和单因素方差分析的秩检验和单因素方差分析的F检验一样有效。检验一样有效。41使用Kruskal-Wallis秩检验来检验(2)c c项独立总体是否有相等均值。 原假设: cMMMH.:210 备择假设: ),都相等(其中不是所有的c.21j:j1MH 其中,(1,2, )jMjc是第j个总体的均值。 为了进行Kruskal-Wallis 秩检验,首先将各自样本容量为(1,2, )jn jc的样本组合形成总样本容量为n(12cnnnn)的组合样本,并用它们的复合秩替代样本数据。组合样本最小值的秩为 1,最大值的秩为n。如果几个样本数据是相等的,那么这几个数据的秩取平均值。 42

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论