王静龙《非参数统计分析》(18章)教案_第1页
王静龙《非参数统计分析》(18章)教案_第2页
王静龙《非参数统计分析》(18章)教案_第3页
王静龙《非参数统计分析》(18章)教案_第4页
王静龙《非参数统计分析》(18章)教案_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.引言一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。例如:分析下面的供应商的产品是否合格?合格产品的标准长度为(8.50.1),随即抽取n=100件零件,数据如下:1.18.5038.5088.4988.3478.4948.5008.4988.5008.5028.5018.4918.5048.5028.5038.5018.5058.4928.4978.1508.4968.5018.4898.5068.4978.5058.5018.5008.4998.4908.4938.5018.4978.5018.4988.5038.5058.5108.4998.4898.4968.5008.5038.4978.5048.5038.5068.4978.5078.3468.3108.4898.4998.4928.4978.5068.5028.5058.4898.5038.4928.5018.4998.8048.5058.5048.4998.5068.4998.4938.4948.4908.5058.5118.5028.5058.5038.7828.5028.5098.4998.4988.4938.8978.5048.4938.4947.7808.5098.4998.5038.4948.5118.5018.4978.4938.5018.4958.4618.5048.691x8.4958cm,非常接近中心位置8.5cm,样本标准差为s

0.1047cm.X~N(,2。ni1xx2 n1iP(8.4X8.6)(8.6ni1xx2 n1i(8.68.49580.1047)(8.48.49580.1047)66%这说明产品有接近三分之一不合格,三分之二合格,所以需要更换供应厂商,而用非参数分析却是另外一个结果。100个零件长度的分布表:(cm)频率(%)~8.4058.40~8.4608.46~8.4818.48~8.50458.50~8.52458.52~8.6008.60~4合计1000.2cm9%的零件不合格,所以工厂不需要换供应商。2哪一个企业职工的工资高?1.3两个企业职工的工资11112131415161718 19 20 406023456789103050112的职工工资分别服从正态分布N(a,2N(b,2数的假设检验问题,原假设为H :ab,备择假设为H :ab0 0则xy~N(ab,(1m

)2)1n1若H0为真,则xyS1wm n1t ~t(mnS1wm n1其中S2w

1mn2

[m

(xx)2i

(yy)2]ii1 i1拒绝域为:tt (20)}t1.32}0.90t1.282故不能拒绝原假设,认为两企业的工资水平无差异。也可以用P值检验P(t(20)1.282)0.1073故不能拒绝原假设,认为两企业的工资水平无差异。0.1.但这个统计结论与实际数据不相符合。主要是因为假设工资服从正态分布,这个假设是错误的,用错误的假设结合参数分析自然得出的结论不可靠。这时候有两种方法处理,一种更换其他分布的假设,二是用非参数数据的方法的分析。非参数统计如同光谱抗生素,应用范围十分广泛。参数统计与非参数统计针对不同的情况提出的统计方法,它们各有优缺点,互为补充。第二章描述性统计§2.1表格法和图形法表格法主要有列频数分布表和频率分布表2.1某公司测试新灯丝的寿命,列表如下:1071077368977679945998577381546571808479986365667986687461826598637162116647978797786897674857380687889725892788877103886368888164737590628971747085616561756294718584836392688143116;5~20组,组距

(最大值最小值)1652.2灯丝寿命的频率分布表灯丝寿命(小时)个数频率(%)40--4410.545--4910.550--5421.055--5984.060--642412.065--692814.070--743015.075--793417.080--842311.585--892211.090--94147.095--9984.0100--10431.5105--10910.5110--11400.0115--11910.5总和200100对应的直方图为:§2.2表格法和图形法(或者平均大小和离散程度等。1 3 5 3 3 1 3 2 3 2 4 41平均2.833333标准误差0.34451中位数3众数3标准差1.193416方差1.424242峰度-0.20317偏度-0.00713区域4最小值1最大值5求和34观测数12它的平均数,中位数,众数差不多大。但大部分情况不是这样的,例如:§2.3赔款数某保险公司赔款样本数据频率分布表赔款次数0--4002400--80032800--1200241200--1600191600--2000102000--240062400--280032800--320023200--360013600--40001合计1001224,1000,600,这三者相差较大。左峰的时候:众数中位数平均数,右峰的时候:平均数中位数众数。平均数容易受到异常值的影响,故不能很好地代表中心位。2.9%,但减收的农户却是60%,为了更好地反映中心位,所以很多情况采用%的切尾平均数。人们熟知的去掉最大值与最小值的平均数也是切尾平均数。§2.4经济专业毕业生的月收入数据毕业生月收入毕业生月收入1185071890219508213032050919404188010234051750111920617001218801924,而总体平均数1940.1905,中位数表现了稳定性。因此我们不仅用平均数表示中心位置,有时候也用中位数描述数据的中心位置。另外,众数也能用来描述数据的中心位置,尤其是定性数据的中心位置,例如:§2.5有缺陷的小巧克力不合格品问题的频数频率分布表代码问题频数频率(%)1外层不够48652.832两个粘在一起434.673被压扁29532.074外层太多849.135破裂121.30这种情况下计算平均数和中位数没有多大意义,相反众数为1,众数值得关注。一般情况,平均数,中位数,众数应该综合考量,这三个数目,使得我们可以从不同角度表达数据的中心位置,给评估对象一个全面的评价,例如:某企业5700,30002000元,这说明收200030003000元,平均5700大于中位数,说明有些员工工资特别高。平均数与中位数为何可以表示数据的中心位置呢?主要是因为:2n (xx)2ii1

minna i1

2(xa)i

(2.1)ni1

xmeminni ai1

xai

(2.2)这说明用不同的距离标准衡量,平均数与中位数到各点的距离最近。另外平均数的物理意义还有重心的意义,在重心位置,系统可以平衡,在433这点,所走的路最短。***********123456789中位数平均数§2.2.2表示离散程度的数值表示离散程度的数值一般有方差,四分位数,而四分位数又分上四分位数与下四分位数。为表示数据的离散程度,我们一般用五个数概括,即最小值,下四分位数,中位数,上四分位数,最大值,分别记为Q

,Q,Q

,Q,Q.0 1 2 3 412名经济专业毕业生月收入数据处理结果如下:(用Minitab)N12Mean1940Median1905TrMean1924StDev170.6SEMean49.3Minimum1700Maximum2340下四分位数Q11857.5上四分位数Q32025Minitab(2.9)2.9四分位数的计算分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值.如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是八分位数等.四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%的数据,处在各分位点的数值就是四分位数.四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示.四分位数作为分位数的一种形式,在统计中有着十分重要的作用和意义,现就四分位数的计算做一详细阐述.一、资料未分组四分位数计算第一步:确定四分位数的位置.Qi所在的位置=i(n+1)/4,其中i=1,2,3.n表示资料项 数 .第二步:根据第一步四分位数的位置,计算相应四分位数.例1:某数学补习小组11人年龄(岁)为:17,19,22,24,25,28,34,35,36,37,38.则三个四分位数的位置分别为:/4=9.变量中的第三个第六个和第九个人的岁数分别为下四分位数中位数和上四分位数,即 Q1=22(岁)、Q2=28(岁)、Q3=36(岁)数倍.这样四分位数的位置就带有小数,需要进一步研究.带有小数的位置与位置前后标志值有一定的关系四分位数是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置的远近,距离越近,权数越大,距离越远,权数越小,权数之和应等于 1.例2:设有一组经过排序的数据为12,15,17,19,20,23,25,28,30,33,34,35,36,37,则三个四分位数的位置分别为:=(14+1)/4=3.75,Q2=2(14+1)/4=7.5,Q33( 14+1 ) /4=11.25.项和第11.25项分别为下四分位数中位数和上四分位数,即 Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5;Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5;Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25.二、资料已整理分组的组距式数列四分位数计算第一步:向上或向下累计次数(因篇幅限制,以下均采取向上累计次数方式计算);第二步:根据累计次数确定四分位数的位置:Q1的位置=(∑f+1)/4,Q2的位置=2(∑f+1)/4,Q3的位置=3(∑f+1)/4式中:∑f表示资料的总次数;第三步根据四分位数的位置计算各四分位(向上累计次数,按照下限公式计算四分位 数 ) :Qi=Li+fi × ,fi——Qi,di——Qi——Qi所在组以前一组的累积次数,∑f——总次数.例3:某企业工人日产量的分组资料如下:根 据 上 述 资 料 确 定 四 分 位 数 步 骤 如 下 :(1)向上累计方式获得四分位数位置:Q1的位置=(∑f+1)/4=(164+1)/4=41.25Q2的位置=2(∑f+1)/4=2(164+1)/4=82.5Q3的位置=3(∑f+1)/4=3(164+1)/4=123.75(2)可知Q1,Q2,Q3分别位于向上累计工人数的第三组、第四组和第五组,日产量四分位数具体为:Q1=L1+×d1=70+10=72.49(千克)Q2=L2+×d2=80+10=80.83(千克)Q3=L3+■×d3=90+■×10=90.96(千克)shitouwa43202014-10-23§2.2.3标准误假设产生数据的总体的均值为 方差为2它们的估计分别为样本平均值x,样本方差S2和样本标准差S ,由于平均数x的标准差为

n,所以它的估计取nnn为S ,S 称为标准误。nn

~t(n1)nSnnSn0.95的条件下,得置信区间的端点Snx tSn

0.975

(n1).S.即得 x

t (n1)n0.975nt (11)2.20100.975Mintab计算得到:VariableMaximumNN*MeanSEMeanStDevMinimumQ1MedianQ3C11201940.049.3170.61700.01857.51905.02025.02340.0算得到所求置信区间为: 194049.32.209862731940108.5086233Excel计算得到:平均1940标准误差49.25198中位数1905众数1880标准差170.6139方差29109.09峰度1.874516偏度1.102987区域640最小值1700最大值2340求和23280观测数12置信度(95.0%)108.4029所求置信区间为: 194049.251980422.209862731940108.4029328两款软件计算结果相差不大。§2.2.4偏度s偏度(Skewness)反应单峰分布的对诚性,总体偏度用 表示s X3 3E[ ]s 3s样本偏见度用b 表示,国家标准的计算公式为:smsmb 3sm其中mj

i1

xxji ,n

2 2j2,3.Excel中的计算公式为:n mb s (n1)(n2) S3s一般bs

0b

0b0ss我们倾向于认为总体的分布是对称的。ss§2.2.4峰度k峰度(Kurtosis)反映峰的尖峭程度,总体峰度用 表示,总体的峰度的定义为(国家标准)k 4 E[X4] 4k 4k样本峰度用b ,国家标准的计算公式为kmk2bm4k2kk2kk由于正态分布的峰度系数为3,当平分布。

b3时为尖峰分布,当b

3时为扁符号检验是一种较为简单的非参数检验,中位数检验是符号检验的一个重要应用。3.1某市劳动和社会保障部门的资料说明,1998年高级技师的年收入的中位2170050名高级技师组成的样本,数据如下:230722437020327242962225619140256692240426744267442340620439248902481524556184722451422516251122348026552240741806422590原假设与备择假设为:H0:me21700 H1:me21700选择统计量S

#{x:xme i i 0

即为大于中位数me 的0"#ix 的个数, 表示计数,S"#in 1 xme 0S u,u i 0i ii1

0 其他1若Hme21700为真,则S0

250

50150PPX32)

0.0324540.05i32 i2Si2Hme21701在excel中如何使用BINOMDIST函数返回一元二项式分布的概率值BINOMDIST函数用于返回一元二项式分布的概率值。函数语法BINOMDIST(number_s,trials,probability_s,cumulative)number_s:trials:表示独立实验的次数。probability_s:表示一次实验中成功的概率。cumulativeTRUE,BINOMDIST返number_s次成功的概率;FALSE,返回概率密度函数,即number_s次成功的概率。106次是正面的概率。可以使用BINOMDIST函数来实现。Step01C4单元格,在公式编辑栏中输入公式:=BINOMDIST(A2,B2.C2,TRUE)Enter68-73所示。Step02C5单元格,在公式编辑栏中输入公式:=BINOMDIST(A2,B2.C2.FALSE)Enter68-74所示。§3.2符号检验在定性数据分析中的应用有的时候,观察值是一些定性数据,如果定性数据仅取两个值,就可以使用符号检验对它进行统计分析。3.22000800人觉得”越来越好”720人感觉一天不如一天,有400人表示没有变化,还有80人说不知道,根据调查结果,你是否相信,在总体认为我们的生活比过去更好的人,比认为我们的生活比过去差的人多?解:原假设与备择假设为H :p10 2

H:p11 2选择统计量S

#S

也可表示为:

1 认为生活变好u,ui i 其他i11

)2由于n很大,所以可以近似认为

npq其中 np760,npq

380 PS800 利用正态分布的计算结果

760799PS800PS

799 0.022714571380 380修正后

760799.5

800 0.021366586380 380P值较小,所以我们认为我们的生活环境变好了。§3.3成对数据的比较问题由于同一块田的生长环境相同,不同的地生长环境各不相同,所以将这批数据写成成对的形式。x x x xx

12,

1n. 21

2ndx xi 1i 2i

i

,i1,2,n,1

,2

1i 2i

,i为随机差。i关于原点对称的分布。由于和 都服从关于原点对称的分布, (同分布)1i 2i 1i 2i 2i 1i则Pi

cP( 1i 2i

c)P( 2i

c)P( 1i 2i所以i关于原点对称。

c)P(i

c)其它分位点的检验茆诗松老师教材P4147.6.3以往的资料表明,某种圆钢的90%103(kg/mm2),为了检验这个结论是否属实,现在随机挑选20根圆钢进行硬度实验,测得其硬度分别是:14213411998131102154122931378611916114415816581117128113问这批钢材是否达标?解:原假设与备择假设为:H :x 103 H:x 1030 0.10 1 0.101 x103u ii 0 其他选取统计量S

n uii1

,若原假设成立,则S

15P值为1520pP(S

15) i

09i0.120i

0.0430.05i01即检测值落入拒绝域,故拒绝原假设,接受备择假设H1即产品不达标。

:x

103例7.6.4工厂有两个化验室,每天同时从工厂的冷却水中取样,测量水中的含氯量(10

6)一次,记录如下:iii11.0310.0321.851.89-0.0430.740.9-0.1641.821.810.0151.141.2-0.0661.651.7-0.0571.921.94-0.0281.011.11-0.191.121.23-0.11100.90.97-0.07111.41.52-0.12ixix(实验室A)y(实验室B)xyi解:设A,B 实验室的测量误差分别为:,.并设,.的分布函数分别为F(x),G(x)。由于xi

,i i

i

.i

xyi i

i i原假设与备择假设为:H :F(x)G(x)0

H:F(x)G(x).10若H 为真,则在Z的分布关于原点对称01 z0 i0 其他选取统计量S

11 uii1即S

zz1

, ,z11

中正数的个数。检验值S 2,检验的P值为:p2min{P(S2),P(S2)}222i0

11i i

0.06540.05在显著性水平为 0.05检测值未落入拒绝域,故接受原假设认为两个化验室的检测结果之间无显著性差异。7.6.52008(按照升序排列):4632472850525064548469727596948014760150121872021240228365278867200已知20075063元,问2008年索赔的中位数较上一年是否有所变化?解:这是一个双侧检验问题:原假设与备择假设为:H :x 50630 0.5

H:x 50631 0.510

x5063i其他选取统计量

n uii1显著性水平计算得:

0.05n15。k15 Ck153

0.5k0.515k

0.01760.025 Ck15154

0.5k0.515k

0.0592k0

Ck0.5k0.515k15

0.01760.025

k0

Ck0.5k0.515k 0.059215所以双侧拒绝域为:W{S3或S12}

12,落入拒绝域W .2008年索赔的中位数较上一年有所变化。P值检验

p2P(S

12)0.0352 0.052008年索赔的中位数较上一年有所变化。7.6.6.1984年一些国家每平方公里可开发的水资源数据如下表所(万度/年)国家每平方可开发水资源国家每平方可开发水资源苏联4.9印度8.5巴西4.1哥伦比亚26.3美国7.5日本34.9加拿大5.4阿根廷6.9扎伊尔28.1印度尼西亚7.9墨西哥4.9瑞士78.0瑞典22.3罗马利亚10.1意大利16.8西德8.8奥地利58.6英国1.7南斯拉夫24.8法国11.5挪威37.4西班牙13.420万度/年。请用符号检验方法检验:这22个国家每平方公里可开发的水资源的中位数不高于中国,求检验的P值,并写出结论。解:原假设与备择假设为:H :x 200 0.5

H:x 201 0.5u1 x20u ii 0 其他选取统计量S

22uii1ui

,若原假设成立,则S

~b(22,0.5)显著性水平

0.05n22,查表得:22Ck22

0.5k0.522k

0.02620.05

22Ck22

0.5k0.522k

0.0669,右侧拒绝域为:W{S

S

8WPpP(S

8)0.9331 0.05H0

H。122个国家可开发的水资源的中位数不高于中国。例7.6.7.下面是亚洲十个国家1996年的每1000个新生儿中的死亡数(按从小到大的次序排列)4 6 9 15 23 31 36 65 77 88M19961000个新生儿中死亡数的中位数,试检验:H :M340

HM34P值,并写完出结论。1解:原假设与备择假设为:1H :M340

H:M3411 x34u ii 0 其他选取统计量S

10 uii1

,若原假设成立,则S

显著性水平2

0.05n10,查表得:3Ck0.5k0.510k10

0.01070.05 Ck10

0.5k0.510k

0.0547,k0 k0左侧拒绝域为:W{S

S

4WPpP(S

4)0.3770 0.05H0

H。11996100034。7.6.8.12mg12支香烟的尼古丁含量(单位:mg)分别为:16.717.714.111.413.410.513.611.612.012.611.713.7问是否该厂所说的尼古丁含量比实际要少?求检验的P值,并写出结论。由于对于非正态总体,小样本场合不能用样本均值检验,所以下面采用中位数检验。解:原假设与备择假设为:H :x 120 0.5

H:x 121 0.5u1 x12u ii 0 其他选取统计量S

12uuii1

,若原假设成立,则S

显著性水平

0.05n12,查表得:12 Ck12

0.5k0.512k

0.01930.05

12k9

Ck0.5k0.512k12

0.0730,右侧拒绝域为:W{S又检测值S 8W

或者检测的P值为pP(S 8)0.19380.05H0H1。即可认为该厂的尼古丁含量比实际含量要少。§4.1对称中心为原点的检验问题设对称中心为 ,则原假设与备择假设分别为:H :00H :00

H:01H:01H :00引入符号检验统计量为:n

H:011 x0S

u ii,i1

i 0 其它x,x1

,xn

x Riii

,i1,2,n.引入符号秩和检验统计量为:W

uRni ini1表4.1 10个观察值和它们的符号,绝对值和绝对值的秩-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.57.65.54.32.74.82.11.26.63.38.597536218410观察值符号绝对值的秩S 3 ,W 53观察值符号绝对值的秩下面讨论符号秩和检验的检验方法,原假设与备择假设为:H :00

H:01如果

0PX0)PX)

1,P(X0)P(X)12 2对于任意的正数a,P(Xa)P(X(a))P(X(a))P(Xa2)P(Xa)PXa)PXa),a0aaa此时WC为检验的临界值为cinf{c*:P(Wc*)}.原假设与备择假设为:H :0 H:00 1PXaPXaa0此时Wd为检验的临界值为dsup{d*P(Wd*)}.原假设与备择假设为:H:0H:00 1我们在W较大或者较小的时候拒绝原假设,检验的临界值cd为)}.2dsup{d*:P(Wd*) }.2§4.2符号秩和检验统计量W

的性质ni性质4.1令S iunii1

0对称时,W

与S 同分布:WdS表4.1 10个观察值和它们的符号,绝对值和绝对值的秩观察值观察值符号绝对值的秩-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.5-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.57.65.54.32.74.82.11.26.63.38.597536218410ni ii1

53210表4.3 10个观察值和它们的符号,绝对值和绝对值的秩-1.22.12.7-3.34.3-4.8-5.5-6.6-7.6-8.51.22.12.73.34.34.85.56.67.68.597536218410观察值符号绝对值的秩nS观察值符号绝对值的秩ni

23510,W

uRni ini1 i14.1W 的概率分布,在总体X 关于原点0分布时,u,u1 2

,,un

相互独立,同分布,1 nP(ui

0)P(ui

,i1,2,,n.所以S iu2 i1

是离散的分布,它的取值范围是0,1,2,n(n1)2,且P(Sd)P(ni1

iud)t(d)2n,d0,1,2,,n(n1)2, 4.1( i n( n其中t(d表示从1,2,n中取若干个,其和恰好为d的取法数,nt(0)t(1)t(2)1。t(3)t(4)2t(5)3t(6)4.n n n n n n n4.20对称时,W

与S 同分布:所以W

的分布

d)P(ni1

uRd)t(d)2n,d0,1,2,,n(n1)2,i i n

(4.2)P(W

d)P(W

n(n1)2d),d1,2,,n(n1)2.于是 P(W

d)P(W

n(n1)2d),

(4.3)这说明W

的密度是以中心对称的。4.30对称时,W

n(n1)44.112比如下表所示:4.4用两种方式完成一项生产任务的完工时间及其差值工人12差值工人12差值xiyidxyi i ixiyidxyi i i120.318.02.3716.117.2-1.1223.521.71.8818.514.93.6322.022.5-0.5921.920.01.9419.117.02.11024.221.13.1521.021.2-0.21123.422.70.7624.724.8-0.11225.023.71.3表4.5 差值的符号,绝对值及绝对值的秩工人差值符号差的绝对值绝对值的秩工人差值符号差的绝对值绝对值的秩12.32.3107-1.11.1521.81.8783.63.6123-0.50.5391.91.9842.12.19103.13.1115-0.20.22110.70.746-0.10.11121.31.36符号秩和统计量W 1079128114667原假设与备择假设为H:00

H:01我们在W 较大或者较小的时候拒绝原假设由于2P(W650.05而检测值W

67既有2P(W672P(W65)0.05故检测值落入拒绝域所以拒绝原假设H ,接受备择假设H0 1i入学前成xiyizxi入学前成xiyizxyi i i123456789767170574969652659818570525263833362-5-1405-36-18-7-3假设测验成绩服从正态分布,问学生的培训效果是否显著?不假定总体分布,采用符号检验的方法检验学生的培训效果是否显著?采用符号秩和检验方法检验学生的培训效果是否显著,三种检验方法结论是否相同?解:(1)由于测验成绩符合正态分布,而

2未知,所以我们采用T检验原假设与备择假设为:H 0 z

H:01 z由于

2未知,所以我们选取统计量zSznT Szn

~t(n1)显著性水平 0.05,

n9, t (8)1.8595,0.95左侧拒绝域为Wt1.859}.Szn而检测值TSzn

z 4.3333 1.6378W7.93739另一方面也可以用P-值也可判断检测值不在拒绝域。检验的P值pP{T1.6378}0.07 0.057.93739故检测值T1.6378W.故接受H ,拒绝H ,即认为培训效果不明显。0 1原假设与备择假设为:H :z 0 H:z 00 0.5 1 0.5选取符号检验统计量:n 1 z0S u u i则

i,i1~b(n,0.5)

i 0 其它这里显著性水平 0.05,

n9,11Ck0.5k0.59k9

0.01950.05 Ck0.5k0.59k22

0.0898k0 k0所以左侧拒绝域为W{S

S

2W.另一方面也可以用P-值也可判断检测值不在拒绝域。检验的P值pP{S2}0.0898 0.05.S

2W.故接受H ,拒绝H ,即认为培训效果不明显。0 1原假设与备择假设为:H :00

H:01n 1 z0选取统计量W

uR,其中u i .i ii1

i 0 其他这里显著性水平 0.05, n9,查表计算得:满足P(W

C )0.0537,由于W0.05

密度的对称中心为

n(n1),所以左侧临界点为

3784

2 2而检测值W

n uRi ii1

4.5610.5W故接受H ,拒绝H ,即认为培训效果不明显.0 1序号123456789101112131415材料序号123456789101112131415材料A材料B6.67.0 8.3 8.2 5.2 9.3 7.9 8.5 7.8 7.5 6.1 8.9 6.1 9.4 9.17.45.48.88.06.89.16.37.57.06.54.47.74.29.49.1问是否可以认为材料A制成的鞋子比材料B耐穿?设di

xyi

(i1,2, ,15来自正态总体,结论是什么?采用符号秩和检验,结论是什么?解:(1)由于d 符合正态分布,而i原假设与备择假设为:H : 0 H: 00 d 1 d

2未知,所以我们采用T检验由于

2未知,所以我们选取统计量zSdnT Sdn

~t(n1)显著性水平 0.05,

n15, t (14)1.7613,0.95右侧拒绝域为Wt1.761}.Sdn而检测值TSdn

D 0.5533 2.0959W1.022515另一方面也可以用P-值也可判断检测值在拒绝域。检验的P值pP{T2.0959}0.02740.05.故检测值T2.0959W1.022515故拒绝H ,接受H ,即认为材料A制成的鞋后跟比材料B耐穿。0 1(2)原假设与备择假设为:H :00

H:01n 1 d 0选取统计量W

uR,其中u i .i ii1

i 0 其他这里显著性水平 0.05, n15,查表计算得:满足P(W

C )0.0590。0.05右侧拒绝域为W{W90}.而检测值uRi ii1

RR2

RR6

RR8

R R R R10 11 12 13123.53.5128.56.58.514101593.5W故拒绝H ,接受H ,即认为材料A制成的鞋后跟比材料B耐穿。0 1品尝者A饮料B饮料品尝者A饮料B饮料12345678910108687513976522464598问两种饮料评分是否有显著性差异?采用符号检验法作检验;采用符号秩和检验法作检验.解:(1)解:原假设与备择假设为:H :d 0 H:d 00 0.5 1 0.51 xy0u i ii 0 其他

n uii1

S即为更喜欢A 饮料的人数,若原假设成立,则S~b(10,0.5)计算得:10

Ck0.5k0.510k10

0.01070.025 Ck1010

0.5k0.510k

0.0547k9 k81Ck0.5k0.510k110

0.01070.025 Ck22

0.5k0.510k

0.0547k0 k0所以双侧拒绝域为:W{S

5P值为

5 10p2min{P(S

5),P(S

5)}2 i

0.5i0.510i

1.2460 0.05i0即检测值未落入拒绝域,故接受HH。0 1即认为两种饮料的评分没有显著性差异。(2)原假设与备择假设为:H :00

H:01n 1 xy0选取统计量W

uR,其中u i i .i ii1

i 0 其他这里显著性水平 n10,查表计算得:满足

C )0.02547,则左侧临界点为0.025n(n1)

4710114782 2双侧拒绝域为WW

8或W

47}.而检测值W10uRi ii1

RR1

RRR3 4 58.568.510639WHH,即认为两种饮料的评分没有显著性差异。0 1测试精神压力和没有精神压力的血压差别,10个志愿者进行了相应的实验,数据如下(单位:毫米汞柱收缩压):107108122119116118121111114108127119123113125132121131116124无精神压力时有精神压力时该数据是否表明有精神压力的情况下的血压是否有所增加?解:无精神压力时有精神压力时原假设与备择假设为:H :00

H:0 其中为d1

xyi

总体密度函数的对称中心,n 1 xy0选取统计量W

uR,其中u i i .i ii1

i 0 其他这里显著性水平 0.05,n10,查表计算得:满足P(W

C )0.0545,则左侧临界点为0.051)

45101145102 2W{W

10}.而检测值W10uRi ii1

R 4W4故拒绝H ,接受H ,即认为有精神压力导致血压增加。0 1§4.3符号秩和检验统计量W期望与方差

的渐近正态性在总体X 的分布关于原点o对称时,u,u1 2

,un

相互独立,每一个ui

的分布都是P(ui

0)P(ui

1,i1,2,n.。而Sn iu2 i1

,则它的期望与方差分别为:E(S)

i1n21ni1

n(n1)4D(S)

n 21 i14i1

n(n1)(2n1).24由于W与S 有相同的分布,所以n(n1)E(W)(2)渐近正态性

4n(n1)(2n1).244.5如果总体关于原点对称,则在样本容量n趋于无穷大时,W

有渐近正态性:WE(W)

D(W)Wn(nD(W)Wn(n1)4n(n1)(2n1)24W

~Nn(n1)4,n(n1)(2n1)24.§4.4 平均秩法平均秩的基本定义:即对于相同的样本取平均秩。每个元素赋予平均秩为:(r1)(r2)(r)

r(r1)2平均时的秩和与平方和为[r(1)2][r(1)2][r(1)2][r(1)2],(4.8)[r(1)2]2[r(1)2]2[r(1)2]2[r(1)2]2,(4.9)非平均的时候秩和与平方和为(r1)(r2)(r)[r(1)2],(4.10)(r1)2(r2)2(r)2r2r(1)(1)(21)6,(4.11)(4.8)与(4.10)结果一样。由(4.11)减去(4.9)得到[r(1)2]2(r1)2(r2)2(r)2(3)12,(4.12)于是由(4.11)与(4.12)得:n a(i)12nn(n1),(4.13)2i1n

a2i)222n2g

j

)ji1

n(n1)(2n1)

j

12)j ,(4.14)6 124.6在总体的分布关于原点o对称,有结秩取平均时,n(n1)E(W)

, (4.15)4

n(n1)(2n1)g24

(3j48

)j ,(4.16)在有结的情况下,如果总体关于原点对称,则在样本容量n趋于无穷大时,W有渐近正态性: g W~Nn(n1)4,n(n1)(2n1)24 (3)48j j严格上以上期望与方差是在有结的情况下的计算结果,所以严格书写应该按照以下方式:E(W

,1

,,)g

n(n1),4

(4.15)n(n1)(2n1)

g (3)D(W

,,,

) j j ,(4.16)1 2 g

24 48§4.5对称中心的检验问题有以下几种情形:原假设与备择假设为H :0 H :0 H :0

H:1 0H:1 0H:1 04.5:通常认为人在放松条件下入睡的时间比紧张状态下的入睡时间要少两分钟,现在有十名男性,他们在放松下与紧张状态下的入睡时间分别为x与y,i idxi

y,表4.10108个小与-2,只有2个不小于-2,所以我们i2分钟,这个猜测是否正确?研究对象iiiii研究对象iiiiiiiiii放松条件非放松条件差值差值+2绝对值秩xydxycd2cR11015-5-3372912-3-11331222-10-88104815-7-5595910-111367702267816-6-4488710-3-11391114-3-1131069-3-11310 1 c0符号秩和检测值为W

uR369, u i原假设与备择假设为

i ii1

i 0 其他H :2 H:20 1左侧拒绝域为W{W10}.而检测值W10uRi ii1

369W故拒绝H 接受H 即认为成年男性在放松条件下入睡的时间比紧张状态下入0 12分钟。由于样本容量n足够大的时候,W

测。原假设与备择假设为H :2 H:20 1 g 在H 为真的时,W

~Nn(n1)4,n(n1)(2n1)24

)48即W

0

j j检测值为:W

10uRi ii1

369pP(W

9)(9.527.5 93.75)0.0315110.05下,检测值落入拒绝域故拒绝H 接受H 即认为成年男性在放松条件下入睡的时间比紧张状态下入0 12分钟。§5.1Mood中位数检验法2哪一个企业职工的工资高?1.3两个企业职工的工资11112131415161718 19 20 406023456789103050他们的合样本为3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18.19,2030,40,50,60,其中带[]21的工资,合样本的中位数13.5,将以上数据转化为四表格5.1四格表工资工资<13.5千元工资>13.5千元合计1N 311N 912N1122N8N21222N 102合计N11N1211N 3111111N N P 11

11 2212 12

,这说明N11服从超几何分布MNMknk P(Xk) Nn n

,n}E(X)nMNX和Y的中位数分别为mex

和mey原假设与备择假设为H :me me0 x

H:me me1 x y在H 成立的情况下,N 服从超几何分布h(N ,12,11,22)0 11 11这是一个单侧检验问题,拒绝域在左边.N11

3P值为P(N11

3)P(N11

1)P(N11

2)P(N11

1.71050.0009360.0140340.014987 0.05所以检测值N 3落入拒绝域,11故拒绝H ,接受H ,即认为企业1的职工比企业2的职工的工资要高。0 1§5.2 Wilcoxon秩和检验法xx1 2

,,xN

,不妨设总体是连续的随机变量,从而可1以以概率为保证样本单元xx11 2

,,xN

互不相等,则单个的秩N服从均匀分布:iP(Ri

r)1,r1,2,,N,N由以上结论,我们可以得出5.1对任意的i1,2,N都有E(RiD(Ri

)(N1),2)(N21).12证明:对于任意的i1,2, ,N,,都有E(Ri

)N

rP(Ri

r)

1N rN

(N1),2E(R2)

r2P(Rr)

1

(N1)(2N1).i i N

6 D(R)E(R2)(E(R

))2

(N1)(2N1)N12i i N21.12

6 2 5.2对于任意的1ijN,都有(N1)Cov(R,Ri j

) .12证明:对于任意的1ijN,都有 rrE(RR) rrP(R

r,R r)

12 .i j 12rr

i 1 j 2

rr

N(N1)1 2 2

1 2N(N1)2

N(N1)(2N1)rr r

121 rr r 1

2 6N(N1)(3N2)(N1),12 rr (N1)(3N2)E(RR)

12 .i jrr

N(N1) 121 2所以Cov(R,Ri j

)E(RRi j

)E(Ri

)E(R)j(N1)(3N2)

12 12(N1).12

2 5.22 Wilcoxon 秩和检验的求解过程例1.222名职工合在一起,从小到大排序得到下表:[3][4][5][6][7][8][9][10]111213123456789101114151617181920[30]40[50]601213141516171819202122工资秩工资秩带[]2的工资,不带[]1工资秩工资秩考虑到人数多的检验效果一样,所以一般我们选择人数少的企业的秩和作检验。12的中位数分别为mex

和mey原假设与备择假设为H:me0

mey

H:me1

mey选取统计量W2

,这里W2

2的员工工资的秩和。W 123456781921662这是一个单侧检验问题,拒绝域在左边.查表得:P(W 76)0.0052p值P(W2

66)P(W2

76)0.005 0.05故检测值在拒绝域,所以拒绝原假设H0,接受备择假设H1,21要低.§5.3Wilcoxon秩和检验统计量的性质xx1 2

,,xm

yy1

,,yn

分别来自相互独立的连续随机变量总体X和Yxx1 2

,,xm

,y,y1

,,yn各元素互不相同,样本容量为mn,原假设H :X和Y同分布.0记y(j1,2,,n)在合样本中的秩为R(R 1,2,,N)在原假设H 为真j j j 0(RR1 2

,Rn

服从均匀分布:所以P(R1

r,R1

r,R2

r)n

1 ,N(N1)(Nn1)记Y 的样本y,y1 2

,,yn

的秩和为nW Rny j下面讨论Wilcoxon秩和统计量的分布性质n(n1),

n(n1)

n(n1)

2,n(n1)

mn它依次取 2 2 2 2由于(RR1

,Rn

服从均匀分布:所以Wy

具有以下性质性质5.1设原假设H :X和Y同分布成立,W的概率分布和累积概率分别为0 yP(W

d)P(

d)

tm,n

(d)ny i Nni1 nP(W

d)P(

Rd)

tid

m,n

(i)y i Nni1 n dn(n1),n(n1)1,n(n1)2,n(n1)mn,2 2 2 2tm,n(d为从1,2,mn取n数,其和恰好为d的取法数。从1,2,,2210个数,其和恰好为d的取法121055故t故

1291156故t故

1281011571291257故t故12,10

(57)212791011581281012581291358故t故12,10

126891011591267910125912678111259126781013591267891459故t故12,10

假设从1,2,Nnaa1 2

,,an

n(N1dd的取法数与和为n(N1d的取法数一样多。从而P(W d)P(W n(N1)d)y yP(Wy

d)P(Wy

n(N1)d)故Wy

n(n1) n(n1) n(n1)d , 1, 2 2 2n(N1)概率密度的对称轴为 2 .从而有

n(N1) n(N1)P(W y

d)P(W2

d)2n(N1) n(N1)P(W y

d)P(W2

d)22

n(N1)5.2H5.15.2知

为真的条件下,W0

概率密度的对称轴为 2 .E(W

R)nE(R

)n

N1

n(N1)yD(Wy

i1)D(n

iR)i

iD(Ri

2 2Cov(R,R)i ji1 i1 1ijnnD(Ri

)n(n1)Cov(R,R)1 2nN21n(n1)(N1)12 12n(N1)(Nn)nm(N1).12 12H0为真的条件下,当nm时,Wy有渐进正态性.由以上分析,有以下结论.性质5.4在原假设H 为真的条件下,当n,m时,有0W D(WD(W)ymn(N1)2

Wy

n(N1)2

§5.2.4Wilcoxon秩和检验的备择假设原假设与备择假设为H :X和Y同分布 H0

:P(XY)121H :X和Y同分布 H0

:P(XY)21H :X和Y同分布 H0 1

:P(XY)2yH1:PXY)2成立的条件下,Wy1

的值较小.H:P(XY)在1

2成立的条件下,Wy1

的值较大.H1PXY)

2成立的条件下,Wy

的值可能较小也可能较大.§5.2.5 Wilcoxon秩和检验的平均秩法对于任意的记分函数,我们有定理5.6xx

, ,x

xa(R

,则1 2 N i i对于任意的1ijN,都有E(a(Ri

))aD(a(Ri

))

Ni1

2(a(i)a)Cov(a(Ri

),a(aj

1N(N1)

i1

2(a(i)a)证明:Cov(a(R),a(R))E(a(R)a(R))E(a(R))E(a(R))i j j i j 1N(N1)

ij

a(i)a(j)a22aa N aN a22i jij又

i1

i ii1N(Na)2故

a2ii1Cov(a(Ri

),a(Rj

))E(a(Ri

)a(Rj

))E(a(Ri

))E(a(R))j( 1

1)a2

1

a2(i)N1 N(N1)

i1 1N(N1)

Ni1

2(a(i)a)定理5.7xx1 2

,,xm

y,y1

,,yn

分别来自相互独立的连续型随机变量总体X 和Y .令Nmn,记y(j1,2,,n)在合样本中的秩为jR(Rj

1,2,,N)设有计分函数a(r)(r1,2,,N)则在X 和Y 同分布时有E(ni1

a(R))naiD(ni1

a(Ri

nmN(N1)

Ni1

2(a(i)a)D(n a(R))n D(a(R))n(nCov(a(R),a(R))利用 i i 1 2i1 i1

证明。D(n

a(Ri

))

D(a(Ri

))n(n1)Cov(a(R1

),a(R))2i1 i1nN

(a(i)a)2

n(n)N(N1)

(a(i)a)2i1 i1nmN

(a(i)a)2i1针对有结的情况下,在a(Ri

)Ri

下,由(4.13)(4.14)1a N1Ni1

a(i)

N122N (ai)a)2

a2(i)Na2i1 i1N(N)(2N)g 3)

N126N(N1)(N1)

jg j

j12)j

N 2 12 12ii于是 E(a(R

))a

N12

(5.4)D(a(Ri

))NNi1

(a(i)a)2N2

1

j

)j

(5.5)12 12Nj1Cov(a(Ri

),a(Rj

))

1N(N1)

Ni1

(a(i)a)2jN1g j

)j

(5.6)12

12N(N1)在有结的情况下,wilcoxon秩和检验统计量W 的期望与方差分别为y由以上结论,有nW a(R)ny ii1

N1 n(N1)E(Wy

)nan 2 2y

nmN(N1)

Ni1

(a(i)a)2nm(N) nm

(3)12 12N(N1)

j jj1W ~N(E(Wy

), D(W))y5.2.5为了比较两种型号的汽车每加仑汽油的行驶里程,合样本中的秩见表如下:汽车行驶里程(英里)秩序汽车行驶里程(英里)秩序120.621121.324219.916217.64318.68317.43418.911418.57518.89.5519.713620.218621.123721.022717.32820.519.5818.89.5919.814.5917.851019.814.51016.911119.2121118.061220.519.51220.117第一种型号汽油第二种型号汽油解;第一种型号汽油第二种型号汽油H :X和Y同分布0

H:P(XY)11 21选取统计量W1

12i1

a(R)12 Ri ii1则W~N(E(W1

), D(W1

))N(150,299.61)1检测值W1

12 Rii1

185.5这是一个双侧检验问题,拒绝域在两侧P值2P(W1

185.5)0.04 0.05故检测值落入拒绝域,所以拒绝原假设H ,接受备择假设H ,0 1即对于每加仑汽油汽车行驶的里程数不相同,而且认为对于每加仑汽油,第一种汽油行驶的里程数大。§5.2.5 Wilcoxon秩和处理位置参数差的检验问题原假设与备择假设为H :a0H :a0H :a0

H :a1H :a1H :a1原假设与备择假设为H :me0 H :me0 H :me0

me yme yme y

H :me1 H :me1 H :me1

me yme yme y以上检测均可用Wilcoxon秩和处理.74-77的Mann-WhitneyU统计量检验法与Wilcoxon检验法类似,因为两种检测统计量只相差一个常数,故检测模式类似,这里就不做详细介绍.§5.4 两样本尺度参数的秩检验法X和Y的分布函数分别为F(x)和Gy)Gy)Fyb),成立的充分必要条件由bXdY知,对于任意的y都有G(y)P(Yy)P(bXy)P(Xyb)F(yb)必要性的证明.若对任意y都有G(y)F(yb),则由于bX 的分布函数P(bXx)P(Xxb)F(xb)G(x)P(Yx)所以bXdY.当b1时GG(x)F(x)P(Yc)P(bXc)P(XP(Yc)P(bXc)P(X

c)P(Xc),c0bc)P(Xc),c0bP(Yc)PXcc0P(Yc)PXcc0P(Yc)PXcc0由以上式子知:YX要大.y,y1 2

,,yn

xx1 2

,,xm

倾向于排中间。类似的当0b1时,P(Yc)P(bXc)P(XP(Yc)P(bXc)P(X既有

c)P(Xc),c0bc)P(Xc),c0bP(Yc)P(Xc),c0P(Yc)P(Xc),c0由以上式子知:YX要小.y,y1 2

,,yn

xx1 2

,,xm

倾向于排两边。§5.4.2尺度参数检验问题(1)Mood检验a(r)

a(r)r

N12,r,,,N2 (2)Ansari-Bradley检验

N12N12取计分函数a(r)为单峰函数,a(r) 2 r

r ,r1,2,3,,Nr1,2,k,即在N2k时,a(r)N1r rk1,k2,,N; r r1,2,k1,即在N2k1时,a(r)N1r rk2,k3,,N;例如N8时1234567812344321ra(r)rara(r)ra(r)123456789123454321记Anri1

a(R)i(3)siegel-Turkey检验a(r为单谷函数,被减序列为0,3,4 7,8 11,12 10,9 6.5,2,1例如N9123456789965213478ra(r)记S ra(r)yi1

a(R)i (4)Klotz 取a(r)为单谷函数a(r)1(rN1)2,r1,2, ,N.记K yi1

a(R)i5.14尺度参数检验问题的解H0被择假设H何种情况拒绝原假设1b1M A比较小y yX和Y同分布S 比较大,M 比较大y yb1MyA比较大yS比较小,M 比较小y yb1M A比较大或比较小y yS 比较大或比较小,M 比较大或比较小y y尺度检验的引例:尺度检验.ppt尺度检验.ppt第六章多样本问题§6.1Kruskal-Waillis检验6.1某公司的管理人员来自三所大学,年度评分如下:A大学B大学C大学84755872657875808095556272956590697275426.3各组秩的均值的计算AA大学B大学C大学1712395.5141215.515.519.524919.55.51879121R 96.51R13.791R 61.5R 96.51R13.791R 61.52R 10.252R 523R7.433ii原假设与备择假设分别为H :0 1

,k

H:,1 1

,,k

不全相等总的秩的均值为R组间平方和为

96.561.55210.520n 2SSB n(Ri i

R)i17(13.7910.5)26(10.2510.5)27(7.4310.5)2142.118引入统计量H 12

SSB

12 142.1184.06N(N1) 20211由于(n1

,n,n2

)(7,6,7Kruskal-Waillis检验临界值表中查不到,考虑到当nH~2(k1)2(2),所以用2检验PP(

2(2)4.06)0.1313360.05P员的管理水平无显著性差异。§6.1.2 Kruskal-Wallis检验设样本各不相同。原假设与备择假设分别为H :0 1

,k

H :,1 1

,,k

不全相等,我们用ANOVA方法处理总均值为总偏差为SST

i

(R R)2ij

i

R2 NR2iji1 i1

N12

N(N21)

22

N2

N 2 12组间平方和SSB与组内平方和SSW分别为SSBk n(RR)2i i

n(Ri i

N1)22

(6.1)i1 i12

(R R)2ij ii1 由于

N(N21)SSWSSTSSB SSB12所以只需计算组间差SSB。选取统计量H 12

SSB

12

n(R

N1)2N(N1) N(N1)

i i 2i1 12 N(N1)

R2i

N(N1)2]4

6.2 12N(N1)

ni1 k R2in

( )3(N1),i1,2,k.i1 i§6.1.3 Kruskal-wallis检验统计量的渐进分布5.3知E(R

n) i

(N1)

与D(R

n) i

(Nni

)(N1)i 2 i 12(N1) (Nn)(N1)E(Ri)

与D(R2 i

i12niN1 (Nn)(N1)E(Ri所以

)2D(R)2 i

i12niE(SSB)

ki12

nE(Ri i

N1)22k

(Nnnin

)(N)N1

(Nn)ii1

12ni

12 ii1N(N1)(k1).12E(H) 12N(N1)

E(SSB) 12 N(N1)(k1)N(N1) 12时n时

k1.当min{nn1 2

,,nk

,且iN

(0,1).iKruskal-WaillisH渐进服从2(k1。即HL2(k)

(6.3)§6.1.4有相等观察值时Kruskal-wallis检验统计量的修正E(R )iD(R

n(N1)i2n(Nngi g

)(N1)n

(Nn

)

)/(12N(N1))iE(R)i

(N1)2(Nn

12)(N1)

i i i i1gD(R)i

i12n

(Nni

) (3i

i

N(N1))D(Ri

)E(Ri

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论