




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
非参数统计分析2023/5/81第1页,共70页,2023年,2月20日,星期四思考的要点
各种检验方法的思路各种检验方法统计量的构造各种检验方法的应用场合在SPSS与R中如何完成
2023/5/82第2页,共70页,2023年,2月20日,星期四第一节卡方检验第二节二项分布检验第三节单样本的KS检验第四节符号检验第五节Cox-Stuart趋势检验第六节游程检验第七节Wilcoxon符号秩检验2023/5/83第3页,共70页,2023年,2月20日,星期四第一节Chi-Squaretest卡方检验
卡方检验通常称为拟合优度检验。主要是通过样本观测值检验总体是否服从某个分布。如果数据是连续的,需要将连续的分布进行分段,计算每段的期望概率与观测到的频率之间是否差异很大。在SPSS中的Chi-Squaretest,主要是对离散的总体进行拟合优度检验。2023/5/84第4页,共70页,2023年,2月20日,星期四在实际问题中,会遇到必须了解总体的分布函数的时候,这时利用样本资料对总体的分布函数进行检验就成了非常重要的了。我们需要检验总体的分布函数F(x)是否等于某个给定的函数F0(x)
,可以根据经验来确定。其中含有未知参数时,应利用样本资料采用点估计求得后,再进行检验。
一、χ2拟合优度检验2023/5/85第5页,共70页,2023年,2月20日,星期四
【例1】某金融系统贷款的偿还类型有四种,各种的预期还率为80%、12%、7%和1%。在一段时间的观察记录中,A型按时偿还的有380笔、B型偿还有69笔、C型有43笔、D笔有8笔。问在5%显著性水平上,这些结果与预期的是否一致。α=0.05。解:这个问题属于要检验每一类型的出现概率与理论期望概率是否相等,即检验
2023/5/86第6页,共70页,2023年,2月20日,星期四根据显著性水平,有,由于表明5%的显著水平下,不能拒绝原假设,即观测的比率与期望的比率一致。类型A380400-204001.00B69609811.35C43358641.83D85391.80合计500500____5.982023/5/87第7页,共70页,2023年,2月20日,星期四(1)提出统计假设由统计假设出发,将总体取值范围分为m个互不相容的小区间:如果分布是连续的其检验步骤为:区间个数以7~14为宜。然后,统计出每个区间内样本点的数目fi,再用pi表示变量在第i个区间的概率,2023/5/88第8页,共70页,2023年,2月20日,星期四在原假设为真的条件下,这个统计量近似地服从具有m1r个自由度的χ2
分布,其中r是需要用样本来估计的总体的未知参数的数目,若没有未知参数需要估计,则r为零。(2)选择适当统计量2023/5/89第9页,共70页,2023年,2月20日,星期四(3)由给定的显著性水平,查表确定临界值
(这种检验是右侧检验)。(4)利用样本值计算实际频数,再计算经验概率,据以计算的值(5)作结论,若,则拒绝原假设,即认为总体的分布函数不为;反之,则接受原假设,即认为总体的分布函数为。2023/5/810第10页,共70页,2023年,2月20日,星期四
卡方检验的窗口,SPSS的卡方检验主要用来检验离散随机变量的分布。2023/5/811第11页,共70页,2023年,2月20日,星期四卡方检验的窗口。2023/5/812第12页,共70页,2023年,2月20日,星期四P值大于0.05,结果说明还贷情况与预期是一致的。2023/5/813第13页,共70页,2023年,2月20日,星期四【练习1】盒中有5种球,重复抽取200次(每次抽1个球)各种球出现的次数见下表。问盒中5种球的个数是否相等?显著水平α=0.05。种别fi123453540433844∑2002023/5/814第14页,共70页,2023年,2月20日,星期四二项分布检验(binomialtest)是通过考察二分类变量的每个类别中观察值的频数与特定二项分布下的期望频数之间是否存在显著差异,来判断抽取样本所依赖的总体是否服从特定概率为p的二项分布。二项分布检验的原假设是:抽取样本所依赖的总体与特定的二项分布无显著差异。如果检验的p值小于0.05,则拒绝原假设。第二节二项分布检验2023/5/815第15页,共70页,2023年,2月20日,星期四
【例2】根据以往的生产数据,某种产品的合格率为90%。现从中随机抽取25个进行检测,合格品为20个。检验该批产品的合格率是否为90%?(产品合格率X~B(n,0.9))SPSS的数据格式
表中的“1”表示合格品;“0”表示不合格品合格品频数120052023/5/816第16页,共70页,2023年,2月20日,星期四第1步:指定“频数”变量:点击【Data】【Weight-Cases】,将“频数”选入【FrequencyVariable】【OK】第2步:选择【Analyze】【NonparametricTests-Binomial】选项进入主对话框第3步:将待检验的变量选入【TestVariableList】(本例为“合格品”)第4步:在【TestProportion】中输入检验的概率
(本例为0.9),点击【OK】(SPSSbinomialtest)2023/5/817第17页,共70页,2023年,2月20日,星期四SPSS的输出结果
表中的合格品的观察比例为0.8,检验比例为0.9。精确单尾概率为0.098,它表示如果该批产品的合格率为0.9,那么25个产品中合格品数量小于等于20个的概率为0.098。P>0.05,不拒绝原假设,没有证据表明该批产品的合格率不是0.92023/5/818第18页,共70页,2023年,2月20日,星期四【练习2】
某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?2023/5/819第19页,共70页,2023年,2月20日,星期四单样本的K-S检验(Kolmogorov-Smirnov检验)是用来检验抽取样本所依赖的总体是否服从某一理论分布。其方法是将某一变量的累积分布函数与特定的分布进行比较。设总体的累积分布函数为F(x),已知的理论分布函数为F0(x),则检验的原假设和备择假设为
H0:F(x)=F0(x);H1:F(x)≠F0(x)
原假设所表达的是:抽取样本所依赖的总体与指定的理论分布无显著差异。
SPSS提供的理论分布有正态分布、Poisson分布、均匀分布、指数分布等。第三节总体分布类型的KS检验2023/5/820第20页,共70页,2023年,2月20日,星期四检验统计量当H0成立且无抽样误差时,统计量D等于0。因此:当D的实际观测值较小时,可以认为零假设H0成立;当D的观测值较大时,则零假设H0可能不成立。其中Fn(x)称为经验分布。假定有样本1,1,2,2,2,4,5,5,5,10。其经验分布为2023/5/821第21页,共70页,2023年,2月20日,星期四
【例3】对某汽车配件提供商提供的10个样本进行检测,得到其长度数据如下(单位:cm)
检验该供货商生产的配件长度是否服从正态分布?(=0.05)总体分布类型的检验
(K-S检验)12.210.812.011.811.912.411.312.212.012.32023/5/822第22页,共70页,2023年,2月20日,星期四第1步:选择【Analyze】【NonparametricTest】【1-SampleK-S】进入主对话框;第2步:将待检验的变量选入【TestVariableList】(本例为“配件长度”);第3步:点击【Exact】,并在对话框中选择
【Exact】,点击【OK】。总体分布类型的检验
(SPSSK-S检验)2023/5/823第23页,共70页,2023年,2月20日,星期四正态分布均匀分布指数分布波松分布2023/5/824第24页,共70页,2023年,2月20日,星期四SPSS的输出结果
精确双尾概率为0.602>0.05,不拒绝原假设。没有证据表明该供货商提供的汽车配件长度不服从正态分布2023/5/825第25页,共70页,2023年,2月20日,星期四【练习3】
某市记录了91天市区内发生交通事故的分布情况如下:一天发生的事故数0123456及以上天数2035168750利用SPSS检验该数据可能的分布。用SPSS,在正态、均匀、指数和泊松分布中选择。2023/5/826第26页,共70页,2023年,2月20日,星期四符号检验的统计量为B=得正号的个数。符号检验。设随机变量X1,…,Xn是从某个总体X中抽出的简单随机样本。且分布函数F(X)在X=0是连续的。假设检验问题检验的统计量可以取B。第四节符号检验在原假设为真的条件下,B服从参数为n和0.5的二项分布b(n,0.5)。由于原假设为真时,B应该不太大,也不太小,如果B太大或太小,应该拒绝原假设。2023/5/827第27页,共70页,2023年,2月20日,星期四
精确的符号检验是指检验的p值是由精确的概率给出的。我们利用正号和负号的数目,来检验某假设,这是一种最简单的非参数方法。
【例4】联合国人员在世界上71个大城市的生活花费指数(上海是44位,数据为63.5)按自小至大的次序排列如下。一、精确中位数的符号检验2023/5/828第28页,共70页,2023年,2月20日,星期四
有人说64应该是这种大城市花费指数的中位数,有人说64顶多是低位数(下四分位数),进行检验。数据如下:122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8,49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,36.4,32.7,32.7,32.2,29.1,27.8,27.82023/5/829第29页,共70页,2023年,2月20日,星期四2023/5/830第30页,共70页,2023年,2月20日,星期四通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t检验有关的方法进行的。然而,在本例中,总体分布是未知的。为此,首先看该数据的直方图从图中很难说这是什么分布。假定用总体中位数来表示中间位置,这意味着样本点,取大于me的概率应该与取小于me的概率相等。所研究的问题,可以看作是只有两种可能“成功”或“失败”。
2023/5/831第31页,共70页,2023年,2月20日,星期四符号检验的思路,记成功:X-0大于零,即大于中位数M,记为“+”;失败:X-0小于零,即小于中位数M,记为“-”。令S+=得正符号的数目
S-=得负符号得数目可以知道S+或S—均服从二项分布B(65,0.5)。则可以用来作检验的统计量。其假设为:2023/5/832第32页,共70页,2023年,2月20日,星期四关于非参数检验统计量需要说明的问题
在非参数检验中,可以得到两个相互等价的统计量,比如在符号检验中,得负号与得正好的个数,就是一对等价的统计量,因为S++S-=N。那么我们在检验时应该用那个呢?我们选择统计量2023/5/833第33页,共70页,2023年,2月20日,星期四假设检验统计量S-=28是得负号的个数得正号的个数43。P-值检验的结果拒绝零假设结论中位数大于642023/5/834第34页,共70页,2023年,2月20日,星期四该检验R的代码x<-c(122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8,49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,36.4,32.7,32.7,32.2,29.1,27.8,27.8)y=sum(sign(x-64)==1)pbinom(71-y,71,0.50)2023/5/835第35页,共70页,2023年,2月20日,星期四二、大样本的情形
当样本容量足够大,我们可以利用二项分布的正态近似来对该问题进行检验。因为计数统计量在原假设为真时,服从b(n,0.5)。且其均值为0.5n,方差为0.25n。则检验的统计量为
2023/5/836第36页,共70页,2023年,2月20日,星期四该检验SPSS完成步骤(这里是在借用)2023/5/837第37页,共70页,2023年,2月20日,星期四两相关样本检验的窗口2023/5/838第38页,共70页,2023年,2月20日,星期四
SPSS检验的结果:2023/5/839第39页,共70页,2023年,2月20日,星期四第四节Cox-Stuart趋势检验
人们经常要看某项发展的趋势.但是从图表上很难看出是递增,递减,还是大致持平.
【例5】我国自1985年到1996年出口和进口的差额(balance)为(以亿美元为单位)
—149.0119.737.777.5—66.087.480.543.5122.254.0167.0122.2从这个数字,我们能否说这个差额总的趋势是增长,还是减,还是都不明显呢?下图为该数据的点图.从图可以看出,总趋势似乎是增长,但1993年有个低谷;这个低谷能否说明总趋势并不是增长的呢?我们希望能进行检验.2023/5/840第40页,共70页,2023年,2月20日,星期四2023/5/841第41页,共70页,2023年,2月20日,星期四三种假设:
怎么进行这些检验呢?可以把每一个观察值和相隔大约n/2的另一个观察值配对比较;因此大约有n/2个对子.然后看增长的对子和减少的对子各有多少来判断总的趋势.具体做法为取和。这里2023/5/842第42页,共70页,2023年,2月20日,星期四
在这个例子中n=12,因而c=6。这6个对子为(x1,x7),(x2,x8),(x3,x9),(x4,x10),(x5,xl1),(x6,x12)。2023/5/843第43页,共70页,2023年,2月20日,星期四
用每一对的两元素差Di=xi-xi+c的符号来衡量增减。令S+为正Di=xi-xi+c的数目,而令S-为负的Di=xi-xi+c的数。显然当正号太多时,即S+很大时(或S-很小时),有下降趋势,反之,则有增长趋势.在没有趋势的零假设下它们应服从二项分布b(6,0.5),这里n为对子的数目(不包含差为0的对子)。该检验在某种意义上是符号检验的一个特例。2023/5/844第44页,共70页,2023年,2月20日,星期四
类似于符号检验,对于上面1,2,3三种检验,分别取检验统计量K=S+,K=S-和K=min(S+,S-)。在本例中,这6个数据对的符号为5负1正,所以我们不能拒绝原假设。假设统计量
P值K=min(S+,S-)P(K<k)K=min(S+,S-)P(K<k)K=min(S+,S-)2P(K<k)2023/5/845第45页,共70页,2023年,2月20日,星期四【例6】天津机场从1995年1月到2003年12月的108个月旅客旅客吞吐量数据如下:543794546155408597126077657635633357129670250768667556166427613305818667799763608620775509830208961475791808357217961520667266062968549733108071967759703528282570541746316893853318626535857863292695357337962859728738726067559766477059058935581616405763051588076366357367708547994966992801406226055942583675667361039749588585967263871839757579988885016860058442689555683567021815478511870145950801061868610388548700906555069223851388979999513981146817297366116820956651098818706875362882688518387909799762768750178100878131788116293120770104958109603讨论是否存在显著的增长趋势。2023/5/846第46页,共70页,2023年,2月20日,星期四2023/5/847第47页,共70页,2023年,2月20日,星期四SPSS无此检验,我们用R完成该检验,代码如下。x<-c(54379,45461,55408,59712,60776,57635,63335,71296,70250,76866,75561,66427,61330,58186,67799,76360,86207,75509,83020,89614,75791,80835,72179,61520,66726,60629,68549,73310,80719,67759,70352,82825,70541,74631,68938,53318,62653,58578,63292,69535,73379,62859,72873,87260,67559,76647,70590,58935,58161,64057,63051,58807,63663,57367,70854,79949,66992,80140,62260,55942,58367,56673,61039,74958,85859,67263,87183,97575,79988,88501,68600,58442,68955,56835,67021,81547,85118,70145,95080,106186,86103,88548,70090,65550,69223,85138,89799,99513,98114,68172,97366,116820,95665,109881,87068,75362,88268,85183,87909,79976,27687,50178,100878,131788,116293,120770,104958,109603)d=x[1:54]-x[55:108]y=sum(sign(d)==1)pbinom(y,54,0.5)
直接得到p值=0.001919<0.05,拒绝无趋势的原假设原假设。2023/5/848第48页,共70页,2023年,2月20日,星期四游程检验是样本的随机性检验,其用途很广。例如当我们要考察生产中次品出现是随机的,还是成群的,一个时间序列是平稳的还是非平稳的,模型的随机干扰项是否是白噪声等都可以通过游程检验来确定。第五节游程检验2023/5/849第49页,共70页,2023年,2月20日,星期四从生产线上抽取产品检验,是否应采用频繁抽取小样本的方法。在一个刚刚建成的制造厂内,质检员需要设计一种抽样方法,以保证质量检验的可靠性。生产线上抽取的产品可以分成两类,有瑕疵,无瑕疵。检验费用与受检产品数量有关。一般情况下,有毛病的产品如果是成群出现的,则要频繁抽取小样本,进行检验。如果有毛病的产品是随机产生的,则每天以间隔较长地抽取一个大样本。现随机抽了30件产品,按生产线抽取的顺序排列:0000111111111111110001111111检验瑕疵的产品是随机出现的吗?
有瑕疵的产品是随机出现有瑕疵的产品是成群出现2023/5/850第50页,共70页,2023年,2月20日,星期四随机抽取的一个样本,其观察值按某种顺序排列,如果研究所关心的问题是:被有序排列的两种类型符号是否随机排列,则可以建立双侧备择.假设组为H0:序列是随机的
H1:序列不是随机的(双侧检验)如果关心的是序列是否具有某种倾向,则应建立单侧备择,假设组为H0:序列是随机的
H1:序列具有混合的倾向(右侧检验)
H0:序列是随机的H1:序列具有成群的倾向(左侧检验)游程:连续出现的具有相同特征的样本点为一个游程。2023/5/851第51页,共70页,2023年,2月20日,星期四检验统计量。在H0为真的情况下,两种类型符号出现的可能性相等,其在序列中是交互的。相对于一定的m和n,序列游程的总数应在一个范围内。若游程的总数过少,表明某一游程的长度过长,意味着有较多的同一符号相连,序列存在成群的倾向;若游程总数过多,表明游程长度很短,意味着两个符号频繁交替,序列具有混合的倾向。选择的检验统计量为R=游程的总数目。
2023/5/852第52页,共70页,2023年,2月20日,星期四可以证明则2023/5/853第53页,共70页,2023年,2月20日,星期四
【例7】,在我国的工业和商业企业随机抽出22家进行资产负债率行业间的差异比较。有如下资料:这两个行业的负债水平是否相等。首先,设“1”为工业,“2”为商业,将两个行业的数据排序,得行业编号得游程:
1111121111222111222222工业647655825982707561647383商业77808065939184918486862023/5/854第54页,共70页,2023年,2月20日,星期四游程检验的菜单选择。2023/5/855第55页,共70页,2023年,2月20日,星期四2023/5/856第56页,共70页,2023年,2月20日,星期四
游程检验的结果:共有21个个案,12个小于1.4286,9个大于等于1.4286。游程6个。检验的统计量的值为-2.19,相应的渐近p值=0.029,则拒绝原假设。2023/5/857第57页,共70页,2023年,2月20日,星期四【例8】公司委托市场调查公司进行随机抽样调查。为了对调查表的真伪进行判断,市场调查公司按顺序抽取了20份问卷。其中消费者每年消费该公司的产品的花费数据如下表,分析问卷数据是否真实。用游程检验。样本编号12345678910消费额405205245465257234445375291291样本编号11121314151617181920消费额2612103052951252572601971601502023/5/858第58页,共70页,2023年,2月20日,星期四
检验结果说明p值=0.808,不能拒绝随机数据的原假设。2023/5/859第59页,共70页,2023年,2月20日,星期四第七节单样本的Wilcoxon符号秩检验一、Wilcoxon符号秩检验
前面几种推断的方法都只依赖于数据的符号,即方向。没有考虑数据的大小,Wilcoxon符号秩检验是检验关于中位数对称的总体的中位数是否等于某个特定值,检验的假设:2023/5/860第60页,共70页,2023年,2月20日,星期四检验的步骤:1.计算,它们代表这些样本点到的距离;2.把上面的n个绝对值排序,并找出它们的n个秩;如果有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4),然后分别将得正号的秩和得负号的秩相加。另指满足括号里的条件等于1,不满足等于零。2023/5/861第61页,共70页,2023年,2月20日,星期四
3.双
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二年级下册数学教案- 拨一拨 北师大版
- 2025年中学职务岗位聘用合同
- 五年级下册数学教案-6.5 图形与几何(平面图形的周长和面积(复习)) ▏沪教版
- 人教版数学三年级上册单元练习卷(易错题)-第五单元-倍的认识(含答案)
- 2024年快速热处理设备项目资金筹措计划书代可行性研究报告
- 2024年灌装包装设备项目投资申请报告代可行性研究报告
- 2025年广西金融职业技术学院单招职业技能测试题库审定版
- 2025年贵州建设职业技术学院单招职业倾向性测试题库带答案
- 2025届黑龙江省“六校联盟”高三上学期联考生物试题及答案
- 别墅家装保障合同范本
- 人教版小学六年级下册音乐教案全册
- 12J201平屋面建筑构造图集(完整版)
- 2024年个人信用报告(个人简版)样本(带水印-可编辑)
- 16J914-1 公用建筑卫生间
- 20CS03-1一体化预制泵站选用与安装一
- (完整版)四年级上册数学竖式计算题100题直接打印版
- Opera、绿云、西软、中软酒店管理系统对比分析
- 楚才办公室装修设计方案20140315
- 人教版八年级(上册)物理习题全集(附答案)
- 电影院影务岗位工作流程
- 毕业论文牛仔布染色工艺和质量控制
评论
0/150
提交评论