第二章非参数统计分析讲解_第1页
第二章非参数统计分析讲解_第2页
第二章非参数统计分析讲解_第3页
第二章非参数统计分析讲解_第4页
第二章非参数统计分析讲解_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

其次章

单样本非参数检验2023/3/21思索的要点各种检验方法的思路各种检验方法统计量的构造各种检验方法的应用场合在SPSS与R中如何完成

2023/3/22第一节卡方检验其次节二项分布检验第三节单样本的KS检验第四节符号检验第五节Cox-Stuart趋势检验第六节游程检验第七节Wilcoxon符号秩检验2023/3/23第一节Chi-Squaretest卡方检验卡方检验通常称为拟合优度检验。主要是通过样本观测值检验总体是否听从某个分布。假如数据是连续的,须要将连续的分布进行分段,计算每段的期望概率与观测到的频率之间是否差异很大。在SPSS中的Chi-Squaretest,主要是对离散的总体进行拟合优度检验。2023/3/24在实际问题中,会遇到必需了解总体的分布函数的时候,这时利用样本资料对总体的分布函数进行检验就成了特别重要的了。我们须要检验总体的分布函数F(x)是否等于某个给定的函数F0(x),可以依据阅历来确定。其中含有未知参数时,应利用样本资料接受点估计求得后,再进行检验。一、χ2拟合优度检验2023/3/25【例1】某金融系统贷款的偿还类型有四种,各种的预期还率为80%、12%、7%和1%。在一段时间的视察记录中,A型按时偿还的有380笔、B型偿还有69笔、C型有43笔、D笔有8笔。问在5%显著性水平上,这些结果与预期的是否一样。α=0.05。解:这个问题属于要检验每一类型的出现概率与理论期望概率是否相等,即检验

2023/3/26依据显著性水平,有,由于表明5%的显著水平下,不能拒绝原假设,即观测的比率与期望的比率一样。类型A380400-204001.00B69609811.35C43358641.83D85391.80合计500500____5.982023/3/27(1)提出统计假设由统计假设动身,将总体取值范围分为m个互不相容的小区间:假如分布是连续的其检验步骤为:区间个数以7~14为宜。然后,统计出每个区间内样本点的数目fi,再用pi表示变量在第i个区间的概率,2023/3/28在原假设为真的条件下,这个统计量近似地听从具有m1r个自由度的χ2分布,其中r是须要用样原来估计的总体的未知参数的数目,若没有未知参数须要估计,则r为零。(2)选择适当统计量2023/3/29(3)由给定的显著性水平,查表确定临界值

(这种检验是右侧检验)。(4)利用样本值计算实际频数,再计算阅历概率,据以计算的值(5)作结论,若,则拒绝原假设,即认为总体的分布函数不为;反之,则接受原假设,即认为总体的分布函数为。2023/3/210卡方检验的窗口,SPSS的卡方检验主要用来检验离散随机变量的分布。2023/3/211卡方检验的窗口。2023/3/212P值大于0.05,结果说明还贷状况与预期是一样的。2023/3/213

【练习1】盒中有5种球,重复抽取200次(每次抽1个球)各种球出现的次数见下表。问盒中5种球的个数是否相等?显著水平α=0.05。种别fi123453540433844∑2002023/3/214二项分布检验(binomialtest)是通过考察二分类变量的每个类别中视察值的频数与特定二项分布下的期望频数之间是否存在显著差异,来推断抽取样本所依靠的总体是否听从特定概率为p的二项分布。二项分布检验的原假设是:抽取样本所依靠的总体与特定的二项分布无显著差异。假如检验的p值小于0.05,则拒绝原假设。其次节二项分布检验2023/3/215【例2】依据以往的生产数据,某种产品的合格率为90%。现从中随机抽取25个进行检测,合格品为20个。检验该批产品的合格率是否为90%?(产品合格率X~B(n,0.9))SPSS的数据格式

表中的“1”表示合格品;“0”表示不合格品合格品频数120052023/3/216第1步:指定“频数”变量:点击【Data】【Weight-Cases】,将“频数”选入【FrequencyVariable】【OK】第2步:选择【Analyze】【NonparametricTests-Binomial】选项进入主对话框第3步:将待检验的变量选入【TestVariableList】(本例为“合格品”)第4步:在【TestProportion】中输入检验的概率

(本例为0.9),点击【OK】(SPSSbinomialtest)2023/3/217SPSS的输出结果

表中的合格品的视察比例为0.8,检验比例为0.9。精确单尾概率为0.098,它表示假如该批产品的合格率为0.9,那么25个产品中合格品数量小于等于20个的概率为0.098。P>0.05,不拒绝原假设,没有证据表明该批产品的合格率不是0.92023/3/218【练习2】某地某一时期内诞生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。问这个地方诞生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?2023/3/219单样本的K-S检验(Kolmogorov-Smirnov检验)是用来检验抽取样本所依靠的总体是否听从某一理论分布。其方法是将某一变量的累积分布函数与特定的分布进行比较。设总体的累积分布函数为F(x),已知的理论分布函数为F0(x),则检验的原假设和备择假设为H0:F(x)=F0(x);H1:F(x)≠F0(x)原假设所表达的是:抽取样本所依靠的总体与指定的理论分布无显著差异。SPSS供应的理论分布有正态分布、Poisson分布、匀整分布、指数分布等。第三节总体分布类型的KS检验2023/3/220检验统计量当H0成立且无抽样误差时,统计量D等于0。因此:当D的实际观测值较小时,可以认为零假设H0成立;当D的观测值较大时,则零假设H0可能不成立。其中Fn(x)称为阅历分布。假定有样本1,1,2,2,2,4,5,5,5,10。其阅历分布为2023/3/221【例3】对某汽车配件供应商供应的10个样本进行检测,得到其长度数据如下(单位:cm)

检验该供货商生产的配件长度是否听从正态分布?(=0.05)总体分布类型的检验

(K-S检验)12.210.812.011.811.912.411.312.212.012.32023/3/222第1步:选择【Analyze】【NonparametricTest】【1-SampleK-S】进入主对话框;第2步:将待检验的变量选入【TestVariableList】(本例为“配件长度”);第3步:点击【Exact】,并在对话框中选择

【Exact】,点击【OK】。总体分布类型的检验

(SPSSK-S检验)2023/3/223正态分布匀整分布指数分布波松分布2023/3/224SPSS的输出结果精确双尾概率为0.602>0.05,不拒绝原假设。没有证据表明该供货商供应的汽车配件长度不听从正态分布2023/3/225【练习3】某市记录了91天市区内发生交通事故的分布状况如下:一天发生的事故数0123456及以上天数2035168750利用SPSS检验该数据可能的分布。用SPSS,在正态、匀整、指数和泊松分布中选择。2023/3/226符号检验的统计量为B=得正号的个数。符号检验。设随机变量X1,…,Xn是从某个总体X中抽出的简洁随机样本。且分布函数F(X)在X=0是连续的。假设检验问题检验的统计量可以取B。第四节符号检验在原假设为真的条件下,B听从参数为n和0.5的二项分布b(n,0.5)。由于原假设为真时,B应当不太大,也不太小,假如B太大或太小,应当拒绝原假设。2023/3/227精确的符号检验是指检验的p值是由精确的概率给出的。我们利用正号和负号的数目,来检验某假设,这是一种最简洁的非参数方法。【例4】联合国人员在世界上71个大城市的生活花费指数(上海是44位,数据为63.5)按自小至大的次序排列如下。一、精确中位数的符号检验2023/3/228有人说64应当是这种大城市花费指数的中位数,有人说64顶多是低位数(下四分位数),进行检验。数据如下:122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8,49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,36.4,32.7,32.7,32.2,29.1,27.8,27.82023/3/2292023/3/230通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t检验有关的方法进行的。然而,在本例中,总体分布是未知的。为此,首先看该数据的直方图从图中很难说这是什么分布。假定用总体中位数来表示中间位置,这意味着样本点,取大于me的概率应当与取小于me的概率相等。所探讨的问题,可以看作是只有两种可能“成功”或“失败”。

2023/3/231符号检验的思路,记成功:X-0大于零,即大于中位数M,记为“+”;失败:X-0小于零,即小于中位数M,记为“-”。令S+=得正符号的数目S-=得负符号得数目可以知道S+或S—均听从二项分布B(65,0.5)。则可以用来作检验的统计量。其假设为:2023/3/232关于非参数检验统计量须要说明的问题在非参数检验中,可以得到两个相互等价的统计量,比如在符号检验中,得负号与得正好的个数,就是一对等价的统计量,因为S++S-=N。那么我们在检验时应当用那个呢?我们选择统计量2023/3/233假设检验统计量S-=28是得负号的个数得正号的个数43。P-值检验的结果拒绝零假设结论中位数大于642023/3/234该检验R的代码x<-c(122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5,89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9,77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2,67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5,62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8,49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5,36.4,32.7,32.7,32.2,29.1,27.8,27.8)y=sum(sign(x-64)==1)pbinom(71-y,71,0.50)2023/3/235二、大样本的情形当样本容量足够大,我们可以利用二项分布的正态近似来对该问题进行检验。因为计数统计量在原假设为真时,听从b(n,0.5)。且其均值为0.5n,方差为0.25n。则检验的统计量为

2023/3/236该检验SPSS完成步骤(这里是在借用)2023/3/237两相关样本检验的窗口2023/3/238

SPSS检验的结果:2023/3/239第四节Cox-Stuart趋势检验人们常常要看某项发展的趋势.但是从图表上很难看出是递增,递减,还是大致持平.【例5】我国自1985年到1996年出口和进口的差额(balance)为(以亿美元为单位)—149.0119.737.777.5—66.087.480.543.5122.254.0167.0122.2从这个数字,我们能否说这个差额总的趋势是增长,还是减,还是都不明显呢?下图为该数据的点图.从图可以看出,总趋势似乎是增长,但1993年有个低谷;这个低谷能否说明总趋势并不是增长的呢?我们希望能进行检验.2023/3/2402023/3/241三种假设:

怎么进行这些检验呢?可以把每一个视察值和相隔大约n/2的另一个视察值配对比较;因此大约有n/2个对子.然后看增长的对子和削减的对子各有多少来推断总的趋势.具体做法为取和。这里2023/3/242在这个例子中n=12,因而c=6。这6个对子为(x1,x7),(x2,x8),(x3,x9),(x4,x10),(x5,xl1),(x6,x12)。2023/3/243用每一对的两元素差Di=xi-xi+c的符号来衡量增减。令S+为正Di=xi-xi+c的数目,而令S-为负的Di=xi-xi+c的数。明显当正号太多时,即S+很大时(或S-很小时),有下降趋势,反之,则有增长趋势.在没有趋势的零假设下它们应听从二项分布b(6,0.5),这里n为对子的数目(不包含差为0的对子)。该检验在某种意义上是符号检验的一个特例。2023/3/244类似于符号检验,对于上面1,2,3三种检验,分别取检验统计量K=S+,K=S-和K=min(S+,S-)。在本例中,这6个数据对的符号为5负1正,所以我们不能拒绝原假设。假设统计量

P值K=min(S+,S-)P(K<k)K=min(S+,S-)P(K<k)K=min(S+,S-)2P(K<k)2023/3/245

【例6】天津机场从1995年1月到2003年12月的108个月旅客旅客吞吐量数据如下:543794546155408597126077657635633357129670250768667556166427613305818667799763608620775509830208961475791808357217961520667266062968549733108071967759703528282570541746316893853318626535857863292695357337962859728738726067559766477059058935581616405763051588076366357367708547994966992801406226055942583675667361039749588585967263871839757579988885016860058442689555683567021815478511870145950801061868610388548700906555069223851388979999513981146817297366116820956651098818706875362882688518387909799762768750178100878131788116293120770104958109603探讨是否存在显著的增长趋势。2023/3/2462023/3/247SPSS无此检验,我们用R完成该检验,代码如下。x<-c(54379,45461,55408,59712,60776,57635,63335,71296,70250,76866,75561,66427,61330,58186,67799,76360,86207,75509,83020,89614,75791,80835,72179,61520,66726,60629,68549,73310,80719,67759,70352,82825,70541,74631,68938,53318,62653,58578,63292,69535,73379,62859,72873,87260,67559,76647,70590,58935,58161,64057,63051,58807,63663,57367,70854,79949,66992,80140,62260,55942,58367,56673,61039,74958,85859,67263,87183,97575,79988,88501,68600,58442,68955,56835,67021,81547,85118,70145,95080,106186,86103,88548,70090,65550,69223,85138,89799,99513,98114,68172,97366,116820,95665,109881,87068,75362,88268,85183,87909,79976,27687,50178,100878,131788,116293,120770,104958,109603)d=x[1:54]-x[55:108]y=sum(sign(d)==1)pbinom(y,54,0.5)干脆得到p值=0.001919<0.05,拒绝无趋势的原假设原假设。2023/3/248游程检验是样本的随机性检验,其用途很广。例如当我们要考察生产中次品出现是随机的,还是成群的,一个时间序列是平稳的还是非平稳的,模型的随机干扰项是否是白噪声等都可以通过游程检验来确定。第五节游程检验2023/3/249从生产线上抽取产品检验,是否应接受频繁抽取小样本的方法。在一个刚刚建成的制造厂内,质检员须要设计一种抽样方法,以保证质量检验的牢靠性。生产线上抽取的产品可以分成两类,有瑕疵,无瑕疵。检验费用与受检产品数量有关。一般状况下,有毛病的产品假如是成群出现的,则要频繁抽取小样本,进行检验。假如有毛病的产品是随机产生的,则每天以间隔较长地抽取一个大样本。现随机抽了30件产品,按生产线抽取的依次排列:0000111111111111110001111111检验瑕疵的产品是随机出现的吗? 有瑕疵的产品是随机出现有瑕疵的产品是成群出现2023/3/250随机抽取的一个样本,其视察值按某种依次排列,假如探讨所关切的问题是:被有序排列的两种类型符号是否随机排列,则可以建立双侧备择.假设组为H0:序列是随机的H1:序列不是随机的(双侧检验)假如关切的是序列是否具有某种倾向,则应建立单侧备择,假设组为H0:序列是随机的H1:序列具有混合的倾向(右侧检验)

H0:序列是随机的H1:序列具有成群的倾向(左侧检验)游程:连续出现的具有相同特征的样本点为一个游程。2023/3/251检验统计量。在H0为真的状况下,两种类型符号出现的可能性相等,其在序列中是交互的。相对于确定的m和n,序列游程的总数应在一个范围内。若游程的总数过少,表明某一游程的长度过长,意味着有较多的同一符号相连,序列存在成群的倾向;若游程总数过多,表明游程长度很短,意味着两个符号频繁交替,序列具有混合的倾向。选择的检验统计量为R=游程的总数目。

2023/3/252可以证明则2023/3/253

【例7】,在我国的工业和商业企业随机抽出22家进行资产负债率行业间的差异比较。有如下资料:这两个行业的负债水平是否相等。首先,设“1”为工业,“2”为商业,将两个行业的数据排序,得行业编号得游程:1111121111222111222222工业647655825982707561647383商业77808065939184918486862023/3/254游程检验的菜单选择。2023/3/2552023/3/256游程检验的结果:共有21个个案,12个小于1.4286,9个大于等于1.4286。游程6个。检验的统计量的值为-2.19,相应的渐近p值=0.029,则拒绝原假设。2023/3/257【例8】公司托付市场调查公司进行随机抽样调查。为了对调查表的真伪进行推断,市场调查公司按依次抽取了20份问卷。其中消费者每年消费该公司的产品的花费数据如下表,分析问卷数据是否真实。用游程检验。样本编号12345678910消费额405205245465257234445375291291样本编号11121314151617181920消费额2612103052951252572601971601502023/3/258检验结果说明p值=0.808,不能拒绝随机数据的原假设。2023/3/259第七节单样本的Wilcoxon符号秩检验一、Wilcoxon符号秩检验前面几种推断的方法都只依靠于数据的符号,即方向。没有考虑数据的大小,Wilcoxon符号秩检验是检验关于中位数对称的总体的中位数是否等于某个特定值,检验的假设:2023/3/260检验的步骤:1.计算,它们代表这些样本点到的距离;2.把上面的n个确定值排序,并找出它们的n个秩;假如有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4),然后分别将得正号的秩和得负号的秩相加。另指满足括号里的条件等于1,不满足等于零。2023

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论