已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
非参数统计分析第一章 引言1.1 关于非参数统计 在初等统计学中,最基本的概念是总体,样本,随机变量,分布,估计和假设检验等其很大一部分内容是和正态理论相关的。在那里,总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值或他们的范围。于是,人们的任务就是对一些参数,比如均值和方差(或标准差),进行点估计或区间估计,或者是对某些参数值进行各种检验,比如检验正态分布的均值是否相等或等于零等等最常见的检验为对正态总体的t检验,F检验,和最大似然比检验等 然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的。有时,数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于总体分布的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论这时,非参数方法往往优于参数方法。然而,在总体的分布族已知的情况下,不需要任何先验知识就成为它的缺点;因为它没有充分利用已知的关于总体分布的信息,所做出的结论就不如参数方法得到的精确 在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据的最基本的信息就是次序如果可以把数据点按大小次序排队,每一个具体数目都有它的在整个数据中(从最小的数起)的位置或次序,称为该数据的秩(rank)数据有多少个观察值,就有多少个秩在一定的假定下,这些秩和它们的统计量的分布是求得出来的,而且和原来的总体分布无关这样就可以进行所需要的统计推断。注意,非参数统计的名字中的“非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关参数;它被称为和分布无关(distributionfree),是因为其推断方法和总体分布无关;不应理解为与所有分布(例如有关秩的分布)无关1.2 顺序统计量,秩和线性秩统计量一、顺序统计量因为非参数方法通常并不假定总体分布。因此,观测值的顺序及性质则作为研究的对象。1、顺序统计量:对于样本X1,X2,X3,Xn,如果按照升幂排列,得到称为第个顺序统计量。2、 基于顺序统计量的统计量 中位数极差3、顺序统计量分布函数 设总体的分布函数F(X),则第r个顺序统计量的分布函数为 (4)顺序统计量密度函数二、秩统计量1、秩统计量设X1,X2,X3,Xn 来自总体的样本,记为样本点的 秩,即=其中 是固定的。它等于小于或等于的的个数。例如:原始观测值5.61.42.75.22.64.82.3秩71463522、秩统计量的分布和数字特征的联合分布为:的概率分布为: 的数学期望:的方差:3、线性符号秩统计量:设为|X1|,|X2|,|X3|,|Xn|中的秩,定义为整数1,2,n上的非降函数,满足,则称如果X1,X2,X3,Xn为独立同分布的连续随机变量,并有关于0的对称分布,则4、线性秩统计量:设X1,X2,X3,XN为样本,Ri为Xi在X1,X2,X3,XN中的秩。又定义和为定义在1,2,N上的函数,则称为线性秩统计量。称为记分函数。称为回归常数。定理 记和,则,。证 因为 所以 又因为 例 设X1,X2,X3,XN为样本,对秩和统计量W,有,0或1,视或否,有故5、正态记分线性秩统计量令中的,是标准正态分布函数的的反函数。则称为正态记分线性秩统计量。第二章 单样本非参数检验在有了一个样本之后,很自然地想要知道它所代表的总体的“中心”在哪里例如,在对人们的收入进行了抽样之后,就自然要涉及“人均收入”和“中间收入”等概念这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。例如,在知道总体是正态分布时,要检验其均值是否为;一个传统的基于正态理论的典型方法是t检验它的检验统计量定义为 这里为样本均值,而为样本标准差。t检验的统计量在零假设下有n1个自由度的t分布。检验统计量是用样本标准差s代替了有标准正态分布的检验统计量的总体标准差后而产生的在大样本时,二者几乎相等。t检验也许是世界上用得最广泛的检验之一。但是,t检验并不稳健,在不知总体分布时,特别是小样本时,应用t检验就可能有风险。这时就要考虑使用非参数方法。对于本章所要介绍的数据趋势或随机性检验,就不存在简单的参数方法非参数方法总是简单实用的。 本章所介绍的一些检验有代表性,因此这里的讨论将比其它章节更为仔细一旦熟悉了非参数方法的一些基本思路,后面的内容就很容易理解了2.1 符号检验和中位数的置信区间一、符号检验(SING TEST)符号检验(SING TEST)是利用正号和负号的数目某假设做出判定的非参数方法。 符号检验虽然是最简单的非参数检验,但它体现了非参数统计的一些基本思路首先看一个例子。联合国人员在世界上66个大城市的生活花费指数(以纽约市1996年12月为100)按自小至大的次序排列如下(这里北京的指数为99): 66 75 78 80 81 81 82 83 83 83 83 84 85 85 86 86 86 86 87 87 88 88 88 88 88 89 89 89 89 90 90 91 91 91 91 92 93 93 96 96 96 97 99 100 101 102 103 103 104 104 104 105 106 109 109110 110 110 111 113 115 116 117 118 155 192这个总体的中间水平是多少?北京使在该水平之上还是之下?(北京为99) 可以假定这个样本是从世界许多大城市中随机抽样而得的所有大城市的指数组成总体可能出现的问题是:这个总体的平均(或者中间)水平是多少?北京是在该水平之上还是之下?这里的平均(或中间)水平是一个位置参数。一般的统计书中的均值就是一个位置参数中位数是另一个位置参数它们都是数据总体中心位置的度量和位置参数相对的一个参数为尺度参数;比如在标准统计课本中的描述数据集中和分散程度的方差或标准差 这个例子经过简单计算,得到样本均值为96.45,而样本中位数为91;它们都可作为总体的中心的估计,除此之外,众数(频率最大的点,本例是88)可作为中间位置 通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t检验有关的方法进行的。然而,在本例中,总体分布是未知的为此首先看该数据的直方图从图中很难说这是什么分布。在右边的两个点分别是东京和香港。 假定用总体中位数来表示中间位置,着意味着样本点,取大于M的的概率应该与取小于M的概率相等。所研究的问题,可以看作是只有两种可能“成功”或“失败”。成功为“+”, 即大于中位数M;失败为“-”,即小于中位数M。令S+=得正符号的数目S=得负符号得数目可以知道S+或S 均服从二项分布B(66,0.5)。则和可以用来作检验的统计量。:;: :;: :;: 对于左侧检验:;: ,当零假设为真的下,应该不大不小。当过小,即只有少数的观测值大于,则可能太大,目前总体的中位数可能要小一些。如果,则拒绝原假设。对于右侧检验:;: ,当零假设为真的下,应该不大不小。当过大,即有多数的观测值大于,则可能太小,目前总体的中位数可能要大一些。如果,则拒绝原假设。双侧检验对备择假设H1来说关心的是等于正的次数是否与等于负的次数有差异。所以当小于显著性水平则拒绝原假设。 我们来看上面的例:备择检验:M99。一般来说,备择假设采用我们觉得有道理的方向。因为只有一点为99,舍去这一点,于是从66减少到65。而=23,在零假设下(下面概率p=0.5),二项分布的概率:。 如果很小就可以拒绝零假设上面这个概率就是该检验的p值。在这里的例子中n65,k23,p=0.5。查表p值为0.0124。 也就是说,在零假设下,目前由该样本所代表的事件的发生的概率仅为0.0124,所以不大可能。也就是说,北京的生活指数(99)不可能小于世界大城市的中间水准 对于双边假设检验,为计算方便,一般取相应于和中较小的一个做检验统计量;如用K表示,则K=min(,)。在本例子中,因为是双边检验,这P值应该二倍于单侧检验的。为0.0248。 :;: :;: 检验统计量(=23)(=23)P-值=0.01242=0.0248检验的结果拒绝零假设拒绝零假设结论中位数小于99中位数不等于99下面说一下具体的计算问题在n比较小时,可以用前面的二项分布的公式来计算精确p值利用查表。但是当n较大时,就要用正态分布来近似。如果又是二项随机变量,当n较大时, 比如大于25,则可近似地认为在零假设下服从正态N(0,1)分布。但是由于正态分布是连续分布,所以要连续修正当取正号,反之取负号。例 生产过程是否需要调整。 某企业生产一种钢管,规定长度的中位数是l0米。现随机地:从正在生产的生产线上选取10根进行测量,结果: 9.8 10.1 9.7 9.9 9.8,10.0,9.7 10.0,9.9 9.8分析:中位数是这个问题中所关心的一个位置参数。若产品长度真正的中位数大于或小于10米,则生产过程需要调整。这是一个双侧检验,应建立假设:;: 为了对假设作出判定,先要得到检验统计量或。将调查得到数据分别与10比较,算出各个符号的数目:=1,=7,=8。, P值=0.704大于显著性水平0.05。表明调查数据支持原假设。即生产过程不需要调整。二、基于符号检验的中位数置信区间例 我国国有经济15个行业的1996年职工平均工资按从小到大的次序为(单位:元)4038 4940 5798 6161 6344 6610 6695 67096967 6992 7897 7987 8546 8679 8701求中位数的置信区间。把n个样本点按从小达到的顺序排列,得假设顺序统计量,由构成区间作为中位数的置信区间。由于大于和小于中位数M的样本点数服从B(N,0.5)由于得到的区域是以中位数位对称的,故kP(Kk)1-2P(Kk)置信区间区间长00.00000001.00000004038,8701466310.00003050.99993904940,8679373920.00048830.99902345789,8546275730.00369260.99261476161,7987182640.01757810.96484386344,699264850.05923460.88153086610,6967357在区间估计中,区间的长度(估计精度)和置信度(概率保证度)是刻画估计优劣的两个指标,我们要求精度越高,保证度越大越好,但二者是相互矛盾的,故选择6344,6992,其区间较短,而概率保证度较大。2.2 Wilcoxon符号秩检验Wilcoxon符号秩检验是对符号检验的一种改进,前面的符号检验只利用了样本差异方向上的信息,并未考虑到差别的大小,所以Wilcoxon符号秩检验弥补了符号检验的不足。一、Wilcoxon符号秩检验的思想Wilcoxon符号秩检验是检验关于中位数对称的总体的中位数是否等于某个特定值,检验假设: :;: :;: :;: 为了对假设作出判定,需要从总体中随机抽取一个样本得到n个观察值。这n个数据至少是定距尺度测量,若是定序尺度测量,则检验所需的等级、符号都应能被得到n个观察值记作x1,x2,xn,它们分别与的差值记为, (il,2,n)。如果为真,那么观察值围绕分布,即关于0对称分布。这时,对于来说,正的差值和负的差值应近似地相等。为了借助等级大小作判定,先忽略的符号,而取绝对值|,对|按大小顺序分等级。再按本身符号的正、负分别加总它们的等级即秩次,得到正等级的总和与负等级的总和。虽然等级本身都是正的,但这里是按的符号计算的等级和。为真时,正等级的总和与负等级的总和应该近似相等。如果正等级的总和远远大于负等级的总和,表明大部分大的等级是正的差值,即为正的等级大。这时,数据支持备择假设: ,即实际的中位数比M0大。类似的,如果负等级的总和远远大于正等级的总和,表明大部分大的等级是负的差值,即为负的等级大。这时,数据支持备择假设: ,即实际的中位数比M0小。因为正等级和负等级的总和是个恒定的值,即 l十2十十n2(n十1)2,因此对于双侧备择: 来说,两个总和中无论哪一个太大,都可以被支持。检验统计量。Wilcoxon符号秩检验所定义的检验统计量为 正等级的总和即正秩次总和 负等级的总和即负秩次总和二、检验的步骤(1) 计算,它们代表这些样本点到从的距离; (2) 把上面的n个绝对值排序,并找出它们的n个秩;如果有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4);(3) 令等于的的秩和;等于的的秩和。注意:n(n+1)2;(4) 对双边检验:;: ,在零假设下,应差不多因而,当其中之一非常小时,应怀疑零假设;在此,取检验统计量T=min(,)。类似地,对:;: ,取T=;对:;: ,取T= 。 (5) 根据得到的T值,查Wilcoxon符号秩检验的分布表以得到在零假设下P值如果n很大要用正态近似:得到一个与T有关的正态随机变量Z的值,再查表得P值。或直接用计算机得到P值。(6) 如P值较小(比如小于或等于给定的显著性水平0.05)则可以拒绝零假设特别,当样本容量很大时,可利用正态近似,利用线性符号秩的概念有同理:;于是统计量为 做为比较,现在利用正态近似对世界大城市再做Wilcoxon符号秩检验:;: :;: 检验统计量Z=-2.5725Z=-2.5725P-值=0.0052=0.01检验的结果拒绝零假设拒绝零假设结论中位数小于99中位数不等于99注意,该例利用Wilcoxon符号秩检验所得得结论与符号检验结论一样,但P值是符号检验的一半,这是因为Wilcoxon符号秩检验利用符号检验没有用的信息,但Wilcoxon符号秩检验假设分布是对称的,如果对称性不成立,则还是符号检验号。Wilcoxon符号秩检验表假设检验的统计量P值:;: :;: :;: 需要说明的是,这里看上去是按照备择假设的方向选作为检验统计量 但是实际上往往是按照实际观察的的大小来确定备择假设。在选定备择假设(比如: )之后,我们之所以选作为检验统计量,是因为它们的观察值比的小,因而计算或查表(表只有一个方向)要方便些如果利用统计软件或大样本正态近似,则选哪一个都没有关系打结的情况在许多情况下,数据中有相同的数字,称为结(tie)结中数字的秩为它们按升幂排列后位置的平均值比如2.5,3.1,3.1,6.3,10.4这五个数的秩为1,2.5,2.5,4,5。也就是说,处于第二和第三位置的两个3.1得到秩(2十3)22.5这样的秩称为中间秩。如果结多了,零分布的大样本公式就不准了。因此,在公式中往往要作修正。其中用i表示第i个结的性同观测值的个数。用g表示结的个数。观测值2 247 7 789 9 9 910秩1.5 1.535 5 579.5 9.5 9.5 9.512结统计量i2342.3 正态记分检验另一种检验的统计量是正态记分检验。一、思想在各种各样的秩检验中,检验的统计量为秩的函数,而秩本身在没有结时是有穷个自然数的排列,它的分布是均匀分布。人们自然会用其他分布的样本。自然我们会想到正态分布。正态记分检验的基本思想就是:首先将按升幂排列,记为的秩,把升幂排列的秩用升幂排列的正态分位点来替代,并赋予其符号。二、检验我们在Wilcoxon符号检验的基础上,建立线性符号秩统计量由于要求,我们用()记分, 检验的假设为:;: :;: :;: 则检验的统计量为 或 例、下面的数据是亚洲10个国家的新生儿死亡率()33 36 31 15 9 6 4 65 77 88:;: 秩符号记分33-110.5454550.114185-0.114180.01303836220.5909090.2298840.229880.05284731-330.6363640.348756-0.348760.12163115-1940.6818180.472789-0.472790.223539-2550.7272730.604584-0.604580.3655226-2860.7727270.747859-0.747860.5592944-3070.8181820.908458-0.908460.825296653180.8636361.0968031.0968031.202977774390.9090911.3351791.3351791.7827038854100.9545451.6906231.6906232.858207合计0.6968.005V=(0.229884+1.096803+1.335179+1.690623)=4.3520.407从结论可以看出不能拒绝原假设。注:一种等价的统计量。 将按升幂排列,记为的秩,把升幂排列的秩用升幂排列的正态分位点来替代,并赋予其符号,得符号正态记分为:新的统计量实际上, 可以证明, 所以2.4 Cox-Stuart趋势检验 人们经常要看某项发展的趋势但是从图表上很难看出是递增,递减,还是大致持平。我国自1985年到1996年出口和进口的差额(balance)为(以亿美元为单位) 149.0 119.7 37.7 77.5 66.0 87.4 80.5 43.5 122.2 54.0 167.0 122.2 从这个数字,我们能否说这个差额总的趋势是增长,还是减,还是都不明显呢?下图为该数据的散点图。从图可以看出,总趋势似乎是增长,但1993年有个低谷;这个低谷能否说明总趋势并不是增长的呢?我们希望能进行检验 类似于前面的检验,这里有三种假设: 1、:无增长趋势 :有增长趋势 2、:无减少趋势 :有减少趋势 3、:无趋势 :有增长或减少趋势 形式上,该检验问题可以重新叙述为:假定独立观察跳x1,x2,,xn分别来自分布为的总体,这里F()对称于零点。上面第一个单边检验为 :,:不尽相同。怎么进行这些检验呢?可以把每一个观察值和相隔大约n2的另一个观察值配对比较;因此大约有n2个对子然后看增长的对子和减少的对子各有多少来判断总的趋势具体做法为,取和。这里 在这个例子中n=12,因而c6。这6个对子为(x1,x7),(x2,x8),(x3;,x9),(x4,x10),(x5,xl1),(x6,n12) 用每一对的两元素差的符号来衡量增减令为正的数目,而令为负的的数显然当正号太多时,即很大时(或很小时),有下降趋势,反之,则有增长趋势在没有趋势的零假设下它们应服从二项分布b(6,0.5),这里n为对子的数目(不包含差为0的对子)该检验在某种意义上是符号检验的一个特例类似于符号检验,对于上面1,2,3三种检验,分别取检验统计量,和在本例中,这6个数据对的符号为 5负1正,这表明可能有增长的趋势因此需要检验 :无增长趋势 :有增长趋势 假设检验的统计量P值:无增长趋势 :有增长趋势:无减少趋势 :有减少趋势:无趋势 :有增长或减少趋势22.5 游程检验一、游程的概念一个可以属性总体,如按性别区分的人群,按产品是否有毛病区分的总体等等,随机从中拍取一个样本,样本也可以分为两类;类型I和类型E。若凡属类型L的给以符号A,类型E的给以符号月,则当样本按某种顺序排列(如按抽取时间先后排列)时,一个或者一个以上相同符号连续出现的段,就被称作游程,也就是说,游程是在一个两种类型的符号的有序排列中,相同符号连续出现的段。例如,将某售票处排队等候购票的人按性别区分,男以A表示,女以月表示。按到来的时间先后观察序列为:AABABB。在这个序列中,AA为一个游程,连续出现两个A;及是一个游程,领先它的是符号A,跟随它的也是符号山显然,A也是一个游程,BB也是一个游程。于是,在这个序列中,A的游程有2个,B的游程也有2个,序列共有4个游程。每一个游程所包含的符号的个数,称为游程的长度。如上面的序列中,有一个长度为2的A游程、一个长度为2的B游程,长度为1的A游程、B游程也各有1个。二、原理1、假设随机抽取的一个样本,其观察值按某种顺序排列,如果研究所关心的问题是:被有序排列的两种类型符号是否随机排列,则可以建立双侧备择假设组为H0: 序列是随机的 H1: 序列不是随机的如果关心的是序列是否具有某种倾向,则应建立单侧备择,假设组为H0: 序列是随机的 H1: 序列具有混合的倾向 H。:序列是随机的H1: 序列具有成群的倾向 为了对假没作出判定,被收集的样本数据仅需定类尺度测量,但要求进行有意义的排序,按一定次序排列的样本观察值能够被变换为两种类型的符号。如某售票处按到来的先后顺序排队购票的人,按性别分别记作A、B两种类型的符号,可以得到一个序列:AABABB。第一种类型的符号数目记作m,第二种记作n,Nm+n。2、检验统计量在H0为真的情况下,两种类型符号出现的可能性相等,其在序列中是交互的。相对于一定的m和n,序列游程的总数应在一个范围内。若游程的总数过少,表明某一游程的长度过长,意味着有较多的同一符号相连,序列存在成群的倾向;若游程总数过多,表明游程长度很短,意味着两个符号频繁交替,序列具有混合的倾向。因此,无论游程的总数过多或过少,都表明序列不是随机的。根据两种类型符号的变化。选择的检验统计量为U游程的总数目游程R分布的证明是比较麻烦的。先在m+n个抽屉里随机选择m个,有种方法。如果游程数为奇数R=2K1,这意味着: 1、必定有k+1个由“1”构成的游程和k个 由“0”构成的游程; 2、或必定有k+1个由“0”构成的游程和k个 “1”构成的游程。 这就必须在m1个位置中插入K个“隔离元”,使有 “1”有k+1个游程,可以有 种,同样可以在n-1个“0”的n-1个空位上插入K-1个“隔离元”,有种。共有有利基本事件数。所以如果游程数为偶数R=2K,这意味着“0”和“1”各有k个游程,则 当N足够大,则3、确定P值若p相对于给定的显著性水平小,则数据不支持H0;若足够大,则不拒绝H0。下表是判定的指导表。备择假设P值序列具有混合的倾向(游程大)Z的右尾概率序列具有聚类的倾向(游程小)Z的左尾概率序列是非随机的Z的较小的尾巴概率的两倍三、应用1、用于检验两个总体的分布的位置参数是否相同设X和Y分别具有分布函数和,检验:。在我国的工业和商业企业中随机抽取22家企业进行资产负债率行业差异分析,其1999年底的资产负债率()如下:工业647655825982707561647383商业77808065939184918486两个行业的负债水平是否有显著性差异。顺序12345678910111213141516171819202122负债率55596164646570737576778080828283848486919193组别111112111122211122222211111,2,1111,222,111,222222共有6各游程。如果原假设成立,则两个行业的负债水平的分布使相同的,将其混合后,应能较为充分、均匀地混合,游程数R应该比较大,反之当游程数R较小,则说明两个总体的分布可能不同。2、检验单样本的随机性从生产线上抽取产品检验,是否应采用频繁抽取小样本的方法。在一个刚刚建成的制造厂内,质检员需要设计一种抽样方法,以保证质量检验的可靠性。生产线上抽取的产品可以分成两类,有瑕疵,无瑕疵。检验非用与受检产品数量有关。一般情况下,有毛病的产品如果是成群出现的,则要频繁抽取小样本,进行检验。如果有毛病的产品是随机产生的,则每天以间隔较长地抽取一个大样本。现随机抽了30件产品,按生产线抽取的顺序排列:0000111111111111110001111111检验瑕疵的产品是随机出现的吗?有瑕疵的产品是随机出现 有瑕疵的产品是成群出现VAR00002Test Value1.0000Cases = Test Value23Total Cases30Number of Runs4Z-3.811Asymp. Sig. (2-tailed).000例、假设某企业在过去15年中盈亏情况为:00001111111000111111(1盈利,0亏损)。改企业某一年盈利对以后是否亏损有无影响? -2.84316当, Runs Test VAR00001Test Value(a)1.00Cases = Test Value13Total Cases20Number of Runs4Z-2.843Asymp. Sig. (2-tailed).004a Median第三章 两相关样本的非参数检验在实际生活中,常常要比较成对数据。比如比较两种处理,如药物,饮食,材料,管理方法等等。有时要同时比较,有时要比较处理前后的区别.例如,某鞋厂比较两种材料的耐磨性,如果让两组不同的人来实验,则因为人们的行为差异很大,所以,不能进行公平的比较,如果让某个样本的左右两只鞋分别用不同的材料作成,实验的条件就很相似了。所谓两个相关样本,是指两样本之间存在着某种内在联系。3.1 符号检验一、 基本方法设X和Y分别具有分布函数F(x)和f(y),从两个总体得随机配对样本数据,研究X和Y是否具有相同得分布函数。即检验:。如果两个总体具有相同的分布,则其中位数应该相等,所以检验的假设为:配对资料符号检验的计算步骤为:与单样本的符号检验一样,也定义S+和S-为检验的统计量。 由于S+和S-的抽样分布为二项分布,如果S+大小适中,则支持原假设,否则S+太大,S-太小,则支持;S+太小,S-太大,则支持。令,则检验的准则如下表:; ; ; 例 从实行适时管理(JIT)的企业中,随机抽取20家进行效益分析,它们在实施JIT前后三年的平均资产报酬率。问在5的显著性水平下,企业在实施JIT前后的资产报酬率是否有显著差异?实施JIT前15.814.915.215.815.514.61514.915.115.5实施JIT后14.615.515.514.715.214.814.814.615.315.5符号+-+-+-0实施JIT前14.714.714.71514.914.915.314.615.515.5实施JIT后14.414.314.915.514.314.514.614.815.215符号+-+-+应该接受原假设,即企业在实施JIT前后的资产报酬率没有显著差异?3.2 两样本配对Wilcoxon检验前面的符号检验只用到它们差异的符号,而对数字大小所包含的信息未能考虑。因此为改进信息的利用效率,可采用两样本配对Wilcoxon检验。配对Wilcoxon检验既考虑了正、负号,又考虑了两者差值的大小。Wilcoxon符号秩检验的步骤:1、 计算各观察值对的偏差Di=Xi-Yi;2、 求偏差的绝对值|Di|=|Xi-Yi|;3、 按偏差绝对值的大小排序4、 考虑各偏差的符号,由绝对值偏差秩得到符号值;5、 分别计算正、负符号秩的和和;6、 统计量7、 结论于是统计量为 假设检验的统计量(k) P值 2例如, 现从上海证券交易所的上市公司随机抽取10家,观察其1999年年终财务报告公布前后三日的品军股价,试问:我国上市公司公报对股价是否有显著性影响?上市公司序号12345678910年报公布前15211813351017231425年报公布后1718251640821312225Xi15211813351017231425Yi1718251640821312225Di= Xi-Yi-23-7-3-52-4-8-80Di的符号2373524880|Di|的秩1.53.573.561.558.58.5应该拒绝原假设。第四章 两独立样本的非参数检验 在单样本位置问题中,人们想要检验的是总体的中心是否等于一个已知的值但在实际问题中,更受注意的往往是比较两个总体的位置参数;比如。两种训练方法中哪一种更出成绩,两种汽 油中哪一个污染更少,两种市场营销策略中那种更有效等等 作为一个例子我国沿海和非沿海省市区的人均国内生产总值(GDP)的1997年抽样数据如下(单位为元)沿海省市区为(Y1,Y2,Y12): 15044 12270 5345 7730 22275 84479455 8136 6834 9513 4081 5500而非沿海的为对(x1,x2,,x18): 5163 4220 4259 6468 3881 3715 4032 5122 4130 3763 2093 3715 2732 3313 2901 3748 3731 5167 人们想要知道沿海和非沿海省市区的人均GDP的中位数是否一样这就是检验两个总体的位置参数是否相等的问题假定代表两个独立总体的随机样本(Y1,Y2,Y12)和(x1,x2,,x18),则问题归结为检验它们总体的均值(或中位数)的差是否相等,或是否等于某个已知值换言之,即检验 :;: :;: :;: 在正态假定下,这些问题化为:t检验并不稳健,在不知总体分布时,应用t检验时会有风险的。4.1 Brown-Mood 中位数检验令沿海地区的人均GDP的中位数为MX,而内地的为MY。零假设为:;: 显然,在零假设下,中位数如果一样的话,它们共同的中位数,即这(12十18)=30个数的样本中位数(记为此),应该对于每一列数据来说都处于中间位置也就是说,(Y1,Y2,Y12)和(x1,x2,,x18)中大于或小于的样本点应该大致一样多,计算他们的混合样本中位数为4690.5。在用两个样本和比较之后得到各个样本中大于和小于它的数目XY总和观察值大于Mxy的数目11415观察值小于Mxy的数目11415121830可以看出上面的表是一个2x2列联表。 由初等概率可知,对于一般的2x2列联表。 XY 总和 MxyabT=a+bMxy m-an-b(m+n)-(a+b)总和mnm十n 在原假设成立的条件下,这个结果有一点象超几何分布。 A=在样本中大于的样本点数,则取在样本中大于的样本点数作为检验的统计量,则应该不大不小,如果太大或太小,则应该怀疑原假设。 假设检验的统计量 P值 AAA2(,) 总体容量:30总体中成功的次数:15样本容量:12样本中成功的次数:11= =0.000237+0.00000526=0.000242=4.5/1.34=3.36 假设检验的统计量P值A=0.002424.2 Wlicoxon(Mann-Whitney)秩和检验在前面一节,比较两个总体的中位数的检验时,只利用了样本大于或小于共同中位数的数目,如同前面的单独符号秩检验一样,只有方向的信息,没有差异大小的信息。作为单样本的Wlicoxon秩和检验的推广,下面我们讨论两个样本的Wlicoxon秩和检验。设(X1,X2,X3,Xm)和(Y1,Y2,Yn)分别为两个连续总体Fx和Fy中随机抽取出来的样本,我们关心两个总体是否有相同的分布形状,或者他们的中位数是否相等。为了对假设作出判定, 如果H0为真,那么将m个x、n个y的数据,按数值的相对大小从小到大排序,X、y的值应该期望被很好地混合,这m十nN个观察值能够被看作来自于共同总体的一个单一的随机样本。若大部分的y大于X,或大部分的x大于y,将不能证实这个有序的序列是一个随机的混合,将拒绝X、y来自一个相同总体的零假设。在X、y混合排列的序列中,X占有的位置是相对于y的相对位置,因此等级或秩是表示位置的一个极为方便的方法。在x、y的混合排列中,等级1是最小的观察值,等级N是最大的。若X的等级大部分大于y的等级,那么数据将支持H1:MxMy,而x的等级大部分小于y的等级,则数据将支持H1:MxMy。检验统计量。根据上面的基本原理,检验统计量为的秩和的秩和由于X、y的混合序列的等级和为:1+2+N=N(N+1)/2 所以检验的统计量: 的秩和注:等价的统计量:如有第一个总体的样本:x1,x2,,xm和第二个总体的样本:以y1,y2, ,yn,N=m+n。令使把所有的y观测值与x观测值做比较后,x大于y的个数。令使把所有的x观测值与y观测值做比较后,y大于x的个数有 我们来说明两个公式的成立。如仅仅将x1,x2,,xn排序后,其秩和为:m(m+1)/2。比如某个Xi是最小的,即。但是如果是两个总体的合在一起排序,不妨假设故x大于y的个数为2,所以Xi的混合秩为。考虑所有的,则可得上面两式。可以证明: 则当n足够大时,假设检验的统计量(k)P值或或2用前面的例题作为一个例子我国沿海和非沿海省市区的人均国内生产总值(GDP)的1997年抽样数据如下(单位为元)沿海省市区为(Y1,Y2,Y12): 15044 12270 5345 7730 22275 84479456 8136 6834 9513 4081 5500而非沿海的为对(x1,x2,,x18): 5163 4220 4259 6468 3881 3715 4032 5122 4130 3763 2093 3715 2732 3313 2901 3748 3731 5167 人们想要知道沿海和非沿海省市区的人均GDP的中位数是否一样这就是检验两个总体的位置参数是否相等的问题150441227053457730222758447945581
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 项目实施计划(3篇)
- 销售个人总结范文10篇
- 烧伤整形诊所治疗师聘用合同
- 盐城市房屋租赁合同:度假屋租赁
- 环保设施弱电施工合同
- 拓展训练基地短期合作协议
- 桥梁照明施工合同样本
- 2024年尾矿库建设土方调配合同
- 园林绿化项目经理施工合同
- 养老公寓护工劳动合同
- 品管圈(QCC)降低ICU护士床头交接班缺陷率课件
- 《左道:中国宗教文化中的神与魔》读书笔记模板
- 2023年初级游泳救生员理论知识考试题库(浓缩400题)
- 施工现场临时用电安全技术规范
- 同仁堂药品目录
- 社会问题概论
- 高中语文-如何读懂古诗词教学设计学情分析教材分析课后反思
- 虚假诉讼刑事控告书(参考范文)
- 部编版道德与法治四年级上册第11课《变废为宝有妙招》优质课件
- 2018年考研英语一真题和答案完整版
- T-ZAQ 10116-2023 新时代基层理论宣讲0576 工作法操作规范
评论
0/150
提交评论