非参数假设检验方法_第1页
非参数假设检验方法_第2页
非参数假设检验方法_第3页
非参数假设检验方法_第4页
非参数假设检验方法_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非参数假设检验方法

在前面的课程中,我们已经了解了假设检验的基本思想,并讨论了当总体分布为正态时,关于其中未知参数的假设检验问题.

然而可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布形式提出种种假设,然后利用样本信息对假设进行检验。在统计学中把不依赖于分布形式的统计方法称为非参数统计。对总体的分布形式的检验就是非参数检验。第2页,共61页,2024年2月25日,星期天

例如,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如下:战争次数X01234

22314248154发生X次战争的年数

在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年爆发战争的次数,可以用一个泊松随机变量来近似描述.也就是说,我们可以假设每年爆发战争次数分布X近似泊松分布.现在的问题是:上面的数据能否证实X

具有泊松分布的假设是正确的?第3页,共61页,2024年2月25日,星期天

又如,某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,拨准后隔24小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来.问该厂生产的钟的误差是否服从正态分布?

再如,某工厂制造一批骰子,声称它是均匀的.

为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与1/6的差距.也就是说,在投掷中,出现1点,2点,…,6点的概率都应是1/6.问题是:得到的数据能否说明“骰子均匀”的假设是可信的?第4页,共61页,2024年2月25日,星期天

本章只介绍

2拟合优度检验、柯尔莫哥洛夫以及斯米尔诺夫检验、偏度峰度检验。除此还有:独立性、符号检验、游程检验、秩和检验等等。K.皮尔逊

这是一项很重要的工作,不少人把它视为近代统计学的开端。

解决这类问题的工具是英国统计学家K.皮尔逊在1900年发表的一篇文章中引进的所谓

2检验法.

2检验法是在总体X的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法。第5页,共61页,2024年2月25日,星期天一、

2拟合优度检验适用范围广:一个离散、连续、正态总体都适用。1、多项分布的

2检法离散总体第6页,共61页,2024年2月25日,星期天对一次抽样来说,现在对总体X进行假设,即对X的分布律进行假设第7页,共61页,2024年2月25日,星期天由于频率是概率的近似表现,那么当容量n较大时,

为了进行检验,还必须知道其分布,否则进行不了检验。第8页,共61页,2024年2月25日,星期天为此在1900年,英国统计学家KarlPearson首先提出从该统计量直观上判断有,

另外,用该统计量对总体分布律进行检验,还必须知道其分布。Pearson给出了其渐近分布。类似于以前的检验方法,取一个知道分布标准化的度量。第9页,共61页,2024年2月25日,星期天定理1由此可以建立H0的拒绝域

只要给定一组样本观察值,代入检验统计量计算后,就能得出结论。第10页,共61页,2024年2月25日,星期天例1

某商场为了研究顾客对一类商品的某三种品牌商品的喜好比例,以便为下次进货提供较科学的依据。现随机观察购买此商品的150名顾客,并记录下其所买的品牌,统计人数如下:品牌甲乙丙所购买的人数615336

依据这些数据,是否可以断定顾客对此三种品牌的商品喜好确实存在着显著的差异?(

=0.05)解若对此三种品牌的商品喜好确实不存在着显著的差异就意味着,对三种品牌的商品喜好比例p1,p2,p3相等。第11页,共61页,2024年2月25日,星期天此是m=3,n1

=61,n2=53,n3

=36,n=150由于6.52>5.991故有理由拒绝H0认为顾客对此三种品牌的商品喜好确实存在着显著的差异.第12页,共61页,2024年2月25日,星期天例264只某种杂交的几内亚猪的后代,其中34只红色,10只黑色,20只白色,根据遗传模型,它们之间的比例应为9:3:4,问以上数据在0.05的水平下体现的与遗传模型是否吻合。解若基本吻合,则p1=9/16,p2=3/16,p3=4/16此是m=3,n1

=34,n2=10,n3

=20,n=64认为基本吻合第13页,共61页,2024年2月25日,星期天例3

在一个暗盒中存放有白色与黑色两色乒乓球,问该盒中的白、黑球的个数是否相等?为此作以下试验,用不返回抽取发式从此盒中取球,直到取出的球是白色球为止,并记录下抽取的次数。共重复独立试验了100次,结果如下:抽取次数X12345试验累计数43311565解若两色球个数相等,则每次取到白球的概率为1/2以抽取次数X为考查对象,则X服从几何分布,即计算得第14页,共61页,2024年2月25日,星期天此是m=5,n1

=43,n2=31,n3

=15,n4

=6,n5=5,n=100计算有结论:接受H0第15页,共61页,2024年2月25日,星期天若X的分布函数F(x)的具有明确表达式F0(x),不含未知参数。根据样本信息推断X的分布函数是否为F0(x).第一步:第二步:采用分组离散化方法计算例4

验证一枚骰子是否均匀。电话号码的数字出现的概率等等问题。第16页,共61页,2024年2月25日,星期天第三步:记数第四步:检验其中m为分组数H0的拒绝域为一般有n>50,npi>5最好npi>10,否则应重新分组。使得npi>5最好npi>10.第17页,共61页,2024年2月25日,星期天定理2(R.A.Fisher)(3)若X的分布函数F(x)的具有明确表达式F0(x;

),但含r个未知参数。根据样本信息推断X的分布函数是否为F0(x).第一步:由样本进行参数的点估计后,将参数估计值代入分布函数中,使得分布函数成为已知函数F0(x;

)。第二步:仿造情形(2)分组离散。第三步:其中m为分组数,r为分布函数中待估参数数.令第18页,共61页,2024年2月25日,星期天(3)若X的分布函数F(x)的具有明确表达式F0(x;

),但含r个未知参数。根据样本信息推断X的分布函数是否为F0(x).第一步:由样本进行参数的点估计后,将参数估计值代入分布函数中,使得分布函数成为已知函数F0(x;

)。第二步:仿造情形(2)分组离散。第三步:其中m为分组数,r为分布函数中待估参数数.令第四步:检验H0的拒绝域为一般有n>50,npi>5最好npi>10,否则应重新分组。使得npi>5最好npi>10.第19页,共61页,2024年2月25日,星期天

下面列出了84个依特拉斯坎人男子的头颅的最大宽度(mm),试验证这些数据是否来自正态总体?141148132138154142150146155158150140147148144150149145149158143141144144126140144142141140145135147146141136140146142137148154137139143140131143141149148135148152143144141143147146150132142142143153149146149138142149142137134144146147140142140137152145例50.1)(=a解所求问题为检验假设第20页,共61页,2024年2月25日,星期天由最大似然估计法得在H0

为真的前提下,X的概率密度的估计为第21页,共61页,2024年2月25日,星期00870.05190.17520.31200.28110.13360.03750.734.3614.7226.2123.6111.223.156.7941.5524.4010.02=87.675.0914.374.91例5的拟合检验计算表第22页,共61页,2024年2月25日,星期天故在水平0.1下接受H0,认为样本服从正态分布.X的概率密度的基本符合第23页,共61页,2024年2月25日,星期天

让我们回到检验每年爆发战争次数分布是否服从泊松分布.按参数为

=0.69的泊松分布,计算事件X=i的概率pi

,将有关计算结果列表如下:pi的估计是根据观察结果,得参数

的极大似然估计为假设H0:X~P(

)=0.69,i=0,1,2,3,4战争次数实测频数x01234fi

22314248154pi0.580.310.180.010.02npi216.7149.551.612.02.16

第24页,共61页,2024年2月25日,星期天因H0所假设的理论分布中有一个未知参数,0.1830.3760.2511.623战争次数实测频数x01234fi

22314248154pi0.580.310.180.010.02npi216.7149.551.612.02.16

14.162.43<5的要合并,即将发生3次及4次战争的组归并为一组.按

=0.05,自由度为4-1-1=2查

2分布表得故认为每年发生战争的次数X服从参数为0.69的泊松分布.

2=2.43<5.991,由于统计量的实测值未落入否定域.第25页,共61页,2024年2月25日,星期天

奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了遗传的基本规律.

在此,我们以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用.孟德尔子二代子一代…黄色纯系…绿色纯系第26页,共61页,2024年2月25日,星期天

由于随机性,观察结果与3:1总有些差距,因此有必要去考察某一大小的差异是否已构成否定3:1理论的充分根据,这就是如下的检验问题.这里,n=70+27=97,k=2,检验孟德尔的3:1理论:假设H0:p1=3/4,p2=1/4

H1:p1=3/4,p2=1/4至少一不成立理论频数为:

np1=72.75,np2=24.25实测频数为70,27.他的一组观察结果为:黄70,绿27近似为2.59:1,与理论值相近.

根据他的理论,子二代中,黄、绿之比近似为3:1,第27页,共61页,2024年2月25日,星期天由于统计量

2的实测值统计量自由度为m-1=1

2=0.4158<3.841,按

=0.05,自由度为1,查

2分布表得

20.05(1)=3.841未落入否定域.故认为试验结果符合孟德尔的3:1理论.

这些试验及其它一些试验,都显示孟德尔的3:1理论与实际是符合的.这本身就是统计方法在科学中的一项重要应用.用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站得住脚的印证.第28页,共61页,2024年2月25日,星期天例6

某种动物的后代按体格的属性分为三类,据观察某一群此类动物其中各类的数目分别为10,53,46.按照遗传模型其各类的频率应为p2:2p(1-p):(1-p)2,问这些数据是否与此模型相吻合。在

=0.05的显著性水平。解(1)用最大似然估计法估计参数p.第29页,共61页,2024年2月25日,星期天例6

某种动物的后代按体格的属性分为三类,据观察某一群此类动物其中各类的数目分别为10,53,46.按照遗传模型其各类的频率应为p2:2p(1-p):(1-p)2,问这些数据是否与此模型相吻合。在

=0.05的显著性水平。解(1)用最大似然估计法估计参数p(2)计算(3)假设(4)计算

20.40614.440548.5595二0.1024-2.221648.2216三0.40292.218912.2189一类别第30页,共61页,2024年2月25日,星期天例6

某种动物的后代按体格的属性分为三类,据观察某一群此类动物其中各类的数目分别为10,53,46.按照遗传模型其各类的频率应为p2:2p(1-p):(1-p)2,问这些数据是否与此模型相吻合。在

=0.05的显著性水平。解(1)用最大似然估计法估计参数p.(2)计算(3)假设(4)计算

2(5)H0的拒绝域(6)结论接受H0,认为此数据基本符合模型的。第31页,共61页,2024年2月25日,星期天(4)

2拟合优度检验法的特点1)适用面广,离散和连续总体均可以使用,是考察实测频率与理论频率的差异。2)此法从本质上看,只是检验了理论分布函数的而未真正检验然而虽然样本与分组情况都具有随机性,但是当分布函数较为光滑时,即使F(x)与F0(x)有差异,也不应该太大。故此法虽有误差,但是常用的方法之一。3)

2拟合优度检验法依赖于区间的划分,即依赖与分组情况。即使,但若恰好在分组点处的两函数值相差不大,即便H0是不真,但

2的检验统计值不改变。从而

2拟合优度检验法的精度不高,容易范取伪错误。第32页,共61页,2024年2月25日,星期天二、柯尔莫哥洛夫检验

为了进一步提高精度,柯尔莫哥洛夫针对一个总体的分布函数,在采用分组离散化后利用经验分布函数的性质的方法,较完整的考察了经验分布函数Fn(x)与理论分布函数F(x)的差异。提高了检验的精度。但假定分布函数是连续的。设总体X的分布函数F(x)连续,故可以选用第33页,共61页,2024年2月25日,星期天定理3设分布函数F(x)连续,则定理4设分布函数F(x)连续,则第34页,共61页,2024年2月25日,星期天1、选用Dn为检验统计量,假设H0的拒绝域为:2、当n>40或100时,可得一近似求Dn,

值方法假设H0的拒绝域仍为:即此种方法虽较精确,但计算量较大。第35页,共61页,2024年2月25日,星期天例7

某林区中,随机抽取340株树木组成的样本,测其胸径,经整理后数据统计如下:胸径分组(cm)10~1414~1818~2222~2626~3030~3434~3838~4242~46组间值121620242832364944株数41134761126622105试用柯尔莫哥洛夫检验法检验该林区的树木胸径是否服从正态分布(=0.05)解(1)第36页,共61页,2024年2月25日,星期天解组号分组值频率组上限标准化经验函数理论函数110~140.011814-2.23880.01180.01260.0008214~180.03218-1.67980.04380.04650.0027318~220.10022-0.98070.14380.16350.0197422~260.223526-0.28170.36730.38970.0224526~300.3294300.41730.69670.66280.0339630~340.1941341.11640.89060.86860.022734~380.0647381.81540.95550.96560.0101838~420.0294422.51440.98450.99400.0095942~460.0151463.21341.00000.99930.0007(4)求(5)检验接受H0第37页,共61页,2024年2月25日,星期天

柯尔莫哥洛夫检验法,除了分布检验外,还可以用来未知分布函数F(x)进行区域估计。实际有xyo第38页,共61页,2024年2月25日,星期天三、斯米尔诺夫检验比较两个总体的真分布是否相同.第39页,共61页,2024年2月25日,星期天三、偏度、峰度检验1.问题的提出

根据第五章关于中心极限定理的论述知道,正态分布随机变量较广泛地存在于客观世界,因此,当研究一连续型总体时,人们往往先考察它是否服从正态分布.上面介绍的检验法虽然是检验总体分布的较一般的方法,但用它来检验总体的正态性时,犯第II类错误的概率往往较大.为此,在对检验正态总体的种种方法进行比较后,认为“偏度、峰度检验法”较好第40页,共61页,2024年2月25日,星期天2.随机变量的偏度和峰度的定义第41页,共61页,2024年2月25日,星期天3.样本偏度和样本峰度的定义第42页,共61页,2024年2月25日,星期天4.偏度、峰度检验法第43页,共61页,2024年2月25日,星期天第44页,共61页,2024年2月25日,星期天于是得拒绝域以上检验法称为偏度、峰度检验法.使用该检验法时注意样本容量应大于100.第45页,共61页,2024年2月25日,星期天例8

试用偏度、峰度检验法检验本节例5中的数据是否来自正态总体?解第46页,共61页,2024年2月25日,星期天下面来计算样本中心距第47页,共61页,2024年2月25日,星期天则样本偏度和样本峰度为于是得拒绝域第48页,共61页,2024年2月25日,星期天解例9试检验这颗骰子的六个面是否匀称?根据题意需要检验假设把一颗骰子重复抛掷300次,结果如下:H0:这颗骰子的六个面是匀称的.其中X表示抛掷这骰子一次所出现的点数(可能值只有6个),第49页,共61页,2024年2月25日,星期天在H0

为真的前提下,第50页,共61页,2024年2月25日,星期天所以拒绝H0,认为这颗骰子的六个面不是匀称的.第51页,共61页,2024年2月25日,星期天

在一试验中,每隔一定时间观察一次由某种铀所放射的到达计数器上的粒子数,共观察了100次,得结果如下表:例10第52页,共61页,2024年2月25日,星期天解所求问题为:在水平0.05下检验假设由最大似然估计法得根据题目中已知表格,第53页,共61页,2024年2月25日,星期天具体计算结果见下页表8.3,第54页,共61页,2024年2月25日,星期天拟合检

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论