应用统计课件第五章:分布检验_第1页
应用统计课件第五章:分布检验_第2页
应用统计课件第五章:分布检验_第3页
应用统计课件第五章:分布检验_第4页
应用统计课件第五章:分布检验_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第五章分布检验

§5.1拟和优度检验当我们对总体分布知之甚少时,就要采用非参数检验。我们首先讨论拟合优度检验。拟合优度检验就是用来检验一批分类数据所来自的总体是否与某种理论分布相一致,在实际问题中常会遇到这种分类数据,下面讨论这类数据的有关检验问题。2一、总体可分为有限类,且总体分布不含未知参数设总体可分成r类,记为,要检验的假设为:

其中各已知,且,现对总体作了n次观察,各类出现的频数分别为。若为真,则各概率与频率应相差不大,或各观察频数与理论频数应相差不大。据此想法,英国统计学家K.Pearson提出了一个检验统计量

3并指出,当样本容量n充分大且为真时,近似服从自由度为r-1的卡方分布。

当为真时,不应过大,若过大,就可认为原假设不真。基于此想法,检验的拒绝域应有如下形式:对于给定的显著性水平,由分布可定出,4例1某大公司的人事部门希望了解公司职工的病假是否服从均匀分布在周一到周五,以便合理安排工作。如今抽取了100名病假职工,其病假日分布如下:工作日周一周二周三周四周五频数1727102818试问该公司职工病假是否均匀分布在一周五个工作日中()?5二、总体可分为有限类,且总体分布含有未知参数例2在某交叉路口记录每15秒内通过的汽车数量,共观察了25分钟,得100个记录,经整理得:通过的汽车数量01234567891011频数1515172611684232在水平上检验如下假设:通过该交叉路口的汽车数量服从泊松分布。解:这里把总体分成12类,每一类出现的概率分别为:6记表示15秒钟内通过交叉路口的汽车为i辆,

.要检验的假设记为:

总体分布中含有未知参数。

可用样本均值去估计。当时K.Pearson仍采用前面的统计量和检验方法。直到1924年英国统计学家R.A.Fisher纠正了这一错误,他证明了在总体分布中含有k个独立的未知参数时,若这k个参数用极大似然估计代替,则当样本容量n充分大时

近似服从自由度为r-k-1的分布.7在采用(3.6.2)式,要求各不能过少,通常要求,当某些频数小于5时,通常的做法是将临近的若干组合并.8经合并后,组数r=8。计算得查表得故接受H0,即认为通过该交叉路口的汽车数量服从泊松分布。因为9三、总体为连续分布的情况设样本为来自总体的一个样本,要检验的假设是:服从分布其中含有个未知参数,若,那就完全已知.检验的做法如下:(1)

把的取值范围分成r

个区间,设为:

设各区间为10(3)当时,对每个未知参数给出其极大似然估计,记用极大似然估计代替未知参数后可算得各

.这样就把检验问题化为分类数据的检验问题,以后的计算同前面。(2)统计样本落入这个区间的频数,分别记为这里要求。11例3为研究混凝土抗压强度的分布,抽取了200件混凝土制作测定其抗压强度,经整理得频数分布表如下表。试在水平下检验抗压强度的分布是否为正态分布。抗压强度区间频数

(190,200)10(200,210)26(210,220)56(220,230)64(230,240)30(240,250)14合

计200本检验方法依赖分组,分组不同有可能得出不同的结论,这是在连续场合拟合优度检验的不足之处。12四、列联表的独立检验在有些实际问题中,当我们抽取了一个容量为n的样本后,对样本中每一样品可按不同特性进行分类。例如在进行失业人员情况调查时,对抽取的每一位失业人员可按其性别分类,也可按其年龄分类,当然也可按其它特征分类。

当我们用特征对样品分类时,记这两个特征分别为与,不妨设有r个类别,有C个类别,则可把被调查的n个样品按其所属类别进行分类,列成如下一张的二维表,这张表也称为(二维)列联表。13

合计

……

合计

14在这种列联表中,人们关心的问题是两个特征是否独立,称这类问题为列联表的独立性检验。

为明确写出检验问题,记总体为,它是二维随机变量,这里被分成r类,;被分成c

类,。

并设记

15当与两个特性独立时,应对一切有因此我们的检验问题为

至少一对(),

(3.6.3)在这一问题中统计量可写改为16

最后一个等式是在原假设为真时导出的,在最后一个式子中有r+c个未知参数和需要估计。

又由因而只有r+c-2个独立参数需要估计.17各和的极大似然估计分别为:

因而对检验问题(3.6.3),可采用检验统计量18在为真,n较大时.近似服从自由度是的分布。对给定的显著性水平,拒绝域为

19例4某地调查了3000名失业人员,按性别文化程度分类如下:试在水平上检验失业人员的性别与文化程度是否有关。学历性别大专以上中专技校高中初中及以下合计男4013862010431841女20724426251159合计6021010621668300020

大专以上

中专技校

高中

初中及以下

合计男36.8128.9651.71023.61841女23.281.1410.3644.41159合计60210106216883000解:21取α=0.05,接受原假设,表明失业人员的性别与文化程度无关.然后计算22例5有一千人按性别和是否色盲分类如下:

男女合计正常442514956色盲38644合计4805201000问色盲与性别是否独立?23解:再构造一张列联表

男女合计正常458.88497.12956色盲21.1222.8844合计480520100024取α=0.01,拒绝原假设,表明色盲和性别之间有非常密切的关系.然后计算25§5.2正态性检验一、样本(3≤n≤50)场合的W检验用于判断总体是否为正态分布的检验称为正态性检验。由于正态分布在实际中使用频繁,迫使统计学家去寻找专门的正态性检验。在几十种正态性检验方法中,Wilk-Shapiro的W检验和Dagustino的D检验是最好的,它们犯第二类错误的概率最小。设从总体X中抽取了容量为n的样本现检验如下假设:X服从正态分布26在3≤n≤50时,Wilk与Shapiro提出如下的W统计量:

它可以看成是数对的相关系数的平方,从而0≤W≤1。上式中的系数具有如下性质27对不同的n,系数已制成表格供查用。利用系数的性质,可简化为28可以证明在为真时,W的取值应接近于1,因而检验的拒绝域取为.对给定的显著性水平,在正态分布假定下,使的临界值c可从附表中查到,从而拒绝域为例1抽查用克矽平治疗的矽肺病患者10人,得到他们治疗前后的血红蛋白差(单位:克)如下:2.7-1.2-1.000.72.03.7-0.60.8–0.3现要检验治疗前后血红蛋白差是否服从正态分布(取)解:,故拒绝域为为计算统计量常列成如下表的计算表291-1.23.74.90.57392-1.02.73.70.32913-0.62.02.60.21414-0.30.81.10.1224500.70.70.039930其中为观察值的前一半按升序排列,

为大的一半按降序排列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论