版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章假设检验分布拟合检验第一页,共五十二页,2022年,8月28日在前面的课程中,我们已经了解了假设检验的基本思想,并讨论了当总体分布为正态时,关于其中未知参数的假设检验问题.然而可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设.§4.分布拟合检验第二页,共五十二页,2022年,8月28日
例1.
从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,数据如下:战争次数X0123422314248154
发生X次战争的年数第三页,共五十二页,2022年,8月28日在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年爆发战争的次数,可以用一个泊松随机变量来近似描述.也就是说,我们可以假设每年爆发战争次数分布X近似泊松分布.上面的数据能否证实X
具有泊松分布的假设是正确的?现在的问题是:第四页,共五十二页,2022年,8月28日又如,某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,拨准后隔24小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来.问该厂生产的钟的误差是否服从正态分布?第五页,共五十二页,2022年,8月28日K.皮尔逊这是一项很重要的工作,不少人把它视为近代统计学的开端.解决这类问题的工具是英国统计学家K.皮尔逊在1900年发表的一篇文章中引进的所谓
检验法.第六页,共五十二页,2022年,8月28日
检验法是在总体X的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法.第七页,共五十二页,2022年,8月28日
H0:总体X的分布函数为F(x)
然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设.这种检验通常称作拟合优度检验,它是一种非参数检验.使用检验法对总体分布进行检验时,我们先提出原假设:第八页,共五十二页,2022年,8月28日在用
检验假设H0时,若在H0下分布类型已知,但其参数未知,这时需要先用极大似然估计法估计参数,然后作检验.检验法分布拟合的
的基本原理和步骤如下:检验法第九页,共五十二页,2022年,8月28日3.根据所假设的理论分布,可以算出总体X的值落入每个Ai的概率pi,于是npi就是落入Ai的样本值的理论频数.1.将总体X的取值范围分成k个互不重迭的小区间,记作A1,A2,…,Ak.2.把落入第i个小区间Ai的样本值的个数记作fi,称为实测频数.所有实测频数之和f1+f2+…+fk等于样本容量n.第十页,共五十二页,2022年,8月28日标志着经验分布与理论分布之间的差异的大小.皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:统计量的分布是什么?在理论分布已知的条件下,npi是常量实测频数理论频数或第十一页,共五十二页,2022年,8月28日如果理论分布F(x)中有r个未知参数需用相应的估计量来代替,那么当时,统计量的分布渐近(k-r-1)个自由度的分布.皮尔逊证明了如下定理:如果理论分布F(x)中有r个未知参数需用相应的估计量来代替,那么当时,统计量的分布渐近(k-r-1)个自由度的分布.若原假设中的理论分布F(x)已经完全给定,那么当时,统计量的分布渐近(k-1)个自由度的分布.若原假设中的理论分布F(x)已经完全给定,那么当时,统计量第十二页,共五十二页,2022年,8月28日为了便于理解,我们对定理作一点直观的说明.第十三页,共五十二页,2022年,8月28日是k个近似正态的变量的平方和.这些变量之间存在着一个制约关系:故统计量渐近(k-1)个自由度的分布.在理论分布F(x)完全给定的情况下,每个pi
都是确定的常数.由棣莫佛-拉普拉斯中心极限定理,当n充分大时,实测频数fi
渐近正态,因此第十四页,共五十二页,2022年,8月28日在F(x)尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个.若有r个未知参数需用相应的估计量来代替,自由度就减少r个.此时统计量渐近(k-r-1)个自由度的分布.第十五页,共五十二页,2022年,8月28日如果根据所给的样本值X1,X2,…,Xn算得统计量的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.得拒绝域:(不需估计参数)(估计r个参数)查分布表可得临界值,使得根据这个定理,对给定的显著性水平,第十六页,共五十二页,2022年,8月28日皮尔逊定理是在n无限增大时推导出来的,因而在使用时要注意n要足够大,以及npi
不太小这两个条件.根据计算实践,要求n不小于50,以及npi
都不小于5.否则应适当合并区间,使npi满足这个要求.第十七页,共五十二页,2022年,8月28日让我们回到开始的一个例子,检验每年爆发战争次数分布是否服从泊松分布.提出假设H0:X服从参数为的泊松分布按参数为0.69的泊松分布,计算事件X=i的概率pi
,=0.69将有关计算结果列表如下:pi的估计是,i=0,1,2,3,4根据观察结果,得参数的极大似然估计为第十八页,共五十二页,2022年,8月28日因H0所假设的理论分布中有一个未知参数,故自由度为4-1-1=2.x01234fi
223142481540.580.310.180.010.02n216.7149.551.612.02.16
0.1830.3760.2511.623战争次数实测频数14.162.43将n<5的组予以合并,即将发生3次及4次战争的组归并为一组.第十九页,共五十二页,2022年,8月28日故认为每年发生战争的次数X服从参数为0.69的泊松分布.按=0.05,自由度为4-1-1=2查分布表得=5.991=2.43<5.991,由于统计量的实测值未落入否定域.第二十页,共五十二页,2022年,8月28日奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了遗传的基本规律.
例2.我们以遗传学上的一项伟大发现为例说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用.孟德尔第二十一页,共五十二页,2022年,8月28日子二代子一代…黄色纯系…绿色纯系他的一组观察结果为:黄70,绿27近似为2.59:1,与理论值相近.根据他的理论,子二代中,黄、绿之比近似为3:1,第二十二页,共五十二页,2022年,8月28日由于随机性,观察结果与3:1总有些差距,因此有必要去考察某一大小的差异是否已构成否定3:1理论的充分根据,这就是如下的检验问题.这里,n=70+27=97,k=2,检验孟德尔的3:1理论:提出假设H0:p1=3/4,p2=1/4理论频数为:
np1=72.75,np2=24.25实测频数为70,27.第二十三页,共五十二页,2022年,8月28日由于统计量的实测值统计量~自由度为k-1=1=0.4158<3.841,按=0.05,自由度为1,查分布表得=3.841未落入否定域.故认为试验结果符合孟德尔的3:1理论.第二十四页,共五十二页,2022年,8月28日这些试验及其它一些试验,都显示孟德尔的3:1理论与实际是符合的.这本身就是统计方法在科学中的一项
重要应用.用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站得住脚的印证.第二十五页,共五十二页,2022年,8月28日例3.自1965年1月1日至1971年2月9日共2231天中,全世界纪录到里氏震级4级和5级以上的地震162次,统计如下试检验相继两次地震间隔天数是否符合指数分布。α=0.05相继两次地震间隔的天数xi0-45-910-1415-1920-2425-2930-3435-39≥40出现的频数fi50312617108668(1)第二十六页,共五十二页,2022年,8月28日解:本例是检验假设H0:X的概率密度为此处的参数θ未知,先利用极大似然估计求出θ的估计为将总体X可能取值的区间[0,∞)分为9个互不重叠的子区间i=1,2,…,9。若为真,则X的分布函数是第二十七页,共五十二页,2022年,8月28日由此式得概率pi=P(Ai)的估计:于是可以得到下面的表:第二十八页,共五十二页,2022年,8月28日13.2192-0.78080.0461i[ai,ai+1)fi1[0,4.5)500.278845.1656-4.83440.51752[4.5,9.5)310.219635.57524.57520.58843[9.5,14.5)260.152724.7374-1.26260.06444[14.5,19.5)170.106217.20440.20440.00245[19.5,24.5)100.073911.97181.97180.32486[24.5,29.5)80.05148.32680.32680.01267[29.5,34.5)60.03585.7996-0.20040.00698[34.5,39.5)60.02484.01769[39.5,+∞)80.05689.2016Σ1.5631第二十九页,共五十二页,2022年,8月28日结论:因为:第三十页,共五十二页,2022年,8月28日教材上的另一例留给同学们自己看.由于这种检验的计算量相对较大,一般要用统计软件包来实现.这一讲我们介绍了拟合优度的
检验法.在对总体的分布进行检验时经常使用.第三十一页,共五十二页,2022年,8月28日列联表的构造列联表分析第三十二页,共五十二页,2022年,8月28日列联表
(例题分析)一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32753331141合计10012090110420【例】一个集团公司在四个不同的地区设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方式,从四个分公司共抽取420个样本单位(人),了解职工对此项改革的看法,调查结果如下表第三十三页,共五十二页,2022年,8月28日列联表
(contingencytable)由两个以上的变量交叉分类的频数分布表行变量的类别用r
表示,ri
表示第i
个类别列变量的类别用c
表示,cj
表示第j
个类别每种组合的观察频数用fij
表示表中列出了行变量和列变量的所有可能的组合一个
r行c
列的列联表称为r
c
列联表第三十四页,共五十二页,2022年,8月28日列联表的结构
(22列联表)列(cj)合计j=1j=1i=1f11f12f11+f12i=2f21f22f21+f22合计f11+f21f12+f22n列(cj)行(ri)第三十五页,共五十二页,2022年,8月28日列联表的结构
(r
c
列联表的一般表示)列(cj)合计j=1j=2…i=1f11f12…r1i=2f21f22…r2:::::合计c1c2…n列(cj)行(ri)fij
表示第i
行第j
列的观察频数第三十六页,共五十二页,2022年,8月28日观察值的分布边缘分布行边缘分布行分布观察值的的合计数例如,赞成改革方案的共有279人,反对改革方案的141人列边缘分布列观察值的合计数的分布例如,四个分公司接受调查的人数分别为100人,120人,90人,110人条件分布与条件频数变量X条件下变量Y
的分布,或在变量Y
条件下变量X
的分布每个具体的观察值称为条件频数第三十七页,共五十二页,2022年,8月28日观察值的分布
(图示)一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32753331141合计10012090110420行边缘分布:行分布观察值的的合计数列边缘分布:列观察值的合计数的分布条件频数:每个具体的观察值称为条件频数第三十八页,共五十二页,2022年,8月28日百分比分布
(概念要点)条件频数反映了数据的分布,但不适合对比为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布行百分比:行的每一个观察频数除以相应的行合计数(fij
/ri)列百分比:列的每一个观察频数除以相应的列合计数(fij
/cj)总百分比:每一个观察值除以观察值的总个数(fij
/n)第三十九页,共五十二页,2022年,8月28日百分比分布
(图示)一分公司二分公司三分公司四分公司合计赞成该方案24.4%26.9%20.4%28.3%66.4%68.0%62.5%63.3571.8%—16.2%17.8%13.6%18.8%—反对该方案22.7%31.9%23.4%22.0%33.6%32.0%37.5%36.7%28.2%—7.6%10.7%7.9%7.4%—合计23.8%28.6%21.4%26.2%100%总百分比列百分比行百分比第四十页,共五十二页,2022年,8月28日期望频数的分布
(例题分析)在全部420个调查人中,赞成改革方案的有279人,占到总数的66.4%。即从总体来看,有2/3的人员对改革方案表示赞同。如果各分公司对这项改革方案态度一致,那么每一分公司都有2/3的人员赞同该方案。那么一公司应该有:
100*66.4%=66人赞同该方案。第四十一页,共五十二页,2022年,8月28日期望频数的分布
(例题分析)一分公司二分公司三分公司四分公司赞成该方案实际频数68755779期望频数66806073反对该方案实际频数32753331期望频数34403037第四十二页,共五十二页,2022年,8月28日
统计量用于检验列联表中变量间拟合优度和独立性用于测定两个分类变量之间的相关程度计算公式为第四十三页,共五十二页,2022年,8月28日统计量
(例题分析)实际频数(fij)期望频数(eij)fij-eij(fij-eij)2(fij-eij)2e687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合计:3.0319第四十四页,共五十二页,2022年,8月28日品质数据(定性数据)的假设检验品质数据比例检验独立性检验Z
检验一个总体
检验Z
检验
检验两个以上总体两个总体第四十五页,共五十二页,2022年,8月28日拟合优度检验(比例检验)
(goodnessoffittest)检验多个比例是否相等检验的步骤提出假设H0:1=2=…=j;H1:
1,2,…,j
不全相等
计算检验的统计量
进行决策根据显著性水平和自由度(r-1)(c-1)查出临界值2
若2>2,拒绝H0;若2<2,接受H0第四十六页,共五十二页,2022年,8月28日拟合优度检验
(例题分析)H0:
1=2=3=4
H1:
1234
不全相等
=0.1df=(2-1)(4-1)=3临界值(s):统计量:
在
=0.1的水平上不能拒绝H0可以认为四个分公司对改革方案的赞成比例是一致的决策:结论:206.2153.0319
=0.1第四十七页,共五十二页,2022年,8月28日习题分析第四十八页,共五十二页,2022年,8月28日拟合优度检验
(例题分析)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 墙板钉项目可行性研究报告
- 高分培优讲座 雪线和林线 高考第一轮地理复习课件
- 小班数学教案:抓老鼠
- 大数据在智慧医疗
- 2023-2024学年广东省深圳市盐田区六年级上学期期末英语试卷
- 一年级上册数学教案-第六单元第2课时 11~20各数的认识(2) 人教版
- 脚手架坍塌防范措施
- 急救药品、物品管理制度
- 第五单元《透镜及其应用》3.透镜的应用(分层训练)(解析版)
- 2.2享受学习-课时检测设计
- 小学英语合作学习的有效性策略研究调查报告
- 建设项目安全设施“三同时”
- 《骨科专科知识》PPT课件.ppt
- 校田径运动会裁判工作方法简介_ppt课件
- 各类人员绩效考核评价表
- 《包公审驴》课件ppt
- 亚马逊发票模板-(适用于亚马逊各个站点)
- 电动机检修方案.doc
- 燃气公司安全管理奖罚办法
- 呼吸类医学交流课件:慢阻肺急性加重的诊断与治疗
- 普通生物学24人类基因组
评论
0/150
提交评论