下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五节分布拟合检验本章前四节所介绍的各种检验法,是在总体分布类型已知的情况下,对其中的未知参数进行检验,这类统计检验法统称为参数检验在实际问题中,有时我们并不能确切预知总体服从何种分布,这时就需要根据来自总体的样本对总体的分布进行推断,以判断总体服从何种分布这类统计检验称为非参数检验解决这类问题的工具之一是英国统计学家K.皮尔逊在1900年发表的一篇文章中引进的一一2检验法,不少人把此项工作视为近代统计学的开端。内容分布图示引言弓侧2检验法的基本思想2检验法-总体含未知参数的情形例1例2例4例5内容小结课堂练习2检验法的基本原理和步骤习题7-5例3内容要点:一、引例例如,从1500到1931年
2、的432年间,每年爆发战争的次数可以看作一个随即变量,据统计,这432年间共爆发了 299次战争,具体数据如下:战争次数X发生X次战争的年数0223114224831544根据所学知识和经验,每年爆发战争的次数 X,可以用一个泊松随机变量来近似描述 ,即可 以假设每年爆发战争次数分布 X近似泊松分布于是问题归结为:如何利用上述数据检验 X 服从泊松分布的假设二、2检验法的基本思想戸检验法是在总体 X的分布未知时,根据来自总体的样本,检验总体分布的假设的一 种检验方法具体进行检验时,先提出原假设:H 0 :总体X的分布函数为F (x)然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是
3、否接受原假设这种检验通常称作拟合优度检验它是一种非参数检验一般地,我们总是根据样本观察值用直方图和经验分布函数,推断出总体可能服从的分布,然后作检验二、$检验法的基本原理和步骤1) 提出原假设:H。:总体X的分布函数为F(x)如果总体分布为离散型,则假设具体为H0:总体X的分布律为PX =Xi = pi,i =1,2,如果总体分布为连续型,则假设具体为H 0 :总体X的概率密度函数 f (x).2)将总体X的取值范围分成k个互不相交的小区间,记为A,A2,,Ak,如可取为(ao,ai, (ai,a2, 伽 沁 二,何);其中ao可取_:, ak可取:;区间的划分视具体情况而定,使每个小区间所含
4、样本值个数 不小于5,而区间个数k不要太大也不要太小;3)把落入第i个小区间 A的样本值的个数记作£ ,称为组频数,所有组频数之和h f2亠亠fk等于样本容量n ;4)当H。为真时,根据所假设的总体理论分布,可算出总体X的值落入第i个小区间A的概率Pi,于是npi就是落入第i个小区间A的样本值的理论 频数5)当Ho为真时,n次试验中样本值落入第i个小区间Ai的频率fn与概率Pi应很接近,当H。不真时,贝U fi /n与Pi相差较大.基于这种思想,皮尔逊引进如下检验统计量k ( f)22八g业.并证明了下列结论.VnPi定理1当n充分大(n _50)时,则统计量2近似服从2(k -1)
5、分布.根据该定理,对给定的显著性水平.工,确定I值,使P 21=,,查2分布表得,1=;:2仆-1),所以拒绝域为护沁=k-1).若由所给的样本值 X1,X2,Xn算得统计量2的实测值落入拒绝域,则拒绝原假设H。,否则就认为差异不显著而接受原假设H 0 .四、总体含未知参数的情形在对总体分布的假设检验中,有时只知道总体 X的分布函数的形式,但其中还含有未知 参数,即分布函数为F(x,qQ,d),其中 九払,=为未知参数.设X1,X2,Xn是取自总体X的样本,现要用此样本来检验假 设:H。:总体X的分布函数为F(x,*,R,,3), 此类情况可按如下步骤进行检验:1)利用样本X1,X2,Xn,求
6、出q® ,Q的最大似然估计 也,色,目,2)在F(x,弓户2,,齐),中用彳代替弓(i =1,2/ ,r),则卩区韦己,,片),就变成完全已知 的分布函数 F(x,$,磅,,$)3)计算Pi时,利用卩化孟纟,,珀).计算Pi的估计值?i(i =1,2/ ,k);4)计算要检验的统计量k尸=送(fi 一n?)2 /n?i ,i当n充分大时,统计量2近似服从2.(k-r -1)分布;5)对给定的显著性水平:,得拒绝域kE2 =送(fi -n?)2/n?i A©kr1).i #注:在使用皮尔逊2检验法时,要求n 50,以及每个理论频数 npi _5(i =1,,k),否则应适当地
7、合并相邻的小区间,使npi满足要求.例题选讲:例1 (讲义例1)将一颗骰子掷120次,所得数据见表7-5-2点数 i 123456出现次数n | 232621201516问这颗骰子是否均匀、对称?(取:.=0.05)解若这颗骰子是均匀的、对称的,则16点中每点出现的可能性相同,都为1/6.如果用A表示第i点出现(i =1,2,,6),则待检假设H。:P(A)=1/6 i =1,2,6.在H。成立的条件下,理论概率口 =p(AJ =1/6,由n =120得频率np 20.计算结果如下表.ifiPinpi2(fi-npj /(npj1231/6209/202261/62036/203211/620
8、1/204201/62005151/62025/206151/62025/20合计1204.8因此分布不含未知参数 ,又k=6,=0.05,查表得 2弘_1)逬05(5) =11.071.由上表,知2 - J W血Ii吕2=4.8 : 11.071,故接受H°,认为这颗骰子是均匀对称的例2 (讲义例2)检验引例中对战争次数 X提出的假设H0:X服从参数为的泊松分布根据观察结果,得参数的最大似然估计为? = x = 0.69.按参数为0.69的泊松分布,计算事件X i的概率pi,Pi的估计是?i-0.69 小“=e0.69/i!, i =0,1,2,3,4根据引例所给数表将有关计算结果
9、列表如下战争次数x01234实测频数fi22314248154?0.580.310.180.01 0.02咱216.7149.551.612.0 2.16、¥'14.16(fi -n?)/n?i0.1830.3760.2511.623工=2.433将n?:5的组予以合并,即将以生3次及4次战争的组归并为一组因H。所假设的理论 分布中有一个未知参数,故自由度为4_1_1=2.按:=0.05,自由度为2查2分布表得005 (2)=5.991,因统计量2的观察值2 =2.433 : 5.991,未落入拒绝域故认为每年发生战争的次数X1234Pi0.200.150.400.25X服从
10、参数为0.69的泊松分布.例3 农场10年前在一鱼塘 里按比例20:15:40:25投放了四种鱼:鲑鱼鲈鱼,竹夹鱼,和 鲇鱼的鱼苗现在在鱼塘里获得一样本如下:序号1234种类鲑鱼鲈鱼竹夹鱼鮎鱼数量(条)132100200168Z =600试取=0.05检验各类鱼数量的比例较10年前是否有显著改变解 以X记鱼种类的序号,按题意需检验假设:H0X的分布律为Afi?in?ifi2 /n?A1320.20120145.20A21000.1590111.11A2000.40240166.67A1680.25150188.16X=611.14所需计算列在下表中.现在2 £11.14600 <
11、;1.14, k =4, r =0,但 2.05(k-r1) = 0.05(3 =7.815 : 11.14,故拒绝H°,认为各鱼类数量之比较10年前有显著改变.例4在一次实验中,每隔一定时间时观察一次由某种铀所放射的到达计数器上的a粒子数X ,共观察了 100次,得结果如下表所示铀放射的到达计数器上的:-粒子数的实验记录i01234567891011>12fi15161726119921210AiA0AA2A3A4A5A6A7A8AA10A11A12其中fi是观察到有i个:粒子的次数 从理论上考虑知X应服从泊松分布PX -i,0,1,2,.i!试在水平0.05下检验假设H。:
12、总体X服从泊松分布PX =i =,i =0,1,2,i!解 因在H 0中参数'未具体给出,所以先估计'.由最大似然估计法得?=:又=42在H。假设下,即在X服从泊松分布的假设下,X所有可能取的值为0,1,2- ,将其分成如表所示的两两不相交的子集将其分成如表所示的两两不相交的子集A0,A,A12,则 PX =1有估计4.2ie2?i, i -0,1;计算结果如表所示,其中有些n? ::5的组予以适当合并,使得每组均有n?i :5,如表中第四列花括号所示.此处,并组后k=8,但因在计算概率时,估计了一个参数,故=1,2的自由度为8 -1 -1 =6.查表得 监5(8 -1 -1)
13、=垢05(6) =12.592现在2 =106.281 _100 =6.281 :12.592,故在水平0.05下接受H。,即认为样本来自泊松布总体例5 (讲义例3)为检验棉纱的拉力强度(单位:公斤)X服从正态分布,从一批棉纱中随 机抽取300条进行拉力试验,结果列在表7-5-5中,我们的问题是检验假设2Ho: X N( 二)(:=0.01).表7-5-5 棉纱拉力数据iXfiXfi10.5 0.64181.481.625320.64 0.78291.62 1.762530.78 0.929101.761.901940.92 1.0625111.90 2.041651.06 1.2037122
14、.04 2.18361.20 1.3453132.182.38171.34 1.4856解可按以下四步来检验:(1)将观测值 Xi 分成 13 组:a。-:, a1=0.64, a0.78/' , aj2=218, 叶心,但是这样分组后,前两组和最后两组的npi比较小,故把它们合并成为一个组(见分组数据表)(2)计算每个区间上的理论频数.这里F(x)就是正态分布N(),二2)的分布函数,含有两n个未知数和二2,分别用它们的最大似然估计?=X和:?2 4 (Xi-X)2/n来代替.关于Xi =1的计算作如下说明:因拉力数据表中的每个区间都很狭窄,我们可认为每个区间内Xi都取,将这些值相加
15、再除以总样这个区间的中点,然后将每个区间的中点值乘以该区间的样本数5 / 6本数就得具体样本均值X,计算得到:?=1.41, ;?2 =0.262对于服从N(1.41,0.262)的随机变量Y,计算它在上面第i个区间上的概率 口.(3) 计算Xj,X2,,X300中落在每个区间的实际频数fi ,如分组表中所列(4)计算统计量值-n?)2 n?i=22.07因为k =100,r =2,故2的自由度为6 / 610-2-1=7,查表得/也=18.48龙3 2 =22.07,故拒绝原假设,即认为棉纱拉力强度不服从正态分布棉纱拉力数据的分组表区间序号区间fi?n?fi -n?1<0.78 或2.0470.01564.682.3220.78 0.9290.02236.692.3130.92 1.06250.058417.527.4841.061.20370.120536.150.8551.201.34530.184655.38-2.3861.34 1.48560.212863.84-7.8471.48 1.62530.184655.38-2.3881.6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 气动焊枪市场发展现状调查及供需格局分析预测报告
- 2024年度文化艺术品拍卖委托合同
- 04年车位租赁合同简单范本
- 2024年度互联网信息服务合同:互联网服务提供商为用户提供互联网信息服务的合同
- 2024年度医疗设备供应与安装合同
- 胶合板压合机市场发展现状调查及供需格局分析预测报告
- 2024年度安保服务承包合同
- 测微规市场需求与消费特点分析
- 足球棋市场环境与对策分析
- 2024年度污水处理设施变形缝安装合同
- JJG113_2013_标准金属洛氏硬度块检定规程_解读
- 项目外包月度绩效考核表
- “绿色信贷”的国际经验及其借鉴
- 如何做好建筑工程质量信访投诉工作
- 农产品质量检测实验室100条评审准备要点
- 非营利性医院内部治理体系
- 施工日记完结
- 防止锅炉汽包满水和缺水事故措施
- 【职业规划】自动化专业大学生职业生涯规划PPT
- 航模遥控器ET07使用说明书(全比例10通道遥控器)
- 花开应有时教学设计
评论
0/150
提交评论