版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,分布拟合检验,2,前面介绍的各种检验法都是在总体分布形式为已知的前提下进行讨论的.在实际问题中, 有时不知道总体服从什么类型的分布需要根据样本来检验关于分布的假设. 本节介绍2拟合检验法和专用于检验分布是否为正态的 偏度,峰度检验法.,引 入,?,3,2拟合检验法 在总体未知时, 根据样本X1,X2,.,Xn来检验关于总体分布的假设H0:总体X的分布函数为F(x),H1:总体X的分布函数不是F(x), (6.1)若总体X为离散型则(6.1)中的H0相当于H0:总体X的分布律为P(X=ti)=pi,i=1,2,. (6.2)若总体X为连续型, 则(6.1)中的H0相当于H0:总体X的概率密度
2、为f(x) (6.3),4,设H0中假设的X的分布函数F(x)不含未知参数.,将在H0下, X可能值的全体分成k个两两不相交的子集A1,A2,.,Ak.以fi(i=1,2,.,k)记样本观察值x1,x2,.,xn中落在Ai中的个数, 在n次试验中事件Ai发生的频率为fi/n 当H0为真时, 根据H0所假设的X的分布函数来计算事件Ai的概率pi=P(Ai), 若H0为真,且试验的次数又足够多时,fi/n与pi=P(Ai) 不应差异太大!,5,采用形如,的统计量来度量样本与H0中所假设的分布的吻合程度, 其中hi(i=1,2,.,k)是给定的常数. 皮尔逊证明, 如果选取hi=n/pi(i=1,2
3、,.,k)则(6.4)式定义的统计量近似服从c2(k-1)分布. (n50),作为检验统计量,选择统计量,6,若H0中所假设的X的分布函数F(x)中包含未知参数先利用样本求出未知参数的最大似然估计(在H0下), 以估计值作为参数值, 然后根据H0中所假设的分布函数, 求出pi的估计值,作为检验统计量.近似地服从c2(k-r-1)分布, 其中r是被估计的参数的个数.,7,当H0为真时c2不应太大如c2过分大就拒绝H0, 拒绝域的形式为c2G (G为正常数).对于给定的显著性水平a, 确定G使,确定拒绝的原则,8,即当样本观察值使(6.5)或(6.6)的c2值有,则在显著性水平a下拒绝H0, 否则
4、就接受H0, c2拟合检验法,求拒绝域,9,c2拟合检验法使用的注意事项,10,例1 在一实验中, 每隔一定时间观察一次由某种铀所放射的到达计数器上的a粒子数X, 共观察了100次, 得结果如下表所示:,其中fi是观察到有i个a粒子的次数, 在水平a=0.05下检验假设 H0:总体X服从泊松分布:,11,解 因在H0中参数l未具体给出, 所以先估计l,下, X所有可能取的值为W=0,1,2,., 将W分成前表所示的两两不相交子集A1,A2,.,A12, 则PX=i有估计,12,c2拟合检验计算表,13,并组后k=8, 但因在计算概率时, 估计了一个参数l, 故r=1, c2的自由度为8-1-1
5、=6.,现在c2=106.281-100=6.28112.592,?,拒绝,接受,14,例2 1965年1月1日至1971年2月9日共2231天中, 全世界记录到里氏震级4级和4级以上地震计162次, 统计如下:(x-相继两次地震间隔天数, f-出现的频数),试检验相继两次地震间隔的天数X服从指数分布(a=0.05). *-8个数值是40,43,44,49,58,60,81,109.,15,解 按题意需检验假设:H0: X的概率密度为,H0中的参数q未给出, 先由最大似然估计法,下, X可能取值的全体W为区间0,). 将区间分为k=9个不重叠的小区间:A1=0,4.5, A2=(4.5,9.5
6、,.,A9=(39.5,).,16,若H0为真, X的分布函数的估计为,由上式可得概率pi=P(Ai)的估计:,17,例2的c2检验计算表,18,c2=163.5633-162=1.5633,故在水平0.05下接受H0, 认为X服从指数分布.,19,例3 下面列出64个伊特拉斯坎人男子的头颅的最大宽度(mm), 检验这些数据是否来自正态总体(取a=0.1),20,解 为了粗略了解这些数据的分布情况, 我们先根据所给数据画出直方图.上述数据的最小值, 最大值分别为126,158, 即所有数据落在区间126,158上, 现取区间124.5, 159.5, 它能覆盖区间126,158. 将此区间等分
7、为7个小区间, 小区间的长度记为D, D=(159.5-124.5)/7=5. D称为组距. 小区间的端点称为组限. 数出落在每个小区间内的数据的频数fi, 算出频率fi/n(n=84, i=1,2,.,7).,21,列出下表:,22,绘出的直方图如下,129.5,134.5,139.5,144.5,149.5,154.5,159.5,23,从直方图看样本很象来自正态总体. 现作c2拟合检验如下. 即需检验假设H0: X的概率密度为,因H0未给出m,s2的数值, 需先估计m,s2, 由最大似然估计法得m,s2的估计值分别为,将在H0下X可能取值的区间(-,)分为7个小区间A1,A2,.,A7.
8、,24,若H0为真, X的概率密度的估计为,按上式查标准正态分布函数表即可得概率P(Ai)的估计, 例如,25,例3的c2检验计算表,26,现在c2=87.67-84=3.67, 因为,故在水平0.1下接受H0, 即认为数据来自正态分布总体.,27,例4 一农场10年前在一鱼塘里按比例20:15:40:25投放了四种鱼:鲑鱼,鲈鱼,竹夹鱼和鲇鱼的鱼苗. 现在在鱼塘里获得一样本如下:,试取a=0.05检验各类鱼数量的比例较10年前是否有显著改变.,28,解 以X记鱼种类的序号, 按题意需检验假设:H0:X的分布律为,所需计算列表如下(n=600):,29,现在c2=611.14-600=11.1
9、4, k=4, r=0,故拒绝H0, 认为各鱼类数量之比较10年前有显著改变.,30,奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验, 并根据试验结果,运用他的数理知识, 发现了遗传的基本规律.,孟德尔,31,他的一组观察结果为:,黄70,绿27,近似为2.59:1,与理论值相近.,根据他的理论,子二代中, 黄、绿之比 近似为3:1,,32,由于随机性,观察结果与3:1总有些差距,因此有必要去考察某一大小的差异是否已构成否定3:1理论的充分根据?,这里,n=70+27=97, k=2,检验孟德尔的3:1理论:,提出假设H0: p1=3/4, p2=1/4,理论频数为: np1=72.75
10、, np2=24.25,实测频数为f 1=70,f2=27.,01 分布,33,自由度为 k-1=1,=0.41583.841,,按 =0.05,自由度为1,查 分布表得,=3.841,未落入否定域.,故认为试验结果符合孟德尔的3:1理论.,34,偏度、峰度检验 用于检验正态总体分布,35,随机变量X的偏度和峰度指的是X的标准化变量的三阶矩和四阶矩:,当X服从正态分布时, n1=0且n2=3.,36,设X1,X2,.,Xn是来自总体X的样本, 则n1,n2的矩估计量分别是,其中Bk(k=2,3,4)是样本k阶中心矩, 并分别称G1,G2为样本偏度和样本峰度.若总体X为正态变量, 则可证当n充分
11、大时, 近似地有,37,设X1,X2,.,Xn是来自总体X的样本, H0:X为正态总体.,当H0为真且n充分大时, 近似地有 U1N(0,1), U2N(0,1). 因G1,G2依概率收敛于n1,n2, 因此一般来说G1与n1=0,G2与n2=3的偏离不应太大.,38,当|U1|的观察值|u1|或|U2|的观察值|u2|过大时就拒绝H0, 取显著性水平为a, H0的拒绝域为|u1|k1 或 |u2|k2, (6.11)其中k1,k2由以下两式确定:,即有k1=za/4,k2= za/4. 于是得拒绝域为 |u1|za/4 或 |u2|za/4, (6.12),39,验证当n充分大时上述检验法近
12、似地满足显著性水平为a的要求. 当n充分大时有,40,例5 下面列出84个伊特拉斯坎人男子的头颅的最大宽度(mm), 检验这些数据是否来自正态总体(取a=0.1),41,例5 用偏度,峰度检验法检验是否来自正态总体(取a=0.1).解 现在来检验假设H0:数据来自正态总体.这里a=0.1, n=84,42,计算样本中心矩B2,B3,B4时可利用以下关系式:,经计算得A1=143.7338, A2=20706.13, A3=2987099, A4=4.316426108, B2=35.2246, B3=-28.5, B4=3840.,43,样本偏度和样本峰度的观察值分别为g1=-0.1363,
13、g2=3.0948而za/4=z0.025=1.96. 由(6.11)式, 拒绝域为|u1|=|g1/s1|1.96 或 |u2|=|g2-m2|/s21.96.现算得|u1|=0.52851.96, |u2|=0.33811.96, 故接受H0, 认为数据来自正态分布的总体.使用偏度峰度检验法时样本容量以大于100为宜.,44,秩 和 检 验,45,设有两个连续型总体, 它们的概率密度函数分别为f1(x), f2(x), 均为未知, 但已知f1(x)=f2(x-a), a为未知常数, (7.1)即f1与f2至多只差一平移. 我们要检验下述各项假设H0:a=0, H1:a0.(7.3)H0:a
14、=0, H1:a0.(7.4),46,若总体的均值存在, 分别记作m1, m2, 则由于f1,f2至多只差一平移, 故有m2=m1-a.此时, 上述各项假设分别等价于H0:m1=m2, H1:m1m2.(7.3)H0:m1=m2, H1:m1m2.(7.4),47,秩 设X为一总体, 将一容量为n的样本观察值按自小到大的次序编号排成x(1)x(2).x(n),(7.5)称x(i)的足标i为x(i)的秩, i=1,2,.,.现设自1,2两总体分别抽取容量为n1,n2的样本, 且设两样本独立, 假定n1n2. 将这n1+n2个观察值放在一起, 按自小到大的次序排列, 求出每个观察值的秩, 然后将属
15、于第1个总体的样本观察值的秩相加, 其和记为R1, 称为第1样本的秩和. 其余观察值的秩的总和记作R2, 称为第2样本的秩和. 显然R1,R2是随机变量。,48,例如, 假设来自两个总体的两个样本观察值为:样本1:23, 48, 10. n1=3.样本2: 11, 45, 50, 2. n2=4.排序得:2, 10, 11, 23, 45, 48, 50(1),(2),(3),(4), (5),(6),(7).则r1=2+4+6=12r2=1+3+5+7.,49,R1,R2满足:,R1,R2中的任一个确定后另一个随之确定. 只要考虑统计量R1即可. H0:a=0, H1:a0. 当H0为真时,
16、 即有f1(x)=f2(x), 这时两个独立样本实际上来自同一总体. 因而第1个样本中诸元素的秩应该随机地、分散地在自然数1n1+n2中取值, 一般来说不应过分集中取较小的或较大的值.,50,H0:a=0, H1:a0. 当H0为真时, 即有f1(x)=f2(x), 这时两个独立样本实际上来自同一总体. 第1个样本中诸元素的秩应该随机地、分散地在自然数1n1+n2中取值, 一般来说不应过分集中取较小的或较大的值.,51,即当H0为真时秩和R1一般来说不应取太靠近上述不等式两端的值. 拒绝原则:当R1的观察值r1过分大或过分小时, 拒绝H0. 据以上分析, 对于双边检验(7.4), 在给定显著性
17、水平a下, H0的拒绝域为,来自样本1的秩和取值范围:,52,拒绝域,53,若已知R1的分布, 则临界点是不难求得的. 以n1=3, n2=4为例说明求临界点的方法.当n1=3, n2=4时, 第1个样本中各观察值的秩的不同取法共有35种, 列表如下:,54,由于这35种情况的出现是等可能的, 由上表容易求得R1的分布律和分布函数如下:,55,于是, 对于不同的a值, 容易写出检验问题(7.4)的临界点和拒绝域. 例如, 给定a=0.2. 由上表知,即有CU(0.1)=7, CL(0.1)=17. 故当n1=3, n2=4, 在水平0.2下检验问题(7.4)的拒绝域为 r17 或 r117.
18、此时, 犯第I类错误的概率为 Pa=0R17+Pa=0R117=2/35+2/35=0.114.,56,类似地可得左边检验H0:m1=m2, H1:m1m2的拒绝域为(显著性水平为a) r1CL(a)此处, 临界点CL(a)是满足Pa=0R1CL(a)a的最小整数.,57,例如, 若给定a=0.1, 抽取的样本容量为n1=3, n2=4, 则检验问题H0:m1=m2, H1:m1m2的拒绝域为 r117.此时犯第1类错误的概率为2/350.1.附表8中列出了n1和n2自2到10为止的n1,n2的各种组合的临界点, 以及相应的犯第I类错误的概率.,58,例1 为查明某种血清是否会抑制白血病, 选
19、取患白血病已到晚期的老鼠9只, 其中有5只接受这种治疗, 另4只则不作这种治疗. 设两样本相互独立. 从试验开始时计算, 其存活时间(以月计)如下:,设治疗与否的存活时间的概率密度至多差一个平移, 取a=0.05, 问这种血清对白血病是否有抑制作用?,59,解 以m1,m2表示不作治疗和接受治疗的老鼠的存活时间的均值, H0:m1=m2, H1:m1m2 拒绝域形式:r1CU(a), n1=4, n2=5, a=0.05. 将两样本排序如下:,则r1=1+2+4+5=12. 查附表8知CU(0.05)=12, 即拒绝域为r112. 而现在r1=12, 故拒绝H0, 即认为这种血清对白血病有抑制作用.,60,附表8给出的样本容量为210 若样本容量大于10,临界点怎么确定,?,61,可以证明, 当H0为真时(即a=0时),而当n1,n210, 当H0为真时, 近似地有,62,因此, 当n1,n210时我们可以采用,作为检验统计量. 在水平a下双边检验, 右边检验, 左边检验的近似拒绝域分别为 |z|za/2, zza, z-za. z是Z的观察值.,63,例2 某商店为了确定向公司A或公司B购买某种商品, 将A,B公司以往各次进货的次品率进行比较, 数据如下, 设两样本独立. 问两公司的商品质量有无显著差异. 设两公司的商品的次品率的密度至多只差一个平移, 取水平a=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度股权投资合同:甲方投资乙方公司的投资金额、股权比例等3篇
- 二零二五年度车辆包车保险合同规范3篇
- 二零二五版地下综合管廊安全防护质量保修合同3篇
- 二零二五版30万吨矿砂船船舶维修保养及配件供应长期合同3篇
- 二零二五版专业环保印刷保密合同3篇
- 二零二五年度网络直播平台运营与分成合同2篇
- 二零二五年环保搬运承包项目合同3篇
- 解除2025年度互联网金融服务合同3篇
- 二零二五版文化衍生品开发及销售合同范本3篇
- 二零二五版服装品牌管理公司员工劳动合同范本3篇
- 2025年中国高纯生铁行业政策、市场规模及投资前景研究报告(智研咨询发布)
- 2022-2024年浙江中考英语试题汇编:完形填空(学生版)
- 2025年广东省广州市荔湾区各街道办事处招聘90人历年高频重点提升(共500题)附带答案详解
- 中试部培训资料
- 硝化棉是天然纤维素硝化棉制造行业分析报告
- 央视网2025亚冬会营销方案
- 北师大版数学三年级下册竖式计算题100道
- 计算机网络技术全套教学课件
- 屋顶分布式光伏发电项目施工重点难点分析及应对措施
- 胃镜下超声穿刺护理配合
- 2024解析:第三章物态变化-基础练(原卷版)
评论
0/150
提交评论