




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
§7.4非参数假设检验
前面讨论的总体分布中未知参数的估计和检验都是假定总体分布类型已知,比如为正态总体的前提下进行的,在实际应用时,总体的分布往往未知,首先应对总体分布类型进行推断,如何对总体的分布进行推断呢,不难想象,我们可以由样本作经验分布函数的提示,对总体分布类型作假设,然后再对所提的假设进行检验.由于所用的方法不依赖于总体分布的具体数学形式.在数理统计中,就把这种不依赖于分布的统计方法称为非参数统计法.非参数统计的内容十分丰富,在本节我们主要介绍非参数假设检验中最重要的一类——分布函数的拟合检验.主要介绍拟合优度检验法、独立性检验法.1.设总体,但未知,从总体中抽取样本的观测值为据此检验:一、-拟合检验法
下面我们介绍皮尔逊提出的-拟合检验法,它能像各种显著性检验一样控制犯第一类错误的概率.
(其中为某个已知的分布,不含未知参数),我们将的可能取值范围R分成k个互不相交的区间:
(这些区间不一定长度相等.且可为,可为)
以表示样本观测值中落入的频数,称之为观测频数,显然有,而事件在次观测中发现的频率为.我们知道,当为真时,;。于是得到在为真时,容量为的字样落入区间的理论频数为,且有。由大数定律知,当为真时,
的差异不应太大.根据这个思想,皮尔逊(k.Pearson)构造出
即知,当与充分大时,的检验统计量为:
并证明了如下的结论
定理7.4.1(皮尔逊定理),当为真时,统计量的渐进分布是自由度为的-分布,即变量,当时。
对于给定的水平,P{}查(k-1)分布表,确定出临界值,从而得的拒绝域,将样本观察值代入统计量算出其观测值,视其是否落入而作出拒绝或接受的判断。
拟合检验法,它适合下面更一般的情况.
上面的检验法称为皮尔逊2.总体~,其中未知,需检验:
,其中为已知类型的分布,但含有个未知参数,在这种情况,我们首先用的极大似然估计代替的,再按情况1的办法进行检验,但这时-统计量的渐进分布将是(k-m-1),即有:
当为真时,用的极大似然估计代中的未知参数,并用
定理7.4.2(Fisher定理)
代替中的所得的统计量当时,有自由度为k-m-1的分布例7.4.1研究混凝土抗压强度的分布.200件混凝土制件的抗压强度以分组的形式列出如下表。压强区间千克/厘米
频数
190~200
10
200~210
26
210~220
56
220~230
64
230~240
30
240~250
14要求在给定的显著性水平下检验原假设
其中,为抗压强度的分布。
解:原假设锁定的正态分布的参数和是未知的,由第六章中的例子可知和的极大似然估计分别为样本均值和方差样本。
设为第组的组中值,我们计算和。千克/厘米
原假设改写成是正态分布。计算每个区间的理论概率值其中,
为了算出统计量的值,我们把需要进行的计算列表于:
从上面的计算得出的观测值为1.35.在显著水平下,查自由度的-分布表,得到临界值,不能拒绝原假设,所以认为混凝土制件的受压强度的分布是正态分布。-检验作分布函数的拟合检验的一般步骤:(1)把总体的值划分为个互不相交的区间其中可以分别取(每个划分的区间必须包含不少于5个个体,若个体数少于5时,则可把这种区间并入其相邻的区间,或者把几个频数都小于5,但不一定相邻的区间并成一个区间i);(2)在成立下,用极大似然估计法估计分布所含的位置参数;
(3)在成立条件下,计算理论概率,并且计算出理论频数;(4)按照样本观察值落在区间中的个数,即实际频数和(3)中算出的理论频数,计算的值((3),(4)两项的计算可列表进行);(5)按照所给出的显著性水平,查自由度的-分布表得到,其中是未知参数的个数;(6)若,则拒绝原假设,若,则认为原假设成立。
二、独立性检验
下面我们分析按两个特征分类的频数数据,它通常称为交叉分类数据.这种都以表格形式给出,叫做联列表.
先看一个例子.
为研究儿童智力发展与营养的关系,抽查了950名学生,得到如下分类数据:例7.4.2智商总计<80
80-8990-99≥100
营养良好营养不良
2452281772193127131086981
276255190229950
这种数据按两个特征分类,称为二向联列表.这里我们就是讨论这种形式的分类数据.
设所研究的总体具有特征A及B,它们分别为r类及c类,把A类作为行,B类作为列,可以得到一个二向的表格,从该总体中抽取一个容量为n的样本,将有关频数填入二向表格得到如表所示的联列表,这就是二向列表的一般形式。二向联列表的一般形式总计总计表中,的频数,的频数,
的频数。若记
那么,想利用二向联列表表提供的数据来研究两种分类之间是否有某种联系,相当于提出统计假设对一切成立。
按照概率论中独立性的概念,如果接受零假设,即表明A与B是相互独立的;反之,拒绝零假设,则表明两个A与B之间是有个某种联系的.这就是联列表的独立性检验.利用它也可以检验两个随机变量的独立性,这时应把它们的取值分别归类,正如我们在上一段做的那样.这里处理的还是分类数据,共有类,要求检验独立模型的拟合优度,因此自然期望仍然能用前面介绍的检验法.事实也的确如此.
首先应该从样本出发估计未知参数,从而确定概率。若成立,则需估计及注意到是事件发生的概率,因此自然用发生的频率来估计它。由参数估计一节中知,频率也是相应概率的极大似然估计。类似的,是的极大似然估计。因此概率的估计为这时相应于的期望值估计为
所以,统计量为
在上述导出的统计量过程中,被估计的参数为个:因为无需估计,所以根据公式知,统计量近似服从分布,
为了计算统计量方便起见,从公式出发,可导出下列等价形式:
联列表在应用中特别重要,称为四格表,一般的四个表可以写成表所示的形式.所用的统计量为变量(属性)B总计类1类2变量(属性)A类1类2abcda+bc+d总计
a+c
b+d
n=a+b+c+d如果对所有的,则不难导出
这是一个比较方便的计算公式。上述统计量近似服从自由度为1的分布。例7.4.3
调查339名50岁以上吸烟习惯与患慢性气管炎病的情况,获
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论