版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章分布检验和拟合优度χ2检验K-S分布检验和拟合优度χ2检验第八章分布检验和拟合优度χ2检验Kolmogorov-Smirnov单样本检验及一些正态性检验1235Kolmogorov-Smirnov两样本分布检验Pearsonχ2
拟合优度检验K-S分布检验和拟合优度χ2检验第一节K—S单样本分布检验一、适用范围Kolmogorov-Smirnov检验常译为柯尔莫哥洛夫-斯米尔诺夫检验,简写为K-S检验,亦称D检验法,也是一种拟合优度检验法。K-S单样本检验主要用来检验一组样本数据的实际分布是否与某一指定的理论分布相符合。二、基本原理和方法1、基本原理:这种检验主要是将理论分布下的累计频数分布与观察到的累计频数分布相比较,找出它们间最大的差异点,并参照抽样分布,定出这样大的差异是否处于偶然。K-S分布检验和拟合优度χ2检验2、方法用Fn(x)表示样本量为n的随机样本观察值的累计分布函数,且Fn(x)=i/n(i是等于或小于x的所有观察结果的数目,i=1,2,…,n)。F(x)表示理论分布的累计概率分布函数。K-S单样本检验通过样本的累计分布函数Fn(x)和理论分布函数F(x)的比较来做拟合优度检验。检验统计量是F(x)与Fn(x)间的最大偏差Dn:若对每一个x值来说,Fn(x)与F(x)都十分接近,则表明实际样本的分布函数与理论分布函数的拟合程度很高。K-S分布检验和拟合优度χ2检验三、检验步骤1.建立假设组:H0:Fn(x)=F(x)H1:Fn(x)≠F(x)2.计算样本累计频率与理论分布累计概率的绝对差,令最大的绝对差为Dn;3.用样本容量n和显著水平a在附表11中查出临界值Dna;4.通过Dn与Dna的比较做出判断,若Dn<Dna,则认为拟合是满意的。K-S分布检验和拟合优度χ2检验四、实例例8.1:正态拟合。某织布厂工人执行的生产定额(织机每小时生产织物的米物)情况如表8-1,试检验这些样本数据能否作正态拟合?表8-1工人执行生产定额情况分组表按定额执行情况分组工人数3.75~4.25204.25~4.753724.75~5.254985.25~5.751035.75~6.2571000K-S分布检验和拟合优度χ2检验例8.1正态拟合解:首先,由于做正态拟合的均值、标准差未知,因此,先计算样本均值和标准差,再做正态拟合。通过对样本资料的计算得:=4.85;s=0.352,分别作为Û和的估计值,建立假设:H0:样本数据服从均值为4.85,标准差为0.352的正态分布H1:样本数据不服从均值为4.85,标准差为0.352的正态分布计算资料列如表8-2:K-S分布检验和拟合优度χ2检验表8-2表8-2正态拟合计算表X的组限标准化标准正态概率累计概率(理论概率)累计工人数实际累计频率(2)-(4)的绝对值甲乙(1)(2)(3)(4)(5)不足4.25-∞~-1.700.0450.045200.0200.0254.25-4.75-1.70~-0.280.3450.3903920.3920.0024.75-5.25-0.28~1.140.4830.8738900.8900.0175.25-5.751.14~2.560.1220.9959930.9930.0025.75-6.252.56-+∞0.0051.00010001.0000.000合计——1.000——-————K-S分布检验和拟合优度χ2检验例8.1根据表8-2中第(5)列数据,取最大绝对差数D1ooo=0.025作为检验统计量。若取a=0.05,n=1000,从临界值表中查(检验表K-S)得:。因为D1ooo<0.043,故认为样本数据所提供的信息无法拒绝H0,即接受H0,认为可做正态分布的拟合。K-S检验法是一种精确分布的方法,不受观察次数多少的限制。这个方法可应用于分组或不分组的情形。检验量Dn也可用于检验随机样本是否抽自某特定的总体的问题。K-S分布检验和拟合优度χ2检验第二节K-S双样本分布检验一、适用范围K-S双样本检验主要用来检验两个独立样本是否来自同一总体(或两样本的总体分布是否相同)。其单尾检验主要用来检验某一样本的总体值是否随机地大于(或小于)另一样本的总体值。二、理论依据和方法1、理论依据:与K-S单样本检验相似,K-S双样本检验是通过两个样本的累计频数分布是否相当接近来判断Ho是否为真。如果两个样本间的累计概率分布的离差很大,这就意味着两样本来自不同的总体,就应拒绝Ho。K-S分布检验和拟合优度χ2检验2、方法如果令S1(x)表示第一个样本观察值的累计概率分布函数,S2(x)表示另一个样本观察值的累计概率分布函数,那么K-S双样本的单尾检验统计量为:K-S双样本的双尾检验统计量为:K-S分布检验和拟合优度χ2检验三、检验步骤1、双尾检验假设:H0:S1(x)=S2(x)H1:S1(x)≠S2(x)单尾检验假设:H0:S1(x)=S2(x)或H0:S1(x)=S2(x)H1:S1(x)>S2(x)H1:S1(x)<S2(x)
2、把两组样本分别排成累计频数分布(对两个分布用相同的间隔或分类,并利用尽可能多的间隔。3、计算检验统计量D值,如是单尾检验,应按H1的方向计算D值。K-S分布检验和拟合优度χ2检验三、检验步骤4、显著性检验:⑴小样本情况下,及n1=n2=n,n≤30,用附表12。对于单尾检验和双尾检验,该表列出了不同显著性水平下的临界值。⑵大样本情况下,n1不一定等于n2,但都小于40的双尾检验,可用附表12续表中的公式算出D的临界值。⑶当n1和n2都较大,但又是单尾检验时,用算式K-S分布检验和拟合优度χ2检验四、实例例8.2(小样本)检验两矿的金属含量率是否相同。在甲、乙两矿坑中各抽取10个矿石样本,矿石中含有某种金属含量率(%)的资料如表8-3所示:表7-3解:这是一个双样本的K-S检验,根据题意,建立双侧检验假设组:
甲矿3.11.22.93.00.62.81.61.73.21.7乙矿3.82.13.27.22.33.53.04.63.13.2K-S分布检验和拟合优度χ2检验四、实例1、列等距分组表,计算各组次数f甲、f乙,累计次数F甲、F乙,累计频率、及其差额。计算结果列如表8-4所示。表7-4例7.2的计算表
金属含量率(%)次数累计次数累计频率F甲/10-F乙/10f甲f乙F甲F乙F甲/10F乙/100.0~0.910101/1001/101.0~1.940505/1005/102.0~2.922727/102/105/103.0~3.93610810/108/102/104.0~4.90110910/109/101/105.0`5.90010910/109/101/106.0~6.90010910/109/101/107.0~7.901101010/1010/100K-S分布检验和拟合优度χ2检验四、实例2、确定检验统计量:本例D=5/103、检验与判断。由于n1=n2=10,属小样本,查附表12得临界值D0.05=7/10,因为D=5/10<7/10,所以接受Ho假设,认为两矿的金属含量率相同。当样本容量较大时,一般当n1+n2>35时,可用附表12续表中的公式计算临界值,只有当样本容量相当大时,检验统计量才渐进服从自由度为2的X2分布,此时可用X2分布表查得临界值。
K-S分布检验和拟合优度χ2检验四、实例例8.3(大样本)用识别卡片的方法对98名男生进行智力测验。54名男生学习成绩高于中位数为第一组(n1=54),44名男生学习成绩低于中位数为第二组(n2=44),能否认为高分组的智力高于低分组?表7-5识别出卡片的张数高分组低分组累计频率离差高分组低分组0-21111/5411/440.2323-5374/5418/440.3356-86810/5426/440.4069-1112322/5429/440.25212-1412534/5434/440.14315-1714548/5439/440.18218-206554/5434/440合计5444---K-S分布检验和拟合优度χ2检验例8.3解:这是双侧检验,建立双侧假设组:Ho:两组“认出”的卡片数相同;H1:两组“认出”的卡片数不同。比较离差大小,得最大离差:D=Max|S1(x)-S2(x)|=0.406已知n1=54,n2=44,都大于40,当α=0.05时,进行双尾检验的临界值为
因为D=0.406>Da,因此在0.05的显著性水平下拒绝Ho,即。两组学生的智力不相同。K-S分布检验和拟合优度χ2检验例8.3如建立单尾检验假设组:Ho:两组“认出”的卡片数相同;H1:高分组“认出”的卡片数多于低分组。根据表8-5的数据计算得:
D=Max[S1(x)-S2(x)]=-0.406由于是大样本,故计算卡方统计量:当α=0.05,df=2时,查得临界值C=5.991。因X2=15.986>C,故在5%的显著性水平下拒绝Ho,即高分组的学生智力显著高于低分组的学生。K-S分布检验和拟合优度χ2检验第三节卡方(X2)拟合优度检验一、什么是卡方(X2)拟合优度检验人们通常关心随机变量的概率分布,如:“随机变量服从参数为n=10和p=2的二项分布”,这样的命题假设可以用“拟合优度检验”来检验。即设计一个检验来比较从假设的分布中抽取的样本,看所假设的分布函数与样本数据是否“拟合”。所以,拟合检验就是检验抽取样本的总体分布与某种特定分布的符合程度,也就是检验观察值与理论数之间的紧密程度。以X2分布为依据的这种检验,称为X2拟合优度检验K-S分布检验和拟合优度χ2检验英国统计学家Pearson(皮尔逊)于1900年首先提出了卡方统计量。1、数据:由随机变量X的N个观测组成。这N个观测可划分为k类,即把X的样本空间S划分成k个互不相交的部分S1,S2,…,Sk,且Si与Sj相互独立。即Si∩Sj=ф,(i≠j),记Oi为类i中的观测数,i=1,2,…,k.则第三节卡方(X2)拟合优度检验K-S分布检验和拟合优度χ2检验2、假设条件
1.样本是随机的2.度量尺度至少是名义的3、检验统计量
在零假设为真的条件下,令X的一个随机观测落入类i的概率为pi。定义Ei为H0为真时观测值落入类i的期望观测数,即Ei=piN,i=1,2,…,k.给出如下卡方检验统计量:
第三节卡方(X2)拟合优度检验K-S分布检验和拟合优度χ2检验4、零分布:由于
的精确分布难以求得,所以我们用自由度为k-1的卡方分布来近似。5、假设组:H0:pi=p(i=1,2,…,k.)
H1:pi≠p(对某个i.)
若>(自由度为k-1的卡方分布的1-a分位数),则拒绝H0,p-值近似等于p(X2(c-1)>Q),这个概率可由附表10获得。第三节卡方(X2)拟合优度检验K-S分布检验和拟合优度χ2检验三、X2检验的具体步骤1.数据分组.根据样本观测值的范围划分为K组;2.求X落在各组的频数Yi和频率Yi/n。3.求理论概率Pi。当H0成立时,X出现在(bi-1,bi)内的概率Pi4.计算检验统计量X2。5.求出拒绝域.根据给定的显著性水平α和自由度k-r-1查X2分布表(附表10),可得临界值C,统计量X2的拒绝域为X2>C。6.作出判断.若X2>C则拒绝H0,否则接受H0。K-S分布检验和拟合优度χ2检验实例单样本拟合检验一、检验某固定比率的假设例8.4:据标准规定,某批工业产品中不良品的比例为10%,则可检验如下假设:H0:P=0.1;H1:P≠0.1。为此,我们在产品批中抽出100个作为样本,发现不合格品数(Y1)为16,则合格品数Y2=100-16=84。当H0成立时,不合格品的期望数应为nP1=10个,相应地,合格品的期望数n(1-P1)=90。则:k=2,自由度为k-1=1,显著水平a=0.05,查表10得临界值为3.841。由于Xn2>Xa2,所以拒绝Ho假设。K-S分布检验和拟合优度χ2检验二、检验某固定比率的假设例8.5:检验随机变量X在(0,1)区间是否为均匀分布。假设如下:H0:X在(0,1)区间为均匀分布(假设分10类,pi=1/10);H1:X在(0,1)区间不是均匀分布(pi≠p≠1/10);从未知总体中抽取50个样本。为了检验,我们可以将(0,1)区间分为10等份,即0-0.1,0.1-0.2,…,0.9-1.0。如果Ho为真,那么任何观察值落入类i的概率为1/10,任何小区间的期望观测数为(1/10)×50=5。实例单样本拟合检验K-S分布检验和拟合优度χ2检验例8.5实际50个样本落入类i的观察如下:区间0-0.10.1-0.2
0.2-0.3
0.3-0.40.4-0.5
0.5-0.6观测数645674区间0.6-0.7
0.7-0.80.8-0.90.9-1.0观测数6534检验统计量查X2分布表,自由度为9,显著水平a=0.05时,查得Xa2=16.92,因X2=2.80<Xa2
,所以接受Ho假设,即观察值取自均匀分布。K-S分布检验和拟合优度χ2检验
三、检验多面体无偏性的假设例8.6:以六面体的骰子为例。如果将一颗骰子抛掷120次,其结果如表8-4所示:表8-4根据题意,检验假设如下:Ho:这颗骰子是无偏的(pi=1/6);H1:这颗骰子是有偏的(pi≠1/6);如果零假设为真,各点出现的期望次数
nP1=1/6×120=20点数123456合计观测次数132816103221120实例单样本拟合检验K-S分布检验和拟合优度χ2检验
三、检验多面体无偏性的假设例8.6:检验统计量为:查X2分布表,自由度k-1=6-1=5,取a=0.05,查得Xa2=11.07因X2>X0.052,故应拒绝Ho假设,认为这颗骰子是有偏的。K-S分布检验和拟合优度χ2检验实例总体分布拟合检验一、正态分布拟合例8.7:一家钟表厂把检验钟表的精确度作为质量控制的一部分。该厂将700只手表效准后使之走24小时,然后记下每只表走快或走慢的秒数(数据见表5-3)。这些数据是否提供了充分的证据,说明观察值并非来自正态总体。解:假设:H0:样本数据来自正态总体分布;H1:样本数据并非来自正态总体分布。表8-3中,K=11,实际观察频数Oi已知,预期频数Ei则尚需确定。K-S分布检验和拟合优度χ2检验表5-3700只手表时间误差的频数分布24小时内走快或走慢的秒数表的数目Oi0-9.993810-19.995120-29.996230-39.997440-49.998350-59.999160-69.998170-79.997280-89.996190-99.9952100-109.9935合计700K-S分布检验和拟合优度χ2检验一、正态分布拟合1.预期频数Ei的计算根据概率分布原理,我们可以通过求正态分布曲线下的面积来确定理论预期频数。为了计算正态分布曲线下的面积,利用公式Zo=(Xo-u)/δ将Xo标准化,求标准正态表上相应的面积(即频率)。因为零假设中并没指定总体分布的均值(u)和标准差(δ)。所以只有将样本均值
=54.71和标准差S=27.61分别作为u和δ的估计值。如在区间[10-19.99]内的预期频数,可按如下步骤计算:K-S分布检验和拟合优度χ2检验1.预期频数Ei的计算(1)分别对x=10和x=20标准化:Z=(10-54.71)/27.61=-1.62和Z=(20-54.71)/27.61=-1.26。其余类推。(2)查标准正态分布表,介于0和-1.62之间的面积(概率)为0.4474,介于0和-1.26之间的面积为0.3962,所以介于-1.62和-1.26之间的面积等于0.4474-0.3962=0.0512。其余类推。(3)于是落在10与20之间的预期频数为0.0512×700=35.84。其余类推。一、正态分布拟合K-S分布检验和拟合优度χ2检验2.约束条件r的确定⑴预期频数之和必等于700,即等于样本容量,这就构成一个约束;⑵又由于我们必须通过样本来估计u和δ,所以对数据还须增加两个约束。于是γ=3,自由度k-γ=11-3=8。注意:如果u和δ在零假设中已被指定,那就不必再用样本数据来估计,这时γ=1。检验统计量X2=(Oi-Еi)2/Еi=20.3558,X2的临界值为15.507。由于X2的计算值大于临界值,所以否定零假设,样本数据并非来自正态分布。一、正态分布拟合K-S分布检验和拟合优度χ2检验小预期频数在应用卡方检验时,有可能遇到预期频数很小的情形,这时将随机分布取作卡方的近似分布并不完全正确。对于什么样的预期频数才算小预期频数,学者们的意见并不一致。较保守的学者一般要求预期频数至少应大于等于5。而科库兰Cochran(1952,1954)主张预期频数小于1的就算小预期频数,很多学者同意这种意见。本教材也采用了这一观点。对小预期频数的处理一般采用的科克兰的法则。如将相邻类目的频数合并(前提是不破坏其分类意义),以达到所要求的最小频数。合并后的类数应相应地减小。K-S分布检验和拟合优度χ2检验二、二项分布拟合例8.8:一个市场分析员想研究食品店的顾客对待信用卡付款方式的态度。研究员从100家超级市场各抽选了25名经常性顾客作为随机样本,并对其中每一个进行访问以确定此人是否喜欢除信用卡付款方式以外的别的某种付款方式。调查结果列于表8-5:解:这个分析员应先提出如下假设:
H0:在这些容量为25的样本中,喜欢另外某种付款方式的顾客数服从二项分布;
H1:不服从二项分布。(取a=0.05)K-S分布检验和拟合优度χ2检验表5-5例5.5中的抽样结果喜欢另外某一种付款方式的顾客数商店数0415283104145156127168109610或更多0合计100二、二项分布拟合K-S分布检验和拟合优度χ2检验首先求得P的估计值如下:P={4(0)+5(1)+8(2)…+6(9)}/2500=0.20。由于二项分布的参数P没有指定,必须通过样本数据对它作出估计,因此要损失一个自由度。1.预期频数Еi通过计算函数f(x)=C25x(0.2)x(0.8)25-x(其中x为某一特定商店中喜欢另外某种付款方式的顾客数,x=0,1,2,…,25)或查的二项分布表,可以得到所需的相对预期频数。二、二项分布拟合K-S分布检验和拟合优度χ2检验2.自由度的确定合并后的类目数10,但由于预期频数之和必须与观察频数之和一致,这个自由度应减去1,又由于P必须通过样本数据来估计,自由度再减1。于是真正的自由度应为10-2=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年小学五年级班主任班级工作计划模版(三篇)
- 2024年小学校舍安全管理制度范文(二篇)
- 2024年学校图书馆管理制度模版(二篇)
- 2024年小学二年级数学教学工作计划范文(二篇)
- 【《加加食品公司人员流失的治理优化案例分析10000字》(论文)】
- 2024年安全生产教育培训、考核制度范本(三篇)
- 2024年小学四年级班级工作计划范文(三篇)
- 2024年对外加工装配合同例文(三篇)
- 2024年少先队工作计划及活动安排范例(五篇)
- 2024年大棚租赁协议简单版(三篇)
- 《篮球原地运球》教案 (共三篇)
- 火灾事故现场处置方案
- 浅谈如何有效地进行工程造价管理论文.doc
- 财务顾问方案
- 一年十二月对应十二卦
- xx县人民医院护理人员面试评分表
- 主井井口房施工组织设计范本
- (完整版)电子科技大学微电子器件习题
- 无人机测绘技术在土木工程测绘领域的应用创新
- 生物与中草药课题申请书
- 毕业设计(论文)立磨系统常见故障及处理措施
评论
0/150
提交评论