卡方拟合优度检验-课件_第1页
卡方拟合优度检验-课件_第2页
卡方拟合优度检验-课件_第3页
卡方拟合优度检验-课件_第4页
卡方拟合优度检验-课件_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章c

2拟合优度检验及其应用第一节c

2拟合优度检验二项分布(0-1数据) 考虑比例问题:P(X=1)=p,P(X=0)=1–p

假设检验:H0:p=p0;H1:pp0。

样本统计:1的频数为k,0的频数为n–k。检验统计量及其分布:等价的检验统计量及其分布也可以写成:总体分类A1(X=1)A2(X=0)合计理论频数E1=np0E2=n(1–p0)n观测频数O1=kO2=n–kn理论H0的检验统计量及其分布:例1:某机构认为公众对某项事业的看法无所谓,并通过调查来进行实证,却得到相反的证据,数据如下:总体分类赞成反对合计理论频数5050100观测频数4060100多项分布(属性数据)考虑多项分布问题:假设检验:数据结构:总体分类A1(X=1)……As

(X=s)合计理论频数E1=np10……Es=nps0n观测频数O1……Osn理论H0的检验统计量及其分布:在近似计算方面,尽可能要求所有观测频数Oi≥5,容许个别为3或4;否则,对某些类进行合并。例2:骰子的检验某人在赌场对掷骰子观测了120次,获得数据:朝上的面i123456合计理论值Ei202020202020120观测值Oi132816103221120Ei–Oi7–8410–12–10(Ei–Oi)24964161001441(Ei–Oi)2/Ei2.453.200.805.007.200.0518.70P值=0.003因此,可以认为骰子不均匀或赌场有作弊行为。例3:判定样本的不随机性有一项调查据称是在某地区随机进行的。该地区各年龄段(或其它分组方式)的人口比例是已知的。样本量为1000,具体数据如下:数据分组1234567合计各组比例0.150.20.20.150.150.10.051理论值Ei150200200150150100501000观测值Oi13024017013018090601000Ei–Oi20–403020–3010–100(Ei–Oi)24001600900400900100100(Ei–Oi)2/Ei2.6784.52.6761226.83P值=0.0002因此,可以认为该调查的随机性是有问题的。一般分布的检验(属性数据或连续数据)检验方法:对总体进行随机抽样,得样本X1,…,Xn;按某种方式所得到的总体分类A1,…,As对样本进行频数统计,得观测频数O1,…,Os;用极大似然法估计参数q1,…,qr;得估计值计算观测频数O1,…,Os的理论值E1,…,Es,即在H0下等于:理论H0的检验统计量及其分布:例4:120名成年男子红细胞数的正态性检验 组段理论频数E观察频数OE-O(E-O)2(E-O)2/E3.20~1.872-0.130.0170.0093.50~4.495-0.510.260.0563.80~10.5100.50.250.0244.10~18.519-0.50.250.0144.40~24.6231.62.560.1044.70~24.6240.60.360.0155.00~18.521-2.56.250.3385.30~10.511-0.50.250.0245.60~4.4940.490.240.0535.90~6.201.8710.870.760.405合计1201200.01.042P值为0.99,故不拒绝正态性假设。120名成年男子红细胞数的直方图例5:30年代卢瑟福观测了在7.5秒时间内X射线到达指定区域的质点数,共观测2608次,获得统计数据:出现点数i0123456789≥10合计理论值Ei572033835255324082731394527162608观测值Oi542114075265083932541406829172608Ei–Oi3–8–24–1241519–1–23–3–10(Ei–Oi)2/Ei0.1240.2671.460.001.100.5341.450.0127.720.1660.0712.91这里,普阿松分布:l的估计值:理论值Ei:,P值为0.1667。第二节齐一性检验两个总体分布的齐一性检验 比较两个总体的分布函数F1(X)和F2(X)是否一致?

假设检验:H0:F1(X)=F2(X)

;H1:F1(X)≠F2(X)

。对这两个总体进行独立抽样,分别获得F1(X)和F2(X)的独立样本这两个总体变量的值域应该一致。我们把该值域分成s段A1,…,As(分类方法要求与样本独立),比较F1(X)和F2(X)在A1,…,As上的分布或比例是否一致。对这两个独立样本出现的频数分别进行统计,记作数据结构:总体分类A1……As

合计X频数n11……n1sn1Y频数n21……n2sn2合计n*1……n*sn这里当s

=

2

时,上面的数据结构就是四格表。

故且H0:F1(X)=F2(X)成立时,意味着是来自同一个总体,且所以N1j和N2j的估计值为由此得到检验统计量:当s

=

2

时,就得到四格表的检验统计量:例6:比较两种花卉的栽培方法,两种方法各自独立地种植100颗,到花卉成熟时对它们的品质进行评定,得到统计数据如下:花卉等级1级2级3级4级5级合计方法1频数204025105100方法2频数303520510100合计5075451515200H0:两种栽培方法无差异;H1:两种栽培方法有差异。应用c2齐一性检验方法,各观测值的理论值写在表中右下的红字,由此就容易计算出c2值:2537.522.57.57.52537.522.57.57.5,P值0.49第三节列联表检验总体分类A1……As

合计X1

频数n11……n1sn1·…………………………Xr频数nr1……nrsnr·合计n·1……n·sn

r个总体分布的齐一性检验 比较r个总体的分布函数F1(X),…,Fr(X)是否一致? 假设检验:H0:Fi(X)=F(X)

,i=1,…,r数据结构:这里检验统计量:例7:有三种空调产品A、B、C,商场对它们的顾客满意度情况进行调查,得到如下统计数据:很满意满意一般不满意很不满意合计A712105135B102073040C515155040合计224732131115很满意满意一般不满意很不满意合计A71210635B10207340C51515540合计224732141156.714.39.74.37.716.311.14.97.716.311.14.9,P值0.30。两个变量X与Y的独立性检验数据:对(X,Y)进行联合随机抽样,得到二维样本数据分类:把

X

变量的取值分为r类,把

Y

变量的取值分为s类。于是,(X,Y)的取值就分为rs类。然后,对二维样本在这rs类中的频数进行统计,得:数据结构:二维样本的频数分布总体分类B1……Bs

合计A1n11……n1sn1·…………………………Arnr1……nrsnr·合计n·1……n·sn检验方法:等价于r个总体分布的齐一性检验。统计解释: 对于检验统计量在r个总体分布的齐一性检验中,nij表示第i个样本的第j次观测值;其理论值及其估计值分别为在两个变量X和Y的独立性检验中,nij表示二维样本的第(i,j)个观测值;其理论值及其估计值分别为和例8:在一次学生英语成绩的调查中,通过对文科、理科和工科的成绩分组,得到如下统计人数:优良及格不及格合计文科5035105100理科65115155200工科1501003020300合计265250553060044.241.79.2588.383.318.310132.512527.515因此,可以认为学生英语成绩与学生文理工的科别不独立,即文科、理科和工科学生英语成绩的分布是不一致的。,P值0.00001。例9:血型与疾病关系的研究(方积乾,p117)因此认为不同组别的血型分布有显著差异,或认为组别与血型之间是不独立或相关的。那么,组别与血型之间的关系怎样呢?,P值0.0000003。不同疾病病人的血型分布疾病分类血型分布合计ABO胃溃疡组6791349831796胃癌组41684383883对照组262557028926087合计372078842588766疾病分类ABC合计胃溃疡组37.8%7.5%54.7%100%胃癌组47.1%9.5%43.4%100%对照组43.1%9.4%47.5%100%每种组别的血型分布比例疾病分类ABC胃溃疡组18.3%17.0%23.1%胃癌组11.2%10.7%9.0%对照组70.6%72.3%67.9%合计100%100%100%每种血型的组别分布比例直观上,对照组与胃癌组差异不显著,胃溃疡组与这两组的差异显著。直观上,血型A与B的差异不显著,血型C与这两组的差异显著。按比例进行直观比较疾病分类血型分类ABC合计胃溃疡组胃癌组109521813662679对照组262557028926087合计372078842588766每种组别的血型分布比例做两个总体分布比较的齐一性检验:做病患(胃溃疡+胃癌)与对照组的比较,P值=0.0065。因此,可以认为病患(胃溃疡+胃癌)与对照组有显著差异。疾病分类血型分类ABC合计胃癌组41684383883对照组262557028926087合计304165432756970每种组别的血型分布比例做两个总体分布比较的齐一性检验:做胃癌组与对照组的比较,P值=0.06。因此,可以认为胃癌组与对照组的差异不太显著。疾病分类血型分类ABC合计胃溃疡组6791349831796非胃溃疡组304165432756970合计372078842588766每种组别的血型分布比例做两个总体分布比较的齐一性检验:做胃溃疡组与非胃溃疡的比较,P值=0.00000003。因此认为胃溃疡组与非胃溃疡组有显著差异。疾病分类血型分类AB合计胃溃疡组679134813

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论