版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章卡方检验第一页,共六十六页,编辑于2023年,星期四本章主要介绍卡方检验的基本概念、独立性检验方法、适合性检验方法第二页,共六十六页,编辑于2023年,星期四在科研工作和实际生产中,我们经常会碰到许多质量性状方面的资料,这些资料可以转化成百分率后使用t-test方法进行检验,但这仅限于一个样本率与总体率的比较、两个样本率间的比较除此之外,我们还可以用检验来完成检验工作特别当有多个样本进行比较时,必须用检验来完成第三页,共六十六页,编辑于2023年,星期四第一节检验的意义和原理概念第四页,共六十六页,编辑于2023年,星期四遗传学中,研究某一性状是否受一对等位基因的控制,该性状在后代的分离比例是否符合某种规律例1孟德尔的豌豆花试验(红花
705朵、白花224朵),这一分离是否符合3:1的分离比例的假设?如果这一3:1的理论比例是正确的,那么这一试验所出现的红花和白花的理论比例应当是:红花:696.75白花:232.25显然,实际出现的红花、白花的朵数与理论值之间有一定的差异,即observedfrequency和expectedfrequency
(如何用t-test来完成这一检验?)第五页,共六十六页,编辑于2023年,星期四连续进行多次试验,每一次的结果都不会相同,每一次的结果都不会刚好符合理论值可以这样设想:观察值与理论值之间的差距越小,表示试验结果与理论值越相符;反之,观察值与理论值之间的距离越大,表示试验结果与理论值越不符,当这一差值大到一定程度时,我们就可以认为豌豆花的颜色是不受一对等位基因控制的,可能是另外一种遗传模式但如何来界定这种相符或不相符?第六页,共六十六页,编辑于2023年,星期四从数据上看,实际观察次数与理论次数存在一定的差异,这个差异是属于抽样误差、还是性状在后代的分离比例发生了实质性的变化?要回答这个问题,首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。第七页,共六十六页,编辑于2023年,星期四为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与理论次数的差数。当将这两个差值相加,(705-696.75)+(224-232.25)=0。可以说,任何类似的问题其结果都是0。为了避免正、负抵消,可将两个差数平方后再相加,即计算∑(O-E)2,且由于平方,使得原来较大的差变得更大了,因而增大了分析问题的灵敏性但利用∑(O-E)2表示实际观察次数与理论次数的偏离程度尚有不足。未考虑观察次数(与理论次数)的大小对偏离程度的影响。为了弥补这一不足,可先将各差数平方除以相应的理论次数后再相加(转化为相对比值)并记之为,即第八页,共六十六页,编辑于2023年,星期四上例中:红花:白花:两者之和:=值越小,表示试验结果与理论值越相符;反之,越大,表示试验结果与理论值越不符,∑第九页,共六十六页,编辑于2023年,星期四分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相符等问题。早在1875年,F.Helmet即得出来自正态总体的样本方差的分布服从卡方分布。1900年,K.Pearson也独立地从检验分布的拟合优度发现这一相同的卡方分布。KarlPearson(1857-1936)第十页,共六十六页,编辑于2023年,星期四■
χ2分布χ2分布的概率密度函数:
第十一页,共六十六页,编辑于2023年,星期四■
χ2分布χ2分布的概率密度函数:
第十二页,共六十六页,编辑于2023年,星期四连续性校正
由于χ2分布是连续性分布,被检验的资料是离散型的分类资料,而从离散型资料得到的统计量只是近似地服从χ2分布,因此,为了保证有足够的近似程度,一般要求:①自由度必须大于1②理论频数不少于5若某组的理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止。当自由度大于1时,分布与连续型随机变量分布相近似,这时,可不作连续性矫正,但要求各组内的理论次数不小于5。第十三页,共六十六页,编辑于2023年,星期四当自由度为1时,Yates(1934)提出了一个矫正公式,矫正后的2值记为
c2第十四页,共六十六页,编辑于2023年,星期四例2
正常情况下,中国婴儿的性别比为:♂51:♀49即每出生
100个女婴,就有103~105
个男婴统计某地区连续3年的婴儿性别比,得:男婴4691人:女婴4159人,试问该地区的新生儿性别比正常吗?我们用列表的方式检查之:婴儿性别实际值(O)理论值(E)
O-E
男婴46914513.5177.56.98
女婴41594336.5-177.57.27
合计88508850.0014.25
第十五页,共六十六页,编辑于2023年,星期四显然,这一值较大,有可能这一地区的婴儿出生性别比不太正常(请用t-test
进行检验,看这一性别比是否符合常规性别比)第十六页,共六十六页,编辑于2023年,星期四例3
长翅灰身(LLGG)的果蝇与残翅黑檀体(llgg)果蝇交配,其后代F1全为长翅灰身,F1自群繁育,结果出现了4种表现型:长灰(1477)、长黑(493)、残灰(446)、残黑(143),现假定控制翅膀长度和身体颜色的两对基因是相互独立的,且都是显隐性关系,则四种类型的果蝇其比例应当是9:3:3:1现需验证这次试验的结果是否符合这一分离比例第十七页,共六十六页,编辑于2023年,星期四
长翅灰身(LLGG)×残翅黑檀体(llgg)
长翅灰身(L_G_)
长灰长黑残灰残黑
(1477)(493)(446)(143)第十八页,共六十六页,编辑于2023年,星期四1477+493+446+143=2559以上二个例子都要求我们判断观测值与理论值之间是否相符,而我们都可以得到一个值第十九页,共六十六页,编辑于2023年,星期四检验的一般步骤:首先提出假设其次计算值最后根据值出现的概率判断无效假设是否成立自由度不同,分布是不同的卡方分布的自由度仅与性状的类别有关,而与次数无关,例1中有两类花,因此其自由度为2-1=1例3中有4
类果蝇,因此其自由度为4-1=3不同检验自由度的计算也不一样第二十页,共六十六页,编辑于2023年,星期四第二节适合性检验
一、适合性检验的意义判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为适合性检验。下一张
主页
退出
上一张
第二十一页,共六十六页,编辑于2023年,星期四
1.在适合性检验中,H0:实际属性类别分配符合已知属性类别分配;HA:实际属性类别分配不符合已知属性类别
2.在无效假设成立的条件下,按已知属性类别分配的理论或学说计算理论值。
下一张
主页
退出
上一张
第二十二页,共六十六页,编辑于2023年,星期四3.因各个属性类别理论次数的总和应等于其实际观察次数的总和,适合性检验的自由度等于属性类别分类数减1
。若属性类别分类数为k,则适合性检验的自由度为k-1。4.计算出2或2c,并与临界的2值(20.05、20.01)比较:下一张
主页
退出
上一张
第二十三页,共六十六页,编辑于2023年,星期四适合性检验适用于某一实际资料是否符合一理论值,因此适合性检验常用于遗传学研究、质量鉴定、规范化作业、一批数据是否符合某种理论分布等。我们以例3
来说明适合性检验的一般步骤第二十四页,共六十六页,编辑于2023年,星期四设立无效假设,果蝇的分类观测值与理论值相符两者不符计算值,前面已经得到df=4-1=3
查值表,得接受无效假设,即果蝇的这四种类型分离符合自由组合定律9:3:3:1第二十五页,共六十六页,编辑于2023年,星期四例2的值需重新计算,因为性别比只有两类,因此其自由度为1,应作连续性校正连续性校正公式是:先作无效假设:本例男女婴性别比符合常规比例不符常规比例计算值查值表,得第二十六页,共六十六页,编辑于2023年,星期四否定无效假设,接受备择假设,即该地区婴儿出生的性别比极显著偏离正常性别比,应查找原因(例1
是否需要作连续性校正?)第二十七页,共六十六页,编辑于2023年,星期四的分割有时候,经检验,被推翻,而接受了,即表示整个资料不符合某一理论比例。问题:但这总的值是反映全部资料均不符合理论比例?还是其中部分资料不符合比例?下面我们看一个例题第二十八页,共六十六页,编辑于2023年,星期四两对性状F2分离的四种表现型观测资料分别为154、43、53、6,试问该批资料是否符合9:3:3:1?该例的自由度为4-1=3(不需要进行校正)先计算理论次数:154+43+53+6=256A-B-:144A-bb:48aaB-:48aabb:16
设立无效假设(略)第二十九页,共六十六页,编辑于2023年,星期四否定无效假设,接受备择假设,即这批资料与设定的理论分离比例9:3:3:1不符是整批资料都不符?还是部分不符?我们需作进一步的分析,因此应对作分割这种分割是建立在具有可加性的特点上的,而这种可加性只有在次数资料各部分相互独立、且不作连续性校正的基础上才能成立第三十页,共六十六页,编辑于2023年,星期四卡方检验再分割具体步骤1.用检验确定实际值与理论值是否有差异2.确定值最大的属性类别项3.检验其余项是否符合理论分配比例4.再检验值最大项与其余项的合并组是否符合理论分配比例第三十一页,共六十六页,编辑于2023年,星期四该例的四个分值分别为:0.694+0.521+0.521+6.25=7.986显然,前面三个分值较小,因此先取前三部分的比例作检验:154+43+53=250A-B-:150A-bb:50aaB-:50提假设,计算统计量接受无效假设,即这三部分资料的实际观测值符合9:3:3的理论比例第三十二页,共六十六页,编辑于2023年,星期四再检查aabb
与这三部分之和是否符合1:15前三部分之和(理论值):240aabb:16这说明aabb
不符合理论比例第三十三页,共六十六页,编辑于2023年,星期四
检验中的适合性检验一般要求样本量应大一些,样本较小会影响到检验的正确性,特别是当理论比例中有较小值时(上一例中的aabb),更应当注意样本容量,这一例即有样本偏小的倾向第三十四页,共六十六页,编辑于2023年,星期四第三节独立性检验第三十五页,共六十六页,编辑于2023年,星期四
一、独立性检验的意义
对次数资料,除进行适合性检验外,有时需要分析两类因子是相互独立还是彼此相关。根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。第三十六页,共六十六页,编辑于2023年,星期四这时需要分析药物种类与疗效是否相关,若两者彼此相关,表明疗效因药物不同而异,即两种药物疗效不相同;若两者相互独立,表明两种药物疗效相同。这种根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料对子因子间相关性的研究。下一张
主页
退出
上一张
第三十七页,共六十六页,编辑于2023年,星期四独立性检验是检查两个变量、两个事件是否相互独立的这么一种检验例如:鱼池清塘与否与鱼病的发生是否有关?若两者相互独立,即表示清塘无效,清塘后鱼的发病率与没有清塘是一样的;如果清塘后鱼的发病率显著降低了,表示清塘与鱼的发病率这两者间是有关系的因此,独立性检验的无效假设是两变量相互独立,其备择假设是两变量相关(即两者之间有依存关系)第三十八页,共六十六页,编辑于2023年,星期四在设立无效假设的前提下,计算值,当时,接受无效假设,即两变量相互独立;当否定无效假设,接受备择假设,即两变量之间存在相关独立性检验没有理论比率,因此必须用列表的方式从现有的观测值次数来推算理论比值,这种用表的方式来推算理论次数的方法是建立在两因子无关(两因子相互独立),即两因子齐性的基础上的第三十九页,共六十六页,编辑于2023年,星期四独立性检验与适合性检验是两种不同的检验方法,除了研究目的不同外,还有以下区别:(一)独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成2×2、2×c、r×c列联表(r为行因子的属性类别数,c为列因子的属性类别数)。而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。第四十页,共六十六页,编辑于2023年,星期四(二)适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。(三)在适合性检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际次数之和,自由度为属性类别数减1。而在r×c列联表的独立性检验中,共有rc个理论次数,但受到以下条件的约束:下一张
主页
退出
上一张
第四十一页,共六十六页,编辑于2023年,星期四
1、rc个理论次数的总和等于rc个实际次数的总和;
2、r个横行中的每一个横行理论次数总和等于该行实际次数的总和。但由于r个横行实际次数之和的总和应等于rc个实际次数之和,因而独立的行约束条件只有r-1个;
3、类似地,独立的列约束条件有c-1个。因而在进行独立性检验时,自由度为rc-1-(r-1)-(c-1)=(r-1)(c-1),即等于(横行属性类别数-1)×(直列属性类别数-1)。第四十二页,共六十六页,编辑于2023年,星期四独立性检验一、2×2表结合实际例子来说明这种表的使用将鱼苗放进鱼池前先将鱼池消毒,能否减轻鱼苗的发病情况,在此之前先作一试验,得数据如下:发病不发病合计消毒300(a)920(b)1220不消毒580(c)630(d)1210合计88015502430第四十三页,共六十六页,编辑于2023年,星期四这张表共2行、2列,因此称为2×2
表从这张表中我们可以看出,消毒的鱼池中,有发病的鱼苗,也有不发病的鱼苗;没消毒的鱼池中,鱼也有发病和不发病两种假设鱼池是否消毒不影响鱼的发病情况(这是无效假设的前提和内容),那么,消毒鱼池和不消毒鱼池中鱼的发病率应当是一样的,所产生的误差是抽样误差,即第四十四页,共六十六页,编辑于2023年,星期四得:同样的道理,我们可得:第四十五页,共六十六页,编辑于2023年,星期四我们将上述数据制成一张表:发病不发病合计消毒300(441.81)920(778.19)1220不消毒580(438.19)630(771.81)1210
合计88015502430表中,括弧内的就是理论值需要注意的是,这种结构的检验其自由度是横行数减1
乘以纵列数减1:因此这里应该使用校正公式计算值第四十六页,共六十六页,编辑于2023年,星期四设立无效假设设鱼苗的发病与鱼池消毒与否无关(或:鱼池消毒与否不影响鱼苗是否发病)鱼苗的发病与鱼池消毒与否有关(或:鱼池消毒与否直接影响鱼苗的发病)得:第四十七页,共六十六页,编辑于2023年,星期四否定无效假设,即鱼池消毒与否极显著地影响着鱼苗的发病(或鱼苗的发病情况直接受鱼池消毒与否的影响)第四十八页,共六十六页,编辑于2023年,星期四二、R×C表(R:行
C:列)R×C表是2×2
表的扩展,反之,2×2
表也可以看成是R×C
表的一个特例当行>2、列>2时,2×2表就成为了R×C
表这样的表称为列联表(contingencytable)R×C
表的自由度为(R-1)×(C-1)实例:检查鱼的饲养方式与鱼的等级是否有关,设计了如下试验:按不同方式分为三种网箱饲养类型:A、B、C,统计不同饲养方式下鱼的等级情况,得如下数据,试分析第四十九页,共六十六页,编辑于2023年,星期四
等饲养方式合级ABC
计甲22(9.32)18(18.99)16(17.68)56
乙18(16.56)16(16.28)14(15.16)48
丙11(13.11)13(12.89)14(12.0)38
丁8(10.01)11(9.84)10(9.16)29
和595854171计算上表中各理论值(即括弧内的数值,如何计算?)第五十页,共六十六页,编辑于2023年,星期四设鱼的等级与饲养方式无关鱼的等级与鱼苗的饲养方式有关将计算得到的理论值填入上表中,并计算值:接受无效假设,即商品鱼的规格与饲养方式无关第五十一页,共六十六页,编辑于2023年,星期四独立性检验的公式可以使用简易公式,即不需要计算理论值,但这种公式较难记忆。三、配对资料的独立性检验第五十二页,共六十六页,编辑于2023年,星期四甲种属性乙种属性+-合计+aba+b-cdc+d合计a+cb+dn=a+b+c+d注意:a、b、c、d代表对子数!表1配对四格表基本结构的第五十三页,共六十六页,编辑于2023年,星期四甲种属性乙种属性++a+-b-+c--d甲属性的阳性率:(a+b)/n乙属性的阳性率:(a+c)/n若H0成立,则有(a+b)/n-(a+c)/n=0,即(b-c)/n=0可见,两个变量阳性率的比较只和b、c有关,而与a、d无关。若H0成立,两种属性不一致的两个格子理论频数都应该是(b+c)/2第五十四页,共六十六页,编辑于2023年,星期四例4现有198份痰标本,每份标本分别用A、B两种培养基培养结核菌,结果如下表,A培养基的阳性培养率为36.36%,B培养基的阳性培养率为34.34%,试问A、B两种培养基的阳性培养率是否相等?B培养基A培养基+-合计+482472-20106126合计68130198表2两种培养基的培养结果第五十五页,共六十六页,编辑于2023年,星期四第四节理论分布的检验第五十六页,共六十六页,编辑于2023年,星期四我们有时候需要知道,某一个试验其结果是否符合某一理论分布,或希望知道符合什么样的理论分布,这关系到试验的结果是否正常或是否合理下面我们用一个实例来说明这种检验显微镜下检查某奶样中结核菌的分布情况,根据视野内小方格中结核菌数进行统计,并将不同结核菌数将格子归类,记录每类的格子数结果见下表:第五十七页,共六十六页,编辑于2023年,星期四格子内结核菌数(x)a0123456789T格子数b519262621135111118我们先计算每格子内结核菌数的加权平均值:计算每一种结核菌数目的概率值P(x)和理论格子数:
第五十八页,共六十六页,编辑于2023年,星期四将每一类型的概率值和理论格子数填入表下,并计算值:a0123456789Tb519262621135111118c0.051
0.1510.2250.2240.1670.1000.0500.0290.0080.0031.00d5.9817.8326.5926.4419.7111.765.852.490.930.31118e0.1590.0770.0130.0070.0840.1310.1230.142上表中,a为前一表中的“格子内结核菌数(x)”
,b为格子数,c为概率值P(x),d为理论格子数,e为各个值,最后一个值0.142
是合并值得=0.736即该样本内结核菌的分布十分符合泊松分布第五十九页,共六十六页,编辑于2023年,星期四利用分布,还可以对样本的方差进行同质性检验:一个样本的方差与总体方差的同质性检验公式为:两个样本的方差同质性检验公式为:第六十页,共六十六页,编辑于2023年,星期四三个或以上样本的方差同质性检验公式为:其中为合并均方
为校正值为自由度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程系列初中高级职称评审条件
- 甘肃省天水市一中2017-2018学年高一下学期第一学段考试地理试题(理)
- 税法案例分析单选题100道及答案解析
- 人教部编八年级语文上册《一着惊海天》示范课教学课件
- 小学安全教育教案-全
- 专利技术转让居间佣金合同
- O2O电子商务模式发展研究
- 2023-2024学年全国小学四年级上语文人教版期中试卷(含答案解析)
- 热力学第一定律
- 2024年郑州客运从业资格证考试考什么
- 有机肥料项目运输方案
- 光伏自发自用项目年用电清单和消纳计算表
- 小学数学大单元教学策略
- 2023年云南昆明市西山区碧鸡街道社区青年人才招考笔试历年高频考点(难、易错点荟萃)附带答案详解
- 人教部编版三年级上册语文【选择题】专项复习训练练习100题
- 山西省太原市2022-2023学年高二上学期期中测试物理试题
- 幼儿园大班科学《降落伞》
- 社团活动经费预算申请表
- 2022-2023学年福建省福州市福清市闽教版五年级上学期期中练习英语试卷(含听力音频)
- 第21课《创造宣言》课件(共29张)语文九年级上册
- 经营范围登记规范表述目录(试行)(V1.0.2版)
评论
0/150
提交评论