卡方-拟合优度检验_第1页
卡方-拟合优度检验_第2页
卡方-拟合优度检验_第3页
卡方-拟合优度检验_第4页
卡方-拟合优度检验_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物统计学第七章拟合优度检验-

2检验拟合优度检验的意义

判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验。

简单的说:*用于检验总体是否服从某个指定分布。

Ⅰ.检测观察数与理论数之间的一致性;Ⅱ.通过检测观察数与理论数之间的一致性来判定事物之间的独立性。

§7.1、拟合优度检验的一般原理7.1.1什么是拟合优度检验(P92)

一、

2统计量的意义

为了便于理解,现结合一实例说明

2(读作卡方)统计量的意义。根据遗传学理论,动物的性别比例是1:1。统计某一年所产的876只实验动物,有雄性428只,雌性448只。按1:1的性别比例计算,雌雄均应为438只。以Oi表示实际观察次数,Ti表示理论次数,可将上述情况列成下表。7.1.2拟合优度检验的统计量(P92)表动物性别实际观察次数与理论次数性别实际观察次数Oi理论次数TiOi-Ti(Oi-Ti)2/Ti雌428438-100.2283雄448438100.2283合计87687600.4563从上表可以看到,实际观察次数与理论次数存在一定的差异。这个差异是属于抽样误差、还是其性别比例发生了实质性的变化?要回答这个问题:①首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度;②然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。为了度量实际观察次数与理论次数偏离程度:A:最简单的办法是求出实际观察次数与理论次数的差数。如上表:O1-T1=-10,O2-T2=10,由于这两个差数之和为0,显然此方法不可行;B:计算∑(O-T)2,其值越大,实际观察次数与理论次数相差亦越大,反之则越小。但尚有不足。例如某一组实际观察次数为505、理论次数为500,相差5;而另一组实际观察次数为26、理论次数为21,相差亦为5。为了弥补B这一不足,将各差数平方除以相应的理论次数后再相加,并记之为

2,即也就是说

2是度量实际观察次数与理论次数偏离程度的一个统计量,

2越小,表明实际观察次数与理论次数越接近;

2=0,表示两者完全吻合;

2越大,表示两者相差越大。二、

2分布上面引入了统计量

2,它近似地服从统计学中一种连续型随机变量的概率分布

2分布。下面对统计学中的

2分布作一简略介绍。设有一平均数为μ、方差为的正态总体。现从此总体中独立随机抽取n个随机变量:x1、x2、…、xn,并求出其标准正态离差:

记这n个相互独立的标准正态离差的平方和为

2:

它服从自由度为n的

2分布,记为~

2(n);若用样本平均数代替总体平均数μ,则随机变量

服从自由度为n-1的

2分布,记为~显然,

2≥0,即

2的取值范围是[0,+∞

2分布密度曲线是随自由度不同而改变的一组曲线。随自由度的增大,曲线由偏斜渐趋于对称;df≥30时,接近正态分布。下面给出了几个不同自由度的

2概率分布密度曲线。

的连续性矫正

由公式计算的

2只是近似地服从连续型随机变量

2分布。在对次数资料进行

2检验利用连续型随机变量

2分布计算概率时,常常偏低,特别是当自由度为1时偏差较大。Yates(1934)提出了一个矫正公式,矫正后的

2值记为:=(7-2)

当自由度大于1时,原公式的

2分布与连续型随机变量

2分布相近似,这时,可不作连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止。

统计量:

使用条件:各理论值均大于5。

若自由度为1,则应作连续性矫正:方法为:把x的值域分为r个不相重合的区间,再计算在指定的分布下,x落入每一区间的概率pi统计样本含量为n的抽样中,观察值落入各区间的次数Oi用统计量进行检验,步骤如下:

§7.2、拟合优度检验7.2.1一般程序(P93)*检验步骤如下:(一)提出无效假设与备择假设(二)选择计算公式(三)计算理论次数(四)计算

2值(五)查临界

2值,作出统计推断说明:(一)

H0:实际观察的属性类别分配符合已知属性类别分配的理论或学说;HA:实际观察的属性类别分配不符合已知属性类别分配的理论或学说。(二)选择计算出

2还是

2c。(三)在无效假设成立的条件下,按已知属性类别分配的理论或学说计算各属性类别的理论次数。(四)计算出

2或

2c。(五)根据自由度k-1(若属性类别分类数为k,则适合性检验的自由度为k-1)查

2值表(附表)所得的临界

2值:

20.05、

20.01,将所计算得的

2或

2c值与其比较,作出统计推断:若

2(或

2c)<

20.05,P>0.05,表明实际观察次数与理论次数差异不显著,可以认为实际观察的属性类别分配符合已知属性类别分配的理论或学说;若

20.05≤

2(或

2c)<

20.01,若

2(或

2c)≥

20.01,下面结合实例说明适合性检验方法。(总体参数已知)【例】在研究牛的毛色和角的有无两对相对性状分离现象时,用黑色无角牛和红色有角牛杂交,子二代出现黑色无角牛192头,黑色有角牛78头,红色无角牛72头,红色有角牛18头,共360头。试问这两对性状是否符合孟德尔遗传规律中9∶3∶3∶1的遗传比例?7.2.2对二项分布的检验(P93)检验步骤:

(一)提出无效假设与备择假设H0:实际观察次数之比符合9∶3∶3∶1的理论比例。HA:实际观察次数之比不符合9∶3∶3∶1的理论比例。

(二)选择计算公式

由于本例的属性类别分类数k=4:自由度df=k-1=4-1=3>1,故计算

2。

(三)计算理论次数

依据各理论比例9:3:3:1计算理论次数:黑色无角牛的理论次数T1:360×9/16=202.5;黑色有角牛的理论次数T2:360×3/16=67.5;红色无角牛的理论次数T3:360×3/16=67.5;红色有角牛的理论次数T4:360×1/16=22.5。或T4=360-202.5-67.5-67.5=22.5

(四)列表计算

2

2计算表=0.5444+1.6333+1.6333+0.9=4.711

(五)查临界

2值,作出统计推断

当df=3时,

20.05(3)=7.81,因

2<

2005(3),P>0.05,不能否定H0

,表明实际观察次数与理论次数差异不显著,可以认为毛色与角的有无两对性状杂交二代的分离现象符合孟德尔遗传规律中9∶3∶3∶1的遗传比例。例7.1;7.2(P93;94)总体参数未知例P95,表7-1不同之处:要由样本估计出总体参数。7.2.3对正态分布的检验(P96)7.2.4其他类型问题的检验(P97)

一、独立性检验的意义

对次数资料,除进行拟合优度检验外,有时需要分析两类因子是相互独立还是彼此相关。如研究两类药物对实验动物某种疾病治疗效果的好坏,先将动物分为两组,一组用第一种药物治疗,另一组用第二种药物治疗,然后统计每种药物的治愈头数和未治愈头数。

§7.3、独立性检验7.3.1列联表

2

检验(P97)这时需要分析药物种类与疗效是否相关,若两者彼此相关,表明疗效因药物不同而异,即两种药物疗效不相同;若两者相互独立,表明两种药物疗效相同。这种根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。*独立性检验实际上是基于次数资料对因子间相关性的研究。

独立性检验与拟合优度检验是两种不同的检验方法,除了研究目的不同外,还有以下区别:

(一)

独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成2×2、2×c、r×c列联表(r为行因子的属性类别数,c为列因子的属性类别数)。而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。

(二)拟合优度检验按已知的属性分类理论或学说,计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。(三)在拟合优度检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际次数之和,自由度为属性类别数减1。而在r×c列联表的独立性检验中,共有rc个理论次数,但受到以下条件的约束:

1、rc个理论次数的总和等于rc个实际次数的总和;2、r个横行中的每一个横行理论次数总和等于该行实际次数的总和。独立的行约束条件只有r-1个;3、类似地,独立的列约束条件有c-1个。因而在进行独立性检验时,自由度为rc-1-(r-1)-(c-1)=(r-1)(c-1),即等于(横行属性类别数-1)×(直列属性类别数-1)。二、独立性检验的方法

(一)2×2列联表的独立性检验2×2列联表的一般形式如下表所示,其自由度df=(

c-1)(r-1)=(2-1)(2-1)=1,在进行

2检验时,需作连续性矫正,应计算值。

表2×2列联表的一般形式其中Aij为实际观察次数,Tij为理论次数。其理论数的计算为:

例7.3下表是不同给药方式与给药效果表给药方式与给药效果的2×2列联表给药方式有效(A1)无效(A2)总数有效率口服(B1)注射(B2)58644031989559.2%67.4%总数12271193

上表称为2×2列联表(2×2contingencytable)。2×2列联表的c2检验一般需经以下各步:

(1)提出零假设:认为有效或无效与给药方式并无关联。实际观察的结果与在两者之间并无关联的前提下,从理论上推导出的理论数之间无差异。即H0:O-T=0。

(2)根据概率乘法法则,若事件A和事件B是相互独立的,或者说它们之间并无关联,这时事件A和事件B同时出现的概率等于它们分别出现的概率乘积。反过来,若事件A和事件B同时出现的概率等于它们分别出现的概率的乘积,那么事件A和事件B是独立的两者无关联。若事件A和事件B同时出现的概率不等于它们分布出现的概率的乘积,则这两个事件间是有关联的。例7.3的零假设是给药方式与给药效果之间无关联,则口服与有效同时出现的理论频率应为口服的频率与有效的频率的乘积,P(BA)=P(B)P(A)=(98/193)(122/193)。其理论数T1应当用理论频率乘以总数得出,T1=(98/193)(122/193)(193)=(98)(122)/193=61.15。同样可以计算出另外三种情况的理论数。

(3)如吻合度检验那样计算c2值。若c2<c2α,则观察数与理论数是一致的,给药方式与给药效果间无关联的假设可以成立。若c2>c2α,则观察数与理论数不一致,说明给药方式与给药效果间是有关联的,不同的给药方式产生不同的效果。

(4)确定自由度,2×2列联表的自由度不再是4-1=3,而是(r-1)(c-1)或者写为(行-1)(列-1)。因为每一行的各理论数受该行总数的约束,每一列的各理论数受该列总数的约束,所以总的自由度只有(r-1)(c-1)。下面计算例1.11的c2并做推断。首先计算各格的理论数,从下表中可以看出,任何一格的理论数等于这格所在的行总数乘以这格所在的列总数,再除以总数。在实际计算时,算出T1以后,可以用列总数减去T1得T3,用行总数减去T1得T2,列总数减去T2得T4。有效无效总数口服O1=58T1=(98)(122)/193=61.95O2=40T2=(98)(71)/193=36.0598注射O3=64T3=(95)(122)/193=60.05O4=31T4=(95)(71)/193=34.9595总数12271193结论是用口服方式与注射方式给药的效果没有显著不同。因为已经接受H0,不必再矫正。

【例】某研究用80头实验动物检验某种疫苗是否有预防效果。结果是注射疫苗的44头中有12头发病,32头未发病;未注射的36头中有22头发病,14头未发病,问该疫苗是否有预防效果?

1、先将资料整理成列联表(2×2列联表)

2、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论