应用统计学(第六章-次数资料的χ2检验)_第1页
应用统计学(第六章-次数资料的χ2检验)_第2页
应用统计学(第六章-次数资料的χ2检验)_第3页
应用统计学(第六章-次数资料的χ2检验)_第4页
应用统计学(第六章-次数资料的χ2检验)_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学第六章次数资料的χ2检验连续型资料资料离散型资料总体方差未知总体方差已知u检验t检验二项分布检验χ2检验一、χ2检验概述1.χ2检验的定义

对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验(根据样本的频数分布推断总体分布)2.χ2检验与(参数)假设检验的区别 1)假设检验的数据是连续变量,χ2检验的数据是离散变量 2)假设检验数据的总体呈正态分布,χ2检验的数据的总体分布未知 3)假设检验是检验总体参数,χ2检验是检验总体分布3.χ2检验的用途

1)独立性检验:研究两个或两个以上的次数资料或属性资料之间是相互独立的或者是相互联系的假设检验,通过假设所观测的各属性之间没有关联,然后证明这种无关联的假设是否成立

2)适合性检验:先通过一定的理论分布对样本的理论数进行推算,然后用实际观测值与理论数相比较,从而得出实际观测值与理论数之间是否吻合的结论

3)同质性检验:一个样本方差二、χ2检验的原理

χ2检验就是统计样本的实际观测值与理论推算值之间的偏离程度。

实际值与理论值之间的偏离程度就决定其χ2值的大小: 1)理论值与实际值之间偏差越大,χ2值就越大,越不符合 2)理论值与实际值之间偏差越小,χ2值就越小,越趋于符合 3)理论值与实际值完全相等时,χ2值就为0,表明完全符合1.χ2检验的统计量 1)χ2检验统计量O:实际观测值,E:理论推算值 2)χ2检验统计量的特点

可加性

非负性

随O、E变化2.χ2检验的步骤

假设:

H0:观测值=理论值,观测值与理论值的差异是抽样误差 HA:观测值≠理论值,观测值与理论值的差值不是抽样误差

确定显著水平:α=0.05或0.01

计算统计量χ2:推断:(df=k-1)χ2<χa2,P>α,接受H0,否定HAχ2>χa2,P<α,接受HA,否定H03.χ2检验的注意事项

1)χ2检验要求样本为随机抽样所得,且代表性好

2)χ2检验是对次数资料的检验,连续型数据需分组进行检验 3)总体分布未知的频率或构成比数据,用χ2检验

4)χ2检验容易犯第II类错误,不易发现实际存在的统计学差异

5)df=1时,需进行连续性矫正:6)要求样本容量n>40,否则应使用精确概率法计算概率7)一般要求理论数Ei

≥5,否则需要归并数据或增大样本容量三、独立性检验

检验两个(或多个)因子彼此之间是否相互影响

医学和遗传学上,当试验结果以有序的分组变量表示时,不能用独立性检验法进行检验,而使用秩和检验或Ridit分析 2×2列联表的独立性检验 r×c

列联表的独立性检验1.2×2列联表 A、B是随机试验中的两个事件,其中A可能出现r1

、r2个结果,B可能出现c1、c2个结果,两因子相互作用(同时出现或不出现、其一出现)分别以O11

、O12

、O21

、O22表示,可用2×2列联表的形式表示:c1(+)c2(-)合计r1(+)O11O12R1=O11+O12r2(-)O21O22R2=O21+O22合计C1=O11+O21C2=O12+O22T基于事件A和事件B相互独立的假设,可以计算出各组理论数:(i=1,2,j=1,2)2.r×c

列联表12…j…c合计1O11O12………O1cR12O21O22………O2cR2……………………i………Oij……Ri……………………rOr1Or2………OrcRr合计C1C2…Cj…CcT基于事件A和事件B相互独立的假设,可以计算出各组理论数:(i=1,2,…j=1,2,…)3.理论数和χ2值的计算理论数自由度::df=(r-1)(c-1)χ2值:r×c2×2例1给药方式与疗效2×2列联表给药方式有效无效总数口服58(61.95)40(36.05)98(R1)注射64(60.05)31(34.95)95(R2)总数122(C1)71(C2)193(T)解:计算理论值和χ2值:

df=1,χ20.05

=3.842;χ2c

<χ20.05

,P>0.05推断:接受H0,否定HA。给药方式与给药效果相互独立(给药方式不影响给药效果)。例2:农药对烟蚜毒杀效果的2×3列联表

甲乙丙合计死亡数

37(49.00)

49(39.04)23(20.96)109未死亡数150(138.00)100(109.96)57(59.04)307合:统计量计算:

df=2,χ20.05=5.992;χ2>χ20.05

,P<0.05推断:否定H0

,接受HA。三种农药对烟蚜的毒杀效果存在显著差异。例3:肺门密度与矽肺期次的3×3列联表矽肺期次肺门密度合计++++++Ⅰ43(249)188(149.9)14(70.2)245Ⅱ1(17.2)96(103.4)72(48.4)169Ⅲ6(7.9)17(47.7)55(22.4)78合计50301141492解:计算统计量χ2:

df=4,χ20.01=13.277;χ2

>χ20.01

,P<0.01推断:否定H0,接受HA。矽肺患者肺门密度的增加与矽肺的期次有极为密切的关系。若需进一步比较r×c列联表内组间的差异,可将r×c列联表做成多个2×c列联表进行检验。例4:碘治疗甲状腺肿效果与年龄关系3×4列联表年龄(岁)治愈显效好转无效合计11~3067(45.29)9(17.87)10(22.02)5(5.82)9131~5032(39.32)23(15.51)20(19.12)4(5.05)7950以上10(24.39)11(9.62)23(11.86)5(3.13)49合计109435314219

试验结果为有序的分组变量,按医学和遗传学统计分析的要求,不能用独立性检验法进行检验,需使用Ridit分析和秩和检验4.列联表的精确概率法

小样本列联表的统计检验方法 Fisher精确概率法 2×2列联表(四格表)aba+bcdc+da+cb+dN 1)数据组合

在周边合计(a+b、c+d、a+c、b+d)不变的条件下,用公式计算表内数据的各种组合的概率

假设a+b最小(组合数为周边合计中最小值加1),则组合(i)aibicidiaidi-bici10a+ba+cd-a-(a+b)(a+c)21a+b-1a+c-1d-a+1(d-a+1)-(a+b-1)(a+c-1)………………a+1abcdad-bc………………a+ba+b-11c-b+1b+d-1(a+b-1)(b+d-1)-(c-b+1)a+b+1a+b0c-bb+d(a+b)(c+d) 2)概率计算

概率计算公式:

比较极端组合累积概率与实际频数分布概率进行推断

累积概率:P=ΣPi(|aidi-bici|≥|ad-bc|) P>α时接受H0,否定HA

P<α时否定H0,接受HA 3)检验

双尾检验与单尾检验的累积概率方法不同: a.双尾检验时,进行两侧的概率累加 b.单尾检验时,只进行一侧的概率累加 ad-bc>0时,累加aidi-bici≥ad-bc一侧 ad-bc<0时,累加aidi-bici≤ad-bc一侧例5:为研究53BP2对肿瘤发生易感性的影响,建立了该基因的基因敲除小鼠,其等位基因杂合型(-/+)和野生型(+/+)小鼠在接受γ射线照射之后的肿瘤发生情况记录如下表。问该基因是否影响小鼠对肿瘤的易感性?

肿瘤无瘤合计野生型31619杂合型91019合计122638解:组合概率计算iabcdad-bcPi1019127-22802118118-1900.00053217109-1520.00584316910-1140.03315415811-760.10826514712-380.2164761361300.27198712514380.21649811415760.1082109103161140.0331111092171520.0058121181181900.0005131270192280

检验:

双尾检验,ad-bc=-114

零假设H0:该基因型与小鼠对肿瘤的易感性无关;

备择假设HA:该基因型与小鼠对肿瘤的易感性相关。

确定显著水平:α=0.05

概率计算

推断:P>α,接受H0。即该基因的不同基因型小鼠肿瘤发生率相同,该基因与小鼠肿瘤的易感性无关。四、适合性检验定义

检验观测数与通过某一理论模型计算所得的理论数是否符合,相当于1×c的列联表检验,也称为单因素离散数据的χ2检验。自由度

df=k-1-rk为数据分组数,r为利用样本估计总体参数的个数。

正态分布的参数为μ、σ;二项分布的不存在参数估计。χ2统计量自由度df=1时,需进行连续性校正:1.正态分布检验 1)理论数

编制频数分布表:χ2检验要求各组理论数不小于5,不满足要求时需进行对相邻的组进行合并;

计算各组的理论数:对各组上下限进行标准化,计算各组段的正态分布概率,然后根据概率和观测总次数计算理论数。 2)自由度:df=k-1-r

当总体参数μ和σ均已知时r=0;

当总体参数μ和σ均未知时r=2。例6:某农业技术推广站为了考察某种大麦穗长的分布情况,随机抽取100个麦穗,测得长度(cm)及频数如下表,穗长均值为6.02cm,标准差为0.613cm。检测麦穗长度是否服从正态分布。分组3.954.254.554.855.155.455.756.056.356.656.95合计频数11241014172313105100分析:1)由于χ2检验要求理论数不小于5,需对前4组观测数进行合并 2)对各组限xi进行标准化,得标准限值ui。μ与σ未知,用样本均数(6.02)与标准差(0.613)代替解:计算理论数及χ2分量分组观测数(Oi)限值(xi)标准限值(ui)累积概率Φ

(ui)组段概率(Pi)理论数(Ei)

2~5.158-∞

0.00000.07797.790.00565.15~5.45105.15-1.41920.07790.09839.830.00295.45~5.75145.45-0.92990.17620.153615.360.12015.75~6.05175.75-0.44050.32980.189718.970.20486.05~6.35236.050.04890.51950.185318.531.07776.35~6.65136.350.53830.70480.143114.310.12056.65~6.95106.651.02770.84800.08748.740.18106.95~56.951.51710.93540.06466.460.3307

+∞

1.0000

零假设H0:麦穗长度服从正态分布;备择假设HA:麦穗长度不服从正态分布。

确定显著水平:α=0.05;

检验计算:自由度df=k-1-r==8-1-2=5。Χ20.05=11.071

,P>0.05。推断:接受H0。即认为该种麦穗长度服从正态分布。2.二项分布检验

用于遗传学上解决遗传性状是否受一对等位基因的控制,该性状在后代的分离比例是否符合自由组合规律等问题

遗传学实验的结果通常为两种互斥的情况之一(豌豆子叶的颜色为黄色或绿色,新生婴儿为男孩或女孩),根据遗传学的规律,出现不同表型的概率是确定的,符合二项分布的特点

二项分布检验的理论数通过理论分布的比例进行计算

由于分布的比例是确定的,不存在参数估计,df=k-1

当自由度df=1时,计算统计量时需要进行连续性矫正例7:检验鲤鱼体色是否符合基因分离规律1602991503F2观测数总数红色青灰色体色解:假设H0:F2分离符合3:1比率;HA

F2分离不符合3:1比率

显著水平:α=0.01

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论