第九讲 卡方检验[课堂讲课]_第1页
第九讲 卡方检验[课堂讲课]_第2页
第九讲 卡方检验[课堂讲课]_第3页
第九讲 卡方检验[课堂讲课]_第4页
第九讲 卡方检验[课堂讲课]_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九讲 卡方检验,1,优质教资,一、 检验的功能,1、适用资料计数数据 计数数据的统计分析,测量数据的统计 方法并不适用,卡方检验是较为常用的一 种方法,2,优质教资,拟合优度检验例 即通过实际调查与观察所得到的一批 数据,其次数分布是否服从理论上所假 定的某一概率分布,2、卡方检验的功能,3,优质教资,例,某广播电视台为了了解广大儿童对其提供 的6种儿童节目的偏好(态度),随机抽取 了300名儿童,问他们最喜欢哪一种节目( 每人只能选一种),得到的数据如下表,问:就调查的300人而言,他们对6个节目的 偏好(体现在人数)是否存在显著的差 异,4,优质教资,5,优质教资,变量间的独立性检验,在

2、对一批观察数据进行双向多项分类之 后,这两个分类特征是独立无关的还是具 有连带相关的关系,6,优质教资,例,某师范大学为了了解广大师生对实行“中 期选拨”制度的态度。曾以问卷调查的形式 对977名低年级学生、790名高年级学生和 764名教师进行随机调查,调查结果,7,优质教资,主要用于检验不同人群母总体在某一个变 量上的反应是否有显著差异。 例从四所幼儿园分别随机抽出6 岁儿童若 干,各自组成一个实验组,进行识记测 验。测验材料是红、绿、蓝三种颜色书 写的字母,以单位时间内的识记数量为 指标,结果如下。问四组数据是否可以 合并分析,同质性检验,8,优质教资,分组 红色字母 绿色字母 蓝色字母

3、,1 24 17 19 2 15 12 9 3 20 20 14 4 10 25 28,9,优质教资,理论基础是1899年皮尔逊的工作:在分 布拟合优度检验中,实际观察次数 与理 论次数 之差的平方除以理论次数近似服 从 分布,即,二、 检验的基本原理,10,优质教资,如果实际观察次数与理论次数的差异越 大,卡方检验的结果就越可能拒绝无差 虚无)假设接受备择假设。 -理论次数 越大( )拟合效果 越 好,注,11,优质教资,注 K 为类别的数目; 是实际观察值; 是理论(期待)次数; 是约束条件数或利用观察数据时使 用的样本统计量的数目,1、卡方检验基本公式,12,优质教资,分类相互排斥,互不

4、包容; 观察值相互独立; 期望次数的大小应大于或等于5(较好趋 近卡方分布的前提,2、卡方检验的假设,13,优质教资,自由度小时,必须 ,否则利用卡方 检验需要进行较正或用精确的分布 进行 检验; 自由度大时,可以有少许类别的理论次 数少于5; 应用卡方检验时,应注意取样设计,保 证取样的代表性,否则依据卡方检验的 结果难以保证结论的科学性,注,14,优质教资,由于检验内容仅涉及一个变量多项分类 的计数资料,也称one-way test) 1、配合度检验的一般问题 即检验实际观察数据的分布与某理 论分布是否有显著的差别,三、卡方检验应用一总体分布的拟合检 验(goodness of fit t

5、est 配合度检验,15,优质教资,统计假设,2、检验过程,即:实际观察次数与某分布理论次数之间无差异,16,优质教资,依统计检验公式,计算实得卡方值,数理基础,作出统计决断,N:总数 Pe:具体类别理论概率,17,优质教资,例 某项民意测验,答案有同意、不置可否、 不同意3种。调查了48人,结果同意的24人 ,不置可否的人12人,不同意的12人,问持 这3种意见的人数是否存在显著差异,3、离散型分布的拟合检验,18,优质教资,对于连续随机变量的测量数据,有时不知 道其总体分布,需要根据样本的次数分布的 信息判断其是否服从某种确定的连续性分布。 检验方法 将连续性的测量数据整理成次数分布表 画

6、出相应的次数分布曲线; 选择恰当的理论分布; 进行拟合检验,4、连续型分布拟合检验(例,19,优质教资,例:下表是552名学生的身高次数分布,问这 些学生的身高分布是否符合正态分布,20,优质教资,169 170 2 15.38 3.03 0.00237 1 166 167 7 12.38 2.44 0.01201 7 163 164 22 9.38 1.85 0.04260 24 0.167 160 161 57 6.38 1.26 0.10888 60 0.150 157 158 110 3.38 0.67 0.18858 104 0.471 154 155 124 0.38 0.07 0

7、.23544 130 0.277 151 152 112 -2.62 -0.52 0.20615 114 0.035 148 149 80 -5.62 -1.11 0.12746 70 1.429 145 146 25 -8.62 -1.70 0.05562 31 1.161 142 143 8 -11.62 -2.29 0.01710 9 139 140 4 -14.62 -2.88 0.00396 2,身高 组中值 次数 离均差 Z分数 P 理论次数,0.125,0.09,21,优质教资,其一、分组数据第1组理论次数的计算 注: =组上限的Z值-组下限的Z值 其二、拟合指标卡方值的计算,分

8、析,22,优质教资,5、二项分类的配合度检验与比率显著检验,设总体比率为 , 且 时,23,优质教资,结论:Z检验与卡方检验一致 (样本比率p的真正分布是二项分布,24,优质教资,男 生 女 生,某班有100名学生,男生的有42人,问男生 的比率是否与0.5有显著差异? 比率显著性检验,42 58 50 50,例,用卡方检验(配合度,25,优质教资,当 且 时卡方检验公式,26,优质教资,当期望次数小于5时,卡方检验需要校正, Yates建议的校正公式为: 注:校正后的结果与二项分布的结果一致,的连续性校正(二项分类数据或比率,27,优质教资,1、功能(例) 主要通过对两个或两个以上因素多项分

9、 类的计数资料的分析,以研究两变量或多 个变量之间的关联性与依存性,四、独立性检验(test of independence,28,优质教资,独立性检验一般多采用表格的形式记录 观察结果的计数资料,这种表格即列联表。 RK 型列联表(二个因素:一个因素有 R个分类,另一有K个分类,2、一个术语-列联表,29,优质教资,RK 型列联表一般数据结构示意图,因素A,因素B,A1 A2 . Aj AR,B1 B2 Bi Bk,30,优质教资,统计假设 二因素或多因素之间是独立;(数据) 理论次数的计算,3、独立性检验的一般问题与步骤,自由度的确定,31,优质教资,卡方检验,公式1,统计推断,拒绝假设,

10、接受假设,32,优质教资,RC的卡方检验,允许有的格内的实计数 为0,最小的理论次数为0.5; RC 的卡方检验中最小的理论次数小于 0.5 或1(2 C列联表),一般采用合并 项目的方法,而不用连续性校正公式,注,33,优质教资,检验公式(各单元格理论次数5) 自由度,因 素 A,分类1 分类2,因 素 B,分类1 分类2,4、独立样本四格表 检验(列联表特例,34,优质教资,注:独立样本四格表 检验相当于独立样本 比率差异的显著性检验,35,优质教资,随机抽取90名学生,将学生按性别与学习 成绩进行分类,结果如下表,问男女大学生 在学业成绩上是否有关联?或男女学生在成 绩中等以上的比率是否

11、存在显著差异,学 业 水 平,中等以上 中等以下,性 别,男 女,例,36,优质教资,Fisher精确概率检验(略) 检验校正公式,5、四格表中若有单元格理论次数5,37,优质教资,适用范围 分类变量数目多于2个 例:讨论性别(男、女)、婚姻(未 婚、已婚)及生活满意状况(刺 激、规律、无聊)之间的关系,6、多重列联表分析,38,优质教资,确定控制变量(分层变量) 例性别 分别对在控制变量的每一水平下的另两个 变量形成的列联表进行分析; 例 *男性婚姻状况与生活满意状态关联分析 *女性婚姻状况与生活满意状态关联分析,多重列联表的分析,39,优质教资,对于控制变量的不同水平所进行的单个列联 表分

12、析 、如果 值不显著,此时可以将各个水 平下的 值相加,以推测列联表中两 个变量总的 值,并进行关联性检定,40,优质教资,当控制变量各水平不一致时,必须单独就 个别关联表进行分析,41,优质教资,例,某通讯公司想了解大学生最喜欢的手机品 牌,随机抽取了72名大学生,调查性别、 家庭经济水平以及最喜欢的手机品牌,来 探讨这三个变量之间的关系,调查结果如 下表,42,优质教资,甲 乙 丙,经 济 水 平,低,高,甲 乙 丙,手机品牌,性 男 别 女,13 2 3 4 12 4 9 3 7 8 5 2,43,优质教资,1、同质性检验(test for homogeneity) 几个不同的因素之间是

13、否有实质差异 判断几次重复实验的结果是否同质 单因素分类数据的同质性检验 样例,四、同质性检验与数据的合并,44,优质教资,计算各个样本组的 值和自由度; 、累加各样本组 值,计算其总和及自由 度的总和; 、将各个样本组原始数据按相应类合并, 产生一个总的数据表,并计算这个总数 据表的 值和自由度,检验过程,45,优质教资,iv、计算各样本组的累计 值与总测试次数合 并获得的 值之差(异质性 值),其 自由度是各样本组累计自由度与合并后总 数据的自由度之差。 异质性 值大于临界值,样本组间数据 异质; 不显著,则同质,46,优质教资,1 24 17 19 2 15 12 9 3 20 20 1

14、4 4 10 25 28,例,从四所幼儿园分别随机抽出6 岁儿童若干 ,各自组成一个实验组,进行识记测验。测 验材料是红、绿、蓝三种颜色书写的字母, 以单位时间内的识记数量为指标,结果,问四组数据是否可以合并分析,分组 红色字母 绿色字母 蓝色字母,47,优质教资,例对四所幼儿圆的幼儿颜色命名能力进行 了调查,调查材料是15种颜色的彩色铅 笔。凡能正确命名8种及8种以上颜色者 为达标,低于8 种颜色则未达标。调查 对象分4岁组、6岁组。四所幼儿园调查 的数据见下表。问这四所幼儿园儿童颜 色命名能力调查结果是否同质?颜色命 名与年龄是否有关联,列联表形式的同质性检验,48,优质教资,4岁组 49

15、 70 110 6岁组 64 39 103,小计 113 109 222,达标 未达标,年龄组,A幼儿园,B幼儿园,C幼儿园,D幼儿园,达标 未达标,达标 未达标,达标 未达标,达标 未达标,4岁组 11 18 10 15 15 20 13 17 6岁组 14 9 17 10 16 9 17 11,年龄组,颜色命名能力,小计,合并数据表,变异原因,自由 P,合并 9.705 1 .05,总计 9.809 4,值分析结果,49,优质教资,注,合并检验总表中儿童颜色命名能力与年龄 是否有密切关联时,因自由度为1, 值需进 行连续性校正,50,优质教资,两格表与四格表数据合并方法(例) 简单合并法

16、将所有数据合并成一个两格表或四 格表。适用条件: 各分表同一分类特征比率接近; 分表小样本齐性( 值不显著,2、计数数据合并的方法,51,优质教资,值相加法,男 17 5 22 0.773 女 6 5 11 0.545 23 10 33,例(四格表简单合并法,不同研究者的取样年龄,性别,某年龄特征,A 非A,A特征比率,34岁,56岁,男 12 3 15 0.800 女 7 5 12 0.583 23 10 33,1.793 1.339,1.501 1.225,78岁,男 11 3 14 0.786 女 11 9 20 0.550 22 12 34,2.004 1.416,52,优质教资,A

17、非,男 女,51,43,64,30,94,53,优质教资,相加法,各分表 值相加; 、df=分表的数目(各分表自由度之和) 缺点:不太灵敏,分辨力较差,没有考 虑各分表的方向。 例,54,优质教资,值相加法,适用条件 样本容量相差不超过2倍 表中各相应比率的取值在0.2-0.8之间 、检验公式(例,分表数目,各分表 值的开方,55,优质教资,适用条件 多个四格表中各相应 的 比率不在 0.2-0.5间; 各样本容量相差较大(超过2倍), 样本差异方向(即变化趋势)相同,加权法,56,优质教资,显著性检验公式 (例,分表数目,第i个四格表的比率,第i个四格表边际次数,57,优质教资,例 加权法计

18、算及各符号含义,样本组 A 非A A的比率,男 女 5 9,13 57 70 0.1857 3 23 26 0.1154 16 80 96 0.1667 0.0703 18.96 0.8333,男 女 10 12,26 56 82 0.3171 11 29 40 0.2750 37 85 122 0.3033 0.0421 26.89 0.6967,男 女 13 15,15 56 71 0.2113 2 27 29 0.0690 17 83 100 0.1700 0.1423 20.59 0.8300,58,优质教资,合并的条件 各分表同一分类特征比率接近; 分表小样本齐性( 值不显著) 无关

19、因素控制相同,各分表相应比率变 化相同,RC表数据合并,59,优质教资,适用条件 各分表比率接近且各样本齐性,年龄组 A C 合计 计算结果,男 女 15 19,12 13 7 32 18 17 23 58,合计 30 30 30,男 女 20 25,15 17 9 41 26 23 31 79,合计 40 40 40,0.3750,0.4063,0.2187,0.3659,0.4146,0.2195,合并后结果,简单合并法,例,60,优质教资,合 并 后 结 果,性别 A B C 合计 男 27 30 16 73 女 43 40 54 137 合计 70 70 70 210,61,优质教资,

20、具体操作 先计算各分表中单元格的理论次数, 将各分表理论次数相加作为总表对应 格理论次数; 然后将各分表的实计数合并,作为总 表的实计数; 进行卡方检验df=(R-1)(K-1,分表理论次数合并法,62,优质教资,例,不同年级对学方法的评价,样本 评价 教法1 教法2 教法3 合计 计算结果,初一年级,很好 9(10.5) 6(7.0) 6 (3.5) 21 一般 5(6.5) 6(4.3) 2 (2.2) 13 不好 16(13.0) 8(8.7) 2 (4.3) 26 合计 30 20 10 60,初二年级,很好 14(15.5)9(10.3) (5.2) 31 一般 16(5.5) 4(

21、3.7) 1 (1.8) 11 不好 10(9.0) 7(6.0) 1 (3.0) 18 合计 30 20 10 60,初三年级,很好 5(9.7) 8(6.2) 6 (3.1) 19 一般 3(3.1) 2(2.0) 1 (1.0) 6 不好 20(15.2)8(9.8) 2 (4.9) 30 合计 28 18 9 55,63,优质教资,教法1 教法2 教法3,很好 一般 不好,35.7,23.5,11.8,15.1,10,5.0,37.2,24.5,12.2,71,30,74,88,58,29,64,优质教资,1、内涵 RC列联表经检验后A、B因素有关联, 表明: A因素的多项分类中有一项

22、分类在B因 素多项分类中有关联; 或B因素多项分类中至少有一项分类在 A因素多项分类中有关联。 这种关联是体现在全体还是局部?对这 个问题的进一步分析即相关源的分析,五、相关源的分析,65,优质教资,将2 C分解成独立的22表进行分析,2、2C表的离析,离析过程 、首先将2 C表分解为C-1个四格表, 分解方法:据专业知识作直观分析, 先将估计关联不明显的 四格表分解出来,66,优质教资,不显著,逐项进行卡方检验,若关联不显著则合并,不显著,分解示意图,T1,T2,Tt,67,优质教资,分解的22表 计算公式,注 t=1,2,.,C; N为总表中的总次数; 为总表中边缘次数-横行; 为总表中边

23、缘次数-纵列; 为总表中各格的实计数,68,优质教资,有一项调查结果如下,问二因素是否有关 联,并进一步分析相关源,即究竟在哪种态 度上有显著差异,拥护 不置可否 反对,男 女,30 30 30,30 60,N=90,例,69,优质教资,解:分析思路,整体分析(23) 结果: (关联不显著) 是否在局部存在关联?开始离析,拥护 不置可否,男 女,T1,结果显示:在拥护与不置可否上并不存在性别差异,70,优质教资,不反对 反对,男 女,T2,T1,结果显示:在反对与不反对上存在性别 明显的差异,71,优质教资,总体上不存在关联,72,优质教资,将2C列联表分解为非独立22表进行分析,主要应用领域 研究涉及几个对照组与控制组的比较 例,评价 原方法(对照组) 新法1 新法2 新法3 新法4,好 不好,8 12 21 15 19 22 18 9 15 11,四格表,73,优质教资,评价 原方法 新法1,好 不好,8 12 22 18,评价 原方法 新法2,好 不好,8 21 22 9,评价 原方法 新法3,好 不好,8 15 22 15,评价 原方法 新法4,好 不好,8 19 22 11,74,优质教资,注:因为每一实验组都要与控制组比较, 故此时各四格表间并不独立,在保证总检验显著性水平为 时,各分解 四格表显著性水平的确定,75,优质教资,问题上例各分解四格表的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论