版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第8章8.1卡方检验原理8.2拟合问题样本率和已知总体率的比较8.3独立性检验两个(多个)变量的相关8.4 卡方检验的局限性及补救办法变量连续变量分类变量有序分类变量无序分类变量秩和检验卡方检验t 检验、方差分析u原假设h0:每一个卡通片被选择为喜欢的可能性是相同的。即假定所研究的总体服从均匀分布,因此每一个卡通片被选择的概率都应该是1/6。u如果为真,300名儿童挑选每种卡通片的可能性应该是相等的,则选择每种卡通片的期望频次应该是:fe=nu构造卡方统计量:例:许多儿童都喜欢看卡通片,有的人认为只要是卡通片儿童都爱看,而不管其类型;另一些人认为儿童对不同类型的卡通片有不同的偏好。为此,他们提
2、供了6种类型的卡通片,让300名经常看电视的儿童观看,然后说出喜欢看哪一个,得到如下表所示的数据。202-eefff300名儿童对不同类型卡通片的偏好分布卡通片编号观测频次f0概率(h0为真)期望频次fe=n偏差f0fe偏差平方( f0fe )2加权结果( f0fe )2/fe1851/65035122524.52801/65030900183551/6505250.54101/650-401600325401/650-1010026301/650-204008合计30013000285p0.001u卡方检验是以卡方分布为基础的一种常用假设检验方法,主要用于分类变量,根据样本数据推断总体的分布
3、与期望分布是否有显著差异,或推断两个分类变量是否相互关联或相互独立。u卡方检验的原假设h0是:观测频数与期望频数没有差别。u卡方检验的基本思想是:首先假设h0成立,基于此前提计算出2值,它表示观测值与理论值之间的偏离程度。根据2分布, 2统计量,以及自由度可以确定在假设h0成立的情况下获得当前统计量及更极端情况的概率p。u判断:如果p值很小,说明观测值与理论值偏离程度太大,应当拒绝原假设,表示比较的类别之间有显著差异;否则就不能拒绝原假设,不能认为样本所代表的实际情况与理论假设有差别。u对于连续变量,我们可以使用单样本的 t 检验考察样本所在总体的均值与已知值是否存在显著差异,即样本均值与已知
4、值的差异。u对于分类变量,则可以使用卡方检验比较样本比率与已知值的差异。u什么是拟合问题?n假设一个总体中,某个变量的可能取值有假设一个总体中,某个变量的可能取值有n个水平;某一个水平;某一已知样本中,该变量的取值也是这已知样本中,该变量的取值也是这n个水平。个水平。n现在需要从样本的分类数据出发,来判断总体各取值水平现在需要从样本的分类数据出发,来判断总体各取值水平出现的概率是否与已知概率相符,即该样本是否的确来自出现的概率是否与已知概率相符,即该样本是否的确来自已知的总体分布。已知的总体分布。n即单样本率与总体率的比较,被称之为拟合问题。即单样本率与总体率的比较,被称之为拟合问题。u原假设
5、h0 :摇奖机工作正常,则每个号码出现的概率为1/10。u注意:原始数据在分析时,首先进行加权!uanalyzenonparametric testschi-square例1:有奖有息储蓄摇奖的办法一般采取刻有数码09的编号球投入摇奖机,然后按一定规则,把摇出的数码组合成兑奖号码。南京市自开办有奖有息储蓄以来,13期中奖号码中各数码出现的频次见“数据摇奖.sav”。试判断摇奖机工作是否正常?所有类别所有类别比例相等比例相等自定义类自定义类别比例别比例残差值残差值卡方值卡方值p值小于值小于5%,可以拒绝原假可以拒绝原假设。认为摇奖设。认为摇奖机工作不正常。机工作不正常。u原假设h0 :顾客今年的
6、颜色偏好与去年无显著差异。uanalyzenonparametric testschi-square例2:美国某小汽车经营商根据去年销售的小汽车颜色的百分率,认为今年顾客选择各种颜色的数目仍将不变,即20%的人选择黄色,30%选择红色,10%选择绿色,10%选择蓝色,30%选择白色。他随机抽取了150名顾客,询问他们所喜好的颜色。结果见color.sav。问是否应拒绝该经营商的假设?依次输入依次输入期期望的类别望的类别比比例。例。p值小于值小于5%,可以拒绝原假可以拒绝原假设。顾客今年设。顾客今年的颜色偏好与的颜色偏好与去年相比存在去年相比存在显著差异。显著差异。u卡方检验可以非常容易地推广到
7、两样本或多样本比较的问题,即应用卡方检验总体中两个特性有无相关性,这种检验也叫独立性检验。例:在电视收视率调查中,得到性别与收视习惯的列联表如下。试建立数据文件并分析性别与收视习惯的相关联系。男女几乎天天看3824偶尔看317uanalyzedescriptive statisticscrosstabs进行卡方检验进行卡方检验uanalyzedescriptive statisticscrosstabs观测频数观测频数期望频数期望频数输出残差输出残差标准化残差标准化残差双侧近似概率双侧近似概率pearson卡方卡方统计量统计量双侧精确概率双侧精确概率对数似然比计对数似然比计算的卡方算的卡方fi
8、shers确切确切概率法概率法线性相关的卡方值,线性相关的卡方值,检验行列变量是否线检验行列变量是否线性相关,多性相关,多用于定序用于定序变量变量u由于卡方检验简单直观,而且交互分析表又能提供非常丰富的信息,因此在各种调查统计中这种交互分析(列联表加卡方检验)的应用十分广泛。u在实际应用中,不但定类变量采用此方法,对定序甚至定距变量也粗略地划分成几类后做成列联表。这可以从某种意义上简化数据,但这种交互分析也存在其局限性。u卡方检验的局限性:n卡方值随分类的不同而改变。如对教育程度、收入水平的分卡方值随分类的不同而改变。如对教育程度、收入水平的分类,因此分类时最好有理论或实践依据,或者统计依据(
9、中类,因此分类时最好有理论或实践依据,或者统计依据(中位数、四分位数等)位数、四分位数等)n样本量不能太小,也不宜过大。样本量太小,采用卡方分布样本量不能太小,也不宜过大。样本量太小,采用卡方分布为依据的检验便不再成立。为依据的检验便不再成立。一般要求一般要求n40。但样本量过大,但样本量过大,有时得到的结果便会失去意义。卡方值受样本量影响很大:有时得到的结果便会失去意义。卡方值受样本量影响很大:样本量越大,越容易得到拒绝原假设样本量越大,越容易得到拒绝原假设h0的结果。的结果。u卡方检验的局限性:n列联表中期望频数小于列联表中期望频数小于5的个数不能太多。通常建议所有的的个数不能太多。通常建
10、议所有的期望频数都不小于期望频数都不小于5,最多也不能超过,最多也不能超过20%。如对。如对35的列联的列联表,共表,共15个格,则期望频数小于个格,则期望频数小于5的格数不能超过的格数不能超过3个。如果个。如果超过了超过了20%,则需要对卡方值加以修正。,则需要对卡方值加以修正。n对于连续型变量(定距、定比变量),卡方检验无法揭露其对于连续型变量(定距、定比变量),卡方检验无法揭露其数量性质。数量性质。u卡方检验的一般原则:n只要有数量型的变量出现,就应该采用可以提示其数量性质只要有数量型的变量出现,就应该采用可以提示其数量性质的统计工具(如的统计工具(如 t 检验、方差分析、秩和检验等)来
11、分析。检验、方差分析、秩和检验等)来分析。n卡方检验更适用于定类变量。卡方检验更适用于定类变量。u统计指标的选择:n当样本量当样本量n40,且所有单元格的期望频数,且所有单元格的期望频数fe 5时,用普通的时,用普通的pearson卡方检验;卡方检验;n 当样本量当样本量n40,且只有,且只有20%以下的单元格的期望频数以下的单元格的期望频数1 fe 5时,用校正的卡方检验:如对数似然比(时,用校正的卡方检验:如对数似然比(likelihood ratio)计算的卡方,或用于计算的卡方,或用于22格表的连续性校正的卡方格表的连续性校正的卡方(continuity correction););n 当样本量当样本量n 40,或有,或有20%以上的单元格期望频数以上的单元格期望频数fe 5 ,或有单元格期望频数或有单元格期望频数fe 1时,采用确切概率法(时,采用确切概率法(fishers exact test).u1、数据36选7.sav是体彩36选7连续45期中奖号码出现频次的统计,试分析中奖号码的出现概率是否随机。u2、在周六晚节目单修订后,分别作了收视率的调查。在节目修改前,收视率记录为abc 29%,cbs 28%,nbc 25%,itv 18%。节目修改后,300个家庭所组成的样本产生下列电视收视数据:abc 95户,cbs 70户, nbc 89户,itv46户,在5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 急腹症护理课件
- 钻具租赁合同模板(2篇)
- 阅读馆合伙人合同(2篇)
- 认识平行 课件
- 输尿管超声课件
- 幼儿园小班音乐《大树妈妈》教案
- 西京学院《网页设计与制作》2022-2023学年期末试卷
- 幼儿园语言教育中的谈话活动第5章
- 西京学院《单片机原理及应用实验》2022-2023学年期末试卷
- 西华师范大学《中学教研活动组织指导》2023-2024学年第一学期期末试卷
- 2024-2030年中国汽车凸轮轴行业需求状况及未来发展策略研究报告版
- 2024年企业合并协议与合同
- 天津市2024-2025学年高一上学期11月期中考试 化学试题(无答案)
- 2024年居间服务合同:新能源项目开发与合作
- 养老院膳食营养保障方案
- 教师资格考试初级中学数学面试试题及解答参考(2024年)
- 陕西省汉中市勉县第二中学2024-2025学年高二上学期11月期中考试政治试题
- 2024年中国酱香型习酒市场调查研究报告
- MOOC 国家安全概论-西安交通大学 中国大学慕课答案
- 智能护理:人工智能助力的医疗创新
- 23版概论第八章 科学发展观
评论
0/150
提交评论