第9章分类数据分析-S_第1页
第9章分类数据分析-S_第2页
第9章分类数据分析-S_第3页
第9章分类数据分析-S_第4页
第9章分类数据分析-S_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第9章 分类数据分析 9.1 分类数据与卡方统计量 9.1.1 分类数据 分类数据汇总的结果表现为频数。 卡方检验是对分类数据的频数进行分析的统计方法。 9.1.2 卡方统计量 用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立。 例子 1912年4月15日,泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者718人,其中男性374人,女性344人,以=0.1的显著性水平检验存活状况与性别是否有关。 如果存活状况与性别无关,男性与女性的幸存比例应该相等。自由度为:分类变量类型的个数-1决策:拒绝H0结论:有证据表明存活状

2、况与性别显著相关 9.2 列联分析:独立性分析 9.2.1列联表 在y取固定值的时候x的分布。关于X的条件分布爱好的爱好的条件分条件分布布老年老年中年中年青年青年边缘和边缘和戏曲20/27=0.7410/40=0.252/57=0.0432/124=0.26歌舞5/27=0.1820/40=0.5035/57=0.6160/124=0.48球赛2/27=0.0810/40=0.2520/57=0.3532/124=0.26在x取固定值的时候,y的分布。关于Y的条件分布年龄的年龄的条件分布条件分布老年老年中年中年青年青年戏曲20/32=0.6310/32=0.312/32=0.06歌舞5/60=

3、0.0820/60=0.3335/60=0.58球赛2/32=0.0610/32=0.3120/32=0.63边缘和27/124=0.2240/124=0.3257/124=0.46u 列联表中变量的相互独立性 列联表中的两个变量,如果一个变量的值在改变,而另一个变量的值并没有随之产生变化,或变化的很细微,则说明这两个变量相互独立。 【例1】一集团公司在四个不同地区设有分公司,现从四个分公司抽取进行调查。调查结果如下 1.假定行变量和列变量是独立的 2统计量 1.用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立 2.计算公式为 1.检验列联表中目标变量之间是否存在显著性

4、差异 2.检验的步骤为3.计算检验的统计量4. 根据确定临界值、接受域和拒绝域【例2】某乡镇研究职业代际流动。共调查140人。问代际之间职业是否相关。子子 父父脑力脑力体力体力农业农业边缘和边缘和脑力205530体力10301050农业555060边缘和354065140【例3】 我省在残疾人中进行了抽样调查,共抽取4028名残疾人。他们的性别与文化程度的分布如下表所示。问残疾人的文化程度是否与性别相关(=0.05)?检验需要注意的问题 a使用 检验时,期望频次不能过小,否则会使计算出的 值过大,导致错误地拒绝原假设。一般的要求是 。可以允许有个别单元格的期望频次 ,但要求 的格数不应超过总格数的20%。如果出现 的格数大于总格数的20%时,应将偏小的格值合并。b 检验是通过频次进行检验,不是通过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论