赵娜《应用统计分析》课件-(09)第9章 分类数据分析_第1页
赵娜《应用统计分析》课件-(09)第9章 分类数据分析_第2页
赵娜《应用统计分析》课件-(09)第9章 分类数据分析_第3页
赵娜《应用统计分析》课件-(09)第9章 分类数据分析_第4页
赵娜《应用统计分析》课件-(09)第9章 分类数据分析_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学

STATISTICS第9章分类数据分析

(第六版)

统计学

作者:中国人民大学统计学院

贾俊平

9-1作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS第9章分类数据分析

(第六版)

9.1分类数据与c2统计量

9.2拟合优度检验

9.3列联分析:独立性检验

9.4列联分析中应注意的问题

9-2作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS学习目标

(第六版)

1.理解分类数据与c2统计量

2.掌握拟合优度检验及其应用

3.掌握独立性检验及其应用

4.掌握测度列联表中的相关性

9-3作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS9.1分类数据与列联表

(第六版)

9.1.1分类数据

9.1.2c2统计量

9-4作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS

(第六版)

分类数据

9-5作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS分类数据

(第六版)

1.分类变量的结果表现为类别

n例如:性别例如:性别((男男,,女女))

2.各类别用符号或数字代码来测度

3.使用分类或顺序尺度

n你吸烟吗你吸烟吗??

l1.是;2.否

n你赞成还是反对这一改革方案你赞成还是反对这一改革方案??

l1.赞成;2.反对

4.对分类数据的描述和分析通常使用列联表

5.可使用检验

9-6作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS

(第六版)

统计量

9-7作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS统计量

(第六版)

1.1.用于检验分类变量拟合优度用于检验分类变量拟合优度

2.2.计算公式为计算公式为

9-8作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS统计量

(第六版)

分布与自由度的关系分布与自由度的关系

9-9作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS9.2拟合优度检验

(第六版)

9-10作者:贾俊平,中国人民大学统计学院

统计学拟合优度检验

STATISTICS

(第六版)(例题分析)

【例】1912年4月15日,豪华巨轮泰坦尼

克号与冰山相撞沉没。当时船上共有共

2208人,其中男性1738人,女性470人。

海难发生后,幸存者为718人,其中男性

374人,女性344人,以的显著性水平检验

存活状况与性别是否有关。(0.05)

9-11作者:贾俊平,中国人民大学统计学院

统计学拟合优度检验

STATISTICS

(第六版)(例题分析)

解:要回答观察频数与期望频数是否一致,检验

如下假设:

H0:观察频数与期望频数一致

H1:观察频数与期望频数不一致

9-12作者:贾俊平,中国人民大学统计学院

统计学拟合优度检验

STATISTICS

(第六版)(例题分析)

自由度的计算为df=R-1,R为分类变量类型的

个数。在本例中,分类变量是性别,有男

女两个类别,故R=2,于是自由度df=2-

1=1,经查分布表,(0.1)(1)=2.706,故

拒绝H0,说明存活状况与性别显著相关

9-13作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS9.3列联分析:独立性检验

(第六版)

9.3.1列联表

9.3.2独立性检验

9-14作者:贾俊平,中国人民大学统计学院

统计学列联表

STATISTICS

(第六版)(contingencytable)

1.由两个以上的变量交叉分类的频数分布表

2.行变量的类别用r表示,ri表示第i个类别

3.列变量的类别用c表示,cj表示第j个类别

4.每种组合的观察频数用fij表示

5.表中列出了行变量和列变量的所有可能的组

合,所以称为列联表

6.一个r行c列的列联表称为rc列联表

9-15作者:贾俊平,中国人民大学统计学院

统计学列联表的结构

STATISTICS

(第六版)(rc列联表的一般表示)

列列列((cc))

jj合计合计

行((ccjj))jj=1=1jj==22……

((rrii))

ii=1=1f11f12……r1

ii==22f21f22……r2

::::::::::

合计计c1c2……n

fijij表示第i行第j列的观察频数

9-16作者:贾俊平,中国人民大学统计学院

统计学独立性检验

STATISTICS

(第六版)(例题分析)

【【例例】】一种原料来自三个不同的地区,原料质量被分成三个不

同等级。从这批原料中随机抽取500件进行检验,结果如表9-3

所示,要求检验各个地区和原料质量之间是否存在依赖关系?

(0.05)

解:H0:地区和原料等级之间是独立的(不存在依赖关系)

H1:地区和原料等级之间不独立(存在依赖关系)

0.05(4)=9.488故拒绝H0,接受H1,即地区和原

料等级之间存在依赖关系,原料的质量受地区的影响

9-17作者:贾俊平,中国人民大学统计学院

统计学独立性检验

STATISTICS

(第六版)(例题分析)

9-18作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS9.4列联表中的相关测量

(第六版)

9.4.1相关系数

9.4.2列联相关系数

9.4.3V相关系数

9-19作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS列联表中的相关测量

(第六版)

1.品质相关

n对品质数据对品质数据((分分类和顺序数据类和顺序数据))之间相关程之间相关程

度的测度度的测度

2.列联表变量的相关属于品质相关

3.列联表相关测量的统计量主要有

n相关系数相关系数

n列联相关系数列联相关系数

nVV相关系数相关系数

9-20作者:贾俊平,中国人民大学统计学院

统计学相关系数

STATISTICS

(第六版)(correlationcoefficient)

1.测度22列联表中数据相关程度

2.对于22列联表,系数的值在0~1之间

3.相关系数计算公式为

9-21作者:贾俊平,中国人民大学统计学院

统计学相关系数

STATISTICS

(第六版)(原理分析)

一个简化的22列联表

因素因素因素因素XX

合计合计

Y

Yxx11xx22

yy11aba+b

yy22cdc+d

合合计计a+cb+dn

9-22作者:贾俊平,中国人民大学统计学院

统计学相关系数

STATISTICS

(第六版)(原理分析)

Ø列联表中每个单元格的期望频数分别为列联表中每个单元格的期望频数分别为

Ø将各期望频数代入将各期望频数代入的计算公式得的计算公式得

9-23作者:贾俊平,中国人民大学统计学院

统计学相关系数

STATISTICS

(第六版)(原理分析)

Ø将将入入相关系数的计算公式得相关系数的计算公式得

§§adad等于等于bcbc,,==00,,表明变量表明变量XX与与YY之间独立之间独立

§§若若bb=0=0,,cc=0=0,,或或aa=0=0,,dd=0=0,,意意味味着着各各观观察察频频

数数全全部部落落在在对对角角线线上上,,此此时时||||=1=1,,表表明明变变量量XX

与与YY之间完全相关之间完全相关

Ø列列联联表表中中变变量量的的位位置置可可以以互互换换,,的的符符号号没没有有

实际意义,故取绝对值即可实际意义,故取绝对值即可

9-24作者:贾俊平,中国人民大学统计学院

统计学列联相关系数

STATISTICS

(第六版)(coefficientofcontingency)

1.用于测度大于22列联表中数据的相关程度

2.计算公式为

§§CC的取值范围是的取值范围是00CC<1<1

§§CC==00表明列联表中的两个变量独立表明列联表中的两个变量独立

§§CC的的数数值值大大小小取取决决于于列列联联表表的的行行数数和和列列数数,,

并随行数和列数的增大而增大并随行数和列数的增大而增大

§§根根据据不不同同行行和和列列的的列列联联表表计计算算的的列列联联系系数数不不

便于比较便于比较

9-25作者:贾俊平,中国人民大学统计学院

统计学V相关系数

STATISTICS

(第六版)(Vcorrelationcoefficient)

1.计算公式为计算公式为

2.VV的取值范围是的取值范围是00VV11

3.VV==00表明列联表中的两个变量独立表明列联表中的两个变量独立

4.VV=1=1表明列联表中的两个变量完全相关表明列联表中的两个变量完全相关

5.不同行和列的列联表计算的列联系数不便于比较不同行和列的列联表计算的列联系数不便于比较

6.当当列列联联表表中中有有一一维维为为22,,min[(min[(rr-1),(-1),(cc-1)]=1,-1)]=1,此此时时

VV==

9-26作者:贾俊平,中国人民大学统计学院

统计学

STATISTICS、C、V的比较

(第六版)

1.同一个列联表,、C、V的结果会不同

2.不同的列联表,、C、V的结果也不同

3.在对不同列联表变量之间的相关程度进行

比较时,不同列联表中的行与行、列与列

的个数要相同,并且采用同一种系数

9-27作者:贾俊平,中国人民大学统计学院

统计学列联表中的相关测量

STATISTICS

(第六版)(例题分析)

【例】一种原料来自三个不同地区,原料质量被分成三个

不同等级。从这批原料中随机抽取500件进行检验,结果如

下表。分别计算系数、C系数和V系数,并分析相关程度

地区

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论