分类数据分析_第1页
分类数据分析_第2页
分类数据分析_第3页
分类数据分析_第4页
分类数据分析_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章分类数据分析9.1分类数据与卡方统计量9.2拟合优度检查9.3列联分析:独立性检查9.4列联表中有关测量9.5列联分析中应注意问题2023/10/101第1页9.1分类数据与卡方统计量分类数据:数据成果用数值表达,但不一样数值描述是调查对象不一样特性。分类数据汇总成果体现为频数。数值型数据也能够表达为分类数据卡方检查是对分类数据频数进行分析统计办法。

2023/10/102第2页卡方统计量:测定两个分类变量之间有关程度2023/10/103第3页9.2拟合优度检查(goodnessoffittest)对一种分类变量检查定义:根据总体分布情况,计算分类变量中各类别盼望频数,与观测频数进行对比,判断盼望频数与观测频数是否有显著差异。目标:对分类变量进行分析例:1923年4月15日,豪华巨轮泰坦尼克号与冰山相撞淹没。当初船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共718人,其中男性374人,女性344人,以α=0.1显著性水平检查存活情况与性别是否有关?2023/10/104第4页假如存活情况与性别无关,男性与女性幸存百分比应当相等。

海难后幸存百分比为718/2208=0.325

男性应当为1738*0.325=565人

女性应当为470*0.325=153人。观测值盼望值男374565-1913648164.6女34415319136481238.4解:判断观测频数与盼望频数是否一致H0:观测频数与盼望频数一致H1:观测频数与盼望频数不一致2023/10/105第5页自由度df为:分类变量(性别)个数-1=1c2α=0.12.705决策:回绝H0结论:存活情况与性别有关回绝域2023/10/106第6页例题2一项统计成果声称,某市老年人口所占百分比为14.7%,该市老年人口研究会为了检查该项统计是否可靠,随机抽选了400名居民,发觉其中有57人老年人。调查成果是否支持14.7%见解?2023/10/107第7页解:H0:观测频数与盼望频数一致H1:观测频数与盼望频数不一致盼望频数:400居民中老年人盼望频数应当为400*14.7%=59

400居民中非老年人盼望频数应当为400-59=341

观测值盼望值老年人5759-240.0678非老年人343341240.01172023/10/108第8页自由度为:分类变量类型个数-1=1c2α=0.055.024回绝域2023/10/109第9页9.3列联分析:独立性检查独立性检查:对两个分类变量分析,是否有关联列联表:由两个以上变量进行交叉分类频数分布表行变量类别用R表达,Ri

表达第i

个类别列变量类别用C

表达,Cj

表达第j

个类别每种组合观测频数用fij

表达列出了行变量和列变量所有也许组合,因此称为列联表一种

R行C列列联表称为R

C列联表2023/10/1010第10页列联表构造

(2

列联表)列(Cj)行合计RTj=1j=1i=1f11f12f11+f12i=2f21f22f21+f22列合计CTf11+f21f12+f22n列(Cj)行(Ri)一种2

列联表2023/10/1011第11页列联表构造

(RC列联表一般表达)列(cj)行合计RTj=1j=2…i=1f11f12…r1i=2f21f22…r2:::::列合计CTc1c2…n列(Cj)行(Ri)R行C列列联表fij

表达第i

行第j

列观测频数2023/10/1012第12页一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420例:一种集团公司在四个不一样地域设有分公司,现该集团公司欲进行一项改革,此项改革也许包括到各分公司利益,故采取抽样调查方式,从四个分公司共抽取420个样本单位(人),理解职员对此项改革见解,调查成果如下表2023/10/1013第13页边缘分布行边缘分布行观测值合计数分布例如,赞成改革方案共有279人,反对改革方案141人列边缘分布列观测值合计数分布例如,四个分公司接收调查人数分别为100人,120人,90人,110人条件分布与条件频数变量X条件下变量Y

分布,或在变量Y

条件下变量X

分布每个详细观测值称为条件频数3个概念:边缘分布,条件分布和条件频数2023/10/1014第14页一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420行边缘分布列边缘分布条件频数2023/10/1015第15页条件频数反应了数据分布,但不适合进行对比百分比分布:以相同基数计算对应百分比行百分比:行每一种观测频数除以对应行合计数(f0

/RT)列百分比:列每一种观测频数除以对应列合计数(f0

/CT)总百分比:每一种观测值除以观测值总合计数(f0

/n)百分比分布2023/10/1016第16页一分公司二分公司三分公司四分公司合计赞成该方案24.4%26.9%20.4%28.3%66.4%68.0%62.5%63.3571.8%—16.2%17.8%13.6%18.8%—反对该方案22.7%31.9%23.4%22.0%33.6%32.0%37.5%36.7%28.2%—7.6%10.7%7.9%7.4%—合计23.8%28.6%21.4%26.2%100%总百分比列百分比行百分比2023/10/1017第17页问题:检查改革方案态度和各公司之间是否存在依赖关系H0:改革方案态度和各公司之间是独立(不存在依赖关系)H1:改革方案态度和各公司之间不独立(存在依赖关系)一种观测频数f0盼望频数fe

,是总频数个数n乘以该观测频数f0

落入第i

行和第j列概率,即2023/10/1018第18页计算各单元盼望频数一分公司二分公司三分公司四分公司RT赞成该方案实际频数68755779279盼望频数66806073反对该方案实际频数32453331141盼望频数34403037CT100120901104202023/10/1019第19页

统计量用于检查列联表中变量之间是否存在显著性差异,或者用于检查变量之间是否独立计算公式为2023/10/1020第20页实际频数(f0)盼望频数(fe)f0-fe(f0-fe)2(f0-fe)2fe687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合计:3.03192023/10/1021第21页

独立性检查检查列联表中行变量与列变量之间是否独立检查步骤为提出假设H0:行变量与列变量独立H1:行变量与列变量不独立计算检查统计量进行决策根据显著性水平和自由度(r-1)(c-1)查出临界值

2若2

2,回绝H0;若

2<

2,不回绝H02023/10/1022第22页【例】一种原料来自三个不一样地域,原料质量被提成三个不一样等级。从这批原料中随机抽取500件进行检查,成果如下表。检查各地域与原料之间是否存在依赖关系(

0.05)地域一级二级三级合计甲地域526424140乙地域605952171丙地域506574189合计1621881505002023/10/1023第23页提出假设H0:地域与原料等级之间独立H1:地域与原料等级之间不独立计算检查统计量根据显著性水平=0.05和自由度(3-1)(3-1)=4查出对应临界值

2=9.488。由于2=19.82>

2=9.448,回绝H02023/10/1024第24页9.4列联表中有关测量

一:

有关系数测度22列联表中数据有关程度一种量对于22

列联表,

系数值在0~1之间

有关系数计算公式为n:总频数2023/10/1025第25页一种简化22列联表原因Y原因X合计RTx1x2y1aba+by2cdc+d合计CTa+cb+dn2023/10/1026第26页列联表中每个单元格盼望频数分别为将各盼望频数代入

计算公式得2023/10/1027第27页将

有关系数计算公式得ad等于bc,

=0,表白变量X与Y

之间独立若b=0

,c=0,或a=0

,d=0,意味着各观测频数所有落在对角线上,此时|

|=1,表白变量X与Y

之间完全有关列联表中变量位置能够交换,

符号没有实际意义,故取绝对值即可2023/10/1028第28页二:列联有关系数C测度大于2

2列联表中数据有关程度C取值范围是0

C<1C=0表白列联表中两个变量独立C数值大小取决于列联表行数和列数,并随行数和列数增大而增大。2

2列联表完全有关时,c=0.7071;3

3列联表完全有关时,c=0.8165;4

4列联表完全有关时,c=0.87根据不一样行和列列联表计算列联系数不便于比较2023/10/1029第29页三:V有关系数计算公式为

其中

V取值范围是0

V

1

V=0表白列联表中两个变量独立V=1表白列联表中两个变量完全有关不一样行和列列联表计算列联系数不便于比较当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=

2023/10/1030第30页四:数值分析

、C、V比较同一种列联表,

、C、V成果会不一样不一样列联表,

、C、V成果也不一样在对不一样列联表变量之间有关程度进行比较时,不一样列联表中行与行、列与列个数要相同,并且采取同一种系数2023/10/1031

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论