![第五讲 列联表分析_第1页](http://file4.renrendoc.com/view11/M02/15/3B/wKhkGWX_cpeAM6MPAABIYin-03Q703.jpg)
![第五讲 列联表分析_第2页](http://file4.renrendoc.com/view11/M02/15/3B/wKhkGWX_cpeAM6MPAABIYin-03Q7032.jpg)
![第五讲 列联表分析_第3页](http://file4.renrendoc.com/view11/M02/15/3B/wKhkGWX_cpeAM6MPAABIYin-03Q7033.jpg)
![第五讲 列联表分析_第4页](http://file4.renrendoc.com/view11/M02/15/3B/wKhkGWX_cpeAM6MPAABIYin-03Q7034.jpg)
![第五讲 列联表分析_第5页](http://file4.renrendoc.com/view11/M02/15/3B/wKhkGWX_cpeAM6MPAABIYin-03Q7035.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五讲列联表分析导言
在数据分析中,我们不仅需要了解单一变量的数值分布特征,还需要了解一个变量与另一个变量之间的关系。
例如,我们不仅想了解一个班级中同学们的性别结构,同时还想知道不同性别的同学在某一问题上的态度是否不同。当不同性别的同学在该问题上的态度有明显差异时,我们可以说,性别与态度这两个变量之间存在相关关系。所谓相关,是指一个变量的值与两一个变量的值有连带性,即一个变量的取值发生变化,另一个变量的取值也跟着发生变化。
相关关系不一定是因果关系,但是因果关系必定存在相关关系。啤酒与尿布
在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。
啤酒销量尿布销量消费者的喜好导言
为了了解一个变量与另一个变量之间是否存在相关关系以及相关的强度大小,在统计上常用的方法是做列联表或者是计算两个变量之间的相关系数。读者通过列联表可以直观地感受到两个变量之间是否存在相关关系及其关系的强弱和方向,而相关系数则更精确地反映了两个变量之间的相关关系强度的大小和方向。导言
赞成不赞成男020女300赞成不赞成男200女030全相关赞成不赞成男1010女1515赞成不赞成男218女255零相关强相关一、列联表(contingencytable)
列联表也称交互分类表,就是同时根据两个变量的值,将所研究的观测个案进行分类。一、列联表(contingencytable)1.由两个以上的变量交叉分类的频数分布表2.行变量的类别用r表示,ri
表示第i个类别3.列变量的类别用c表示,cj
表示第j个类别4.每种组合的观察频数用fij
表示5.表中列出了行变量和列变量的所有可能的组合6.一个r行c列的列联表称为r×c列联表一、列联表(contingencytable)最大志愿频数快乐家庭40理想工作60增广见闻10合计100条件频数(conditionalfrequencies)最大志愿教育水平合计高中低快乐家庭530540理想工作0302050增广见闻50510合计106030100边缘频数(marginalfrequencies)总数一、列联表(contingencytable)最大志愿教育水平高(%)中(%)低(%)快乐家庭50.050.016.7理想工作0.050.066.7增广见闻50.00.016.7总数(10)(60)(30)
低教育水平的青年多以“理想工作”为志愿,中、高教育水平的青年则多选择“快乐家庭”,但前者同时较注重“理想工作”,后者较注重“增广见闻”。表2.2青年人教育水平对其志愿的影响一、列联表(contingencytable)编制条件百分比表时应该注意:1.顶端有表号和标题。2.舍去不必要线条,尽可能简洁,上下粗线条,左右不封口。3.自变量取值下标明%,条件百分比不必再一一标%。4.表地段()的数值,表示在计算百分比时所依据的个案数目。5.表内各百分比数值的小数位数应该保持一致。6.根据自变量的方向计算百分比,但当因变量在样本中的分布不能代表其在总体中的分布时则要根据因变量的方向计算百分比。一、列联表(contingencytable)
一般而言,将因变量放在表的左边,自变量放在表的上边,r×c表,r表示的因变量的取值个数,c表示的是自变量的取值个数。按照根据自变量方向计算百分比,即根据列来计算百分比。一、列联表(contingencytable)是否赞成期中考核班级1班(%)2班(%)3班(%)赞成64.153.839.5不赞成35.946.260.5总数(78)(80)(76)是否赞成期中考核班级总数1班(%)2班(%)3班(%)赞成40.7
35.0
24.3(123)不赞成25.233.341.4(111)怎么解释?1班同学赞成期中考核的学生比重最大,3班最小。班级影响考试态度。一、列联表(contingencytable)根据因变量方向计算百分比举例研究某城市破裂家庭(自变量)对青少年犯罪行为(因变量)的影响。如何抽样?假定该城市的全部青少年中,未犯罪的青少年有54400名,有越轨行为的青少年960名。现在我们决定从未犯罪青少年中抽取1%,即544名,但如果按照相同的比例从犯罪的青少年中抽取样本的话,则只能抽取10个人,这样的样本太小,难以进行准确的比较。因此,按照50%的比例从犯罪青少年中抽取480名作为样本。一、列联表(contingencytable)犯罪青少年
未犯罪青少年合计破裂家庭14645191和好家庭334499833合计4805441024犯罪青少年
未犯罪青少年合计破裂家庭(%)76.423.6(191)和好家庭(%)
40.060.0(833)犯罪青少年(%)未犯罪青少年(%)破裂家庭
30.48.3和好家庭
69.691.7总数(480)(544)和好家庭的中有40%的青少年有犯罪行为?犯罪青少年中破裂家庭占了30.4%的比重,为未犯罪青少年中破裂家庭只占8.3%。一、列联表(contingencytable)列联表的SPSS实现。(略)条件百分比表的优点:资料丰富,一个3×3列联表就有9个百分比可供比较。条件百分比表的缺点:当r×c很大时,百分比会很多,不容易看出两个变量之间的关系。比如一个5×6表就会30个百分比,就很难看出两个变量之间是否存在相关关系。此时,我们就希望有一个数值来表示两个变量之间的相关关系的强度和方向,以使资料更加简化和明白易懂,这就是相关系数。二、相关系数(correlationcoefficient)相关系数即用来表示两个变量间相关强度和方向的统计值。相关系数非常多,当我们选择相关系数时,首先,根据变量的测量层次,不同层次的变量需要选择不同的相关系数。其次,两个变量之间关系是对称的还是不对称的,对称关系即不区分自变量和因变量,而不对称关系则要区分自变量和因变量。再次,尽量选择具有消减误差比例意义的相关系数。二、相关系数(correlationcoefficient)相关系数即用来表示两个变量间相关强度和方向的统计值。相关系数非常多,当我们选择相关系数时,首先,根据变量的测量层次,不同层次的变量需要选择不同的相关系数。其次,两个变量之间关系是对称的还是不对称的,对称关系即不区分自变量和因变量,而不对称关系则要区分自变量和因变量。再次,尽量选择具有消减误差比例意义的相关系数。二、相关系数(correlationcoefficient)
消减误差比例(proportionatereductioninerror),简称为PRE测量法。相关分析的目的之一在于用一个变量去预测或解释另一个变量。为什么我们班同学的身高会有那么大的差异?当我们对这一现象毫无所知的时候,随便说出一个同学的名字,让你猜他的身高,这个时候难免会有误差。但是,当我们知道性别与身高有较强的相关关系之后,在说出这个同学名字的同时又告诉你了该同学的性别,那么,这个时候你再去猜他的身高,应该就可以减少若干误差。而且,性别与身高的相关度越高,所能减少的误差也越大。
二、相关系数(correlationcoefficient)
假设在不知道X(如性别)的条件下去预测Y(如身高)所产生的误差是E1,在知道X的条件下去利用X的取值去预测Y所产生的误差为E2,则消减误差比例
PRE=(E1-E2)/E1
由以上公式可知,当通过X预测Y产生的误差E2越小,PRE数值越大,标明X与Y的关系越。当E2=0时,X与Y的关系最强,PRE=1,当E2=E1时,关系最弱,PRE=0.当PRE=06时,就表明用X预测Y可以减少60%的误差。二、相关系数(correlationcoefficient)
PRE数值的意义就在于它能够直观地表示用一个变量(X)去解释或预测另一个变量(Y)时能够减少百分之几的误差。二、相关系数(correlationcoefficient)
1.两个定类变量之间的相关系数:λ和tau-yLambda相关测量法的基本逻辑:以一个定类变量的值来预测另一个定类变量的值时,以众数作为预测的准则,可以消减多少误差,消减的误差越多,变量之间的相关愈强,反之,越少则相关愈弱。
二、相关系数(correlationcoefficient)
1.两个定类变量之间的相关系数:λ和tau-yLambda相关测量法有2种形式:一是对称形式,简写为λ系数,即两个变量之间是相关影响的,区分不出明显的自变量和因变量。二是不对称形式,简写为λy系数,要求两个定类变量中,一个是自变量,另一个是因变量,自变量影响因变量。
二、相关系数(correlationcoefficient)
1.两个定类变量之间的相关系数:λ和tau-y
Mx:X变量的众数My:Y变量的众数mx:X变量各类别下Y变量的众数my:Y变量各类别下X变量的众数N:全部个案数二、相关系数(correlationcoefficient)
1.两个定类变量之间的相关系数:λ和tau-y
最大志愿性别合计男女快乐家庭103040理想工作401050增广见闻10010合计6040100二、相关系数(correlationcoefficient)
1.两个定类变量之间的相关系数:λ和tau-y
λy具有消减误差比例的意义,性别与志愿之间的相关系数为0.4,表明用性别与预测志愿可以减少40%的误差。
二、相关系数(correlationcoefficient)
1.两个定类变量之间的相关系数:λ和tau-y
最大志愿知心朋友的志愿合计快乐家庭理想工作增广见闻快乐家庭289340理想工作241750增广见闻24410合计325414100二、相关系数(correlationcoefficient)
1.两个定类变量之间的相关系数:
tau-y相关测量属于不对称测量,要求两个定类变量中,一个是自变量(X),一个是因变量(Y),其值也是介于0-1之间,具有消减误差比例的意义。计算公式如下:
n:个案数目f:条件次数Fy:Y变量的边缘次数Fx:X变量的边缘次数二、相关系数(correlationcoefficient)最大志愿性别合计男女快乐家庭103040理想工作401050增广见闻10010合计6040100性别与志愿之间的相关系数为0.224,也可以说用性别来预测志愿可以减少22.4%的误差。二、相关系数(correlationcoefficient)
Tau-y系数在计算相关程度时运用了所有的边缘次数和条件次数。因此,其敏感度要高于Lambda系数。如果是不对称关系的两个定类变量,最好选择tau-y系数。
二、相关系数(correlationcoefficient)
2.两个定序变量之间的相关:
Gamma系数适用于分析对称关系dy适用于分析不对称关系Tau系列系数斯皮尔曼相关系数
二、相关系数(correlationcoefficient)
2.两个定序变量之间的相关:Gamma系数dy
Ns:同序对数Nd:异序对数
二、相关系数(correlationcoefficient)工厂积极性等级产量等级A55B33C41D1.53E1.53表2.15所工厂工人生产积极性与产量
5所工厂一共可以两两相配为10对:AB,AC,AD,AE,BC,BD,BE,CD,CE,DE.其中,同序配对有:AB,AC,AD,AE,数目为4对,异序配对有:BC,CD,CE.数目为3对。所以
二、相关系数(correlationcoefficient)
可见,工人的生产积极性与产量之间呈正相关关系,但相关强程度比较弱,相关系数为0.14,即以其中的一个变量预测或解释另一个变量时,能够减少14%的误差。
Gamma系数属于不对称相关测量法,如果我们要分析的两个定序变量之间存在明显不对称关系,即一个为自变量,另一个为因变量,因变量受自变量影响,而自变量并不受因变量的影响,那么,最好使用dy系数。二、相关系数(correlationcoefficient)
2.两个定序变量之间的相关:
Ns:同序对数Nd:异序对数
Ty:只在因变量上同分的对数
二、相关系数(correlationcoefficient)工厂积极性等级产量等级A55B33C41D1.53E1.53表2.15所工厂工人生产积极性与产量
5所工厂一共可以两两相配为10对:AB,AC,AD,AE,BC,BD,BE,CD,CE,DE.其中,同序配对有:AB,AC,AD,AE,数目为4对,异序配对有:BC,CD,CE.数目为3对,在因变量上同分的配对:BD,BE,数目为2对,所以
二、相关系数(correlationcoefficient)
可见,dy系数总要小于Gamma系数,因为dy系数的分母多了一个在因变量上同分的对数。上述计算方法只是对于小样本原始资料进行的,如果是分类汇总资料,该如何求G和dy系数呢?二、相关系数(correlationcoefficient)YX121
f11f122f21f22二、相关系数(correlationcoefficient)婆媳冲突住户密度总数高中低高2320447中11552894低8272459总数4210256200表2.2住户人口密度与婆媳冲突二、相关系数(correlationcoefficient)m:min(r,c)tau-a:在两个自变量上都没有同分对,其取值才为【-1,+1】tau-b:用同分对,但在r=c时,其取值才为【-1,+1】tau-c:没有要求,其值为【-1,+1】,所以tau-c较为常用,但其没有消减误差比例的意义,所以其应用不及G和dy广泛。二、相关系数(correlationcoefficient)
斯皮尔曼相关系数rho:计算每个个案在两个变量上的等级时,不仅区别二者的高低差异,而且还要计算两者差异的确切数值。
D表示每个个案在两列等级上的差异值。其基本逻辑是:在最大可能的等级差异值中,实际的等级差异所占的比例。
属于对称测量,要求同分的情况不能太多,取值范围[-1,1],平方具有消减误差比例的意义。二、相关系数(correlationcoefficient)乡名经济卫生A11B23C34D45E58F66.5G79.5H8.56.5I8.59.5J102表3.110个乡的经济水平与卫生水平二、相关系数(correlationcoefficient)
可见,经济水平与卫生水平成正相关关系,而且关系强度呈中等,其平方为0.2209,表明以一个变量预测两一个变量的等级时可以减少22.09%的误差。二、相关系数(correlationcoefficient)3.两个定距变量之间的相关:
皮尔森相关系数主要用来测量两个定距变量之间的相关程度。二、相关系数(correlationcoefficient)编号教育年限(X)劳动小时(Y)A25B24C34D33E41F41G40H60I80总数3618表2.39名妇女教育年限与家务劳动二、相关系数(correlationcoefficient)
皮尔森相关系数:对称测量,假定X与Y互相影响(很多时候,不对称也使用此系数)范围:[-1,+1]平方具有消减误差比例的意义假定X与Y之间是一种直线相关关系二、相关系数(correlationcoefficient)3.定类变量与定距变量:相关比率又称eta平方系数(简写为E2),定类变量是自变量,定距变量是因变量,根据自变量的取值预测因变量的均值。范围:【0,1】
具有消减误差比例的意义
二、相关系数(correlationcoefficient)3.定类变量与定距变量:相关比率
Y:因变量的值Y撇:因变量的均值Y撇i:每个自变量取值上的因变量的均值二、相关系数(correlationcoefficient)
职业种类干部工人农民英语成绩7852838259759173829061788580808151836454总数785表2.420名学生家庭职业背景对英语成绩的影响二、相关系数(correlationcoefficient)3.定类变量与定距变量:相关比率皮尔森相关系数假定两个定距变量之间具有直线关系,如果两个变量之间不成直线关系,而是曲线关系,则r系数会误解事实。
因此,在计算r系数之前先做一个散点图,看看是否成直线关系,如果不是直线关系,要么通过变量转换使其成线性相关,要么使用相关比率(E)来替代r。
二、相关系数(correlationcoefficient)4.定类变量与定序变量:Lambdatau-y
由于定序变量具有定类变量的数学特质,所以,对于一个定类变量和一个定序变量的相关,大多采用Lambda和tau-y.
二、相关系数(correlationcoefficient)5.定序变量与定距离量:相关比率同理,由于定序变量具有定类变量的数学特质,所以,对于一个定序变量和一个定距变量的相关,大多采用相关比率测量。
二、相关系数(correlationcoefficient)6.总结
测量方法变量层次要求取值范围是否对称测量
有无PRE意义Lambda定类-定类定类-定序[01]对称和不对称有Tau-y定类-定类定类-定序[01]不对称有Gamma定序-定序[-11]对称有Dy定序-定序[-11]不对称有相关比率定类-定距定序-定距[01]不对称E2有皮尔森系数定距-定距[-11]对称
r2有二、相关系数(correlationcoefficient)7.应用举例(略)
作业1.下列数值是12个企业女职工的比例,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环评招募合伙协议书(2篇)
- 苏教版小学二年级数学上册口算题卡
- 二年级安全工作计划报告范文
- 五年级下册数学听评课记录《2因数和倍数练习》人教新课标
- 职业经理人聘用合同范本
- 2025年度土地使用权出让合同纠纷解决协议书
- 二零二五年度订车合同违约赔偿标准与汽车行业法律法规更新协议
- 二零二五年度跨境投资财务顾问合同(税务筹划)
- 2025年度产权式酒店购房定金协议
- 二零二五年度城市综合体建设项目承包合同解除协议
- 中国氢内燃机行业发展环境、市场运行格局及前景研究报告-智研咨询(2024版)
- 《自然保护区划分》课件
- 2024年湖南高速铁路职业技术学院高职单招数学历年参考题库含答案解析
- 上海铁路局招聘笔试冲刺题2025
- 学校食堂餐厅管理者食堂安全考试题附答案
- 《商用车预见性巡航系统技术规范》
- 国旗班指挥刀训练动作要领
- 春季安全开学第一课
- 植物芳香油的提取 植物有效成分的提取教学课件
- 陕鼓集团招聘笔试题目
- 肖像绘画市场发展现状调查及供需格局分析预测报告
评论
0/150
提交评论