ChapSPSS卡方检验课件_第1页
ChapSPSS卡方检验课件_第2页
ChapSPSS卡方检验课件_第3页
ChapSPSS卡方检验课件_第4页
ChapSPSS卡方检验课件_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章:类别数据的分析---卡方检验第3章:类别数据的分析---卡方检验3.1列联表的基本概念3.2卡方检验的基本原理3.3卡方检验的SPSS实现3.4列联强度3.5卡方检验的实例分析22013年8月15日@文彤老师3.1列联表的基本概念列联表:由两个定性变量交叉分组得到的表。设分类变量x、y分别可以分作c类、r类。为了研究y分类是否与x分类相关,将数据先按x分类,然后分别统计当x=x1,x=x2,…,x=xc情况下的y分类,这样就得到了数据按二个分类变量进行交叉分类的频次分配表,即二维的列联表,简称列联表。一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计100120901104202013年8月15日@文彤老师3列联表的分布一分公司二分公司三分公司四分公司合计(行边缘分布)赞成该方案(人)(条件频数)行百分数(%)(行的条件分布)列百分数(%)(列的条件分布)总百分数(%)(联合分布)6824.4%=68/27968%=68/10016.2%=68/4207526.9%62.5%17.8%5720.4%63.3%13.6%7928.3%71.8%18.8%27966.4%=279/420反对该方案(人)行百分数(%)列百分数(%)总百分数(%)3222.7%=32/14132%=32/1007.6%=32/4204531.9%37.5%10.7%3323.4%36.7%7.9%3122.0%28.2%7.4%14133.6%=279/420合计(列边缘分布)%10023.8%=100/42012028.6%9021.4%11026.2%420100%观察值的分布:联合分布边缘分布条件分布2013年8月15日@文彤老师4列联表的分布(续)期望分布一分公司二分公司三分公司四分公司赞成该方案期望值0.664×100660.664×120800.664×90600.664×11073反对该方案期望值0.336×100340.336×12040

0.336×90300.336×11037观察值和期望值频数对比分布表一分公司二分公司三分公司四分公司赞成该方案观察值期望值6866758057607973反对该方案观察值期望值

32344540

33303137如果各分公司对改革方案的看法相同,就应有(为第i公司赞成改革方案的百分比),观察值和期望值就应该非常接近,可以用进行检验。2013年8月15日@文彤老师5第3章:类别数据的分析---卡方检验3.1列联表的基本概念3.2卡方检验的基本原理3.3卡方检验的SPSS实现3.4列联强度3.5卡方检验的实例分析62013年8月15日@文彤老师χ2检验是列联表的检验统计量,可用于拟合优度检验和独立性检验,可以测定两个分类变量之间的相关程度。它最基本的无效假设是:H0:观察频数与期望频数没有差别其原理为考察基于H0的理论频数分布和实际频数分布间的差异大小,据此求出相应的P值。设f0为观测值频数,fe为期望值频数,则统计量为:(1)(2)值的大小与观察值与期望值的配对数,即R×C的多少有关(3)统计量描述了观察值与期望值的接近程度,两者越接近,其值越小,反之越大。2013年8月15日@文彤老师7χ2检验:分析实例

在CCSS的分析报告中,所有受访家庭会按照家庭年收入被分为低收入家庭和中高收入家庭两类,现希望考察不同收入级别的家庭其轿车拥有率是否相同。82013年8月15日@文彤老师方法原理:观察频数收入与是否拥有家庭轿车的列联表如表所示9O1.是否拥有家用轿车*家庭收入2级交叉表

家庭收入2级总计Below48,000Over48,000O1.是否拥有家用轿车有94857没有10197198总计1101452552013年8月15日@文彤老师方法原理:理论频数基于H0成立,两样本所在总体无差别的前提下计算出各单元格的理论频数来。10O1.是否拥有家用轿车*家庭收入2级交叉表预期计数

家庭收入2级总计Below48,000Over48,000O1.是否拥有家用轿车有24.632.457.0没有85.4112.6198.0总计110.0145.0255.02013年8月15日@文彤老师方法原理:残差设为观测值频数,为期望值频数,f0与fe之差被称为残差11O1.是否拥有家用轿车*家庭收入2级交叉表

家庭收入2级总计Below48,000Over48,000O1.是否拥有家用轿车有计数94857预期计数24.632.457.0残差-15.615.6

没有计数10197198预期计数85.4112.6198.0残差15.6-15.6

总计计数110145255预期计数110.0145.0255.02013年8月15日@文彤老师方法原理:卡方统计量另一方面,残差大小是一个相对的概念,相对于期望频数为10时,20的残差非常大;可相对于期望频数为1000时20就很小了。因此又将残差平方除以期望频数再求和,以标准化观察频数与期望频数的差别。这就是我们所说的卡方统计量,在1900年由英国统计学家Pearson首次提出,其公式为:122013年8月15日@文彤老师方法原理:检验结果从卡方的计算公式可见,当观察频数与期望频数完全一致时,卡方值为0;观察频数与期望频数越接近,两者之间的差异越小,卡方值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,卡方值越大。当然,卡方值的大小也和自由度有关13卡方检验

值自由度渐近显著性(双向)精确显著性(双向)精确显著性(单向)皮尔逊卡方22.3831.000

连续校正b20.9701.000

似然比(L)24.5581.000

Fisher精确检验

.000.000线性关联22.2951.000

有效个案数255

2013年8月15日@文彤老师卡方检验的样本量要求对于卡方检验中的每一个单元格,要求其最小期望频数均大于1。至少有4/5的单元格期望频数大于5。142013年8月15日@文彤老师卡方检验的用途检验某个连续变量的分布是否符合某种理论分布,如是否符合正态分布、均匀分布等。检验某个分类变量各类的出现概率是否等于指定概率。检验某两个分类变量是否相互独立。在控制某种活某几类因素的作用后,另两个分类变量是否相互独立。检验某两种方法的结果是否一致。152013年8月15日@文彤老师第3章:类别数据的分析---卡方检验3.1列联表的基本概念3.2卡方检验的基本原理3.3卡方检验的SPSS实现3.4列联强度3.5卡方检验的实例分析162013年8月15日@文彤老师卡方检验的SPSS实现非参数分布检验中的卡方检验主要检验某个分类变量各类的出现概率是否等于指定概率的分布。实例:分别使用新旧对话框,用卡方检验考察2007年4月的性别抽样分布是否平衡。交叉表过程主要用于两个/多个分类变量的列联表进行其关联程度的卡方检验,并可进一步计算出关联程度指标等。一般所说的卡方检验就是指该过程中的相应功能。实例:在CCSS的报告中,所有受访家庭会按照年收入分为低收入家庭和中高收入家庭,现希望考察不同收入家庭其轿车拥有率是否相同。172013年8月15日@文彤老师检验统计量的讨论假设:H0行变量与列变量无关,H1:行变量与列变量相关连续修正检验统计量,其计算公式为:在H0成立条件下,该统计量渐近服从分布。似然比检验统计量,计算公式为:,在H0成立条件下,该统计量渐近服从分布。Mantel-Haenszel检验统计量,计算公式:,其中,是行变量与列变量的Pearson的相关系数。Fisher精确检验。2013年8月15日@文彤老师182024/1/2519第3章:类别数据的分析---卡方检验3.1列联表的基本概念3.2卡方检验的基本原理3.3卡方检验的SPSS实现3.4列联强度3.5卡方检验的实例分析202013年8月15日@文彤老师消减误差比例设有现象Y和X,E1表示未知X预测Y产生的误差,E2表示已知X产生的误差。消减误差比(proportionalreductioninerror;PRE)定义为:

PRE=(E1-E2)/E1=1-E2/E1实例未知性别(X),预测志愿(Y)的错误次数为50已知性别(X),预测志愿的错误次数为30PRE=(50-30)/50=0.4,可以削减40%的误差100名青年人的性别与志愿志愿性别总数男女快乐见闻103040理想工作401050增广见闻10010总数60401002013年8月15日@文彤老师21名义变量的关联指标1.Φ相关系数系数:主要用于描述2×2列联表数据相关程度,公式为:

当列联表的行数或列数大于2时,Φ将随之增大,且没有上限,这时Φ对相关程度的测定不够清晰,可以采用列联相关系数。2.列联相关系数(ContingencyCoefficient)主要用于大于2×2列联表的情况,公式为:3.Cramer’sV系数,定义为:4.λ系数(Lambda),其中fim为每一类x中y分布的众数次数,Fym为y次数分布的众数次数5.不确定系数:和Lambda相似,也用于反映当知道自变量后,因变量的不确定性下降了多少,只是以熵为不确定性大小的度量指标。

2013年8月15日@文彤老师22有序变量的相关指标1.Gamma(γ)相关系数,计算公式为:其中:P为所有观测中一致对的个数,Q为不一致的对数。2.Kendall’stall-b()相关系数,计算公式为:3.Stuarttall-c()相关系数,计算公式为:其中,m=min{R,C}4.Somer’sd(C|R):

其中,Py为y方向的同分对2013年8月15日@文彤老师23第3章:类别数据的分析---卡方检验3.1列联表的基本概念3.2卡方检验的基本原理3.3卡方检验的SPSS实现3.4列联强度3.5卡方检验的实例分析242013年8月15日@文彤老师咖啡屋需求调查案例研究目的2003年,受毕业校友的委托,北大的几位在读研究生在校内进行了一次关于北大师生对咖啡屋及类似休闲场所的需求调查,以便对这些校友的创业决策(在北大校内开设一家咖啡屋)提供数据支持。具体而言,本研究的需求如下:了解北大校内咖啡消费人群的基本背景状况;了解该消费人群的咖啡消费习惯,包括频次、额度、消费原因等;了解该消费人群可能存在,但目前尚未被满足的潜在需求。262013年8月15日@文彤老师问卷结构第一部分:甄别问卷第二部分:主体问卷最常去的最喜欢的,喜欢的原因消费的主要目的、项目、金额、时间信息来源预期位置第三部分:个人信息272013年8月15日@文彤老师北京大学师生对咖啡屋及类似休闲场所的需求调查第一部分:甄别问卷F您是否在过去的一年中去过咖啡店或类似的休闲场所1.是2.否(跳至Q9)282013年8月15日@文彤老师第二部分:主体问卷Q1以下休闲吧您光顾最频繁的是:1.星巴克2.仙踪林3.真锅咖啡4.雕刻时光5.绿叶谷

6.师生缘7.勺园咖啡屋8.西门外酒吧9.闲情偶寄10.其他_________Q2以下休闲吧您最喜欢的是:

1.星巴克2.仙踪林3.真锅咖啡

4.雕刻时光5.绿叶谷6.师生缘7.勺园咖啡屋8.西门外酒吧9.闲情偶寄10.其他_________Q3您最喜欢的原因是:1.那里有我最喜欢的饮料;2.我喜欢那里的情调与环境3.那里的价格很公道;4.因为朋友喜欢,我就一起去了5.因为离的近,方便;6.其他_____________Q5您去咖啡屋或休闲吧的主要目的是(多选,三项以内):1.喝喜欢的东西2.与朋友聊天3.自习或一个人看东西4.讨论案例或公事5.约会6.其他___________Q6您去咖啡屋或休闲吧主要消费的是(多选):1.咖啡2.奶茶3.啤酒4.冰淇淋5.碳酸饮料6.果汁7.牛奶8.茶9.矿泉水10.爆米花11.秒包小点12.薯条13.沙拉14.套餐15.其他______Q7.您去咖啡屋或休闲吧平均每次的花费大约是(人均)1.20以下2.20~39元3.40~59元4.60元以上Q8.您去咖啡屋或休闲吧平均每次停留的时间是:1.1小时以下2.1~2小时3.2~3小时4.3小时以上Q12.一般说来,您得知学校附近开新店的消息通过的途径是(多选):

1.路过看到2.朋友介绍3.校内海报4.网上广告5.校内BBS6.其他Q13.您觉得在校内开咖啡店的理想位置是:

1.三角地2.学生宿舍楼3.勺园周围4.理教、光华一带

5.一教及图书馆一带6.三教、四教一带7.其他______292013年8月15日@文彤老师第三部分:个人信息P1性别:1.男2.女P2年龄:_____________P3.您是:1.本科2.研究生3.MBA学生4.博士生5.进修生

6.教师7.留学生P4.可支配的月收入(人民币):1.500元以下2.500~999元3.1000~2999元4.3000~4999元5.5000元以上302013年8月15日@文彤老师受访者人口背景分析是否去过咖啡店的人口相关因素分析是否去过咖啡店与性别的相关性分析是否去过咖啡店的年龄特征分析是否去过咖啡店与学历身份的关系分析是否去过咖啡店与收入的关系分析分析结果发现男性偏多女性去过咖啡消费场所的比例要更高一些注意收入、学历的分布最终可以得到如下线索:整个研究接触到的核心人群应当就是本科/硕士在读学生,在抽样合理的情况下,这也应当是主要的咖啡消费人群。需要注意性别间可能存在的差异。312013年8月15日@文彤老师受访者对现有酒吧的U&A对光顾频次和咖啡店偏好情况的交叉分析。最频繁和最喜欢的休闲吧交叉表分析为什么师生缘消费频繁程度明显高于其受欢迎程度的表现?雕刻时光的受欢迎程度为什么无法转换为其实际消费行为?喜欢原因(Q3)分析光顾频次和最喜欢的原因交叉表分析受访者去咖啡吧最看重的就是情调和环境距离实际上也是重要因素光顾目的(Q4)分析光顾频次和光顾目的交叉表分析进一步确认了距离足够近是消费频率的关键因素。322013年8月15日@文彤老师受访者在酒吧消费的情况交叉表分析最频繁光顾的咖啡吧与消费品的交叉表分析最频繁光顾的咖啡吧与人均花费的交叉表分析主要分析结果咖啡的消费比例在星巴克非常高;类似于仙踪林则是以奶茶、果汁、冰激凌的消费为主,看来这两样比较适合于和恋人同行时饮用;师生缘又一次走了中庸路线,没有发现他的消费人群更偏向于消费哪种饮料/食品;西门外酒吧饮用啤酒和碳酸饮料的比例很高,这应当是一个很合理的结果。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论