版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关于列联分析第一张,PPT共四十五页,创作于2022年6月背 景统计分析中,我们常常会遇到一些定性的数据性别(男、女)态度(喜欢、不喜欢)性别对态度是否有影响1.可使用列联表分析技术2.可运用对数线性模型与 Logistic模型分析技术2022/9/32第二张,PPT共四十五页,创作于2022年6月主要内容2022/9/33第三张,PPT共四十五页,创作于2022年6月第一节 分类数据与列联表 一、分类数据二、列联表的构造三、列联表的分布2022/9/34第四张,PPT共四十五页,创作于2022年6月分类变量的结果表现为类别例如:性别 (男, 女)各类别用符号或数字代码来测度使用分类或顺序尺度
2、你吸烟吗? 1.是;2.否你赞成还是反对这一改革方案?1.赞成;2.反对对分类数据的描述和分析通常使用列联表可使用检验数值型数据也可以转化为分类数据一、分类数据2022/9/35第五张,PPT共四十五页,创作于2022年6月由两个以上的变量交叉分类的频数分布表行变量的类别用 r 表示, ri 表示第 i 个类别列变量的类别用 c 表示, cj 表示第 j 个类别每种组合的观察频数用 fij 表示表中列出了行变量和列变量的所有可能的组合,所以称为列联表一个 r 行 c 列的列联表称为 r c 列联表二、列联表的构造-列联表(contingency table)2022/9/36第六张,PPT共四
3、十五页,创作于2022年6月列联表的结构(2 2 列联表)列( cj )合计j =1j =1i =1f11f12f11+ f12i =2f21f22f21+ f22合计f11+ f21f12+ f22n列(cj)行 (ri)2022/9/37第七张,PPT共四十五页,创作于2022年6月列联表的结构(r c 列联表的一般表示)列(cj)合计j =1j = 2i =1f11f12r1i = 2f21f22r2:合计c1c2n列(cj)行(ri)fij 表示第 i 行第 j 列的观察频数2022/9/38第八张,PPT共四十五页,创作于2022年6月例题分析一分公司二分公司三分公司四分公司合计赞成
4、该方案68755779279反对该方案32753331141合计10012090110420【例】一个集团公司在四个不同的地区设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方式,从四个分公司共抽取420个样本单位(人),了解职工对此项改革的看法,调查结果如下表2022/9/39第九张,PPT共四十五页,创作于2022年6月边缘分布行边缘分布行观察值的合计数的分布例如,赞成改革方案的共有279人,反对改革方案的141人列边缘分布列观察值的合计数的分布例如,四个分公司接受调查的人数分别为100人,120人,90人,110人条件分布与条件频数变量 X 条件下
5、变量Y 的分布,或在变量Y 条件下变量 X 的分布每个具体的观察值称为条件频数二、列联表的分布-观察值的分布2022/9/310第十张,PPT共四十五页,创作于2022年6月观察值的分布(图示)一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420行边缘分布列边缘分布条件频数2022/9/311第十一张,PPT共四十五页,创作于2022年6月条件频数反映了数据的分布,但不适合对比为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布行百分比:行的每一个观察频数除以相应的行合计数(fij / ri)列百分比:列
6、的每一个观察频数除以相应的列合计数( fij / cj )总百分比:每一个观察值除以观察值的总个数( fij / n )百分比分布(概念要点)2022/9/312第十二张,PPT共四十五页,创作于2022年6月百分比分布(图示)一分公司二分公司三分公司四分公司合计赞成该方案24.4%26.9%20.4%28.3%66.4%68.0%62.5%63.3571.8%16.2%17.8%13.6%18.8%反对该方案22.7%31.9%23.4%22.0%33.6%32.0%37.5%36.7%28.2%7.6%10.7%7.9%7.4%合计23.8%28.6%21.4%26.2%100%总百分比列
7、百分比行百分比2022/9/313第十三张,PPT共四十五页,创作于2022年6月假定行变量和列变量是独立的一个实际频数 fij 的期望频数 eij ,是总频数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即期望频数的分布2022/9/314第十四张,PPT共四十五页,创作于2022年6月期望频数的分布(例题分析)由于观察频数的总数为n ,所以f11 的期望频数 e11 应为例如,第1行和第1列的实际频数为 f11 ,它落在第1行的概率估计值为该行的频数之和r1除以总频数的个数 n ,即:r1/n;它落在第1列的概率的估计值为该列的频数之和c1除以总频数的个数 n ,即:
8、c1/n 。根据概率的乘法公式,该频数落在第1行和第1列的概率应为2022/9/315第十五张,PPT共四十五页,创作于2022年6月期望频数的分布(例题分析)一分公司二分公司三分公司四分公司赞成该方 案实际频数68755779期望频数66806073反对该方 案实际频数32753331期望频数344030372022/9/316第十六张,PPT共四十五页,创作于2022年6月第二节 检验 一、 统计量 二、拟合优度检验2022/9/317第十七张,PPT共四十五页,创作于2022年6月用于检验列联表中变量间拟合优度和独立性用于测定两个分类变量之间的相关程度 计算公式为 其自由度为 式中 -列
9、联表中第i行第j列类别的实际频数 -列联表中第i行第j列类别的期望频数一、 统计量2022/9/318第十八张,PPT共四十五页,创作于2022年6月 统计量(例题分析)实际频数(fij)期望频数(eij)fij - eij(fij - eij)2(fij- eij)2eij687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合计:3.03192022/9/319第十九张,PPT共四十五页,创作于2022年6月二、拟合优度检验(品质数据的假
10、设检验)品质数据比例检验独立性检验Z 检验一个总体 检验Z 检验 检验两个以上总体两个总体2022/9/320第二十张,PPT共四十五页,创作于2022年6月检验多个比例是否相等检验的步骤提出假设H0:1 = 2 = = j;H1: 1 , 2 , , j 不全相等 计算检验的统计量拟合优度检验(goodness of fit test)进行决策 根据显著性水平和自由度(r-1)(c-1)查出临界值2 若22,拒绝H0;若22,接受H02022/9/321第二十一张,PPT共四十五页,创作于2022年6月H0: 1= 2= 3= 4 H1: 1,2,3,4 不全相等 = 0.1df = (2-
11、1)(4-1)= 3临界值(s):拟合优度检验(例题分析)统计量:在 = 0.1的水平上不能拒绝H0可以认为四个分公司对改革方案的赞成比例是一致的 决策:结论:6.2513.0319 =0.10第二十二张,PPT共四十五页,创作于2022年6月 【例】为了提高市场占有率,A公司和B公司同时开展了广告宣传。在广告宣传战之前,A公司的市场占有率为45%,B公司的市场占有率为40%,其他公司的市场占有率为15%。为了了解广告战之后A、B和其他公司的市场占有率是否发生变化,随机抽取了200名消费者,其中102人表示准备购买A公司产品,82人表示准备购买B公司产品,另外16人表示准备购买其他公司产品。检
12、验广告战前后各公司的市场占有率是否发生了变化 ( 0.05)拟合优度检验(例题分析)2022/9/323第二十三张,PPT共四十五页,创作于2022年6月H0: 1=0.45 2=0.4 3= 0.15 H1:原假设中至少有一个不成立 = 0.05df = (2-1)(3-1)= 2临界值(s):拟合优度检验(例题分析)统计量: 在 = 0.05的水平上拒绝H0可以认为广告后各公司产品市场占有率发生显著变化 决策:结论:08.185.99 =0.05 24第二十四张,PPT共四十五页,创作于2022年6月第1步:将观察值输入一列,将期望值输入一列第2步:选择“函数”选项第3步:在函数分类中选“
13、统计”,在函数名中选 “CHITEST”,点击“确定”第4步:在对话框“Actual_range”输入观察数据区域 在对话框“Expected_range”输入期望数据区 域得到P值为0.016711,所以拒绝原假设 拟合优度检验(例题分析用P值检验) 25第二十五张,PPT共四十五页,创作于2022年6月第三节 列联表中的相关测量一、 相关系数二、列联相关系数三、V 相关系数2022/9/326第二十六张,PPT共四十五页,创作于2022年6月品质相关对品质数据(分类和顺序数据)之间相关程度的测度列联表变量的相关属于品质相关列联表相关测量的统计量主要有 相关系数列联相关系数V 相关系数列联表
14、中的相关测量2022/9/327第二十七张,PPT共四十五页,创作于2022年6月测度22列联表中数据相关程度对于22 列联表, 系数的值在01之间 相关系数计算公式为 式中n为列联表的总频数,即样本量一、 相关系数(correlation coefficient)2022/9/328第二十八张,PPT共四十五页,创作于2022年6月一个简化的 22 列联表 相关系数(原理分析)因素Y因素 X合计x1x2y1aba + by2cdc + d合计a + cb + dn2022/9/329第二十九张,PPT共四十五页,创作于2022年6月a、b、c、d均为条件频数当变量X,Y相互独立,不存在相关关
15、系时,频数间应有下面的关系:化简后有:差值 的大小可以反映变量之间相关程度的高低。差值越大,说明两个变量的相关程度越高。 系数就是以差值为基础,实现对两个变量相关程度的测量。 相关系数(原理分析)2022/9/330第三十张,PPT共四十五页,创作于2022年6月列联表中每个单元格的期望频数分别为 相关系数(原理分析)将各期望频数代入 的计算公式得2022/9/331第三十一张,PPT共四十五页,创作于2022年6月将代入 相关系数的计算公式得 相关系数(原理分析)ad 等于 bc , = 0,表明变量X 与 Y 之间独立若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频数全部落在对角线
16、上,此时| =1,表明变量X 与 Y 之间完全相关列联表中变量的位置可以互换,的符号没有实际意义,故取绝对值即可2022/9/332第三十二张,PPT共四十五页,创作于2022年6月用于测度大于22列联表中数据的相关程度计算公式为二、列联相关系数(coefficient ofcontingency)C 的取值范围是 0C1C = 0表明列联表中的两个变量独立C 的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大根据不同行和列的列联表计算的列联系数不便于比较2022/9/333第三十三张,PPT共四十五页,创作于2022年6月计算公式为三、V 相关系数(V correlation c
17、oefficient)2. V 的取值范围是 0V13. V = 0表明列联表中的两个变量独立4. V=1表明列联表中的两个变量完全相关5. 不同行和列的列联表计算的列联系数不便于比较6. 当列联表中有一维为2,min(r-1),(c-1)=1,此时 V=2022/9/334第三十四张,PPT共四十五页,创作于2022年6月同一个列联表,、C、V 的结果会不同不同的列联表,、C、V 的结果也不同在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数四、C、V 的比较2022/9/335第三十五张,PPT共四十五页,创作于2022年6月列联表中的
18、相关测量(例题分析)【例】一种原料来自三个不同地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如下表。分别计算系数、C系数和V系数,并分析相关程度地区一级二级三级合计甲地区526424140乙地区605952171丙地区506574189合计1621881505002022/9/336第三十六张,PPT共四十五页,创作于2022年6月列联表中的相关测量 (例题分析)解:已知n=500,19.82,列联表为33结论:三个系数均不高,表明产地和原料等级之 间的相关程度不高2022/9/337第三十七张,PPT共四十五页,创作于2022年6月第四节 列联分析中应注意的问题
19、一、条件百分表的方向二、 分布的期望准则2022/9/338第三十八张,PPT共四十五页,创作于2022年6月对于具有因果关系的两个品质变量X与Y,在列联表中的位置有习惯的处理,即将自变量(X)置于列的位置,将因变量(Y)置于行的位置,这样可以更好地表现原因对结果的影响。一、条件百分表的方向价值取向Y职业X制造业服务业物质报酬(%)105724556人情关系(%)40283544合计(%)145100801002022/9/339第三十九张,PPT共四十五页,创作于2022年6月如果因变量在样本内的分布不能代表其在总体内的分布,例如,为了满足分析的需要,抽样时扩大了因变量某项内容的样本量,这时若仍以自变量的方向计算百分表就会歪曲事实。例如,社会学家欲研究家庭状况(自变量)对青少年犯罪(因变量)的影响。该地区有未犯罪记录的青少年10000名,犯罪记录的青少年150名。如果从未犯罪青少年中抽取1%,即100名进行研究,按相同比例从犯罪青少年中抽取的样本量仅为1.5人。显然,这样少的样本量无法满足研究的需要。故要扩大犯罪青少年的样本量,如扩大到50%。调查结果:条件百分表的方向(特殊情况)2022/9/340第四十张,PPT共四十五页,创作于2022年6月青少年行为家庭状况合计完整家庭离异家庭犯罪
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《大肠平滑肌肉瘤》课件
- 热加工课程设计2018
- 绿色环保课程设计
- 自动窗帘控制课程设计
- 算法导论课程设计
- 筑梦星空的幼儿园工作总结
- 宠物行业宠物美容师工作总结
- 综合经营行业行政后勤工作总结
- 纺织行业会计工作总结
- 移动应用开发行业技术工作总结
- 环境因素控制措施
- 采购合同范例壁布
- 公司员工出差车辆免责协议书
- 2024年陕西榆林市神木市公共服务辅助人员招聘775人历年管理单位遴选500模拟题附带答案详解
- 安全生产事故案例分析
- 《电化学储能系统舱大件运输特殊要求》
- 2025年采购部工作计划
- 期末检测卷(一)(试卷)-2024-2025学年外研版(三起)英语六年级上册(含答案含听力原文无音频)
- 《防范于心反诈于行》中小学防范电信网络诈骗知识宣传课件
- 2023-2024学年北京市通州区九年级(上)期末语文试卷
- 2023-2024学年广东省深圳市龙岗区八年级(上)期末英语试卷
评论
0/150
提交评论