版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用多元统计分析第八章列联与对应分析第一页,共七十八页,编辑于2023年,星期六
第八章——列联分析与对应分析第二页,共七十八页,编辑于2023年,星期六列联分析第三页,共七十八页,编辑于2023年,星期六二维列联表
例8.1关于某项政策调查所得结果:table7.sav观点:不赞成观点:赞成合计男女231835475865合计4182123表8.1第四页,共七十八页,编辑于2023年,星期六列联表前面就是一个所谓的二维列联表(contingencytable).列联表是由两个或两个以上的变量进行交叉分类的频数分布表。这些变量中每个都有两个或更多的可能取值。这些取值也称为水平;比如观点有两个水平,性别有两个水平等。第五页,共七十八页,编辑于2023年,星期六列联表一般将横向变量的划分类别视为R,纵向变量的划分类别视为C,则可以将列联表称为R×C列联表。上表即为2×2列联表。在SPSS数据中,收入的“低”、“中”、“高”用代码1、2、3代表;性别的“女”、“男”用代码0、1代表;观点“赞成”和“不赞成”用1、0代表。第六页,共七十八页,编辑于2023年,星期六列联表的分布列联表有两个分布:一个是观察值的分布;一个是期望值的分布;第七页,共七十八页,编辑于2023年,星期六sex*opinionCrosstabulation
opinion
不赞成赞成
sex女184765
%withinsex27.6972.31100.00%
男Count233558
%withinsex39.6660.34100.00%Total
Count4182123
%withinsex33.3366.67100.00%第八页,共七十八页,编辑于2023年,星期六观察值的分布事实上,表8.2就是一个最简单的观察值的分布。观察值分布虽然反映了数据的分布,但因为基数不同,不适合于进行对比。为了能在此相统的基数上比较,使列联表中的数据提供更多的信息,可以计算相应的百分比。第九页,共七十八页,编辑于2023年,星期六期望值的分布如果我们想进一步了解不同性别的人对这项政策的观点是否存在着显著的差异,就要进行检验。从逻辑上讲,如果男女性别的人对这项政策的看法相同,那么男性不赞同方案的人应为:58×33.3%=19人,女性不赞同方案的人应为:65×33.3%=22人。这19人和22人就是本例中的期望值,由此可以计算出期望值的分布。第十页,共七十八页,编辑于2023年,星期六期望值的分布
表8.3期望值分布表观点:不赞成观点:赞成合计男女58×33.3%=1965×33.3%=2258×66.7%=3965×66.7%=435865合计4182第十一页,共七十八页,编辑于2023年,星期六对比分布表表8.4观察值与期望值频数对比分布表观点:不赞成观点:赞成男:观察值
期望值女:观察值
期望值2319182235394743第十二页,共七十八页,编辑于2023年,星期六期望值的分布如果男女性别对该性政策的观点相同,就应有:那么表8.4中,观察值和期望值就应当非常接近。对于这个假设的检验,可以采用分布进行检验。第十三页,共七十八页,编辑于2023年,星期六
分布与检验第十四页,共七十八页,编辑于2023年,星期六用f0表示观察值频数,fe表示期望值的频数,则统计量为:
统计量由于值的大小与观察值与期望值的配对数,即R×C有关,所以,统计量的分布与自由度有关。自由度=(R-1)(C-1)第十五页,共七十八页,编辑于2023年,星期六分布第十六页,共七十八页,编辑于2023年,星期六检验
检验可在交叉汇总分析中进行:SPSS选项:
Analyze——DescriptiveStatistics—Crosstabs然后选择statistics,再选检验即可。第十七页,共七十八页,编辑于2023年,星期六检验结果第十八页,共七十八页,编辑于2023年,星期六检验实际上有不止一个X2检验统计量。包括PearsonX2统计量和似然比(likelihoodratio)X2统计量;它们都有渐近的X2分布。根据计算可以得到(对于这两个统计量均有)p-值大于0.05。第十九页,共七十八页,编辑于2023年,星期六此外还有精确的统计量——Fisher精确检验;它不是X2分布,而是超几何分布。对本问题,计算Fisher统计量得到的p-值也大于0.05。聪明的同学必然会问,既然有精确检验为什么还要用近似的X2检验呢?这是因为当数目很大时,超几何分布计算相当缓慢(比近似计算会差很多倍的时间);而且在计算机速度不快时,根本无法计算。因此人们多用大样本近似的X2统计量。第二十页,共七十八页,编辑于2023年,星期六我们以上介绍的是列联表中一致性的检验,但是列联表分析中用的更多的是检验变量之间是否存在相关关系,即独立性检验。我们仍用table7.sav的例子:第二十一页,共七十八页,编辑于2023年,星期六观点与收入是否相关的检验H0:观点和收入这两个变量不相关;H1:这两个变量相关。第二十二页,共七十八页,编辑于2023年,星期六列联表中的相关测量利用检验对列联表中变量之间的相互关系进行检验之后,如果认为拒绝原假设,变量之间存在联系,那么,接下来的问题就是它们之间的相关程度有多大?第二十三页,共七十八页,编辑于2023年,星期六列联表中的相关测量SPSS中提供了多种相关检验的方法:定距变量与定距变量相关的检验名义变量与名义变量相关的检验序次变量与序次变量相关的检验第二十四页,共七十八页,编辑于2023年,星期六第二十五页,共七十八页,编辑于2023年,星期六X2分布的期望值准则利用X2分布进行检验时,要求样本容量必须足够大,特别是每个单元中的期望频数不能过小,否则应用X2检验可能会得出错误的结论。一项准则是:如果只有两个单元,每个单元的期望频数必须是5或以上。另一准则是:如果有两个以上的单元,如果20%的单元期望频数小于5,则不能应用X2检验。第二十六页,共七十八页,编辑于2023年,星期六X2分布的期望值准则例如表8.5中的数据可以计算,因为6个单元中只有1个单元的期望频数小于5。类别f0feABCDEF2849186922026472348825合计213213第二十七页,共七十八页,编辑于2023年,星期六X2分布的期望值准则但是表8.6中的数据不能应用检验。类别f0feABCDEFG301108623554321138724241合计263263第二十八页,共七十八页,编辑于2023年,星期六X2分布的期望值准则如果我们仔细观察会发现,表8.6中的f0与fe非常接近,最大的差别只是3,应当说期望值与观察值拟合得很好,它们之间并无显著差别。然而,用X2检验得到的结果却是拒绝原假设,差异显著。解决的方法是:将小单元合并,使得fe大于5。第二十九页,共七十八页,编辑于2023年,星期六对应分析第三十页,共七十八页,编辑于2023年,星期六行和列变量的相关问题在因子分析中,或者对指标(列中的变量)进行分析,或者对样品(观测值或行中的变量)进行分析。另外,在处理实际问题中,样品的个数远远大于指标个数。如有100个样品,每个样品测10个指标,要做样品的因子分析,就要计算(100×100)阶相似系数阵的特征根和特征向量,这对于计算机来说也是一想耗时费力的事情。第三十一页,共七十八页,编辑于2023年,星期六行和列变量的相关问题然而,在很多情况下,所关心的不仅仅是行或列本身变量之间的关系,而是行变量和列变量的相互关系;这就是因子分析等方法所没有说明的了。先看一个例子。第三十二页,共七十八页,编辑于2023年,星期六例7.1—数据文件:ChMath.sav在研究读写汉字能力与数学的关系的研究时,人们取得了232个美国亚裔学生的数学成绩和汉字读写能力的数据。关于汉字读写能力的变量有三个水平:“纯汉字”——可以完全自由使用纯汉字读写,“半汉字”——读写中只有部分汉字(比如日文),“纯英文”——只能够读写英文而不会汉字。而数学成绩有4个水平(A、B、C、D)。第三十三页,共七十八页,编辑于2023年,星期六例7.1—数据文件:ChMath.sav这项研究是为了考察汉字具有的抽象图形符号的特性能否会促进儿童空间和抽象思维能力。该数据以列联表形式展示在表中:第三十四页,共七十八页,编辑于2023年,星期六人们可以对这个列联表进行前面所说的X2检验来考察行变量和列变量是否独立。结果在下面表(通过Analyze-DescriptiveStatistics-Crosstabs)第三十五页,共七十八页,编辑于2023年,星期六对应分析由于所有的检验都很显著,看来两个变量的确不独立。但是如何用象因子分析的载荷图那样的直观方法来展示这两个变量各个水平之间的关系呢?这就是本章要介绍的对应分析(correspondenceanalysis)方法。对应分析是将指标型的因子分析与样品型的因子分析结合起来进行的统计分析。第三十六页,共七十八页,编辑于2023年,星期六对应分析它是从指标型因子分析出发,而直接获得样品因子分析的结果。概括起来,因子分析可以提供三方面的信息:指标之间的关系;样品之间的关系;指标与样品之间的关系。第三十七页,共七十八页,编辑于2023年,星期六对应分析的基本思想由于指标型的因子分析和样品型的因子分析都是反映一个整体的不同侧面,以它们之间一定存在内在的联系。对应分析就是通过一个过渡矩阵Z将两者有机的结合起来:即:首先给出指标变量点的协差阵A=Z’Z和样品点的协差阵B=ZZ’,由于两者有相同的非零特征根,记为:第三十八页,共七十八页,编辑于2023年,星期六如何得到过渡矩阵Z?设有n个样品,每个样品有p个指标,原始资料阵为:假定矩阵X的元素都>0第三十九页,共七十八页,编辑于2023年,星期六如何得到过渡矩阵Z?第四十页,共七十八页,编辑于2023年,星期六如何得到过渡矩阵Z?如果我们将n个样品看成是p维空间的点,则其n个点的坐标用下面的形式表示:称为n个样品点第四十一页,共七十八页,编辑于2023年,星期六如何得到过渡矩阵Z?如果要对样品分类,就可以用样品点的距离远近来刻划.若引入欧氏距离则任两个样品点K与L之间的欧氏距离为:为了消除各变量的数量级不同,如第k各变量有较大的数量级,在计算距离时就会抬高这个变量的作用尺度差异的影响。第四十二页,共七十八页,编辑于2023年,星期六如何得到过渡矩阵Z?所以再用系数去乘距离公式就得到一个加权的距离公式。第四十三页,共七十八页,编辑于2023年,星期六如何得到过渡矩阵Z?也可以说上式是坐标为的n个样品点群中两个样品点K与L之间的距离。第四十四页,共七十八页,编辑于2023年,星期六如何得到过渡矩阵Z?类似,两个变量i与j之间的加权距离为:通过计算两两样品点或两两变量点之间的距离,可以对样品点或变量点进行分类,但是这样还不能用图表示出来。为了能直观地表现出变量点与样品点之间的关系,必须计算出变量点的协差阵和样品点的协差阵。第四十五页,共七十八页,编辑于2023年,星期六如何得到过渡矩阵Z?为得到协差阵,必须先给出样品点中第j个变量的均值:因此,可以写出样品空间中变量点的协差阵,即第i个变量与第j个变量的协差阵为:第四十六页,共七十八页,编辑于2023年,星期六如何得到过渡矩阵Z?第四十七页,共七十八页,编辑于2023年,星期六令Z=(zij),则有:
A=Z’Z即变量点的协差阵可以表示成Z’Z的形式类似,可以得到样品点的协差阵:
B=ZZ’A与B两矩阵明显的存在这简单的对应关系,而且将原始数据变换成zij后,
zij对于i,j是对等的,即zij对变量和样品具有对等性.而且A与B的非零特征根相同.第四十八页,共七十八页,编辑于2023年,星期六如果A的特征根对应的特征向量为则B的特征根对应的特征向量就是ZU.根据这个结论,可以很方便的借助指标型因子分析而得到样品型因子分析的结论。第四十九页,共七十八页,编辑于2023年,星期六对应分析的基本思想如果对每组变量选择前两列因子载荷,那么两组变量就可以画出两个因子载荷的散点图。由于这两个图所表示的载荷可以配对,于是就可以把这两个因子载荷的两个散点图画到同一张图中,并以此来直观地显示各行变量和各列变量之间的关系。下面通过对ChMath.sav数据的计算和结果分析来介绍对应分析。第五十页,共七十八页,编辑于2023年,星期六首先看对应分析结果的一个主要SPSS展示,然后再解释该图的来源和解释。运用纯汉字的点和最好的数学成绩A最接近,而不会汉字只会英文的点与最差的数学成绩F(或者D,虽然在纵坐标稍有差距)最接近,而用部分汉字的和数学成绩B接近。第五十一页,共七十八页,编辑于2023年,星期六对应分析输出—各维汇总表第五十二页,共七十八页,编辑于2023年,星期六表中的术语SingularValue-奇异值(是惯量的平方根),反映了是行与列各水平在二维图中分量的相关程度,是对行与列进行因子分析产生的新的综合变量的典型相关系数。Inertia-惯量,实际上就是常说的特征根,表示的是每个维度对变量各个类别之间差异的解释量。第五十三页,共七十八页,编辑于2023年,星期六表中的术语ChiSquare-就是关于列联表行列独立性x2检验的x2统计量的值,和前面表中的相同。其后面的Sig为在行列独立的零假设下的p-值,注释表明自由度为(4-1)×(3-1)=6,Sig.值很小说明列联表的行与列之间有较强的相关性。ProportionofInertia-惯量比例,是各维度(公因子)分别解释总惯量的比例及累计百分比,类似于因子分析中公因子解释能力的说明。第五十四页,共七十八页,编辑于2023年,星期六输出结果解释从该表可以看出,由于第一维的惯量比例占了总比例的93.9%,因此,其他维的重要性可以忽略(虽然画图时需要两维,但主要看第一维-横坐标)。在对应分析中,每个变量的类别差异是通过直观图上的分值距离表现出来的,但这个距离并不是我们通常所说的距离,而是经过加权的距离,在加权的过程中,以卡方值的差异表现。第五十五页,共七十八页,编辑于2023年,星期六第五十六页,共七十八页,编辑于2023年,星期六行变量的有关内容第五十七页,共七十八页,编辑于2023年,星期六行变量的有关内容第一部分是关于行变量每一类别在两个维度上的分值情况,实际上就是每一类别在坐标途中的坐标,Mass为行与列的边缘概率。第二部分(ContributionofPointtoInertiaofDimention)是说明行变量各个类别对每一维度特征值的影响,数值越大的类别,说明它对类别间差异的影响越大。第三部分(ContributionofDimentiontoInertiaofPoint)是说明每一维度对行变量各个类别特征值的影响。第五十八页,共七十八页,编辑于2023年,星期六列变量的有关内容
第五十九页,共七十八页,编辑于2023年,星期六第六十页,共七十八页,编辑于2023年,星期六第六十一页,共七十八页,编辑于2023年,星期六第六十二页,共七十八页,编辑于2023年,星期六对应分析的SPSS实现首先对数据进行加权SPSS选项:Analyze—DataReduction——CorrespondenceAnalysis然后把“汉字使用”选入Row(行),再点击DefineRange来定义其范围为1(Minimumvalue)到3(Maximumvalue),之后点击Update。类似地,点击Continue之后,把“数学成绩”选入Column(列),并以同样方式定义其范围为1到4。由于其他选项可以用默认值,就可以直接点击OK来运行了。这样就得到上述表格和点图。
第六十三页,共七十八页,编辑于2023年,星期六例7.2数据文件:
收入等级与消费支出.sav
众所周知,收入水平不同,消费支出的结构也会不同。现将收入等级分为:困难户、最低收入户、低收入户、中等偏下户、中等收入户、中等偏上户、高收入户、最高收入户。将消费支出分为:食品、衣着、家庭设备、医疗、交通通讯、文娱、居住、杂项。第六十四页,共七十八页,编辑于2023年,星期六Spss对应分析结果第六十五页,共七十八页,编辑于2023年,星期六分析结果解释由汇总表中可知,第一维惯量所占比例达到96.2%,前两维惯量的累积比例为99.3%,说明前两维惯量能很充分地代表数据的信息。而且由于第一维所占比例很高,所以第一维的横坐标表现了绝大部分的差异,而纵坐标则可以忽略。
第六十六页,共七十八页,编辑于2023年,星期六行变量的有关内容第六十七页,共七十八页,编辑于2023年,星期六行变量的有关内容由行变量有关内容可知:在第一维度上食品、家庭设备和杂项的差异影响最大,而且从坐标上的分值来看来,食品与家庭设备和杂项处于两个不同的方向。说明在消费上食品与家庭设备和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程造价实习报告(10篇)
- 24.3.2 三角形一边的平行线 同步练习
- 物业公司试用期工作总结简短(3篇)
- 食堂食品安全自查制度
- 社区元旦活动主持稿
- 第二十六章 二次函数(单元重点综合测试)
- 统编版三年级上册语文第一学期期末考试卷(三)(含答案)
- 广东省揭阳市2024-2025学年高二上学期期中考试英语试题(含答案)
- 广东高考语文三年模拟真题(21-23年)知识点汇编-名篇名句默写
- MES系统如何帮助中小企业实现数字化转型
- 第7章-机器学习
- 2024年T电梯修理考试100题及答案
- 第1课 课题一《课外生活小调查·周末生活我采访》(教案)-2024-2025学年三年级上册综合实践活动浙教版
- 世界的气温和降水课件
- Unit2 School things Lesson 3 (教学设计)-2024-2025学年人教精通版(2024)英语三年级上册
- 江苏省2024高中学业水平合格考历史试卷试题(含答案详解)
- DB11T 2256-2024 城市轨道交通钢轨踏面维修技术规范
- 经济学金融学课件-第十三章-中央银行货币政策操作
- 07J901-2 实验室建筑设备(二)
- 国家中医药管理局发布的406种中医优势病种诊疗方案和临床路径目录
- 责任保险行业研究报告
评论
0/150
提交评论