多元统计分析——对应分析_第1页
多元统计分析——对应分析_第2页
多元统计分析——对应分析_第3页
多元统计分析——对应分析_第4页
多元统计分析——对应分析_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第7章 对 应 分 析Correspondence Analysis,7.1列联表及列联表分析 7.2对应分析,7.1列联表及列联表分析,一、列联表及其作用 1.列联表是观测数据按两个或更多属性变量(定类尺度或定序尺度)分类时所列出的频数表。 2.列联表用于考察两个(或多个)分类变量的统计学关联。如行变量与列变量之间的关联性。,一般,若总体中的个体可按两个属性A与B分类,A有n类A1,A2,An,B有p类B1,B2,Bp, 属于Ai和Bj的个体数目为nij(i=1,2, ,n;j= 1,2, ,p),nij称为频数,则可形成np的二维列联表,简称np表。 若所考虑的属性多于两个,也可按类似的方

2、式作出列联表,称为多维列联表。,列联表,频率意义上的列联表,列联表独立性检验,对于数值型变量相关关系,通常是计算相关系数和进行回归分析。 描述两个定性变量之间的相关性是指广义的相关性,称为关联性。两个定性变量的关联程度在某种意义上就是指的“不独立”,它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性关系。在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着关联。最常用的检验办法是列联表独立性检验。 列联表检验的零假设是两变量 X和Y 相互独立,计算一个卡方统计量,与列联表中频数取值和零假设下期望取值之差有关,当卡方 很大时否定零假设。,例 吸烟与慢性支气管炎调查表,

3、为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如表所示: 设想有两个随机变量A,B:A:1表示吸烟, 2表示不吸烟; B:1表示患慢性支气管炎, 2表示未患。 零假设为: H0: A与B相互独立,STATISTICS FOR TABLE OF SMOKE BY BRON Statistic DF Value Prob Chi-Square 1 7.469 0.006 Likelihood Ratio 1 7.925 0.005 Chi-Square Continuity Adj. Chi-Square 1 6.674 0.010 Mantel-Haenszel Chi-Square

4、1 7.447 0.006 Fishers Exact Test (Left) 4.09E-03 (Right) 0.998 (2-Tail) 6.86E-03 Phi Coefficient -0.148 Contingency Coefficient 0.147 Cramers V -0.148 Sample Size = 339,列联表中列出了表格单元频数和在零假设下的期望频数,可以看出,吸烟人中患病的数目比期望数目大。检验的结果只要看后面的统计量部分的Chi-Square一行,其值为7.469,p值为0.006,所以应否定零假设,吸烟与患慢性支气管炎是不独立的。,对应分析又称为相应分析

5、,也称RQ分析。是因子分子基础发展起来的一种多元统计分析方法。它主要通过分析属性(定性)变量构成的列联表来揭示变量之间的关系,可以用对应分析图(二维图)显示列联表中每一个单元格的相对位置,以简单、直观地表明列联表的行与列的关系。 对应分析也是利用降维的思想以达到简化数据结构的目的。不过,在因子分析中,R型因子分析和Q型因子分析是分开进行的。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。在对应分析中,会同时对行与列进行处理,寻求以低维图形表示数据表中的行与列的关系。(对同一观测数据施加R和Q型因子分析,并分别保留两个公共因子,则是对应分析的初步)。

6、,7.2 对应分析,对应分析基本步骤: 1、获取对应分析数据 确定研究目的,选择对应分析所需数据,应该包括的背景资料。 2、建立列联表 3、对应分析 4、利用对应图解释结果。,二、对应分析的原理,由于R型因子分析和Q型因子分析是反映一个整体的不同侧面,R型因子分析是从列来讨论(对变量),Q型因子分析是从行来讨论(对样品),因此他们之间存在内在的联系。 设原始数据矩阵为:,由于因子分析都是基于协方差矩阵或相关系数矩阵完成的,所以必须从变量和样品的协方差矩阵入手来进行分析。,变量的叉积矩阵,样品的叉积矩阵,显而易见,变量和样品的叉积矩阵的阶数不同,一般来说,他们的非零特征根也不一样,那么能否将观测

7、值做变换。,(一)规格化矩阵,我们可以把pij解释成概率,因为所有的元素之和为1。,称为行轮廓。即把第i行表示成在p维欧氏空间中的一个点,行轮廓矩阵为:,由此,我们可以将属性变量A的n个取值可以用P维空间的n个点来表示。n个点的坐标即为该行轮廓矩阵。,但是,因为原始变量的数量等级可能不同,所以为了尽量减少各变量尺度差异,将行轮廓中的各列元素均除以其期望的平方根。得矩阵D(R),第j个变量的期望为:,矩阵D(R)是消除了变量B的各个状态概率影响的P维空间n个点的相对坐标。 则这n个点的重心,也有p维坐标,设其第j个分量为:,N个点的重心为:,总惯量 由矩阵D(R)定义的n 个点与其重心的欧氏距离

8、之和称为行轮廓矩阵N(R) 的总惯量。记为 .,同时,可证明:,称 为列轮廓。,同理:,列轮廓矩阵为:,因为原始变量的数量等级可能不同,所以为了尽量减少各变量尺度差异,将列轮廓中的各行元素均除以其期望的平方根。得矩阵D(Q),利用行轮郭矩阵,可得第i个样品与第j个样品的协方差:,令Z为zij所组成的矩阵,则,利用列轮廓矩阵,可得第i个变量与第j个变量的协方差:,令Z为zij所组成的矩阵,则,设 是A=ZZ的非零特征根,则,令Z为zij所组成的矩阵,则,因此将矩阵变换成矩阵Z,则很容易求出A和B存在着的简单对应关系。由特征根和特征向量的性质, A和B有相同的非零特征根。,在上式的两边都左乘Z,则

9、 可见 也是ZZ的特征根,相应的特征向量是,三、对应图,设12 l(0imin(n,p)为矩阵A和B的非零特征根,其相应的特征向量为,我们知道因子载荷矩阵的含义是原始变量与公共因子之间的相关系数,所以如果我们构造一个平面直角坐标系,将第一公共因子的载荷与第二个公共因子的载荷看成平面上的点,在坐标系中绘制散点图,则构成对应图。,例 某地环境检测部门对该地所属8个地区的大气污染状况进行了系统的的检测,每天4次同时在各个地区抽取大气样品,则定其中的氯、硫化氢、二氧化硫、碳4、环氧氯丙烷、环已烷6种气体的浓度。有资料如下:,0.056 0.0840.0310.0380.00810.022 0.049

10、0.0550.10.110.0220.0073 0.0380.130.0790.170.0580.043 0.0340.0950.0580.160.20.029 0.0840.0660.0290.320.0120.041 0.0640.0720.10.210.0281.38 0.0480.0890.0620.260.0380.036 0.0690.0870.0270.050.0890.021,F1和G1,F2和G2尺度相同,所以可以在同一个直角坐标系中作出两种因子的载荷图,这种图称为对应图。,-0.20,-0.15,-0.10,-0.05,0.00,0.05,0.10,0.15,0.20,0.

11、25,0.30,-0.6,-0.5,-0.4,-0.3,-0.2,-0.1,0.0,0.1,0.2,0.3,变量,样品,对应图,由图我们可以看出,全部变量与样品分为3类。每一类聚合一些变量和样品。 第一类:聚合了环氧氯丙烷X5和D和H两个地区,表明D和H两个地区主要大气污染物为环氧氯丙烷。 第二类:包含变量X1,X2,X3,X4和样品A,B,C,E和G地区,这5个地区的主要污染物是氯、硫化氢、二氧化硫、碳4。 第三类:包含X6和地区F,该地区的主要污染物是环已烷。,1992-1994年在北京市进行的“北京老龄化多维纵向研究”。在这项研究中,先后在两年时间里,对一批60岁以上的老年人进行了纵向追

12、踪调查,有2703位老年人在两次调查中都被调查,了解对被调查的老年人“日常生活自理能力”和“自评健康情况”,得如下资料:,Inertia and Chi-Square Decomposition Singular Principal Chi- Values Inertias Squares Percents 18 36 54 72 90 -+-+-+-+-+- 0.29615 0.08770 237.060 92.45% * 0.08463 0.00716 19.358 7.55% * - - 0.09486 256.418 (Degrees of Freedom = 10),Row Coordinates Dim1 Dim2 1 -0.25463 -0.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论