厦门大学《应用多元统计分析》第08章-相应分析_第1页
厦门大学《应用多元统计分析》第08章-相应分析_第2页
厦门大学《应用多元统计分析》第08章-相应分析_第3页
厦门大学《应用多元统计分析》第08章-相应分析_第4页
厦门大学《应用多元统计分析》第08章-相应分析_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章相应分析第一节引言

第二节列联表

第三节相应分析的基本理论

第四节相应分析中应注意的问题

第五节实例分析与计算机实现

第一节引言相应分析(correspondenceanalysis)也叫对应分析,其特点是它所研究的变量可以是定性的。通常意义下的相应分析,是指对两个定性变量(因素)的多种水平进行相应性研究,因而它的应用越来越广泛,现在这种方法已经成为常用的多元分析方法之一。在社会、经济以及其他领域中,进行数据分析时经常要处理因素与因素之间的关系,及因素内部各个水平之间的相互关系。例如,评价某一个行业所属企业的经济效益,我们不仅要研究因素A,即企业按照经济效益好坏的分类情况,以及要研究因素B,即经济效益指标之间的关系,还要研究哪些企业与哪些经济效益指标更密切一些。这就需要相应分析的方法,将经济效益指标和企业状况放在一起进行分类、作图,以便更好的描述两者之间的关系,在经济意义上做出切合实际的解释。相应分析的思想首先由理查森(Richardson)和库德(Kuder)于1933年提出,后来法国统计学家让-保罗·贝内泽(Jean-PaulBenzécri)等人对该方法进行了详细的论述而使其得到了发展。为了把握相应分析方法的实质,本章将从列联资料入手,介绍一些基本概念和相应分析的基本理论,并让读者理解相应分析与独立性检验的关系,进一步明确对实际问题进行相应分析研究的必要性所在。一、列联表的概念在实际中经常要了解两组或多组因素(或变量)之间的关系。设有两组因素A和B,其中因素A包含r个水平,即A1,A2,…,Ar;因素B包含c个水平,即B1,

B2,

…,Bc。又设有受制于这两个因素的载体(或客体)的集合总体¥。我们希望通过对总体¥关于这两组因素的有关资料(或抽样资料),来分析这两组因素的关系。例如,要考查在某个人群中关于吸烟或不吸烟(因素A)与得肺癌或不得肺癌(因素B)两组因素之间的关系。通常的作法是,随机地从该人群中抽样,对这两种因素进行调查,设调查了k个人,得到一个二维列联表,见表8.1。其中,kij为调查的k人中出现因素A的第i个水平和因素B的第j个水平的人数。这样,我们就得到一个两因素,即吸烟与是否得肺癌的22列联表。表8.1二维列联表

二、有关记号为了叙述方便,先引进一些基本概念和记号。设K=(kij)rc为一个rc的列联表(表8.2),称元素kij为原始频数。将列联表K转化为频率矩阵,记为F=(fij)rc,见表8.3。表8.3一般的二维频率表

第三节相应分析的基本理论一原始资料的变换

二基于矩阵的分析过程

我们知道相应分析的主要目的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示。为了实现行因素A与列因素B最优联立表示,进一步剖析行因素A内部之间,列因素B内部之间,以及因素A和列因素B之间的关系,这里将介绍原始的列联资料K=(kij)rc变换成矩阵Z=(zij)rc的具体过程,这样使得zij对因素A和列因素B具有对等性,在此基础上进行相应分析。

二、基于矩阵的分析过程

(8.14)式表明Zuj为相对于特征值λj的关于因素A各水平构 成的协差阵∑r的特征向量。这样我们就建立了相应分析中R型因子分析和Q型因子分析的关系。也就是说,我们可以从R型因子分析出发而直接得到Q型因子分析的结果。这里需要强调的是,由于∑r和∑c有相同的特征根,而这些特征根又表示各个公共因子所提供的方差。那么,在因素B的c维空间Rc中的第一公共因子,第二公共因子直到第m个公共因子与因素A的r维空间Rr中相对于的各个主因子在总方差中所占的百分比就完全相同。这样就可以用相同的因子轴同时描述两个因素各个水平的情况,把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上。一般情形,我们取两个公共因子,这样就可以在一张二维平面图上绘出两个因素各个水平的情况,即可以直观地描述两个因素A和因素B以及各个水平之间的相关关系。

一、利用SPSS进行相应分析——

实例1数据来自SPSS软件自带数据集voter.sav,为1992年美国大选的部分数据。要求对选民的最高学历水平(degree)和所支持的总统候选人(pres92)进行相应分析。 (一)操作步骤 1.正确打开数据集voter.sav后,由Analyze→DataReduction→CorrespondenceAnalysis可进入相应分析的主对话框(图8.1)。图8.1相应分析主界面 2.从左侧变量列表中选择两个变量作为相应分析的两个维度。这里我们选择pres92作为行维度,点击Row左侧的三角箭头就可以看到在Row项下出现了pres92(??),这时用鼠标选中该变量,其下方的DefineRange子对话框激活,点击后出现变量水平设置窗口(图8.2)。分为上下两个部分:Categoryrangeforrowvariable:pres92和CategoryConstraints。这里要分析所有的三位总统候选人和选民的学历水平的关系,所以在Minimumvalue中填入1,在Maximumvalue中填入3,之后点击Update按钮。就可以在下方的CategoryConstraints栏中看到,后续分析中的行变量仅包含3个类目,分别是1、2和3。图8.2DefineRowRange子对话框在右侧还有三个单选项:None表示没有任何约束;Categoriesmustbeequal可用于指定某些类目的得分必须相同,最多可以设置有效类目的个数减1个得分相等的类目,如本例中最多可以设置2个类目得分相等;Categoryissupplemental表示某些类目不参加相应分析但是会在图形中标示。这里我们不对分类进行任何约束,点击Continue按钮后回到主对话框。类似的可以指定degree的有效类目最小值为0,最大值为4。 3.点击Model按钮,指定相应分析结果的维数。(图8.3)

(1)Dimensionsinsolution。默认为2,最大可以设置为各变量中的最少类目数减1。 (2)选择距离测度的方式DistanceMeasure。有Chisquare 和Euclidean两种,定性变量应该用Chisquare。 (3)标准化方法StandardizationMethod。图8.3Model子对话框(4)正态化方法NormalizationMethod。需要比较行列变量的类目差异时选择Symmetrical,需要比较行列变量中任意两个类目的差异时选择Principal,比较行变量的类目差异时选择Rowprincipal,而比较列变量的类目差异时选择Columnprincipal,也可以在Customize中指定[-1,1]之间的任意实数,特别的,如果输入-1则为Columnprincipal,输入1为Rowprincipal,输入0为Symmetrical。而一般该对话框中的选项无需改动。4.点击Statistics按钮,设定输出的相应分析统计量,如图8.4。可以指定输出相应分析表Correspondencetable,行点总览表Overviewofrowpoints,列点总览表Overviewofcolumnpoints,行轮廓Rowprofiles,列轮廓Columnprofiles。默认只输出前三项。而Permutationsofthecorrespondencetable是用于指定前n个维度的行列得分表。如果该项选中,下方的Maximumdimensionforpermutations被激活,用于指定维度n。此外,还可以在ConfidenceStatisticsfor复选项中选择计算行点和列点的标准差以及相关系数。

图8.4Statistics子对话框 5.点击Plots按钮,设定输出的统计图,如图8.5。可以指定输出相应分析的散点图Scatterplots,默认只输出包含行列变量的双变量散点图Biplot。也可指定输出行点图Rowpoints和列点图Columnpoints。而IDlabelwidthforScatterplots是指定散点标签的长度,默认20。下方的Lineplots项中,可以输出行/列点对应于行/列得分的线图,和散点图类似。 6.我们在Model,Statistics,Plots三个子对话框中都使用默认设定,点击主对话框的OK按钮,即得到相应分析的结果。图8.5Plots子对话框 (二)结果分析: SPSS运行相应分析后会产生以下四张表(表8.4到表8.7)。 1.CorrespondenceTable(相应分析表),如表8.4,即列联表。ActiveMargin为边际频数。大致可以看出Clinton在各个学历层次都有最高的票数。表8.4列联表

2.Summary(总览表),如表8.5。表中从左到右依次是维度编号、奇异值、惯量、卡方统计量、显著性、惯量所占总惯量比例、每个维度的奇异值的标准差和相关系数。SingularValue为特征值的平方根,根据总惯量和特征值求和相等,有0.1392+0.0162=0.019+0.000=0.019。第一个维度惯量0.019,占总惯量的98.7%,第二个维度惯量接近0,仅占总惯量1.3%。因此可以认为只要用一个维度就可以解释行列变量之间所有的关系,但为了说明分析过程,仍然保留两个维度。总惯量35.867÷1844=0.19,满足总惯量和卡方统计量的关系式。同时卡方统计量的自由度8=(3-1)×(5-1),数值为0.000,说明行列变量之间存在显著的相关性,相应分析是有意义的。表8.5总览表 3.OverviewRowPoints与OverviewColumnPoints(行/列点总览表),如表8.6,表8.7。现以表8.6为例,Mass项表示行变量中每个类目的边际概率。Scoreindimension下面则是行点在两个维度的坐标(SPSS称为得分),即有坐标点Bush(0.194,-0.156),Perot(0.663,0.198),Clinton(-0.346,0.053)。Inertia项为惯量,即每个行点与行重心的加权距离的平方。而行惯量为行点与行重心的加权距离平方和,即0.19=0.002+0.009+0.008。比较表8.6和表8.7的总惯量,可以发现行惯量与列惯量相等。Contribution项有两个部分,分别是行变量的每个类目对维度(公共因子)特征值的贡献,每一个维度对每个类目的特征值的贡献。表8.6行点总览表表8.7列点总览表 4.相应分析图,如图8.6。可以发现研究生层次的选民(Graduatedegree)倾向于具有实干精神的Clinton,而较Clinton更为激进的Bush更受highschool和Bachelor层次的选民欢迎,Perot仅和juniorcollege层次的选民较近。图8.6相应分析的二维图 5.如果在Statistics子对话框中选中了Rowpropro还会输出以下两张表(表8.8,表8.9)。表8.8行轮廓表表8.9列轮廓表 6.行/列点图(图8.7,图8.8)。如果要单独考察行/列变量的各个水平在两个公共因子维度上的分布情况,可在Plots子对话框中选中Rowpoints和Columnpoints。运行后即得下图:图8.7行点在两个公共因子维度上的分布图8.8列点在两个公共因子维度上的分布二、利用SPSS进行相应分析——

实例2

表8.104只股票的财务数据 (一)操作步骤: 1.首先由SPSS的因子分析过程(详细步骤参见因子分析一章),通过主成分法估计和最大方差旋转法进行因子旋转,发现需要3个公共因子才能解释83%以上的方差。可得因子得分的计算公式为(加上*号的变量和因子表示都已经标准化):因此factor1可以称为股票规模因子,factor2称为股票收益因子,factor3称为个股价值因子。将这三个因子划分为5个等级:低于-0.5,-0.5~0,0~0.5,0.5~1,大于1,分别编码为1,2,3,4,5。这样就可以利用相应分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论