《多元统计分析-基于R(第3版)》课件 第11章-对应分析_第1页
《多元统计分析-基于R(第3版)》课件 第11章-对应分析_第2页
《多元统计分析-基于R(第3版)》课件 第11章-对应分析_第3页
《多元统计分析-基于R(第3版)》课件 第11章-对应分析_第4页
《多元统计分析-基于R(第3版)》课件 第11章-对应分析_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024/7/31主编:费宇1主编:费宇中国人民大学出版社2024/7/31主编:费宇2第11章对应分析11.1

对应分析基本思想11.2

对应分析原理11.3

对应分析计算步骤11.4案例分析2024/7/31主编:费宇311.1

对应分析基本思想第10章介绍的因子分析分为R型因子分析和Q型因子分析,R型因子分析是研究变量间的相关关系,而Q型因子分析是研究样品之间的相关关系.本章讨论的对应分析(correspondence

analysis)是R型因子分析和Q型因子分析的结合,利用降维的思想来达到简化数据结构的目的,它同时对数据表中的行和列进行处理,寻求以低维图表表示数据表中行与列之间的关系,所以对应分析本质上是一种图方法.2024/7/31主编:费宇411.1

对应分析基本思想对应分析主要目的是构造一些简单的指标来反映行和列之间的关系,这些指标同时告诉我们在一行里哪些列的权重更大以及在一列里哪些行的权重更大.对应分析是将R型因子分析和Q型因子分析结合起来进行统计分析,R型因子分析是对变量(指标)作因子分析,研究的是变量(指标)之间的相互关系;Q型因子分析是对样品作因子分析,研究的是样品之间的相互关系.2024/7/31主编:费宇511.1

对应分析基本思想对应分析是从R型因子分析出发,直接获得Q型因子分析的结果,从而克服由于样本容量大,作Q型因子分析所带来的计算上的困难,并且根据R型因子分析和Q型因子分析的内在联系,可将变量和样品同时反映在相同坐标轴上,便于对问题进行分析.2024/7/31主编:费宇611.1

对应分析基本思想对应分析通过由原数据矩阵Xn*p出发构建一个过渡矩阵Zn*p,然后得到变量之间的协方差矩阵SR=ZTZ和样品之间的协方差矩阵SQ=ZZT,由矩阵代数知识知,ZTZ和

ZZT有相同的非零特征值记为

λ1,λ2,…,λm(λ1≥λ2≥…≥λm,0<m<min(n,p))如果SR的特征值λi对应的特征向量为ui,而SQ的特征值λi对应的特征向量为

.2024/7/31主编:费宇711.1

对应分析基本思想由式(10.13)可知变量点对应的因子载荷阵为:2024/7/31主编:费宇811.1

对应分析基本思想而样品点对应的因子载荷阵为:2024/7/31主编:费宇911.1

对应分析基本思想由于SR和SQ的特征值正好是各个公共因子的方差,因此可以用相同的因子轴来同时表示变量点和样本点,即把变量点和样本点同时反映在具有相同坐标轴的平面上,以便对变量点和样品点一起进行分析.2024/7/31主编:费宇1011.2

对应分析原理1.原始数据:设有n个样品,每个样品有p个变量,即数据矩阵为对X的元素要求都大于0(否则,对所有数据同加上一个数使其满足大于0的条件).2024/7/31主编:费宇111.原始数据用xi.、x.j和x..分别表示X的行和、列和与总和,即2024/7/31主编:费宇122.“概率”2.“概率”令,即,不难看出,,且,因而

可解释为“概率”;类似地,

可理解为第i个样品的边缘概率(i=1,2,…,n),可理解为第j个样品的边缘概率(j=1,2,…,p),并称P为对应阵.记式中,是元素均为1的q维向量.2024/7/31主编:费宇132.“概率”式中,是元素均为1的n维向量.向量r和c的元素有时称为行和列密度(masses).在此我们考虑R型因子分析,从对应阵P出发计算变量的协方差矩阵,称为p个变量在第i样品上的分布轮廓(条件分布),显然有2024/7/31主编:费宇142.“概率”即坐标是用变量在该样品中的相对比例来表示的,于是对n个样品的研究转化为对n个样品点的相对关系的研究,如果对样品进行分类,就可以用样品点的距离远近来刻画.2024/7/31主编:费宇153.欧氏距离3.欧氏距离我们用欧氏距离来刻画两个样品点i与i’之间的距离:

这样定义的距离有一个缺点,如果第j个变量的概率较大时,(11.6)定义的就会偏高,因此我们用作权重,得到如下加权的距离公式

2024/7/31主编:费宇163.欧氏距离3.欧氏距离可以认为(11.7)式是坐标为

的n个样品点中样品点i与i’之间的距离,而且这样定义的样品点的第j个变量的用概率pi.的加权均值为.于是可以写出样品空间中变量点的协方差矩阵为

2024/7/31主编:费宇174.协方差矩阵4.协方差矩阵(11.8)式中2024/7/31主编:费宇184.协方差矩阵若定义

令Z=(zij),则有SR=ZTZ,即变量点的协方差矩阵可以表示为ZTZ.同理样本点的协方差矩阵SQ可以表示为ZZT.由矩阵代数知,SR=ZTZ与SQ=ZZT有相同的非零特征值,这些相同的特征值恰好表示各个公共因子所提供的方差,因此,变量空间Rp上的第一公共因子与样本空间Rn2024/7/31主编:费宇194.协方差矩阵上的第一公共因子相对应,……,变量空间Rp上的第m公共因子与样本空间Rn上的第m公共因子相对应,且各对公共因子在总方差的百分比全部相同.另一方面,如果把所研究的p个变量看成一个属性变量的p个类目,而把n个样品看成另一个属性变量的n个类目,这时原始数据阵X就可以看成一张由观测得到的频数表或计数表.2024/7/31主编:费宇204.协方差矩阵首先由双向频数表X矩阵得到对应阵P:设n>p,且rank(P)=p.下面我们从代数学角度由对应阵P来导出数据对应变换的公式:(1)对P中心化,令式中,

它是假定行与列两个属性变量不相关时在第(i,j)单元上的期望频数值.2024/7/31主编:费宇214.协方差矩阵记,由式(11.4)可得因,所以.令(2)对P标准化得Z,令式中,.2024/7/31主编:费宇224.协方差矩阵故经对应变换后所得到的过渡矩阵Z,可以看成是由对应阵P经中心化和标准化后所得到的矩阵.设用于检验行与列两个属性变量是否不相关的统计量为:2024/7/31主编:费宇234.协方差矩阵其中,表示第(i,j)单元在检验行与列两个属性变量是否不相关时对总统计量的贡献(cellchi2):故2024/7/31主编:费宇245.几何含义5.几何含义从几何上看,Rp空间中所有样本点与Rp中各因子轴的距离平方和,以及Rn空间中所有变量点与Rn中相对应的各因子轴的距离平方和完全相同,因此,可以把变量点和样品点同时反应在同一因子轴所确定的平面上,即取在同一坐标系中,根据变量点与变量点的的接近程度,样本点与样本点的接近程度,变量点与样本点的接近程度,来对样本点和变量点同时进行分类.2024/7/31主编:费宇2511.3

对应分析计算步骤设有p个变量的n个样品观测数据矩阵,其中(否则,对所有数据同加上一个数使其满足大于0的条件),对数据矩阵X作对应分析的具体步骤如下:(1)由数据矩阵X计算规格化的对应阵(2)计算过渡矩阵(3)计算统计量,计算公式见式(11.14),2024/7/31主编:费宇2611.3

对应分析计算步骤用来检验行的样品点和列的变量点是否相关,如果不相关就不适合做对应分析.(4)进行因子分析.1)R型因子分析:计算协方差矩阵SR=ZTZ的特征值λ1,λ2,…,λp(λ1≥λ2≥…≥λp),按照累积百分比,取前m个特征值λ1,λ2,…,λm,并计算对应的单位特征向量,得到2024/7/31主编:费宇2711.3

对应分析计算步骤因子载荷矩阵.2)Q型因子分析:有上述求得的特征值,计算SQ=ZZT所对应的单位特征向量,得到因子载荷矩阵2024/7/31主编:费宇2811.3

对应分析计算步骤3)在同一坐标轴上作变量点图与样品点图:分析变量点之间的关系;分析样品点之间的关系;同时综合分析变量点和样品点之间的关系.2024/7/31主编:费宇29例11.1在R基本包MASS中有一个自带数据集caith,它是苏格兰北部的凯斯内斯郡的居民的头发和眼睛颜色的调查数据,见表11-1.每一行对应一种眼睛的颜色,分别是蓝色(blue)、浅色(light)、中色(medium)和深色(dark).每一列代表一种头发的颜色,分别是金色(fair)、红色(red)、中色(medium)、深色(dark)和黑色(black).数值代表人数(如第1行第2列的38表示蓝眼红发的人数为38).请对表中数据进行对应分析.表11-1凯斯内斯郡的居民头发和眼睛颜色的调查数据要求:(1)先从MASS中读入数据caith,并用中文对数据集的行和列重新命名;(2)利用中文命名后的数据集作对应分析;(3)作对应分析图(注意选择适当的xlim和ylim);(4)对分析结果和图形意义作出合理的评价和解释.例11.17/31/2024主编:费宇30解:(1)读入数据,R命令如下:例11.17/31/2024主编:费宇31library(MASS)#加载MASS包data(caith);caith#读入并展示数据caithFairredmediumdarkblackblue326382411103light6881165841884medium3438490941226dark984840368185rownames(caith)=c("蓝色","浅色","中色","深色")#用中文命名行(眼睛颜色)colnames(caith)=c("金发","红发","中色发","深发","黑发")#用中文命名列(头发颜色)例11.17/31/2024主编:费宇32caith#展示用中文命名后的数据caith

金发红发中色发深发黑发蓝色326382411103浅色6881165841884中色3438490941226深色984840368185(2)作对应分析EyeHair=corresp(caith,nf=2)#用函数corresp作对应分析EyeHair#展示对应分析结果例11.17/31/2024主编:费宇33Firstcanonicalcorrelation(s):0.4460.173Rowscores:Columnscores:[,1][,2][,1][,2]蓝色-0.8970.954金发-1.2191.002浅色-0.9870.510红发-0.5230.278中色0.075-1.412中色发-0.094-1.201深色1.5740.772深发1.3190.599黑发2.4521.651(3)作对应分析图biplot(EyeHair,xlim=c(-1,1),ylim=c(-0.3,0.3))#画对应分析图abline(v=0,h=0)#划分象限例11.17/31/2024主编:费宇34图11-1各眼睛颜色对应分析因子聚点图例11.17/31/2024主编:费宇35(4)分析结果和图形意义的解释从对应分析图可以发现:深色眼睛和黑色头发距离很近;浅色眼睛和金色头发距离很近,蓝色眼睛和金色头发距离也很近;中色眼睛和中色头发距离较近;而红发大致居中偏向于浅色眼睛.说明人类眼睛颜色和头发颜色确实存在对应关系,其原因可以从遗传学的角度予以解释.2024/7/31主编:费宇3611.4

案例分析案例11.1(数据文件为case11.1)不同省市(或不同经济区域)因经济、观念等因素的不同而教育程度不一.2016年各省市6岁及6岁以上人口中未上过学、小学、初中、高中、大专及以上文化程度人口数,根据这些数据进行对应分析.2024/7/31主编:费宇37案例11.1数据文件为case11.1解:先读取数据,做卡方检验.R程序及结果如下:#case11.1我国各省市不同文化程度人数的对应分析#打开数据文件case11.1.xls,选取A1:F32区域,然后复制case11.1<-read.table("clipboard",header=T)#将case11.1.xls数据读入到case11.1中Z=case11.1[,-1]#第一列为样本名称,不宜代入做分析chisq.test(Z)#卡方检验

Pearson'sChi-squaredtestdata:ZX-squared=63730,df=120,p-value<2.2e-162024/7/31主编:费宇38案例11.1数据文件为case11.1p值为,远小于0.05,所以拒绝原假设,认为因素A和因素B不独立,即文化程度与省市有密切联系,可以进一步进行对应分析.作对应分析,计算行和列得分,R程序和运行结果如下:library(MASS)ca1=corresp(Z,nf=2)ca1Firstcanonicalcorrelation(s):0.1980.1152024/7/31主编:费宇39案例11.1数据文件为case11.1Rowscores:Columnscores:[,1][,2][,1][,2][1,]-4.67513.1840未上过学1.5452.528[2,]-2.27520.4422小学0.9320.487

………初中0.122-0.874[30,]-0.12900.8790高中-0.597-0.581[31,]0.08930.2299大专及以上-2.1091.306绘制对应分析图,R程序和运行结果如下:rownames(ca1$rscore)=case11.1[,1]#将ca1$rscore的行命名为case11.1的第一列样本名称biplot(ca1,cex=0.55);abline(v=0,h=0,lty=3)#作对应分析图(见图9-1),并分好象限案例11.1数据文件为case11.17/31/2024主编:费宇40图11-2各省市文化程度对应分析因子聚点图案例11.1数据文件为case11.17/31/2024主编:费宇41根据图11-2可将样品点和变量分为五类:第一类:变量:大专及以上;样品:北京.第二类:变量:高中;样品:上海、天津、江苏、辽宁、内蒙古、山西、广东、吉林.第三类:变量:初中;案例11.1数据文件为case11.17/31/2024主编:费宇42样品:宁夏、浙江、重庆、山东、湖北、陕西、黑龙江、湖南、河北、海南、河南、江西、安徽、福建、新疆、广西.第四类:变量:小学;样品:青海、甘肃、云南、贵州、四川.第五类:变量:未上过学;样品:西藏.第一类和第五类的样品中都是只有一个省,北京作为首都,经济发展、人员素质、家庭观念都提倡教育,案例11.1数据文件为case11.17/31/2024主编:费宇43使其大专及以上文化程度人数相对较多;而西藏受自然环境、师资力量、教育观念影响,未上过学的人相对较多.第四类的样品为西南“云贵川”地区和西北青海、甘肃地区,属于边穷、民族地区,文化程度为小学的人数偏多.用对应分析的方法综合评价我国各省市文化程度人数分布情况与实际情况基本上是一致的.由于各省市地理位置不同,经济发展快慢不一,师资力量分布不均,教育观念差异明显,各省市文化程度人数分布不是很均衡.本案例考虑到的因素非常有限,但大体上反映了我国当前的现状,这说明用对应分析的方法来评价我国各省市文化程度分布情况是可行的.案例11.1数据文件为case11.27/31/2024主编:费宇44将各省市按八大经济区域进行划分汇总不同受教育程度人数,结果如表11-3(数据文件为case11.2).解:先读取数据,做卡方检验.R程序及结果如下:#case11.2我国八大经济区域不同文化程度人数的对应分析#打开数据文件case11.2.xls,选取A1:F9区域,然后复制case11.2<-read.table("clipboard",header=T)#将case11.2.xls数据读入到case11.2中Z=case11.2[,-1]#第一列为样本名称,不宜代入做分析chisq.test(Z)#卡方检验案例11.1数据文件为case11.17/31/2024主编:费宇45p值为,远小于0.05,所以文化程度与八大经济区域有密切联系,可以进一步进行对应分析.作对应分析,计算行和列得分,R程序和运行结果如下:Pearson'sChi-squaredtestdata:ZX-squared=22611,df=28,p-value<2.2e-16library(MASS)ca2=corresp(Z,nf=2)ca2案例11.1数据文件为case11.17/31/2024主编:费宇46Firstcanonicalcorrelation(s):0.12330.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论