SAS软件及统计应用教程7资料课件_第1页
SAS软件及统计应用教程7资料课件_第2页
SAS软件及统计应用教程7资料课件_第3页
SAS软件及统计应用教程7资料课件_第4页
SAS软件及统计应用教程7资料课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章典型相关典型相关分析7.1典型相关分析7.1.1典型相关分析的概念与步骤7.1.2用CANCORR过程实现典型相关分析7.1.1典型相关分析的概念与步骤1.典型相关分析的基本思想典型相关分析采用主成分的思想浓缩信息,根据变量间的相关关系,寻找少数几对综合变量(实际观测变量的线性组合),用它们替代原始观测变量,从而将二组变量的关系集中到少数几对综合变量的关系上,通过对这些综合变量之间相关性的分析,回答两组原始变量间相关性的问题。除了要求所提取的综合变量所含的信息量尽可能大以外,提取时还要求第一对综合变量间的相关性最大,第二对次之,依次类推。

这些综合变量被称为典型变量,或典则变量,第1对典型变量间的相关系数则被称为第1典型相关系数。典型相关系数能简单、完整地描述两组变量间关系的指标。当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当其中的一组只有一个变量时,典型相关系数即为复相关系数。2.典型相关系数与典型相关变量设X=(X1,X2,…,Xp)',Y=(Y1,Y2,…,Yq)'是两个随机向量。利用主成分思想寻找第i对典型相关变量(Ui,Vi):Ui=ai1X1+ai2X2+…+aipXp=ai'XVi=bi1Y1+bi2Y2+…+biqYq=bi'Yi=1,2,…,m=min(p,q);称ai'和bi'为(第i对)典型变量系数或典型权重。

记第一对典型相关变量间的典型相关系数为:CanR1=Corr(U1,V1)(使U1与V1间最大相关);第二对典型相关变量间的典型相关系数为:CanR2=Corr(U2,V2)(与U1、V1无关;使U2与V2间最大相关)…

第m对典型相关变量间的典型相关系数为:CanRm=Corr(Um,Vm)(与U1,V1,…,Um–1,Vm–1无关;Um与Vm间最大相关)3.典型相关变量的性质各对典型相关变量所包括的相关信息互不交叉,且满足:

1)U1,U2,…,Um互不相关,V1,V2,…,Vm互不相关,即其相关系数为2)同一对典型相关变量Ui和Vi之间的相关系数为CanRi,不同对的典型相关变量之间互不相关,即:

3)Ui和Vi的均值为0,方差为1(i=1,…,m)。

4)1≥CanR1≥CanR2≥…≥CanRm≥04.典型相关系数的求解步骤

1)求X,Y变量组的相关阵

R=;

2)求矩阵A=(R11)–1R12(R22)–1R21和B=(R22)–1R21(R11)–1R12,可以证明A、B有相同的非零特征值;

3)求A或B的特征值λi与CanRi,A或B的特征值即为典型相关系数的平方:λi=(CanRi)2,i=1,…,m。4)求A、B关于λi的特征向量。设ai为A关于λi的特征向量,bi为B关于λi的特征向量,则ai'和bi'为(第i对)典型变量系数。即第i对典型相关变量(Ui,Vi):Ui=ai'X*=ai1X1*+ai2X2*+…+aipXp*Vi=bi'Y*

=bi1Y1*+bi2Y2*+…+biqYq*i=1,2,…,m=min(p,q);其中X*,Y*为原变量组的标准化。5.特征根特征根(eigenvalue)是方差分析和多元检验的基础,特征根与典型相关系数之间的数量关系为:上式可以理解为第i对典型变量表示观测变量总方差作用的指标,它的值越大说明表示作用越大。6.典型相关系数的标准误7.典型相关系数的假设检验典型相关系数的假设检验包括对全部总体典型相关系数的检验和对部分总体典型相关系数的检验。对数据的要求:

1)两个变量组均应服从多维正态分布:(X,Y)~Np+q(μ,σ2)2)n>p+q(1)全部总体典型相关系数为0H0:CanRi=0,i=1,…,m

H1:至少有一个CanRi≠0

检验的似然比统计量为对于充分大的n,当H0成立时,统计量近似服从自由度为pq的2分布。(2)部分总体典型相关系数为0

仅对较小的典型相关作检验:

H0:CanRi=0,i=s,…,m,2≤s≤mH1:至少有一个CanRi≠0其检验的统计量为对于充分大的n,当H0成立时,统计量近似服从自由度为(p–k)(q–k)的2分布。7.1.4用CANCORR过程实现典型相关分析1.CANCORR过程

CANCORR过程的常用语法格式如下:PROCCANCORR<选项列表>;

WITH<变量列表>;

VAR<变量列表>;RUN;

其中PROCCANCORR语句、WITH语句是每个过程中必不可少的,其余语句可视情况使用。

下面分别介绍各语句的用法和功能。

(1)PROCCANCORR语句:标示典型相关分析开始,可以规定输入输出数据集,指定分析方法和控制输出结果的显示等。语句中可设置的常用选项及其功能见表7-3。

(2)VAR语句:列出要进行典型相关分析的第一组变量,变量必须是数值型的。如果VAR语句被忽略,所有未被其他语句提到的数值型变量都将被视为第一组变量。

(3)WITH语句:列出要进行典型相关分析的第二组变量,变量必须是数值型的。该语句是每一个PROCCANCORR中必不可少的。表7-3常用选项及其功能EDF=指定误差的自由度。EDF数为有效的观察值减1DATA=指定输入数据集的名字,可以是原始数据集,或用TYPE=CORR,COV,FACTOR,SSCP,UCORR,或者UCOV的数据集,如果省略则使用最新创建的数据集OUT=指定输出数据集的名字,输出包括原始数据及典型变量得分的数据集。当输入数据集的类型为CORR,COV,FACTOR,SSCP,UCORR,或者UCOV,就不能使用这个选项OUTSTAT=生成包含各种统计量的SAS数据集,包括典型相关系数和典型系数,以及你要求的多元回归统计量VNAME=为来自VAR语句中分析变量指定标签,作为标签的字符要用单引号引起来VPREFIX=为来自VAR语句的典型变量指定前缀名,默认时典型变量命名为V1,V2,V3等WNAME=为来自WITH语句中的分析变量指定标签,作为标签的字符要用单引号引起来WPREFIX=为来自WITH语句中的典型变量指定前缀名,默认为W1,W2,W3等控制输出的选项ALL打印所有选择的输出CORR打印原始变量之间的相关系数NCAN=规定要输出典型变量的个数NOPRINT禁止所有的输出REDUNDANCY打印冗余度分析的结果SHORT除了典型相关和多元统计列表以外,禁止打印典型相关分析过程默认的输出SIMPLE打印均值、标准差等简单统计量2.使用CANCORR过程【例7-3】家庭特征与家庭消费之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:

x1:每年去餐馆就餐的频率,x2:每年外出看电影的频率;

y1:户主的年龄,y2:家庭的年收入,y3:户主受教育程度。

试分析两组变量之间的关系。假定变量的相关系数阵如表所示。x1x2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34Y10.260.331.000.370.21Y20.670.590.371.000.35Y30.340.340.210.351.00

如下代码,利用变量的相关系数矩阵作典型相关分析:DATAjt(TYPE=CORR);INPUTNAME$1-2(X1X2Y1-Y3)(6.);CARDS;X11.000.800.260.670.34X20.801.000.330.590.34Y10.260.331.000.370.21Y20.670.590.371.000.35Y30.340.340.210.351.00;PROCCANCORREDF=70REDUNDANCY;VARX1X2;WITHY1-Y3;RUN;

说明:

1)在数据集名jt后用TYPE=CORR表明数据的类型为相关矩阵,而不是原始数据。

2)INPUT语句中用“NAME$”读取左侧的变量名,“1-2”表示变量名的字符落在第1、2列上,“(X1X2Y1-Y4)”表示各列数据所对应的变量名,“(6.)”表示读取数据的宽度均为6列,其中相关系数占4位,其后的空格占2位;3)选择项EDF=n–1,为典型相关分析提供一个计算误差自由度的参考值,因为该过程中没有合适的选择项可以将原始数据的样本含量n准确地送入。如果忽略这一选择项,将以缺省值n=10000作为样本含量参与有关计算和统计检验,显然不妥;

4)选项REDUNDANCY表示输出典型冗余分析的结果。3.结果分析(1)典型相关系数及显著性检验第一部分的4列依次是:典型相关系数、校正的典型相关系数、近似的标准误以及典型决定系数(典型相关系数的平方)。从中可以看出,本例提取了2个典型相关系数,第一个典型相关系数CanR1=0.687948,其校正值为0.673671,标准误为0.062956,CanR12=0.473272;第二个典型相关系数为0.186865。

第二部分是特征根以及相应的统计量,从中可以看出,第一对典型变量所能解释的变异已占总变异的96.13%,另一对典型相关变量的作用很小,只解释了总变异的3.87%,可以不予考虑。右边4列给出对典型相关系数的检验,具体采用似然比法,所求的似然比统计量近似服从F分布。第一行检验的是第一相关系数以及比它小的两个相关系数是否为0,第一行的F值8.86,p值<0.0001。后一行检验的p值远大于置信水平0.05,故可以认为只有第一个典型相关系数有统计学意义。

第三部分(图7-21)输出的是按照多元分析的原理进行的所有典型相关系数是否为0的检验,四种方法中一般参照Wilks'Lambda检验的结果。本例中4种方法的检验结果与前述完全一致。(2)典型变量系数与典型结构第四部分(图左)给出的是用原始变量表达的典型变量系数。考虑标准化后的系数,即第五部分(图右)给出的典型变量和标准化变量(对原始变量标准化)间的换算公式。由于使用原始变量的相关系数阵作为输入数据,所以这两部分相同。

来自消费模式指标的第一典型变量V1为(原始变量的右上角带“*”表示为标准化变量):V1=0.7689x1*+0.2721x2*

它是x1*(每年去餐馆就餐的频率)和x2*(每年外出看电影的频率)的加权和,在x1*上的权重更大些。来自家庭特征指标的第一典型变量W1为:W1=0.0491y1*+0.8975y2*+0.1900y3*

它在y2*(家庭的年收入)上的系数最大。这一对典型变量主要是反映x1*(每年去餐馆就餐的频率)和y2*(家庭的年收入)的相关关系。

第六部分(图7-24)为典型相关结构,分别是各组原始变量与典型变量两两之间的相关系数矩阵。

可以看出:x1和x2与第1典型变量V1的相关系数皆为正值,分别为0.9866和0.8872,可见V1可以作为消费特性的指标。家庭特征指标的所有变量与第1典型变量W1的相关系数分别为:0.4211,0.9822和0.5145,可见典型变量W1主要代表了了家庭收入。

V1和W1的典型相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的。

第二对典型变量中V2与x2的相关系数为0.4614,可以看出V2可以作为文化消费特性的指标,第二对典型变量中W2与y1和y3之间的分别相关系数为0.8464和0.3013,可见典型变量W2主要代表了家庭成员的年龄特征和教育程度,V2和W2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间有一定关系。(3)典型冗余分析第七部分给出典型冗余分析的结果(图7-25、7-26),由于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论