第04章主成分分析和典型相关分析_第1页
第04章主成分分析和典型相关分析_第2页
第04章主成分分析和典型相关分析_第3页
第04章主成分分析和典型相关分析_第4页
第04章主成分分析和典型相关分析_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析和典型相关分析第4章引言变量太多会增加计算的复杂性变量太多给分析问题和解释问题带来困难变量提供的信息在一定程度上会有所重叠用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息,降维的思想来处理高维数据。4.1主成分分析主要目的:对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低变量的维数,即用较少的“新变量”代替原来的各变量。4.1.2总体主成分设为某实际问题所涉及的个随机变量。记,其协方差矩阵为它是一个阶非负定矩阵。设为个常数向量,考虑如下线性组合:总体主成分易知有我们希望用代替原来个变量,这就要求尽可能地反映原来个变量的信息。这里用方差来度量。即要求达到最大。对任意常数,若取,则。

总体主成分因此,必须对加以限制,否则无界。最方便的限制是要求具有单位长度,即我们在约束条件之下,求使达到最大,由此所确定的随机变量称为的第一主成分。总体主成分如果第一主成分还不足以反映原变量的信息,进一步求。为了使和反映原变量的信息不相重叠,要求二者不相关,在约束条件求使达到最大。

第二主成分:

依次类推……

总体主成分一般地,在约束条件及

下,求使达到最大,由此所确定的称为的第个主成分。总体主成分的求法设是的协方差矩阵,的特征值及相应的正交单位化特征向量分别为及,则的第个主成分为

其中。易见:事实上,令,则为一正交矩阵,且总体主成分的求法设为X的第一主成分,其中。令则并且当时,等号成立。这时总体主成分的求法在约束条件下,当时,达到最大,且设为X的第二主成分,则有

即有且总体主成分的求法令

则有从而并且当,即时,。由此知,当时,满足,且使达到最大。依此类推….

总体主成分的求法以上结果告诉我们,求X的各主成分,等价于求它的协方差矩阵∑的各特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的的线性组合分别为X的第一、第二、直至第p个主成分,而各主成分的方差等于相应的特征值。总体主成分的性质主成分的协方差矩阵及总方差记为主成分向量,则,其中,Y的协方差矩阵为由此得主成分的总方差为总体主成分的性质主成分分析是把p个原始变量的总方差分解成p个不相关变量的方差之和。

第个主成分的贡献率:描述了第k个主成分提取的信息占总信息的份额。总体主成分的性质前个主成分的累计贡献率:表明前m个主成分综合提供信息的能力。

实际应用中,通常选取m<p,使前m个主成分的累计贡献率达到较高的比例(如80%到90%)。这样用前m个主成分代替原始变量不但是变量维数降低,而且也不致于损失原始变量中的太多信息。总体主成分的性质主成分与变量的相关系数由于,故,从而

由此可得与的相关系数为它给出了主成分与原始变量的关联性的度量。各主成分与原始变量间的相关系数原变量主成分实际应用中,一般只对前m个主成分感兴趣,因此只关心与的相关系数,即表中前m行的各个值。例4.1设随机变量的协方差矩阵为求的各主成分。

解易求得的特征值及相应的正交单位化特征向量分别为例4.1因此的主成分为如果我们只取第一主成分,则贡献率为

若取前两个主成分,则累计贡献率为例4.1进一步可求得前两个主成分与各原始变量的相关系数同理,可求得即与,高度相关而与不相关;与以概率1呈完全线性关系。标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。若用求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同带来的影响,常采用变量标准化的方法,即令其中。标准化变量的主成分这时,的协方差矩阵便是的相关矩阵,其中利用的相关矩阵作主成分分析,可以得到如下结论:标准化变量的主成分设为标准化的随机向量,其协方差矩阵(即的相关矩阵)为,则的第个主成分为并且其中为的特征值,为相应于特征值的正交单位化特征向量。这时,第个主成分的贡献率为,前个主成分的累计贡献率为,与的相关系数为例4.2设的协方差矩阵为相应的相关矩阵为分别从和出发,作主成分分析。例4.2解如果从出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为的两个主成分分别为第一主成分的贡献率为例4.2

与,的相关系数分别是我们可以看到,由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系数为0.999),淹没了变量的作用。如果从出发求主成分,可求得其特征值和相应的正交单位化特征向量为例4.2

的两个主成分分别为此时,第一个主成分的贡献率有所下降,为

注:当涉及的各变量的变化范围差异较大时,从出发求主成分比较合理。

4.1.3样本主成分设为取自的一个容量为的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为其中样本主成分设是样本协方差矩阵,其特征值为相应的正交单位化特征向量这里,则第个样本主成分为其中为X的任一观测值。当依次代入X的n个观测值时,便得到第i个样本主成分的n个观测值,我们称为第i个主成分的得分。样本主成分第个样本主成分的贡献率为,前个样本主成分的累计贡献率为。样本主成分同样,为了消除量纲的影响,我们可以对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵。由出发所求得的样本主成分称为标准化样本主成分。只要求出的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本总方差为。样本主成分实际应用中,将样本代入各主成分中,可得到各样本主成分的观测值

原变量主成分12序号

样本主成分实际应用中,选取前m(m<p)个样本主成分,使其累计贡献率达到一定的要求(如80%到90%),以前m个主成分的得分代替原始数据,这样便可以达到降低原始数据维数的目的,同时也不致损失原始数据的太多信息。PRINCOMP过程可对输入资料文件做主成分分析输入资料文件可以是原始数据、相关系数矩阵或样本协方差矩阵等输出包括相关矩阵或协方差矩阵、特征值、特征向量及标准化的主成分值等主要语句Procprincomp选项串;var变量名称串;partial变量名称串;freq变量名称串;weight变量名称串;by变量名称串;run;PROCPRINCOMPProcprincompoptions;data=sasdataset:指出要分析的sas数据集名称。这个数据集可以是原始观测值的sas数据集,也可以是相关矩阵(在数据集名称后加上type=corr)或协方差矩阵(在数据集名称后加上type=cov)。若省略数据集选项,则自动使用最新建立的sas数据集。PROCPRINCOMPProcprincompoptions;out=sasdataset:命名一个输出的sas数据集,其中包含原始数据以及各主成分的得分(即各主成分的观测值)。outstat=sasdataset:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的输出sas数据集。PROCPRINCOMPProcprincompoptions;covariance(或COV):要求从协方差矩阵出发作主成分分析。若省略此选项,则从相关矩阵出发进行分析。除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析。N=n:指定要计算的主成分个数“n”。其默认值为参与分析的变量个数。PROCPRINCOMPProcprincompoptions;prefix=name:规定各主成分的名称的前缀。省略此句则sas系统自动赋予各主成分名称分别为prin1,prin2,…。若“name=A”,则各主成分名称分别为A1,A2,…。前缀的字符个数加上后面数字位数应不超过8个字符。例4.3对10名男中学生的身高()、胸围()和体重()进行测量,得数据如表。对其作主成分分析。序号身高(cm)胸围(cm)体重(kg)1149.569.538.52162.577.055.53162.778.550.84162.287.565.55156.574.549.06156.174.545.57172.076.551.08173.281.559.59159.574.543.510157.779.053.5例4.3Datastudents;inputx1x2x3;cards;149.569.538.5……157.779.053.5;procprincompcov;varx1-x3;run;例4.3由上面的sasprocprincomp过程,可以算得样本协方差矩阵为S的特征值与单位正交化特征向量分别为例4.3各样本主成分的贡献率分别为:前两个主成分的累计贡献率已达98.855%,实际应用中可只取前两个主成分,即例4.3如果从相关矩阵出发SPSSSPSS1.Analyze→DataReduction→FactorAnalysis,弹出FactorAnalysis对话框;2.把变量选入Variables框;3.Descriptives:CorrelationMatrix框组中选中Coefficients,然后点击Continue,返回FactorAnalysis对话框;4.点击“OK”因子分析主成分分析的推广和发展,多元统计分析方法中降维的一种方法,是研究相关阵或协方差阵的内在的依赖关系,将多个变量进行综合,并用少数几个因子来再现原始变量和因子之间的相关关系的一种统计方法。例4.4某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润指标,14家企业关于这8个指标的统计数据如表。试进行主成分分析。例4.4datalirun;inputx1-x8;cards;40.424.77.26.18.38.72.44220.0……38.59.111.39.512.216.41.32711.6;proc

princompcov;varx1-x8;run;例4.5某医学院测得20例肝癌患者的4项肝功能指标:SGPT(转氨酶),肝大指数,ZnT(锌浊度)和AFP(胎甲球),依次用X1~X4表示,观察数据如表。试进行主成分分析。例4.5datap1;inputx1-x4;cards;402520101.5530120313502504.51801203.5950101.512504011940270413602803.5116017039601803.51440130230502201.517201601.535602202.51430140220202202141040110020112601202200;proc

princompout=pcprefix=y;varx1-x4;run;例4.6一月和七月平均气温的主成分分析在数据集TEMPERAT中存放有美国一些城市一月和七月的平均气温。我们希望对这两个气温进行主成分分析,希望用一个统一的温度来作为总的可比的温度,所以进行主分量分析。

例4.6DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51.281.6PHOENIX51.291.2LITTLEROCK39.581.4SACRAMENTO45.175.2DENVER29.973.0HARTFORD24.872.7WILMINGTON32.075.8WASHINGTONDC35.678.7JACKSONVILLE54.681.0MIAMI67.282.3ATLANTA42.478.0BOISE29.074.5CHICAGO22.971.9PEORIA23.875.1DESMOINES19.475.1INDIANAPOLIS27.975.0WICHITA31.380.7LOUISVILLE33.376.9NEWORLEANS52.981.9PORTLAND,MAINE21.568.0BALTIMORE33.476.6BOSTON29.273.3DETROIT25.573.3SAULTSTEMARIE14.263.8DULUTH8.565.6MINNEAPOLIS12.271.9JACKSON47.181.7KANSASCITY27.878.8STLOUIS31.378.6GREATFALLS20.569.3OMAHA22.677.2RENO31.969.3CONCORD20.669.7ATLANTICCITY32.775.1ALBUQUERQUE35.278.7例4.6ALBANY21.572.0BUFFALO23.770.1NEWYORK32.276.6CHARLOTTE42.178.5RALEIGH40.577.5BISMARCK8.270.8CINCINNATI31.175.6CLEVELAND26.971.4COLUMBUS28.473.6OKLAHOMACITY36.881.5PORTLAND,OREG38.167.1PHILADELPHIA32.376.8PITTSBURGH28.171.9PROVIDENCE28.472.1COLUMBIA45.481.2SIOUXFALLS14.273.3MEMPHIS40.579.6NASHVILLE38.379.6DALLAS44.884.8ELPASO43.682.3HOUSTON52.183.3SALTLAKECITY28.076.7BURLINGTON16.869.8NORFOLK40.578.3RICHMOND37.577.9SPOKANE25.469.7CHARLESTON,WV34.575.0MILWAUKEE19.469.9CHEYENNE26.669.1;PROC

PRINCOMPCOVOUT=PRIN;VARJULYJANUARY;RUN;例4.6输出中,第一部分为简单统计量(均值和标准差),第二部分为协方差的特征值(注意我们在过程中用了COV选项,无此选项用相关阵),从这里可以看到贡献率(Proportion)和累计贡献率(Cumulative),第三部分为特征向量。例4.6按本结果的特征向量值及用COV选项规定使用协方差阵,我们可以知道两个主分量如此计算:PRIN1=0.326866*JULY+0.945071*JANUARYPRIN2=0.945071*JULY+(-0.326866)*JANUARY例4.6如果没有用COV选项,原始变量还需要除以标准差。由系数可见,第一主分量是两个月份的加权平均,代表了一个地方的气温水平,第二主分量系数一正一负,反应了冬季和夏季的气温差别。

请注意:此时的特征向量是与上不同的,而主成分公式也应用标准化后的值。备注关于主成分的实际意义,要结合具体问题和有关专业知识才能给出合理的解释。虽然利用主成分本身可对所研究的问题在一定程度上作分析,但主成分分析本身往往并不是最终目的,更重要的是利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据作进一步分析,如主成分回归分析、聚类分析等等。4.2典型相关分析典型相关分析是研究两组变量之间相关性的一种统计分析方法,也是一种降维技术。由Hotelling(1935,1936)最早提出,CooleyandLohnes(1971)、Kshirsagar(1972)和Mardia,Kent,andBibby(1979)推动了它的应用。引言何时采用典型相关分析?两个随机变量Y与X--->简单相关系数一个随机变量Y与一组随机变量X1,X2,…,Xp;--->多重相关(复相关系数)一组随机变量Y1,Y2,…,Yq与另一组随机变量X1,X2,…,Xp;--->典型相关系数

CCA典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。着眼于识别和量化两组随机变量之间的相关性,是两个随机变量之间的相关性在两组变量之下的推广。简单相关系数

描述两组变量的相关关系的缺点只是孤立考虑单个X与单个Y间的相关,没有考虑X

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论