版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
引言变量太多会增加计算的复杂性变量太多给分析问题和解释问题带来困难变量提供的信息在一定程度上会有所重叠用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息,降维的思想来处理高维数据。第1页/共126页引言变量太多会增加计算的复杂性第1页/共126页14.1主成分分析主要目的:对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低变量的维数,即用较少的“新变量”代替原来的各变量。第2页/共126页4.1主成分分析主要目的:第2页/共126页2第3页/共126页第3页/共126页34.1.2总体主成分设为某实际问题所涉及的个随机变量。记,其协方差矩阵为它是一个阶非负定矩阵。设为个常数向量,考虑如下线性组合:第4页/共126页4.1.2总体主成分设为某实际问题所涉及4总体主成分易知有我们希望用代替原来个变量,这就要求尽可能地反映原来个变量的信息。这里用方差来度量。即要求达到最大。对任意常数,若取,则。
第5页/共126页总体主成分易知有第5页/共126页5总体主成分
因此,必须对加以限制,否则无界。最方便的限制是要求具有单位长度,即我们在约束条件之下,求使达到最大,由此所确定的随机变量称为的第一主成分。第6页/共126页总体主成分因此,必须对加以限制,否则6总体主成分如果第一主成分还不足以反映原变量的信息,进一步求。为了使和反映原变量的信息不相重叠,要求二者不相关,在约束条件求使达到最大。
第二主成分:
依次类推……
第7页/共126页总体主成分如果第一主成分还不足以反映原变量的信息,进7总体主成分一般地,在约束条件及
下,求使达到最大,由此所确定的称为的第个主成分。第8页/共126页总体主成分一般地,在约束条件及8总体主成分的求法设是的协方差矩阵,的特征值及相应的正交单位化特征向量分别为及,则的第个主成分为
其中。易见:事实上,令,则为一正交矩阵,且第9页/共126页总体主成分的求法设是9总体主成分的求法设为X的第一主成分,其中。令则并且当时,等号成立。这时第10页/共126页总体主成分的求法设为X的第一主成分,其10总体主成分的求法在约束条件下,当时,达到最大,且设为X的第二主成分,则有
即有且第11页/共126页总体主成分的求法在约束条件下,当时,11总体主成分的求法令
则有从而并且当,即时,。由此知,当时,满足,且使达到最大。依此类推….
第12页/共126页总体主成分的求法令第12页/共126页12总体主成分的求法以上结果告诉我们,求X的各主成分,等价于求它的协方差矩阵∑的各特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的的线性组合分别为X的第一、第二、直至第p个主成分,而各主成分的方差等于相应的特征值。第13页/共126页总体主成分的求法以上结果告诉我们,求X的各主成分,等价于求它13总体主成分的性质主成分的协方差矩阵及总方差记为主成分向量,则,其中,Y的协方差矩阵为由此得主成分的总方差为第14页/共126页总体主成分的性质主成分的协方差矩阵及总方差第14页/共12614总体主成分的性质主成分分析是把p个原始变量的总方差分解成p个不相关变量的方差之和。
第个主成分的贡献率:描述了第k个主成分提取的信息占总信息的份额。第15页/共126页总体主成分的性质第15页/共126页15总体主成分的性质前个主成分的累计贡献率:表明前m个主成分综合提供信息的能力。
实际应用中,通常选取m<p,使前m个主成分的累计贡献率达到较高的比例(如80%到90%)。这样用前m个主成分代替原始变量不但是变量维数降低,而且也不致于损失原始变量中的太多信息。第16页/共126页总体主成分的性质前个主成分的累计贡献率:第16页/共16总体主成分的性质主成分与变量的相关系数由于,故,从而
由此可得与的相关系数为它给出了主成分与原始变量的关联性的度量。第17页/共126页总体主成分的性质主成分与变量的相关系数第17页17各主成分与原始变量间的相关系数原变量主成分第18页/共126页各主成分与原始变量间的相关系数原变量主成分第18页/共12618实际应用中,一般只对前m个主成分感兴趣,因此只关心与的相关系数,即表中前m行的各个值。第19页/共126页实际应用中,一般只对前m个主成分感兴趣,因此只关心19例4.1设随机变量的协方差矩阵为求的各主成分。
解易求得的特征值及相应的正交单位化特征向量分别为第20页/共126页例4.1设随机变量的协20例4.1因此的主成分为如果我们只取第一主成分,则贡献率为
若取前两个主成分,则累计贡献率为第21页/共126页例4.1因此的主成分为第21页/共126页21例4.1进一步可求得前两个主成分与各原始变量的相关系数同理,可求得即与,高度相关而与不相关;与以概率1呈完全线性关系。第22页/共126页例4.1进一步可求得前两个主成分与各原始变量的相关系数第222标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。若用求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同带来的影响,常采用变量标准化的方法,即令其中。第23页/共126页标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,23标准化变量的主成分这时,的协方差矩阵便是的相关矩阵,其中利用的相关矩阵作主成分分析,可以得到如下结论:第24页/共126页标准化变量的主成分这时,的协24标准化变量的主成分设为标准化的随机向量,其协方差矩阵(即的相关矩阵)为,则的第个主成分为并且其中为的特征值,为相应于特征值的正交单位化特征向量。这时,第个主成分的贡献率为,前个主成分的累计贡献率为,与的相关系数为第25页/共126页标准化变量的主成分设25例4.2设的协方差矩阵为相应的相关矩阵为分别从和出发,作主成分分析。第26页/共126页例4.2设的协方差矩阵为第226例4.2解如果从出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为的两个主成分分别为第一主成分的贡献率为第27页/共126页例4.2解如果从出发作主成分分析,易求得其特征值27例4.2
与,的相关系数分别是我们可以看到,由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系数为0.999),淹没了变量的作用。如果从出发求主成分,可求得其特征值和相应的正交单位化特征向量为第28页/共126页例4.2与,的相关系数分别是第28页/共12628例4.2
的两个主成分分别为此时,第一个主成分的贡献率有所下降,为
注:当涉及的各变量的变化范围差异较大时,从出发求主成分比较合理。
第29页/共126页例4.2的两个主成分分别为第29页/共126页294.1.3样本主成分设为取自的一个容量为的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为其中第30页/共126页4.1.3样本主成分设第30页/30样本主成分设是样本协方差矩阵,其特征值为相应的正交单位化特征向量这里,则第个样本主成分为其中为X的任一观测值。当依次代入X的n个观测值时,便得到第i个样本主成分的n个观测值,我们称为第i个主成分的得分。第31页/共126页样本主成分设是样本协方差矩阵,其特31样本主成分第个样本主成分的贡献率为,前个样本主成分的累计贡献率为。第32页/共126页样本主成分第32页/共126页32样本主成分同样,为了消除量纲的影响,我们可以对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵。由出发所求得的样本主成分称为标准化样本主成分。只要求出的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本总方差为。第33页/共126页样本主成分同样,为了消除量纲的影响,我们可以对样本进行标准化33样本主成分实际应用中,将样本代入各主成分中,可得到各样本主成分的观测值
原变量主成分12序号
第34页/共126页样本主成分实际应用中,将样本代入各主34样本主成分实际应用中,选取前m(m<p)个样本主成分,使其累计贡献率达到一定的要求(如80%到90%),以前m个主成分的得分代替原始数据,这样便可以达到降低原始数据维数的目的,同时也不致损失原始数据的太多信息。第35页/共126页样本主成分实际应用中,选取前m(m<p)个样本主成分,使其累35PRINCOMP过程可对输入资料文件做主成分分析输入资料文件可以是原始数据、相关系数矩阵或样本协方差矩阵等输出包括相关矩阵或协方差矩阵、特征值、特征向量及标准化的主成分值等第36页/共126页PRINCOMP过程可对输入资料文件做主成分分析第36页/共36主要语句Procprincomp选项串;
var变量名称串;
partial变量名称串;
freq变量名称串;
weight变量名称串;
by变量名称串;
run;第37页/共126页主要语句Procprincomp选项串;第37页/共1237PROCPRINCOMPProcprincompoptions;data=sasdataset:指出要分析的sas数据集名称。这个数据集可以是原始观测值的sas数据集,也可以是相关矩阵(在数据集名称后加上type=corr)或协方差矩阵(在数据集名称后加上type=cov)。若省略数据集选项,则自动使用最新建立的sas数据集。第38页/共126页PROCPRINCOMPProcprincompopt38PROCPRINCOMPProcprincompoptions;out=sasdataset:命名一个输出的sas数据集,其中包含原始数据以及各主成分的得分(即各主成分的观测值)。
outstat=sasdataset:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的输出sas数据集。第39页/共126页PROCPRINCOMPProcprincompopt39PROCPRINCOMPProcprincompoptions;covariance(或COV):要求从协方差矩阵出发作主成分分析。若省略此选项,则从相关矩阵出发进行分析。除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析。
N=n:指定要计算的主成分个数“n”。其默认值为参与分析的变量个数。第40页/共126页PROCPRINCOMPProcprincompopt40PROCPRINCOMPProcprincompoptions;prefix=name:规定各主成分的名称的前缀。省略此句则sas系统自动赋予各主成分名称分别为prin1,prin2,…。若“name=A”,则各主成分名称分别为A1,A2,…。前缀的字符个数加上后面数字位数应不超过8个字符。第41页/共126页PROCPRINCOMPProcprincompopt41例4.3对10名男中学生的身高()、胸围()和体重()进行测量,得数据如表。对其作主成分分析。序号身高(cm)胸围(cm)体重(kg)1149.569.538.52162.577.055.53162.778.550.84162.287.565.55156.574.549.06156.174.545.57172.076.551.08173.281.559.59159.574.543.510157.779.053.5第42页/共126页例4.3对10名男中学生的身高()、胸围()和体重(42例4.3Datastudents;inputx1x2x3;cards;149.569.538.5……157.779.053.5;procprincompcov;varx1-x3;run;第43页/共126页例4.3Datastudents;第43页/共126页43第44页/共126页第44页/共126页44第45页/共126页第45页/共126页45例4.3由上面的sasprocprincomp过程,可以算得样本协方差矩阵为S的特征值与单位正交化特征向量分别为第46页/共126页例4.3由上面的sasprocprincomp过程,可以46例4.3各样本主成分的贡献率分别为:前两个主成分的累计贡献率已达98.855%,实际应用中可只取前两个主成分,即第47页/共126页例4.3各样本主成分的贡献率分别为:第47页/共126页47例4.3如果从相关矩阵出发第48页/共126页例4.3如果从相关矩阵出发第48页/共126页48SPSS第49页/共126页SPSS第49页/共126页49SPSS1.Analyze→DataReduction→FactorAnalysis,弹出FactorAnalysis对话框;2.把变量选入Variables框;3.Descriptives:CorrelationMatrix框组中选中Coefficients,然后点击Continue,返回FactorAnalysis对话框;4.点击“OK”第50页/共126页SPSS1.Analyze→DataReduction50因子分析主成分分析的推广和发展,多元统计分析方法中降维的一种方法,是研究相关阵或协方差阵的内在的依赖关系,将多个变量进行综合,并用少数几个因子来再现原始变量和因子之间的相关关系的一种统计方法。第51页/共126页因子分析主成分分析的推广和发展,多元统计分析方法中降维的一种51例4.4某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润指标,14家企业关于这8个指标的统计数据如表。试进行主成分分析。第52页/共126页例4.4某市为了全面分析机械类各企业的经济效益,选择了8个52例4.4datalirun;inputx1-x8;cards;40.424.77.26.18.38.72.44220.0……38.59.111.39.512.216.41.32711.6;proc
princompcov;varx1-x8;run;第53页/共126页例4.4datalirun;第53页/共126页53第54页/共126页第54页/共126页54第55页/共126页第55页/共126页55第56页/共126页第56页/共126页56第57页/共126页第57页/共126页57例4.5某医学院测得20例肝癌患者的4项肝功能指标:SGPT(转氨酶),肝大指数,ZnT(锌浊度)和AFP(胎甲球),依次用X1~X4表示,观察数据如表。试进行主成分分析。第58页/共126页例4.5某医学院测得20例肝癌患者的4项肝功能指标:SGPT58例4.5datap1;inputx1-x4;cards;402520101.5530120313502504.51801203.5950101.512504011940270413602803.5116017039601803.51440130230502201.517201601.535602202.51430140220202202141040110020112601202200;proc
princompout=pcprefix=y;varx1-x4;run;第59页/共126页例4.5datap1;13023050第59页/共159第60页/共126页第60页/共126页60例4.6一月和七月平均气温的主成分分析在数据集TEMPERAT中存放有美国一些城市一月和七月的平均气温。我们希望对这两个气温进行主成分分析,希望用一个统一的温度来作为总的可比的温度,所以进行主分量分析。
第61页/共126页例4.6一月和七月平均气温的主成分分析第61页/共126页61例4.6DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51.281.6PHOENIX51.291.2LITTLEROCK39.581.4SACRAMENTO45.175.2DENVER29.973.0HARTFORD24.872.7WILMINGTON32.075.8WASHINGTONDC35.678.7JACKSONVILLE54.681.0MIAMI67.282.3ATLANTA42.478.0BOISE29.074.5CHICAGO22.971.9PEORIA23.875.1DESMOINES19.475.1INDIANAPOLIS27.975.0WICHITA31.380.7LOUISVILLE33.376.9NEWORLEANS52.981.9PORTLAND,MAINE21.568.0BALTIMORE33.476.6BOSTON29.273.3DETROIT25.573.3SAULTSTEMARIE14.263.8DULUTH8.565.6MINNEAPOLIS12.271.9JACKSON47.181.7KANSASCITY27.878.8STLOUIS31.378.6GREATFALLS20.569.3OMAHA22.677.2RENO31.969.3CONCORD20.669.7ATLANTICCITY32.775.1ALBUQUERQUE35.278.7第62页/共126页例4.6DATATEMPERAT;WICHITA62例4.6ALBANY21.572.0BUFFALO23.770.1NEWYORK32.276.6CHARLOTTE42.178.5RALEIGH40.577.5BISMARCK8.270.8CINCINNATI31.175.6CLEVELAND26.971.4COLUMBUS28.473.6OKLAHOMACITY36.881.5PORTLAND,OREG38.167.1PHILADELPHIA32.376.8PITTSBURGH28.171.9PROVIDENCE28.472.1COLUMBIA45.481.2SIOUXFALLS14.273.3MEMPHIS40.579.6NASHVILLE38.379.6DALLAS44.884.8ELPASO43.682.3HOUSTON52.183.3SALTLAKECITY28.076.7BURLINGTON16.869.8NORFOLK40.578.3RICHMOND37.577.9SPOKANE25.469.7CHARLESTON,WV34.575.0MILWAUKEE19.469.9CHEYENNE26.669.1;PROC
PRINCOMPCOVOUT=PRIN;VARJULYJANUARY;RUN;第63页/共126页例4.6ALBANY21.572.0D63第64页/共126页第64页/共126页64例4.6输出中,第一部分为简单统计量(均值和标准差),第二部分为协方差的特征值(注意我们在过程中用了COV选项,无此选项用相关阵),从这里可以看到贡献率(Proportion)和累计贡献率(Cumulative),第三部分为特征向量。第65页/共126页例4.6第65页/共126页65例4.6按本结果的特征向量值及用COV选项规定使用协方差阵,我们可以知道两个主分量如此计算:
PRIN1=0.326866*JULY+0.945071*JANUARYPRIN2=0.945071*JULY+(-0.326866)*JANUARY第66页/共126页例4.6按本结果的特征向量值及用COV选项规定使用协方差阵66例4.6如果没有用COV选项,原始变量还需要除以标准差。由系数可见,第一主分量是两个月份的加权平均,代表了一个地方的气温水平,第二主分量系数一正一负,反应了冬季和夏季的气温差别。
请注意:此时的特征向量是与上不同的,而主成分公式也应用标准化后的值。第67页/共126页例4.6如果没有用COV选项,原始变量还需要除以标准差。由67备注关于主成分的实际意义,要结合具体问题和有关专业知识才能给出合理的解释。虽然利用主成分本身可对所研究的问题在一定程度上作分析,但主成分分析本身往往并不是最终目的,更重要的是利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据作进一步分析,如主成分回归分析、聚类分析等等。第68页/共126页备注关于主成分的实际意义,要结合具体问题和有关专业知识才能给684.2典型相关分析典型相关分析是研究两组变量之间相关性的一种统计分析方法,也是一种降维技术。由Hotelling(1935,1936)最早提出,CooleyandLohnes(1971)、Kshirsagar(1972)和Mardia,Kent,andBibby(1979)推动了它的应用。第69页/共126页4.2典型相关分析典型相关分析是研究两组变量之间相关性的一69引言何时采用典型相关分析?两个随机变量Y与X--->简单相关系数一个随机变量Y与一组随机变量X1,X2,…,Xp;--->多重相关(复相关系数)一组随机变量Y1,Y2,…,Yq与另一组随机变量X1,X2,…,Xp;--->典型相关系数
第70页/共126页引言何时采用典型相关分析?第70页/共126页70CCA典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。着眼于识别和量化两组随机变量之间的相关性,是两个随机变量之间的相关性在两组变量之下的推广。第71页/共126页CCA典型相关是简单相关、多重相关的推广;或者说简单相关系数71简单相关系数
描述两组变量的相关关系的缺点只是孤立考虑单个X与单个Y间的相关,没有考虑X、Y变量组内部各变量间的相关。两组间有许多简单相关系数,使问题显得复杂,难以从整体描述。(复相关系数也如此)第72页/共126页简单相关系数
描述两组变量的相关关系的缺点只是孤立考虑单个X72典型相关分析的思想采用主成分思想寻找第i对典型(相关)变量(Ui,Vi):第73页/共126页典型相关分析的思想采用主成分思想寻找第i对典型(相关)变量(73典型相关分析的思想X1Y1Y2Y3Y4…X2X3X4X5…U1U2U3U4…V1V2V3V4…将两组变量间的相关性凝结为少数几对典型变量间的相关性,通过对相关性较大的少数几对典型变量的研究来了解原来的两组变量相关性。第74页/共126页典型相关分析的思想X1Y1Y2Y3Y4…X2X3X4X5…U744.2.2总体的典型变量与典型相关总体的典型变量的定义
第75页/共126页4.2.2总体的典型变量与典型相关总体的典型变量的定义第775第一对典型变量第76页/共126页第一对典型变量第76页/共126页76第二对典型变量第77页/共126页第二对典型变量第77页/共126页77一般情况第78页/共126页一般情况第78页/共126页78求法总体典型相关变量与典型相关系数的求法第79页/共126页求法总体典型相关变量与典型相关系数的求法第79页/共126页79第80页/共126页第80页/共126页80第81页/共126页第81页/共126页81第82页/共126页第82页/共126页82从标准化变量出发第83页/共126页从标准化变量出发第83页/共126页83第84页/共126页第84页/共126页84备注第85页/共126页备注第85页/共126页85例4.7第86页/共126页例4.7第86页/共126页86例4.7第87页/共126页例4.7第87页/共126页874.2.3样本的典型变量与典型相关第88页/共126页4.2.3样本的典型变量与典型相关第88页/共126页884.2.3样本典型变量
第89页/共126页4.2.3样本典型变量第89页/共126页89第90页/共126页第90页/共126页90同样可以求标准化样本的样本典型变量与样本典型相关系数。这等价于从观测数据的样本相关系数R出发作典型相关分析。在实际应用中,通常从R出发进行典型相关分析,选择样本典型相关系数较大的少数几对典型变量,以反映原来两组变量间的相关性。第91页/共126页同样可以求标准化样本的样本典型变量与样本典型相关系数。这等价914.2.4典型相关系数的显著性检验第92页/共126页4.2.4典型相关系数的显著性检验第92页/共126页92第93页/共126页第93页/共126页93检验统计量第94页/共126页检验统计量第94页/共126页94第95页/共126页第95页/共126页95第96页/共126页第96页/共126页96例4.8第97页/共126页例4.8第97页/共126页97例4.8第98页/共126页例4.8第98页/共126页98例4.8第99页/共126页例4.8第99页/共126页99例4.8第100页/共126页例4.8第100页/共126页100PROCCANCORR过程PROCCANCORR选项;VAR变量名称串;WITH变量名称串;RUN;第101页/共126页PROCCANCORR过程PROCCANCORR选项101VAR语句列出要进行典型相关分析的第一组变量,变量必须是数值型的。WITH语句列举第二组变量,变量必须是数值型的。第102页/共126页第102页/共126页102应用举例例1.现有某地区春播面积(X1)、化肥施用量(X2)、水稻抽穗花期降水量(X3)、肥猪头数(Y1)、春粮产量(Y2)的观测数据。试分析投入因素X和产出因素Y之间的关系。第103页/共126页应用举例例1.现有某地区春播面积(X1)、化肥施用量(X2)103第104页/共126页第104页/共126页104第105页/共126页第105页/共126页105第106页/共126页第106页/共126页106第107页/共126页第107页/共126页107第108页/共126页第108页/共126页108第109页/共126页第109页/共126页109第110页/共126页第110页/共126页110第111页/共126页第111页/共126页111主成分分析和典型相关分析课件112第113页/共126页第113页/共126页113第114页/共126页第114页/共126页114专业结论第115页/共126页专业结论第115页/共126页115应用举例例2.对172个儿童测试8项感情指标得到相关矩阵,X1为合群性,X2为忧郁性,X3为温柔性,X4为友谊,X5为惊讶,X6为憎恶,X7为焦虑,X8为恐惧。第一组(X1,X2,X3,X4);第二组(X5,X6,X7,X8),对这两组变量进行典型相关分析。第116页/共126页应用举例例2.对172个儿童测试8项感情指标得到相关矩阵,X116第117页/共126页第117页/共126页117第118页/共126页第118页/共126页118典型相关系数与显著性检验第119页/共126页典型相关系数与显著性检验第119页/共126页119典型变量的系数矩阵第120页/共126页典型变量的系数矩阵第120页/共126页120标准化指标第121页/共126页标准化指标第121页/共126页121第122页/共126页第122页/共126页122典型结构矩阵第123页/共126页典型结构矩阵第123页/共126页123第124页/共126页第124页/共126页124备注
对典型变量的合理解释同样需要具体问题的实际背景和相关的专业知识。一般说来,典型变量的意义主要由那些系数绝对值较大的变量来决定。第125页/共126页备注对典型变量的合理解释同样需要具体问题的实际背景和相125作业P137.练习4.4P140.练习4.8第126页/共126页作业P137.练习4.4第126页/共126页126引言变量太多会增加计算的复杂性变量太多给分析问题和解释问题带来困难变量提供的信息在一定程度上会有所重叠用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息,降维的思想来处理高维数据。第1页/共126页引言变量太多会增加计算的复杂性第1页/共126页1274.1主成分分析主要目的:对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低变量的维数,即用较少的“新变量”代替原来的各变量。第2页/共126页4.1主成分分析主要目的:第2页/共126页128第3页/共126页第3页/共126页1294.1.2总体主成分设为某实际问题所涉及的个随机变量。记,其协方差矩阵为它是一个阶非负定矩阵。设为个常数向量,考虑如下线性组合:第4页/共126页4.1.2总体主成分设为某实际问题所涉及130总体主成分易知有我们希望用代替原来个变量,这就要求尽可能地反映原来个变量的信息。这里用方差来度量。即要求达到最大。对任意常数,若取,则。
第5页/共126页总体主成分易知有第5页/共126页131总体主成分
因此,必须对加以限制,否则无界。最方便的限制是要求具有单位长度,即我们在约束条件之下,求使达到最大,由此所确定的随机变量称为的第一主成分。第6页/共126页总体主成分因此,必须对加以限制,否则132总体主成分如果第一主成分还不足以反映原变量的信息,进一步求。为了使和反映原变量的信息不相重叠,要求二者不相关,在约束条件求使达到最大。
第二主成分:
依次类推……
第7页/共126页总体主成分如果第一主成分还不足以反映原变量的信息,进133总体主成分一般地,在约束条件及
下,求使达到最大,由此所确定的称为的第个主成分。第8页/共126页总体主成分一般地,在约束条件及134总体主成分的求法设是的协方差矩阵,的特征值及相应的正交单位化特征向量分别为及,则的第个主成分为
其中。易见:事实上,令,则为一正交矩阵,且第9页/共126页总体主成分的求法设是135总体主成分的求法设为X的第一主成分,其中。令则并且当时,等号成立。这时第10页/共126页总体主成分的求法设为X的第一主成分,其136总体主成分的求法在约束条件下,当时,达到最大,且设为X的第二主成分,则有
即有且第11页/共126页总体主成分的求法在约束条件下,当时,137总体主成分的求法令
则有从而并且当,即时,。由此知,当时,满足,且使达到最大。依此类推….
第12页/共126页总体主成分的求法令第12页/共126页138总体主成分的求法以上结果告诉我们,求X的各主成分,等价于求它的协方差矩阵∑的各特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的的线性组合分别为X的第一、第二、直至第p个主成分,而各主成分的方差等于相应的特征值。第13页/共126页总体主成分的求法以上结果告诉我们,求X的各主成分,等价于求它139总体主成分的性质主成分的协方差矩阵及总方差记为主成分向量,则,其中,Y的协方差矩阵为由此得主成分的总方差为第14页/共126页总体主成分的性质主成分的协方差矩阵及总方差第14页/共126140总体主成分的性质主成分分析是把p个原始变量的总方差分解成p个不相关变量的方差之和。
第个主成分的贡献率:描述了第k个主成分提取的信息占总信息的份额。第15页/共126页总体主成分的性质第15页/共126页141总体主成分的性质前个主成分的累计贡献率:表明前m个主成分综合提供信息的能力。
实际应用中,通常选取m<p,使前m个主成分的累计贡献率达到较高的比例(如80%到90%)。这样用前m个主成分代替原始变量不但是变量维数降低,而且也不致于损失原始变量中的太多信息。第16页/共126页总体主成分的性质前个主成分的累计贡献率:第16页/共142总体主成分的性质主成分与变量的相关系数由于,故,从而
由此可得与的相关系数为它给出了主成分与原始变量的关联性的度量。第17页/共126页总体主成分的性质主成分与变量的相关系数第17页143各主成分与原始变量间的相关系数原变量主成分第18页/共126页各主成分与原始变量间的相关系数原变量主成分第18页/共126144实际应用中,一般只对前m个主成分感兴趣,因此只关心与的相关系数,即表中前m行的各个值。第19页/共126页实际应用中,一般只对前m个主成分感兴趣,因此只关心145例4.1设随机变量的协方差矩阵为求的各主成分。
解易求得的特征值及相应的正交单位化特征向量分别为第20页/共126页例4.1设随机变量的协146例4.1因此的主成分为如果我们只取第一主成分,则贡献率为
若取前两个主成分,则累计贡献率为第21页/共126页例4.1因此的主成分为第21页/共126页147例4.1进一步可求得前两个主成分与各原始变量的相关系数同理,可求得即与,高度相关而与不相关;与以概率1呈完全线性关系。第22页/共126页例4.1进一步可求得前两个主成分与各原始变量的相关系数第2148标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。若用求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同带来的影响,常采用变量标准化的方法,即令其中。第23页/共126页标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,149标准化变量的主成分这时,的协方差矩阵便是的相关矩阵,其中利用的相关矩阵作主成分分析,可以得到如下结论:第24页/共126页标准化变量的主成分这时,的协150标准化变量的主成分设为标准化的随机向量,其协方差矩阵(即的相关矩阵)为,则的第个主成分为并且其中为的特征值,为相应于特征值的正交单位化特征向量。这时,第个主成分的贡献率为,前个主成分的累计贡献率为,与的相关系数为第25页/共126页标准化变量的主成分设151例4.2设的协方差矩阵为相应的相关矩阵为分别从和出发,作主成分分析。第26页/共126页例4.2设的协方差矩阵为第2152例4.2解如果从出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为的两个主成分分别为第一主成分的贡献率为第27页/共126页例4.2解如果从出发作主成分分析,易求得其特征值153例4.2
与,的相关系数分别是我们可以看到,由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系数为0.999),淹没了变量的作用。如果从出发求主成分,可求得其特征值和相应的正交单位化特征向量为第28页/共126页例4.2与,的相关系数分别是第28页/共126154例4.2
的两个主成分分别为此时,第一个主成分的贡献率有所下降,为
注:当涉及的各变量的变化范围差异较大时,从出发求主成分比较合理。
第29页/共126页例4.2的两个主成分分别为第29页/共126页1554.1.3样本主成分设为取自的一个容量为的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为其中第30页/共126页4.1.3样本主成分设第30页/156样本主成分设是样本协方差矩阵,其特征值为相应的正交单位化特征向量这里,则第个样本主成分为其中为X的任一观测值。当依次代入X的n个观测值时,便得到第i个样本主成分的n个观测值,我们称为第i个主成分的得分。第31页/共126页样本主成分设是样本协方差矩阵,其特157样本主成分第个样本主成分的贡献率为,前个样本主成分的累计贡献率为。第32页/共126页样本主成分第32页/共126页158样本主成分同样,为了消除量纲的影响,我们可以对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵。由出发所求得的样本主成分称为标准化样本主成分。只要求出的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本总方差为。第33页/共126页样本主成分同样,为了消除量纲的影响,我们可以对样本进行标准化159样本主成分实际应用中,将样本代入各主成分中,可得到各样本主成分的观测值
原变量主成分12序号
第34页/共126页样本主成分实际应用中,将样本代入各主160样本主成分实际应用中,选取前m(m<p)个样本主成分,使其累计贡献率达到一定的要求(如80%到90%),以前m个主成分的得分代替原始数据,这样便可以达到降低原始数据维数的目的,同时也不致损失原始数据的太多信息。第35页/共126页样本主成分实际应用中,选取前m(m<p)个样本主成分,使其累161PRINCOMP过程可对输入资料文件做主成分分析输入资料文件可以是原始数据、相关系数矩阵或样本协方差矩阵等输出包括相关矩阵或协方差矩阵、特征值、特征向量及标准化的主成分值等第36页/共126页PRINCOMP过程可对输入资料文件做主成分分析第36页/共162主要语句Procprincomp选项串;
var变量名称串;
partial变量名称串;
freq变量名称串;
weight变量名称串;
by变量名称串;
run;第37页/共126页主要语句Procprincomp选项串;第37页/共12163PROCPRINCOMPProcprincompoptions;data=sasdataset:指出要分析的sas数据集名称。这个数据集可以是原始观测值的sas数据集,也可以是相关矩阵(在数据集名称后加上type=corr)或协方差矩阵(在数据集名称后加上type=cov)。若省略数据集选项,则自动使用最新建立的sas数据集。第38页/共126页PROCPRINCOMPProcprincompopt164PROCPRINCOMPProcprincompoptions;out=sasdataset:命名一个输出的sas数据集,其中包含原始数据以及各主成分的得分(即各主成分的观测值)。
outstat=sasdataset:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的输出sas数据集。第39页/共126页PROCPRINCOMPProcprincompopt165PROCPRINCOMPProcprincompoptions;covariance(或COV):要求从协方差矩阵出发作主成分分析。若省略此选项,则从相关矩阵出发进行分析。除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析。
N=n:指定要计算的主成分个数“n”。其默认值为参与分析的变量个数。第40页/共126页PROCPRINCOMPProcprincompopt166PROCPRINCOMPProcprincompoptions;prefix=name:规定各主成分的名称的前缀。省略此句则sas系统自动赋予各主成分名称分别为prin1,prin2,…。若“name=A”,则各主成分名称分别为A1,A2,…。前缀的字符个数加上后面数字位数应不超过8个字符。第41页/共126页PROCPRINCOMPProcprincompopt167例4.3对10名男中学生的身高()、胸围()和体重()进行测量,得数据如表。对其作主成分分析。序号身高(cm)胸围(cm)体重(kg)1149.569.538.52162.577.055.53162.778.550.84162.287.565.55156.574.549.06156.174.545.57172.076.551.08173.281.559.59159.574.543.510157.779.053.5第42页/共126页例4.3对10名男中学生的身高()、胸围()和体重(168例4.3Datastudents;inputx1x2x3;cards;149.569.538.5……157.779.053.5;procprincompcov;varx1-x3;run;第43页/共126页例4.3Datastudents;第43页/共126页169第44页/共126页第44页/共126页170第45页/共126页第45页/共126页171例4.3由上面的sasprocprincomp过程,可以算得样本协方差矩阵为S的特征值与单位正交化特征向量分别为第46页/共126页例4.3由上面的sasprocprincomp过程,可以172例4.3各样本主成分的贡献率分别为:前两个主成分的累计贡献率已达98.855%,实际应用中可只取前两个主成分,即第47页/共126页例4.3各样本主成分的贡献率分别为:第47页/共126页173例4.3如果从相关矩阵出发第48页/共126页例4.3如果从相关矩阵出发第48页/共126页174SPSS第49页/共126页SPSS第49页/共126页175SPSS1.Analyze→DataReduction→FactorAnalysis,弹出FactorAnalysis对话框;2.把变量选入Variables框;3.Descriptives:CorrelationMatrix框组中选中Coefficients,然后点击Continue,返回FactorAnalysis对话框;4.点击“OK”第50页/共126页SPSS1.Analyze→DataReduction176因子分析主成分分析的推广和发展,多元统计分析方法中降维的一种方法,是研究相关阵或协方差阵的内在的依赖关系,将多个变量进行综合,并用少数几个因子来再现原始变量和因子之间的相关关系的一种统计方法。第51页/共126页因子分析主成分分析的推广和发展,多元统计分析方法中降维的一种177例4.4某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润指标,14家企业关于这8个指标的统计数据如表。试进行主成分分析。第52页/共126页例4.4某市为了全面分析机械类各企业的经济效益,选择了8个178例4.4datalirun;inputx1-x8;cards;40.424.77.26.18.38.72.44220.0……38.59.111.39.512.216.41.32711.6;proc
princompcov;varx1-x8;run;第53页/共126页例4.4datalirun;第53页/共126页179第54页/共126页第54页/共126页180第55页/共126页第55页/共126页181第56页/共126页第56页/共126页182第57页/共126页第57页/共126页183例4.5某医学院测得20例肝癌患者的4项肝功能指标:SGPT(转氨酶),肝大指数,ZnT(锌浊度)和AFP(胎甲球),依次用X1~X4表示,观察数据如表。试进行主成分分析。第58页/共126页例4.5某医学院测得20例肝癌患者的4项肝功能指标:SGPT184例4.5datap1;inputx1-x4;cards;402520101.5530120313502504.51801203.5950101.512504011940270413602803.5116017039601803.51440130230502201.517201601.535602202.51430140220202202141040110020112601202200;proc
princompout=pcprefix=y;varx1-x4;run;第59页/共126页例4.5datap1;13023050第59页/共1185第60页/共126页第60页/共126页186例4.6一月和七月平均气温的主成分分析在数据集TEMPERAT中存放有美国一些城市一月和七月的平均气温。我们希望对这两个气温进行主成分分析,希望用一个统一的温度来作为总的可比的温度,所以进行主分量分析。
第61页/共126页例4.6一月和七月平均气温的主成分分析第61页/共126页187例4.6DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51.281.6PHOENIX51.291.2LITTLEROCK39.581.4SACRAMENTO45.175.2DENVER29.973.0HARTFORD24.872.7WILMINGTON32.075.8WASHINGTONDC35.678.7JACKSONVILLE54.681.0MIAMI67.282.3ATLANTA42.478.0BOISE29.074.5CHICAGO22.971.9PEORIA23.875.1DESMOINES19.475.1INDIANAPOLIS27.975.0WICHITA31.380.7LOUISVILLE33.376.9NEWORLEANS52.981.9PORTLAND,MAINE21.568.0BALTIMORE33.476.6BOSTON29.273.3DETROIT25.573.3SAULTSTEMARIE14.263.8D
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 警械使用课件
- 2023年国家公务员考试《申论》真题(地市卷)及答案解析
- 9.2《永遇乐·京口北固亭怀古》-高一语文上学期同步备课拓展(统编版必修上册)
- 西南林业大学《材料加工工艺与设备》2022-2023学年第一学期期末试卷
- 西京学院《微机原理与接口技术》2023-2024学年期末试卷
- 西京学院《汉语国际教育概论》2023-2024学年第一学期期末试卷
- 幼儿园小班打击乐活动《小鳄鱼之歌》课件
- 西华师范大学《中学思想政治学科教学论》2022-2023学年第一学期期末试卷
- 西华师范大学《舞台剧创作》2023-2024学年第一学期期末试卷
- 房地产金融与投资概论教学课件第六章房地产开发建设融资
- 基于PLC的水箱温度控制系统
- 第二课堂活动记录表
- 消防救援-消防火场供水
- 植物嫁接实验报告
- 学生营养餐满意度调查表
- 上海高考语文知识点归纳完整版(精编版)
- 大班绘本阅读《糊涂熊队划不快》
- 国开2023春《管理学基础》专科形考作业一~四参考答案
- 《城市轨道交通应急处理》项目三课件
- 机场航站楼及跑道扩建工程施工组织设计方案
- 高速公路绿化设计方案
评论
0/150
提交评论