多元统计分析课程设计报告样例女性空腹及摄入食糖后体内血糖含量主成分分析_第1页
多元统计分析课程设计报告样例女性空腹及摄入食糖后体内血糖含量主成分分析_第2页
多元统计分析课程设计报告样例女性空腹及摄入食糖后体内血糖含量主成分分析_第3页
多元统计分析课程设计报告样例女性空腹及摄入食糖后体内血糖含量主成分分析_第4页
多元统计分析课程设计报告样例女性空腹及摄入食糖后体内血糖含量主成分分析_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TOC\o"1-5"\h\z目录 I..\o"CurrentDocument"一、 问题分析 1..\o"CurrentDocument"问题重述 1..问题分析 1..\o"CurrentDocument"二、 主成分分析方法基本原理 2\o"CurrentDocument"2.1 主成分分析基本思想 2.\o"CurrentDocument"2.2主成分分析的数学模型 2.\o"CurrentDocument"2.3主成分分析的计算步骤 3.\o"CurrentDocument"三、 问题求解 .5..\o"CurrentDocument"四、 结果分析 Z.\o"CurrentDocument"4.1相关系数矩阵 7.\o"CurrentDocument"4.2协方差阵 8.五、 总结 9.\o"CurrentDocument"六、 课程设计心得体会 9.\o"CurrentDocument"参考文献 10--#-一、问题分析1.1问题重述49位女性在空腹情况下三个不同时刻的血糖含量(用X「X2,X3表示)和摄入等量食糖一小时后的三个时刻的血糖含量(用小X4,X5,X6表示)的观测值(单位:mg/100ml).问题:分别从样本协方差阵S和样本相关系数矩阵R出发做主成分分析,求主成分的贡献率和各个主成分.在两种情况下,你认为应保留几个主成分?其意义如何解释?就此而言,你认为基于S和R的分析那个结果更为合理?1.2问题分析我们根据主成分分析的基本思想,设法将原来众多的具有一定相关性的指标,重新组合成一组新的互不相关的综合指标来代替原来指标。 通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。然后,在所有的线性组合中分别从样本协方差阵 S和样本相关系数矩阵R出发做主成分分析,计算出各个主成分,进而代表原来 p个指标的信息。进一步,建立主成分分析的数学模型。最后利用sas统计软件来求解出各个主成分和各主成分的贡献率。1、主成分分析方法基本原理2.1主成分分析基本思想主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?在所有的线性组合中所选取的Fi应该是方差最大的,故称Fi为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原有信息, Fi已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(Fi,F2)=0。称F2为第二主成分,依此类推可以构造出第三、第四、,、第p个主成分。2.2主成分分析的数学模型设有n个样品(多元观测值),每个样品观测p项指标(变量):Xi,X2…Xp,得到原始数据资料阵:其中Xi=(x们…xni),i=1,2,…,P.用数据矩阵X的p个列向量(即p个指标向量)X1,X^Xp作线性组合,得综合指标向量:F^=aipXi'a2pX^^' appXp简写成:F二AX为了加以限制,对组合系数a^(aii/'api)T作如下要求:即:ai为单位向量:a「aj=1,且由下列原则决定:1) Fi与Fj互不相关,即Cov(Fi,Fj)pT1ai=0,其中[是X的协方差阵2) Fi是Xi,X2…Xp的一切线性组合(系数满足上述要求)中方差最大的,即:Var(FJ=maxVar(二ciXi),其中。=(56,,Cp)F2是与Fi不相关的Xi,X2Xp一切线性组合中方差最大的,Fi,…,Fp是与Fi,F2/,Fp4都不相关的Xi,X2Xp的一切线性组合中方差最大的。满足上述要求的综合指标向量Fi,F2,…,Fp<就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值「,每一个主成分的组合系数:ai-(ali,a2i,…,api)就是相应特征值i所对应的单位特征向量ti。方差的贡献率为Pi=,i/” .:kk丄其中,:i越大,说明相应的主成分反映综合信息的能力越强。2.3主成分分析的计算步骤计算协方差矩阵计算样品数据的协方差矩阵:工=(Sj)pxp其中,Sij=1、n工(Xki—Xi)(Xkj—Xj),(i,j=1,2,…,p)n-1k吕求出三的特征值及相应的特征向量求出协方差矩阵匕的特征值,i_,2「」p.O及相应的正交化单位特征向量:勺1“a1=a21■,a2-a229',...,a0P1J0P2」Paipa2p<aPP丿则X的第i个主成分为Fi=a「X,i=1,2, ,p(3)选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率p■-k解释主成分Fi所反映的信息量的大小,m的确定以累计贡献率m pG(m)-' ■i/》氷iT k=1达到足够大(一般在85%以上)为原则。(4)计算主成分得分计算n个样品在m个主成分上的得分:Fi二aM1a2iX2…apiXp,i=1,2/,m

(5)标准化实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,据变换:常用方法是将原始数据标准化,即做如下数XjXj—Xj影响。消除数据的量纲有很多方法,据变换:常用方法是将原始数据标准化,即做如下数XjXj—XjSj=1,2,…,n;j=1,2,…,P其中,_1nX_1nXj Xij,ni二标准化后的数据阵记为标准差为1,数据无量纲2SjZ(Xj-Xj)2,j=1,2,…,P,n-1i4X*,其中每个列向量(标准化变量)的均值为 0,标准化后变量的协方差矩阵(CovarianeeMatrix)7=(sij)pp,即原变量的相关系数矩阵(CorrelationMatrix)R=(m)ppnn實 Xki—XizJ(Xti-Xi)2\n—1Xkj-'Xjn■-(Xtj-n實 Xki—XizJ(Xti-Xi)2\n—1Xkj-'Xjn■-(Xtj-Xj)11n—1—(Xti—'Xi)::._(Xtj—'Xj)此时n个样品在m个主成分上的得分应为:Fj-a1jX1 a2jX apjXp,j=1,2,,m

三、问题求解1.使用分析家”做主成分分析的步骤1) 在分析家”中打开数据集Mylib.xydj;2) 选择菜单“Statistics统计)””“Multivariate(多元分析)””“PrincipalComponents(主成分分析)”打开“PrincipalComponent对寸话框;3) 在对话框中输入主成分分析的变量,如图所示。5c图6-1多元分析对话框5cPrincipalComponentAnaIvsis:OCovarianceMatriPrincipalComponentAnaIvsis:OCovarianceMatrixA'CorralationMatrixPrincipalComponents;Variance=EigenvalueOVariance=1Campan日ntRotation:RotationOptIon®7FFTF,DGDNwwvarianceDivisDr:degreesoffreedomnumberofobservationssumofweightsOFsumofweightsMaximumRedundancyAnalysis:ORawVariance®StdVarianceC&nonicalDiscriminantAnalysis:SStdPooledVarianceOStdTotalVarianceat向量,单击“OKat向量,单击“OK按钮返回C:&nceI3)单击“Method按钮,在打开的对话框中可以选择计算协方差矩阵的特征

值或是计算相关系数矩阵的特征值。系统默认计算相关系数矩阵的特征值和特征4)单击“Outpu按钮,在打开的对话框(图左)中包括“DescriptiveStatistics选项、“BivariatePlots选项以及各种多元分析的选项。选中 “PrincipalComponent

Analysis复选框,单击下面的“PrincipalComponentOption按钮,”打开“PrincipalComponentOptions”对话框,选中“Eigenvectors复选框,取消Correlations(Structure复选框,如图右所示。@Multivariate(YXAnalysis复选框,单击下面的“PrincipalComponentOption按钮,”打开“PrincipalComponentOptions”对话框,选中“Eigenvectors复选框,取消Correlations(Structure复选框,如图右所示。@Multivariate(YX)Descripti^eStatistIcs^因UnivariateSSCPCSSCP□cov図曲RRCORRp-valuesCORRInversePairwiseCORR□PrincipeIComponentAnalysisPrincipalComponentOptions□CanoriicalCorrelationAneC^nonicaICorrektionOptionsBivariatePlots:ScatterPlatMatrix00^Pred.Conf.EIIipse□MaximumRedundanu*也nalysisMaxInumRedundancyOptIons□CanonicaIDiscriminantAnalysisCanonicaIDiscriminantOptionsCancel冬PrincipalComponentOptronsComponentTables:EisenvaIuesStdRegCoefs(Pattern)RawRegCoefsCQiiponentPlots:図First2Components□First3ComponentsutIAo123A.吐-moElgenvectors^Correlations(Structure)CovariiancesStdScoringCoefsRawScoringCoefs®ScatterPlotOBiplot(StdY)OBipIot(RawY)OutputComponents:□CdmponeritRotationRot&tionOptionsOKCanceIOK四、结果分析4.1相关系数矩阵SliplsSHtistlesXI X? 咫X4 X5 XEMean 70.14285714 73.59103673StD9.66578572 U.G359E73475.224489808J7921992110.832053127.9189288104.5918867 1110.795910422.5949492 22.0802G29变量的简单统计量CorreIationMatrixX1X2X3MSX1hooao0.209(0.138Cn.21320.10030.2831X20.20901.00000.18770.01360.3158-.0203X30.13900.1877L00000.17010.16760.9420X40.21320.01380.17011.00000.49200.3128X50.10080.31680.49201』测0.3189X8Q.2831-.02030.942Dn.31290.3139相关系数关系矩阵Eisenve1ueDifferenceProportionCumu1ati疣12,121571661.03736370Q.3E9S0.353621.084207960.QE624E2Q0.13070.534330.997961760J26292980.16630.700840.871678770.2822614G0J4530.045950.579427310.23427477Q.OSGG0.942560.345152540.05751,0000相关系数关系矩阵的特征值EigenvectorsPrinlPrirt2Prin3 Prin4PrinbPrinBX1Q.l牝0,4541?$ 0.7393000J46362-.2$ioeeX2«jeisi30胡砒垃? -.0BBB37 -.051723-.llSdOSD,J.1C93E需0.8B014I0,050250 0.497105 -.0432360.410627-,205B9£X4(L4B9B30-.395018 0.1636200.5484700.J393G2X50.4319600,085830 -.552875 -.096922-.2S9064-.eoasasX60.463241,388383 0.300W -.062561-.6671510,329446特征向量主成分分析:X=AF,其中,[0.3446250.1487210.4541790.739380]0.2618130.843332-0.066937-0.051728[F110.3618410.0502500.487105-0.643235F2A=|,F=0.469630-0.325477-0.3950130.153628F30.4919500.085830-0.552875-0.096822IF4一0.463241-0.3883890.300440-0.62561_

4.2协方差阵X1K?X3X4X5XEX4X5X1K?X3X4X5XEX4X556.720238122,951150551.52976193.3261054BL6215S8S-3.355867341.60751708L21Q687456.W926B7778.1538116S10.16S43BS192.4234594310,1594386510,0799320156.1357939192.4234694156.1857893485.3324330Cov»rianceMatrix协方差矩阵Eigenva1协方差矩阵Eigenva1ueDifferenceProport1onCinulat1ve11097.99017899.402190.54230.54232397.3960484.S97030.19670-73903S13.08801213.354130J5470.9SS8499.744822S.826S20.04930.9431EigenvaIjssoftheCovariainumMatrix特征值EigenvectorsPrinlPrih2PrlnSPrin4PrinEPrlnSPrinlPrih2PrlnSPrin4PrinEPrlnSXI0.03118?X20-034375X30.073061X40.756211X50.513429X60.3852210.094302-.080439-.0094380.2063210.12909?-.01884?-.450482-*462969-.0258880.834S500.873734-.199257XI0.03118?X20-034375X30.073061X40.756211X50.513429X60.3852210.094302-.080439-.0094380.2063210.12909?-.01884?-.450482-*462969-.0258880.834S500.873734-.199257C.S020630.5213720*248178-.013878-.002970-.124786-.459078-.3521190.2843790.7766900.9350S0-.4692940.0330120.078765-.006829-.156621-.0476910.147627特征向量特征向量主成分分析:X二AF,其中,0.081187 0.094302主成分分析:X二AF,其中,0.081187 0.0943020.034375 -0.0094380.073061 0.123097A=03758211 -0.4504820.513429 -0.0258880.385221 0.878784-0.0804390.205320-0.018842-0.4629690.834850-0.199257_FjF=|F2CovAriancftMatrixX2 X8XIXI97.333333317.009523012.0297G1917.309628874.578932014.218537412.029761914.210537476.96939735

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论