




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析类型:一种处理高维数据的方法。降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。一、总体主成分定义设X’,X2,…,X为某实际问题所涉及的p个随机变量。记1 2 px=(xX •…,Xp)T,其协方差矩阵为122=&) =E[(X—E(X))(X—E(X))t],ijpxp它是一个p阶非负定矩阵。设+lX
1pp+lX2pp=1tx=i+lX
1pp+lX2pp11 1111221)=ItX=lX+1X1)V22 211222•I+1Xppp=ItX=lX++1Xppplpp p11p22"TOC\o"1-5"\h\z则有 ……Var(Y)=Var(lTX)=lT2l,i=1,2,...,p,i i iiCov(Y,Y)=Cov(lTX,lTX)=lT2l,j=1,2,...,p.ij i j ij第i个主成分:一般地,在约束条件lTl=1••ii
Cov(Y,Y)=ItEl=0,k=1,2,・・・,i一1.ikik下,求1•使Var(Y)达到最大,由此1所确定的iiiY=ItXii称为XX…,X的第i个主成分。12p总体主成分的计算设E是X=(X,X,・・・,X)T的协方差矩阵,E的特征值及相应的正交单位化特12p征向量分别为九>X> >%>012p及e,e,e12e,=©tX=eX+eX+i i=©tX=eX+eX+i i11i223)+eX,i=1,2,・・・,p,ipp此时Var(Var(Y)=eTEeiiiCo^v(Y,Y)=eTEe=0,i丰k・ikik1.3总体主成分的性质1.3.1主成分的协方差矩阵及总方差记Y=(Y,Y,・・・,Y)t为主成分向量,则Y=PtX,其中p=(e,e,・・・,e),且12p12pCovY)=Cov(PtX)=PtEP=A=Diag(k,九,・・・,九),12p由此得主成分的总方差为ILvar(Y)=刀九=tr(PtEP)=tr(EPPt)=tr(E)=^Var(X),i i ii=1 i=1 i=1即主成分分析是把p个原始变量X/X2,…,X的总方差12p
艺Var(X)ii=1分解成p个互不相关变量YY…,Y的方差之和,即12p才Var(Y)ii=1而Var(Y)=九。kk第k个主成分的贡献率:第k个主成分的贡献率:i-才九ii=1另九前m个主成分累计贡献率:—[,它表明前m个主成分Yp丫异•…,Z1 2九ii=1Y综合提供XX…,X中信息的能力。m 1 2 p主成分Yi与变量Xj的相关系数ij由于Y=PtX,故X=PY,从而X=eY+eY+ +eY,j1j1 2j2 pjpCov(Y,X)=九e・ij iij由此可得Y与X的相关系数为…ijYi,XjYi,XjCov(Y,X) 九e=£4)1.4标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令X*iX*i其中卩=E(X),Q=Var(X)・这时TOC\o"1-5"\h\z• • •• •i i ii iX*=(X爲X*,・•・,X*)T12p的协方差矩阵便是X=(X,X X)T12p的相关矩阵p=(p),其中jpxp6)Cov(X,X)p=E(X*X*)= ij6)利用X的相关矩阵p作主成分分析,有如下结论:设X*=(X*,X*,・・・,X*)T为标准化的随机向量,其协方差矩阵(即X的相关1 2 p矩阵)为p,则X*的第i个主成分为Y*=(eY*=(e*)TX*=e*X1A1+e*X2-^2+'' Z1 代诅“22=^i+e*i211X+e*—p ppp7)并且TOC\o"1-5"\h\zILvar(Y*)=刀九*=l^Var(X*)=p, (8)i i ii=1 i=1 i=1其中X* >X*> >X*> 0为p的特征值,e* =(e*,e*,・・・,e*)t为相应于特征值1 2 p ii1i2ipX*的正交单位特征向量。i第i个主成分的贡献率:t;i—pPi—p前m个主成分的累计贡献率:Y*与X*的相关系数为p=、:九*e*。i i Y*,X* i•
二、样本主成分前面讨论的是总体主成分,但在实际问题中,一般E(或p)是未知的,需要通过样本来估计。设=(x,x,・・・,x)t,i=1,2,.・・,n.i i1 i2 ip为取自12X12X)Tp的一个容量为n的简单随机样本,则样本协方差矩阵及样本相关矩阵分别S=(s)=1-£(x-x)(x-X)T,ijpxpn—1kkTOC\o"1-5"\h\z(k=\ (9)sR=(尸)=Ji ,ijpxp JssHHj丿其中x=(x,x,・・・,x)t,x2pjniji=1s= 刀(x—x)(x—x),i,j=1,2,・・・,p・ij n-1 kiikjjk=1分别以S和R作为Z和p的估计,然后按总体主成分分析的方法作样本主成分分析。
三、 例题某市为了全面分析机械类个企业的经济效益,选择了8个不同的利润指标,14企业关于这8个指标的统计数据如下表所示,试进行主成分分析表1 14家企业的利润指标的统计数据变量企业序号净产值利润率(%)xii固定资产利润率(%)x总产值利润率(%)Xi2销售收入利润率(%)叫3产品成本利润率(%)x物耗利润率(%)叫6人均利润率叫7(千元/人)流动资金利润率(%)x140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.6解:样本均值向量为:x=(27.97910.9509.1008.54311.06414.6141.55214.686)7,样本协方差矩阵为:168.33360.35745.75741.21557.90671.6728.602101.62037.20716.82515.50523.53529.0294.78544.02324.84324.33536.47849.2783.62939.41024.42336.28349.1463.67538.71856.04675.4045.00259.723103.0186.82174.5231.137 6.722102.707
168.3360.35745.75841.21657.90671.6728.602101.6260.35737.20716.82515.50523.53529.0294.784644.02345.75816.82524.84324.33536.47849.2783.62939.4141.21615.50524.33524.42336.28349.1463.674738.71857.90623.53536.47836.28356.04675.4045.002259.72371.67229.02949.27849.14675.404103.026.821574.5238.6024.78463.6293.67475.00226.82151.1376.7217101.6244.02339.4138.71859.72374.5236.7217102.71由于S中主对角线元素差异较大,因此我们样本相关矩阵R出发进行主成分分析。样本相关矩阵R为:R=10.762660.707580.6428110.553410.51434R=10.762660.707580.6428110.553410.5143410.987930.596170.544260.515380.468880.97760.974090.980710.979810.9923510.621780.772850.735620.712140.682820.780190.697350.773060.626630.787180.63030.7244910.622021矩阵R的特征值及相应的特征向量分别为:特征值特征向量6.13660.321130.295160.389120.384720.379550.370870.319960.355461.0421-0.4151 -0.597660.229740.278690.316320.37151 -0.27814-0.156840.43595-0.451230.10303-0.0398950.053874-0.0372920.0751860.77059-0.424780.22037-0.668170.36336-0.22596-0.110810.148740.069353-0.134950.559490.15191-0.0382170.624350.12273-0.0369090.159280.21062-0.43006-0.581050.0088274-0.101670.13584-0.158110.86226-0.25204-0.34506-0.13934 -0.0265570.00296240.1596-0.061134-0.539660.0466060.7609-0.278090.06203-0.131260.00122380.19295-0.031987-0.641760.11002-0.253970.68791-0.006045-0.0054031
R的特征值及贡献率见下表特征值贡献率(%)累计贡献率(%)6.13660.767080.767081.04210.130270.897340.435950.0544940.951840.220370.0275470.979380.151910.0189880.998370.00882740.00110340.999480.00296240.00037030.999850.00122380.000152971前3个标准化样本主成分中各标准化变量前3个标准化样本主成分类及贡献率已达到95.184%,故只需取前三个主成分即可。前3个标准化样本主成分中各标准化变量x*=墾鼻(i=1,2,・・・,8)前的,汽系数即为对应特征向量,由此得到3个标准化样本主成分为y=0・32113x*+0・29516x*+0・38912x*+0.38472x*+0・37955x*+0・37087x*+0・31996x*+0・35546x*12345678Iy=-0・4151x*-O・59766x*+0・22
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川资阳中学2024-2025学年高三5月高考冲刺英语试题含解析
- 江苏省泰州市实验小学2024-2025学年数学四下期末质量跟踪监视模拟试题含解析
- 四川省乐山市峨眉山市第二中学2025年高三4月联考物理试题含解析
- 营口市大石桥市2024-2025学年数学五年级第二学期期末达标测试试题含答案
- 专业技术人员聘用合同
- 2025版企业间服务与咨询合同范本
- 服务供应商合同范本
- 餐饮业食材供应合同模板
- 儿童歌曲钢琴简易伴奏编配 课件 第1-3章 和弦-五线谱、简谱互译
- 1生活在新型民主国家 公开课一等奖创新教学设计(表格式)
- 委托代签工程合同协议
- 无线网络优化技术探讨试题及答案
- 笔算加法(课件)-一年级下册数学人教版
- 2024年广东公需科目答案
- 小白兔拔萝卜课件
- 房树人心理画绘画分析(附图)-课件
- 2023年河南推拿职业学院单招考试面试模拟试题及答案解析
- 现代生物技术与人类健康课件
- 篮球裁判法(裁判手势)课件
- 辞职报告辞职信
- 2021年新湘教版九年级数学中考总复习教案
评论
0/150
提交评论