




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2)2)主成分分析类型:一种处理高维数据的方法。降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。一、总体主成分1.1定义设X1,X2,,X为某实际问题所涉及的p个随机变量。记12pX=(X1,X2,,Xp)T,其协方差矩阵为1
2、2,=()=E(XE(X)(XE(X)T,jpxp它是一个p阶非负定矩阵。设+1X1pp+1X2pp1)=ItX=lX+1X+TOC o 1-5 h z11111122=ItX=lX+1X+22211222Y=ItX=lX+1X+1XPPP11P22.则有Var(Y)=Var(ItX)=It,l,i=1,2,p,iiiiCov(Y,Y)=Cov(ItX,ItX)=It,l,j=1,2,p.ijijij第i个主成分:般地,在约束条件ItI=1ii5)Cov(Y,Y)ItEl0,k1,2,i1.ikik下,求1.使Var(Y)达到最大,由此1所确定的iiiYlTXii称为XX,X的第i个主成分。1
3、2p总体主成分的计算设E是X(X,X,X)t的协方差矩阵,E的特征值及相应的正交单位化特12p征向量分别为九九X012p及e,e,e,12p则X的第.个主成分为TOC o 1-5 h zYeTXeX+eX+eX,i=1,2,p,(3)iii11i22ipp此时Var(Y)eTEe=Xi=,2,J?,p,/iiiiCov(Y,Y)eTEe0,i丰kikik总体主成分的性质1.3.1主成分的协方差矩阵及总方差记Y(Y,Y,Y)t为主成分向量,则Y=PtX,其中p(e,e,e),且12p12pCov(Y)Cov(PtX)PtEP=九*12九*0为p的特征值,p九*的正交单位特征向量。ie*,(e*,
4、e*ii1i2,e*)t为相应于特征值ip九*;tp前m个主成分的累计贡献率:艺九*i;pY*与X*的相关系数为iipY*,X*iji-1*ij二、样本主成分前面讨论的是总体主成分,但在实际问题中,一般(或p)是未知的,需要通过样本来估计。设x,(x,x,.,x)T,i,1,2,.,n.ii1i2ip为取自的一个容量为n的简单随机样本,则样本协方差矩阵及样本相关矩阵分别S=(s)=(x一x)(x一x)t,9)jpxpn1kkk=1R=(r)=1jI,5x2爲丿其中ni,1x,(x,X,,x)t,x,x,j,1,2,.,p,12pjnijs1(xx)(xx),i,j=1,2,.,p.ijn1ki
5、ikjjk,1分别以S和R作为和p的估计,然后按总体主成分分析的方法作样本主成分分析。三、例题某市为了全面分析机械类个企业的经济效益,选择了8个不同的利润指标,14企业关于这8个指标的统计数据如下表所示,试进行主成分分析表114家企业的利润指标的统计数据变量企业序号净产值利润率()叫1固定资产利润率(%)x总产值利润率()x销售收入利润率(%)叫3产品成本利润率()物耗利润率(%)%人均利润率叫7(千元/人)流动资金利润率()%140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50
6、.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.4
7、8.39.813.32.12617.11438.59.111.39.512.216.41.32711.6解:样本均值向量为:元(27.979109509.100854311.06414.6141.55214.686)t,样本协方差矩阵为:168.33360.35745.75741.21557.90671.6728.602101.62037.20716.82515.50523.53529.0294.78544.02324.84324.33536.47849.2783.62939.41024.42336.28349.1463.67538.71856.04675.4045.00259.723103.
8、0186.82174.5231.1376.722102.707168.3360.35745.75841.21657.90671.6728.602101.6260.35737.20716.82515.50523.53529.0294.784644.02345.75816.82524.84324.33536.47849.2783.62939.4141.21615.50524.33524.42336.28349.1463.674738.718S57.90623.535364783628356.046754045.00225972371.67229.02949.27849.14675.40410302
9、6.821574.5238.6024.78463.6293.67475.00226.82151.1376.7217101.6244.02339.4138.71859.72374.5236.7217102.71由于S中主对角线元素差异较大,因此我们样本相关矩阵R出发进行主成分分析。样本相关矩阵R为:R0.762660.707580.642810.596170.544260.621780.7728510.553410.514340.515380.468880.735620.7121410.987930.97760.974090.682820.7801910.980710.97980.697350.
10、7730610.992350.626630.7871810.63030.72449110.622021矩阵R的特征值及相应的特征向量分别为:特征值特征向量6.13660.321130.295160.389120.384720.379550.370870.319960.355461.0421-0.4151-0.597660.229740.278690.316320.37151-0.27814-0.156840.43595-0.451230.10303-0.0398950.053874-0.0372920.0751860.77059-0.424780.22037-0.668170.36336-0.
11、22596-0.110810.148740.069353-0.134950.559490.15191-0.0382170.624350.12273-0.0369090.159280.21062-0.43006-0.581050.0088274-0.101670.13584-0.158110.86226-0.25204-0.34506-0.13934-0.0265570.00296240.1596-0.061134-0.539660.0466060.7609-0.278090.06203-0.131260.00122380.19295-0.031987-0.641760.11002-0.2539
12、70.68791-0.006045-0.0054031R的特征值及贡献率见下表特征值贡献率()累计贡献率()6.13660.767080.767081.04210.130270.897340.435950.0544940.951840.220370.0275470.979380.151910.0189880.998370.00882740.00110340.999480.00296240.00037030.999850.00122380.000152971前3个标准化样本主成分类及贡献率已达到95.184%,故只需取前三个主成分即可。前3个标准化样本主成分中各标准化变量x*=i(i=1,2,8
13、)前的系数即为对应特征向量,由此得到3个标准化样本主成分为,j=0.32113x*+029516x*+0.38912x*+0.38472x*+0.37955x*+0.37087x*+0.31996x*+0.35546x*12345678j=-0.4151x*-0.59766x*+0.22974x*+0.27869x*+0.31632x*+0.37151x*-0.27814x*-0.15684x*12345678j=-0.45123x*+0.10303x*-0.039895x*+0.053874x*-0.037292x*+0.075186x*+0.77059x*-0.42478x*12345678注意到,yi近似是8个标准化变量x*=x(i=1,2,.q的等权重之和,是反映各企业总效应大小的综合指标,丫的值越大,则企业的效益越好。由于y】的贡献率高达76.708%,故若用y】的得分值对各企业进行排序,能从整体上反映企业之间的效应差别。将S中sii的值及x中各x的值以及各i企业关于X的观测值代入兀的表达式中,可求得各企业人的得分及其按其i11得分由大到小的排序结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 口腔助理年度工作总结
- 药物临床试验相关缩写
- 2025年一建《机电工程管理与实务》考试质量控制与验收真题演练题库试题
- 节能减排知识
- 2025年统计学期末考试题库:深度解析统计预测与决策策略
- 2025年养老护理员专业知识测试卷(护理护理)
- 2025年安全生产标准化建设应急处理试题库
- 2025年大学统计学期末考试:统计调查误差控制与数据质量保证试题
- 公共服务满意度调查的基准
- 创新创业部部门总结
- 物联网安全漏洞挖掘与修复-洞察分析
- 2024年北京高考英语试题及答案详解
- DB45T 2153-2020 大型活动气象服务规范
- GA/T 2144-2024法庭科学涉火案件常见助燃剂及其残留物检验技术导则
- 特殊教育学校教导处2024第一学期工作计划
- 2025年政府预算支出经济分类科目说明表
- 手术室剖宫产护理教学查房范文
- 【MOOC】机器学习-北京理工大学 中国大学慕课MOOC答案
- 《森林防火安全教育》主题班会 课件
- 《类风湿专病数据集技术规范》 编制说明
- 麻醉机故障应急预案演练
评论
0/150
提交评论