




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析在数学建模中的应用朱 宁2012年11月13日学习目的理解主成分分析的根本思想;会用SAS软件编写相关程序,对相关数据进展主成分分析;会用SAS软件编程结合主成分分析方法解决实际问题。学习要求理解主成分分析的根本原理,把握主成分分析的根本步骤;会用SAS软件编写相关程序,对相关数据进展分析处理和假设检验;3000字的小论文;精读一篇优秀论文。理论根底1析就是在这种降维的思想下产生的处理高维数据的方法。根本原理〔1〕.总体的主成分定义1.XXX1
,…,X2
)”为PZi
aX为X的第i主成分ii=1,2P,假设:a”a
ii当i>1时,a” ai j
0(j1,2,…i-1);Var(Z)
max Var(a”X)i a”a1,a”aj
定理1.XX1X2,…,Xp)”是P维随机向量,且DX)的特征值为…0,a,a,…,a
为相应的单位正交特征向量,则Xi主成分为1 2 p 1 2 pZa”X i1,,,p).i i定义2.我们称k
/
为主成分Z
的奉献率;又称
/k
为主成分ii1 k1 i1Z,…Z (m p)),diag(,…
)1 m ij 12 p
为aa
,…,a
是相应的单位正交特征向量,记正交矩阵1 2 p 1 2 pA(a,a
,…,a
ZZ
)”Z
a”(i1,2,…,p).则总体主成分有如1 2 p 1 p i i下的性质:1.D(Z),即P个主成分的方差为:Var(Zi互不相关的。
)i
(i1,2,…,p,且它们是性质2.
ii
,通常称i
为X的总方差〔或称总惯量。iii1 i1 i13.主成分Zk
Xi
的相关系数(Ziiii
X为i(Zk
,X) a i k ik
(ki1,2p )并把主成分Zk
Xi
的相关系数称为因子负荷量。
p2(
,X)pa2k ik
1(i1,2,…,p。k i 5.令
pi1
2(Z
,X)i
(k1,2,…,p).EXi
),Var(Xi
)2,即iX*X
E(X
)Xi
i1,,,p)ii iiiVar(X)iiX*X*,X*,…X*)”iVar(X)ii1 2 pRR动身求主成分,记主成分向量为Z*
Z*,…Z*)”Z*有与总体主成分相应的性质:1.D(Z**
diag(**,…*,其中*
1
p…*R的特征值。
1 2 p
1 2 p性质2.pii1
p.3.主成分Z*X*的相关系数(Z*,X*为k i k k(Z*,X*) *a* (ki1,2p)k k k ik其中a*
(a*
,…,a*
)”R对应于*的单位正交特征向量。k性质4.
1k pk 2(Z*,X*)p*(a*)2
1 (i1,2,…,p)
k k k ik性质5.
2(Z*,X*)
*(a*)2
* (k1,,,p)k k2.样本的主成分
k ik k1.X,X,…,Xn次观测数据阵X1 2 p样本相关阵R,且1Rn11
X”X(rij
)ppR
0aa
,…,a
1 2 pZj
1 2 pa”X (j1,,,p)j类似总体主成分,样本主成分也具有如下的性质:1.Z
1nn
Z
(z1
p
)”0〔由于X0,而Z”Z
0,
当ij,i j (n1) 当i=j.i上式说明当ij时,第i个主成分得分向量Zj个主成分得分向量Z是相互正交的。i jp
…+
i1
p。称k为样本主成分Zi p
的奉献率;又称1p
m为样本主成分Z,…,Z1
(mp的累计奉献率。性质3.样本主成分具有是残差平方和最小的优良性。根本步骤xx⑴数据标准化ij
ij S
, (i1,2,n;j1,2pS为第j列的方jj差;R;IR0求出按大小排列特征值
以及相应的特征向量e ;j j⑷选择前几个特征向量,确定主成分;根本命令主成分分析,其主要语句格式如下:Procprincomp <选项列表>;Var变量列表;Run;1〕Procprincomp功能如下:数据集。②out=2:命名一个输出SAS数据集,其中包含原始数据以及各主成分得分〔即各主成分的观测值。SAS数据集。④covariance(cov):要求从协方差矩阵动身作主成分分析,假设省略此选项,式的标准化,否则不宜使用此选项,应从相关矩阵动身作主成分分析。⑤N=n:指定要计算的主成分的个数,其默认值为参与分析的变量的个数。⑥prefix=nameSAS系统自动赐予各主成分名称分别为prin1,prin2,„„;假设“name=A1,A28个字符。〔2〕VARvariables;此句中的“variables”局部列出数据集中参与主成分分析的变量名称。假设省略此句,则被分析数据集中全部数值变量均参与分析。举例1】(中学生身体四项指标的主成分分析)在某中学随机抽取某年级30生,测量其身高〔X1、体重〔X2、胸围〔X3〕和坐高〔X4〔数据见教材P2777.4。试对这30datad721;cards;inputnumberx1-x4@@;cards;1148417278213934717631604977864149366779515945808661423166767153437683815043777991514277801013931687414029647412161477884158497883141403367771373166731615235737914947827918145357077160477487201564478851514273822214738737815739688024147306575157488088261513674801443668762814130677613932687330148387078;varx1-x4;procprincompdata=d721prefix=zout=o721;varx1-x4;runrun;procplotdata=o721;optionsps=32procplotdata=o721;plotz2*z1$number=”*”/href=-1href=2vref=0;runrun;procprocsortdata=o721;bybyz1;runrun;varnumberz1z2varnumberz1z2x1-x4;runrun;quitquit;过程由相关阵动身进展主成分分析。由下面的相关阵来看,〔也就是说用较96.36%,因此只需用两个主成分就能很好地概括这组数据。另由第四个特征值近似为此只需用两个主成分就能很好地概括这组数据。另由第四个特征值近似为0,可Z0.496966X*Z0.496966X*0.514571X*0.480901X*0.506928X*1 1 2 3 4Z 0.543213X*0.210246X*0.724621X*0.368294X*2 1 2 3 40.5四周,而且都是正值,它反映学生的魁梧程度。44从其次主成分得分对第一主成分得分的散布图看,很直观地看出,按学生30名学生大约分三组〔以第一主成分得分值为-12为从其次主成分得分对第一主成分得分的散布图看,很直观地看出,按学生30名学生大约分三组〔以第一主成分得分值为-12为分界点〕。每一组包括哪几名学生可由每一给散点旁边的序号可以得知。训练题1138表1 某市工业部门13个行业8项指标的数据全员劳动百元固定能源利用年末固定工业总产资金利税标准燃料职工人数产率原资产值效果资产净值值率消费量〔人〕〔元/人实现产值〔万元/〔万元〕〔万元〕〔%〕〔吨〕年〕〔元〕吨〕1(冶金)90342524551010911927282.00016.1001974350.1722(电力)4903197320351031334.2007.1005920770.0033(煤炭)6735211393767178036.1008.2007263960.0034(化学)4945436241815572250498.10025.9003482260.9855(机械)1391902035052158981060993.20012.6001395720.6286(建材)122151621910351638262.5008.7001458180.0667(森工)23726572810312329184.40022.200209210.1528(食品)11062230785493523804370.40041.000654860.2639(纺织)17111239075210821796221.50021.500638060.27610(缝纫)12063930612615586330.40029.50018400.43711(皮革)21505704620010870184.20012.00089130.27412(造纸)525161551038316875146.40027.500787960.15113(文教艺术用1434113203193961469194.60017.80063541.574品)〔综合变量15%,应取几个主成分;并对这几个主成分进展解释;利用主成分得分对13个行业进展排序和分类。83对所选取的主成分作出解释。变量企业号净产值利润率固定资产利润变量企业号净产值利润率固定资产利润总产值利润率销售收入利润产品成本利润物耗利润率人均利润率流淌资金利润率率率率140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.6【模型一】美国各种类型犯罪的主成分模型〔1数据进展主成分分析,并分析犯罪特征。1:美国各个州的各种类型犯罪率数据MurderRapeRobberyAssaultBurglaryLarcenyAutoALABAMA14.225.296.8278.31135.51881.9280.7ALASKA10.851.696.8284.01331.73369.8753.3ARIZONA9.534.2138.2312.32346.14467.4439.5ARKANSAS8.827.683.2203.4972.61862.1183.4CALIFORNIA11.549.4287.0358.02139.43499.8663.5COLORADO6.342.0170.7292.91935.23903.2477.1CONNECTICUT4.216.8129.5131.81346.02620.7593.2DELAWARE6.024.9157.0194.21682.63678.4467.0FLORIDA10.239.6187.9449.11859.93840.5351.4GEORGIA11.731.1140.5256.51351.12170.2297.9HAWAII7.225.5128.064.11911.53920.4489.4IDAHO5.519.439.6172.51050.82599.6237.6ILLINOIS9.921.8211.3209.01085.02828.5528.6INDIANA7.426.5123.2153.51086.22498.7377.4IOWA2.310.641.289.8812.52685.1219.9KANSAS6.622.0100.7180.51270.42739.3244.3KENTUCKY10.119.181.1123.3872.21662.1245.4LOUISIANA15.530.9142.9335.51165.52469.9337.7MAINE2.413.538.7170.01253.12350.7246.9MARYLAND8.034.8292.1358.91400.03177.7428.5MASSACHUSETTS3.120.8169.1231.61532.22311.31140.1MICHIGAN9.338.9261.9274.61522.73159.0545.5MINNESOTA2.719.585.985.81134.72559.3343.1MISSISSIPPI14.319.665.7189.1915.61239.9144.4MISSOURI9.628.3189.0233.51318.32424.2378.4MONTANA5.416.739.2156.8804.92773.2309.2NEBRASKA3.918.164.7112.7760.02316.1249.1NEVADA15.849.1323.1355.02453.14212.6559.2NEWHAMPSHIRE3.210.723.276.01041.72343.9293.4NEWJERSEY5.621.0180.4185.11435.82774.5511.5NEWMEXICO8.839.1109.6343.41418.73008.6259.5NEWYORK10.729.4472.6319.11728.02782.0745.8NORTHAROLINA10.617.061.3318.31154.12037.8192.1NORTHDAKOTA0.99.013.343.8446.11843.0144.7OHIO7.827.3190.5181.11216.02696.8400.4OKLAHOMA8.629.273.8205.01288.22228.1326.8OREGON4.939.9124.1286.91636.43506.1388.9PENNSYLVANIA5.619.0130.3128.0877.51624.1333.2RHODEISLAND3.610.586.5201.01489.52844.1791.4SOUTHCAROLINA11.933.0105.9485.31613.62342.4245.1SOUTHDAKOTA2.013.517.9155.7570.51704.4147.5TENNESSEE10.129.7145.8203.91259.71776.5314.0TEXAS13.333.8152.4208.21603.12988.7397.6UTAH3.520.368.8147.31171.63004.6334.5VERMONT1.415.930.8101.21348.22201.0265.2VIRGINIA9.023.392.1165.7986.22521.2226.7WASHINGTON4.339.6106.2224.81605.63386.9360.3WESTVIRG
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业节能减排的技术与政策探讨
- 工业电机故障诊断与维护策略
- 工业设计在产品创新中的价值
- 工业节能的智慧能源管理
- 工业设计与产品创新表达
- 工业设计产品外观的色彩搭配与创新性
- 工作环境对教师工作满意度的影响
- 工厂企业消防安全管理
- 工程机械设备安全防护技术
- 工厂环境与职业健康安全培训
- 利用对称性计算图示结构,作弯矩图EI=常数
- 成都市2022级(2025届)高中毕业班摸底测试(零诊)化学试卷(含答案)
- 2024届广东省广州市白云区小升初必考题数学检测卷含解析
- 中医基础理论考试题库及答案五
- 开票税点自动计算器
- 国家开放大学电大《10861理工英语4》期末终考题库及答案
- 广东省中山市2022-2023学年高一年级下册期末统一考试物理试题含解析
- 2024年横州茉莉花投资集团有限责任公司招聘笔试冲刺题(带答案解析)
- 蔬菜栽培学智慧树知到期末考试答案章节答案2024年浙江大学
- JB-T 14320-2022 氧气用止回阀
- 专题强化三 异面直线、线面角和二面角技巧-2021-2022学年高一数学【考题透析】满分计划系列(人教A版2019必修第二册)
评论
0/150
提交评论