版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析的基本思想主成分分析的基本思想主成分数学模型与几何解释主成分数学模型与几何解释主成分的推导主成分的推导主成分分析的应用主成分分析的应用主成分回归主成分回归主成分分析,是一种通过主成分分析,是一种通过降维降维来简化数据结构的方法:来简化数据结构的方法:把把多个多个变量化为变量化为少数少数几个综合变量(综合指标)几个综合变量(综合指标) ,而这几个综合变量可以反映原来多个变量的而这几个综合变量可以反映原来多个变量的大部分大部分信信息息, ,(85%85%以上),所含的信息又互不重叠,即各个指以上),所含的信息又互不重叠,即各个指标它们之间要相互标它们之间要相互独立独立,互不相关互不相关。
2、 主成分分析主要起着主成分分析主要起着降维降维和和简化数据结构简化数据结构的作用。的作用。这些综合变量就叫这些综合变量就叫因子因子或或主成分主成分,它是不可观测的,它是不可观测的,即它不是具体的变量即它不是具体的变量, ,只是几个指标的只是几个指标的综合综合。1 基本思想例:小学各科成绩的例:小学各科成绩的评估评估可以用下面的可以用下面的综合综合成绩来成绩来体现:体现:a1a1语文语文a2a2数学数学a3a3自然自然a4a4社会科学社会科学 确定权重系数的过程就可以看作是确定权重系数的过程就可以看作是主成分主成分分分析的过程,得到的加权成绩总和就相对于析的过程,得到的加权成绩总和就相对于新的综
3、新的综合变量合变量主成分主成分 主成分分析法是一种常用的基于变量主成分分析法是一种常用的基于变量协方差矩阵协方差矩阵对信息进行处理、压缩和抽提的有效方法。对信息进行处理、压缩和抽提的有效方法。为什么要根据方差确定主成分?为什么要根据方差确定主成分?情形情形II II下总分的方差为下总分的方差为0 0,显然不能反映三个学生各,显然不能反映三个学生各科成绩各有所长的实际情形,而科成绩各有所长的实际情形,而红色红色标记的变量对应标记的变量对应的方差最大,可反映原始数据的大部分信息的方差最大,可反映原始数据的大部分信息对对主成分的要求主成分的要求 上例可见,用上例可见,用总分总分 有时可以反映原分数表
4、的情况,保留原有信息;有时可以反映原分数表的情况,保留原有信息; 有时则把信息丢尽,不能反映原理的情况和差异。有时则把信息丢尽,不能反映原理的情况和差异。 根据总分所对应的根据总分所对应的方差方差可以确定其代表了多大比可以确定其代表了多大比例的原始数据(分数)信息。例的原始数据(分数)信息。 一般来说,我们希望能用一个或少数几个综合指一般来说,我们希望能用一个或少数几个综合指标(分数)来标(分数)来代替代替原来分数表做统计分析,而且希原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具望新的综合指标能够尽可能地保留原有信息,并具有有最大的方差。最大的方差。 2 2 数学模型
5、与几何解释数学模型与几何解释 假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p p个指标,个指标,我们把这我们把这p p个指标看作个指标看作p p个随机变量,记为个随机变量,记为X1,X2,Xp,主成分分析就是要把这主成分分析就是要把这p p个指标的问题,转变为讨个指标的问题,转变为讨论论 m m 个新个新的指标的指标F1,F2,Fm (m |t|Intercept x1X2x31111-10.12799-0.051400.586950.286851.212160.070280.094620.10221-8.36-0.73 6.202.810.0001 0.48830.00040
6、.0263Parameter EstimatesDependent Mean 21.89091R-Square0.9919Root MSE 0.48887Adj R-Sq0.9884Summary of FitF1F2F3x1X2x30.70630.04350.7065-0.03570.9990-0.02580.70700.0070-0.7072EigenvectorsEigenvalueDifference ProportionCumulativePCR1PCR2PCR31.9992 0.99820.00261.00100.99550.6664 0.3327 0.00090.6664 0.9
7、9911.0000Eigenvalues of the Correlation MatrixF1=0.7063x1+0.0435x2+0.7065x3F2=-0.0357x1+0.9990 x2-0.0258x3 Obs x1 x2 x3 y* F1 F2 F3 1 -1.50972 0.54571 -1.53319 -1.31852 -2.12589 0.63866 0.020722 2 -1.11305 0.48507 -1.20848 -1.20848 -1.61893 0.55554 0.071113 3 -0.76971 -0.12127 -0.80140 -0.63625 -1.1
8、1517 -0.07298 0.021730 4 -0.63637 -0.12127 -0.62209 -0.61424 -0.89430 -0.08237 -0.010813 5 -0.45970 -1.33395 -0.37008 -0.68027 -0.64421 -1.30669 -0.072582 6 -0.12970 -0.66697 -0.09869 -0.32813 -0.19035 -0.65915 -0.026553 7 0.25031 -0.72761 0.30355 0.17807 0.35962 -0.74367 -0.042781 8 0.59365 1.39458
9、 0.69610 1.01440 0.97180 1.35406 -0.062863 9 1.05032 1.03078 1.09350 1.36654 1.55932 0.96405 -0.023574 10 1.24366 1.09141 1.19042 1.25649 1.76700 1.01522 0.044988 11 1.48033 -1.57648 1.35035 0.97038 1.93110 -1.66266 0.080613 SourceDFSum of SquaresMean SquareF 值值ProbFModelErrorTotal28109.88280.117210
10、.00004.94140.0147337.23020.0001Analysis of VarianceVariableDFEstimateStandard Errort 值值Prob |t|F1F2110.69000.19130.02710.038325.4859 4.99300.00010.0011Parameter Estimates2119130. 068998. 0FFy*3*2*14825. 02211. 04804. 0 xxxy3211062. 06091. 00727. 0130. 9xxxy标准化后的变量63.2073.1394826. 065. 13 . 322. 0305
11、9.1944805. 05437. 489.21321xxxy把标准化变量还原,代入得:影响人们外出旅游的因素有居民收入、交通、闲影响人们外出旅游的因素有居民收入、交通、闲暇时间、旅游目的地治安状况、旅游目的地的环暇时间、旅游目的地治安状况、旅游目的地的环境卫生以及接待能力等等。境卫生以及接待能力等等。 由于资料的可得性和代表性,选择以下变量由于资料的可得性和代表性,选择以下变量。 国内旅游人数(百万人)y农村居民人均纯收入(元)1x城镇居民人均可支配收入(元)2x公路线路里程(万公里) 3x数据见sasuser.tourmx例例2 国内旅游人数模型国内旅游人数模型VariableDFEsti
12、mateStandardErrort 值值Prob |t|Intercept IncomeonIncomeocHighway1111417.8201-0.13810.1737-3.000974.02300.06990.03020.81925.6445-1.97595.7589-3.66330.0005 0.08360.00040.0064Parameter EstimatesDependent Mean 558.1017R-Square0.9920Root MSE 19.2003Adj R-Sq0.9890Summary of FitF1F2F3x1X2x30.58100.59180.5588
13、-0.5167-0.26230.81500.6289-0.76220.1533EigenvectorsEigenvalueDifference ProportionCumulativePCR1PCR2PCR32.8088 0.18500.00622.62380.17880.9363 0.06170.00210.9363 0.99791.0000Eigenvalues of the Correlation MatrixF1=0.5810 x1+0.5918x2+0.5588x3F2=-0.5167x1-0.2623x2+0.8150 x3 SourceDFSum of SquaresMean S
14、quareF 值值ProbFModelErrorTotal291110.71130.288711.00005.35560.0321166.93280.0001Analysis of VarianceVariableDFEstimateStandard Errort 值值Prob |t|F1F2110.5767-0.46200.03220.125617.8977 -3.67940.00010.0051Parameter Estimates214620. 05767. 0FFy*3*2*11741. 03231. 03213. 0 xxxy标准化后的变量36.1990.1211741. 084.1
15、86566.41673231. 026.67063.15753213. 091.18210.558321xxxy把标准化变量还原,代入得:3216448. 103167. 008768. 08482.286xxxy主成分的改进1、无量纲化的改进无量纲化的改进从标准化的数据提取的主成分,实际上只包含了各指标间从标准化的数据提取的主成分,实际上只包含了各指标间相互影响这一部分信息,不能准确反映原始数据所包含的相互影响这一部分信息,不能准确反映原始数据所包含的全部信息。全部信息。)var(),cov(),cov(),cov()var(),cov(),cov(),cov()var()(21221212
16、11pppppxxxxxxxxxxxxxxxXVarRxxxxyxxxxxxxpppp1),(),(),(1),(),(),(121212121改进原始数据的无量纲化方法改进原始数据的无量纲化方法u 均值化方法均值化方法ijijijixxxx均值化后,数据的协方差矩阵均值化后,数据的协方差矩阵S 中的元素中的元素) 1)(1(11kikjijnijkxxxxnunikjkikjijxxxxxxn1)(1kjjkxxs均值化后,数据的协方差矩阵均值化后,数据的协方差矩阵2221122222212211121122111Spppppppppppxsxxsxxsxxsxsxxsxxsxxsxs对角线
17、上是原变量标准差系数的平方,其他位置对角线上是原变量标准差系数的平方,其他位置上是变量两两之间的相互关系。上是变量两两之间的相互关系。均值化处理后的协方差矩阵不仅消除了指标量纲与均值化处理后的协方差矩阵不仅消除了指标量纲与数量级的影响,还能包含原始数据的全部信息。数量级的影响,还能包含原始数据的全部信息。2、广义主成分分析广义主成分分析 非线性主成分非线性主成分)()()(2211XfaXfaXfaFpp有许多实际问题,其观测数据阵并非线性结构,而呈现非线性结构。对于非线性结构的观测阵,应根据指标变量的具体的非线性结构,选用适当的曲面作坐标平面。采用原指标的非线性函数构造综合指标。由Grand
18、esikan(1966)和Wilkinson(1968)提出。他们提议用原变量 的广义线性式pXXX,21pXXXX,21其中)(,),(1XfXfp为X的已知函数形式kjXfaXfaXfaFppjjjj, 2 , 1),()()(2211对于给定的观测数据阵,若采用线性主成分分析效果很差(S或R的特征值取值分散,指标压缩很少或分析结果严重违反客观实际),可采用非线性主成分分析。计算Y的观测数据阵 . pnijYY根据已给定的函数关系式)(XfYiipi, 2 , 1对Y求线性主成分,求得 k 个线性主成分广义主成分分析的关键在于确定非线性函数)(Xfi究竟取何种形式,应视具体情况,结合有关if专业理论或实践经验给定。成分向量成分向量的广义主成分分析的广义主成分分析piXi., 2 , 10) 1 (设随机向量设随机向量 满足下列条件:满足下列条件:pXXXX,211) 2(1piiX从而每一分量可视为某一成分的含量,则称从而每一分量可视为某一成分的含量,则称X为为成分向量。成分向量。其观测数据阵其观测数据阵npnnpppnxxxxxxxxxX212222111211称为合成数据称为合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乐器修理或维护行业相关项目经营管理报告
- 矿车推杆项目营销计划书
- 婴儿用安抚奶嘴产品供应链分析
- 抽气机产品供应链分析
- 纸礼品袋商业机会挖掘与战略布局策略研究报告
- 药用苯酚项目营销计划书
- 废弃建筑材料回收利用行业市场调研分析报告
- 废纸篮产品供应链分析
- 微生物除臭剂行业营销策略方案
- 增强现实(AR)游戏行业相关项目经营管理报告
- 2024年抗菌药物处方权资格考试试题
- SF-36生活质量调查表(SF-36-含评分细则)
- 人类普遍交往与世界历史的形成发展
- 宣传片基本报价单三篇
- (正式版)SHT 3115-2024 石油化工管式炉轻质浇注料衬里工程技术规范
- 广东广州南沙区总工会招聘社会化工会工作者笔试真题2023
- 2024春期国开电大法学本科《国际法》在线形考(形考任务1至5)试题及答案
- 人生规划主题班会总结与反思
- 护理实习生实习汇报
- 混凝土搅拌站安全风险分级管控资料
- 血管麻痹综合征
评论
0/150
提交评论