第四章-系统模型与模型化技术课件_第1页
第四章-系统模型与模型化技术课件_第2页
第四章-系统模型与模型化技术课件_第3页
第四章-系统模型与模型化技术课件_第4页
第四章-系统模型与模型化技术课件_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析1主成分分析主成分回归立体数据表的主成分分析2§1

主成分分析原理31.引例一项十分著名的工作是美国的统计学家斯通

(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。根据经济

学知识,斯通给这三个新变量分别命名为总

收入F1、总收入变化率F2和经济发展或衰退

的趋势F3。更有意思的是,这三个变量其实

都是可以直接测量的。斯通将他得到的主成

分与实际测量的总收入I、总收入变化率

I以及时间t因素做相关分析,得到下表:4新变量:总收入F1、总收入变化率F2和经济发展或衰退的趋势F3实际测量的总收入I、总收入变化率

I以及时间t因素F1F2F3iitF11F201F3001i0.995-0.0410.057lΔi-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.112152.

主成分分析原理在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。见书54。为克服相关性、重叠性,且达到用较少的变量来代替原来较多的变量(少量变量能反映原来多个变量的大部分信息,这实际上是一种“降维”的思想),主成分分析通过对原多变量进行线性组合,形成若干个线性无关的简洁指标变量,并从这些指标变量中尽可能多地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止(一般要求主成分的累计贡献率达到80-90%)。这就是主成分分析的思想。由于线性无关,就使得分析与评价指标变量时,可切断相关的干扰,找出主导因素,作出更准确的估量。6主成分分析的要点?在力求数据信息丢失最少的原则下(如何实现?),对高维的变量空间降维。将彼此相关的指标变量转化为彼此不相关的指标变量(ui与uj两两正交,i≠j);将个数较多的指标变量转化为个数较少的指标变量。将意义单一的指标变量转化为意义综合的指标变量。7数据信息丢失最少,即F尽可能反映X的p个变量的信息。最简单的方法就是令由此可得到U必须是正交矩阵。8故主成分分析满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即9每个主成分的系数平方和为1。即§2

数学模型与几何解释假设我们所讨论的实际问题中,原来有p个指标,我们把这p个指标看作p个随机变量,记为

X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,…,Fk(k≤p,实际只取

80-90%贡献率),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。10这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,在保证尽可能反映原指标信息的前提下,寻求原指标的线性组合Fi。Fi与Fj线性无关。11•

•12••••

•••••••••

••••

••

••••

•••

••

••

••主成分分析的几何解释平移、旋转坐标轴考虑两种极端的情形:一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约

50%的信息,这显然是不可取的。造成它的原因是,原始变量X1和X2的相关程度几乎为零,也就是说,它们所包含的信息几乎不重迭,因此无法用一个一维的综合变量来代替。另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成分包含有二维空间点的全部信息,仅用这一个综合变量代替原始数据不会有任何的信息损失,此时的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍弃它当然没有信息损失。13•14•

•••••••

••

•••••

•••主成分分析的几何解释平移、旋转坐标轴•

••••••

••

••••••

••••

•••

•••

••••

••

•••

••••

•••••

••••

•••

••

••

•••

••••15•

••

••••••••

•主成分分析的几何解释平移、旋转坐标轴••

•••16主成分分析的数学模型是,设p个变量构成的p维随机向量为X=(X1,…,Xp)′,在尽可能表征原指标变量X信息的情况下,求线性无关的线性组合变量Fi=uiX。为此,U须为正交阵。此外,主成分分析要求F的各分量是不相关的,并且F的第一个分量的方差是最大的,第二个分量的方差次之,……,等等。为了保持信息不丢失,

F的各分量方差和与X的各分量方差和相等。§3

主成分的推导及性质其中17是A的特征根。p个变量构成的p维随机向量为X=(X1,…,Xp)′。令F=UX,其中U为正交阵。根据正交阵性质一、两个线性代数的结论1、若U为p维正交阵,则存在p阶实对称阵A2、这里U的向量uj,为实对称阵A的特征向量(即求A的特征向量,共有p个线性无关的特征向量,即共有p个T′),且对应特征根为λj属于不同特征根所对应的特征向则实对称阵

量是正交的,即有令如何找实对称阵

A?18二、主成分的推导(一)第一主成分设X的协方差阵为由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得19其中

1,

2,…,

p为Σx的特征根,不妨假设

1

2

p

。而U恰好是由协方差矩阵Σx

的特征根相对应的特征向量单位化后所组成的正交阵。例如特征向量为y,则单位化特征向量为y/||y||20已知X的协方差矩阵Σx为(1,-2,0;-2,5,0;0,0,2),求X的各主成分。1.求Σx的特征值及其相应的单位化特征向量

1=5.83,e1=(0.383,-0.924,0)

2=2.00,e2=(0,0,1)

3=0.17,e2=(0.924,0383,0)主成分为:y1,y2,y3若只取第一主成分,则贡献率为73%若取前两主成分,则累计贡献率98%。因此取前两。21三、实际应用中主成分分析的出发点•22故由Y的相关矩阵ρ求特征值和单位化特征向量→U

→uX或者23已知X的协方差矩阵Σx为(1,-2,0;-2,5,0;0,0,2),相关矩阵ρ为(4,7,0;3,2,1;0,0,8

)求X的各主成分。1.求Σx的特征值及其相应的单位化特征向量

1=5.83,e1=(0.383,-0.924,0)

2=2.00,e2=(0,0,1)

3=0.17,e2=(0.924,0383,0)主成分为:z1=

0.383x1-0.924x2,z2=x3,z3=

0.924x1+0.383x2242.求ρ的特征值及其相应的单位化特征向量

1=3.22,e1=(0.432,-0.734,0)

2=1.54,e2=(0,1,0)

3=1.07,e2=(0.724,0.23,0)主成分为:z1=

0.432(x1-..)-0.734(x2-..),z2=(x2-..),z3=

0.724(x1-..)

+

0.23(x2-..)25•26三、如何利用主成分分析进行综合评价27人们在对某个单位或某个系统进行综合评价时都会遇到如

何选择评价指标体系和如何对这些指标进行综合的困难。

一般情况下,选择评价指标体系后通过对各指标加权的办

法来进行综合。但是,如何对指标加权是一项具有挑战性

的工作。指标加权的依据是指标的重要性,指标在评价中

的重要性判断难免带有一定的主观性,这影响了综合评价

的客观性和准确性。由于主成分分析能从选定的指标体系

中归纳出大部分信息,根据主成分提供的信息进行综合评

价,不失为一个可行的选择。这个方法是根据指标间的相

对重要性进行客观加权,可以避免综合评价者的主观影响,在实际应用中越来越受到人们的重视。对所有p个主成分进行加权综合。各主成分的权数由它们的方差贡献率λ来确定,注意是所有主成分加权。28第五节 实例分析与计算机实现—

主成分分析实例二 利用SPSS进行主成分分析29一、主成分分析实例30表3.2是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:X1:年末固定资产净值,单位:万元;

X2:职工人数据,单位:人;

X3:工业总产值,单位:万元;

X4:全员劳动生产率,单位:元/人年;

X5:百元固定资产原值实现产值,单位:元;

X6:资金利税率,单位:%;

X7:标准燃料消费量,单位:吨;

X8:能源利用效果,单位:万元/吨。表3.2

某市工业部门13个行业8项指标31我们要考虑的是:如何从这些经济指标出发,对各工业部门进行综合评价与排序?我们先计算这些指标的主成分,然后通过主成分的大小进行排序。表3.3和表3.4分别是特征根(累计贡献率)和特征向量的信息。利用主成分得分进行综合评价时,从特征向量我们可以写出所有8个主成分的具体形式:32表3.333特征根和累计贡献率表3.434特征向量我们以特征根为权,对8个主成分进行加权综合,得出各工业部门的综合得分,具体数据见表3.5。综合得分的计算公式是:根据上式可计算出各工业部门的综合得分,并可据此排序。从上表可以看出,机器行业在该地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势,另外从

前两个主成分得分上看,该行业也排在第一位,同样存在

效益优势;而排在最后三位的分别是皮革行业、电力行业

和煤炭行业。35表3.536各行业主成分得分及排序二、利用SPSS进行主成分分析37例1:实验案例数据来自某汽车制造商,

1980年这个汽车制造商从竞争对手中选

择了17种车型,访问了25个顾客,要求

他们根据自己的偏好对这17种车型打分。

10分满分。25个顾客的评分为25个变量,即v1-v25,每种车型的25个分数即是一个观测量,17种车型表示有17个观测量(样本)。38运用SPSS进行主成分分析391.输入数据(先在variable

view中定义变量,再在data

view输入数据),如qichezhizao.sav;2.analyze/datareduction/factor(主成分分析属于“因子分析”的一个分支),选择原始变量。3.点extraction,选principle

components,Continue返回主界面选scores碎石图40未旋转因子Scree

Plot特征值碎石图,等同方差图Continue回主界面,点击OK。Component

Matrix(载荷矩阵,即各主成分与原变量的相关系数)Total

Variance

Explained:特征值与方差解释能力

Extraction

Sums

of

Squared

Loadings特征值41散点图4243得到散点图,由散点图可知各主成分反映的信息44顶端多为欧洲车与日本车,故主成分1,低端多为美国车,反映产地;左端林肯和凯迪拉克,左端为雪佛龙等,故主成分2反映质量等车特性。45由于SPSS没有提供主成分分析的专用功能,只有因子分析的功能。但是因子分析和主成分分析有着密切的联系。因子分析的重要步骤——因子的提取最常用的方法就是“主成分法”。利用因子分析的结果,可以很容易地实现主成分分析。具体来讲,就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量。即:其中,zij为第j个特征向量的第i个元素;aij为因子载荷阵第i行第j列的元素;λj为第j个因子对应的特征根。然后再利用计算出的特征向量来计算主成分。46

为了计算第一个特征向量,点击菜单项中的

Transform→Compute,调出Computevariable对话框,在对话框中输入等式:z1=a1/SQRT(λ1的值)点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。

再次调出Compute

variable对话框,在对话框中输入等式:z2=a2/SQRT(λ2的值)点击OK按钮,得到以z2为变量名第二特征向量。同理得到z3为变量名第三特征向量。47二、利用SPSS进行主成分分析48例子2:我国2005年第1、2季度分地区城镇居民家庭收支基本情况。通过这个例子,再次熟悉

SPSS软件实现主成分分析。表6.5

分地区城镇居民家庭收支基本情况49表6.5

分地区城镇居民家庭收支基本情况50(一)利用SPSS进行主成分分析51将原始数据输入SPSS数据编辑窗口,将5个变量分别命名为X1~X5。在SPSS窗口中选择Analyze→DataReduction→Factor菜单项,调出因子分析主界面,并将变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论