多元统计方法之主成分分析_第1页
多元统计方法之主成分分析_第2页
多元统计方法之主成分分析_第3页
多元统计方法之主成分分析_第4页
多元统计方法之主成分分析_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析Principal Component Analysis, PCA多元统计方法中国计量学院理学院数学系1 引言2 主成分分析的基本概念 主成分分析的目标 主成分分析的数学模型 主成分的几何解释 主成分的几个性质 主成分的选取和使用条件 主成分分析的算法3 主成分分析的应用案例(采用基本的Matlab命令)4 Statistics Toolbox中的主成分分析函数及应用5 SPSS在主成分分析中的使用及案例中国计量学院理学院数学系 在学生学习过程中,已经修完p门课程,其成绩为x1,x2,xp,如何评价每个学生的综合能力?假设每门课程有权重c1,c2,cp,则加权之和为:s= c1x1+

2、c2x2+cpxp。 每个学生对应这样一个成绩,假设有n个学生,其成绩分别为:s1,s2,sn。如果这些值很分散,表明每个人的综合能力能很好地区分。关键是如何确定权重c1,c2,cp?在数学上反映的问题是什么呢? 1. 引言 中国计量学院理学院数学系 基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。 一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标, 另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信

3、息的重叠有时甚至会抹杀事物的真正特征与内在规律。中国计量学院理学院数学系 一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。 在进行主成分分析后,竟以97.4的精度,用三个新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化

4、率I以及时间t因素做相关分析,得到下表:中国计量学院理学院数学系F1F2F3iitF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.1121中国计量学院理学院数学系2. 主成分分析的基本概念 主成分分析的目标主成分分析,亦称主分量分析.数学本质利用降维技术,将多个变量(指标)归少数综合指标.结为线性无关的几个(少数)主成分(综合指标).目标化简多指标系统,构造方便系统分析的中国计量学院理学院数学系 主成分分析的数学模型 适合用主成分分析的数据具有如下结构:样本指 标 主成分分析最

5、大的问题是受量纲的影响,因此,实际应用中,需要对数据进行标准化。一般使用协方差矩阵或相关系数矩阵R进行分析。x11x21x31xn1中国计量学院理学院数学系设原始 样本点变量 型数据资料阵其中 求线性组合(主成分) Fi表示第i个主成分,也即中国计量学院理学院数学系 这是由于一个主成分不足以代表原来的p个变量的信息。因此需要寻找第二个乃至第三、四个主成分,原则上,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主成分的协方差为零,几何上就是这两个主成分的方向正交。满足条件 中国计量学院理学院数学系F 2F 1X 1X 2 主成分的几何解释 以最简单的二元正态变量来说明主成分

6、的几何意义 . 其 n 个样本点 的散布大致为一个椭圆.n 个点的在平面上作一个坐标变换,即按坐标 X1 和 X2 呈现某种线性相关性 .逆时针方向旋转角度 .在坐标系 X1 OX2 中,取新坐标轴,在椭圆长轴方向取F1 , 短轴方向取F2 .根据旋轴变换公式新老坐标之间有关系 n 个点的坐标 F1 和 F2 几乎不相关.在坐标系 F1 OF2 中,F 2F 1X 1X 2在 F1 轴上的方差达到最大,在此方向上所含的有关 n 个样品间差异的信息是最多的 ,故称 F1 为 第一主成分 .在和 F1 正交的轴 F2 上方差较小,称 F2 为 第二主成分 .因此,用一维空间代替二维空间时,选用 F

7、1 可使信息的损失降到最小.这种系统简化方法体现了抓事物主要矛盾的哲学思维.=? 主成分的几个性质矩阵为 , 的特征值为 单位特征向量为 令 则 记 定理 设 p 个 n 维随机向量 的协方差相应的说明 主成分就是以协方差矩阵的单位特征向量之间互不相关,主成分的名次是按特征根取值大小的顺为系数的线性组合,主成分方差为的特征值,主成分序排列的.推论1的协差阵为对角阵主成分推论2 主成分的总方差 推论4 推论5 推论3 原始变量与主成分之间的相关系数 中国计量学院理学院数学系 主成份的选取与使用条件 方差贡献率 第 k 个主成分的方差贡献率 前 k 个主成分的累积方差贡献率 在解决实际问题时, 一

8、般不是取 p个主成分, 而是根据累计贡献率的大小取前 k个, 累计贡献率达到85%; 这样就基本包含了全部测量指标所具有的信息, 这样即减少了变量的个数有便于对实际问题的分析和研究 . 使用条件 主成分分析适宜用于大样本的场合.主成分分析要求变量之间有一定的相关关系: 主成分分析的算法 设有n个样品,每个样品观测p项指标,将原始数据写成矩阵 将原始数据标准化(这里为了书写方便,不妨设上边矩阵已标准化了)。 建立变量的相关系数阵 求得特征根 及相应的单位特征向量 写出主成分包括对主成分的解释中国计量学院理学院数学系 在企业经济效益的评价中,涉及的指标往往很多。为了简化系统结构,抓住经济效益评价中

9、的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,原始数据见表5-7,即样品数n=28,变量数p=9。3. 主成分分析的应用案例 数据文件为czsr2003.txt.中国计量学院理学院数学系 100固定资产原值实现值(%)100元固定资产原值实现利税(%)100元资金实现利税(%)100元工业总产值实现利税(%)100元销售收入实现利税(%)每吨标准煤实现工业产值(元)每千瓦时电力实现工业产值(元)全员劳动生产率(元/人.年)100元流动资金实现产值(元)北京(1)119.2930.9829.9225.9715.4821

10、783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)65.811.0811.0612.1516.848.821.6510166284.7内蒙(5)54.799.249.5416.866.278941.87564225.4辽宁(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龙江(8)7

11、5.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江苏(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.6312164301.2表3-1中国计量学院理学院数学系 江西

12、(14)94.9414.714.1815.496.6916692.2410463274.4山东(15)117.5821.9320.8918.659.118202.817829331.1河南(16)85.9817.317.1820.127.6713061.8911247276.5湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(18)104.0321.4721.2820.638.7212721.9813161309广东(19)136.4423.6420.8317.337.8529593.7116259334广西(20)100.7222.0420

13、.921.889.6717322.1312441296.4四川(21)84.7314.3514.1716.937.9613102.3411703242.5贵州(22)59.0514.4814.3524.538.0910681.329710206.7云南(23)73.7221.9122.729.729.3814471.9412517295.8陕西(24)78.0213.1312.5716.839.1917312.0811369220.3甘肃(25)59.6214.0716.2423.5911.349261.1313084246.8青海(26)51.668.328.2616.117.0510551

14、.319246176.49宁夏(27)52.958.258.8215.576.588341.1210406245.4新疆(28)60.2911.2613.1418.688.3910412.910983266续表3-1中国计量学院理学院数学系clear load czsr2003.txt n,p=size(czsr2003);MEAN=mean( czsr2003) ; %求各变量的均值STD=std( czsr2003); %求各变量的标准差MEAN=ones(n,p)*diag(MEAN);STD=ones(n,p)*diag(STD);x=(czsr2003-MEAN)./STD; %原始

15、数据标准化 原始数据标准化 R=cov(x); 注释: 由于数据已经过标准化处理,故x的协方差矩阵等于其相关系数矩阵,即R=corrcoef(x).2. 建立变量的协方差矩阵 V,D=eig(R); 注释: 函数eig的功能是对矩阵R进行正交对角化变换,矩阵D是以R的特征值为对角元的对角矩阵(对角元按从小到大的顺序排列),矩阵V是正交变换矩阵。3. 求得特征根及相应的单位特征向量中国计量学院理学院数学系DD= ; %将特征值对角矩阵D改写为列向量DDfor i=p:-1:1 %此处要注意eig函数的输出D中特征值的排列顺序DD=DD;D(i,i);end OFFER=DD/sum(DD); %

16、计算特征值的方差贡献率 cumOFFER=cumsum(DD)/sum(DD); %计算特征值的方差累计贡献率 OUTCOME=DD,OFFER,cumOFFER %综合输出计算结果 4. 写出主成分 计算主成分的方差贡献率和累计方差贡献率OUTCOME = 6.1499 0.6833 0.6833 1.4729 0.1637 0.8470 0.6974 0.0775 0.9245 0.3178 0.0353 0.9598 0.1900 0.0211 0.9809 0.1160 0.0129 0.9938 0.0291 0.0032 0.9970 0.0243 0.0027 0.9997 0.

17、0024 0.0003 1.0000OUTCOME=DD,OFFER,cumOFFER %综合输出计算结果中国计量学院理学院数学系 选取主成分 根据特征值的方差累计贡献率,取前2个(贡献率达84.70%)或前3个(贡献率达92.45%)主成分即可。PCACOV=V(:,end:-1:end-2) %输出正交单位化的特征向量矩阵V的前3列 PCACOV = 0.3756 0.2595 -0.0141 0.3934 -0.1344 -0.0853 0.3753 -0.2653 -0.1074 0.0935 -0.7113 -0.5223 0.1746 -0.4913 0.8022 0.3721 0

18、.1650 -0.2246 0.3616 0.2254 0.0424 0.3513 0.0524 0.0830 0.3626 0.1268 0.0747 (3) 分析并命名主成分 对所选主成分作经济解释。主成分分析的关键在于能否给主成分赋予新的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性分析来进行。主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。 线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这

19、几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。 第一主成分的线性组合中除了100元工业总产值实现利税和100元销售收入实现利税外,其余变量的系数相当,所以第一主成分可看成是x1, x2, x3, x6, x7, x8, x9 的综合变量。可以解释为第一主成分反映了工业生产中投入的资金、劳动力所产生的效果,它是“投入”与“产出”之比。第一主成分所占信息总量为68.3%,在我国目前的工业企业中,经济效益首先反映在投入与产出之比上,其中固定资产的有效所产生的经济效益更大一些。第一主成分的系数取为0.3756 0.3934 0.3753

20、 0.0935 0.1746 0.3721 0.3616 0.3513 0.3626中国计量学院理学院数学系 第二主成分是把工业生产中所得总量(即工业总产值和销售收入)与局部量(即利税)进行比较,反映了“产出”对国家所作的贡献。这样,在抓企业经济效益活动中,就应注重投入与产出之比和产出对国家所作的贡献,抓住了这2个方面,经济效益就一定会提高。第二主成分的系数取为0.2595 -0.1344 -0.2653 -0.7113 -0.4913 0.1650 0.2254 0.0524 0.1268中国计量学院理学院数学系 第三主成分你又如何解释呢?第三主成分的系数取为-0.0141 -0.0853

21、-0.1074 -0.5223 0.8022 -0.2246 0.0424 0.0830 0.0747如何解释第二、三主成分主成份系数的负号,可能需要更多的经济学理论的支持。中国计量学院理学院数学系主成分分析的应用案例二 下列数据是2003年全国31个省市自治区11项指标的财政收入数据(单位:万元)。 地区编号:1.北京、2.天津、3.河北、4.山西、5.内蒙古、6.辽宁、7.吉林、8.黑龙江、9.上海、10.江苏、11.浙江、12.安徽、13.福建、14.江西、15.山东、16.河南、17.湖北、18.湖南、19.广东、20.广西、21.海南、22.重庆、23.四川、24.贵州、25.云南、

22、26.西藏、27.陕西、28.甘肃、29.青海、30.宁夏、31.新疆补充:指标编号:1.增值税、2.营业税、3.企业所得税、4.个人所得税、5.城市维护建设税、6.印花税、7.耕地占用税、8.行政性收费收入、9.罚没收入、10.专项收入、11.其他收入中国计量学院理学院数学系OUTCOME = 8.5003 0.7728 0.7728 1.0981 0.0998 0.8726 0.8206 0.0746 0.9472 0.2622 0.0238 0.9710 0.1347 0.0122 0.9833 0.0969 0.0088 0.9921 0.0521 0.0047 0.9968 0.02

23、25 0.0020 0.9988 0.0066 0.0006 0.9994 0.0050 0.0005 0.9999 0.0011 0.0001 1.0000 (1) (2)步骤略去,看结果:中国计量学院理学院数学系PCACOV = 0.3357 0.0975 -0.0581 0.3224 0.2269 0.2466 0.3256 0.2465 0.1586 0.3190 0.2154 0.2960 0.3273 -0.0114 -0.1988 0.3183 0.2461 0.2628 0.2381 0.0979 -0.7299 0.2797 -0.4337 -0.0160 0.3011 -0

24、.3115 -0.2335 0.3267 -0.0275 -0.1187 0.1867 -0.6897 0.3358中国计量学院理学院数学系 (3) 分析并命名主成分 PCACOV的三个列向量应为三个主成分的系数向量,而每一个系数向量在一定程度上代表了相应变量与该主成分的相关性(与相关系数相差一个常数)。 因此,如果从税收对财政收入贡献的角度理解,考虑PCACOV的第一列向量中元素绝对值的大小和最大特征值的方差贡献率(77.28%),可以认为: 第一主成份由增值税、营业税、企业所得税、个人所得税、城市维护建设税、印花税和专项收入组成的综合指标(企业税赋指数);按通常的理解税收与财政收入是正相关

25、的,因此,第一主成份系数取为:0.3357 0.3224 0.3256 0.3190 0.3273 0.3183 0.2381 0.2797 0.3011 0.3267 0.1867.中国计量学院理学院数学系 第二主成分由行政性收费收入,罚没收入和其他收入组成的综合指标(行政干预指数) ;第二主成份系数取为:0.0975 0.2269 0.2465 0.2154 -0.0114 0.2461 0.0979 -0.4337 -0.3115 -0.0275 -0.6897. 第三主成分可单独看成是由耕地占用税构成的指标(耕地消耗指数);第三主成分系数取为:-0.0581 0.2466 0.1586

26、 0.2960 -0.1988 0.2628 -0.7299 -0.0160 -0.2335 -0.1187 0.3358.中国计量学院理学院数学系4. Statistics Toolbox主成分分析函数及应用用原始数据进行主成份分析【函数与语法】PC=princomp(x) PC,SCORE,latent,tsquare=princomp(x) 【参数说明】 x 原始数据矩阵(样本点变量) PC 主成分系数向量(列) SCORE 样本点的主成分得分 latent x的协方差矩阵的特征值 tsquare 每一个样本点的HotellingT2统计量的值注意:princomp函数没有数据标准化的功

27、能。【应用czsr2003.txt】 PC,SCORE,latent,tsquare=princomp(x) 2. 用原始标准化数据的协方差矩阵进行主成分分析【函数与语法】PC=pcacov(R) PC, latent,explained=pcacov(R) 【参数说明】 R 原始数据矩阵(样本点变量) PC 主成分系数向量(列) latent 相关矩阵R的特征值 explained 每一个主成分的方差贡献率注意,princomp函数没有数据标准化的功能。【应用czsr2003.txt】 PC, latent,explained=pcacov(R) 【例5-1】 数据集Employee dat

28、a为Midwestern银行在1969-1971年之间雇员情况的数据,共包括474条观测及如下10个变量:Id(观测号)、Gender(性别)、Bdate(出生日期)、Educ(受教育程度(年数)、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime(受雇时间(月)、Prevexp(受雇以前的工作时间(月)、Minority(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少数变量来描述该地区居民的雇佣情况。 SPSS软件FACTOR模块提供了主成分分析的功能。下面先以SPSS软件包自带的数据Employee data.sav为例介

29、绍主成分分析的上机实现方法,在SPSS软件的安装目录下可以找到该数据集;然后,我们举一个实际的例子介绍主成分分析的具体应用。5. SPSS在主成分分析中的使用及案例中国计量学院理学院数学系8/24/202242 进入SPSS软件,打开数据集Employee data.sav。依次点选AnalyzeData ReductionFactor.进入Factor Analysis(因子分析)对话框(在SPSS软件中,主成分分析与因子分析均在Factor Analysis模块中完成)。此时,数据集Employee data.sav中的变量名均已显示在左边的窗口中,依次选中变量educ、salary、sa

30、lbegin、jobtime、prevexp并点向右的箭头按钮,这五个变量便进入variables窗口(此时若选中variables窗口中的变量,则窗口左侧的箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点击右侧的OK按钮,即可得到如下输出结果5-1。中国计量学院理学院数学系输出结果5-1(2)输出结果5-1(1)中国计量学院理学院数学系输出结果5-1(3)中国计量学院理学院数学系45 其中Communalities给出了该次分析从每个原始变量中提取的信息,表格下面的注示表明,该次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。可以看到除受教育程度信息损失较

31、大外,主成分几乎包含了各个原始变量至少90%的信息。Total Variance Explained表则显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在本例中看到当保留3个主成分为宜,这3个主成分集中了原始5个变量信息的90.66%,可见效果是比较好的。实际上,主成分解释总方差的百分比也可以由Communalities表中计算得出,即 (0.896+0.916+0.999+0.968+0.754)/5=90.66%。Component Matrix表中给出了标准化原始变量用求得的主成分线性表示的近似表达式,我们以表中Current Salary一行为例,不妨用

32、prin1、prin2、来表示各个主成分,则由Component Matrix表可以得到:标准化的salary 中国计量学院理学院数学系8/24/2022 在上面的主成分分析中,SPSS默认是从相关阵出发求解主成分,且默认保留特征根大于1的主成分,实际上,对主成分的个数我们可以自己确定,方法为:进入Factor Analysis对话框并选择好变量之后,点击Extraction选项,在弹出的对话框中有一个Extract选择框,默认是选择Eigenvalues over 1也就是保留特征根大于1的主成分,我们可以输入别的数值来改变SPSS软件保留特征根的大小;另外,还可以选择Number of F

33、actors选项直接确定主成分的个数。在实际进行主成分分析时可以先按照默认设置做一次主成分,然后根据输出结果确定应保留主成分的个数,用该方法进行设定后重新分析。 因为我们上面的结果是默认从相关阵出发得到的,而由相关阵出发求得的主成分其性质有简单的表达形式,我们可以方便地加以验证。中国计量学院理学院数学系由Component Matrix中的结果可以得到:等于第一主成分的方差,这就验证了主成分的推论4。又有:这恰好与Communalities表中三个主成分提取salary变量的信息相等。我们重做一遍主成分分析,此次将5个主成分全部保留,得到Component Matrix表如输出结果5-2: 中

34、国计量学院理学院数学系输出结果5-2可以看到前三个主成分的相应结果与输出结果5-1中的对应部分结果是一致的。对上表中结果有如下关系式:中国计量学院理学院数学系这就验证了推论5。由此表还可以得到标准化原始变量用各主成分线性表示的精确的表达式,以仍以Current Salary为例,有:标准化的 salary 由SPSS软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,要得到这个结果及其他一些有用的结果,就需要对Factor Analysis模块中的设置做一些调整,方法如下: 进入Factor Analysis对话框并选择好变量之后,点击对话框下部的Scores按钮进入Fact

35、or Scores对话框,选择Display factor score coefficient matrix选项并按Continue继续,该选项是让系统输出主成分得分系数矩阵。点击OK按钮运行,则除了默认结果,还输出如下输出结果5-3:中国计量学院理学院数学系输出结果5-3上表中给出了用原始变量表示主成分的系数信息。因为系统默认是从相关矩阵出发进行分析,所以,上面表格中的系数是将原始变量标准化后表示主成分的系数。也就是说,有下式成立: 中国计量学院理学院数学系 应当注意的是,此处SPSS给出的用原始变量表示主成分的表达式得到的是标准化后的主成分,也就是说,这样求得的主成分的方差是1,而不是原始

36、变量相关矩阵的各个特征根了。如上式中,第一主成分的方差为2.477,而用上式求得的主成分方差为1,要得出未标准化的主成分与原始变量的表达式,只需将SPSS软件给出的系数前面乘以主成分方差的平方根即可,未标准化第一主成分与原始变量的关系式如下:类似可以写出第二、第三个主成分用标准化后的原始变量表示的表达式。中国计量学院理学院数学系 【例5.2同例3.1】在企业经济效益的评价中,涉及的指标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,原始数据见表5-7,即样品数n=28,变量

37、数p=9。中国计量学院理学院数学系 100固定资产原值实现值(%)100元固定资产原值实现利税(%)100元资金实现利税(%)100元工业总产值实现利税(%)100元销售收入实现利税(%)每吨标准煤实现工业产值(元)每千瓦时电力实现工业产值(元)全员劳动生产率(元/人.年)100元流动资金实现产值(元)北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)

38、65.811.0811.0612.1516.848.821.6510166284.7内蒙(5)54.799.249.5416.866.278941.87564225.4辽宁(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龙江(8)75.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江苏(10)205.9627.6522.5813.427

39、.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.6312164301.2表5-7中国计量学院理学院数学系 江西(14)94.9414.714.1815.496.6916692.2410463274.4山东(15)117.5821.9320.8918.659.118202.817829331.1河南(16)85.9817.317.1820.

40、127.6713061.8911247276.5湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(18)104.0321.4721.2820.638.7212721.9813161309广东(19)136.4423.6420.8317.337.8529593.7116259334广西(20)100.7222.0420.921.889.6717322.1312441296.4四川(21)84.7314.3514.1716.937.9613102.3411703242.5贵州(22)59.0514.4814.3524.538.0910681.32

41、9710206.7云南(23)73.7221.9122.729.729.3814471.9412517295.8陕西(24)78.0213.1312.5716.839.1917312.0811369220.3甘肃(25)59.6214.0716.2423.5911.349261.1313084246.8青海(26)51.668.328.2616.117.0510551.319246176.49宁夏(27)52.958.258.8215.576.588341.1210406245.4新疆(28)60.2911.2613.1418.688.3910412.910983266续表5-7中国计量学院理

42、学院数学系55 0.4235231.3384051.5902821.6875562.2396340.4819710.9547461.2603710.0488050.9951991.4096491.6314530.6672281.0658731.1887581.8553941.1338441.200166-0.14352-0.271-0.10906-0.29487-0.00854-0.57821-0.45763-0.152790.49097-0.81499-0.98577-1.08721-1.811432.740046-1.79273-0.84655-0.56349-0.15927-1.0699

43、2-1.20067-1.303-0.61894-1.14919-0.86449-0.69303-1.00129-1.18752-0.150240.1868270.5837370.7710330.694243-0.3171-0.11989-2.27170.308902-0.47486-0.71949-0.7039-0.68477-0.82907-0.43245-0.4167-0.69238-0.34307-0.58206-0.43218-0.290780.393790.359408-0.47334-0.22224-0.62003-0.466192.0095833.0809562.9886561.

44、3001862.0961332.7554331.6711712.9832842.1625242.4302940.9494850.548246-1.48989-0.582541.5557832.264781.6592991.9648512.4650251.5813351.002539-0.85187-0.041662.1944081.7530481.43671.5885780.2264810.1377740.199007-0.15562-1.02776-0.26257-0.25294-0.157670.8186910.5038680.3503370.172033-0.24423-0.383850

45、.5050410.156444-0.227320.126834-0.14028-0.56298-0.64428-0.9658-0.99465-0.05179-0.24271-0.51352-0.337870.3839290.2814290.308322-0.16574-0.107890.1065570.3304330.725830.645294表5-8中国计量学院理学院数学系 -0.34774-0.25932-0.218380.206435-0.63406-0.43245-0.60092-0.38161-0.301460.068569-0.00238-0.03382-0.13536-0.085

46、810.1159940.279260.375190.2603510.070190.2277050.3636890.335558-0.24771-0.4681-0.50881-0.059580.2620850.8206170.4811450.299804-0.49995-0.567831.3009631.2617850.4616730.695579-0.006450.2942770.3097410.6520370.1018430.014276-0.35529-0.180720.043603-0.37669-0.60386-0.6457-0.60122-0.52735-0.42825-0.1403

47、6-0.30489-0.89101-0.97128-0.58868-0.620141.322972-0.47952-0.68202-1.18429-0.64022-1.51177-0.631610.2790930.5652822.636993-0.00486-0.28459-0.54975-0.167930.033199-0.53205-0.74635-0.87284-0.62654-0.074770.013227-0.40646-0.36109-1.27595-0.95809-0.63656-0.351821.084980.71632-0.83093-1.37875-0.07253-0.81

48、645-1.14239-1.30812-1.48472-0.80883-0.86219-0.69566-1.19453-0.71829-2.03561-1.11252-1.3163-1.40522-0.94555-1.03512-0.92741-1.38899-0.52311-0.84073-0.94257-0.96475-0.79192-0.15815-0.36913-0.710340.432779-0.42603-0.48353续表5-8中国计量学院理学院数学系 将表5-8数据导入spss软件,依次点选Analyze-Data Reduction-Factor进入Factor Analys

49、is对话框。(在spss中,主成分分析与因子分析均在Factor Analysis模块中完成。)如图5-4所示:图5-4中国计量学院理学院数学系 此时,数据集5-5.sav中的变量名均显示在对话框左边的窗口中,选择变量x1,x2,x3,x4,x5,x6,x7,x8,x9进入variables窗口中,操作如图5-5所示:图5-5中国计量学院理学院数学系 图5-5 点击descriptives按钮,在弹出的对话框中,在correlation matrix中选择coefficients 。回到原对话框点击右侧的Ok,即可得到输出结果5-4 和输出结果5-5。中国计量学院理学院数学系60 输出结果5-

50、4中国计量学院理学院数学系 输出结果5-5由输出结果5-4看到,前面2个主成分 、 的方差和占全部方差的比例为84.7%。我们就选取 为第一主成分,为第二主成分,且这两个主成分之方差和占全部方差的84.7% %,即基本上保留了原来指标的信息,这样由原来的9个指标转化为2个新指标,起到了降维的作用。中国计量学院理学院数学系 SPSS软件得到主成分系数矩阵如下:中国计量学院理学院数学系 由上表得到前2个主成分, , 的线性组合为: (5.13) 中国计量学院理学院数学系 通常为了分析各样品在主成分所反映的经济意义方面的情况,还将标准化后的原始数据带入主成分表达式计算出各样品的主成分得分,由各样品的

51、主成分得分(当主成分个数为2时)就可在二维空间中描出各样品的分布情况。 将表5-8数据代入式(5.13)式,得到28个省、市、自治区的主成分得分,见表5-9。将这28各样品在平面直角坐标系上描出来,进而可进行样品分类。主成分得分图见图5-6。中国计量学院理学院数学系 样品号第一主成分得分第二主成分得分11.135631.9987521.506450.442053-0.19631-0.080544-0.815360.316885-1.20017-0.603566-0.168561.044517-0.65065-0.667128-0.419990.5704192.837911.13592101.5

52、905-2.31268111.76154-1.50077120.02914-0.493130.20663-0.4310314-0.4798-1.03236150.39695-0.2989316-0.414350.08055170.14309-0.2474118-0.017560.31942190.73347-1.08331200.055450.5923621-0.56854-0.5028522-0.904951.0864123-0.008531.9777124-0.65494-0.3346325-0.663361.4408126-1.37435-0.4882327-1.2372-0.69389

53、28-0.62211-0.23546表5-9续表5-9中国计量学院理学院数学系 图5-6由图5-6可看出,分布在第一象限的是上海、北京、天津、广西这4个省,这四个省、市、自治区的经济效益在全国来说属于比较好的,其中上海的经济效益最好。分布在第四象限的江苏、浙江、安徽、福建、山东、湖北、广东七个省、市、自治区。因为第四象限的主要特征是第一主成分,第一主成分占信息总量的比重最大,所以这七个省的经济效益也算比较好。分布在第二象限和第三象限的地区可属同一类,经济效益较差。中国计量学院理学院数学系 主成分得分操作:在Factor Analysis主对话框,点击下方的Scores按钮,进入Factor S

54、cores对话框,选中save as variables复选框,点击continue。系统默认用回归方法求得因子得分。见图5-7。 图5-7中国计量学院理学院数学系【作业】 全国重点水泥企业经济效益综合评价例。 利用主成分综合评价全国重点水泥企业的经济效益。原始数据(数据来自1984年中国统计年鉴)见表5-10。中国计量学院理学院数学系 厂家编号及指标固定资产利税率资金利税率销售收入利税率资金利润率固定资产产值率流动资金周转天数万元产值能耗全员劳动生产率1琉璃河16.6826.7531.8418.453.255528.831.752邯郸19.727.5632.9419.259.825532.9

55、22.873大同15.223.432.9816.2446.786541.691.534哈尔滨7.298.9721.34.7634.396239.281.635华新29.4556.4940.7443.6875.326926.682.146湘乡32.9342.7847.9833.8766.465032.872.67柳州25.3937.8236.7627.5668.186335.792.438峨嵋15.0519.4927.2114.216.137635.761.759耀县19.8228.7833.4120.1759.257139.131.8310永登21.1335.239.1626.5252.476

56、235.081.7311工源16.7528.7229.6219.2355.765830.081.5212抚顺15.8328.0326.417.4361.196132.751.613大连16.5329.7332.4920.6350.416937.571.3114江南22.2454.5931.053767.956332.331.5715江油12.9220.8225.1212.5451.076639.181.83表5-10中国计量学院理学院数学系1.利用一般的Matlab命令将数据标准化;2. 利用Matlab命令计算出相关矩阵的方差及特征值;3.写出主成分的线性表达式;4.利用统计工具箱中命令得到

57、如上结果;5.利用SPSS进行主成分分析;6.对得到的结果作出解释;7.自学主成分回归的内容。需要完成:中国计量学院理学院数学系6. 主成分回归介绍中国计量学院理学院数学系 国际旅游外汇收入是国民收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素。中国统计年鉴把第三次产业划分为12个组成部分,分别为: 一、提出问题中国计量学院理学院数学系x1:农林牧渔服务业 x2:地质勘查水利管理业x3:交通运输仓储和邮电通讯业 x4:批发零售贸易和餐食业x5:金融保险业 x6:房地产业 x7:社会服务业 x8:卫生体育和社会福利业 x9:教育文艺

58、和广播 x10:科学研究和综合艺术x11:党政机关 x12:其他行业 选自1998年我国31个省、市、自治区的数据。以旅游外汇收入(百万美圆)为因变量。自变量的单位为亿元人民币。数据略。 中国计量学院理学院数学系InterceptCoefficients -205.236116.8459-1.75646 0.096008标准误差t StatP-valueX Variable 1-1.4004522.8676-0.061240.951842X Variable 22.67500118.575080.144010.887092X Variable 33.3008772.4645561.339339

59、0.197128X Variable 4-0.944021.296117-0.728340.475774X Variable 5-5.50164.508593-1.220250.238117X Variable 64.0544343.9537451.0254670.318728X Variable 74.1425.0699840.816965 0.42463X Variable 8-15.364910.82589-1.419270.172905X Variable 917.367668.353372.0791210.052178X Variable 109.07888310.147280.89

60、4711 0.38275X Variable 11-10.585.610696-1.885690.075582X Variable 121.3507095.0015040.270060.790186 这个模型是不理想的,一个最严重的问题是多重共线性的问题。中国计量学院理学院数学系线性回归模型的方差分析表方差来源自由度离差平方和方差F统计量显著性水平回归分析1211690140 974178.3 10.51335 8.15025E-06 残差181667899 92661.04 总计3113358039 利用主成分的互不相关性来建立应变量与主成分的回归,在理论上可以达到消除多重共线性。 中国计量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论