主成分分析报告在STATA中地实现以及理论介绍_第1页
主成分分析报告在STATA中地实现以及理论介绍_第2页
主成分分析报告在STATA中地实现以及理论介绍_第3页
主成分分析报告在STATA中地实现以及理论介绍_第4页
主成分分析报告在STATA中地实现以及理论介绍_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实用标准第十二章 主成分分析主成分分分析也称作主分量分析,是霍特林 (Hotelling) 在1933年首先提出。主成分分析是利用降维的思想, 在损失较少信息的前提下把多个指标转化为较少的综合指标。 转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合, 且各个主成分互不相关。Stata对主成分分析的主要内容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin) 抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。yij ai'bj ij,i 1,2, ,n j 1,2, ,p主成分的模型表达式为:CVpiviviVi1vivj0diag(1,2,,p),12p其中,a称为得分,b称为载荷。主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。Stata中可以通过负偏相关系数矩阵、负相关系数平方和 KMO值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。 如果变量之间存在较强的共性,则偏相关系数比较低。因此,如果矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。这时,主成分分析不能得到很好的数文案大全实用标准据约化效果。Kaiser-Meyer-Olkin 抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO介于0于1之间。KMO越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高, 则KMO比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser(1974),一般的判断标准如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉强接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比较好(meritorious);0.90-1.00,非常好(marvelous)。SMC即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。成分载荷、KMO、SMC等指标都可以通过 extat 命令进行分析。多元方差分析是方差分析在多元中的扩展, 即模型含有多个响应变量。本章介绍多元(协)方差分析以及霍特林( Hotelling) 均值向量T检验。12.1 主成分估计Stata可以通过变量进行主成分分析,也可以直接通过相关系数矩阵或协方差矩阵进行。1)sysuseauto,clearpcatrunkweightlengthheadroom文案大全实用标准pcatrunkweightlengthheadroom,comp(2)covariance2)webusebg2,clearpcabg2cost*,vce(normal)12.2Estatestat 给出了几个非常有用的工具,包括 KMO、SMC等指标。webusebg2,clearpcabg2cost*,vce(normal)estatantiestatkmoestatloadingsestatresidualsestatsmcestatsummarize12.3 预测Stata可以通过predict 预测变量得分、拟合值和残差等。webusebg2,clearpcabg2cost*,vce(normal)predictscorefitresidualq (备注:q代表残差的平方和)12.4 碎石图碎石图是判断保留多少个主成分的重要方法。 命令为screeplot。文案大全seulavnegiE

实用标准webusebg2,clearpcabg2cost*,vce(normal)screeplotScreeplotofeigenvaluesafterpca25.115.1 2 3 4 5 6Number12.5 得分图、载荷图得分图即不同主成分得分的散点图。命令为 scoreplot。webusebg2,clearpcabg2cost*,vce(normal)scoreplot文案大全2tnenopmocrofserocS

实用标准Scorevariables(pca)4202-4--6-4-2024Scoresforcomponent1载荷图即不同主成分载荷的散点图。命令为 loadingplot 。webusebg2,clearpcabg2cost*,vce(normal)loadingplotComponentloadings6.bg2cost152.bg2cost3tnenbg2cost2opm4oC.bg2cost53bg2cost6.bg2cost4-.4-.20.2.4.6Component1文案大全实用标准12.6 旋转对载荷进行旋转的命令格式为 rotate。webusebg2,clearpcabg2cost*,vce(normal)rotate例:对中国30个省市自治区经济发展基本情况的八项指标主成分分析,原始数据如下表:居民商品居民固定职工货物消费零售工业GDP资产周转价格价格总产省份消费投资平均量指数指数值(亿元)水平(亿工资(亿吨(上(上(亿(元)元)(元)公里)年年元)100)100)areax1x2x3x4x5x6x7x8北10488.20343814.56328758.9105.104.10413京036714文案大全实用标准天6354.314003389.417482703.105.105.12503津808441河16188.65708866.247565925.106.106.23031616527北山6938.761873531.258282562.107.107.10024西32222内蒙7761.881085475.261143658.105.104.8740.古47772辽13461.962510019277297033.104.105.2476957.1963宁吉6424.075915038.234861157.105.106.8406.林698129黑龙831070393656230461690.105.105.7624.9685江上13698.27344823.5656516029105.105.25121海1531.883江30312.110115300316674300.105.104.67799苏613.6949浙21486.13899323341464974.105106.4083292393江安8874.163776747263635843.106.106.11162徽7223文案大全实用标准福10823.10365207.257022396.104.105.15213建1117267江6480.357534745.210002285.106106.8499.34516西山31072.9573154352640410107105.104.62959东06.9.839河18407.587710490248165165.107107.26028南78.615湖11330.74065647227392526.106.106.1345538433北湖11156.71455534248702349.106105.11553南6486广35696.143910868331104428.105.10665425460.746东广7171.561033756.256602079107.107.6072西8486海1459.26550705.421864597.7106.106.1103.南3971重5096.698353979.269851490.105.1055755.66369庆四12506.60727127.250381578.105.105.14762川258713文案大全实用标准贵3333.444261864.24602805.3107.107.3111.州5621云5700.145533435.24030821.3105.106.5144.9716南西395.913504309.94728035.5105.103.48.19藏79陕6851.362904614.259422027106.106.7480.西24498甘3176.148691712.240171594.108.107.3667.189295肃青961.535830583.230983335.7110.110.1103.海161宁1098.57193828.930719703.6108.108.1366.1555夏新4203.455422260246871273108.108.4276.疆1151数据:来源于2009年《中国统计年鉴》程序:clear定义变量的标签文案大全实用标准labelvararea 省份labelvarx1"GDP ( 亿元)"labelvarx2" 居民消费水平(元)"labelvarx3" 固定资产投资(亿元)"labelvarx4" 职工平均工资(元)"labelvarx5" 货物周转量(亿吨公里)"labelvarx6" 居民消费价格指数 (上年100)"labelvarx7" 商品零售价格指数 (上年100)"labelvarx8" 工业总产值 ( 亿元)"describepcax1-x8/* 主成分估计*/estatkmo/*KMO检验,越高越好*/estatsmc/*SMC检验,值越高越好*/screeplot/* 碎石图(特征值等于1处的水平线标示保留主成分的分界点)*/文案大全实用标准predictscorefitresidualq /*预测变量得分、拟合值和残差以及残差的平方和*/predictf1f2f3predictq1q2q3scoreplot,mlabel(area)yline(0)xline(0)/* 得分图1*/scoreplot,xtitle(" 经济社会总量")ytitle(" 人民生活水平")///mlabel(area)yline(0)xline(0)/* 得分图*/scatterf2f3,xtitle(" 人民生活水平")ytitle(" 物价水平")///mlabel(area)yline(0)xline(0)/* 得分图*/scoreplot,factors(3)mlabel(area)/* 得分图*/scoreplot,combinedfactors(3)mlabel(area)yline(0)xline(0)/*得分图*/loadingplot,yline(0)xline(0)/* 载荷图*/loadingplot,combinedfactors(3)yline(0)xline(0)/* 载荷图*/rotate/* 旋转*/分析:文案大全实用标准先对数据进行标准化处理后,接着进行主成分分析,可以得到:表:R的特征值和特征向量主成分特征值方差贡献率累计贡献率14.254882.502580.531921.75229.5375380.750931.21475.7609160.90274.453839.2607010.95955.193137.1241410.98366.0689962.02734640.99227.0416498.02119450.99748.0204553.1.0000从表中看到,前 3个特征值累计贡献率已达 90.27%,说明前3个主成分基本包含了全部指标具有的信息, 我们取前3个特征值。通过对载荷矩阵进行旋转,可得到,相应的特征向量,见下表:第一、第二、第三特征值向量第一特征向第二特征向第三特征向量量量x1_s0.42490.30640.1079x2_s0.3217-0.44670.3101x3_s0.40570.3855-0.0181x4_s0.1856-0.61000.2536文案大全实用标准x5_s0.3520-0.05100.3714x6_s-0.34440.14270.5784x7_s-0.31180.27670.5769x8_s0.42090.29380.1495因而前三个主成分为:第一主成分: F 1=0.4249x1+0.3217x2_s+0.4057x3_s+0.1856x4_s+0.3520x5_s-0.3444x6_s-0.3118x7_s+0.4209x8_s第二主成分: F 2=0.3064x1-0.4467x2_s+0.3855x3_s-0.6100x4_s-0.0510x5_s+0.1427x6_s+0.2767x7_s+0.2938x8_s第三主成分: F 3=0.1079x1+0.3101x2_s-0.0181x3_s+0.2536x4_s+0.3714x5_s-0.5784x6_s+0.5769x7_s+0.1495x8_s在第一主成分的表达式中第一、第三、第八项指标的系数较大,这三项指标起主要作用,我们可以把第一主成分看成是由国内生产总值、固定资产投资、工业总产值所刻划的反映 经济社会总量的综合指标;在第二主成分中,第二、第三、第四项指标的影响大,且第二、文案大全实用标准第四项的影响较大,因此可以把第二主成分看成是由居民消费水平、职工平均工资表示的反映人民生活水平的综合指标;在第三主成分中,第六、第七项指标大于其余的指标,可看成是受居民消费价格指数、商品零售价格指数的影响,反映物价水平的综合指标。在这次的主成分分析里面,我们可以进行些检验以验证我们分析的效果,通过KMO检验和SMC检验,得到了下面的检验值:变量的KMO、SMC值表变量KMO值SMC值x1_s0.74230.9656x2_s0.53610.8366x3_s0.77060.9276x4_s0.47370.7647x5_s0.67940.6515x6_s0.54670.8837x7_s0.54820.8627x8_s0.76920.9591合计0.6447---Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO介于0于1之间。KMO越高,表明变量的共性越强。文案大全实用标准如果偏相关系数相对于相关系数比较高, 则KMO比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser(1974),一般的判断标准如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉强接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比较好(meritorious);0.90-1.00,非常好(marvelous)。SMC即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。根据KMO越高,表明变量的共性越强和SMC比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。从上表可以看出,在该例中,各变量基本符合要求。通过碎石图,我们可以很直观的看出各个特征值的大小。在该图中,特征值等于1处的水平线标示了保留主成分分析的分界点,同时再次强调了本例中的成分4到8并不重要。碎石图文案大全实用标准Screeplotofeigenvaluesafterpca43seulavn 2egiE1002468Number通过predict 我们可以得出各个观察变量的所对应的各个主成分的线性组合(即得分)。在得分图里,我们可以看到不同地区在第一、 第二主成分里各自的得分情况。得分图文案大全实用标准Scorevariables(pca)2河南山东江苏河北广东2新疆湖北t青海广西四川甘肃江西安n贵州山西徽辽宁陕西湖南浙江e0云南吉林n宁夏海南o福建p内蒙古m重庆ocrofse2天津ro-西藏cS4北京上海--4-2024Scoresforcomponent1文案大全实用标准Scorevariables(pca)23河南山东3青海上海t江苏n河北广东

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论