在STATA中开展主成分分析_第1页
在STATA中开展主成分分析_第2页
在STATA中开展主成分分析_第3页
在STATA中开展主成分分析_第4页
在STATA中开展主成分分析_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——在STATA中开展主成分分析主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分互不相关。Stata对主成分分析的主要内容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预计、各种检验、碎石图、得分图、载荷图等。yij?ai'bj??ij,i?1,2,?,n主成分的模型表达式为:

pC?V?V???ivivi?i?1vi?vj?0??diag(?1,?2,?,?p),?1??2????pj?1,2,?,p

其中,a称为得分,b称为载荷。主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。

Stata中可以通过负偏相关系数矩阵、负相关系数平方和KMO值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。假使变量之间存在较强的共性,则偏相关系数比较低。因此,假使矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。这时,主成分分析不能得到很好的数据约化效果。

Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO介于0于1之间。KMO越高,说明变量的共性越强。假使偏相关系数相对于相关系数比较高,则KMO比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser(1974),一般的判断标准如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,十分差(miserable);0.60-0.69,勉强接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比较好(meritorious);0.90-1.00,十分好(marvelous)。

SMC即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC比较高说明变量的线性关系越强,共性越强,主成分分析就越适合。

成分载荷、KMO、SMC等指标都可以通过extat命令进行分析。

多元方差分析是方差分析在多元中的扩展,即模型含有多个响应变量。本章介绍多元(协)方差分析以及霍特林(Hotelling)均值向量T检验。

12.1主成分估计

Stata可以通过变量进行主成分分析,也可以直接通过相关系数矩阵或协方差矩阵进行。

(1)sysuseauto,clear

pcatrunkweightlengthheadroom

pcatrunkweightlengthheadroom,comp(2)covariance

(2)webusebg2,clear

pcabg2cost*,vce(normal)

12.2Estat

estat给出了几个十分有用的工具,包括KMO、SMC等指标。

webusebg2,clear

pcabg2cost*,vce(normal)estatantiestatkmoestatloadingsestatresidualsestatsmcestatsummarize

12.3预计

Stata可以通过predict预计变量得分、拟合值和残差等。

webusebg2,clear

pcabg2cost*,vce(normal)

predictscorefitresidualq(备注:q代表残差的平方和)

12.4碎石图

碎石图是判断保存多少个主成分的重要方法。命令为screeplot。

webusebg2,clear

pcabg2cost*,vce(normal)screeplot

Screeplotofeigenvaluesafterpca2Eigenvalues.5111.523Number456

12.5得分图、载荷图

得分图即不同主成分得分的散点图。命令为scoreplot。

webusebg2,clear

pcabg2cost*,vce(normal)scoreplot

Scorevariables(pca)4Scoresforcomponent2-4-6-202-4-20Scoresforcomponent124载荷图即不同主成分载荷的散点图。命令为loadingplot。

webusebg2,clear

pcabg2cost*,vce(normal)loadingplot

Componentloadings.6bg2cost1.5Component2bg2cost3bg2cost2.4bg2cost5bg2cost6.3bg2cost4-.4-.20.2Component1.4.6

12.6旋转

对载荷进行旋转的命令格式为rotate。

webusebg2,clear

pcabg2cost*,vce(normal)rotate

例:对中国30个省市自治区经济发展基本状况的八项指标主成分分析,原始数据如下表:

居民

省份

GDP(亿元)

消费水平

固定资产投资

职工平均工资

货物周转量(亿吨公里)x5758.92703.45925.52562.23658.77033.91157.81690.94300.94974.95843.22396.22285.55165.12526.42349.84428.42079597.71490.31578.7805.3821.335.5

居民消费价格指数(上年100)x6105.1105.4106.2107.2105.7104.6105.1105.6105.8105.4105106.2104.6106105.3107106.3106105.6107.8106.9105.6105.1107.6105.7105.7

商品零售价格指数(上年x7104.4105.1106.7107.2104.7105.3106.2105.8105.3104.9106.3106.3105.7106.1104.9107.5106.3105.6106107.6106.7105105.3107.2106.1103.9100)

x8104131250323031100248740.2247698406.97624.525121677994083211162152138499.6629592602813455115536542560721103.15755.9147623111.15144.648.19工业总产值(亿元)

(亿元)(元)

(元)x2

x33814.73389.88866.63531.25475.45038.936564823.1932367475207.74745.4

x4563284174824756258282611427729234862304631667341462636325702210002481622739248703311025660218642698525038246022403047280

area北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北湖南广东广西海南重庆四川贵州云南西藏

x1

10488.03203466354.381400016188.616938.737761.813461.576424.06

8310

65706187810875917039

962510019.1

13698.152734321486.92138938874.176480.3331072.0618407.7811330.3811156.647171.581459.235096.6612506.253333.45700.1395.91

63775753

10823.1110361

5656516029.8

30312.611101315300.6

957315435.9587710490.6740671456103655098356072442645533504

564755343756.4705.43979.67127.81864.53435.9309.9

2640410107.8

35696.461439010868.7

陕西甘肃青海宁夏新疆

6851.323176.11961.531098.514203.41

62904869583071935542

4614.41712.8583.2828.92260

2594224017309833071924687

20271594.9335.7703.61273

106.4108.2110.1108.5108.1

106.9107.9110.6108.5108.5

7480.83667.51103.11366.54276.1

数据:来源于2023年《中国统计年鉴》

程序:

clear

*定义变量的标签labelvararea省份

labelvarx1\亿元)\labelvarx2\居民消费水平(元)\labelvarx3\固定资产投资(亿元)\labelvarx4\职工平均工资(元)\labelvarx5\货物周转量(亿吨公里)\labelvarx6\居民消费价格指数(上年100)\labelvarx7\商品零售价格指数(上年100)\labelvarx8\工业总产值(亿元)\

describe

pcax1-x8/*主成分估计*/

estatkmo/*KMO检验,越高越好*/estatsmc/*SMC检验,值越高越好*/

screeplot/*碎石图(特征值等于1处的水平线标示保存主成分的分界点)*/

predictscorefitresidualq/*预计变量得分、拟合值和残差以及残差的平方和*/predictf1f2f3predictq1q2q3

scoreplot,mlabel(area)yline(0)xline(0)/*得分图1*/scoreplot,xtitle(\经济社会总量\人民生活水

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论