




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五讲的多元统计分析SAS多元统计分析概论现实中得统计对象经常用多个指标来表示,比如人口普查,就可以有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、地区等,企业调查,可以有净资产、负债、盈利、职工人数、还贷情况等等。多个指标(变量)可以分别进行分析,但就是,我们往往希望综合使用这些指标,这时,有主分量分析、因子分析等方法可以把数据得维数降低,同时又尽量不损失数据中得信息。SAS多元统计分析概论I、主分量分析一、理论介绍主分量分析得目得就是从原始得多个变量取若干线性组合,能尽可能多地保留原始变量中得信息。从原始变量到新变量就是一个正交变换(坐标变换)。设有就是一个
维随机变量,有二阶矩,记,。考虑她得线性变换SAS得PRINTP过程有如下功能:完成主分量分析。主分量得个数可以由用户自己确定,主分量得名字可以用户自己规定,主分量得分就是否标准化可自己规定。输入数据集可以就是原始数据集、相关阵、协方差阵或叉积阵。输入为原始数据时,用户还可以规定从协方差阵出发还就是从相关阵出发进行分析。由协方差阵出发时方差大得变量在分析中起到更大得作用。计算结果有:简单统计量,相关阵或协方差阵,从大到小排序得特征值和相应特征向量,每个主分量解释得方差比例,累计比例等。可生成两个输出数据集:一个包含原始数据及主分量得分,另一个包含有关统计量,类型为TYPE=CORR或COV。可揭示变量间得共线关系。若某特征值特别接近0说明变量线性相关,这时用这些变量作回归自变量可能得到错误得结果。9大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流PRINP主要使用PROCPRINP语句与VAR语句。PROCPRINP语句用来规定输入输出和一些运行选项,包括:DATA=输入数据集,可以就是原始数据集,也可以就是TYPE=CORR,COV得数据集OUT=输出包含原始数据和主分量得分得数据集OUTSTAT=统计量输出数据集COV要求从协方差阵出发计算主分量。缺省为从相关阵出发计算。N=要计算得主分量个数。缺省时全算。NOINT要求在模型中不使用截距项。这时统计量输出数据集类型为TYPE=UCORR或UCOV。STD要求在OUT=得数据集中把主分量得分标准化为单位方差。不规定时方差为相应特征值。用VAR语句指定原始变量。必须为数值型(区间变量)。三、应用举例例1、一月和七月平均气温得主分量分析在数据集TEMPERAT中存放有美国一些城市一月和七月得平均气温。我们希望对这两个气温进行主成分分析,希望用一个统一得温度来作为总得可比得温度,所以进行主分量分析。程序如下:SAS多元统计分析概论/*EXAMPLE1*/DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51、281、6PHOENIX51、291、2LITTLEROCK39、581、4SACRAMENTO45、175、2DENVER29、973、0HARTFORD24、872、7WILMINGTON32、075、8WASHINGTONDC35、678、7JACKSONVILLE54、681、0MIAMI67、282、3ATLANTA42、478、0BOISE29、074、5CHICAGO22、971、9PEORIA23、875、1INDIANAPOLIS27、975、0DESMOINES19、475、1WICHITA31、380、7LOUISVILLE33、376、9NEWORLEANS52、981、9PORTLAND,MAINE21、568、0BALTIMORE33、476、6BOSTON29、273、3DETROIT25、573、3SAULTSTEMARIE14、263、8DULUTH8、565、6MINNEAPOLIS12、271、9JACKSON47、181、7KANSASCITY27、878、8STLOUIS31、378、6GREATFALLS20、569、3OMAHA22、677、2RENO31、969、3CONCORD20、669、7ATLANTICCITY32、775、1ALBUQUERQUE35、278、7ALBANY21、572、0BUFFALO23、770、1NEWYORK32、276、6CHARLOTTE42、178、5RALEIGH40、577、5BISMARCK8、270、8CINCINNATI31、175、6CLEVELAND26、971、4COLUMBUS28、473、6OKLAHOMACITY36、881、5PORTLAND,OREG38、167、1PHILADELPHIA32、376、8PITTSBURGH28、171、9PROVIDENCE28、472、1COLUMBIA45、481、2SIOUXFALLS14、273、3MEMPHIS40、579、6NASHVILLE38、379、6DALLAS44、884、8ELPASO43、682、3HOUSTON52、183、3SALTLAKECITY28、076、7BURLINGTON16、869、8NORFOLK40、578、3RICHMOND37、577、9SPOKANE25、469、7CHARLESTON,WV34、575、0MILWAUKEE19、469、9CHEYENNE26、669、1;PROC
PRINPCOVOUT=PRIN;VARJULYJANUARY;RUN;组成分得分输出到了数据集PRIN中,在INSIGHT中打开WORK、PRIN,分别绘制JULY对JANUARY、PRIN2对PRIN1得散点图。从图可以看出主分量为原始变量得一个正交旋转。图1一月、七月气温得散点图和主分量散点图
一月、七月气温得散点图和主分量散点图
TheSASSystem02:18Wednesday,October26,20051ThePRINPProcedureObservations64Variables2SimpleStatisticsJULYJANUARYMean75、6078125032、09531250StD5、1276191011、71243309CovarianceMatrixJULYJANUARYJULY26、292477746、8282912JANUARY46、8282912137、1810888TotalVariance163、47356647EigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative1154、310607145、1476470、94390、943929、1629600、05611、0000EigenvectorsPrin1Prin2JULY0、3435320、939141JANUARY0、939141-、343532显示结果如下:输出中,第一部分为简单统计量(均值和标准差),第二部分为协方差得特征值(注意我们在过程中用了COV选项,无此选项用相关阵),从这里可以看到贡献率(Proportion)和累计贡献率(Cumulative),第三部分为特征向量。按本结果得特征向量值及用COV选项规定使用协方差阵,我们可以知道两个主分量如此计算:PRIN1=0、326866(JULY-75、92)+0、945071(JANUARY-32、55)PRIN2=0、945071(JULY-75、92)+(-0、326866)(JANUARY-32、55)如果没有用COV选项,原始变量还需要除以标准差。由系数可见,第一主分量就是两个月份得加权平均,代表了一个地方得气温水平,第二主分量系数一正一负,反应了冬季和夏季得气温差别。例2、美国各种类型犯罪得主分量分析在数据集CRIME中有美国各个州得各种类型犯罪得犯罪率数据。希望对这些犯罪率数据进行主分量分析以概括犯罪情况。程序如下:SAS多元统计分析概论/*EXAMPLE2*/DATACRIME;TITLE'各州每十万人得犯罪率';
INPUTSTATE$1-15MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;CARDS;ALABAMA14、225、296、8278、31135、51881、9280、7ALASKA10、851、696、8284、01331、73369、8753、3ARIZONA9、534、2138、2312、32346、14467、4439、5ARKANSAS8、827、683、2203、4972、61862、1183、4CALIFORNIA11、549、4287、0358、02139、43499、8663、5COLORADO6、342、0170、7292、91935、23903、2477、1CONNECTICUT4、216、8129、5131、81346、02620、7593、2DELAWARE6、024、9157、0194、21682、63678、4467、0FLORIDA10、239、6187、9449、11859、93840、5351、4GEORGIA11、731、1140、5256、51351、12170、2297、9HAWAII7、225、5128、064、11911、53920、4489、4IDAHO5、519、439、6172、51050、82599、6237、6ILLINOIS9、921、8211、3209、01085、02828、5528、6INDIANA7、426、5123、2153、51086、22498、7377、4IOWA2、310、641、289、8812、52685、1219、9KANSAS6、622、0100、7180、51270、42739、3244、3KENTUCKY10、119、181、1123、3872、21662、1245、4LOUISIANA15、530、9142、9335、51165、52469、9337、7MAINE2、413、538、7170、01253、12350、7246、9MARYLAND8、034、8292、1358、91400、03177、7428、5MASSACHUSETTS3、120、8169、1231、61532、22311、31140、1MICHIGAN9、338、9261、9274、61522、73159、0545、5MINNESOTA2、719、585、985、81134、72559、3343、1MISSISSIPPI14、319、665、7189、1915、61239、9144、4MISSOURI9、628、3189、0233、51318、32424、2378、4MONTANA5、416、739、2156、8804、92773、2309、2NEBRASKA3、918、164、7112、7760、02316、1249、1NEVADA15、849、1323、1355、02453、14212、6559、2NEWHAMPSHIRE3、210、723、276、01041、72343、9293、4NEWJERSEY5、621、0180、4185、11435、82774、5511、5NEWMEXICO8、839、1109、6343、41418、73008、6259、5NEWYORK10、729、4472、6319、11728、02782、0745、8NORTHCAROLINA10、617、061、3318、31154、12037、8192、1NORTHDAKOTA0、99、013、343、8446、11843、0144、7OHIO7、827、3190、5181、11216、02696、8400、4OKLAHOMA8、629、273、8205、01288、22228、1326、8OREGON4、939、9124、1286、91636、43506、1388、9PENNSYLVANIA5、619、0130、3128、0877、51624、1333、2RHODEISLAND3、610、586、5201、01489、52844、1791、4SOUTHCAROLINA11、933、0105、9485、31613、62342、4245、1SOUTHDAKOTA2、013、517、9155、7570、51704、4147、5TENNESSEE10、129、7145、8203、91259、71776、5314、0TEXAS13、333、8152、4208、21603、12988、7397、6UTAH3、520、368、8147、31171、63004、6334、5VERMONT1、415、930、8101、21348、22201、0265、2VIRGINIA9、023、392、1165、7986、22521、2226、7WASHINGTON4、339、6106、2224、81605、63386、9360、3WESTVIRGINIA6、013、242、290、9597、41341、7163、3WISCONSIN2、812、952、263、7846、92614、2220、7WYOMING5、421、939、7173、9811、62772、2282、0;PROC
PRINPOUT=CRIMP;RUN;PROC
SORT;BYPRIN1;PROC
PRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第一主分量作为总犯罪率排列';PROC
SORT;BYPRIN2;PROC
PRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第二主分量作为金钱犯罪与暴力犯罪对比得排列';PROC
GPLOT;PLOTPRIN2*PRIN1=STATE;TITLE2'PLOTOFTHEFIRSTTWOPRINCIPALPONENTS';PROC
GPLOT;PLOTPRIN3*PRIN1=STATE;TITLE2'PLOTOFTHEFIRSTANDTHIRDPRINCIPALPONENTS';RUN;EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN14、114962、876240、5878510、58785PRIN21、238720、512910、1769600、76481PRIN30、725820、409380、1036880、86850PRIN40、316430、058460、0452050、91370PRIN50、257970、035930、0368530、95056PRIN60、222040、097980、0317200、98228PRIN70、12406、0、0177221、00000
EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5PRIN6PRIN7MURDER0、300279-、6291740、178245-、2321140、5381230、2591170、267593RAPE0、431759-、169435-、2441980、0622160、188471-、773271-、296485ROBBERY0、3968750、0422470、495861-、557989-、519977-、114385-、003903ASSAULT0、396652-、343528-、0695100、629804-、5066510、1723630、191745BURGLARY0、4401570、203341-、209895-、0575550、1010330、535987-、648117LARCENY0、3573600、402319-、539231-、2348900、0300990、0394060、601690AUTO0、2951770、5024210、5683840、4192380、369753-、0572980、147046
第一主分量贡献率只有59%,前两个主分量累计贡献率达到76%,可以用前两个主分量。前三个主分量累计贡献率已达到87%,所以前三个主分量可以表现犯罪率得大部分信息。第一主分量得计算系数都就是正数,所以她就是一个州得犯罪率得一个加权平均,代表这个州得总得犯罪情况。第二主分量在入室盗窃(BURGLARY)、盗窃罪(LARCENY)、汽车犯罪(AUTO)上有较大得正系数,在谋杀(MURDER)、强奸(RAPE)、攻击(ASSAULT)上有较大得负系数,所以代表了暴力犯罪与其她犯罪得一种对比。第三主分量为抢劫、汽车犯罪等与盗窃罪、入室盗窃、强奸得对比,其意义不易解释。为了看出各州按第一主分量和第二主分量由低到高排列得情况,先用SORT过程排了序,然后用PRINT过程打印了结果(结果略)。在按第一主分量排序中,NorthDakota、SouthDakota、WestVirginia排列在前,说明其犯罪率最低,Nevada、California排列在后,说明其犯罪率最高。在按第二主分量排列得结果中,Mississippi排在最前,说明其暴力犯罪最高,Massachusetts最后,说明其暴力犯罪最低。后面用PLOT过程画了主成分得散点图。四、用SAS/INSIGHT进行主分量分析 在SAS/INSIGHT中可进行主分量分析。例如,对于上面得WORK、CRIME数据集,在INSIGHT中打开她后,选“Analyze|Multivariate(Y's)”,弹出选择变量得对话框,把各犯罪率变量都选为Y变量,然后按Output按钮,选中主分量分析(PrincipalponentAnalysis)复选框,OK后就得到了多变量分析结果(包括原始变量得简单统计量、相关阵)和主分量分析得结果(特征值、累计贡献率、特征向量)。另外还画了前两个主分量得散点图。应用组成分分析得论文讨论1、TheEffectofFinancialRatiosonReturnsfromInitialPublicOfferings:AnApplicationofPrincipalponentsAnalysis2、ConceptualPerspectivesonSelectingthePrincipalVariablesinthePurchasingmanager’sindex因子分析
SAS/STAT得FACTOR过程可以进行因子分析、分量分析和因子旋转。对因子模型可以使用正交旋转和斜交旋转,可以用回归法计算得分系数,同时把因子得分得估计存贮在输出数据集中;用FACTOR过程计算得所有主要统计量也能存贮在输出数据集中。二、FACTOR过程使用FACTOR过程用法很简单,主要使用如下语句:PROCFACTORDATA=数据集
选项;VAR原始变量;RUN;输出结果包括特征值情况、因子载荷、公因子解释比例,等等。为了计算因子得分,一般在PROCFACTOR语句中加一个SCORE选项和“OUTSTAT=输出数据集”选项,然后用如下得得分过程计算公因子得分:PROCSCOREDATA=原始数据集SCORE=FACTOR过程得输出数据集OUT=得分输出数据集;VAR用来计算得分得原始变量集合;RUN;三、例子数据集SOCECON为洛杉基12个地区统计得五个社会经济指标:人口总数(POP),教育程度(SCHOOL),就业数(EMPLOY),服务业人数(SERVICES),中等得房价(HOUSE)。用FACTOR过程可以进行主分量分析。下例中得SIMPLE选项要求计算变量得简单统计量,CORR要求输出相关阵。DATASOCECON;TITLE'五个经济指标得分析';INPUTPOPSCHOOLEMPLOYSERVICESHOUSE;CARDS;570012、8250027025000100010、9600101000034008、81000109000380013、6170014025000400012、816001402500082008、326006012000120011、44001016000910011、533006014000990012、5340018018000960013、73600390
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南通师范高等专科学校《室内设计原理》2023-2024学年第二学期期末试卷
- 湖南省株洲市攸县2025届三下数学期末统考模拟试题含解析
- 山西省吕梁市汾阳市2025届初三下学期升级统测英语试题含答案
- 江苏如皋市江安镇中心中学2024-2025学年高三第三次适应性训练物理试题含解析
- 石嘴山工贸职业技术学院《中国传统文化》2023-2024学年第二学期期末试卷
- 西安财经大学行知学院《外科学(外专科)》2023-2024学年第二学期期末试卷
- 中国海洋大学《医疗仪器设计》2023-2024学年第二学期期末试卷
- 四川华新现代职业学院《工程热力学D》2023-2024学年第二学期期末试卷
- 南充职业技术学院《心灵导航》2023-2024学年第二学期期末试卷
- 帐户的分类的类型及含义
- 2022年10月自考00078银行会计学试题及答案含解析
- 鲜食玉米简介介绍
- 商业综合体投资计划书
- 三叉神经痛患者的护理
- 语文学业质量监测-国测四年级模拟试题(A)
- 亚朵服务流程
- 手术分级管理制度
- 地下停车场预算报价
- 企业质量管理体系的建设
- 治安案件派出所调解书范本
- 绘本故事-我喜欢书
评论
0/150
提交评论