系统的多元统计分析功能_第1页
系统的多元统计分析功能_第2页
系统的多元统计分析功能_第3页
系统的多元统计分析功能_第4页
系统的多元统计分析功能_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

系统的多元统计分析功能第1页,共49页,2023年,2月20日,星期二第五章SAS系统多元统计分析功能§5.1主成分分析与PRINCOMP过程§5.2因子分析与FACTOR过程§5.3判别分析与STEPDISC、DISCRIM过程§5.4聚类分析与CLUSTER过程★第2页,共49页,2023年,2月20日,星期二主成分分析(PrincipalComponentAnalysis)为了全面系统地分析和研究某些社会经济问题,可能必须同时考虑许多存在一定内在联系和相互关联的经济指标,这些指标所反映的信息会有某种程度的重叠,但去除变量又会导致某些信息的损失;主成分分析通过降维的方法,把相互关联的多个变量转变成少数互不相关的新变量(即主成分,也称为综合变量),各主成分由原来变量的线性关系表示,其包含信息量的多少由各自的方差测定,主成分的方差越大,所包含的信息量就越多。第3页,共49页,2023年,2月20日,星期二PRINCOMP过程的主要功能:完成主成分分析;主成分的个数、名称及得分是否标准化均可由用户自己规定;输入的数据集可以是原始数据集、相关阵或协方差阵等;计算结果有:简单统计量、相关阵或协方差阵,从大到小排序的特征值和相应特征向量,每个主成分解释的方差比例、累计比例等;可揭示变量间的共线关系,若某特征值特别接近于0,则说明变量线性相关。第4页,共49页,2023年,2月20日,星期二PROC

PRINCOMPDATA=<数据集>OPTIONS

VAR变量名列;

WEIGHT变量名列;

FREQ变量名列;

PARTIAL变量名列;

BY变量名列;RUN;PRINCOMP过程的一般形式:第5页,共49页,2023年,2月20日,星期二PROCPRINCOMP过程的常用选项有:OUT=<数据集>把计算的统计量存入指定的数据集;COVARIANCE(或COV)

指定以协方差矩阵为分析数据,缺省则以相关系数矩阵为分析数据;N=正整数指定要保留的主成分个数;PREFIX=主成分名为主成分命名,缺省则自动命名为:PRIN1,PRIN2,…;STANDARD(或STD)对各主成分进行标准化,使各主成分的方差为1;

NOINT作协方差矩阵主成分分析或相关行列主成分分析时,各变量不对其平均数加以修正。第6页,共49页,2023年,2月20日,星期二VAR语句指定主成分分析中使用的变量;WEIGHT语句对已输入的资料附加加权数据;FREQ语句表示变量的频数;PARTIAL语句除去特定变量的线性效果后,利用偏相关分析或者协方差矩阵进行分析;BY语句按指定变量分类(需先排序)后,对每一个分类进行主成分分析。PROCPRINCOMP过程的常用语句有:第7页,共49页,2023年,2月20日,星期二例5.1

已知纽约上市的三只化学产业证券(AC、DP、UC)和两只石油产业证券(EX、TE)100周的收益率调查资料。各证券的收益率依次用X1、X2、X3、X4、X5表示,且样本的平均收益率和相关矩阵R如下,要求对证券收益率做主成分分析并解释主成分的意义。第8页,共49页,2023年,2月20日,星期二dataone(type=corr);

_type_='corr';

input

_name_$x1x2x3x4x5@@;

cards;x11....x20.5771...x30.5090.5991..x40.3870.3890.4361.x50.4620.3220.4260.5231;run;procprincomp;run;相关矩阵数据的输入方法第9页,共49页,2023年,2月20日,星期二输出结果:(单位特征向量矩阵)各主成分标准化变量的线性系数第10页,共49页,2023年,2月20日,星期二对主成分意义的解释:从第一主成分的系数来看,均为0.45左右的正数表明5个标准化变量对该主成分具有同等的重要性,并且均成正比关系,故可认为该主成分是反映“整个证券市场景气”的综合指标;从第二主成分的系数来看,有关化学产业证券(X1,X2,X3)的系数均为负,有关石油产业证券(X4,X5)的系数均为正,说明该主成分代表化学产业证券和石油产业证券的对立关系,故可认为该主成分是反映“有关产业情报”的综合指标。第11页,共49页,2023年,2月20日,星期二用SAS/INSIGHT方式进行主成分分析选定数据集Analyze

Multivariate(YX)

将各分析变量都选为Y变量

Output

选中主成分分析(PrincipalComponentAnalysis)复选框

OK.用分析员应用方式进行主成分分析选定数据集Statistics

MultivariatePrincipalComponents…

选择分析变量OK.第12页,共49页,2023年,2月20日,星期二第五章SAS系统多元统计分析功能§5.1主成分分析与PRINCOMP过程§5.2因子分析与FACTOR过程§5.3判别分析与STEPDISC、DISCRIM过程§5.4聚类分析与CLUSTER过程★★第13页,共49页,2023年,2月20日,星期二因子分析(FactorAnalysis)因子分析是主成分分析的推广,它通过少数几个不可直接测量的、独立的、专业上有意义的公因子来说明相关变量之间复杂结构关系;因子分析与主成分分析的不同:后者是寻找反映多个指标的独立的综合指标,而前者是寻找解释多个指标的独立的公因子,若初始因子难以合理解释,可利用因子旋转法从旋转后因子得到合理解释;因子分析的主要用途:利用公因子来探索和解释原多个指标对个体特征的描述,对原始变量进行分门别类的综合评价等。第14页,共49页,2023年,2月20日,星期二FACTOR过程的主要功能进行因子分析、分量分析和因子旋转;对因子模型使用正交旋转和斜交旋转;用回归法计算得分系数,同时把因子得分值存储在输出数据集中。PROC

FACTORDATA=<数据集>OPTIONS

VAR变量名列;

PRIORS变量共通性的预估值;

PARTIAL变量名列;

WEIGHT变量名列;

FREQ变量名列;

BY变量名列;RUN;FACTOR过程的一般形式第15页,共49页,2023年,2月20日,星期二PROCFACTOR过程的常用选项1.关于数据存储的选项:OUT=<数据集>把原始资料和计算的因子存入指定数据集;OUTSTAT=<数据集>把几乎所有的因子分析结果都详尽地存入指定数据集。2.关于数据输出的选项:ALL(输出PLOT以外的全部统计量),CORR(输出相关系数),EIGENVECTORS(输出特征值),MSA(输出部分相关系数),NPLOT(指定PLOT的因子数),RESIDUALS(输出残差的相关系数),SCORE(输出因子得分),SCREE(利用特征值作SCREEPLOT),SIMPLE(输出基础统计量).第16页,共49页,2023年,2月20日,星期二3.有关提取因子的常用选项:M(ETHOD)=PRIN(PRIORS=ONE)主成分分析法;M=PRIN(PRIORS=SMC)主因子分析法;M=ML(PRIORS=SMC)最大似然法;MIN(EIGEN)=n设定最小特征根的值;N(FACTORS)=n指定初始因子的数量。PROCFACTOR过程的常用选项4.有关规定因子轴旋转方法的常用选项:R(OTATE)=VARIMAX|ORTHOMAX|PROMAX|QUARTIMAX界定因子轴的旋转方法(最大方差法|正交最大方差法|在正交最大方差旋转基础上进行斜交旋转|四次方最大法),内定值为R=NONE(不进行坐标变换)

。第17页,共49页,2023年,2月20日,星期二VAR语句指定因子分析中使用的变量;WEIGHT语句对已输入的资料附加加权数据;FREQ语句表示变量的频数;PARTIAL语句除去特定变量的线性效果后,利用偏相关分析或者协方差矩阵进行分析;BY语句按指定变量分类(需先排序)后,对每一个分类进行因子分析。PROCFACTOR过程的常用语句第18页,共49页,2023年,2月20日,星期二PROCSCOREDATA=<原始数据集>

SCORE=<FACTOR过程中的输出数据集>OUT=<得分输出数据集>;

VAR用来计算得分的原始变量集合;RUN;计算因子得分需事先在FACTOR语句中增加SCORE和OUTSTAT=<输出数据集>选项第19页,共49页,2023年,2月20日,星期二dataone(type=corr);

_type_='corr';

input

_name_$x1x2x3x4x5@@;

cards;x11....x20.5771...x30.5090.5991..x40.3870.3890.4361.x50.4620.3220.4260.5231;run;procfactorscreenfact=2scorerotate=varimax;

varx1-x5;run;对例5.1中五只证券的平均收益率进行因子分析例5.2第20页,共49页,2023年,2月20日,星期二输出结果(1):(初始因子载荷矩阵)(旋转后因子载荷矩阵)(化学产业因子)(石油产业因子)第21页,共49页,2023年,2月20日,星期二特征值对因子的散点图(碎石图)输出结果(2):第22页,共49页,2023年,2月20日,星期二输出结果(3):第23页,共49页,2023年,2月20日,星期二第五章SAS系统多元统计分析功能§5.1主成分分析与PRINCOMP过程§5.2因子分析与FACTOR过程§5.3判别分析与STEPDISC、DISCRIM过程§5.4聚类分析与CLUSTER过程★★★第24页,共49页,2023年,2月20日,星期二判别分析(DiscriminantAnalysis)判别分析是根据表明事物特点的变量值及其分类,求出判别函数,再根据判别函数对未知所属类别的事物进行分类的一种分析方法;判别分析的步骤:⑴在各归属类的K个独立变量中,选择对判别分析有显著影响的P个独立变量;⑵利用被选定的P个独立变量的观测值拟合判别函数;⑶计算判别函数的误判率,分析判别函数模型的选择是否正确;⑷利用已建立的判别函数判别新样本(观测值)的归属类别。第25页,共49页,2023年,2月20日,星期二PROCSTEPDISCDATA=<数据集>OPTIONS

VAR变量名列;

CLASS因(类)变量;

BY变量名列;RUN;STEPDISC过程的一般形式(利用逐步判别分析法对变量进行筛选)语句说明:CLASS语句指明归属类的变量(数值变量、文字变量均可);

BY语句按指定变量分类(需先排序)后,对每一个分类进行逐步判别分析。第26页,共49页,2023年,2月20日,星期二常用选项有:METHOD=STEPWISE|FORWARD|BACKWARD

指定筛选变量的方法(逐步排除法|顺向选择法|反向淘汰法);SHORT只显示判别分析的最后结果;SLE=α(内定为0.15)在顺向选择法中,规定变量被纳入模型要达到的显著性水平;SLS=α(内定为0.15)在反向淘汰法中,规定某一变量留在模型内要达到的显著性水平。STEPDISC过程的一般形式第27页,共49页,2023年,2月20日,星期二PROCDISCRIMDATA=<数据集>OPTIONS

CLASS因(类)变量;

VAR变量名列;

PRIORS

概率;

WEIGHT变量名列;

TESTCLASS变量名列;

BY变量名列;RUN;DISCRIM过程的一般形式第28页,共49页,2023年,2月20日,星期二1.关于资料的选项:TESTDATA=<数据集>指定用来交叉确认判别函数有效度的数据集,与TESTLIST,TESTLISTERR选项或TESTCLASS等指令合并使用;OUT=<数据集>把观测值、后验概率和分类结果存储入指定数据集;OUTSTAT=<数据集>把归属类的平均值、标准差、相关系数、判别函数系数等统计量存储入指定数据集;TESTOUT=<数据集>把在TESTDATA中指定数据集的观测值、后验概率和分类结果存储入指定数据集.PROCDISCRIM过程的常用选项第29页,共49页,2023年,2月20日,星期二2.关于界定判别函数种类的选项:METHOD=NOMAL|NPAR指定建立判别函数的方法(参数方法|非参数方法);POOL=YES利用合并协方差阵建立判别函数(线性);POOL=NO利用总体协方差阵建立判别函数(二次);

POOL=TEST检验总体协方差阵的齐性,满足齐性条件建立线性判别函数,不满足则建立二次判别函数;SLPOOL=α用于设定检验两类协方差阵齐性的显著性水平.PROCDISCRIM过程的常用选项第30页,共49页,2023年,2月20日,星期二3.关于数据输出的常用选项:LIST(输出所有观测值的分类结果),LISTERR(输出误判观测值的分类结果),TESTLIST(输出存储在TESTDATA中的观测值的分类结果),TESTLISTERR(输出存储在TESTDATA中误判观测值的分类结果),BCORR(输出各类间的相关矩阵),ALL(输出全部结果),ANOVA(利用多变量方差分析各类平均值相等的假设),DISTANCE(输出两类间的距离),SIMPLE(输出变量的描述统计量).PROCDISCRIM过程的常用选项第31页,共49页,2023年,2月20日,星期二CLASS语句指明归属类的变量;

VAR语句指定判别分析中使用的变量;WEIGHT语句对已输入的资料附加加权数据;PRIORS语句指定先验概率;TESTCLASS语句指定存储在TESTDATA中的某些变量,以检验其观测值是否存在误判的情况;BY语句按指定变量分类(需先排序)后,对每一个分类进行判别分析。PROCDISCRIM过程的常用语句第32页,共49页,2023年,2月20日,星期二数据集SUNNY.BANKRY是为研究中小企业破产模型而收集的38个企业的相关财务数据资料,各变量含义如下:X1—总负债率(CashFlow/TotalDebt);

X2—收益性指标(NetIncome/TotalAssets);X3—短期支付能力(CurrentAssets/CurrentLiabilities);

X4—生产效益性指标(CurrentAssets/NetSales);Y—类别(0=已破产企业,1=正常运营企业).

例4.9第33页,共49页,2023年,2月20日,星期二proc

stepdisc

data=sunny.bankry

method=stepwise;

var

x1-x4;

class

y;run;输出结果(部分):第34页,共49页,2023年,2月20日,星期二proc

discrimdata=sunny.bankry

pool=testslpool=0.05

listerroutstat=one;

varx2x3;

classy;run;proc

print

data=one;run;第35页,共49页,2023年,2月20日,星期二输出结果(部分):可见,应拒绝两类的协方差矩阵相等的原假设,即两类的协方差矩阵不满足方差齐性的要求,应建立二次判别函数.第36页,共49页,2023年,2月20日,星期二输出结果(部分):(后验概率的计算方法)(误报样本信息)误判率先验概率假设第37页,共49页,2023年,2月20日,星期二现有新的8个企业的财务资料如下,试分析它们归属上述两类的后验概率并分类。例4.9(续)OBSX1X2X3X4Y10.040.011.500.7102-0.06-0.061.370.40030.07-0.011.370.3404-0.13-0.141.420.44050.150.062.230.56160.160.052.310.20170.290.061.840.38180.540.112.330.481第38页,共49页,2023年,2月20日,星期二datatwo;inputx1-x4y;cards;

0.04 0.01 1.50 0.71 0-0.06-0.06 1.370.40 00.07-0.01 1.37 0.34 0-0.13-0.14 1.42 0.44 00.15 0.06 2.23 0.56 10.16 0.05 2.31 0.20 10.29 0.06 1.84 0.38 10.54 0.11 2.33 0.48 1;run;proc

discrim

data=onetestdata=twotestlist;

classy;

testclassy;run;第39页,共49页,2023年,2月20日,星期二输出结果:第40页,共49页,2023年,2月20日,星期二第五章SAS系统多元统计分析功能§5.1主成分分析与PRINCOMP过程§5.2因子分析与FACTOR过程§5.3判别分析与STEPDISC、DISCRIM过程§5.4聚类分析与CLUSTER过程★★★★第41页,共49页,2023年,2月20日,星期二聚类分析(ClusterAnalysis)聚类分析是依据事物的性质和特征的不同,将具有相似性质或距离的个体聚为一类,具有不同性质的个体聚为不同类的分类方法;聚类分析与判别分析的区别:前者是用某种方法把分类未知的观测进行合理分类,使同一类的观测比较接近,是无指导的学习;后者则是已知分类然后总结出判别规律,是有指导的学习;SAS系统提供了谱系聚类(常用)、快速聚类、变量聚类等聚类过程。第42页,共49页,2023年,2月20日,星期二谱系聚类法(HierarchicalClusterMethod)谱系聚类法有合并聚类和分割聚类两种,前者是把较有密切相似性关系的个体逐一聚类,由原来的n个类最后变成一个新类;后者是把非相似性关系的个体逐一分割出去,由原来的一个类最后变成n个新类,以合并聚类法较为常用;两类之间距离的定义方法主要有:最短距离法(SingleLinkageMethod)、最长距离法(CompleteLinkageMethod)、类平均法(AverageLinkageMethod)、重心法(CentroridLinkageMethod).第43页,共49页,2023年,2月20日,星期二CLUSTER过程实现谱系聚类的分析过程PROCCLUSTERDATA=<数据集>OPTIONS

VAR变量名列;

ID变量名列;

COPY变量名列;

FREQ变量名列;

BY变量名列;RUN;一般形式:第44页,共49页,2023年,2月20日,星期二CLUSTER过程的常用选项1.关于资料的选项:OUTTREE=<数据集>把谱系聚类树输出到指定数据集,可用TREE过程绘图并实际分类;OUTSTAT=<数据集>把聚类分析的结果存入到指定数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论