SAS系统和数据分析非线性回归分析_第1页
SAS系统和数据分析非线性回归分析_第2页
SAS系统和数据分析非线性回归分析_第3页
SAS系统和数据分析非线性回归分析_第4页
SAS系统和数据分析非线性回归分析_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三十四课第三十四课 非线性回归分析非线性回归分析 现实世界中严格的线性模型并不多见,它们或多或少都带有某种程度的近似;在不少情 况下,非线性模型可能更加符合实际。由于人们在传统上常把“非线性”视为畏途,非线性 回归的应用在国内还不够普及。事实上,在计算机与统计软件十分发达的令天,非线性回归 的基本统计分析已经与线性回归一样切实可行。在常见的软件包中(诸如 SAS、SPSS 等等) , 人们已经可以像线性回归一样,方便的对非线性回归进行统计分析。因此,在国内回归分析 方法的应用中,已经到了“更上一层楼” ,线性回归与非线性回归同时并重的时候。 对变量间非线性相关问题的曲线拟合,处理的方法主要有

2、: 首先决定非线性模型的函数类型,对于其中可线性化问题则通过变量变换将其线 性化,从而归结为前面的多元线性回归问题来解决。 若实际问题的曲线类型不易确定时,由于任意曲线皆可由多项式来逼近,故常可 用多项式回归来拟合曲线。 若变量间非线性关系式已知(多数未知) ,且难以用变量变换法将其线性化,则 进行数值迭代的非线性回归分析。 一、一、 可变换成线性的非线性回归可变换成线性的非线性回归 在实际问题中一些非线性回归模型可通过变量变换的方法化为线性回归问题。例如,对 非线性回归模型 t i titit ixbixay 2 1 0 sincos(34.1) 即可作变换: tttttttt xxxxxx

3、xx2sin,2cos,sin,cos 4321 将其化为多元线性回归模型。一般地,若非线性模型的表达式为: tmmttt xgbxgbxgbby 22110 (34.2) 则可作变量变换: tmmttttt xgxxgxxgx * 2 * 21 * 1 ,(34.3) 将其化为线性回归模型的表达式,从而用前面线性模型的方法来解决,其中式(34.3) 中的 xt 也可为自变量构成的向量。 这种变量变换法也适用于因变量和待定参数 bi 。如: 1exp 2132211 ttttt xxbxbxbay(34.4) 时上式两边取对数得: 1lnln 2132211 ttttt xxbxbxbay(3

4、4.5) 现作变换: 1,ln,ln 2130 * ttttt xxxabyy(34.6) 则可得线性表达式: tttt xbxbxbby 3322110 * (34.7) 利用前面方法确定了,并由得到 的值。3 , 2 , 1 , 0, ibi) exp( 0 ba a 变量变换的线性化方法可推广到下列形式的非线性模型: tmmmtt xgbcxgbcbcyh)()()()( 11100 (34.8) 其中 x=(x1,x2,xp) ,而 h(yt) 、ci(bi) 、gi(xt)则分别化为新的因变量、线性回归 参数和自变量,即可归结为线性回归模型来解。表 34.1 给出了一些常见的可线性化

5、的非 线性模型。 表表 34.1 典型的函数及线性化方法典型的函数及线性化方法 函数名称函数表达式线性化方法 双曲线函数 x b a y 1 y v 1 x u 1 幂函数 b axy yvlnxuln bx aey yvlnxu 指数函数 xb aey / yvln x u 1 对数函数xbayln yv xuln S 型函数 x bea y 1 y v 1 x eu 当曲线的函数类型未确定时,我们常采用上述非线性模型作为其拟合曲线,即将自变量 的各种初等函数的组合作为新自变量,用逐步回归法(或正交筛选法等)对新变量进行筛选, 以确定一个项数不多的线性函数表达式。该方法对表达式形式没限制且精

6、度要求不高的问题 颇为有效。 二、二、 多项式回归分析多项式回归分析 在式(34.2)中,若取,则为多项式回归模型。由数学分析知识可知,一般函数 i i xxg 都可用多项式来逼近,故多项式回归分析可用来处理相当广泛的非线性问题。 对观测数据(xt,yt) (t= 1,N) ,多项式回归模型为: ,t=1,2,N t m tmttt xbxbxbby 2 210 令 , N y y y Y 2 1 m NNN m m xxx xxx xxx X 2 2 2 22 1 2 11 1 1 1 m b b b B 1 0 N 2 1 则模型可表示为: XBY 当 X 列满秩时,由前面的讨论知,其最小

7、二乘估计为: YXXXB 1 由此即可求得其多项式回归方程。但由于的计算既复杂又不稳定,故我们一 1 X X 般采用正交多项式法来进行多项式回归。 三、三、 不可变换成线性的非线性回归分析不可变换成线性的非线性回归分析 假设因变量 y 与自变量(x1,x2,,xp)之间满足非线性模型: ;, 21p xxxFy (34.9) 其中, 为未知参数,F 为已知表达式, 为误差项。 m , 21 现将观察数据: , t=1,2,N ptttt xxxy, 21 代人式(34.9)得非线性回归模型: , t=1,2,N tptttt xxxFy;, 21 常记为: EFY)( 其中,为 y 的观察向量

8、,为非线性回归系数, N yyyY, 21 m , 1 E =为观察误差向量,F 为未知参数的函数向量。非线性回归分析就是 N , 21 利用最小二乘准则来估计回归系数,即求 使得残差平方和: FYFYEEQ 2 1 2 1 在 处达到最小。 非线性回归分析一般用数值迭代法来进行,其共同特点是:由选定的初值出发, 0 通过逐步迭代: t 0 (34.10) 即选择适当的步长 t ( 0 ) 及确定搜索方向向量(1,2,m) ,使得: 0 QQ(34.11) 再由取代,重复上述迭代过程,直至 Q()可认为达到最小值为止,即可将所得的 0 作为其最小二乘估计,从而得到非线性回归方程 ;, 21p

9、xxxFy 1. 下降方向和步长的选择下降方向和步长的选择 首先考察的梯度向量(即导数): FYFYEEQ 2 1 2 1 FYGFY FQ 其中,为 F 的梯度矩阵。 m FFF G , 1 为使迭代收敛到,其迭代公式应满足下降性质(34.11)。现考虑一元函数 0 ,它从出发以 为方向的射线上取值。由复合求导公式得:tQt 0 0 GFY Q td t 0 可以证明,当 d0 时,在以 为方向向量的射线上可以找到,使得t 0 。我们将满足 d0 的称为下降方向下降方向,Bard 于 1974 年给出了为下降方向 0 QQ 的充要条件为: FYGP 其中,P 为对称正定阵,由此我们可得下降算

10、法的迭代公式为: FYGtP 0 (34.12) 其中,P 为任意正定阵,G 为 F 的梯度,t 为满足的正实数,即步长。 0 QQ 如何计算以便修改参数向量有五种常用的非线性回归迭代方法:高斯牛顿法 (Gauss-Newton) 、最速下降法(梯度法,Gradient) 、牛顿法(Newton) 、麦夸特法 (Marquardt) 、正割法(DUD) 。以下我们介绍高斯牛顿法。 2. 高斯牛顿法高斯牛顿法 首先选取的一切初始近似值,令,则只要确定的值即可确定。为 0 0 此,考虑在处的 Taylor 展开式,并略去二次以上的项得:)(F 0 GF F FFF 000 0 其中,为 F 的梯度

11、。此时其残差平方和: 0 F G GFYGFYQ 00 2 1 由,得其的正则方程为:0 Q 0 FYGGG(34.13) 故 0 1 FYGGG (34.14) 由此即可用前面线性回归法求,只需将、视为前面(34.1)式中的G)( 0 FY X、Y 即可。此时,对给定精度、 ,当或时,即得 1 2 1 maxi i 2 0 Q 最小二乘法估计;否则用所得的代替,重复上述步骤,直至或 0 0 i Q()满足精度要求为止。该法称为高斯牛顿法,其一般迭代公式为: i ii t 1 (34.15) 其中,为的解,ti为的最 iiii FYGGGtQt i 小值点。 高斯牛顿法在初值选取适当,且可逆时

12、非常有效,但在其他情形,其求解较 0 G G 为困难,对此,Marguardt 对(34.14)中的正则系数阵作适当修正,得到了改进算法。 四、四、 nlin 非线性回归过程非线性回归过程 在很多场合,可以对非线性模型进行线性化处理,尤其是关于变量非线性的模型,以运 用 OLS 进行推断。对线性化后的线性模型,可以应用 SAS 的 reg 过程进行计算。 多项式模型可以直接应用 glm(广义线性模型)求解。对于不能线性化的非线性模型。 其估计不能直接运用经典的最小二乘法,而需要运用其他估计方法,如直接搜索法、直接最 优法与 Taylor 级数展开法进行线性逼近。此时,可以利用 SAS/STAT

13、 的 nlin 过程实现相应 的计算。 1. proc nlin 过程过程 proc nlin 采用最小误差平方法(Least Squares Method)及循环推测法(Iterative Estimation Method)来建立一个非线性模型。一般而言,用户必须自定参数的名字、参数的 启动值(starting va1ue) 、非线性的模型与循环推测法所用的准则。若用户不指明,则 nlin 程序自动以高斯牛顿迭代法(Gauss-Newton iterative procedure)为估计参数的方法。另外 此程序也备有扫描(Grid search)的功能来帮助读者选择合适的参数启动值。由于非

14、线性回 归分析十分不易处理,nlin 程序不保证一定可以算出符合最小误差平方法之标准的参数估计 值。 nlin 过程的功能,计算非线性模型参数的最小二乘估计 LS 及加权最小二乘估计。与 reg 过程不同的是:模型的参数要命名、赋初值、求偏导数;model 语句与参数名、解释变量的 表达式有关;可以使用赋值语句及条件语句。 nlin 过程一般由下列语句控制: proc nlin data=数据集 ; parameters 参数名=数值 ; model 因变量表达式 ; bounds 表达式 ; der. .参数名参数名= 表达式; id 变量列表; output out=数据集 ; by 变量

15、列表; run ; 其中,parameters 语句和 model 语句是必需的,而其余语句供用户根据需要选择。 2. proc nlin 语句中的主要选择项语句中的主要选择项 outest数据集名数据集名指定存放参数估计的每步迭代结果的数据集名。指定存放参数估计的每步迭代结果的数据集名。 bestn要求过程只输出网格点初始值可能组合中最好的要求过程只输出网格点初始值可能组合中最好的 n 组残差平方和。组残差平方和。 methodgauss | marquardt | newton| gradient| dud |设定参数估计的迭代方法。设定参数估计的迭代方法。 缺省时为缺省时为 gauss,

16、除非没有,除非没有 der.语句。语句。 eformat要求所有数值以科学记数法输出。要求所有数值以科学记数法输出。 nopoint抑制打印输出。抑制打印输出。 noinpoint抑制迭代结果的输出。抑制迭代结果的输出。 3. parameters(parms)语句)语句 用于对所有参数赋初值,项目之间以空格分隔。例如,parms b0=0 b1=1 to 10 b2=1 to 10 by 2 b3=1,10,100; 4. model 语句语句 表达式可以是获得数值结果的任意有效 SAS 表达式。这个表达式包括参数名字、输入 数据集中的变量名以及在 nlin 过程中用程序设计语句创建的新变量

17、。例如,model y=b0*(1exp(-b1*x); 5. bounds 语句语句 用于设定参数的约束,主要是不等式约束,约束间用逗号分隔。例如,bounds a30,1=c = = = 0,且 m 个非零特征值所对应的特征向量分别为 1 2 m 1m p ,则: 1 a 2 a m a 111 1 maxVaaVaa aa 222 0 1 1 maxVaaVaa aa aa mmm miaa aa VaaVaa i )1, 2, 1(0 1 max 那么,把矩阵的非 0 特征根 0 所对应的单位特征向量,V 1 2 m 1 a ,分别作为,的系数向量,分别称为随机 2 a m ax 1

18、(x 2 x ) p xxaxaxa m , 21 向量的第 1 主成分、第 2 主成分,第 m 主成分。当时xji 0),( jijjiji aaVaaxaxaCOV (35.3) 所以,主成分之间是不相关的。而且可以看到,主成分分析主要就是由观察数据阵 得到协方差的估计,从出发计算它的特征值和特征向量。XVVV 维随机向量的主成分其实就是个变量的一些特殊的线性组合,在pXp p xxx, 21 几何上这些线性组合正好把构成的原坐标系统经过旋转后产生新坐标系统,这 p xxx, 21 个新坐标系统的轴方向上具有最大的变异,同时提供了协方差阵的最简洁的表示(非对角线 上为 0) 。例如,我们有

19、一个=2 维随机向量的=100 个点构成一个椭圆形状,如图pXn 351 所示。第一主成分则是这个椭圆的长轴方向,因为原坐标系的 100 点按长轴方向旋转 后数据最离散,具有最大的方差,设定旋转方向的表示为单元圆上的一个单位方向,与长轴 平行的单位方向具有,因此,不难求出第一主成分的系数向量),( 2111 aa1 2 21 2 11 aa 的具体值。而椭圆的短轴与长轴是垂直的,是第二个主成分的方向,因为短轴是),( 2111 aa 与长轴不相关方向中具有最大的方差,同样与短轴平行的单位方向具有),( 2212 aa ,同求第一主成分的系数向量一样,我们也能容易求出的具体值。1 2 22 2

20、12 aa),( 2212 aa 用开头 个主成分形成的 维子空间,从几何上看,当采用从每个数据点到子空间的垂ii 直距离的平方和作为度量时,这个 维子空间对数据点给出了最好的拟合。例如,在图i 351 所示中,所有数据点到第一主成分轴(椭圆的长轴)的垂直距离的平方和是最小的。 要特别注意,它不同于最小二乘回归的几何表示,回归是最小化所有数据点到拟合直线的垂 直偏差的平方和。 七、七、 贡献率与累积贡献率贡献率与累积贡献率 图 351 二维随机向量的第一、第二主成分示意图 由主成分的性质可知,主成分的方差, ,与随机变量xaxaxa m , 21 1 2 m x1, x2,xp的方差 S11,

21、S22,Spp之间有关系: ppp SSS 221121 (35.4) 我们称: p j jkk P 1 /(35.5) 为第k个主成分的贡献率,它反映了第k个主成分提取全部信息的多少。又称: p j jj k j11 /(35.6) 为前 k 个主成分的累积贡献率,它反映了前 k 个主成分共同提取全部信息的多少。我们进一 步还可以考虑第 k 主成分与 p 个变量 x1, x2,xp的相关系数,称其为因子负荷量,记 为 L(Zk,xi)(对相关阵的主成分或标准化后的数据),有: piaxZL ikkik , 2 , 1,(35.7) 其中, ik a为第k个特征值所对应的特征向量的第i个分量。

22、 八、八、 样本资料数据的主成分分析样本资料数据的主成分分析 在实际分析中,我们一般得到如表(35.1)所示的数据资料,设,),( 21 p XXXx 第 i 个样品的数据为,样本资料数据用矩阵表示为),( 21 ipiii xxxx ),( 21 n xxxX,则平均值向量为,其中,协方差矩阵的估计 1 1 X n x ) 1 , 1 , 1 ( 1 量为,其中。我们可以求出协方差矩阵的特征根和特征XXM n V 0 1 1 1 1 0 n IMV 向量,不妨设为 0,其所对应的特征向量分别为,那么, 1 2 m 1 a 2 a m a 就是向量的第一主成分、第二主成分,第 m 主成分。xa

23、xaxa m , 21 x 实际上我们没有必要求出向量的全部主成分。一般情况下,如果前m个主成分的累x 积贡献率大于等于85%,则就取m个主成分,就已经能够反映全部p个变量的绝大部分信息 了。 九、九、 数据的标准化数据的标准化 实际的数据单位往往不一致,这会给分析带来不便,为此,常将数据进行标准化的处 理,即使得第i个变量的均值为0,方差为1。设,令 n j jii x n x 1 1 njpi S xx x ii iji ji , 2 , 1;, 2 , 1 称为标准化后的数据。实际计算时首先对数据进行标准化处理,这样所得出的协方差阵 ji x 与相关阵就是相同的。 一、一、应注意的几个问

24、题应注意的几个问题 主成分分析,除了用来综合变量之间的关系外,亦可用来削减回归分析或聚类分析中的 变量数目。此外,为了达到最大变异的目的,我们可用主成分分析将原来的变量转变为成分, 在获得所要的成分之后,可将各变量的原始数据转换为成分数据,以供进一步深入的统计分 析。通常,在进行主成分分析时,应注意下面几个问题: 主成分分析是通过降维技术用少数几个综合变量来代替原始多个变量的一种统计 分析方法。这些综合变量集中了原始变量的大部分信息。 第一主成分所包含的信息量最大,第二主成分其次,其他主成分依次递减,各主 成分之间互不相关,这就保证了各主成分所含的信息互不重复。在实际研究里, 研究者如果用不超

25、过五或六个主成分,就能解释变异之 70%80%,已可令人满意。 取多少个主成分,既要考虑之前几个主成分的累计贡献率达到一定比例,也要考 虑到应选取尽可能少的主成分以较好地达到降维的目的。Kaiser(1960)主张将 特征值小于 1 的主成分予以放弃,而只保留特征值大于 1 的主成分。 当各变量的单位不相同时,应从相关矩阵出发进行主成分分析。 计算出主成分之后,应对要使用的前若干个主成分作出符合实际背景和意义的解释。 一一、一一、princomp 主成分过程主成分过程 主成分分析过程为princomp,可以从原始变量分析,也可直接从协方差矩阵、相关系 数矩阵或叉积阵(SSCP)分析。分析结果可

26、以存储到数据集中,供其他过程调用。 princomp 过程一般由下列语句控制: proc princomp data=数据集 ; var 变量列表; partial 变量列表; weight 变量; freq 变量; by 变量; run ; princomp 过程的结果表包括每一变量的简单统计数、相关系数或方差协方差矩阵、 特征值和特征向量等。 1. proc princomp 语句语句。 typecov 或或 typecorr指明数据集类型,例如,指明数据集类型,例如,datanew typecorr:表:表 明明 new 为一相关系数为一相关系数 corr 数据集。数据集。 out数据集

27、名数据集名规定存储原始数据和主分量得分的输出数据集。规定存储原始数据和主分量得分的输出数据集。 outstat数据集名数据集名生成一个包括变量的平均数、标准差、相关系数、特征值、生成一个包括变量的平均数、标准差、相关系数、特征值、 特征向量的输出数据集。另外,如果规定特征向量的输出数据集。另外,如果规定 cov 选项,还包括由协方差矩阵进行的计算(一选项,还包括由协方差矩阵进行的计算(一 般由相关系数矩阵进行计算)般由相关系数矩阵进行计算) 。 n个数个数指定主分量个数。指定主分量个数。 std要求在要求在 out的数据集里把主成分得分标准化为单位方差。如果没有规定此的数据集里把主成分得分标准

28、化为单位方差。如果没有规定此 项,主成分得分的方差等于相应的特征值。项,主成分得分的方差等于相应的特征值。 noint要求在模型中不含截距。要求在模型中不含截距。 noprint不打印输出分析结果。不打印输出分析结果。 2. proc princomp 过程中的主要语句。过程中的主要语句。 var 语句语句指明分析的数值变量。如果省略指明分析的数值变量。如果省略 var 语句,则对所有数值变量进行分语句,则对所有数值变量进行分 析。析。 partial 语句语句指明对偏相关阵或偏协方差矩阵进行分析时,被偏出去的这些数指明对偏相关阵或偏协方差矩阵进行分析时,被偏出去的这些数 值变量的名字。值变量

29、的名字。 一二、一二、实例分析实例分析 例例 35.1 调查美国 50 个州 7 种犯罪率,得结果列于表 35.1,其中,给出的是美国 50 个 州每 100 000 个人中七种犯罪的比率数据。这七种犯罪是:murder(杀人罪) ,rape(强奸罪) ,robbery(抢劫罪) ,assault(斗殴罪) ,burglary(夜盗罪) ,larceny(偷盗罪) ,auto(汽 车犯罪) ,试作主成分分析。很难直接从这七个变量出发来评价各州的治安和犯罪情况,而 使用主成分分析却可以把这些变量概括为两个或三个综合变量(即主成分) ,以便帮助我们 较简便地分析这些数据。 表表 35.1 美国美国

30、 50 个州七种犯罪的比率数据个州七种犯罪的比率数据 state 州 Murder 杀人罪 rape 强奸罪 robbery 抢劫罪 assault 斗殴罪 burglary 夜盗罪 larceny 偷盗罪 auto 汽车犯罪 ALABAMA14.225.296.8278.31135.51881.9280.7 ALASKA10.851.696.8284.01331.73369.8753.3 ARIZONA9.534.2138.2312.32346.14467.4439.5 ARKANSAS8.827.683.2203.4972.61862.1183.4 CALIFORNIA11.549.428

31、7.0358.02139.43499.8663.5 COLORADO6.342.0170.7292.91935.23903.2477.1 CONNECTICUT4.216.8129.5131.81346.02620.7593.2 DELAWARE6.024.9157.0194.21682.63678.4467.0 FLORIDA10.239.6187.9449.11859.93840.5351.4 GEORGIA11.731.1140.5256.51351.12170.2297.9 HAWAII7.225.5128.064.11911.53920.4489.4 IDAHO5.519.439.6

32、172.51050.82599.6237.6 ILLINOIS9.921.8211.3209.01085.02828.5528.6 INDIANA7.426.5123.2153.51086.22498.7377.4 IOWA2.310.641.289.8812.52685.1219.9 KANSAS6.622.0100.7180.51270.42739.3244.3 KENTUCKY10.119.181.1123.3872.21662.1245.4 LOUISIANA15.530.9142.9335.51165.52469.9337.7 MAINE2.413.538.7170.01253.12

33、350.7246.9 MARYLAND8.034.8292.1358.91400.03177.7428.5 MASSACHUSETTS3.120.8169.1231.61532.22311.31140.1 MICHIGAN9.338.9261.9274.61522.73159.0545.5 MINNESOTA2.719.585.985.81134.72559.3343.1 MISSISSIPPI14.319.665.7189.1915.61239.9144.4 MISSOURI9.628.3189.0233.51318.32424.2378.4 MONTANA5.416.739.2156.88

34、04.92773.2309.2 NEBRASKA3.918.164.7112.7760.02316.1249.1 NEVADA15.849.1323.1355.02453.14212.6559.2 NEW HAMPSHIRE3.210.723.276.01041.72343.9293.4 NEW JERSEY5.621.0180.4185.11435.82774.5511.5 NEW MEXICO8.839.1109.6343.41418.73008.6259.5 NEW YORK10.729.4472.6319.11728.02782.0745.8 NORTH CAROLINA10.617.

35、061.3318.31154.12037.8192.1 NORTH DAKOTA0.99.013.343.8446.11843.0144.7 OHIO7.827.3190.5181.11216.02696.8400.4 OKLAHOMA8.629.273.8205.01288.22228.1326.8 OREGON4.939.9124.1286.91636.43506.1388.9 PENNSYLVANIA5.619.0130.3128.0877.51624.1333.2 RHODE ISLAND3.610.586.5201.01489.52844.1791.4 SOUTH CAROLINA1

36、1.933.0105.9485.31613.62342.4245.1 SOUTH DAKOTA2.013.517.9155.7570.51704.4147.5 TENNESSEE10.129.7145.8203.91259.71776.5314.0 TEXAS13.333.8152.4208.21603.12988.7397.6 UTAH3.520.368.8147.31171.63004.6334.5 VERMONT1.415.930.8101.21348.22201.0265.2 VIRGINIA9.023.392.1165.7986.22521.2226.7 WASHINGTON4.33

37、9.6106.2224.81605.63386.9360.3 WEST VIRGINIA6.013.242.290.9597.41341.7163.3 WISCONSIN2.812.952.263.7846.92614.2220.7 WYOMING5.421.939.7173.9811.62772.2282.0 1. 1. 建立数据文件建立数据文件 程序如下: data princ1 ; input state $1-15 murder rape robbery assault burglary larceny auto ; title Crime rates per 100,000 popu

38、lation by state ; cards ; ALABAMA 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7 ALASKA 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3 WYOMING 5.4 21.9 39.7 173.9 811.6 2772.2 282.0 ; run ; 2. 调用调用主成分主成分分析分析 princomp 过程过程 菜单操作方法为选择 Globals/SAS/Assist/Data Analysis/Multivariate/Principal Components(主成分分析)命令,再选择

39、Active data set 为 work.princ1,Columns to be analyzed 为所有 7 个变量,在 Additional options 选项子菜单中,将 Table to contain original data and scores 项所指定的表数据集设为 crimcomp,然后提交运行。编程方法如下: proc princomp data=princ1 out=crimcomp ; proc sort data=crimcomp ; by prin1 ; proc print ; id state ; var prin1 prin2 murder rape

40、 robbery assault burglary larceny auto ; proc sort data=crimcomp ; by prin2 ; proc print ; id state ; var prin1 prin2 murder rape robbery assault burglary larceny auto ; proc plot data=crimcomp formchar=|-|+|- vpct=65 hpct=65; plot prin2*prin1=state ; run ; 程序说明程序说明:proc princomp 语句进行主成分分析,结果存储在 cri

41、mcomp 数据集中(输出 结果见表 35.2) ; proc sort 过程按第一主成分 prin1 和第二主成分 prin2 进行排序,结果由 proc print 过程输出(输出结果见表 35.3 和表 35.4) ;proc plot 过程按第一和第二主成分作 散点图(输出图这里省略) 。运行后得到以下结果: 表表 35.2 对美国对美国 50 个州七种犯罪比率的主成分分析个州七种犯罪比率的主成分分析 表表 35.3 按第一主成分排序的美国按第一主成分排序的美国 50 个州(给出前个州(给出前 5 条和后条和后 5 条)条) 表表 35.5 按第二主成分排序的美国按第二主成分排序的美国

42、 50 个州(给出前个州(给出前 5 条和后条和后 5 条)条) Principal Component Analysis 50 Observations 7 Variables (a) Simple Statistics (简单描述统计量) MURDER RAPE ROBBERY ASSAULT Mean 7. 25. 124. 211. StD 3. 10. 88. 100. BURGLARY LARCENY AUTO Mean 1291. 2671. 377. StD 432. 725. 193. (b) Correlation Matrix (相关矩阵) MURDER RAPE ROB

43、BERY ASSAULT BURGLARY LARCENY AUTO MURDER 1.0000 0.6012 0.4837 0.6486 0.3858 0.1019 0.0688 RAPE 0.6012 1.0000 0.5919 0.7403 0.7121 0.6140 0.3489 ROBBERY 0.4837 0.5919 1.0000 0.5571 0.6372 0.4467 0.5907 ASSAULT 0.6486 0.7403 0.5571 1.0000 0.6229 0.4044 0.2758 BURGLARY 0.3858 0.7121 0.6372 0.6229 1.00

44、00 0.7921 0.5580 LARCENY 0.1019 0.6140 0.4467 0.4044 0.7921 1.0000 0.4442 AUTO 0.0688 0.3489 0.5907 0.2758 0.5580 0.4442 1.0000 (c) Eigenvalues of the Correlation Matrix (相关矩阵的特征值) Eigenvalue Difference Proportion Cumulative PRIN1 4.11496 2.87624 0. 0.58785 PRIN2 1.23872 0.51291 0. 0.76481 PRIN3 0.7

45、2582 0.40938 0. 0.86850 PRIN4 0.31643 0.05846 0. 0.91370 PRIN5 0.25797 0.03593 0. 0.95056 PRIN6 0.22204 0.09798 0. 0.98228 PRIN7 0.12406 . 0. 1.00000 (d) Eigenvectors (特征向量) PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 PRIN6 PRIN7 MURDER 0. -. 0. -. 0. 0. 0. RAPE 0. -. -. 0. 0. -. -. ROBBERY 0. 0. 0. -. -. -. -. A

46、SSAULT 0. -. -. 0. -. 0. 0. BURGLARY 0. 0. -. -. 0. 0. -. LARCENY 0. 0. -. -. 0. 0. 0. AUTO 0. 0. 0. 0. 0. -. 0. STATE PRIN1 PRIN2 MURDER RAPE ROBBERY ASSAULT BURGLARY LARCENY AUTO NORTH DAKOTA -3.96408 0.38767 0.9 9.0 13.3 43.8 446.1 1843.0 144.7 SoutH DAKOTA -3.17203 -0.25446 2.0 13.5 17.9 155.7 5

47、70.5 1704.4 147.5 WEST VIRGINIA -3.14772 -0.81425 6.0 13.2 42.2 90.9 597.4 1341.7 163.3 IOWA -2.58156 0.82475 2.3 10.6 41.2 89.8 812.5 2685.1 219.9 WISCONSIN -2.50296 0.78083 2.8 12.9 52.2 63.7 846.9 2614.2 220.7 ARIZONA 3.01414 0.84495 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5 FLORIDA 3.11175 -0.603

48、92 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4 NEW YORK 3.45248 0.43289 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8 CALIFORNIA 4.28380 0.14319 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5 NEVADA 5.26699 -0.25262 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2 3. 结果分析结果分析 表 35.2 中输出结果(a)包括基本统计数,即每一变量的平均数、标准差。表 35

49、.2 中输出 结果(b)为简单相关系数矩阵。表 35.2 中输出结果(c)为输出相关矩阵的特征值。表 35.2 中输出结果(d)为特征向量。我们从相关矩阵出发进行主成分分析。从表 35.2 中输出结果 (c)可以看出,在最后一列累计贡献率中,前两个主成分的累计贡献率已达 76.5,前三个主 成分的累计贡献率达 86.9,最终为 100%。因此,可以考虑只取前面两个或三个主成分, 它们能够很好地概括这组数据。其中第一主成分分量的特征值为 4.11496,其方差为 2.87624,贡献率为 4.11496/7=58.7851%,请注意七个主成分分量的特征值之和为 7。由表 35.2 中输出结果(d)中的 7 个特征值和特征向量,我们可以写出由标准化变量所表达的第一主 成分为: PRIN1=0. murder + 0. rape +0. robbery +0.assault + 0. burglary +0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论