版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1页,共133页,2023年,2月20日,星期四1、多元线性回归模型及实例2、多元线性回归模型的显著性检验3、多元线性回归模型的诊断4、非线性回归一、多元回归分析第2页,共133页,2023年,2月20日,星期四
1、多元线性回归模型
一个因变量与两个及两个以上自变量的回归。描述因变量y如何依赖于自变量x1,x2,…,xp
和误差项
的方程,称为多元回归模型。涉及k个自变量的多元回归模型可表示为:
b0
,b1,b2
,,bp是参数;
是被称为误差项的随机变量;y是x1,,x2
,,xp
的线性函数加上误差项;
包含在y里面但不能被p个自变量的线性关系所解释的变异性。第3页,共133页,2023年,2月20日,星期四多元线性回归模型
(基本假定)1.解释变量x1,x2,…,xp是确定性变量.不是随机变量,且要求样本容量的个数应大于解释变量的个数。2.误差项ε是一个期望值为0的随机变量,即E()=0。3.对于自变量x1,x2,…,xp的所有值,的方差2都相同。4.误差项ε是一个服从正态分布的随机变量,即ε~N(0,2),且相互独立。第4页,共133页,2023年,2月20日,星期四二元线性回归方程的直观解释二元线性回归模型(观察到的y)回归面0ix1yx2(x1,x2)}第5页,共133页,2023年,2月20日,星期四
多元线性回归方程的参数估计
用样本统计量估计回归方程中的参数
时得到的方程。由最小二乘法求得。一般形式为是的估计值;是y的估计值。第6页,共133页,2023年,2月20日,星期四参数的最小二乘法求解各回归参数的标准方程如下使因变量的观察值与估计值之间的离差平方和达到最小来求得
。即第7页,共133页,2023年,2月20日,星期四参数的最小二乘法
(例题分析)例1生产总值是衡量一个国家地区经济发展的重要指标,影响一个国家或地区生产总值的因素包括资本、资源、科技、劳动力、进出口、国家基础设施建设等方面的因素。本例研究财政支出对生产总值的影响。《中国统计年鉴》把财政支出划分为31个组成部分,本例只选取其中的13个重要支出项。第8页,共133页,2023年,2月20日,星期四回归系数表用spss软件计算的回归系数如下:第9页,共133页,2023年,2月20日,星期四
需要注意的是,这一回归方程并不理想,回归系数的经济意义不好解释,这里只是作为多元线性回归参数估计的一例,后边我们还要进一步完善这一模型的建立。第10页,共133页,2023年,2月20日,星期四2、回归方程显著性检验检验因变量与所有自变量之间的线性关系是否显著;也被称为总体的显著性检验。检验方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系;如果不显著,因变量与自变量之间不存在线性关系。第11页,共133页,2023年,2月20日,星期四线性关系检验提出假设H0:12p=0线性关系不显著H1:1,2,p至少有一个不等于02.计算检验统计量F确定显著性水平和分子自由度k、分母自由度n-k-1找出临界值F
4.作出决策:若F>F
,拒绝H0第12页,共133页,2023年,2月20日,星期四表中的Sig即为显著性P值,由P值=0.000(近似值)可知回归方程十分显著。即可以以99.9%以上的概率断言自变量所有自变量全体对因变量产生显著线性影响。对例1回归方程的检验:
第13页,共133页,2023年,2月20日,星期四回归系数显著性检验线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验对每一个自变量都要单独进行检验应用t检验统计量第14页,共133页,2023年,2月20日,星期四回归系数的检验步骤提出假设H0:bi=0(自变量xi
与
因变量y没有线性关系)H1:bi
0(自变量xi
与
因变量y有线性关系)计算检验的统计量t确定显著性水平,并进行决策t>t,拒绝H0;t<t,不拒绝H0第15页,共133页,2023年,2月20日,星期四回归系数的推断
(置信区间)回归系数在(1-)%置信水平下的置信区间为
回归系数的抽样标准差第16页,共133页,2023年,2月20日,星期四例4.1spss计算出的t值和P值对回归系数的检验:第17页,共133页,2023年,2月20日,星期四结果发现:
并不是所有的自变量单独对因变量都有显著性影响,最大的P值为0.926>0.05,在取显著性水平a=0.05时通不过显著性检验。这个例子说明:尽管回归方程通过了显著性检验,但也会出现某些单个自变量(甚至每一个)对因变量并不显著的情况。由于某些自变量不显著,因而在多元回归中并不是包含在回归方程中的自变量越多越好。第18页,共133页,2023年,2月20日,星期四在此介绍一种剔除多余自变量的方法剔除x3科技三项费后:第19页,共133页,2023年,2月20日,星期四剔除x6工交部门事业费后:第20页,共133页,2023年,2月20日,星期四依次剔除,最终只保留x1,x2,x4,x8,x10,x11,x12,x13,其回归系数见下表:第21页,共133页,2023年,2月20日,星期四多元线性回归分析操作(一)基本操作步骤(1)菜单选项:analyze->regression->linear…(2)选择一个变量为因变量进入dependent框(3)选择一个或多个变量为自变量进入independent框(4)选择多元回归分析的自变量筛选方法:enter:所选变量全部进入回归方程(默认方法)remove:从回归方程中剔除变量stepwise:逐步筛选;backward:向后筛选;forward:向前筛选(5)对样本进行筛选(selectionvariable)利用满足一定条件的样本数据进行回归分析(6)指定作图时各数据点的标志变量(caselabels)第22页,共133页,2023年,2月20日,星期四多元线性回归分析操作(二)statistics选项(1)基本统计量输出Partandpartialcorrelation:与Y的简单相关、偏相关和部分相关Rsquarechange:每个自变量进入方程后R2及F值的变化量Collinearitydignostics:共线性诊断.第23页,共133页,2023年,2月20日,星期四多元线性回归分析操作例2某医生为了探讨缺碘地区母婴TSH水平的关系,随机抽取10对数据如下,试求脐带血TSH水平y对母血TSH水平x的直线回归方程。第24页,共133页,2023年,2月20日,星期四第25页,共133页,2023年,2月20日,星期四Analyze
→Regression→Linear…
检验步骤第26页,共133页,2023年,2月20日,星期四LinearRegression对话框应变量自变量计算统计量第27页,共133页,2023年,2月20日,星期四Statistics对话框回归系数估计回归系数可信区间模型检验统计描述第28页,共133页,2023年,2月20日,星期四点击“OK”,运行结果第29页,共133页,2023年,2月20日,星期四结果输出第30页,共133页,2023年,2月20日,星期四统计描述第31页,共133页,2023年,2月20日,星期四相关系数及假设检验结果P值相关系数第32页,共133页,2023年,2月20日,星期四相关系数及决定系数R值=相关系数R的平方修正的R方第33页,共133页,2023年,2月20日,星期四回归方程的方差分析回归平方和剩余平方和自由度均方F值P值第34页,共133页,2023年,2月20日,星期四回归系数及其统计推断结果标准化系数是指把原始数据进行标准化处理之后回归的结果。此时回归方程中常数项为零。第35页,共133页,2023年,2月20日,星期四回归系数及其统计推断结果常数项自变量非标准化回归系数标准化回归系数a值b值第36页,共133页,2023年,2月20日,星期四回归系数及其统计推断结果t值P值回归系数可信区间第37页,共133页,2023年,2月20日,星期四3、多元线性回归模型的诊断异方差性自相关性多重共线性第38页,共133页,2023年,2月20日,星期四异方差性产生的原因:
,当时。例:在研究城镇居民收入与购买量的关系时,我们知道居民收入与消费水平有着密切的关系,用表示第i户的收入量,表示第i户的消费额,则简单的消费模型为
在此问题中,由于各户的收入不同,消费观念和习惯的差异,通常存在明显的差异性。一般情况下,低收入家庭购买差异比较小,而高收入家庭购买差异相对较大。第39页,共133页,2023年,2月20日,星期四异方差性当存在异方差时,普通最小二乘法存在以下问题★参数估计值虽是无偏的,但不是最小方差线性无偏估计;★参数的显著性检验失效;★回归方程的应用效果极不理想。诊断方法:★残差图分析法:直观、方便。以残差为纵坐标,其它适宜变量(如拟合值、自变量或观测时间等)为横坐标画散点图。如点的散布是随机的,则满足基本假定;如散布有规律性,存在异方差。★等级相关系数法(Spearman检验):广泛。三步骤:
第40页,共133页,2023年,2月20日,星期四异方差性第一步:作y关于x的普通最小二乘回归,求出的估计值,即第二步:取的绝对值,把和按递增或递减的次序排列分成等级,按下式计算出等级相关系数其中n为样本容量,为等级的差数。第三步:做等级相关系数的显著性检验。在n>8的情况下,检验统计量为如果,存在异方差。第41页,共133页,2023年,2月20日,星期四异方差性消除异方差的方法:
加权最小二乘法(最常用)
Box- Cox变换法方差稳定性变换法第42页,共133页,2023年,2月20日,星期四自相关性产生的原因:1、遗漏关键变量;2、经济变量的滞后性;3、采用错误的回归函数形式;4、蛛网现象;5、对数据加工整理。第43页,共133页,2023年,2月20日,星期四自相关性诊断方法:★图示检验法★自相关系数法再用DW检验。第44页,共133页,2023年,2月20日,星期四自相关性消除自相关的方法:
迭代法差分法第45页,共133页,2023年,2月20日,星期四多重共线性诊断方法:★方差扩大因子法
SPSS:在线性回归对话框的Statitics选项框中点选
CollinearityDiagnostic共线性诊断选项,然后作回归。★特征根判定法★直观判定法:如增加或剔除一个自变量时,回归系数的估计值发生较大变化;定性分析的重要自变量在回归方程中没有通过显著性检验;重要自变量的回归系数的标准误差较大等。消除方法:
1、剔除一些不重要的解释变量2、增大样本容量
3、回归系数的有偏估计第46页,共133页,2023年,2月20日,星期四非线性回归非线性回归模型参数估计:非线性最小二乘估计SPSS操作步骤:
1、散点图,确定非线性关系
2、Regression菜单下点选Nonlinear,进入非线性回归对话框。
第47页,共133页,2023年,2月20日,星期四本章结束第48页,共133页,2023年,2月20日,星期四2、聚类分析第49页,共133页,2023年,2月20日,星期四分类俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法,可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。
第50页,共133页,2023年,2月20日,星期四聚类分析对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本章要介绍的分类的方法称为聚类分析(clusteranalysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。第51页,共133页,2023年,2月20日,星期四如何度量远近?如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。第52页,共133页,2023年,2月20日,星期四两个距离概念按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距离。由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。第53页,共133页,2023年,2月20日,星期四:平方欧氏距离:Block(绝对距离):Si|xi-yi|Minkowski距离:当变量的测量值相差悬殊时,要先进行标准化.如R为极差,s为标准差,则标准化的数据为每个观测值减去均值后再除以R或s.当观测值大于0时,有人采用Lance距离欧氏距离距离公式第54页,共133页,2023年,2月20日,星期四最短距离法:最长距离法:重心法:离差平方和:(Wald)类平均法:类间距离第55页,共133页,2023年,2月20日,星期四聚类分析的实质就是按照距离的远近将数据分为若干个类型,以使得类别内数据的“差异”尽可能小,类别间“差异”尽可能大。如何描述“差异”?通常的做法是通过距离和相似性的方式来描述。聚类分析第56页,共133页,2023年,2月20日,星期四1、层次聚类法:根据定义的距离把距离接近的数据一步一步归为一类直到数据完全归为一类,最后再利用一些相应的指标来确定聚为几类是合适的。树状图是层次聚类法结果解释的重要工具。Analyze—Classify—HierarchicalCluster
事先不用确定分多少类层次聚类法第57页,共133页,2023年,2月20日,星期四2、非层次聚类法:给定类别个数将案例快速的分为K类,然后使用迭代的方式把数据在不同类别之间移动,直到达到一定的标准为止。K-均值聚类法为主Analyze—Classify—K-MeansCluster
事先要确定分多少类非层次聚类法第58页,共133页,2023年,2月20日,星期四层次聚类法的优点:
1、变量可以是连续的,也可以是分类变量;
2、提供的距离测量方法也非常丰富;缺点:由于每合并一次就要计算一次距离,故运算速度较慢。优缺点
第59页,共133页,2023年,2月20日,星期四一、在SPSS中利用系统聚类法进行
聚类分析设有20个土壤样品分别对5个变量的观测数据如表5.16所示,试利用系统聚类法对其进行样品聚类分析。表5.16土壤样本的观测数据第60页,共133页,2023年,2月20日,星期四第61页,共133页,2023年,2月20日,星期四
(一)操作步骤 1.在SPSS窗口中选择Analyze→Classify→HierachicalCluster,调出系统聚类分析主界面,并将变量X1~X5移入Variables框中。在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。第62页,共133页,2023年,2月20日,星期四图5.9系统聚类法主界面第63页,共133页,2023年,2月20日,星期四2.点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。这里我们选择系统默认值,点击Continue按钮,返回主界面。3.点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram复选框和Icicle栏中的None单选按钮,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。图5.10Plots子对话框第64页,共133页,2023年,2月20日,星期四4.点击Method按钮,设置系统聚类的方法选项。ClusterMethod下拉列表用于指定聚类的方法,包括组间连接法、组内连接法、最近距离法、最远距离法等;Measure栏用于选择对距离和相似性的测度方法;剩下的TransformValues和TransformMeasures栏用于选择对原始数据进行标准化的方法。这里我们仍然均沿用系统默认选项。单击Continue按钮,返回主界面。第65页,共133页,2023年,2月20日,星期四图5.11Method子对话框第66页,共133页,2023年,2月20日,星期四5.点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。None表示不保存任何新变量;Singlesolution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Rangeofsolutions表示生成多个分类变量。这里我们选择Rangeofsolutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果。点击Continue,返回主界面。第67页,共133页,2023年,2月20日,星期四图5.12Save子对话框6.点击OK按钮,运行系统聚类过程。第68页,共133页,2023年,2月20日,星期四(二)主要运行结果解释1.在结果输出窗口中我们可以看到聚类树形图(Dendrogram)。从树形图5.12可以清楚地看到,若将20个样品分为两类,则样品2、6、19、7、和样品1为一类,其余的为另一类;若将样品分为三类,则样品8、9、4从第二类中分离出来,自成一类;依此类推。第69页,共133页,2023年,2月20日,星期四图5.13系统聚类法树形图第70页,共133页,2023年,2月20日,星期四2.由于我们已经在Save子对话框中设置了在数据文件中生成新的分类变量,所以,在数据编辑窗口中,我们可以看到生成的三个表示分类结果的新变量。变量名为clu4_1、clu3_1和clu2-1的三个分类变量分别表明了把样品分成4类、3类和2类的分类情况。图5.14生成三个新的分类变量第71页,共133页,2023年,2月20日,星期四二、在SPSS中利用K均值法进行聚类分析我国各地区2003年三次产业产值如表5.17所示,试根据三次产业产值利用K均值法对我国31个省、自治区和直辖市进行聚类分析。第72页,共133页,2023年,2月20日,星期四当要聚成的类数确定时,使用K均值法可以很快将观测量分到各类中去,而且该方法处理速度快,占用内存少,尤其适用于大样本的聚类分析。(一)操作步骤1.在SPSS窗口中选择Analyze→Classify→K-MeansCluster,调出K均值聚类分析主界面,并将变量—移入Variables框中,将标志变量Region移入LabelCaseby框中。在Method框中选择Iterateclassify,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classifyonly,则根据初始类中心进行聚类,在聚类过程中不改变类中心)。在NumberofCluster后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将31个地区分为3类。至于Centers按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。第73页,共133页,2023年,2月20日,星期四图5.15K均值聚类分析主界面第74页,共133页,2023年,2月20日,星期四
2.点击Iterate按钮,对迭代参数进行设置。MaximumIterations参数框用于设定K-means算法迭代的最大次数,ConvergenceCriterion参数框用于设定算法的收敛判据,其值应该介于0和1之间。例如判据设置为0.02,则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时,迭代停止。设置完这两个参数之后,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。这里我们选择系统默认的标准。单击Continue,返回主界面。图5.16Iterate子对话框第75页,共133页,2023年,2月20日,星期四
3.点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。其中Clustermembership选项用于建立一个代表聚类结果的变量,默认变量名为qcl_1;Distancefromclustercenter选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。我们将两个复选框都选中,单击Continue按钮返回。图5.17Save子对话框第76页,共133页,2023年,2月20日,星期四
4.点击Options按钮,指定要计算的统计量。选中Initialclustercenters和Clusterinformationforeachcase复选框。这样,在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离。单击Continue返回。
5.点击OK按钮,运行K均值聚类分析程序。图5.18Options子对话框第77页,共133页,2023年,2月20日,星期四 (二)主要运行结果解释
1.InitialClusterCenters(给出初始类中心)
2.IterationHistory(给出每次迭代结束后类中心的变动) 从表5.18中可以看到本次聚类过程共经历了三次迭代。由于我们在Iterate子对话框中使用系统默认的选项(最大迭代次数为10和收敛判据为0),所以在第三次迭代后,类中心的变化为0,从而迭代停止。第78页,共133页,2023年,2月20日,星期四
3.ClusterMembership(给出各观测量所属的类及与所属类中心的距离) 表5.19中Cluster列给出了观测量所属的类别,Distance列给出了观测量与所属类中心的距离。(出于排版要求,此表经过加工,因此与原始输出表形态有一定差异)。表5.18迭代过程中类中心的变化量第79页,共133页,2023年,2月20日,星期四表5.19各观测量所属类成员表第80页,共133页,2023年,2月20日,星期四
4.FinalClusterCenters(给出聚类结果形成的类中心的各变量值)表5.20最终的类中心表第81页,共133页,2023年,2月20日,星期四结合表5.19和表5.20,我们可以看出31个地区被分成3类。第一类包括:江苏、浙江、山东和广东4个省。这一类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元,属于三个产业都比较发达的地区。第二类包括:天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区。这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和673.63亿元,属于欠发达地区。剩下的11个地区为第三类。这一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和212.87亿元,属于中等发达地区。
5.由于我们已经在Save子对话框中设置了在数据文件中生成新的分类变量,所以,在数据编辑窗口中,我们可以看到生成的两个表示分类结果的新变量。变量qcl_1和变量qcl_2分别代表分类号和观测量距所属类中心的距离。第82页,共133页,2023年,2月20日,星期四聚类要注意的问题
聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。
另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。第83页,共133页,2023年,2月20日,星期四本章结束第84页,共133页,2023年,2月20日,星期四
3、主成分分析多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。第85页,共133页,2023年,2月20日,星期四主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。第86页,共133页,2023年,2月20日,星期四
第87页,共133页,2023年,2月20日,星期四第五节实例分析与计算机实现一主成分分析实例
二利用SPSS进行主成分分析
第88页,共133页,2023年,2月20日,星期四一、主成分分析实例表6.1是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:
X1:年末固定资产净值,单位:万元;
X2:职工人数据,单位:人;
X3:工业总产值,单位:万元;
X4:全员劳动生产率,单位:元/人年;
X5:百元固定资产原值实现产值,单位:元;
X6:资金利税率,单位:%;
X7:标准燃料消费量,单位:吨;
X8:能源利用效果,单位:万元/吨。第89页,共133页,2023年,2月20日,星期四表6.1某市工业部门13个行业8项指标第90页,共133页,2023年,2月20日,星期四我们要考虑的是:如何从这些经济指标出发,对各工业部门进行综合评价与排序?我们先计算这些指标的主成分,然后通过主成分的大小进行排序。表6.2和表6.3分别是特征根(累计贡献率)和特征向量的信息。利用主成分得分进行综合评价时,从特征向量我们可以写出所有8个主成分的具体形式:第91页,共133页,2023年,2月20日,星期四表6.2特征根和累计贡献率第92页,共133页,2023年,2月20日,星期四表6.3特征向量第93页,共133页,2023年,2月20日,星期四表6.4各行业主成分得分及排序第94页,共133页,2023年,2月20日,星期四我们以特征根为权,对8个主成分进行加权综合,得出各工业部门的综合得分,具体数据见表6.4。综合得分的计算公式是: 根据上式可计算出各工业部门的综合得分,并可据此排序。从上表可以看出,机器行业在该地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势,另外从前两个主成分得分上看,该行业也排在第一位,同样存在效益优势;而排在最后三位的分别是皮革行业、电力行业和煤炭行业。第95页,共133页,2023年,2月20日,星期四二、利用SPSS进行主成分分析SPSS没有提供主成分分析的专用功能,只有因子分析的功能。但是因子分析和主成分分析有着密切的联系。因子分析的重要步骤——因子的提取最常用的方法就是“主成分法”。利用因子分析的结果,可以很容易地实现主成分分析。具体来讲,就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量。即:其中,zij为第j个特征向量的第i个元素;aij为因子载荷阵第i 行第j列的元素;λj为第j个因子对应的特征根。然后再利用 计算出的特征向量来计算主成分。以下是我国2005年第1、2季度分地区城镇居民家庭收支基本情况。通过这个例子,介绍如何利用SPSS软件实现主成分分析。第96页,共133页,2023年,2月20日,星期四表6.5分地区城镇居民家庭收支基本情况
第97页,共133页,2023年,2月20日,星期四表6.5分地区城镇居民家庭收支基本情况
第98页,共133页,2023年,2月20日,星期四 (一)利用SPSS进行因子分析将原始数据输入SPSS数据编辑窗口,将5个变量分别命名为X1~X5。在SPSS窗口中选择Analyze→DataReduction→Factor菜单项,调出因子分析主界面,并将变量X1~X5移入Variables框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程(关于因子分子在SPSS中实现的详细过程,参见第7章实例)。得到如表6.6所示的特征根和方差贡献率表和表6.7所示的因子载荷阵。表6.6中Total列为各因子对应的特征根,本例中共提取两个公因子;%ofVariance列为各因子的方差贡献率;Cumulative%列为各因子累积方差贡献率,由表中可以看出,前两个因子已经可以解释79.31%的方差第99页,共133页,2023年,2月20日,星期四图6.2因子分析主界面第100页,共133页,2023年,2月20日,星期四表6.6特征根和方差贡献率表第101页,共133页,2023年,2月20日,星期四 (二)利用因子分析结果进行主成分分析
1.将表6.7中因子载荷阵中的数据输入SPSS数据编辑窗口,分别命名为a1和a2。表6.7因子载荷阵第102页,共133页,2023年,2月20日,星期四
2.为了计算第一个特征向量,点击菜单项中的Transform→Compute,调出Computevariable对话框,在对话框中输入等式:
z1=a1/SQRT(2.576)
点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。 再次调出Computevariable对话框,在对话框中输入等式:
z2=a2/SQRT(1.389)
点击OK按钮,得到以z2为变量名第二特征向量。这样,我们得到了如表6.8所示的特征向量矩阵。第103页,共133页,2023年,2月20日,星期四图6.3Computevariable对话框第104页,共133页,2023年,2月20日,星期四根据表6.8可以得到主成分的表达式:
3.再次使用Compute命令,就可以计算得到两个主成分。表6.8特征向量矩阵第105页,共133页,2023年,2月20日,星期四本章结束第106页,共133页,2023年,2月20日,星期四因子分析一般认为因子分析是从CharlesSpearman在1904年发表的文章《对智力测验得分进行统计分析》开始,他提出这种方法用来解决智力测验得分的统计方法。目前因子分析在心理学、社会学、经济学等学科中都取得了成功的应用,是多元统计分析中典型方法之一。因子分析(factoranalysis)也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。第107页,共133页,2023年,2月20日,星期四例如,在商业企业的形象评价中,消费者可以通过一系列指标构成的一个评价指标体系,评价百货商场的各个方面的优劣。但消费者真正关心的只是三个方面:商店的环境、商店的服务和商品的价格。这三个方面除了价格外,商店的环境和服务质量,都是客观存在的、抽象的影响因素,都不便于直接测量,只能通过其它具体指标进行间接反映。因子分析就是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。又比如,在研究区域社会经济发展中,描述社会与经济现象的指标很多,过多的指标容易导致分析过程复杂化。一个合适的做法就是从这些关系错综复杂的社会经济指标中提取少数几个主要因子,每一个主要因子都能反映相互依赖的社会经济指标间共同作用,抓住这些主要因素就可以帮助我们对复杂的社会经济发展问题进行深入分析、合理解释和正确评价。第108页,共133页,2023年,2月20日,星期四因子分析的内容非常丰富,常用的因子分析类型是R型因子分析和Q型因子分析。R型的因子分析是对变量作因子分析,Q型因子分析是对样品作因子分析。本章侧重讨论R型因子分析。第109页,共133页,2023年,2月20日,星期四第五节实例分析与计算机实现一利用SPSS进行因子分析二因子分析在市场研究中的应用第110页,共133页,2023年,2月20日,星期四一、利用SPSS进行因子分析
第111页,共133页,2023年,2月20日,星期四 (一)操作步骤
1.在SPSS窗口中选择Analyze→DataReduction→Factor,调出因子分析主界面图(7.1),并将变量X1—X13移入Variables框中。图7.1因子分析主界面第112页,共133页,2023年,2月20日,星期四
2.点击Descriptives按钮,展开相应对话框,见图7.2。选择Initialsolution复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击Continue按钮,返回主界面。图7.2Descriptives子对话框第113页,共133页,2023年,2月20日,星期四
3.点击Extraction按钮,设置因子提取的选项,见图7.3。在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。在Display栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。在Extract栏中指定因子提取的数目,有两种设置方法:一种是在Eigenvaluesover后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Numberoffactors后的矩形框中输入要求提取的公因子的数目。这里我们均选择系统默认选项,单击Continue按钮,返回主界面。第114页,共133页,2023年,2月20日,星期四图7.3Extraction子对话框第115页,共133页,2023年,2月20日,星期四
4.点击Rotation按钮,设置因子旋转的方法。这里选择Varimax(方差最大旋转),并选择Display栏中的Rotatedsolution复选框,在输出窗口中显示旋转后的因子载荷阵。单击Continue按钮,返回主界面。图7.4Rotation子对话框第116页,共133页,2023年,2月20日,星期四
5.点击Scores按钮,设置因子得分的选项。选中Saveasvariables复选框,将因子得分作为新变量保存在数据文件中。选中Displayfactorscorecoefficientmatrix复选框,这样在结果输出窗口中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 19618:2025 EN Fine ceramics (advanced ceramics,advanced technical ceramics) - Measurement method for normal spectral emissivity using blackbody reference with an FTIR s
- 广东水利电力职业技术学院《分子生物学(英文)》2023-2024学年第一学期期末试卷
- 广东石油化工学院《建筑工程概预算课程A》2023-2024学年第一学期期末试卷
- 2025新北师大版英语七年级下单词默写表(英译汉)
- 【名师伴你行】2020高考历史-二轮强化提能专训:综合检测卷(含2013年模拟、调研试题-含解析)
- 《红对勾》2022届高考英语人教版新课标一轮总复习-滚动测试28
- 【9语一模】2024年合肥市蜀山区中考一模语文试题
- 【高考总动员】2022届高考语文一轮总复习-考点综合练4
- 2025年七年级统编版语文寒假复习 专题07 写作(考点剖析+对点训练)
- 天津市红桥区2024-2025学年高三上学期期末英语试题词汇清单(含答案)
- 北京邮电大学《数学物理方法概论》2023-2024学年第一学期期末试卷
- 人教版(2024)数学七年级上册期末测试卷(含答案)
- 医院护理10s管理
- 北京市东城区2023-2024学年八年级上学期期末生物试题
- ISO28000:2022供应链安全管理体系
- 人教版六年级数学下册全册分层作业设计含答案
- 起重机设计手册
- 小学二年级上册道德与法治教学工作总结
- 超声波治疗仪的临床应用(软组织损伤篇)
- 汽油调和技术
- 105凤凰佳影后台用户手册(简洁版)全解
评论
0/150
提交评论