应用多元统计分析课件_第1页
应用多元统计分析课件_第2页
应用多元统计分析课件_第3页
应用多元统计分析课件_第4页
应用多元统计分析课件_第5页
已阅读5页,还剩513页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元正态分布2

第一节多元分布的基本概念

本节基本内容:一、随机向量二、多元分布函数和多元密度函数三、边缘密度、独立性与条件分布四、多维随机向量的数字特征

3一、随机向量所随机变量通俗理解就是“其值随机会而定”的量。本课程讨论的是多变量的情形,也即随机向量:设为个随机变量,由它们组成向量,则称作维随机向量。在不做特别说明的情况下,向量、矩阵用粗体表示;涉及总体的变量用大写字母表示,涉及样本的变量用小写字母表示;随机变量用大写字母表示,其实现值用小写字母表示。4在理论上,对多维随机向量的研究和对一维随机变量的研究思路是类似的,通过分布及其特征进行刻画。不同的是,可能要考虑变量之间的相关关系。在统计应用上,对多维随机向量的研究和对一维随机变量的研究思路也是一样的,要通过样本资料来推断总体。一、随机向量5如果同时对个变量作一次观测,得到观测值:,称观测值为一个样品;若这样的观测重复进行次,可得到个样品

()。把这样的个样品放在一起,称之为一个样本。常排成矩阵:一、随机向量6需要说明的是,从横向看,矩阵的第行

表示对第个样品的一次观测值。当然,在获得具体观测之前,是一个维随机向量。从纵向上看,矩阵的第列表示对第个变量的次重复观测值,在获得具体观测之前,是一个随机变量。一、随机向量7二、多元分布函数和多元密度函数随机向量(变量)离散型、连续型刻画随机向量(变量)分布函数、密度函数8分布函数设为一随机向量,它的多元分布函数定义为:记为。

随机向量的统计特性可用它的分布函数来完整地描述。二、多元分布函数和多元密度函数9密度函数(设为维随机向量)连续型。若称为的的联合分布密度函数。

离散型。若存在有限或可列个维向量,使得,且满足,则称()为的概率分布(本质上为密度函数)。二、多元分布函数和多元密度函数10以连续型变量为例进行讨论。多维随机向量的边缘密度。若为维随机向量,由它的()个分量组成的子向量的分布称为的边缘(边际)分布。通过变换中的各分量的次序,总可以假定正好是的前个分量,其余个分量记为,则可表示为:

三、多维随机向量的边缘密度、独立性与条件分布11此时,的分布函数为。若的联合分布密度为,则的边缘密度函数为:,(2.3)多维随机向量的独立性。若个随机变量的联合分布密度等于各自边缘分布的乘积,则称是互相独立的。三、多维随机向量的边缘密度、独立性与条件分布12多维随机向量的条件分布。当的密度函数为,的密度函数为时,给定时的条件密度为

称给定时的分布为条件分布。三、多维随机向量的边缘密度、独立性与条件分布13概率分布是对随机变量的概率性质最完整的刻画。优点是刻画的完整性,不便之处在于表示形式有时是非常复杂的。而随机变量的数字特征,则是指某些由随机变量的分布所决定的常数,它刻画了随机变量(或者其分布)的某一方面的性质。对于多维随机变量刻画其性质的最重要的数字特征有均值、自协差阵与协差阵及相关矩阵。为了便于讨论,设为维随机向量,为维随机向量。四、多维随机向量的数字特征14若()存在,则随机向量的均值可定义为:其中是一个维向量,称为均值向量。四、多维随机向量的数字特征15若和的协方差()存在,则称为的自协差阵(简称协差阵),有时,把简记为。四、多维随机向量的数字特征16若和的协方差()存在,则随机向量、的协差阵记为若(表示零矩阵),则称与不相关。四、多维随机向量的数字特征17随机向量均值及协差阵具有如下性质:(1);(2);(3);(4);(5)为非负定对称矩阵;(6);(7)。四、多维随机向量的数字特征18

若维随机向量的协差阵存在,且每个分量的方差大于零,则称随机向量的相关阵为

其中四、多维随机向量的数字特征19若记为自协差阵对角线元素的平方根形成的对角矩阵,则自协差阵和相关阵的关系可表述为:四、多维随机向量的数字特征20

第二节多元正态分布及其参数估计

本节基本内容:一、多元正态分布密度函数二、多元正态分布的数字特征三、多元正态分布的参数估计四、多维随机向量的数字特征

21用来刻画多维随机向量统计特性的常见的多元分布有很多,除了多元正态分布还有多元对数正态分布、多项式分布、多元超几何分布、多元分布、多元分布、多元指数分布等。这里主要介绍多元正态分布,其原因是多元统计分析的主要方法是建立在多元正态分布的假设之上的。尽管实际分析数据可能不会严格服从多元正态分布的,但有三个原因使多元正态分布在实际中有着广泛的应用:一是,正态分布在许多情况下确实能作为真实总体的一个近似;二是,根据中心极限定理,不论总体的分布如何,许多统计量的分布是近似正态分布的;三是,很多检验统计量的分布对正态分布条件是稳健的,即原始资料对正态的偏离对检验结果影响不大。22若维随机向量的概率密度函数为,(2.6)则称服从维正态分布,简记为,其中是维向量,是阶正定矩阵。一、多元正态分布密度函数23多元正态随机向量具有以下的性质:(1)若,其协差阵是对角阵,则的各分量是相互独立的随机变量。(2)多元正态分布随机向量的任何一个分量子集的分布仍然服从正态分布。(3)多元正态分布随机向量的任意线性变换仍然是服从多元正态分布。若,令,为阶方阵,则。一、多元正态分布密度函数24若,则,,即恰好是多维随机向量的均值向量,恰好是多维随机向量的协差阵。其中,,二、多元正态分布的数字特征25在实际应用中,多元正态分布中的均值向量和协差阵通常是未知的,需要由样本资料来估计,而参数估计的方法很多,最常见的是极大似然估计法给出估计量:用样本均值向量估计总体均值向量,用样本协差阵估计总体协差阵。三、多元正态分布的参数估计26一般情况下,从多元正态总体中按照随机原则,抽取容量为的样本,则样本数据矩阵为三、多元正态分布的参数估计27设每个样品是相互独立的,则利用极大似然估计可求出三、多元正态分布的参数估计28矩阵是实对称矩阵,因此只写出上三角部分。事实上,按照最大似然估计的结果,是的无偏估计,但不是的无偏估计。为了得到无偏估计量,通常作出调整:令,

(2.7)则是的无偏估计。在一定得假设下,可以证明和还是和的“最小方差”无偏估计量,即和是和的有效估计。常称为样本均值,为样本协差阵。三、多元正态分布的参数估计29

第三节多元正态分布的假设检验

本节基本内容:一、多元正态总体的三个重要抽样分布二、一个正态总体均值向量的假设检验三、两个正态总体均值向量的检验四、多个正态总体均值向量的检验——多元方差分析五、正态总体的协方差阵检验

30

一元正态总体中,参数、的检验要设计到一个总体、两个总体乃至多个总体的检验问题。用于检验、的抽样分布主要有分布、分布、分布等,它们都是由来自正态总体的随机样本导出的检验统计量的分布。推广到多元正态总体,类似于一元假设检验情形,多元统计分析中也需要对各种均值向量和协差阵进行假设检验,涉及到三个重要的统计量:维希特(Wishart)统计量、霍特林(Hotelling)统计量、威尔克斯(Wilks)统计量。一、多元正态总体的三个重要抽样分布31假设检验的基本步骤均可归纳为四步:第一步,提出待检验的假设和。第二步,给出检验的统计量及其服从的分布。第三步,给定检验水平,查统计量的分布表,确定临界值,从而得到拒绝域。第四步,根据样本观测值计算出统计量的值,看是否落入拒绝域中,以便对待判假设检验做出决策。一、多元正态总体的三个重要抽样分布32设总体服从,。现从中获得样本(),样本均值向量为,要检验假设,(为已知向量)(1)总体协差阵为已知,且为正定时,可用检验统计量:当原假设成立时,统计量,给定检验水平,查分布表使,可得临二、一个正态总体均值向量的假设检验33界值,再由样本值计算,若,则拒绝原假设,否则假设相容,不能拒绝原假设。(2)当总体协方差阵未知时,用的无偏估计量代替,则检验统计量为

当原假设成立时,统计量服从分布,再利用分布与分布的关系,有

二、一个正态总体均值向量的假设检验34所以,给定检验水平,查分布表使,可得临界值,再由样本值计算,若,则拒绝原假设,否则假设相容,不能拒绝原假设。二、一个正态总体均值向量的假设检验35设有总体(),从中获得样本,样本均值向量为,另有一总体(),从中获得样本,样本均值向量为,两组样本相互独立,协差阵和为正定矩阵,且,。现在要检验假设,

(1)当协差阵相等,即,且未知时,可用检验统计量:

三、两个正态总体均值向量的检验36其中,,当原假设成立时,统计量服从霍特林分布,再利用霍特林分布与分布的关系,有

所以,给定检验水平,查分布表可得出,再由样本值计算,若,则拒绝原假设,否则相容,不能拒绝原假设。三、两个正态总体均值向量的检验37(2)协差阵不相等,即,且为未知时,具体分两种情况:第一种情况:时,令

(),,于是利用分布与分布的关系,可得检验统计量为:

第二种情况:时,不妨设时,令三、两个正态总体均值向量的检验38

()

,于是利用分布与分布的关系,可得检验统计量为:

三、两个正态总体均值向量的检验39设有个元正态总体,,…,,为正定矩阵,从每个总体中抽取独立样品个数分别为,,具体样本观测数据如下:

第一个总体:四、多个正态总体均值向量的检验——多元方差分析40第二个总体:第个总体:样本的均值向量为(),要检验的假设为,不全相等四、多个正态总体均值向量的检验——多元方差分析41记,,,利用一元情况下方差分析的思想,令总离差阵为,组内离差阵为,组间离差阵为,那么,各离差阵的计算公式为:

四、多个正态总体均值向量的检验——多元方差分析42则检验用的统计量是通过广义似然比导出的统计量(这里的广义似然比统计量等价威尔克斯统计量)为:

给定检验水平,查威尔克斯分布表,确定临界值,然后作出统计判断。当然,若没有查威尔克斯分布表的情况下,可近似用分布或分布来进行检验:设,令四、多个正态总体均值向量的检验——多元方差分析43,其中,,,

则近似服从分布,近似服从分布,这里不一定是整数,可用与它接近的整数来作为分布的自由度。

四、多个正态总体均值向量的检验——多元方差分析44

设,协差阵为正定矩阵,且为未知。从中获得样本,,为一个单位阵,是一个已知的正定矩阵,要检验假设:(1),检验所使用的似然比统计量为

其中,。五、正态总体的协方差阵检验45(2),因为为正定矩阵,所以存在()使得,令(),则因此,检验等价于检验,检验所使用的似然比统计量为:

其中,。五、正态总体的协方差阵检验46在实际应用中,由于分布的计算比较困难,实际应用中,往往采用分布的近似分布分布来近似,在原假设成立的情况下,当很大时,近似服从。五、正态总体的协方差阵检验47

设有个元正态总体,,…,,进一步假定()为正定矩阵,且为为未知。分别从各总体中取个样本,,要检验的假设为,不全相等令,其中,

。五、正态总体的协方差阵检验48检验所用的似然比统计量为

在实际应用中,将改为,改为,得修正的统计量,记为,则的近似分布为分布。

五、正态总体的协方差阵检验49其中,

五、正态总体的协方差阵检验

多元回归分析第一节多元线性回归分析本节基本内容:

一、模型和参数估计二、模型检验三、多重共线性

一、模型和参数估计(一)总体回归模型其中:

因变量为随机变量,自变量为确定变量,是固定的但未知的参数,称为总体回归系数;称为随机误差项,表示除了自变量以外被忽略的或无法考虑的其他随机的影响因素。线性:指可表述为未知参数的线性函数。一、模型和参数估计对于一个实际问题,如果我们获得组观测数据:则线性回归模型可表述为一、模型和参数估计写成矩阵形式为其中,为了估计模型,要求:,

一、模型和参数估计为了能对回归模型进行假设检验,还需假定随机误差项服从正态分布:

值得注意的是,对回归模型的解释,主要是对参数()的解释,的含义为保持其他自变量不变,当变动一个单位时,对因变量的平均影响程度。(二)参数估计一、模型和参数估计现实情况下,总体参数未知,一般需根据样本资料建立样本回归模型,从而推断总体模型,利用样本资料,可以构建模型

其中,是对的估计。需要指出的是,不是像那样是固定的数值,而是随着样本的不同,可以有不同取值,由于样本是随机的,也是随机变量。可由最小二乘法估计得到。一、模型和参数估计最小二乘法:其原理是使残差平方和达到最小,即达到最小。解形如下式的正规方程:一、模型和参数估计将其写为矩阵形式:即经过一系列求解,可得:

一、模型和参数估计上式中的估计量称为回归参数的最小二乘估计,具有以下的统计特性:(1)线性性。由其表达式可以看出,估计量是()的线性函数。进一步地,()在获得具体观测之前是随机变量,由此来讲,估计量也是随机变量。(2)无偏性。在假定(3.6)的情况下,估计量的期望分别为总体参数。也就是说,估计量是总体参数的无偏估计。一、模型和参数估计(3)最小方差性。在假定(3.6)的情况下,的协差阵为,

(

)的方差是乘以正规方程系数矩阵逆矩阵中相应对角线元素。可以证明最小二乘估计量在线性无偏估计中具有最小方差。(4)正态性。在随机误差项服从正态分布的假定下,还可以进一步证明最小二乘法估计量服从正态分布,即此时,最小二乘估计是一切无偏估计中方差最小的估计。特别地,有(

),其中,表示矩阵中第行第列的元素。二、模型检验通常来说,模型的设定只是基于定性分析作出的假设。这种假设是否符合实际,能否得到样本数据的支持,还需要在求出线性回归方程后,对回归方程进行显著性检验。多元线性回归方程的显著性检验与一元线性回归方程的显著性检验思想是一致的,但也有不同之处。这里我们介绍两种方法,一是回归方程整体显著性的检验,另一个是回归系数显著性的检验。同时,我们还介绍度量回归拟合程度的可决系数,并讨论可决系数与检验的联系。(一)回归方程的显著性检验回归方程检验,检验回归方程的回归拟合效果是否显著,实质是对回归模型的整体线性关系的显著性检验,即检验下列假设是否为真如果假设不能被拒绝,则表明随机变量与解释变量之间的关系由线性回归模型来表述是不恰当的。该检验我们可以通过构建统计量来进行:二、模型检验二、模型检验当原假设成立时,可以利用该分布对回归方程的整体显著性水平进行检验。(二)回归系数的显著性检验在多元回归模型中,自变量对因变量的影响是否显著,主要体现为回归系数是否与0存在差异,当某个自变量回归系数为0时,该自变量在回归方程中就不会产生实质影响效应。因此,检验转化为回归系数是否等于0的问题。二、模型检验因此,待检验的假设为注意:在检验中往往未知,一般采用无偏估计量由此,可构造t统计量其中当原假设成立时,构造的统计量服从自由度为的t分布。二、模型检验(三)可决系数以及修正可决系数可决系数用以描述回归方程对样本观测值的拟合程度。其计算公式为可决系数就是被回归模型解释的波动(回归平方和)占因变量观测值总波动(总离差平方和)的比重,其取值在的区间内。越接近1,表明回归方程对样本数据拟合程度越高,模型对预测越有意义;反之,越接近0,表明回归方程拟合效果越差。二、模型检验为了拟合优度受模型中自变量个数的影响,可采用自由度修正可决系数。修正可决系数公式为:分子是残差项的样本方差,分母是因变量的样本方差,二者都考虑了自由度,剔除了受自变量个数影响的问题。实际应用中,常常将与结合应用,以说明回归效果的有效性。将上面两式的结果结合,可得相互的关系为

二、模型检验还可进一步得到统计量与的关系为:需要指出,是测定因变量观测值的总离差平方和由回归模型解释的部分所占比重。而检验是因变量和一组变量(

)之间是否有线性回归关系的检验。三、多重共线性在总体模型中,我们曾假定自变量为非随机变量,且不存在完全的线性关系(即假定满秩),否则,回归模型无法求解。一般在实际应用中,只要变量选择得当,不会出现自变量之间完全的线性关系。但如果自变量的观测值之间表现出明显的高度相关,近似地形成相互线性表述关系,这在实际问题,特别是经济研究中经常出现。这一问题称为多重共线性,是多元回归分析中出现的特有问题。若出现严重的多重共线性问题,则前面的一系列统计方法就可能失效,导致错误的判定,使预测失误。需要特别引起注意。三、多重共线性(一)多重共线性的影响多重共线性的存在会改变回归系数。回归系数并不反映方程中任何一个具体自变量对因变量的影响,而只是方程中给定与其他相关的自变量后一个“偏”的影响。多重共线性不降低模型的拟合能力,但使回归平方和、剩余平方和的含义变得模糊。参数估计量的方差随着变量之间的样本相关性增加而增大。三、多重共线性(二)多重共线性的识别相关系数识别法。初步识别,较高的相关系数意味着可能存在多重共线性。方差膨胀因子识别法。方差膨胀因子越接近于1,说明自变量之间多重共线性越弱,反之则越严重。直观判定法。①当模型中引入或剔除一个自变量,或小幅改变一个观测值时,回归系数的估计值有较大的变化;②回归系数估计值的符号与实际经验判断相违背;③F检验通过,而有的回归系数的t检验未通过。三、多重共线性(三)多重共线性的消除增加样本量剔除对共线性程度影响较大的自变量逐步回归法变量变换法如采用对数变换,差分变换有偏的估计方法如岭回归、主成分回归下面一节主要介绍逐步回归分析。72

第二节自变量选择与逐步回归分析

本节基本内容:

一、回归模型的变量子集合选择二、逐步回归分析

一、回归模型的变量子集合选择在自变量的选择过程中,若遗漏对因变量有重要影响的自变量,建立的回归模型效果肯定不好。若回归模型中包含太多的变量,且其中一些变量对因变量的影响不大,有些自变量之间存在大量信息的重叠(多重共线性问题),会影响模型精度。因此,自变量的选择无疑是建立回归模型过程中一个极为重要的问题。下面我们介绍一些回归模型的自变量选择技术。一、回归模型的变量子集合选择设一个实际问题回归建模中,有个备选自变量,每个自变量都有入选回归方程和不入选回归方程两种情况。因变量关于这些自变量的所有可能回归方程有个,其中是指所有自变量都不入选,回归模型只包含

一个常数项的情形。我们的目的是在这些所有可能的回归方程中,选择一个

“最优”的。最优的标准要综合考虑:从回归模型的拟合角度看,残差平方和越小越好,或者

说复相关系数越接近1越好;从回归模型的简洁性上看,回归方程中包含自变量个数

越小越好。一、回归模型的变量子集合选择应该说,上述的单个标准只能看作“最优”方程的某个方面,不能独立作为变量选择的准则。兼顾上述两条标准,可以得到许多选择变量子集合的准则:修正可决系数AIC准则Cp准则……一、回归模型的变量子集合选择所谓建立“最优”回归方程,实际上就是自变量的选择问题。可采用以下的方法:从所有可能的自变量组合中选择最优。(工作量太大)逐步剔除法(Backward)。逐步引入法(Forward)。逐步回归分析法(Stepwise)。逐步回归分析法“有进有出”,综合逐步引入和逐步剔除两种方法特点,是一种自动地从大量可供选择的变量中,选择对建立回归方程重要的变量的方法。下面我们着重介绍这种方法。二、逐步回归分析从一个自变量出发,依据自变量对因变量的影响显著性大小,从大到小逐个引入回归方程。同时,在逐个自变量选入回归方程的过程中,如果发现先前被引入的自变量在其后由于某些自变量的引入而失去其重要性时,可以从回归方程中随时予以剔除。(二)逐步回归分析的基本原理二、逐步回归分析每步都要进行显著性检验,以便保证每次引入变量前回归方程中只包括显著性变量。这个过程反复进行,直到既无不显著变量从回归方程中剔除,又无显著变量需要选入回归方程时为止。二、逐步回归分析(三)逐步回归的基本步骤(1)考虑能否剔除变量的基本步骤。假设已经引入回归方程的变量为()。①计算已在方程中的变量的偏回归平方和()其中,表示包含括号中这些下标对所应变量的回归平方和,表示相应的残差平方和。②寻找所有引入方程中偏回归平方和达到最小的变量二、逐步回归分析即相应变量是方程中对因变量影响最小的变量。③检验对因变量的影响是否显著。对变量进行回归系数的显著性检验,即检验检验统计量为在原假设成立的情况下,。给定显著性水平,查得临界值为。若,表明显著,不能剔除,转入考虑能否引入新变量(步骤(2))。若,则表明不显著,剔除。

二、逐步回归分析重新建立因变量与其余个自变量的回归方程,然后再重复上面步骤,检验方程中最不重要的变量是否可以剔除,直到方程中没有变量可以剔除为止,转入考虑能否引入新变量(步骤(2))。(2)考虑能否引入新变量的基本步骤。假定已经入选个变量,不在方程中的变量记为。①计算不在方程中的变量的偏回归平方和():二、逐步回归分析②寻找所有未在方程中的偏回归平方和达到最大的变量:即不在方程中的变量是对因变量影响最大的变量。③检验变量对因变量的影响是否显著。对变量作回归系数的显著性检验,即检验:检验统计量为在原假设成立的情况下,。给定显著性水平,查得临界值为。

二、逐步回归分析若,表明是显著的,则引入,并转入到考虑能否剔除变量(步骤(1))。若,则逐步筛选变量过程结束。假设用逐步回归法得到个变量,再建立因变量与这个变量的回归方程,方法与一般回归分析相同。这就是用逐步回归法得到的“最优”回归方程。84

第三节回归分析应用实例

本节基本内容:

一、多元回归分析应用实例二、逐步回归分析应用实例

问题描述粮食产量一般指全社会的粮食产量,包括国有经济经营的、集体统一经营的和农民家庭经营的粮食产量,还包括工矿企业办的农场和其他生产单位的产量。粮食除包括稻谷、小麦、玉米、高粱、谷子及其他杂粮外,还包括薯类和豆类。我国历年的粮食产量总体上呈现出稳步增长的趋势,但由于受到播种面积、气候自然条件、人力、物力等多方面的因素影响,我国每年的粮食产量都会出现一些波动。在综合考虑对粮食产量起影响作用的多方面因素情况下,这里拟对影响我国粮食产量的预测模型进行分析。一、多元回归分析应用实例一、多元回归分析应用实例选择粮食作物播种面积、化肥施用量、受灾面积、和农业劳动力人数四个变量作为对粮食产量起影响因素的自变量,将粮食产量视为因变量。采用多元线性回归分析拟合多因素影响条件下的粮食产量回归模型。数据全部取自《中国统计年鉴2006》,具体见下原始数据表。数据一、多元回归分析应用实例年份粮食总产量(万吨)粮食作物播种面积(千公顷)化肥施用量(万吨)受灾面积(千公顷)农业劳动力数(万人)198537910.80108845.001775.8044365.0030351.50198639151.00110933.001930.6047140.0030467.90198740298.00111268.001999.3042090.0030870.00198939408.00110123.002141.5050870.0031455.70198940754.90112204.672357.1046991.0032440.50199044624.30113465.872590.3038474.0033336.40199143529.30112313.602805.1055472.0034186.30199244265.80110559.702930.2051333.0034037.00199345648.80110508.703151.9048829.0033258.20199444510.10109543.703317.9055043.0032690.30199546661.80110060.403593.7045821.0032334.50199650453.50112547.923827.9046989.0032260.40199749417.10112912.103980.7053429.0032677.90199851229.53113787.404083.7050145.0032626.40199950838.58113160.984124.3249981.0032911.76200046217.52108462.544146.4154688.0032797.50200145263.67106080.034253.7652215.0032451.01200245705.75103890.834339.3947119.1031990.58200343069.5399410.374411.5654506.3031259.63200446946.95101606.034636.5837106.2630596.00200548402.19104278.384766.2238818.2329975.54一、多元回归分析应用实例打开SPSS统计软件,点击界面下方的VariableView选项定义变量名和变量类型。如下图所示。多元回归分析在SPSS中的实现过程一、多元回归分析应用实例点击界面下方的DataView选项,录入(或导入)数据一、多元回归分析应用实例在菜单中点击Analyze-Regression-LinearRegression因变量:粮食产量自变量:粮食播种面积、化肥施用量、受灾面积、农业从业人数。回归方法:默认方式(同时进入,Method:Enter)

如图所示。一、多元回归分析应用实例单击Statistics选项,作必要设置。如系数估计(Estimates)、模型拟合(Modelfit)、描述性统计(Descriptive)、共线性识别(Colinearitydiagnostics)等。如图所示一、多元回归分析应用实例粮食总产量粮食播种面积化肥施用量受灾面积农业劳动力人数PearsonCorrelation粮食总产量1.000.089.793.040.317粮食播种面积.0891.000-.508.135.510化肥施用量.793-.5081.000.068.019受灾面积.040.135.0681.000.527农业劳动力人数.317.510.019.5271.000Sig.(1-tailed)粮食总产量..351.000.431.081粮食播种面积.351..009.279.009化肥施用量.000.009..384.467受灾面积.431.279.384..007农业劳动力人数.081.009.467.007.点击OK,得到输出结果如下:一、多元回归分析应用实例ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.985.970.963754.14555ModelSumofSquaresdfMeanSquareFSig.1Regression296300432.244474075108.061130.245.000

Residual9099768508

Total305400200.37820

四自变量模型概述方差分析一、多元回归分析应用实例ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)-39956.3365865.333-6.812.000

粮食播种面积

.654.062

.67710.600.000.4572.189化肥施用量

4.609.2181.14621.167.000.6361.573受灾面积

-.100.036-.143-2.756.014.6961.436农业劳动力人数

.082.208

.025.395.698.4632.162系数检验一、多元回归分析应用实例当四个自变量全部进入回归的情况下,为0.970,修正可决系数为0.963,回归模型拟合程度很高。进一步通过检验发现,统计量的取值为130.245,在给定显著水平的情况下,应当拒绝原假设,说明回归方程整体显著。一、多元回归分析应用实例通过进一步观察,发现模型的一些回归系数不能通过显著性检验。以最小的两个变量即受灾面积和农业劳动力人数为例,来说明回归系数的显著与否。这两个变量的

统计量取值分别为-2.756和0.395。当给定显著性水

平,通过查分布表得,比较发现,受灾面积对模型的影响是显著的(),

农业劳动力人数是不显著的。一、多元回归分析应用实例通过上述检验发现,模型中存在变量未通过检验,而模型整体是显著的,据此可以怀疑模型存在多重共线性。然而,各个自变量间的相关系数并不高,进一步地,方差膨胀因子显示,模型中的多重共线性并不严重。因此,有理由认为农业劳动力人数对粮食产量的影响不显著。为了验证这一说法,剔除农业劳动力人数,再重复上述步骤进行回归,模型拟合情况如下所示。一、多元回归分析应用实例ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.985.970.965735.19473Model

SumofSquaresdfMeanSquareFSig.1Regression296211508.500398737169.500182.674.000

Residual9188691.87817540511.287

Total305400200.37820

保留三个字变量的模型概述保留三个自变量模型的方差分析一、多元回归分析应用实例ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)-39377.8965537.247

-7.111.000

粮食播种面积.669.048.69213.889.000.7131.402化肥施用量4.639.1991.15323.305.000.7231.383受灾面积-.093.030-.132-3.065.007.9561.046保留三个自变量模型的系数检验一、多元回归分析应用实例保留三个自变量情况下模型概述表,反映了模型的拟合优度检验,为0.970,基本与四变量模型保持一致,说明模型对原始数据的拟合较好;修正可决系数为0.965,略高于四变量模型,则进一步支持了我们剔除农业劳动力人数的决策。对保留三个自变量回归模型的方差分析,检验结果显示,说明模型整体显著。对回归系数显著性检验,三个自变量对模型的影响都是显著的;方差膨胀因子进一步显示,由于剔除的自变量,模型的多重共线性得到进一步地改进。一、多元回归分析应用实例按照上述判定,三变量模型是适当的,可以写出回归方程为边际影响分析例如,保持其他因素不变的情况下,当化肥施用量增加1万吨,则粮食产量可提高4.639万吨。预测若已经知道2006年的粮食播种面积为105489千公顷、化肥施用量为4928万吨、受灾面积为41091千公顷,根据回归方程,得到2006年的国内粮食产量预测值为50234万吨。二、逐步回归分析应用实例问题已知某中水泥在凝固时放出的热量(卡/克)与水泥中下列四种化学成分有关:的成分(%,),的成分(%,),的成分(%,),的成分(%,)。现要对影响水泥在凝固时放热的影响成分因素作分析。本例将通过逐步回归分析法对多重线性回归分析中的自变量进行筛选。实际数据如下:二、逐步回归分析应用实例样品x1x2x3x4178.5726660274.312915523104.31156820487.61131847595.97526336109.211559227102.7371176872.51312244993.1254182210115.921474261183.8140233412113.31166912原始数据二、逐步回归分析应用实例点击界面下方的VariableView选项定义变量名和变量类型,录入数据,如下图所示。回归分析在SPSS中的实现过程二、逐步回归分析应用实例点击Analyze→Regression→LinearRegression,操作形成下图结果。注意:回归方法选择Stepwise,即采用逐步回归自动对进入模型的多个自变量进行筛选。二、逐步回归分析应用实例单击Statistics选项,选择必要的描述性统计量,如系数估计值、系数置信区间、模型拟合、描述性统计、偏相关系数等。如下图所示。二、逐步回归分析应用实例单击Options选项,选择逐步回归筛选自变量的统计量临界值,如下图所示。二、逐步回归分析应用实例ModelVariablesEnteredVariablesRemovedMethod1X4.Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).2X1.Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).3X2.Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).4.X4Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).逐步回归过程中引入或剔除的变量二、逐步回归分析应用实例逐步回归过程中一共进行了四步模型筛选:第一步进入模型;第二步进入模型;第三步进入模型;最后一步将剔除出模型。因此,最终模型中只保留了和两个自变量。对逐步回归结果的解释,与一般回归模型是相同,不再进一步分析。输出的结果110

聚类分析第一节聚类分析概述本节基本内容一、聚类分析的定义二、聚类分析的分类111一、聚类分析的定义

聚类分析是将样品或变量进行分类的多元统计分析方法。其功能是建立一种分类方法,它将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类。112二、聚类分析的分类按照分组的方法论基础不同系统聚类法动态聚类模糊聚类图论聚类……按照分析对象不同R型聚类Q型聚类113第二节样品或变量亲疏程度的测定用来描述样品或变量的亲疏程度通常有两个途径:把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点、类与类之间的距离,用以描述样品或变量之间的亲疏程度;计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。一般情况下,样品之间的亲疏程度用距离度量,而变量之间的亲疏程度用相似系数度量。114第二节样品或变量亲疏程度的测定本节基本内容:一、变量类型与数据变换

二、多维空间的距离三、相似系数四、距离以及相似系数的选择原则

115第二节样品或变量亲疏程度的测定符号说明:对于n个样品,每个样品有p个变量,则观测数据矩阵为其中,为第个样品在第个变量上的观测数据值;第个样品观测值由观测数据矩阵的第行描述,第个变量观测值由矩阵的第列描述。116一、变量类型与数据变换原始数据可能受量纲和数量级的影响。不同量纲、不同数量级的数据放在一起比较,聚类效果可能受到影响。在聚类分析处理过程中,有时需要先对原始数据矩阵进行变换处理:中心化变换标准化变换规格化变换对数变换117二、多维空间的距离对样品进行分类时,通常采用距离来表示样品之间的亲疏程度。因此,需定义样品之间的距离,即第个样品与第个样品之间的距离,记为。所定义的距离须满足:正定性对称性三角不等式118二、多维空间的距离对于定量数据资料,常用的距离有:明氏距离兰氏距离马氏距离斜交空间距离

119二、多维空间的距离明氏距离第个样品与第个样品之间的明氏距离公式为

这里q为某一自然数,由明氏距离可以得到几个最常用、最直观的距离:120()二、多维空间的距离

当时,称为绝对值距离。当时,称为欧式距离。当时,称为切比雪夫距离。121()()()兰氏距离当全部数据大于零,即时,可以定义第个样品与第个样品之间的兰氏距离为兰氏距离是一个无量纲的量,其受极端值的影响较小;适用于具有高度偏倚的数据。122()二、多维空间的距离二、多维空间的距离马氏距离第个样品与第个样品之间的马氏距离记为

其中,为样本协差阵。马氏距离的优点是考虑到个变量之间的相关性,并且与各变量的单位无关。123二、多维空间的距离斜交空间距离定义第个样品与第个样品之间的斜交空间距离为其中,是变量与变量之间的相关系数。124()三、相似系数对变量进行聚类分析,通常采用相似系数来表示变量之间的亲疏程度。设表示变量与变量之间的相似系数,则应满足下列条件:

(为非零常数);,对一切成立;

,对一切成立。125三、相似系数越接近于1,则表示变量与变量之间关系越密切,

越接近于0,则表示变量与变量之间关系越疏远。聚类时,关系密切的变量应归于同一类,关系疏远的变量归于不同类。常用的相似系数有夹角余弦和相关系数等。126三、相似系数夹角余弦在维空间中,变量与观测值形成的向量与的夹角为,则夹角余弦为:

它是与两个向量在原点处的夹角的余弦。127三、相似系数相关系数相关系数是数据作中心化或标准化处理后的夹角余弦,设表示变量与之间的相关系数,则128三、相似系数指数相似系数设表示变量的样本标准差,则变量与之间的指数相似系数为:指数相似系数不受变量量纲的影响。129三、相似系数相似系数的非参数方法非参数方法主要应用于()大于零的情况,常用的相似系数有:

130(1)

(2)(3)四、距离以及相似系数的选择原则在进行数值分类时,应注意相似性尺度的选择,选择的基本原则是:所选择的相似性尺度在实际应用中应有明确的意义;根据原始数据的性质,选择适当的变换方法,再根据不同的变换方法选择不同的距离或相似系数;适当地考虑计算量的大小。131第三节系统聚类分析本节基本内容:一、系统聚类分析的基本思想和分析步骤二、常用系统聚类分析方法三、系统聚类分析方法的统一公式四、系统聚类法的性质及类的确定132一、系统聚类分析的基本思想和分析步骤基本思想把个样品看成维空间(个变量)的个点,而把每个变量看成维空间的坐标轴,根据空间上点与点的距离来进行分类。

133一、系统聚类分析的基本思想和分析步骤基本步骤在样品距离的基础上,定义类与类之间的距离;将几个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离;这个过程一直继续到所有样品归为一类为止。把这个过程作成一个聚类谱系图。134二、常用系统聚类分析方法最短距离法最长距离法中间距离法重心法类平均法可变类平均法可变法离差平方和法135二、常用系统聚类分析方法最短距离法设表示样品与之间的距离,表示类与之间的距离。最短距离法是把两个类之间的距离定义为一个类中的所有样品与另—个类中所有样品之间距离中最近者。即类与之间的距离定义为:136二、常用系统聚类分析方法

(1)计算样品之间的距离,得到n个样品之间的距离矩阵为,这时每一个样品自成一类,有,显然该距离矩阵是一个对称矩阵。

(2)选择非主对角线上最小元素,设为,则将对应的两个样品与合并为一个新类,记为类,即。137基本步骤二、常用系统聚类分析方法

(3)计算新类与其他类()之间的距离,并得到新的距离矩阵。其中新类与其他类()之间的距离为

(4)对重复进行上述步骤,得到新的距离矩阵,对重复进行上述步骤,得到新的距离矩阵,……,这样一直下去,直到所有的样品都归为一类为止。

138二、常用系统聚类分析方法最长距离法最长距离法与最短距离法在并类步骤上是完全一致的,只是在定义类与类之间的距离是相反的,类与类之间的距离定义为两类之间所有样品间距离最大者,即类与之间的距离为:139二、常用系统聚类分析方法中间距离法采用介于两者之间的中间距离,即当类与合并为一新类后,任一类()与的中间距离定义为:140二、常用系统聚类分析方法重心法在定义类与类的距离时,把每一类中所包括的样品数目也考虑进去,并把两个类重心之间的距离定义为类与类的距离,用这种距离分类的方法就称为重心法。所谓每一类的重心就是该类样品的均值。其中单个样品的重心就是它本身,两个样品的类的重心就是两点连线的中点。141二、常用系统聚类分析方法

设与合并为一新类,它们各含有、和个样品,它们的重心分别为、和,其中

设某一类()的重心为,与新类的距离记为。若样品间的采用欧氏距离,则有合并后新类与其它类距离平方的递推公式为:142二、常用系统聚类分析方法类平均法不仅把每一类中所包括的样品数目考虑进来,而且把各样品的信息都充分地考虑进来,把两个类之间的距离平方定义为两类元素两两之间距离平方的平均。143二、常用系统聚类分析方法

设与合并为一新类,它们各含有、和个样品,它与的距离定义为

144二、常用系统聚类分析方法可变类平均法将任一类与的距离定义改为其中,是可变的,且,称为聚集强度系数,随着的取值的不同,会有不同的聚类结果。一般的情况下,均取负值,绝对值越大,其扩张性越强,空间扩张的性质使分辨能力提高。145二、常用系统聚类分析方法可变法将任一类与的距离定义改为其中,是可变的,且,一般选取。146二、常用系统聚类分析方法离差平方和法基本思想:基于方差分析的思想,如果类分得合理,则同类样品之间离差平方和应当较小,类与类之间的离差平方和应当较大。147三、系统聚类分析方法的统一公式

设表示类与之间的平方距离,则有其中,、、分别表示、、类中的离差平方和。任一类与新类的距离递推公式为148三、系统聚类分析方法的统一公式

由于上述聚类方法的合并类原则和步骤是完全一样的,所不同的是类与类之间的距离公式有不同的定义,所以可得到不同的递推公式。设与合并为一新类,当采用欧氏距离时,任一类与新类的距离为其中系数、、和对不同聚类方法有不同的取值。149150方法单调性说明最短距离法0

单调最长距离法0单调中间距离法0非单调重心法

0非单调类平均法00单调可变法0单调可变类平均法0单调离差平方和法

0单调四、系统聚类法的性质及类的确定系统聚类法的性质讨论单调性空间扩张与收缩常见的分类数判断方法适当阈值判定数据散点图直观判断151四、系统聚类法的性质及类的确定毕尔曼(Bemirmen)1972年提出了一些根据谱系图来分类的准则。准则A:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须很大。准则B:确定的类中,各类所包含的元素都不要过分地多。准则C:分类的数目必须符合实用目的。准则D:若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。152谱系分类的确定第四节动态聚类法本节基本内容:一、动态聚类法基本思想

二、选择凝聚点和确定初始分类三、动态聚类方法153

一、基本思想首先按照一定的方法选取一批凝聚点,然后让样品向最近的凝聚点靠近形成初始分类。进一步按最近距离的原则修改不合理的分类,直到分类比较合理为止,这样就形成了一个最终的分类结果。154动态聚类过程图

由图可知,动态聚类过程主要有两个方面:一是初始设定,包括凝聚点的选择和初始分类的确定;二是动态聚类方法,即修改初始分类,直到分类合理。155二、选择凝聚点和确定初始分类选择凝聚点凝聚点是一批有代表性的点,待形成类的中心。通常选择凝聚点的方法有:凭经验选择凝聚点;由K类样品的重心作为凝聚点;用密度法选择凝聚点;人为规定分类数,并用前个样品作为凝聚点。156二、选择凝聚点和确定初始分类初始分类(1)人为地分类,凭经验将样品进行初步分类;(2)选择一批凝聚点以后,每个样品按与其距离最近的凝聚点归类;(3)选择一批凝聚点后,每个凝聚点自成一类,将样品依次归入与其距离最近的凝聚点的那一类,并立即重新计算该类的重心,以代替原来的凝聚点,再计算下一个样品的归类,直至所有的样品都划到相应的类中为止;(4)用其它某种聚类方法得到一个分类,这个分类就可直接作为初始分类。157二、选择凝聚点和确定初始分类(5)先将数据作标准化处理,用表示已标准化后的第i个样品关于第j个变量的观测值。令

如欲将全部样品分为K类,对每一个样品计算:

假设与这个数最接近的整数为k,则将第个样品归入到第k类中去()。

158三、动态聚类方法按批修改法

当样品全部归类后才改变凝聚点。基本步骤为:选择一批凝聚点(个数人为指定),并选定所用距离定义。将所有样品按照与其距离最近的凝聚点归类。计算每一类的重心,将重心作为新的凝聚点,然后计算所有样品与新凝聚点的距离,并将各个样品归入与新凝聚点距离最近的那一类别。如果某一步计算的所有新凝聚点与前一次的老凝聚点重合,则分类过程终止,否则重复这一步骤,直至分类过程终止。159三、动态聚类方法逐个修改法每对一个样品进行分类后,同时改变凝聚点。具体步骤如下:选择凝聚点和初始分类,比如取个初始凝聚点,将个样品初始分为K类;计算初始个类的重心,将重心作为新凝聚点,然后计算每一个样品与新凝聚点的距离,若样品到它原来所在的类距离最近,则它仍在原类;否则,并将它归入与凝聚点距离最近的那一类别,重新计算每一类的重心替代原凝聚点。如果某一步计算的所有新凝聚点与前一次的老凝聚点重合,则分类过程终止,否则重复这一步骤,直至分类过程终止。160第五节聚类分析应用实例

案例一:系统聚类分析问题城镇居民的消费在我国居民消费中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论