《应用统计学》第九章_第1页
《应用统计学》第九章_第2页
《应用统计学》第九章_第3页
《应用统计学》第九章_第4页
《应用统计学》第九章_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章回归分析引导案例

如何估计每户每月日用杂货支出?一家超级市场股份有限公司正在考虑向一个新的地区发展业务,计划部主管必须向公司董事会的执行委员会提交一份有关发展计划的分析报告。作为报告中的一个关键部分,她需要提供那个地区居民每月在日用杂货项目上的支出信息。为此她以居民家庭为对象,就每户家庭的“每月日用杂货支出”“月收入”等变量收集了一个容量为40的样本数据,并针对“每月日用杂货支出”的数据,估计出“平均每户每月日用杂货支出”为840.63元。正准备引用这一数字时,计划部主管却突然发现有些不妥。分析报告中的有关部分已经细化到针对不同收入水平居民的经营策略,而“平均每户每月日用杂货支出”的估计值,还只是一个笼统的估计数字,其中并未包含不同居民家庭收入水平差异的信息。因此,有必要与“月收入”关联起来,估计出不同收入水平居民家庭的“平均每户每月日用杂货支出”,这才符合分析报告写作的要求。“每月日用杂货支出”与“月收入”两变量的样本数据如表9-1所示。第一节相关分析概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析第一节相关分析概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析一、相关关系如果反复观察表9-1中的样本数据,或许会隐约察觉到“月支出”与“月收入”两个变量之间的确有着某种关联。随着月收入的增加,月支出相应地也在增加。但这种判断是非常不明确的,关联的具体状态如何?关联的密切程度如何?这无法直接从表中数值看出答案。用表9-1中的数值绘制散点图,横轴代表月收入,纵轴代表月支出,如图9-1所示,图中各点分别由每一个观测点的月支出和月收入决定。此图直观地显示了数据中40户家庭月支出与月收入之间的关系。相关关系的概念(一)观察图9-1可知,这40户家庭月支出的观测值,除自身的上下波动之外,与月收入之间同时又具有一种协变关系。尽管这种协变关系表现出了某种不确定性,但从整体上看,月支出是沿着一定的方向,随着月收入的变化而变化。统计中将两变量之间的这种相对关系称作相关关系。散点图是从样本数据上直观判断两个数值型变量之间是否具有相关关系的常用工具。相关关系与函数关系是不同的。在函数关系中,当一个变量的取值发生变化时,另一个变量有唯一确定的值与之相对应。在相关关系中,当一个变量的取值发生变化时,另一个变量的取值是不确定的,它遵循某种规律在一定范围内变化。相关关系与函数关系的区别(二)按相关形式不同,相关关系可分为线性相关和非线性相关。当一个变量的取值变动时,另一变量的取值整体上沿着一条直线变动,则称两者之间是线性相关关系或直线相关关系。例如,图9-1所示的月支出与月收入之间的关系就是具有一定程度的线性相关关系。按变动方向不同,线性相关又可分为正线性相关和负线性相关,如图9-2(a)~(d)所示。正线性相关的两个变量,它们的变动方向相同;负线性相关的两个变量,它们的变动方向相反。相关关系的类型(三)当一个变量的取值变动时,另一变量的取值沿着一条曲线变动,则称两者之间是非线性相关关系或曲线相关关系,如图9-2(e)所示。如果两个变量各自独立、互不影响,则称两者不相关,如图9-2(f)所示。二、相关系数虽然散点图有助于观察和判断两个变量之间相关关系的类型及密切程度,但它毕竟是依赖肉眼观察,判断结果往往带有很强的主观性,不同的人甚至可能会得出不同的判断结果,这就需要一种尺度来客观地衡量两个变量之间相关关系的类型及密切程度。相关系数就可以充当这个尺度,它是反映变量之间相关关系密切程度的统计指标,用r表示,计算公式为:

(9-1)相关系数的概念(一)相关系数的构造原理如图9-3所示。图9-3中标出了40个家庭的平均月日用杂货支出与平均月收入的位置。与将所有的点划分为4个象限。正的线性相关表现出这样的特点:落在第1象限和第3象限的点多于落在第2象限和第4象限中的点。落在第1象限和第3象限中的点称为正相关点;落在第2象限和第4象限中的点称为负相关点;落在均值线或上的点称为零相关点。显然,对于正相关点,必然有;对于负相关点,必然有;对于零相关点,必然有。称为积差。所有点的积差之和称为积差和,即。相关系数的构造原理(二)从积差和公式不难看出,如果积差和大于零,则表明正的方面的积差多于负的方面的积差,x和y之间将呈现出正的线性相关关系;如果积差和小于零,则表明负的方面的积差多于正的方面的积差,x和y之间将呈现出负的线性相关关系;如果积差和等于零,则表明正的方面的积差与负的方面的积差相互抵消,此时意味着x和y之间不存在线性相关关系。因此,积差和就成为x和y之间是否具有线性相关关系以及线性相关关系强弱的一种度量。积差和与线性相关的关系(三)但是,用积差和来度量x和y之间的线性相关关系有许多不便之处。首先,积差和的取值要受到x和y所采用的计量单位的影响;其次,样本点的多少对积差和的值也有影响,样本点越多,积差和绝对值的取值就倾向于越大。然而,变量间的线性关系的强弱根本上取决于两个变量本身的性质,与计量单位的变化或样本点的多少没有关系,并不会因为计量单位或样本点的变化而改变变量之间本身所固有的线性相关关系的强弱。因此,需要进一步寻求测定线性相关关系强弱的普遍适用的尺度。因为:

所以:

即:。相关系数r消除了积差和中样本量和计量单位的影响因素,以一个系数来衡量两个变量之间线性相关关系的强弱。当时,表明x和y之间不存在线性相关关系;当时,表明存在正的线性相关关系;当时,表明存在负的线性相关关系。r的绝对值越接近于1,表明线性相关关系越强,当r的绝对值等于1时,表明x与y完全正相关或完全负相关。相关系数的取值范围(四)相关系数的计算公式还可以等价变换为另外一种形式:

(9-2)这个公式虽然表面上看起来比先前的理论公式显得繁琐一些,但由于避免了计算均值与的过程,也避免了计算离差与的过程,并由此减少了计算过程中四舍五入的误差,因此在实际运用中更便于手工计算。依此公式,只需根据样本数据计算出,,,和这5个数据项,再将样本量n代入公式,即可得出相关系数的计算结果。相关系数的等价公式(五)由表9-1中的样本数据计算所得的相关系数为0.945,这表明在月支出与月收入之间存在着很强的正线性相关关系。通常,当时,经验表明变量间具有中等强度的线性相关关系;而当时,则认为变量间的线性相关关系很强。若总体中两个变量的全部取值已知,则可以根据总体的数据计算出两个变量之间相关系数的理论真值。但这在现实中是做不到的,也就是说,两变量之间总体上的相关系数的理论真值总是未知的。一般情况下,只能根据随机样本数据计算出样本相关系数,再由样本相关系数来对总体相关系数的理论真值作出具有一定置信水平的推断。统计学家的研究表明,当总体相关系数等于零时,存在一个与样本相关系数相关的自由度为的t统计量:(9-3)三、相关系数的显著性检验若总体相关系数等于零,则与样本相关系数有关的上述t统计量的值就不应过大或过小,因为t统计量过大或过小都是总体上两个变量之间具备线性相关关系的证据。因此,给定一个显著性水平,就可以在自由度为的t分布下,确定衡量这个t统计量的值过大或过小的一个标准,即临界值。如果,则表明相关系数r在统计上是显著的,也就是说在的置信水平下,可以认为总体上两个变量之间是线性相关的。如果,则表明相关系数在统计上是不显著的,也就是说在的置信水平下,不能认为总体上两个变量之间是线性相关的。由表9-1中的样本数据所计算出来的样本相关系数为:。在的显著性水平上进行相关系数显著性检验的步骤如下。(1)提出原假设和备择假设,即:总体相关系数,:总体相关系数。(2)计算检验统计量的值,即(3)作出统计决策。若给定显著性水平,在自由度为的t分布下,可确定相应的临界值。因为,所以拒绝原假设,也就是说,总体中在月支出与月收入之间存在着显著的线性相关关系,作出这一推断的置信水平为95%。当然也可采用P值进行决策,决策结果是相同的。针对表9-1中的样本数据,通过观察散点图,并计算相关系数,可以在一定的置信水平上确认:在月支出与月收入之间存在着正的线性相关关系。也就是说,随着月收入的增加,该地区居民家庭的每月日用杂货支出也将随之线性增加。接下来的问题就是要找到这条直线,并确定下来,从而可根据“月收入”的不同取值,来估计“每月日用杂货支出”的取值。这就是线性回归分析方法要解决的问题。第一节相关分析概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析一、回归模型假定自变量x与因变量y在总体上存在着线性相关关系,可以用以下等式来模拟x与y之间的这种线性相关关系:(9-4)这个等式称为x与y的一元线性回归模型。模型中,因变量y的第i个取值是以自变量x的第i个取值为自变量的线性函数值再加上一个。其中,;和分别为线性函数的截距和斜率,称作模型参数。模型中的是误差项的随机变量,它反映除x与y之间线性关系之外的随机因素对y的影响。在现实的总体中,y不是完全的线性依赖于x,它的取值除受x影响之外,还要受到其他各种可能因素的无法确定的或者说是随机的影响。因此,在回归模型中加上一个作为随机变量的误差项,是符合实际情况的,它代表了包含在之中,但不能被x与y之间的线性关系所解释的变异性。但仅有这个回归模型还是远远不够的,由于误差项随机变量的存在,给定一个自变量x的取值,仍然无法确切地估计出变量y的相应取值。二、回归方程为使分析更富于成效,必须对模型误差项随机变量的概率分布情况作出如下假定:(1)是期望值为零的随机变量,即;(2)的方差是相等的,即在自变量x的不同取值下,对应的误差项随机变量的方差都是相同的,可记作;(3)服从正态分布,即;(4)相互独立。在上述关于的模型假定中,由于,将回归模型两边同时取数学期望,可得:(9-5)上式称为一元线性回归方程,表明的期望值是的线性函数。其中,为直线的截距;为直线的斜率。由于的取值是在确定的线性函数值的基础上,再加上一个误差项随机变量,因此也是一个随机变量,其随机性完全由的随机性来决定。的方差为,的方差也是。服从正态分布,即;也服从正态分布,即。回归模型中关于的理论假定及其有关推论的内容,可通过图9-4较为直观地理解和把握。对应x的不同取值,的取值是随机的,且服从以为数学期望,以为方差的正态分布。总体回归函数中的误差项随机变量应满足同方差性,即它们都有相同的方差。如果这一假定不满足,则称线性回归模型存在异方差性。如图9-5所示,各个概率密度曲线的形状是不尽相同的,说明线性回归模型存在异方差性。如果实际问题中出现违反此种模型假定的情况,一般的线性回归分析方法原理也就失去了意义。第一节相关分析概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析一、估计回归方程的概念与分别为回归方程所代表的直线上的截距和斜率。如果与是已知的,回归方程就代表了一条确定的直线,只要给定自变量x的一个取值,就可以此方程得出对应的的期望值。然而,总体中的与通常都是未知的。一个现实的解决方法是:按随机原则从总体中抽取样本,根据样本数据计算出与和相对应的统计量的值作为对与的估计值。通过观察和研究样本数据,如果能够断定x与y之间确实存在着线性关系,那么就可以通过某种方法为它们拟合出一个确定的直线方程,这个直线方程代表着x与y之间的线性相关关系,它是对总体回归方程的一个估计,故称之为估计的回归方程。估计回归方程的一般形式为(9-6)式中,是的一个估计值,是的一个估计值,因而是对的估计。原问题归结为:如何针对样本数据计算得出与的具体值,从而确定估计回归方程的具体形式。二、参数的最小二乘估计仔细观察图9-1所给出的40户家庭月支出与月收入的散点图,尽管40个数据点处于一种分散状态,但他们整体上都围绕着一条向上的直线上下波动。这表明月支出y与月收入x之间具有一种正的线性关系,相关系数的计算结果支持这一判断。现在需要为这些散点拟合一条直线,即确定估计回归方程的具体形式。直线拟合的最常用方法是最小二乘法,如图9-6所示。理论上讲,介于这些散点之间的直线有无数条,应当从中找出与所有的点拟合效果最优的那一条。最优的拟合效果要求各个月支出的观测值与对应的估计值之间的距离应最短,即要取得最小值。但由于该式中的绝对值符号在数学处理上非常麻烦,因此转而要求各个距离的平方和要达到最小值,即为最小值。这就是最小二乘法的基本思想。在上式中,,以及n都是已知的样本数据,与则是未知的。根据微积分的极值原理,与在满足下列方程组时,上式中的距离平方和可以取得最小值,即

整理得(9-7)式中,代表第次观测自变量的观测值;代表第

次观测因变量的观测值;n代表观测次数或样本量。将样本数据代入式(9-7)中,即可解得与的数值,从而可确定估计的回归方程。在引导案例中,经过简单计算可得:,,,,。将它们代入式(9-7)得解得

因此,通过最小二乘法所获得的估计的回归方程为:。对于自变量x的任意给定值,的取值将处于图9-6所示的同一条直线上。所得到的估计回归方程的斜率为正,这表明随着月收入的增加,月支出也随之增加。其截距为负值,在此处它仅起到决定估计回归方程所代表直线在图形中位置的作用。三、判定系数与之间的离差,即,称为样本中第次观测的残差,如图9-7所示,它是用来估计时产生的误差。当所有样本点的残差平方和是一个最小化的量时,这个最小化的量称为残差平方和或误差平方和,记作SSE,其计算公式为(9-8)估计的回归方程用自变量来估计因变量的取值总是要产生误差的,SSE从整体上度量了这种误差的大小,其值越小越好。判定系数的概述(一)残差平方和1样本中第

次观测的因变量估计值与因变量均值之间的离差称为第

个回归离差,即,如图9-7所示。所有回归离差的平方和称为回归平方和,记作SSR,其计算公式为

(9-9)回归平方和2样本中第

次观测因变量的观测值与因变量均值之间的离差称为第

个总离差,即,它是用去估计时所产生的误差。所有离差的平方和被称为总离差平方和或称总平方和,记作SST,其计算公式为(9-10)SST从整体上度量估计所产生的误差,反映了因变量观测值总的变异性。显然,同一问题中总离差平方和SST大于误差平方和SSE。式(9-10)可分解为总离差平方和3由回归分析的独立性假定,可得,所以有

即(9-11)式(9-11)表明,总离差平方和可以分解为回归平方和与残差平方和两部分。回归平方和(SSR)与总离差平方和(SST)的比值称为判定系数,用表示,计算公式为(9-12)判定系数的取值范围为。越接近于1,表明估计回归方程对样本数据的拟合效果越好;越接近于0,表明估计回归方程拟合效果越差。判定系数的概念4在引导案例中,通过计算可得残差平方和,这从整体上度量了估计的回归方程估计月支出时所产生的误差大小;回归平方和,它从整体上度量了与之间偏差的大小;总离差平方和。因此,判定系数为

结果表明,总离差平方和中的89.25%的变异性,能够被估计的回归方程所解释。换句话说,40户家庭每月日用杂货支出的变异性,89.25%能够被月日用杂货支出与月收入之间的线性关系所解释。判定系数的应用(二)第一节相关分析概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析一、F检验理论分析(一)在回归方程中,如果其斜率,则有,回归方程此时为一条水平直线,这表明的均值不依赖于变化,意味着总体中y与x之间不存在线性相关关系。因此,总体中y与x存在线性相关关系的充要条件是。估计的回归方程是对回归方程的一个估计。回归方程代表了总体中y与x两个变量之间确定的线性相关关系,估计回归方程所代表的则是通过最小二乘法处理样本数据,拟合得到的一条随机直线。估计回归方程的随机性来源于样本数据的随机性。估计的回归方程与回归方程之间存在着随机误差。也就是说,不能依据直接推断;也不能依据直接推断。y与x两个变量之间的关系由样本到总体的推断,需要通过假设检验方法来完成。回归模型中曾假定在自变量x的不同取值下,对应的误差项随机变量的方差是相同的,都是。如果根据样本数据来估计,统计上存在着两个估计量。一个是运用残差平方和除以其自由度来估计,这个估计量称做均方误差,记作MSE;另一个是运用回归平方和除以其自由度来估计,这个估计量称做均方回归,记作MSR。残差平方和的自由度是样本量减去1以及问题中自变量的个数p,即;回归平方和的自由度就是问题中自变量的个数p,在一元线性回归分析中。均方误差与均方回归作为的两个独立的估计量,它们的性质有所不同。当,MSR与MSE都是对的无偏估计,此时MSR与MSE的比值会接近于1;当,MSE仍然是对的无偏估计,而MSR则会出现估计偏高的倾向,此时MSR与MSE的比值就会远远大于1。利用这一特点,可以构造统计量F来检验的假设是否成立,统计量F的计算公式为(9-13)

根据回归模型中关于的正态性假设,不难推出该统计量应服从分子自由度为1,分母自由度为的F分布。给定一个显著性水平,如果,则拒绝的原假设,这表明可以在的置信水平上推断总体中y与x这两个变量之间存在线性相关关系。否则,没有理由拒绝原假设。案例分析(二)在引导案例中,设原假设为,检验统计量F的值为:

如果给定的显著性水平,则有。因为,所以拒绝的原假设。即在0.05的显著性水平下,可以认为总体中每月日用杂货支出与月收入之间,存在着估计的回归方程所代表的线性相关关系。通常人们习惯采用方差分析表来表述F检验的具体步骤,具体如表9-2所示。

通常人们习惯采用方差分析表来表述F检验的具体步骤,具体如表9-2所示。引导案例的F检验方差分析表如表9-3所示。二、回归预测和的点估计(一)预测有两种情形。第一种情形是用自变量的值来预测因变量的均值,即用来预测,称为均值估计。例如,已知某地区的某一月收入水平,预测该地区平均月日用杂货支出是多少。第二种情形是用自变量的值来预测因变量的个别值,即用来预测,称为个别值估计。例如,已知某个家庭的月收入,预测这个家庭的月日用杂货支出是多少。值得注意的是,点估计不能给出估计置信水平。在引导案例中,这两种情形下的点估计值都是。例如,选取月收入为8000元的全部家庭,他们的平均月日用杂货支出的点估计为(元)如果知道某户家庭的月收入为8000元,预测这户家庭的月日用杂货支出,也只能从平均意义说这户家庭的月日用杂货支出的点估计为997.635元。表9-4给出了样本数据范围内不同月收入水平下,总体均值和个别值的点估计值。的区间估计(二)理论分析1案例分析2在引导案例中,已知,经计算可得,,

。如果要在的显著水平下,作出月收入为8000元全体家庭的平均月日用杂货支出的估计区间,则有,,且

因此,在显著水平下,平均月日用杂货支出的估计区间为

计算结果表明,月收入水平为8000元全体家庭的平均月日用杂货支出在955.06元与1040.21元之间,作出这种推断的置信水平为99%。当显著水平时,样本数据范围内不同月收入水平下的估计区间如表9-5所示。

的区间估计(三)理论分析1案例分析2在引导案例中,已知,经计算可得,,

。如果要在的显著水平下,作出某一月收入为8000元家庭的月日用杂货支出的区间估计,则有,,且

因此,在显著水平下,该月收入水平为8000元家庭的月日用杂货支出的估计区间为

计算结果表明,该月收入水平为8000元家庭的月日用杂货支出在770.37元与1224.90元之间,作出这种推断的置信水平为99%。当显著水平时,样本数据范围内不同月收入水平下的估计区间如表9-6所示。将表9-5与表9-6进行比较可以看出,的估计区间要略大于的估计区间。这是由于两种方差的不同所造成的。如前所述,当时,的估计区间是最精确的。第一节相关分析概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析一、残差图残差图的概念(一)残差图是指以回归方程的自变量为横坐标,以残差为纵坐标的散点图。残差图中包含着有关模型假定的有用信息。观察图中各个点的分布状况,有助于判断模型假定的真实性。残差图中各点的分布情况主要有3种,如图9-8至图9-10所示。一元线性回归模型的残差图(二)一元线性回归模型曾假定:总体中变量x与变量y之间具有线性关系,而且各个误差项都服从数学期望为零,方差为的同一种正态分布。如果这种假定是真实的,那么残差图中各个点就应当是分布在一条水平带中间,如图9-8所示。如果这种假定是不真实的,且总体中对应较大的,的方差也较大,那么残差图中各个点会分布在一条逐渐加宽的带内,如图9-9所示;或变量x与变量y之间不具有线性关系,那么残差图中各个点会分布在一条变得弯曲的带内,如图9-10所示。残差图的应用(三)在引导案例中,对应于各个样本点的残差的计算结果及残差图分别如表9-7和图9-11所示。图中各个残差围绕着的水平线上下波动,大体上分布在一条水平带内,没有证据表明模型假定是不合理的。二、标准化残差图概述(一)如果关于的同方差正态性假定是真实的,那么,作为随机变量的残差都应服从期望值为零,方差为的正态分布。利用正态分布的性质,可定义服从标准正态分布的统计量:(9-24)由于均方误差MSE是方差的一个无偏估计,且其自由度为。因此,以MSE估计方差,可得自由度为的t统计量,称为标准化残差,又称为皮尔逊残差,记作,计算公式为(9-25)标准化残差图是指以回归方程的自变量为横坐标,以标准化残差为纵坐标的散点图。如果模型假定是真实的,那么在样本量充分大的前提下,可以期望得到大约有95%的标准化残差介于-2和+2之间。如果有过多的点分布在这个范围之外,那就是违反模型假定的证据。标准化残差图的应用(二)引导案例中,40户家庭月日用杂货支出与月收入样本数据所计算的标准化残差如表9-7所示,其标准化残差图如图9-12所示。图中几乎所有的标准化残差都落在了-2和+2之间,没有证据表明误差项随机变量服从同方差正态分布的假定是不真实的。标准化残差的分布状态也可用直方图表示,如图9-13所示。如果模型假定是真实的,将会看到一个大体以0为中心的对称的钟形分布。观察图9-13,同样没有发现明显违反服从同方差正态分布这一假定的证据。三、正态概率图假如要从一个标准正态分布中,随机抽取容量为n的样本,并有能力将这一抽样过程无限次地重复进行下去,那么将会得到无数个容量为n的样本。此时,每一个可能样本中最小的那个观测是一个随机变量,第二小的那个观测也是一个随机变量。依此类推,第n小即最大的那个观测也是一个随机变量,这种随机变量称为顺序统计量。由于样本量为n,所以就会有n个顺序统计量。各个顺序统计量的数学期望称为正态分数。这样就会有n个正态分数。显然,第n小的顺序统计量的正态分数,将大于第小的正态分数的累积概率,以此类推。假如抽取了一个容量为n的样本,并根据样本中的各个观测计算出n个标准化残差值,用标准正态分布分别计算出从负无穷大到每一个标准化残差值的累积概率。按从小到大的顺序将这n个累积概率排成一列,并与根据n个正态分数计算得出的从小到大排序的累积概率放在一起进行比较。如果误差项服从正态分布的假定是真实的话,那么最小的标准化残差所对应的累积概率,就应当接近于最小的正态分数所对应的累积概率;第二小的标准化残差所对应的累积概率,就应当接近于第二小的正态分数所对应的累积概率,依此类推。如果用纵轴表示正态分数所对应的,即期望的累积概率;用横轴表示标准化残差所对应的,即实际观测的累积概率,那么在图上描绘出的各个散点就应当密集地分布在通过坐标原点的线附近,此散点图称为正态概率图。一般来说,若较多的点密集地分布在线附近,这是支持回归模型中正态性假定的有力证据。引导案例的正态概率图如图9-14所示。图中各散点都分布在线附近,没有证据表明误差项服从正态分布的假定是不真实的。四、异常值的检测概述(一)异常值是指数据集中过大或过小的检测值。异常值的存在对回归直线方程的拟合、判定系数和显著性检验的结果都有很大的影响。因此,检测数据集中是否存在异常值,是数据分析人员进行回归分析时的首要工作。造成异常值产生的原因主要有3种:①原始数据的检测或登记错误,需重新订正数据;②抽样的随机性所造成的异常值,需保留这些数据;③异常值的出现是总体本来数据结构的一种暗示,需考虑是否增加样本量,或考虑其他形式的模型。数据散点图法识别异常值(二)当数据集较大时,异常值是很难直接识别的,而数据散点图有助于识别异常值。如图9-15所示,图中存在一个异常值,它表现出与数据整体分布不相吻合的倾向。标准化残差图法识别异常值(三)对于一元线性回归分析,散点图法可以直接识别异常值。更通用、精确的识别异常值的方法是观察标准化残差图。如果一个检测值在散点图上比其余数据点的分布趋势有较大的偏离,那么其对应的标准化残差的绝对值也将会较大。如果某一观测值的标准化残差小于-2或大于+2,一般情况下可将它识别为异常值。如图9-16所示,图中存在一个异常值,其标准化残差远大于+2。高杠杆率点(四)自变量的观测值是极端值的样本称为高杠杆率点。如图9-17所示,该点的自变量观测值异常地大,它的存在对回归分析结果的影响特别大。回归分析若包含该点进行运算,回归直线的斜率较小;若剔除该点,回归直线的斜率急剧增大。对于一元线性回归分析,借助散点图即可识别高杠杆点。更通用和精确的识别方法是计算杠杆率的统计量,其计算公式为(9-26)对于一个给定的样本数据,其样本量n和样本均值都是确定的值,因而离差平方和也是一个确定的数。因此,对于单个检测来说,其杠杆率值的大小变化完全取决于。是其离群倾向大小的度量,越大,其对应的杠杆率值也就越高。通常情况下,如果一个观测值的杠杆率,则应将其识别为高杠杆率点。一旦发现高杠杆率点,首先应查明是否为数据采集或数据录入的错误。如果一个高杠杆率点的观测值是有效的,那么就可能暗示着总体数据结构的一种不为人知的特征,这需要扩大样本量,获取有关变量的一些补充数据,以获得更为合理的模型估计。第一节相关分析概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析一、运用SPSS进行一元线性回归分析计算相关系数(一)(1)打开“表9-1”对应的SPSS数据集“data9.1”。在SPSS主窗口选择【Analyze】→【Correlate】→【Bivariate…】菜单命令,系统弹出如图9-18所示的“BivariateCorrelations”对话框。(2)在此对话框中,选择变量“月支出[yzc]”和“月收入[ysr]”,单击按钮,将其移到“variables:”列表框内。单击【OK】按钮,系统输出结果如表9-8所示。进行回归分析(二)打开“表9-1”对应的SPSS数据集“data9.1”。在SPSS主窗口选择【Analyze】→【Regression】→【Linear】菜单命令,系统弹出如图9-19所示的“LinearRegression”主对话框。在此对话框中选择变量“月支出[yzc]”,单击第一个按钮,将其移到“Dependent”列表框内;选择变量“月收入[ysr]”,单击第二个按钮,将其移到“Independent(s)”列表框内。因为一元线性回归分析只有一个自变量,所以在“Method”下拉列表中选择默认项“Enter”选项即可。单击【Statistics】按钮,系统弹出如图9-20所示的“LinearRegression:Statistics”对话框。输出估计的线性回归方程1在“RegressionCoefficients”栏内选择“Estimates”复选框,再单击【Continue】→【OK】按钮,系统输出结果如表9-9所示。在“LinearRegression:Statistics”对话框中选择“Modelfit”复选框,单击【Continue】→【OK】按钮,系统输出结果如表9-10和表9-11所示。输出F检验及判定系数的计算结果2在“LinearRegression:Statistics”对话框中“Residuals”栏内选择“CasewiseDiagnostics”进行样本异常值检验,并在“Outliersoutside”的编辑框中键入2,设置标准化残差的绝对值大于等于2时识别为异常值。单击【Continue】→【OK】按钮,系统输出结果如表9-12所示。结果表明,第11号和第12号观测值被识别为异常值。检测异常值3在“LinearRegression”主对话框中点击【Plots】按钮,系统弹出如图9-21所示的“LinearRegression:Plots”对话框。在此对话框中,选择变量“*ZRESID”,单击第一个按钮,将其移到“Y:”列表框内;选择变量“DEPENDNT”,单击第二个按钮,将其移到“X:”列表框内,系统将输出关于因变量的标准化残差图。在“StandardizedResidualPlots”栏内选择“Histogram”和“Normalprobabilityplot”复选框,系统将输出标准化残差的直方图和正态概率图。单击【Continue】→【OK】按钮,系统输出结果分别如图9-11、图9-12和图9-13所示。绘制标准化残差图、标准化残差直方图及正态概率图4在“LinearRegression

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论