第八章 相关与回归分析.doc_第1页
第八章 相关与回归分析.doc_第2页
第八章 相关与回归分析.doc_第3页
第八章 相关与回归分析.doc_第4页
第八章 相关与回归分析.doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章 相关与回归分析统计方法的一个重要目的是探讨事物的数量规律,那么,统计方法怎样探讨规律?对这个过程或机制的一个简单解释是:通过对性质不同的事物的大量观察,发现某些表面关系不大的事物之间存在着一定的依存关系,事物之间不是“独立”的,这使人们发现了一些“模式”,比如,人们发现,菜肴如果比较“咸”,就不容易变质,这个模式甚至成为许多人长期保持食物的方法。本章将介绍初步的探索统计规律的方法。要求:1.掌握相关系数的含义、计算方法和应用2.掌握一元线性回归的基本原理和参数的最小二乘估计方法3.掌握回归方程的显著性检验4.利用回归方程进行预测4.掌握多元线性回归分析的基本方法5.了解可化为线性回归的曲线回归6.用 Excel 进行回归分析第一节 变量间的相关及其度量一、相关关系的概念 “事物是普遍联系的”,这种联系在我们看起来或明或暗,或显或隐,运用统计方法的一个意图就是试图从数量上测度事物之间的“联系及其程度” 用统计学的眼光看,事物无非变量,因此,我们可以把事物间的关系视为变量间的关系。为了讨论的简明,我们暂时设定数量联系发生在两个事物或两个变量之间,此关系的紧密程度就是统计学要发现和度量的对象。这种关系有一个极端的情况是一个变量的变化完全能够决定另一个变量的变化。例如,一瓶矿泉水2元钱,我们每多买一瓶,就要多花2元钱,把购买量(瓶)记为x,花费金额记为y,则y=2x。其他的类似情况很多,其基本特点是:知道了一个变量的变化程度,就能够确定另一个变量的变化程度,这就是函数关系。然而,现实世界中还有许多情况是两事物之间存在着联系,但其方式不是“决定”,比如,一般地看,一个人的身高越高,他的体重也“应该”越大,但我们会发现很多1.69米高的人比1.70米高的人重;又如,居民收入越高,储蓄额也会越大,但我们确实见过收入下降但储蓄额却上升的情况。类似的情况很多:我们认识到存在着一定的规律,但这种规律是有弹性的,至少是会出现“意外”的,所以,这是一种非确定性关系。由于众多现象所形成的复杂性和我们认识的局限性,或者由于试验误差、测量误差等偶然因素,使得一个变量的变化,另一个变量可以取若干个随机的数值。统计学中把这种现象之间在数量上非确定性的对应关系叫做“相关关系”或“统计关系”。因此,我们把相关看作是现象或变量之间的数量关联。1、 完全确定的关联函数关系统计关系2、 部分确定的关联 3、 完全不确定的关联从以上的分析看,探讨现象之间的相关关系,可能是探讨事物内在确定性的一种捷径,至少也是能够指出探索方向的重要信息,而且许多现象也证实了这种机制。比如,天花是一种毁坏性很强的传染病,但有人发现,牧场里挤牛奶的姑娘几乎从来不染天花,经过多次的“试-错”活动,牛痘诞生了,天花不再肆虐,以至于现在,天花病毒在某些范围内成为濒临灭绝的需要保护的生物物种;再如风湿性关节炎,是一种顽疾,但人们发现养蜂人几乎不患关节炎,与产生牛痘的艰难过程相似,治疗关节炎的“蜂毒”出现了。加拿大的一个科学家(Dr.Peter Yu)猜测:严重暴力犯是否在生理结构上就与正常人有区别?他研究了监狱内几十名严重暴力罪犯的血样,发现其中一种叫做MAO的物质只相当于正常人的1/3,而且暴力犯罪越严重,MAO含量越低。西班牙的一位科学家对斗牛士进行了相似的试验,也得到相似的结果。加拿大的这位科学家同样也对一些胆子很小、“不惜一切避免任何风险”的人进行了相似的试验,发现MAO含量偏高,他就着手研制一种药,能够降低某些胆小的人血液中的MAO含量,以使他们能与普通人同样低生活。这是一种现象:暴力倾向强的人,同时血液中MAO的含量也低,相反,胆子小的人,MAO含量高。人们会很自然地猜测MAO是否决定了一个人的暴力倾向?诸如此类的情况,都存在这样的过程:人们发现了某种现象的变化经常都会引起另一现象的变化,这可以被视为不太明确的规律,人们为了验证、利用这些规律,会进一步试验,筛选出最主要的变量,再进行理论论证,直至形成一种比较稳定的、可控的操作模式。这个过程用统计术语来表述,就是:通过大量观察,发现了某两个变量之间的相关关系,再对这两个变量的一系列观测值进行有效的统计技术处理(下面将要介绍的回归分析方法是主要的手段),形成具有一定概率的统计规律。如何验证或解释统计规律则是统计方法以外的事业,前述三个事例都属于生物学、生理学领域。经济现象中的“恩格尔定律”也有类似的情形。二、相关关系的种类感知某种事物的存在,人们很自然地就要去理解、解释这种事物。现象间存在着相关关系,这些“关系”成为认识的对象,我们不禁要问:这些关系是怎样的?从科学方法的角度看,对我们的研究对象进行适当的分类是必要的。现象间的相关关系可以有多种分类。1、 按相关的方向不同可以分为正相关和负相关 2、 按相关的形式不同可以分为线性相关和非线性相关当一个变量的变化幅度与另一个变量的变化幅度基本上是等比例时,这种相关关系就是线性相关。“线性”一此来源于函数图象,一元一次方程的图象是直线,线性相关就是两个变量在平面直角坐标系上所描绘出的系列点基本呈直线。线性相关之外的相关关系都属于非线性相关,因为这些关系需要使用曲线方程来刻划和表达。3、 按影响因素的数量不同分为单相关、复相关和偏相关两个变量的相关关系称为单相关;三个或三个以上变量的相关关系称为复相关;在三个及三个以上的相关变量中,若只反映其中两个变量的相关关系(假定其他变量不变),就称为偏相关。4、 按照变量关联的密切程度可分为完全相关、不完全相关和完全不相关(无关)习惯上所说的相关一般指的是介于完全相关和完全无关之间的“不完全相关”第二节 简单线性相关分析一、相关分析的基本思想例如,某公司10个企业的销售收入和销售利润的资料如下:表5-1 企业销售收入与销售利润相关表 单位:万元企业编号销售收入X1销售利润X212345678910 10 20 24 30 30 40 50 56 60 601.82.02.43.54.45.05.05.66.06.41、 相关图相关图也称散点图,是在平面直角坐标系中,以横轴表示变量X,以纵轴表示变量Y,将相关表中对应的资料数值在图上标出坐标点所形成的图形,图中的坐标点会显示一定的相关关系。通过相关图可以大致看出两个变量之间有没有关系,是什么样的关系(正相关或负相关),相关的密切程度如何。将表5-1中的资料绘制成相关图,能较直观地看出两个变量间的线性关系。图5-1 企业销售收入与销售利润相关图二、相关系数相关表和相关图都只能让我们了解现象之间相关关系的粗略情况,还不能进行“量化”,为了更有效、更具普适性地表示现象之间相关关系的密切程度,还需要计算相关系数。相关系数是用于测定两个变量之间线性相关程度和相关方向的统计分析指标,用字母r表示。相关系数从原理上说,可根据两个变量与其算术平均数的离差乘积来计算,这种计算方法称为“积差法”,是计算相关系数的基本方法。其计算公式为: 1 _ _ - (x - x)( y - y) xy n r = - = - (5.1) _ _ / 1 _ / 1 _ xy / -( x x )2 / - ( y y )2 n n式中:n表示相关变量的项数; xy代表两个变量离差乘积的平均数,也称为变量x与y的协方差; 其他符号的意义同前上式可用文字表述为: 变量x与y的协方差 相关系数 = - (5.2) 变量x的标准差变量y的标准差式(5.1)还可作如下简化: _ _ (x - x)( y - y) r = - (5.3) _ _ / _ / _ / ( x x )2 / ( y y )2 或 nxy - xyr = - (5.4) _ _ / / / nx2 (x)2 / ny2 (y)2 相关系数的积差法公式表明,在直线相关条件下,协方差xy为正值时,相关系数也为正值,表示正相关;xy为负值时,相关系数也为负值,表示负相关;xy为零时,相关系数为0,表示两个变量不相关。相关系数的变动范围在-1到+1之间,即|r|1,|r|的大小表示相关程度的高低。习惯上而不是严格意义上,我们还可以根据相关系数的值把相关关系的强度赋予一定的“名称”,即相关系数的绝对值|r|在:0.3以下,称为微弱线性相关;0.30.5,称为低度线性相关;0.50.8,称为显著线性相关;0.8以上,称为高度线性相关。如果计算相关系数时,使用的数据量较小,容易受偶然现象的影响,相关系数的可信度就比较低,这时需要对相关系数进行检验,检验样本相关系数r对总体相关系数的代表性。三、等级相关(Rank Correlation)等级相关的全称是斯皮尔曼(Spearman)等级相关。等级相关也是一种直线相关分析。它是将数量特征值按等级次序排列,再测定数量等级之间的相关程度的一种方法,故又称为顺位相关或秩相关。根据等级相关法计算出来的相关指标叫做等级相关系数或斯皮尔曼系数。在测定时,首先是将数值编号号码,然后顺次求两个变量每对符号等级的差量d,即:d = x等级 - y等级 (5.5)等级相关系数用表示,其计算公式为: 6d2= 1 - - (5.6) n(n2 - 1)式中:n代表等级的项数 d2代表所有差量平方之和的取值范围为-1,+1。若x、y等级次序完全相同时,d2=0,=1,则x、y完全正相关;若x、y等级次序完全颠倒,= -1,则x、y完全负相关。若-11,则x、y非完全直线相关。设有甲乙二组售货员对13种女皮鞋的式样进行评价,评分情况如下:表5-4 售货员对女皮鞋的评价分数皮鞋编号12345678910111213甲组82878492787276666880758786乙组76838380747286697472707676这种打分并不是客观的,也不精确,但可据此决定事物的等级或顺序。将评分改为等级的办法是:最低分定为1等,最高分本例定为13等。遇有相同分数时取原有等级的平均数。例如,甲组有两个87分,原来等级为11、12,其平均数为11.5,即作为这两个分数的等级;乙组有三个76分,原来等级为7、8、9,其平均数为8,即作为这三个分数的等级。计算等级相关系数的资料如下: 表5-5 评价分数计算表编号甲组评分乙组评分甲组等级x乙组等级y等级差d = xyd2123456789101112138287849278727666688075878676838380747286697472707676811.5913635127411.510811.511.5105.53.51315.53.52880 0-2.530.5-0.5-80-3.53.523.52006.2590.250.2564012.2512.25412.254合计125.0 6d2 6125= 1 - - = 1 - - 0.6566 n(n2 - 1) 13(132 - 1) 说明甲乙两个组售货员对女皮鞋式样的意见有中等相关。第三节 一元线性回归分析一、回归分析(Regession Analysis)的概念如果现象之间存在着相关关系,比如,变量X增长了,经常能发现变量Y也在增长,变量Y下降的时候,变量X也经常在下降(这表现的就是相关关系),这时,不管人们能否解释X和Y之间的逻辑关系或内在的确定性,他已经知道,可以在某种程度上利用这个规律。一个问题接踵而至当X增加1%时,Y会增加多少?这就涉及了回归的问题。“回归”一词不如“相关”一词更直观。Regession意为“衰退”,其最早是用于“特异现象向普通现象复原或倒退”意义上的“回归”,或者说,是“从特异回归到平常”。高尔登(Francis Galton)依据不太精确的经验发现了一个现象:高个子的夫妇一般会生育较高个子的孩子,低个子的夫妇也会生育较低个子的孩子,但比父母更例外的后嗣较为少见。为了探讨这种遗传学问题,他在1885年进行了豌豆试验,以验证关于“个子”的猜想,结果如下: 表5-6 高尔登的香豌豆试验数据 单位:0.01英寸代别种子直径上一代下一代1515.41615.71716.01816.31916.62017.02117.3小个子豌豆的下一代没那么小,大个子豌豆的下一代不是变得更大,而是比上一代较小些,高尔登称此为“回复变异”。他说:“回复变异是理想平均子型与父型有差异的趋势使回复到可以粗略地也许正确地称之平均祖先型。”回归分析法在后人手中发扬光大,现在已经成为重要的统计方法。它描述的是一个变量怎样地依赖于另一个变量,或者说,当一个变量发生一定的变动时,另一个变量将会发生怎样的数量变动。回归分析的目标是发现一个能充分解释所研究的事物关系的最简单和最实用的数学模型。二、回归模型的建立如果两个变量存在着相关关系,并且一个变量的变化会引起另一个变量的变化,则两个变量间的关系就可以拟合回归模型。本节介绍基本的回归分析方法一元线性回归模型。设有以下数据: 表5-7 某产品产量与单位产品成本资料产品产量(千件)289298316321322327329329331350单件成本(元)43.542.942.139.639.137.538.5383837先用上表资料绘制散点图:对于这样一幅散点图,很容易看出有一种趋势,而且是直线趋势。但怎样确定这条直线才能使它对这10个点的概括最为准确?设直线的方程式为 y = a + bx (5.7)式中x为自变量,在回归分析中,由于我们要观察的是因变量随自变量的变化而变化的程度,所以可以假定自变量是可控的,不是随机变量,通常是现象研究者事先选定的数值;a为估计直线在纵轴上的截距,它是估计直线通过纵轴点的y坐标;b为估计直线的斜率,它表示当x增加1个单位时y的平均增加数量;y为估计值。这条直线的根本目的是要代表那10个散点,那么,代表性最强的直线应该是最恰当的直线。怎样才能做到代表性最强?衡量代表性的原理或原则是什么?要回答这个问题请先回忆一下算术平均数,几个变量值最有代表性的指标是算术平均数(数理统计可进行证明,日常生活经验也使我们相信平均数),它有一个数学性质:各变量值与算术平均数离差的平方和为最小,即 _ (x-x)2 = min (5.8)从这个现象中,我们可以得到这样的结论:只有“离差平方和最小”的代表值才是最好的代表值这成为判别一个回归方程是否准确的基本标准,该方法在统计学中叫做“最小平方法”或“最小二乘法”。得到如下表达式: ( y y )2 = min (5.9)即 ( y a - bx )2 = min (5.10) 对a和b求偏导数,并令其为零,整理后得下列方程组: y = na + bx (5.11) xy = ax + bx2解方程组得 y bx _ _a = - - - = y - bx (5.12) n n nxy - xyb = - (5.13) nx2 (x)2可求出式(5.7)中的a、b,并确定直线回归模型。现根据表5-7中资料拟合回归直线。 表5-8 产品产量与单位成本回归模型计算表序号单位成本y(元)产品产量x(千件)计算栏xyx2y21234567891043.542.942.139.639.137.538.538.038.037.028929831632132232732932933135012571.512784.213303.612711.612590.212262.512666.512502.012578.012950.08352188804998561030411036841069291082411082411095611215001892.251840.411772.411568.161528.811406.251482.251444.001444.001369.00合计396.23212126920.1103437815747.54将上表资料代入公式(5.13)和(5.14),解得: nxy xy 10126920.1 - 3212396.2 -3393.4b= -= - = - = -0.11264 nx2 (x)2 101034378 - 32122 26836 y bx 396.2 3212a = - - - = - - (-0.1264)- = 80.22 n n 10 10得回归方程: y = 80.22 - 0.1264x图示如下:三、估计标准误差建立回归模型,理论基础是最小平方法,事实依据是若干对因变量、自变量的数值。而因变量、自变量的数值在绝大多数情况下都是样本值,虽然自变量是可控的,非随机的,但作为这一对数值却是随机的,与抽样指标相似,仍然存在着样本代表性的问题,同样需要计算这种随机数值的平均误差。其基本原理仍然是计算“离差平方和”(衡量算术平均数的代表性大小时使用此法,衡量抽样指标的代表性大小时延用此法),不同的是,这里的离差指的是实际值与估计值之间的离差。估计标准误差的计算公式为: _ / ( y y )2Sy = / - (5.14) n 2 仍以表5-8数据为例,计算估计标准误差。 表5-9 产品产量与单位成本回归模型的估计标准误差计算表序号单位成本y(元)产品产量x(千件)y (y - y)21234567891043.542.942.139.639.137.538.538.038.037.028929831632132232732932933135043.6942.5540.2839.6539.5238.8938.6338.6338.3835.980.03610.12253.31240.00250.17641.93210.01690.39690.14441.0404合计396.23212396.207.1806将有关数据代入式(5.15),则回归模型的估计标准误差为 _ _ / ( y y )2 / 7.1806Sy = / - = / - = 0.947 n 2 10 2在利用式(5.15)计算估计标准误差时,计算很繁琐,可利用已知的a、b值来计算估计标准误差。其公式为: _ / y2 - ay - bxySy = / - (5.15) n 2根据前述资料,可利用式(5.16)计算估计标准误差: _ / 15747.54 80.22396.2 -(-0.1264)126920.1Sy = / - = 0.941 10 2该结果与前种方法所得结果的误差是计算中舍入所致,可忽略不计。估计标准误差的作用,一方面用来衡量回归模型的拟合优度(有效程度),另一方面用来对实际的值y落到估计值y周围的区间做出一个大概的说明。如同抽样推断中的抽样平均误差一样,如果样本数据点围绕回归模型服从正态分布,那么,实际的y值落在估计值y加减一个Sy范围内,有68.27%的可靠性,实际值y落在估计值y加减2个Sy范围内,有95.45%的可靠性,实际值y落在估计值y加减3个Sy范围内,有99.73%的可靠性。四、可化为线性回归的非线线回归无论是自然现象还是社会现象,现象间的关系不都是线性关系,而且许多关系在一段时间内表现出线性特征,在更长的时间内,可能又表现为非线性特征;也有些关系在较短时间内表现为非线性特征,而在长期内又表现为线性特征。对于非线性关系,需要使用相应的模型来拟合,非线性模型一般都比较复杂,但有些非线性模型可以化为线性模型。1、 指数函数y = ex (5.16)两边同时取对数ln y = ln+x令y=ln y, 则y = ln+x (5.17)2、 幂函数y = x (5.18)两边同时取对数ln y =ln+ln x令y=ln y, x=ln x, 则y= ln+x (5.19) x3、 双曲函数 y = - (5.20) x+令y=1/y, x=1/x, 则y=+x (5.21)4、 对数函数y =+ln x (5.22)令x=ln x, 则y =+x (5.23) 15、 逻辑斯蒂曲线 y = - (5.24) +e-x令y=1/y, x=e-x, 则y=+x (5.25)第四节 多元线性回归分析“事物是普遍联系的”,因为有“联系”,使我们可以探索它,不至于一无所知、逆来顺受;因为“普遍”,又使我们对“联系”的探索举步维艰,一个现象的变化,往往找不到一个直接因素,经常都是在很多因素的影响下,一件事物变化了。复杂的现象常常具有多方面的联系,涉及多个变量之间的数量关系。在许多实际问题中,某个因变量常随着多个自变量的变动而作相应的数量变化,对于这类问题的处理应采用多元回归分析方法。多元回归分析是研究一个因变量与多个自变量之间相关关系的统计分析方法。由于多元回归考虑到多个自变量对因变量的影响,能够更真实地反映现象之间的相互关系和相互作用,因此被广泛地应用于科学研究和实验数据的分析当中,成为使用非常广泛的统计方法。例如,产品产量不但受劳动时间影响,而且还受技术水平、工人劳动能力、年龄、性别和设备的生产效率等因素的影响。对这类问题,就可以采用多元回归分析的方法来加以研究。本节简要介绍多元线性回归分析的方法。多元线性回归分析实际上可以视为一元线性回归分析方法的拓展,其基本原理与一元线性回归分析的原理相似,但在计算上要复杂得多。一、多元线性回归模型 设影响因变量y的主要因素有k个:x1,x2,x3,xk,则可以建立如下多元线性回归模型:y = b0 + b1x1 + b2x2 + + bkxk (5.26)每个自变量的系数表示,当其他自变量都固定,该自变量变动1个单位时,y的平均变动量。如b1表示当x2xk固定时,x1每变动一个单位而引起y的平均变动量。b2 表示当x1,x3xk 固定时,x2 每变动一个单位而引起y的平均变动量,等等。也可以这样理解:每个自变量的系数是一种权数,它表示每个自变量的变化对因变量总变化各自的贡献程度。多元线性回归分析是建立在简单线性回归所使用的假设和方法的基础之上的,对于式(5.27)中自变量的k个系数,均可采用最小平方法原则求得,下面以二元回归分析为例来介绍多元回归模型的分析方法。二元回归分析就是只分析两个自变量对因变量的影响,其回归模型为:y = b0 + b1x1 + b2x2 (5.27)式中的三个自变量系数由下列三个方程式确定:nb0 + b1x1 + b2x2 = y b0x1 + b1x12 + b2x1x2 = x1y (5.28)b0x2 + b1x1x2 + b2x22 = x2y现以表5-10的资料为例,拟合二元回归模型(假设自变量之间没有较强的线性关系)。表5-10 某地区空调销售量、销售加工及年人均收入资料年份销售量(万台)y销售价格(千元/台)x1年人均收入(千元)x2计算栏x12x22x1yx2yx1x219851986198719881989199019911992199319941.51.72.02.32.52.72.93.13.33.53.03.13.23.53.63.53.63.73.74.00.81.01.21.51.82.32.52.93.33.89.009.6110.2412.2512.9612.2512.9613.6913.6916.000.641.001.442.253.245.296.258.4110.8914.444.505.276.408.059.009.4510.4411.4712.2114.001.201.702.403.454.506.217.258.9910.8913.302.403.103.845.256.488.059.0010.7312.2115.20合计25.534.921.1122.6553.8590.7959.8979.26将表5-10中的资料代入上式得:10b0 + 34.9b1 + 21.1b2 = 25.534.9b0 + 122.65b1 + 79.26b2 = 90.7921.16b0 + 79.26b1 + 53.85b2 = 59.89解得:b0 = -0.481b1 = 0.744b2 = 0.206将结果代入式(5.28)得二元回归模型:y0 = -0.481 + 0.744x1 + 0.206x2 二、多元回归的估计标准误差与一元回归分析相同,估计本身是随机的,因此也就存在着误差,为了衡量这种误差的一般程度,也需要计算估计标准误差。多元回归估计标准误差的计算公式为: _ / ( y y )2Sy = / - (5.29) n (k + 1)式中,(k+1)为自由度式(5.29)可有简捷计算公式: _ / y2 b0y b1x1y b2x2y - - bkxkySy = / - (5.30) n (k+1)例如,对于二元回归模型,就有 _ / y2 b0y b1x1y b2x2ySy = / - (5.31) n (2+1)将表5-10资料和自变量系数数值代入式(5.31),就可得空调销售量回归的估计标准误差。 _ / 69.13 (-0.481)25.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论