




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,第七章 相关与回归分析,第一节 相关与回归分析的基本概念 第二节 简单线性相关与回归分析 第三节 多元线性相关与回归分析 第四节 Excel在相关与回归分析中的应用,2,第一节 相关与回归分析的基本概念,一、函数关系与相关关系 二、相关关系的种类 三、相关分析与回归分析 四、相关图,3,一、函数关系与相关关系,当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。例如,商品的销售收入与该商品的销售量以及该商品价格之间的关系。 当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。 变量间的这种
2、相互关系,称为具有不确定性的相关关系。例如,劳动生产率与工资水平的关系,4,变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。 本来具有函数关系的变量,当存在观测误差时,其函数关系往往以相关的形式表现出来。 而具有相关关系的变量之间的联系,如果我们对它们有了深刻的规律性认识,并且能够把影响因变量变动的因素全部纳入方程,这时的相关关系也可能转化为函数关系,5,相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去近似地描述。客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法,6,二、相关关系的种类,按相关的程度可
3、分为完全相关、不完全相关和不相关。 当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。在这种场合,相关关系便成为函数关系。因此也可以说函数关系是相关关系的一个特例。 当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。 两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关,7,按相关的方向可分为正相关和负相关。 当一个现象的数量增加(或减少),另一个现象的数量也随之增加(或减少)时,称为正相关。例如,消费水平随收入的增加而提高。 当一个现象的数量增加(或减少),而另一个现象的数量向相反方向变动时,称为负相
4、关。例如商品流转的规模愈大,流通费用水平则愈低,8,按相关的形式可分为线性相关和非线性相关。 按所研究的变量多少可分为单相关、复相关和偏相关。 两个变量之间的相关,称为单相关。 当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。 在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关,9,三、相关分析与回归分析,相关分析是用一个指标来表明现象间相互依存关系的密切程度。 回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变
5、化关系。 相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充,10,相关分析与回归分析之间在研究目的和方法上是有明显区别的。 相关分析研究变量之间相关的方向和相关的程度。回归分析则是研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学表达式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供一个重要的方法。 相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。而回归分析则必须
6、事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。 在应用项关于回归分析方法对客观现象进行研究时,一定要始终注意把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析,11,例7-1】教堂数与监狱服刑人数同步增长。(引自吴柏林现代统计学,吴南图书出版有限公司,年版。) 美国印第安纳州的地区教会想要筹款兴建新教堂,提出教堂能洁净人们的心灵,减少犯罪,降低监狱服刑人数的口号。为了增进民众参与的热诚和信心,教会的神父收集了近年的教堂数与在监狱服刑的人数进行统计分析。结果却令教会大吃一惊。最近年教堂数与监狱服刑人
7、数呈显著的正相关。那么是否可以由此得出,教堂建得越多,就可能带来更多的犯罪呢?经过统计学家和教会神父深入讨论,并进一步收集近年的当地人口变动资料和犯罪率等资料作进一步分析,发现监狱服刑人数的增加和教堂数的增加都与人口的增加有关。教堂数的增加并非监狱服刑人数增加的原因。至此,教会人士总算松了一口气,12,四、相关图,相关图又称散点图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形,13,第二节 简单线性相关与回归分析,一、相关系数及其检验 二、标准的一元线性回归模型 三、一元线性回归模型的估计 四、一元线性回归
8、模型的检验 五、一元线性回归模型预测,14,一、相关系数及其检验,一)相关系数的定义 总体相关系数的定义式是 总体相关系数是反映两变量之间线性相关程度的一种特征值,表现为一个常数。 样本相关系数的定义公式是 上式中, 和 分别是和的样本平均数。 样本相关系数是根据样本观测值计算的,抽取的样本不同,其具体的数值也会有所差异。样本相关系数是总体相关系数的一致估计量,15,二)相关系数的特点 r的取值介于-1与1之间。 当r=0时,与的样本观测值之间没有线性关系。 在大多数情况下,00时,与为正相关,当r0时,与为负相关。 如果r=1,则表明与完全线性相关,当r=1时,称为完全正相关,而-1时,称为
9、完全负相关。 是对变量之间线性相关关系的度量。r=0只是表明两个变量之间不存在线性关系,它并不意味着与之间不存在其他类型的关系。对于二者之间可能存在的非线性相关关系,需要利用其他指标去进行分析,16,三)相关系数的计算 具体计算样本相关系数时,通常利用以下公式,17,例7-2】表7-1是 1992年-2003年我国城镇居民人均年消费性支出和人均年可支配收入的有关资料,试计算消费性支出与可支配收入的样本相关系数,18,四)相关系数的检验 对总体相关系数 是否等于进行检验。 计算相关系数r的值: 根据给定的显著性水平和自由度(n-2),查找分布表中相应的临界值t/2。若tt/2,表明在统计上是显著
10、的。 若tt/2,表明在统计上是不显著的,19,例7-3】假设根据对样本观测数据计算出某公司的股票价格与气温的样本相关系数r=0.5,试问是否可以根据的显著水平认为该公司的股票与气温之间存在一定程度的线性相关关系? 解: 0:;1: 的检验值 查表可知:显著水平为,自由度为的临界值t/2=2.776 ,上式中的t值小于2.776,因此,不能通过显著性检验。这就是说,尽管根据样本观测值计算的达到0.5,但是由于样本单位过少,这一结论并不可靠,它不足以证明该公司的股票与气温之间存在一定程度的线性相关关系,20,二、标准的一元线性回归模型,一)总体回归函数 上式被称为总体回归函数。式中的1和2是未知
11、的参数,又叫回归系数。t和t分别是和的第个观测值。u t是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对的影响,21,二)样本回归函数 在现实问题研究中,由于所要研究的现象的总体单位数一般是很多的,在许多场合甚至是无限的,因此无法掌握因变量总体的全部取值。也就是说,总体回归函数事实上是未知的,需要利用样本的信息对其进行估计。 一元线性回归模型的样本回归线可表示为: 式中 的是样本回归线上与t相对应的值,可视为(t)的估计; 是样本回归函数的截距系数, 是样本回归函数的斜率系数,它们是对总体回归系数1和2的估计,22,实际观测到的因变量t值,并不完全等于 ,
12、如果用t表示二者之差(), 则有: (,.) 上式称为样本回归函数。式中t称为残差,23,样本回归函数与总体回归函数之间的间的区别。 总体回归线是未知的,它只有一条。而样本回归线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。 总体回归函数中的1和2是未知的参数,表现为常数。而样本回归函数中的 和 是随机变量,其具体数值随所抽取的样本观测值不同而变动。 总体回归函数中的ut是t与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的t是t与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出t的具体数值,24,三)误差项的标准假定 假定:
13、误差项的期望值为,即对所有的总有 假定:误差项的方差为常数,即对所有的总有 假定:误差项之间不存在序列相关关系,其协方差为零,即当时有: 假定:自变量是给定的变量,与随机误差项线性无关。 假定:随机误差项服从正态分布。 满足以上标准假定的一元线性模型,称为标准的一元线性回归模型,25,三、一元线性回归模型的估计,一)回归系数的点估计 所谓最小二乘法就是根据这一思路,是通过使残差平方和为最小来估计回归系数的一种方法,加以整理后有,以上方程组称为正规方程组或标准方程组,式中的是样本容量。求解这一方程组可得,26,例7-】我们利用例7-2的表7-1中已给出我国历年城镇居民人均消费支出和人均可支配收入
14、的数据,来估计我国城镇居民的边际消费倾向和基础消费水平。 解:t12tut =50.07312-0.751162.976120.2310 样本回归方程为: 上式中:0.7511是边际消费倾向,表示人均可支配收入每增加1千元,人均消费支出会增加0.7511千元;0.2310是基本消费水平,即与收入无关最基本的人均消费为0.2310千元,27,二)总体方差的估计 数学上可以证明,2的无偏估计S2可由下式给出: 式中,分子是残差平方和,分母是自由度,其中是样本观测值的个数,是一元线性回归方程中回归系数的个数。S2的正平方根又叫做回归估计的标准误差。 一般采用以下公式计算残差平方和: 上式的推导过程如
15、下,28,例7-】根据例7-中给出的有关数据和例7-中已得到的回归系数估计值,计算我国城镇居民消费函数的总体方差S2和回归估计标准差S。 解:根据例7-中给出的有关数据和例7-中已得到的回归系数估计值,可得: =232.772-0.23150.073-0.751 294.454 =0.041 S2=0.041/(12-2)=0.0041 进而有:S=0.064,29,三)最小二乘估计量的性质 按照最小二乘法求得的估计总体回归系数的数学公式是样本观测值的函数,通常称之为最小二乘估计量。 可以证明,在标准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于其真值,即有: 其方差为: 和
16、的期望值与方差的推导过程基本类似。这里只就 进行证明,30,为了便于讨论,将Yt12Xtut代入 估计量,并作以下变形: 为了推导上式,利用了以下恒等式: 这样,回归系数的最小二乘估计量可以表现为所要估计的参数的真值与随机误差项的线性组合。由于我们已假定t是给定的变量(不是随机变量),因此,同各期误差项相乘的权数也都是确定量。为了叙述的方便,令,31,利用前面所述的关于随机误差项的标准假定和期望值运算的规则,可以证明 的期望值和方差分别为,根据标准假定,根据标准假定,根据标准假定、3,根据标准假定2,根据标准假定,证毕,32,由以上推导过程可知,最小二乘估计量是因变量观测值t的线性函数,其期望
17、值等于总体回归系数的真值。因此,最小二乘估计量是总体回归系数的线性无偏估计量。数学上还可以进一步证明,在所有的线性无偏估计量中,回归系数的最小二乘估计量的方差最小;同时随着样本容量的增大,其方差会不断缩小。也就是说,回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。 高斯-马尔可夫定理表明,在标准的假定条件下,最小二乘估计量是一种最佳的估计方式。但是应当明确,这并不意味着根据这一方式计算的每一个具体的估计值都比根据其他方式计算的具体估计值更接近真值,而只是表明如果反复多次进行估计值计算或是扩大样本的容量进行估计值计算,按最佳估计方式计算的估计值接近真值的可能性(概率)最大,33,四)回
18、归系数的区间估计 根据第五章中介绍的关于参数区间估计的原理,可得到以下回归系数区间估计的公式: (j =1,2) 式中, 是回归系数估计的样本标准误差, 是显著水平为,自由度为(n-2)的分布双侧临界值,34,例7-6】利用例7-的有关资料和例7-与例7-的结果,对例7-中估计的我国城镇居民边际消费倾向进行置信度为95的区间估计。 解: 查分布表可知:显著水平为,自由度为10的分布双侧临界值是2.228,前面已求得 ,将其代入回归系数区间估计的公式 ,可得,35,四、一元线性回归模型的检验,一) 回归模型检验的种类 回归模型的检验包括理论意义检验、一级检验和二级检验。 理论意义检验主要涉及参数
19、估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。例在前面所举的消费函数中,2的取值区间应在至之间。在对实际的社会经济现象进行回归分析时,常常会遇到经济意义检验不能通过的情况。造成这一结果的主要原因是:社会经济的统计数据无法像自然科学中的统计数据那样通过有控制的实验去取得,因而所观测的样本容量有可能偏小,不具有足够的代表性,或者不能满足标准线性回归分析所要求的假定条件,36,一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过
20、的检验。 二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。二级检验对于社会经济现象的定量分析具有特别重要的意义,37,二)拟合程度的评价 总离差平方和的分解 对任一实际观测值t总有: 对上式两边取平方并求和,得到: 可以证明: 从而有: 即 SSTSSRSSE,38,上式中,SST是总离差平方和;SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和;SSE是用回归直线无法解释的离差平方和,称为残差平方和。式子两边同除以SST,得: 显而易见,各个样本观测点与样本回归直线靠得越紧,SSR在SST中所
21、占的比例就越大。因此,可定义这一比例为决定系数,即有: 决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差,39,决定系数r2具有如下特性: 1决定系数r2具有非负性。 由决定系数的定义式可知, r2的分子分母均是不可能为负值的平方和,因此其比值必大于零。(但是在回归模型中不包括截距项的场合, 由于总离差平方和的分解公式不成立,按该式计算的r2有可能小于) 2决定系数的取值范围为 r2 。 3决定系数是样本观测值的函数,它也是一个统计量。 4在一元线性回归模型中,决定系数是单相关系数的平方,40,例7-7】利用例7-5中计算的残差平
22、方和,计算例7-3所拟合的样本回归方程的决定系数。 解: 上式中的SST是利用表7-1中给出的数据按下式计算的,41,三)显著性检验 所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。 下面我们以2的检验为例,介绍回归系数显著性检验的基本步骤,42,1t 检验 (1)提出假设。 对回归系数进行显著性检验,所提出的假设的一般形式是: 式中,o表示原假设;1表示备择假设; 是假设的总体回归系数的真值。在许多回归分析的计算机程序里,常常令 0。这是因为2 是否为,可以表明对是否有显著的影响,43,2)确定显著水平。 显著水平的大小应根据犯哪一类错误可能带来损失的大小确
23、定。一般情况下可取0.05。 (3)计算回归系数的值。 上式中,是回归系数估计的标准误差,44,4)确定临界值。 t检验的临界值是由显著水平和自由度df决定的。 这时应该注意,原假设和备择假设设定的方式不同,据以判断的接受域和拒绝域也不相同。例如,对0:2=0,1:20,进行的是双侧检验;而对0:2=0.9,1:20.9,进行的是单侧检验。对此,在双侧检验的场合,依据和df,查分布表所确定的临界值是(-t/2)和( t/2 );而在单侧检验的场合,所确定的临界值是(t)。 (5)做出判断。 如果的绝对值大于临界值的绝对值,就拒绝原假设,接受备择假设;反之,如果的绝对值小于临界值的绝对值,则接受
24、原假设,45,2p检验 回归系数的显著性检验还可以采用p检验。其前三步与t检验相同,但t值计算出来之后,并不与t分布的临界值进行对比,而是直接计算自由度为n-2的t统计量大于或小于根据样本观测值计算的的概率即p值。然后将其与给定的显著水平对比,如果p小于,则拒绝原假设,反之则接受原假设。利用Excel进行回归分析时,计算机将直接给出回归系数估计的p值,46,例7-8】利用例7-4和例7-6的有关资料和结果,对例7-4中估计的我国城镇居民边际消费倾向进行显著性检验。 (1)以的显著水平检验可支配收入是否对消费支出有显著影响。 (2)对o:20.8,1:2.8进行检验。 解:(1)首先,提出假设
25、0:2,1:2。 其次,计算值 0.7511/0.009876.6429 查分布表可知:显著水平为,自由度为10的双侧检验的临界值是2.228。以上计算的值远远大于此临界值,所以拒绝原假设,接受备择假设,即认为可支配收入对消费支出的影响是非常显著的。 (2) (0.7511-0.8)/0.0098-4.9898 查分布表可知:显著水平为, 自由度为10的单侧检验的临界值是1.812。因为计算的值的绝对值大于此临界值,所以否定2.8的原假设,接受备择假设,认为我国城镇居民的平均消费倾向小于0.8,47,五、一元线性回归模型预测,一)回归预测的基本公式 简单回归预测的基本公式如下: 式中,f 是给
26、定的的具体数值;是f 给定时的预测值;和是已估计出的样本回归系数。 回归预测是一种有条件的预测,在进行回归预测时,必须先给出f 的具体数值。当给出的f 属于样本内的数值时,利用该式去计算 称为内插检验或事后预测。而当给出的f在样本之外时,利用该式去计算称 为外推预测或事前预测。通常所说的预测是指事前预测,48,二)预测误差 在实际的回归模型预测中,发生预测误差的原因可以概括为以下四个: 1.模型本身中的误差因素所造成的误差;这一误差可以用总体随机误差项的方差来评价。 2.由于回归系数的估计值同其真值不一致所造成的误差;这一误差可以用回归系数的最小二乘估计量的方差来评价。 3.由于自变量的设定值
27、同其实际值的偏离所造成的误差。 4.由于未来时期总体回归系数发生变化所造成的误差。 在以上造成预测误差的原因中,3、4、两项不属于回归方程本身的问题,而且也难以事先予以估计和控制。因此,在下面的讨论中,假定只存在1、2、两种误差,49,设f给定时的真值为f,f12fuf 则有 式中,f是预测的残差。利用期望值与方差的运算规则以及前面给出的回归系数最小二乘估计量的期望值和方差,可以证明: 在此基础上,还可以进一步证明 是f的最优线性无偏预测,即在标准假定能够满足的情况下,公式 是f的最佳预测方式,50,三)区间预测 若用Sef来表示预测标准误差的估计值, 则数学上可以证明: 服从于自由度为(n-
28、2)的分布。按照确定置信区间的方法,可以得出f的(1- )的置信区间为: 式中, 是置信度为(1- ) 、自由度为(n-2)的分布的临界值,51,对于每一个给定的值,计算相应的的置信区间,并将连接各点的曲线描绘在平面图上,便可得到右图。 从置信区间和Sef的计算公式以及右图,可以得到以下结论,回归预测的置信区间,52,第一,置信区间的上下限对称地落在样本回归直线两边, 呈中间小两头大的喇叭型。当f 时的置信区间最窄,而当f远离 时,其置信间逐渐增大。这就是说,在用回归模型进行预测时, f的取值不宜离开 过远,否则预测精度将会降低,有可能使预测失效。 第二,在样本容量n保持不变时, 的值,随置信
29、度(1- )的提高而增加,因此,要求预测值的概率保证程度增加,在其它条件不变时,也就意味着预测精度的降低。 第三,当其它条件不变时, 和Sef的值均为样本容量n的减函数,即随着n的增加,这二者将逐渐减少。这说明随着样本容量的增加,预测精度将会提高,而样本容量过小,预测的精度就较差,53,第四,当n足够大时, Sef会趋近于S; 会趋近于/2。(/2是置信度为(1-)的标准正态分布的临界值)。 这时,可以用S和/2取代Sef和t/2来确定预测区间。即样本容量充分大时,f的(1-)的置信区间为: f/2S 按上式确定的预测区间的上、下限在平面图上呈两条直线(参见图“回归预测的置信区间”中与样本回归
30、线平行的两条虚线,54,例7-9】假定已知某居民家庭的年人均可支配收入为8千元,要求利用例7-4中拟合的样本回归方程与有关数据,计算置信度为95的年人均消费支出的预测区间。 解:将有关数据代入拟合好的样本回归方程,可得: 从前面几例的结果可知:S = 0.0638, n=12 将其代入求预测标准误差估计值的公式,有 查分布表可知:显著水平为,自由度为10的双侧检验的临界值是2.228。因此,当人均可支配收入为8千元时,置信度为95 的消费支出的预测区间如下: 6.23982.2280.0717 Yf 6.23982.2280.0717 6.0801 (千元) Yf 6.3995(千元,55,第
31、三节 多元线性相关与回归分析,一、标准的多元线性回归模型 二、多元线性回归模型的估计,56,一、标准的多元线性回归模型,研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。 多元线性回归模型总体回归函数的一般形式如下: 多元线性回归模型的样本回归函数如下: (t1,2,n) 上式中,et是Yt与其估计之间的离差,即残差。与一元线性回归分析相类似,为了进行多元线性回归分析也需要提出一些必要的假定。多元线性回归分析的标准假定除了包括上一节中已经提出的关于随机误差项的假定外,还要追加一条假定。这就是回归模型所包
32、含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即nk。我们称这条假定为标准假定6,57,二、多元线性回归模型的估计,一)回归系数的估计 多元线性回归模型中回归系数的估计同样采用最小二乘法。设 根据微积分中求极小值的原理,可知残差平方和存在极小值,欲使达到最小,对 的偏导数必须等于零。将对 求偏导数,并令其等于零,加以整理后可得到以下个方程式: 以上元一次方程组称为正规方程组或标准方程组,通过求解这一方程组便可以得到,58,求解多元回归方程,用矩阵形式来表达较为简便(这里给出的矩阵形式具有一般性,对于一元线性回归模型也同样适用。对于尚未学过矩阵代数的读者,可以
33、不必掌握这一部分内容。)记,59,则总体回归函数(7.50)式可以写为: Y XBU 样本回归函数(7.51)式可以写为: 标准方程组可以写为: 式中X表示X的转置矩阵。(XX)是一个的对称矩阵,根据标准假定6,(k-1)个自变量之间不存在高度的线性相关,因此其逆矩阵存在。在上式两边同时左乘(XX)-1,可以得到: 上式是回归系数最小二乘估计的一般形式,60,二)总体方差的估计 多元线性回归模型中的2也是利用残差平方和除以其自由度来估计的。即有: 上式中,n是样本观测值的个数;k是方程中回归系数的个数;数学上可以证明,S2是2的无偏估计。S2的正平方根S又叫做回归估计的标准误差。 S越小表明样
34、本回归方程的代表性越强。 在编制计算机程序时,残差平方和一般不是按照其定义式计算,而是利用以下公式计算: 上式是残差平方和的矩阵形式。式中Y是因变量样本观测值向量;X是自变量样本观测值矩阵; 是回归系数估计值向量的转置向量,61,三)最小二乘估计量的性质 在标准的多元线性回归模型中,高斯.马尔可夫定理同样成立,62,三、多元线性回归模型的检验和预测,一)拟合程度的评价 利用R2来评价多元线性回归方程的拟合程度,必须注意以下问题。 由决定系数的定义可知, R2的大小取决于残差平方和 在总离差平方和 中所占的比重。在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自
35、变量个数的增加不断减少,至少不会增加。因此, R2是自变量个数的非递减函数。 在一元线性回归模型中,所有模型包含的变量数目都相同,如果所使用的样本容量也一样,决定系数便可以直接作为评价拟合程度的尺度。然而在多元线性回归模型中,各回归模型所含的变量的数目未必相同,以R2的大小作为衡量拟合优劣的尺度是不合适的,63,在多元回归分析中,人们更常用的评价指标是所谓的修正自由度的决定系数。 该指标的定义如下: 式中,n是样本容量;k是模型中回归系数的个数。( n -)和( n - k )实际上分别是总离差平方和与残差平方和的自由度,64,修正自由度的决定系数具有以下特点: 1. 。因为k1,所以根据 和
36、R2各自的定义式可以得出这一结论。对于给定的R2值和n值, k值越大 越小。在进行回归分析时,一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度。 作为综合评价这两方面情况的一项指标显然比R2更为合适。 2. 小于1,但未必都大于0。在拟合极差的场合,有可能取负值,65,例7-10】假设有7年的年度统计资料,现利用其对同一因变量拟合了两个样本回归方程。方程一中:k=6, R2=0.82;方程二中:k=2, R2 =0.80。试对这两个回归方程的拟合程度做出评价。 解:如果仅从R2考察,似乎方程一的拟合程度更佳。但是,由于两个方程选用的自变量个数不同,这一结论是不正确的。将上列数据代入修正自
37、由度的决定系数 公式,可得: 方程一的 =1-(7-1)/(7-6)(1-0.82)=-0.08 方程二的 =1-(7-1)/(7-2)(1-0.80)=0.76 由此可见,方程二的实际拟合程度远远优于方程一,66,二)显著性检验 1回归系数的显著性检验 多元回归中进行这一检验的目的主要是为了检验与各回归系数对应的自变量对因变量的影响是否显著,以便对自变量的取舍做出正确的判断。一般来说,当发现某个自变量的影响不显著时,应将其从模型中删除。这样才能够做到以尽可能少的自变量去达到尽可能高的拟合优度。 多元模型中回归系数的检验同样采用检验和P检验,其原理和基本步骤与一元回归模型基本相同,这里不再赘述
38、。下面仅给出回归系数显著性检验统计量的一般计算公式,67,j=1,2,k 式中, 是回归系数的估计值, 是的标准差的估计值,其按下式计算: 式中, 是(XX)-1的第j个对角线元素,S2是随机误差项方差的估计值。上式的 t 统计量背后的原假设是0:j=0,因此 t 的绝对值越大表明j为0的可能性越小,即表明相应的自变量对因变量的影响是显著的,68,2回归方程的整体显著性检验 必须在方差分析的基础上利用检验进行。其具体的方法步骤可归纳如下: (1)假设总体回归方程不显著,即有 H0:23k0 (2)进行方差分析,列出回归方差分析表(见下表,69,回归模型方差分析表 表中, 回归平方和的取值受个回
39、归系数估计值的影响,同时又要服从 的约束条件,因此其自由度是k-1。残差平方和取决于n个因变量的观测值,同时又要服从k个正规方程式的约束,因此其自由度是n-k。 回归平方和与残差平方和各除以自身的自由度得到的是样本方差,70,3)根据方差分析的结果求统计量,即 数学上可以证明,在随机误差项服从正态分布同时原假设成立的条件下,服从于自由度为(k-1)和(n-k)的分布。 (4)根据自由度和给定的显著性水平,查F分布表中的理论临界值F。当F F时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显著。当F F时,接受原假设,即认为总体回归函数中,自变量与因变量的线性关系不显著,因而所
40、建立的回归模型没有意义,71,三)多元线性回归预测 在通过各种检验的基础上,多元线性回归模型可以用于预测。多元线性回归预测与一元线性回归预测的原理是一致的,其基本公式如下: 式中,Xjf(j=2,3,k)是给定的Xj在预测期的具体数值; 是已估计出的样本回归系数; 是Xj给定时的预测值。 该方程的矩阵形式为,72,式中: 多元线性回归预测标准误差的计算公式如下: 式中,S是回归方程估计的标准误差。 多元线性回归预测f的()的置信区间可由下式给出: 式中,t/2是显著水平为的t分布双侧临界值,73,四、复相关系数和偏相关系数,一)复相关系数 样本复相关系数(以下简称复相关系数)的定义式如下: 实际计算复相关系数时,一般不直接根据其定义式,而是先计算出决定系数,然后再求决定系数的平方根。 复相关系数只取正值。因此,复相关系数只是反映一个变量Y与其他多个变量X2,X3,Xk之间线性相关程度的指标,而不能反映其相互之间线性相关的方向。 复相关系数的取值区间为:R,74,二)偏相关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 内蒙古医科大学《普通微生物学实验(1)》2023-2024学年第二学期期末试卷
- 渭南师范学院《影视色彩》2023-2024学年第一学期期末试卷
- 南京信息工程大学《日语学术写作与研究方法》2023-2024学年第二学期期末试卷
- 西华大学《曲式与作品分析》2023-2024学年第二学期期末试卷
- 丽水学院《计算机控制技术》2023-2024学年第二学期期末试卷
- 山西省临汾市尧都区兴国实验校2024-2025学年初三接轨考试生物试题文试题含解析
- 校考卷2025届数学三下期末监测试题含解析
- 威海职业学院《工程流体力学》2023-2024学年第二学期期末试卷
- 建筑公司雇佣劳动合同书范例
- 私车公用协议书范例二零二五年
- 幼儿园区域活动有效指导
- 2025届中考英语复习分层进阶练习册(外研版广西专用)08-八年级(上)Modules 1-2
- 广东省佛山市(2024年-2025年小学六年级语文)统编版小升初模拟(上学期)试卷及答案
- DB37T 5157-2020 住宅工程质量常见问题防控技术标准
- 【MOOC】无线通信原理(双语)-南京邮电大学 中国大学慕课MOOC答案
- 《中国省会城市介绍》课件
- 气切病人的个案护理
- 电子商务物流教学课件
- 《企业财务决算报表》课件
- 图书馆读书会服务合同
- 排水工程(下)重点
评论
0/150
提交评论