第六章-回归预测_第1页
第六章-回归预测_第2页
第六章-回归预测_第3页
第六章-回归预测_第4页
第六章-回归预测_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、王剑2年份居民消费品购买力x居民货币收入x19788.511.6197911.114.1198013.617.1198115.819.6198217.622.1198320.525.6198427.833.6198533.540.5198639.247.83一、一、“回归回归”最初的涵义最初的涵义遗传学中的名词,英国生物学家兼统计学家高尔登遗传学中的名词,英国生物学家兼统计学家高尔登首先提出来的。首先提出来的。回归现代涵义回归现代涵义研究自变量与因变量之间的关系形式的分析方法。研究自变量与因变量之间的关系形式的分析方法。目的:根据已知自变量来估计和预测因变量的值。目的:根据已知自变量来估计和预

2、测因变量的值。例如:例如:6.1 概述概述农作物亩产量农作物亩产量施肥量施肥量降雨量降雨量气温气温4二、回归分析和相关分析二、回归分析和相关分析1、相关关系的概念、相关关系的概念客观事物之间的相关关系的概念:客观事物之间的相关关系的概念:函数关系函数关系。确定性关系,对于某一变量的每一个数值,。确定性关系,对于某一变量的每一个数值,都有另一变量的确定的值与之对应。都有另一变量的确定的值与之对应。例:例:圆面积圆面积对于对于半径半径的依存关系,正方形的的依存关系,正方形的面积面积对于对于边边长长的依存关系等等。的依存关系等等。相关关系相关关系。反映事物之间的非严格、不确定的线性依。反映事物之间的

3、非严格、不确定的线性依存关系。存关系。51、相关关系、相关关系相关关系相关关系。反映事物之间的非严格、不确定的线性依存关系。反映事物之间的非严格、不确定的线性依存关系。特点特点:事物之间在数量上确实存在一定的内在联系。表现在一个变量事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。变化。例:例:事物之间的数量依存关系不是确定的,具有一定的随机性。表事物之间的数量依存关系不是确定的,具有一定的随机性。表现在给定自变量一个数值,因变量会有若干个数值和它对应,现在给定自变量一个数值,

4、因变量会有若干个数值和它对应,并且因变量总是遵循一定规律围绕这些数值平均数上下波动。并且因变量总是遵循一定规律围绕这些数值平均数上下波动。其原因是影响因变量发生变化的因素不止一个。其原因是影响因变量发生变化的因素不止一个。例例:影响:影响工业总产值工业总产值的因素除了的因素除了职工数职工数外,还有入定外,还有入定资产原值资产原值、流动资金流动资金和和能耗能耗等因素。等因素。成本成本劳动生产率劳动生产率62、回归分析与相关分析、回归分析与相关分析研究和测度两个或两个以上变量之间关系的方法有研究和测度两个或两个以上变量之间关系的方法有回归分析回归分析和和相关分析相关分析。相关分析相关分析。研究两个

5、或两个以上随机变量之间线性依存关系的紧。研究两个或两个以上随机变量之间线性依存关系的紧密程度。通常用相关系数表示,多元相关时用复相关系数表示。密程度。通常用相关系数表示,多元相关时用复相关系数表示。回归分析回归分析。研究某一随机变量(因变量)与其他一个或几个普通。研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动的关系。变量(自变量)之间的数量变动的关系。区区别别相关分析相关分析 研究变量都是随机变量,不分自变量与因变量研究变量都是随机变量,不分自变量与因变量回归分析回归分析明确的自变量和因变量,自变量是确定的普通变量,因变量是随明确的自变量和因变量,自变量是确定的普通

6、变量,因变量是随机变量。机变量。联联系系相关分析相关分析 事物之间相互依存关系的两个不可分割的方面。在实际工作中,事物之间相互依存关系的两个不可分割的方面。在实际工作中,一般先进性相关分析,有相关系数的大小决定是否需要进行回归一般先进性相关分析,有相关系数的大小决定是否需要进行回归分析。在相关分析的基础上建立回归模型,以便进行推算、预测。分析。在相关分析的基础上建立回归模型,以便进行推算、预测。回归分析回归分析7根据回归模型中含有根据回归模型中含有自变量的多少自变量的多少分为:一元回归分为:一元回归和多元回归;和多元回归;根据回归模型的根据回归模型的性质性质分为:线性回归和非线性回归;分为:线

7、性回归和非线性回归;根据回归模型中变量的根据回归模型中变量的属性属性分为:普通回归模型和分为:普通回归模型和带虚拟变量的回归模型。带虚拟变量的回归模型。 应用回归分析预测需满足条件:应用回归分析预测需满足条件:1.数据量不能太少(以多于数据量不能太少(以多于20个较好);个较好);2.预测对象与影响因素之间必须存在因果关系;预测对象与影响因素之间必须存在因果关系; 三、回归模型的分类:三、回归模型的分类:86.2 一元线性回归预测一元线性回归预测已知因素已知因素 x 与因素与因素 y 有某种线性关系,设有某种线性关系,设 x 为自变量,为自变量,y 为因为因变量,现有观察值(变量,现有观察值(

8、xi, yi),),i=1,2n,则,则 x 与与 y 之间的之间的关系可定量表示为:关系可定量表示为: 其中其中 N(0,2),称为误差项(或随机干扰),一般认为其,称为误差项(或随机干扰),一般认为其服从正态分布。服从正态分布。iiiyabx一元线性回归预测是对两个具有线性关系的变量,建立线一元线性回归预测是对两个具有线性关系的变量,建立线性回归模型,根据自变量的变动来预测因变量平均发展趋性回归模型,根据自变量的变动来预测因变量平均发展趋势的方法。势的方法。一、一、一元线性回归模型一元线性回归模型9随机干扰随机干扰 满足以下条件:满足以下条件:2)0;(2);(3)(,)0,;(4)(,)

9、0;CovijCovx iiijii(1)E(D((1)表示随机干扰中有正、负两种干扰,平均干扰为表示随机干扰中有正、负两种干扰,平均干扰为 0;(2)表示随机干扰有相同的方差;表示随机干扰有相同的方差;(3)随机干扰不存在序列相关;随机干扰不存在序列相关;(4)随机干扰与解释变量无关。随机干扰与解释变量无关。因变量因变量 y 由于受各种随机因素的影响,故它是一个随机变量,由于受各种随机因素的影响,故它是一个随机变量,是我们预测的目标变量。是我们预测的目标变量。10 实际中,用实际中,用 来作为上述关系的近似,来作为上述关系的近似,称为一元线性回归方程。称为一元线性回归方程。iiyabx方程中

10、参数方程中参数a,b的估计:的估计:最小二乘法最小二乘法基本思想基本思想:使得原始数据的观测值与模型的估计:使得原始数据的观测值与模型的估计值的误差平方和达到最小。即:值的误差平方和达到最小。即:21min()niiiyy二、二、参数估计参数估计1122111111211111()()2()02()00,0()nniiiiiiniiiniiiinniiiinnnnniiiiiiiiiiiiyyyabxQyabxaQx yabxbynabxaybxx yaxbxx yybxxbx 设Q,欲使Q达到最小,应有即 ,解之得:,则有: 212110()()()niinniiiiibxxyyxx解之得:

11、21min()niiiyy12例例:已知某种商品的:已知某种商品的销售量销售量同居民的同居民的可支配收入可支配收入有关,有关,现有如下表的统计数据,试建立回归方程,并求出相应现有如下表的统计数据,试建立回归方程,并求出相应参数的最小二乘估计值。参数的最小二乘估计值。年份年份实际可支配收实际可支配收入入 x(单位:(单位:10元)元)商品的销售量商品的销售量(单位:件)(单位:件)年份年份实际可支配收实际可支配收入入x(单位:(单位:10元)元)商品的销商品的销售量(单售量(单位:件)位:件)1983522670019917418158198453971361992769868319855777

12、658199380193171986613778419948559675198764481081995842854219886707583199686085841989695800219978909612199071384421998920971913第一步:绘制散点图第一步:绘制散点图6000650070007500800085009000950010000500 550 600 650 700 750 800 850 900yi(件件)xi(10元)元)950第二步:设一元线性回归方程为第二步:设一元线性回归方程为22()iiiiiiiinx yxybnxxyxabnn yabx年份年份实

13、际可支配实际可支配收入收入 x ( (1010元元) )商品的销售商品的销售量(件)量(件)xiyixi21983522670034974002724841984539713638463042905211985577765844186663329291986613778447715923757691987644810852215524147361988670758350806104489001989695800255613904830251990713844260191465083691991741815860450785490811992769868366772275913611993801

14、93177462917641601199485596758272125731025199584285427192364708964199686085847382240739600199789096128554680792100199892097198941480846400SUM1165113370398944771872686598944771iix y 28726865ix 11651ix 133703iy 216 98944771 11561 13370316 8726865(11651)133703116511616bab15第二步:设一元线性回归方程为:第二步:设一元线性回归方程为:

15、3605.14,6.52ab yabx第三步:计算回归系数得:第三步:计算回归系数得:所求的回归方程为:所求的回归方程为:3605.146.52yx6000650070007500800085009000950010000500 550 600 650 700 750 800 850 900yi(件)xi(10元)元)95016三、相关系数三、相关系数在运用一元线性回归模型时,正确地判断两个在运用一元线性回归模型时,正确地判断两个变量之间的变量之间的相互关系相互关系,选择主要因素作模型的自,选择主要因素作模型的自变量是至关重要的。变量是至关重要的。yxyx171、离差平方和的分解离差平方和的分

16、解用样本数据模拟的回归方程用样本数据模拟的回归方程 ,当给定自变量,当给定自变量 xi 后,后,与之对应的观察值与之对应的观察值 yi、计算值、计算值 与平均值与平均值 之间的关系。之间的关系。iiyabxiyy;(): :iiiiiiiiiiiyyyyy yyyyyyyy yy对每一个观测值来说,有:( - )总偏差,表示因变量观测值 与其算术平均值之间的偏差;剩余偏差,表示因变量观测值 与其估计值之间的偏差;- :回归偏差,表示因变量预测值 与其算术平均值之间的偏差;总离差观测值观测值 yi 的取值大小是上下波动的,这种现象称为变差。变差的的取值大小是上下波动的,这种现象称为变差。变差的产

17、生是由两方面的原因造成的:产生是由两方面的原因造成的:受自变量变动的影响,即受自变量变动的影响,即 x 的的取值不同;取值不同;其他因素(包括观测和实践中产生的误差)影响。其他因素(包括观测和实践中产生的误差)影响。则则 n 次观测值的总离差平方和为:次观测值的总离差平方和为:211122111211)()2()0)() :()nniiiiiiniiiinnniiiiiiiniiniiiiyyyyy yyyy yyyyyy yyyy yyy222( - )其中:( - )则有:( - )(总偏差平方和;( - ) :回归平方和,是总偏差平方和的一部分,是由回归方程中的自变量x的变动引起。反映了

18、总偏差中由x解释的部分;21:ni残差平方和,它是由其它未能控制的随机干扰因素引起的,反映总偏差中未被x解释的部分;总离差平方和总离差平方和离离192、可决系数、可决系数22121()()niiniiyyRyy回归平方和可决系数:总离差平方和 可决系数可决系数R2 的大小表明了在的大小表明了在 y 的总离差中由自变量的总离差中由自变量 x 变动所引起的变动所引起的回归偏差所占的比率,它是评价两个变过量之间线性相关关系强弱的一回归偏差所占的比率,它是评价两个变过量之间线性相关关系强弱的一个重要指标。通过个重要指标。通过R2可以判定回归模型对样本数据的拟合程度,从而可以判定回归模型对样本数据的拟合

19、程度,从而评价预测模型的优劣。评价预测模型的优劣。 0R2 1; R2=1,表明回归模型对所有的样本数据点完全拟合,即,表明回归模型对所有的样本数据点完全拟合,即所有的样本数据点均落在回归直线上。所有的样本数据点均落在回归直线上。 R2=0,表明回归模型无法解释,表明回归模型无法解释因变量因变量 y 的离差,预测模型没有意义。的离差,预测模型没有意义。 一般情况下,一般情况下, R2 越接近越接近1,表明回归平方和占总离差平方和的比重,表明回归平方和占总离差平方和的比重越大,回归模型对样本数据拟合程度越高,模型对预测越有意义。通常,越大,回归模型对样本数据拟合程度越高,模型对预测越有意义。通常

20、, R2在在0.8以上,即可认为拟合程度较高。以上,即可认为拟合程度较高。20R2=0.9911表明该商品的表明该商品的销售量销售量的变化中有的变化中有99.11%部分可以用居部分可以用居民的民的可支配收入额可支配收入额来解释。来解释。213、相关系数:、相关系数:如果说样本如果说样本可决系数可决系数是衡量回归方程拟合优度的统计量,是衡量回归方程拟合优度的统计量,那那相关系数相关系数就是用来衡量两个变量之间就是用来衡量两个变量之间线性相关关系线性相关关系强弱程度强弱程度的重要指标。的重要指标。两个航空公司股价的起落有关联吗?两个航空公司股价的起落有关联吗?运输行业中运输价格与所运重量有关吗?与

21、运输距离有关运输行业中运输价格与所运重量有关吗?与运输距离有关吗?关联强度有多大?吗?关联强度有多大?经济学中的生产价格指数与失业率的关联强度如何?经济学中的生产价格指数与失业率的关联强度如何?在零售业中,哪些变量与某个特定店的销售额有关?是人在零售业中,哪些变量与某个特定店的销售额有关?是人口密度,竞争者数,店的规模,广告情况,还是其他变量。口密度,竞争者数,店的规模,广告情况,还是其他变量。3、相关系数:、相关系数:2121221122211111112222111()()()()()()()()()()()()()niiniinniiiiinnniiiiiinnnniiiiiiiiiin

22、nniiiiiiiiyyRyyyyxxyyyyxxyyxxyynx yxyRxxyynxx Q相关系数:(定义一)(定义二)22111()nnniiiinyy23| 1,|0,0,01| 1,|1|0RRxyRxyRxyRyxxyRxyRRxyRxy越大,表示 与 相关程度越强;称 与 正相关;称 与 负相关;,说明 的变化与 无关,称 与 线性不相关;,所有样本点都落在回归直线上,称 与 完全相关;一般情况下,0|越接近于 ,说明 与 的线性关系越密切;越接近于 ,说明 与 的线性关系密切程度越小; 相关系数是一元线性回归模型中用来衡量两个变量之间相关系数是一元线性回归模型中用来衡量两个变量

23、之间线性相关关系强弱的重要指标线性相关关系强弱的重要指标相关系数相关系数的取值范围为的取值范围为 -1R 1 ,相关系数为正值表示两个变,相关系数为正值表示两个变量之间为量之间为正正相关;相关系数为负值表示两个变量之间为相关;相关系数为负值表示两个变量之间为负负相关。相关。相关系数相关系数 R 的绝对值大小表示相关的绝对值大小表示相关程度程度的高低。的高低。 R的绝对值越接近的绝对值越接近1,说明回归对各点的配合越密切,说明回归对各点的配合越密切,x,y的线性关的线性关系越好;反之,两者的线性关系越差;其值接近系越好;反之,两者的线性关系越差;其值接近0,就可以认为这两者,就可以认为这两者完全

24、没有线性关系了。完全没有线性关系了。 相关系数到底多大,才可以确定相关系数到底多大,才可以确定x和和y具有线性关系呢,为了便于查具有线性关系呢,为了便于查对,人们将对,人们将 R 的临界值列为专门的表,计算的相关系数必须大于表上相的临界值列为专门的表,计算的相关系数必须大于表上相应的值才可以考虑所得的回归直线预测分析。否则,模型需要重新考虑应的值才可以考虑所得的回归直线预测分析。否则,模型需要重新考虑选用和计算。选用和计算。R=10R1R=0R=0-1R0R= -1yxyxyxyxyxyx25四、显著性检验。四、显著性检验。(1) 相关系数检验相关系数检验:相关系数的绝对值达到什么程度,才能认

25、:相关系数的绝对值达到什么程度,才能认为两个变量之间的线性相关关系是显著的?为两个变量之间的线性相关关系是显著的?步骤:步骤:依据公式计算相关系数依据公式计算相关系数R;根据给定的显著性水平根据给定的显著性水平 ,查相关系数临界值表(,查相关系数临界值表( 取值取值越小,显著性程度越高越小,显著性程度越高););查表查表R (n-2),(n 表示样本数目)表示样本数目)判别:若判别:若| R | R (n-2),表明两个变量之间的线性相关,表明两个变量之间的线性相关关系显著,相关关系可信度较高,检验通过。否则,说明关系显著,相关关系可信度较高,检验通过。否则,说明模型不能用来进行预测,这时,应

26、分析其原因,对回归模模型不能用来进行预测,这时,应分析其原因,对回归模型重新调整。型重新调整。26例:例: lR = 0.9216,l =0.01, R =0.7977lR R,为此显著的正相关。,为此显著的正相关。l因此可以认为,所求得的回归直线用于近似描述因此可以认为,所求得的回归直线用于近似描述商品商品的的销售量销售量与与居民的居民的可支配收入额可支配收入额的相关关系是可靠的,的相关关系是可靠的,即可信度较高。即可信度较高。(2)t检验检验: t检验是检验回归系数是否显著异于检验是检验回归系数是否显著异于0。t 检验是通过检验是通过构造假设检验构造假设检验来检验回归模型与数据是否很好来检

27、验回归模型与数据是否很好拟合的方法,通过回归模型斜率来看是否显著不等于零。拟合的方法,通过回归模型斜率来看是否显著不等于零。对系数对系数 b 进行检验的检验步骤:进行检验的检验步骤:构造构造t统计量:统计量:提出假设:提出假设:H0:b=0;H1:b0;根据给定的显著性水平根据给定的显著性水平,查,查t分布表得到临界值分布表得到临界值t/2(n-2),(n表表示样本数目)示样本数目)判别:若判别:若| t | t/2(n-2),拒绝假设,拒绝假设H0:b=0,而接受而接受H1,即认,即认为为 b 显著异于显著异于 0,因变量,因变量 y 对自变量对自变量 x 的一元线性回归成立。若的一元线性回

28、归成立。若| t | 30,t(-+)iiyyiyyyyxxSSSnxxnyyPtnSyy tnSytnSy Z SyZ S 由概率论知识:故:在显著性水平 下, 的预测区间为,当实际观测值较多时,一般分布近似趋于正态分布,则预测区间可简单计算为:,000 (2)yyt nS估计标准误差计算飞行成本例子回归直线计算飞行成本例子回归直线乘客人数成本xyx2xy614.283721261.08634.083969257.04674.424489296.14694.174761287.73744.485476331.52704.34900301764.825776366.32814.76561380

29、.7865.117396439.46915.138281466.83955.649025535.8975.569409539.32SUM93056.69737644462.94x0=73,取,取 =0.05,回归直,回归直线方程为:线方程为:1.540.0411iiyx Sy=0.159; S0= 0.1672; t0.025(10) = 2.228 y0 = 4.539 置信区间为:置信区间为:4.539 2.228 0.1672 = 4.539 0.373置信区间为置信区间为4.167,4.912,表示,表示但乘客人数到达但乘客人数到达73人时,平均人时,平均成本在成本在4.167到到4.

30、912万元之间,万元之间,其置信度为其置信度为95%。2222002()()11;()2iiyyiyyxxSSSnxxn200 + (2)ytnS200 ( -(2)ytnS,某省年某省年19781989年国内生产总值和固定资产投资完成额如表,试年国内生产总值和固定资产投资完成额如表,试配合适当的回归模型并进行在配合适当的回归模型并进行在 =0.05下的下的显著性检验(相关系数检显著性检验(相关系数检验、验、t检验、检验、F检验);若检验);若1990年该省固定资产完成额为年该省固定资产完成额为249亿元,亿元,当显著性水平当显著性水平 =0.05时估计时估计1990年国内生产总值的预测区间。

31、年国内生产总值的预测区间。年份年份固定资产投资完成额固定资产投资完成额x x国内生产总值国内生产总值y yxyxyx x2 2197820195390040019792021042004001980262446344676198135264924012251982522941528827041983563141758431361984813602916065611985131432565921716119861494817166922201198716356792421265691988232655151960 538241989202704142208 40804SUM01002003004

32、00500600700800050100150200250观测值1、绘制散点图。设国内生产总值为y,固定资产投资完成额为x,由散点图可以看出两者呈现线性关系,可以建立一元线性回归模型。2、设一元线性回归模型为:3、计算回归系数。年份年份固定资产投资完成额固定资产投资完成额x x国内生产总值国内生产总值y yxyxyx x2 21978201953900400197920210420040019802624463446761981352649240122519825229415288270419835631417584313619848136029160656119851314325659217

33、16119861494817166922201198716356792421265691988232655151960 538241989202704142208 40804SUM1167116747204720600566600566 175661175661 yabx22()iiiiiiiinx yxybnxxyxabnn 2.2767171.9243ba171.92432.2767yx4、检验线性关系的显著性。年份年份固定资产投固定资产投资完成额资完成额x x国内生产总国内生产总值值y yxyxyx x2 21978201953900400197920210420040019802624

34、4634467619813526492401225198252294152882704198356314175843136198481360291606561198513143256592171611986149481716692220119871635679242126569198823265515196053824198920270414220840804SUM116711674720472060056660056617566117566111122221111()()nnniiiiiiinnnniiiiiiiinx yxyRnxxnyy 0.9829R 当显著性水平=0.05,自由度=12-2=0,查相关系数临界值表,得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论