版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章相关分析与回归分析学习目标主要内容本章小结学习目标
理解相关分析与回归分析的基本的含义,最小二乘法的基本的思想;理解回归模型中参数的意义及样本可决系数的的意义;掌握回归模型中的参数估计、相关系数检验、拟合优度检验、回归系数显著性检验、回归方程显著性检验的基本方法、回归模型的估计与预测。主要内容:第一节相关分析第二节一元线性回归分析第三节多元线性回归分析本章小结思考题参考书目第一节相关分析1.1变量之间的两类关系:变量之间存在着非严格、不确定的依存关系。在这种关系中,当一个或几个相互联系的变量取一定的数值时,可以有另一变量的若干数值与之对应。相关:函数关系也称为确定性关系,是指变量之间存在的严格确定的依存关系。在这种关系中,当一个或几个相互联系的变量取一定的数值时,必有另一个且只有一个变量有确定的值与之对应。函数:1)按相关的密切程度可分为:完全相关、不完全相关、不相关;2)按表现形态可分为:线性相关、非线性相关;3)按相关的方向可分为:正相关、负相关;4)按研究变量的多少可分为:单相关、复相关、偏向关。1.2相关关系的种类:1.3相关分析与回归分析:回归分析是研究某一随机变量关于另一个(或多个)非随机变量之间数量关系变动趋势的方法。其目的在于根据已知的非随机变量来估算和预测随机变量的总体均值。回归分析:相关分析主要研究两个和两个以上的随机变量之间相互依存关系的方向和密切程度的方法。相关分析:相关分析与回归分析的区别与联系:他们在研究现象之间相互依存的关系时,是相互补充、相互渗透的,在实际应用中,一般定性的相关分析;然后计算相关系数,拟合适当的回归方程,进行显著性检验;最后用回归方程进行推算和预测。联系:1)相关分析研究的变量都是随机变量,不需要区别因变量和自变量,并且侧重于研究两个变量间线性相关的密切程度;2)回归分析中必须确定因变量与自变量,自变量是确定的一般变量,而因变量是随机变量,不仅揭示自变量对因变量的影响,还可以利用回归方程进行预测和控制。区别:1.4相关关系的测度(1/2):相关图是研究相关关系的直观工具,又称为散点图。他是将具有相关关系的两个变量间相对应的变量值,在直角坐标系中用坐标点的形式描绘出来,根据坐标点的分布状况来大致判别相关形式、相关方向和相关密切的程度。(例)相关图:(a)正相关(b)负相关1.4相关关系的测度(2/2):相关系数是衡量变量之间线性相关密切程度及相关方向的统计分析指标。相关系数:样本相关系数:总体相关系数:样本相关系数分子分母的简化计算形式:1);2)当时,变量间不存在线性相关关系;3)当时,变量间具有完全线性相关关系,当时,称完全正相关,当时,称完全负相关。4)当时,变量间存在负相关关系;当时,变量之间存在正相关关系5)的取值越接近0,变量间线性相关关系越弱,越接近1,变量间线性相关关系越强。相关系数的性质:对的统计量检验法第一步:提出假设;第二步:计算检验统计量第三步:根据给定的显著性水平,进行决策。若,拒绝,表明变量间线性相关关系显,不能拒绝,表明变量间的线性著;若相关关系不显著;相关系数的检验:
例8-1根据1996-2012年国内生产总值和固定资产投资额资料,见书本表8-1,计算国内生产总值和固定资产投资额之间的相关系数,并对相关系数进行显著性检验。
解:1)计算相关系数
案例分析:2)对样本相关系数进行t检验计算t统计量:
对给定显著性水平,查表得,这里,故在0.05的显著性水平下,检验通过,说明国内生产总值和固定资产投资额之间的相关关系显著。第二节一元线性回归分析一元线性总体回归模型:
与是参数和的最小二乘估计。实际观测值与之间差值称为残差,即:
一元线性回归方程:2.1一元线性回归模型A回归模型的基本形式假设1:随机误差项具有零均值,同方差性,即假设2:随机误差项之间不存在序列相关关系,即假设3:解释变量是确定性变量,且与随机误差项之间线性无关。假设4:随机误差项服从零均值、同方差的正态分布,即:B一元线性回归模型的基本假设最小二乘法:就是使残差平方和达到最小时求得参数和的估计值与的方法。残差平方和:Q对分别求一阶偏导,并令其为0,得方程组:2.2一元线性回归模型的估计A参数和的最小二乘估计求解方程组得的最小二乘估计量例8-2根据表8-1中给出的我国国内生产总值和固定资产投资额数据,建立回归方程。解:根据例8-1的计算结果可知,国内生产总值和固定资产投资额之间具有显著的线性相关关系,由此可建立简单直线回归方程:
将表8-1中的有关数据代入下式:
案例分析:可得:
所求回归方程为:
表明固定资产投资额每增加1亿元,国内生产总值平均增加1.305亿元最小二乘估计量与分别是其真值与的无偏估计,且都服从正态分布。
B最小二乘估计量的性质回归标准差:其简捷公式:越小表明实际观测点与所拟合的样本回归线的离差程度越小,回归线能较好的代表总回归模型。反之,越大表明实际观测点与所拟合的样本回归线的离差程度越大,回归线的代表性越差。C总体方差的估计
其中:
D回归系数的区间估计从回归系数的最小二乘估计量可以看出,对任意给出的n对数据(xi,yi),都可以求出,从而可以写出回归方程,但这样给出的方程不一定有意义。在使用回归方程之前,必须对其进行统计检验,以判断估计的可靠程度。这包括拟合优度检验、整个回归方程的显著性检验、回归系数的显著性检验等。2.3一元线性回归模型的检验拟合优度是指模型对样本观测值的拟合程度,即样本回归直线与观测点之间的紧密程度。衡量拟合优度的指标通常用样本可决系数(又称作决定系数)。
A/C拟合优度检验概念:总偏差平方和:回归平方和:残差平方和:总偏差平方和分解式:
Y的观测值围绕其均值的总偏差平方和可以分解为两部分,一部分来自于回归线,另一部分来自随机因素。因而,可以用回归平方和占总偏差平方和的比例来判断回归线与样本观测值的拟合程度,记为。他用公式表示为:
的意义及应用:的取值在0到1之间,其值越接近1,说明回归方程的拟合程度越高;反之,其值越小,说明回归方程的拟合效果差。B/C回归方程的显著性检验(F检验)
回归方程的显著性检验就是对模型中的被解释变量与解释变量之间的线性关系在总体上是否显著成立作出判断。一元线性回归模型只有一个解释变量,要判断y的均值是否随x呈线性变化,实际上就是要判断β1是否为零,通常采用F检验。
1.提出假设原假设;备择假设2.构造统计量
在原价设成立的条件下,上述统计量
3.给定显著性水平,确定拒绝域:,在附表中可直接查找的值。检验步骤(F检验):4.作出判断根据样本计算出统计量F的数值,然后与的值进行比较:若,则拒绝原假设,认为回归方程是显著的,即x与y之间有显著的线性关系;若,则接受原假设,认为回归方程不显著,即x与y之间没有显著的线性关系。C/C回归系数的显著性检验(t检验)
一元线性回归模型中,回归系数的显著性检验解释要检验解释变量x对被解释变量y的影响程度是否显著,也就是检验β1是否显著,通常使用t检验。
需要注意的是,在一元线性回归中,因为t检验与F检验提出的假设是一致的,而且,两个统计量之间具有F=t^2的关系,所以,t检验与F检验是等价的。
1.提出假设原假设;备择假设2.构造统计量
在原价设成立时,统计量3.给定显著性水平,确定拒绝域:,在附表中可直接查找的值。检验步骤(t检验):4.作出判断根据样本计算出统计量t的数值,然后与的值进行比较:若,则拒绝原假设,认为β1显著不为0,即变量x与y之间一元线性关系显著成立;若,则接受原假设,认为回归方程不显著。认为β1显著为0,变量x与y之间一元线性关系不成立。案例分析:P141,例题8-3例8-3对例8-2建立的国内生产总值和固定资产投资额的回归方程进行显著性检验。解:1)先进行F检验,计算F统计量对于给定的显著性水平,查表得,由于,拒绝原假设,认为回归方程是显著的。2)还可以进行t检验,计算t统计量当时,查表得,由于,拒绝原假设,说明显著不为0,即国内生产总值和固定资产投资额之间具有显著的线性相关关系。2.4一元线性回归模型的应用——估计与预测
当回归方程经过检验是显著的以后,可以将其用作估计与预测。
估计就是指当x=x0时,寻求y的均值E(y0)=β0+β1x0的点估计与区间估计,这里E(y0)是常量;
预测问题是指当x=x0时,y0的观测值在什么范围内。即对于给定的显著性水平α,找一个区间(T1,T2),使得P(T1<y0<T2
)=1-α,称区间(T1,T2)是y0的概率为1-α的预测区间。
点估计:区间估计:A/B)y的均值E(y0)的估计B/B)y0的预测区间第三节多元线性回归分析
一元线性回归模型反映的是一个因变量和一个自变量之间的线性关系。实际上,社会经济现象的变动是很复杂的,一个因变量的变动往往是由许多自变量的综合影响造成的。在线性回归模型中,若一个因变量对应多个自变量,这种模型称为多元线性回归模型。
多元回归模型是一元线性回归模型的推广,其参数估计原理与一元线性回归模型相同,只是计算更加复杂。
A多元线性回归模型的一般形式
分别是参数的最小二乘估计。实际观测值与之间差值称为残差,即:
多元线性回归方程:3.1多元线性回归模型假设1:随机误差项具有零均值,同方差性,即假设2:随机误差项之间不存在序列相关关系,即假设3:解释变量是确定性变量,相互之间互不相关,且与随机误差项之间线性无关,
假设4:随机误差项服从零均值、同方差的正态分布,即:B多元线性回归模型的基本假设A回归系数的最小二乘估计
残差平方和公式为:Q分别对求一阶偏导,并令其为0,得方程组:3.2多元线性回归模型的参数估计解矩阵方程得:以上(k+1)个方程组成的方程组称为正规方程组,经过整理得:用矩阵形式表示如下:这就是参数的最小二乘估计量。参数估计量的期望为因而,参数估计量是的无偏估计参数估计量的方差-协方差阵为B最小二乘估计量的性质
C总体方差的估计
多元回归分析中的可决系数用
表示。
多元回归分析中用作为拟合优度的评价不可靠,必须进行修正。在样本容量一定的情况下,将残差平方和与总偏差平方和分别除以各自的自由度,以消除变量个数对拟合优度的影响。修正以后的决定系数用表示。计算公式为:3.3拟合优度检验修正后的可绝系数与未经修正的可绝系数之间有如下关系:一般来说,越接近1,表明拟合程度越高;
越接近0或者小于0,表明拟合程度越差。3.4显著性检验当多元线性回归模型中的参数估计出来以后,还要对模型进行显著性检验。一方面,要对模型总体上的线性关系是否显著进行检验;另一方面,还要对每个解释变量对被解释变量的影响是否显著进行检验。1.提出假设原假设备择假设不全为02.构造统计量在原假设成立的条件下,上述统计量A/B回归方程的显著性检验(F检验)3.列出回归模型的方差分析表方差来源平方和自由度均方F检验值回归SSRkSSR/k
残差
SSEn-k-1SSE/(n-k-1)总和
SSTn-1
4.给定显著性水平在附表中查找的值,并与方差分析表中统计量的数值进行比较:
若,拒绝原假设,认为总体回归方程中各解释变量与被解释变量的线性关系是显著的。若,拒绝原假设,则认为总回归方程不显著,所建立的回归模型没有意义。1.提出假设原假设;备择假设
2.构造统计量
其中,为回归标准差B/B系数的显著性检验(t检验)3.给定显著性水平,查出临界值4.作出判断当时,拒绝原假设,可以认为在显著性水平下,对的影响显著。当时,接受原假设,认为在显著性水平下,对的影响不显著。点估计:区间估计:区间估计:3.5多元线性回归模型的应用——估计与预测(一)偏相关系数
考虑在对其他变量的影响进行控制的情况下,来考察相关的多个变量中某两个变量的相关程度,偏相关系数就是衡量这种相关程度的指标。为简明起见,先计算三个变量间的相关系数。三个变量拟合三个回归方程:3.5偏相关系数与复相关系数当的值一定时,与的偏相关系数为:当的值一定时,与的偏相关系数为:当的值一定时,与的偏相关系数为:偏相关系数的符号与相应的偏回归系数相同,其取值范围在-1到1之间。在实际运用中,可以将以上偏相关系数的定义推广到多个变量的场合。复相关系数,是在多元线性回归分析中衡量因变量与多个自变量之间相关程度的指标。其计算公式如下:(二)复相关系数案例分析:P149,例题8-4本章介绍了研究现象之间相关关系的两种基本方法:一是相关分析,二是回归分析。实际应用中,一般先进行定性的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论