经济学相关与回归分析课件_第1页
经济学相关与回归分析课件_第2页
经济学相关与回归分析课件_第3页
经济学相关与回归分析课件_第4页
经济学相关与回归分析课件_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十一章相关与回归分析相关与回归分析是研究具有非确定性依存关系的现象之间相互关系的统计方法第九章 相关与回归分析第一节 变量间关系的度量第二节 一元线性回归分析第三节 利用回归方程进行估计和预测第一节 变量间关系的度量一、变量间的函数关系与相关关系二、相关关系的描述与测度三、相关系数的显著性检验一、变量间的函数关系与相关关系客观现象之间是普遍联系相互依存的。客观现象之间的数量联系可分为两类: 确定性关系(函数关系) 非确定性关系(相关关系)函数关系一个或几个变量取一定值时另一个变量有确定值与之对应,这种变量间一一对应的确定性关系称为函数关系。例如,设有两个变量 x 和 y ,变量 y 随变量

2、x 变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量。两变量函数关系在图形上表现为各观测点落在一条线上 xy 函数关系举例某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价)圆的面积(S)与半径(R)之间的关系可表示为S = R2 企业原材料消耗额(y)与产品产量(x1) 、单位产量原材料消耗量(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3 相关关系一个或几个相互联系的变量取一定值时,与之对应的另一个变量的值虽然不

3、确定,但它按某种规律在一定范围内变化,这种变量间的不确定性对应关系称为相关关系。例如,设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,但不完全依赖于 x ,当变量 x 取某个值时,变量 y 的取值可能有几个,但取值范围变化有一定规律,则称 y 与 x 之间有相关关系。xy两变量相关关系在图形上表现为各观测点分布在线的周围 相关关系举例商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系相关关

4、系相关关系比因果关系包括的范围更广泛。具有相关关系的某些现象的数量可表现为因果关系,即自变量与因变量的关系,但有时不存在明显的因果关系或互为因果关系,如人的身高和体重、商品的供求与价格等。变量间的函数关系与相关关系在一定条件下可以相互转化。当存在测量误差或随机因素的干扰时,函数关系可表现为相关关系;当我们对变量内在联系有规律性认识时,相关关系可能转化为函数关系或用函数关系来描述。相关分析现象的函数关系可以用数学分析方法研究和测度,现象的相关关系需用统计学的相关与回归分析方法研究和测度。相关分析是描述和测度变量间相关关系类型和相关程度的分析方法。在相关分析中,所有变量都假定是随机变量,它们之间不

5、存在解释变量和被解释变量的关系,即不考虑因果关系。相关关系的种类1按相关因素的多少分 单相关 复相关2按相关关系的形式分 线性相关(直线相关) 非线性相关(曲线相关)3按相关关系的方向分 正相关 负相关4按相关关系的程度分 完全相关 不完全相关 不相关相关关系的种类简单相关和多元相关(多重相关、复相关) 简单相关指两个变量之间的相关关系;多元相关指三个或三个以上变量之间的相关关系。 线性相关和非线性相关 如果散点图上的所有的点几乎接近一条直线,可以认为变量之间是线性相关的;如果散点图上的所有点几乎接近一条曲线,可以认为变量之间是非线性相关的。 相关关系的种类正相关和负相关 如果相关变量之间同增

6、或同减,称这种相关关系是正相关。如果相关变量间一个变量值增加时另一个变量值减少,称这种相关关系是负相关。完全相关、不完全相关和不相关 如果一个变量的变化完全由另一个变量的变化所确定,则称两变量的关系为完全相关,即为函数关系;如果两个变量间的关系很弱或看不出任何关系,则称之为不相关(或零相关)。两变量的关系介于完全相关和不相关之间称为不完全相关。二、相关关系的描述与测度判断现象之间有无相关关系,应先进行定性分析,即依据理论知识、实践经验对现象之间是否存在相关关系及相关关系的类型作出判断。然后在此基础上进行定量分析,即运用相关图、相关表和相关系数等方法对现象之间的相关关系进行描述与测度。相关表相关

7、关系的图示相关系数相关表简单相关表例:居民消费支出和收入的相关表 (单位:百元) 根据以上资料绘制坐标图便得到相关图家庭编号 1 2 3 4 5 6 7 8 9 10消费支出y可支配收入x15 20 30 40 42 53 60 65 70 7818 25 45 60 62 75 88 92 99 98单变量分组表产量(千件)x企业数平均单位成本(元/件) y20304050809556516.815.615.014.814.2合计30例:30家企业按产品产量分组的平均单位产品成本双变量分组表例:30家企业按产品产量和单位产品成本分组 单位成本(元/件)y产 量 (千件) x合计2030405

8、08018161514441321311321449107合 计9556530相关关系的图示(散点图scatter diagram)不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关散点图(例题分析)【例9.1】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年该银行贷款额平稳增长,但不良贷款额也有较大提高,给银行业务发展带来较大压力。为弄清不良贷款形成的原因,以便找出控制不良贷款的办法,现利用银行有关业务数据进行相关分析。下面是该银行所属25家分行2002年的有关业务数据。 散点图(例题分析)散点图(例题分析)相关

9、系数相关系数是对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数(简称相关系数)若相关系数是根据总体全部数据计算的,称为总体相关系数,记为若相关系数是根据样本数据计算的,则称为样本相关系数,记为 r在此仅讨论两变量间相关关系问题。对于随机变量x和y,总体相关系数一般是未知的,只能根据样本观测值给出一个估计量即样本相关系数r。 样本相关系数r的计算公式或化简为相关系数取值及其意义 r 的取值范围是 -1,1|r|=1,表明x与y完全线性相关r =1,为完全正线性相关r =-1,为完全负线性相关 r = 0,表明x与y不存在线性相关关系-1r0,为负线性相关0t(n-2)

10、,拒绝H0,表明r在统计上是显著的,两变量之间存在显著线性关系;若tt0.025(13-2)=2.201,所以拒绝H0,接受H1,即说明人均消费金额与人均国民收入之间的相关关系显著。相关系数的显著性检验(例题分析)【例】对前述用例9.1数据计算的某大型商业银行例不良贷款与贷款余额之间的相关系数进行显著性检(0.05)提出假设:H0: ;H1: 0计算检验的统计量3.根据显著性水平=0.05和自由度df=n-2=25-2=23查t分布表得t0.025(23)=2.0687由于t=7.5344t0.05(23)=2.0687,所以拒绝H0,说明不良贷款与贷款余额之间存在显著正线性相关关系 相关系数

11、的显著性检验(例题分析)对前述9.1例某大型商业银行各相关系数计算检验统计量数据如下,同学们可以自行检验和分析第二节 一元线性回归分析一、回归分析的含义二、一元线性回归模型及其参数的估计三、回归直线拟合程度的评价四、一元线性回归模型的检验一、回归分析的含义什么是回归回归是由英国著名统计学家Francis Galton在19世纪末期研究孩子及其父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们父母那样高。比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们父母的平均身高高。 Galton把这种孩子的身高向中间值靠近的趋势称之为一种回

12、归效应,而他发展的研究两个数值变量之间数量关系的方法称为回归分析。什么是回归分析回归分析是对具有相关关系的变量拟合数学方程,通过一个或一些变量的变化解释另一变量变化的方法。回归分析的内容和步骤根据理论和对问题的分析判断,区分自变量(即解释变量)和因变量(即被解释变量);从一组样本数据出发,设法确定合适的数学方程式(即回归模型regression model)描述变量间的关系;对数学方程式(回归模型)的可信程度进行统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;利用数学方程式(回归模型),根据一个或几个自变量的取值来估计或预测因变量的取值,并给出这种估计或预测的精确

13、程度。回归分析与相关分析的区别相关分析中,变量 x 与 y 处于平等地位;回归分析中具有相关关系的变量之间地位是非对等的,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量相关分析主要描述变量之间相关关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行估计和预测 回归模型的类型按涉及变量多少分为:一元回归和多元回归按变量相关的形式分:线性回归和非线性回归(本节仅讨论一元回归分析问题)一个自变量两

14、个及以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归二、一元线性回归模型及其参数的估计 一元线性回归模型的设定对于只涉及一个自变量的回归分析,若因变量y与自变量x之间为线性关系,可以用一个线性方程来表示二者之间的关系,此方程为一元线性回归模型。通常先要收集若干(n)组样本数据(xi ,yi,i=1,2,n),然后将数据绘制散点图,若图中显示x和y之间大致呈线性关系,就可以用一元线性回归方程来描述这种关系。一元线性回归模型(理论模型)一元线性回归模型可表示为 y = b0 + b1 x + e此模型将变量y与x间的关系用两部分描述。一部分是由x的变化引起y线性变化的部分,即

15、: 另一部分是由其他随机因素引起y线性变化的部分,记为。该回归模型表达了变量x与y之间密切相关、但还没有到y由x唯一确定的密切程度的关系。模型中,一般称y为被解释变量(因变量),x为解释变量(自变量)。0和1为模型的参数,又称回归系数。为随机误差项,又称随机干扰项,表示除能用 x 和 y 之间线性关系解释的因素外的其他随机因素对 y 的影响。一元线性回归模型(理论模型的基本假定)误差项是一个不可观测的且期望值为0的随机变量,即E()=0。对于一个给定的x值,y的期望值为 E ( y ) = 0+ 1 x对于所有的 x 值,的方差2都相同。误差项是一个服从正态分布的随机变量,且相互独立,即N(

16、0 ,2 )独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关一元线性回归模型(应用模型) (估计的回归方程estimated regression equation )由于为随机因素不可观测,其期望值为0,所以通常用y的数学期望E ( y ) 作为y的估计,即 E( y ) = 0+ 1 x由于总体回归参数0和1是未知的,必须利用样本数据估计,所以用样本统计量 和 代替回归方程中的未知参数0和1,就得到了应用的估计一元线性回归方程 式中: 是y的估计值,表示对于一个给定的x值,估计的y的期望

17、值, 是估计的回归直线在y轴上的截距,是当 x=0 时 y的期望值, 是直线的斜率,表示x每变动一个单位时,y的平均变动值一元线性回归模型参数的估计用来估计一元线性回归模型参数0和1的方法是最小二乘法,其要点为:它是使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即用此法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小最小二乘法(图示)xy(xn , yn)(x1 , y1)(x2 , y2)(xi , yi)ei = yi-yi最小二乘法( 和 的计算公式) 根据最小二乘法的要求,可得求解 和 的标准方程如下从 的计算公式可以看出其分母大于0。 的正负取

18、决于分子,且分子与相关系数r的分子相同。 0时,表示x每增加一个单位y值平均增加的数量,即x与y正相关; 0时,表示x每增加一个单位y值平均减少的数量,即x与y负相关。一元线性回归模型估计(举例)【例】用例9.2中的数据配合人均消费金额对人均国民收入的回归方程 根据 和 的求解公式得 的含义是人均国民收入每增加1元,人均消费额平均增加约0.53元。一元线性回归模型估计(举例) 人均消费金额对人均国民收入的回归方程为y = 54.22286 + 0.52638 x一元线性回归模型估计(举例)【例】对例9.1数据求某大型商业银行不良贷款对贷款余额的回归方程回归方程为:y = -0.8295 + 0

19、.037895 x回归系数 =0.037895 表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元。 一元线性回归模型估计(举例)不良贷款对贷款余额回归方程的图示用Excel进行回归分析第1步:选择“工具”下拉菜单第2步:选择“数据分析”选项第3步:在分析工具中选择“回归”,然后选择“确定”第4步:当对话框出现时 在“Y值输入区域”方框内键入Y的数据区域 在“X值输入区域”方框内键入X的数据区域 在“置信度”选项中给出所需的数值 在“输出选项”中选择输出区域 在“残差”分析选项中选择所需的选项三、回归直线拟合程度的评价根据估计的回归方程由自变量的值估计因变量的值,估计精度取决于回

20、归方程对观察数据的拟合程度。回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。它可以通过判定系数和估计标准误差来反映。离差平方和的分解和判定系数 估计标准误差离差平方和的分解和判定系数 1.离差平方和的分解为说明直线的拟合程度,需要研究因变量y取值的变化规律。因变量y取值的波动(或差异)称为变差。变差来源于两个方面:由于自变量 x 的取值不同造成的由于受自变量x以外的其他因素(如x对y的非线性影响、测量误差等)的影响某一项具体观测值的变差可以用该观测值与其均值之差 来表示。全部n项观测值的总变差(记为SST)可由各观测值与均值离差的平方和来表示,即:离差平方和的分解(图示)xyy离差分

21、解图离差平方和的分解(三个平方和的关系) 两端平方并对所有点求离差平方和,有从图上看有SST = SSR + SSE总变差平方和(SST)回归离差平方和(SSR)残差平方和(SSE)离差平方和的分解(三个平方和的意义)总变差平方和(SST)反映因变量的 n 个观察值与其均值的总离差回归离差平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的变差平方和残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的变差平方和或剩余变差平方和从上图可以看出,在总变差平方和(SST)中回归离差平方和(SSR)的比例越

22、大,回归直线拟合越好。2.判定系数 r2 (coefficient of determination)将回归离差平方和(SSR)在总变差平方和(SST)中的比例定义为判定系数,或称样本决定系数、可决系数,记为r2。它有以下要点:是回归离差平方和占总变差平方和的比例,基本公式:反映回归直线的拟合程度取值范围在 0,1 之间判定系数r2越接近于1,说明回归方程拟合越好;判定系数r2越接近于0,说明回归方程拟合越差判定系数等于相关系数的平方,即r2(r)2判定系数r2 (举例)【例】对例9.2数据计算人均消费额与人均国民收入相关关系判定系数为 r2(0.9987)20.9974 说明在人均消费额的总

23、变差中有99.74可以由人均国民收入与人均消费额之间的线性关系来解释,或者说在人均消费额取值的变动中,有99.74%是由人均国民收入所决定的。说明二者之间有较强的线性关系。判定系数r2 (举例)【例】对例9.1数据计算某大型商业银行不良贷款额对贷款余额回归的判定系数意义:在不良贷款额的变差中有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说在不良贷款额的变动中,有71.16%是由贷款余额所决定的。可见不良贷款与贷款余额之间有较强的线性关系 。估计标准误差 Sy (standard error of estimate)估计标准误差是对回归模型随机误差项的标准差的估计,即观察值与回

24、归估计值离差平方和的均方根,是在排除了x对y的线性影响后对因变量y随机波动大小的一个估计量。反映观察值在回归直线周围的分散程度和回归方程对因变量代表性的大小,其数值越大说明代表性越小。也反映用估计的回归方程预测y时预测误差的大小,其数值越大说明预测误差越大。 可从另一个角度说明回归直线的拟合程度。计算公式为估计标准误差 Sy (举例)【例】对例9.2数据计算人均消费额对人均国民收入回归模型的估计标准误差Sy 计算结果:Sy14.9497 说明利用回归模型根据人均国民收入预测人均消费额时,平均预测误差为14.95元。【例】对例9.1数据计算某大型商业银行不良贷款对贷款余额回归模型的估计标准误差S

25、y 计算结果:Sy1.9799 说明利用回归模型根据贷款余额预测不良贷款额时,平均预测误差为1.9799亿元。估计标准误差与相关系数的关系可以看出估计标准误差Sy与相关系数r有相反的数量关系,|r|越大,Sy越小。如果Sy0,则|r|1。此时x与y完全相关。因此估计标准误差可以从另一个角度说明x与y相关关系的密切程度。但估计标准误差所表现的关系密切程度不很明显,且不能反映相关关系的正负方向。四、一元线性回归模型的检验在根据样本数据拟合回归方程时,首先假设变量x和y之间存在线性关系,这种假设是否成立必须经过检验才能证实。回归分析中的显著性检验包括两方面内容:回归方程线性关系的显著性检验回归系数的

26、显著性检验回归方程线性关系的显著性检验是检验自变量与因变量之间线性关系是否显著。方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验分析二者之间的差别是否显著回归均方(MSR):回归离差平方和(SSR)除以相应的自由度(自变量的个数p) 残差均方(MSE):残差平方和(SSE)除以相应的自由度(n-p-1)如果差别显著,两个变量之间存在线性关系如果差别不显著,两个变量之间不存在线性关系回归方程线性关系的显著性检验(检验的步骤)1.提出假设:H0:两变量之间的线性关系不显著 H1:两变量之间的线性关系显著2.计算检验统计量F 其中,F(1,n-2)表示第一自由度为1,第二自由度为n

27、-2的F分布。3. 确定显著性水平,并根据分子自由度1和分母自由度n-2查F分布表找出临界值F 4. 作出决策:若FF ,拒绝H0;若FF0.05(1,25-2)=4.84 拒绝H0,说明贷款余额x与不良贷款y之间存在显著的线性关系,即回归方程线性关系显著。线性关系的显著性检验 (方差分析表) Excel 输出的方差分析表平方和均方回归系数的显著性检验是检验自变量x对因变量y的影响是否显著。方法是检验回归系数1是否为0,如果1为0,回归直线为一条水平线,表明两变量之间没有线性关系,反之,如果1不为0,表明x对y的影响是显著的,两变量之间存在线性关系。检验的理论基础是回归系数 的抽样分布,即假定

28、其抽样分布服从正态分布。在一元线性回归中,自变量只有一个,回归系数的显著性检验(t检验)等价于回归方程线性关系的显著性检验(F检验),如果t检验显著,F检验结果也一定显著。但在多元回归分析中两种检验的意义不同。回归系数的显著性检验(样本统计量 的分布) 是根据最小二乘法求出的样本统计量,有自己的分布,其分布具有如下性质分布形式:正态分布数学期望:标准差:由于总体未知,需用其估计量Sy来代替得到 的估计的标准差 抽样分布回归系数的显著性检验(步骤)提出假设H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 计算检验的统计量 确定显著性水平,并进行决策 tt (n-2) ,拒绝H0; tt (n-2)=t0.025(25-2)=2.068

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论