第2章 线性回归的基本思想:双变量模型ppt课件_第1页
第2章 线性回归的基本思想:双变量模型ppt课件_第2页
第2章 线性回归的基本思想:双变量模型ppt课件_第3页
第2章 线性回归的基本思想:双变量模型ppt课件_第4页
第2章 线性回归的基本思想:双变量模型ppt课件_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第2 2章章 线性回归的基本思想:双变量线性回归的基本思想:双变量模型模型 Simple regression modelSimple regression modely= b0 + b1 x + u2目录目录Introduction to Regression Introduction to Regression AnalysisAnalysis2.1变量间的关系及回归分析的基本概念变量间的关系及回归分析的基本概念2.2总体回归函数总体回归函数2.3随机扰动项随机扰动项2.4样本回归函数样本回归函数2.5“线性线性回归的含义回归的含义2.6从双变量回归到多元线性回归从双变量回归到多元线性回

2、归2.7参数估计:参数估计:OLS32.1变量间的关系及回归分析的变量间的关系及回归分析的基本概念基本概念41 1、变量间的关系、变量间的关系 确定性关系或函数关系:研究的是确定现象非随机变量间的关系。 统计依赖或相关关系:研究的是非确定现象随机变量间的关系。 经济变量之间的关系,大体可分为两类:经济变量之间的关系,大体可分为两类:5对变量间统计依赖关系的考察主要是通过相关分析对变量间统计依赖关系的考察主要是通过相关分析(correlation analysis)或回归分析或回归分析(regression analysis)来完成的:来完成的: 正相关 线性相关 不相关 相关系数:统计依赖关系

3、 负相关 11-XYr 有因果关系 回归分析回归分析 正相关 无因果关系 相关分析相关分析 非线性相关 不相关 负相关6几点注意几点注意 不线性相关并不意味着不相关;不线性相关并不意味着不相关; 有相关关系并不意味着一定有因果关系;有相关关系并不意味着一定有因果关系; 回归分析回归分析/相关分析研究一个变量对另一个些变相关分析研究一个变量对另一个些变量的统计依赖关系,但它们并不意味着一定有因果量的统计依赖关系,但它们并不意味着一定有因果关系;关系; 相关分析对称地对待任何两个变量,两个变量相关分析对称地对待任何两个变量,两个变量都被看作是随机的。回归分析对变量的处理方法存都被看作是随机的。回归

4、分析对变量的处理方法存在不对称性,即区分应变量被解释变量和自变在不对称性,即区分应变量被解释变量和自变量解释变量)。量解释变量)。7 回归分析是研究一个变量关于另一个回归分析是研究一个变量关于另一个些变量的具体依赖关系的计算方法和些变量的具体依赖关系的计算方法和理论。理论。 这里前一个变量被称为被解释变量这里前一个变量被称为被解释变量Explained Variable或应变量或应变量Dependent Variable),后一个些),后一个些变量被称为解释变量变量被称为解释变量Explanatory Variable或自变量或自变量Independent Variable)。)。2 2、回归

5、分析的基本概念、回归分析的基本概念8 由于变量间关系的随机性,回归分析关心的是根据由于变量间关系的随机性,回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。关的被解释变量所有可能出现的对应值的平均值。 回归分析构成计量经济学的方法论基础,其主要内回归分析构成计量经济学的方法论基础,其主要内容包括:容包括: (1根据样本观察值对计量经济模型参数进行估根据样本观察值对计量经济模型参数进行估计,求得回归方程;计,

6、求得回归方程; (2对回归方程、参数估计值进行检验;对回归方程、参数估计值进行检验; (3利用回归方程进行分析、评价及预测。利用回归方程进行分析、评价及预测。92.2总体回归函数总体回归函数Population Regression Function10例子例子例例2.12.1:一个假想的社区有:一个假想的社区有6060户家庭组成,要研究该社区每月户家庭组成,要研究该社区每月家庭消费支出家庭消费支出Y Y与每月家庭可支配收入与每月家庭可支配收入X X的关系。的关系。 即如果知道了家庭的月收入,能否预测该社区家庭的即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。平均月消费支出水

7、平。 为达到此目的,将该为达到此目的,将该6060户家庭划分为组内收入差不多的户家庭划分为组内收入差不多的1010组,以分析每一收入组的家庭消费支出表组,以分析每一收入组的家庭消费支出表2.12.1)。)。11表表2.1 某社区每月家庭收入与消费支出查统计表某社区每月家庭收入与消费支出查统计表每月家庭收入 X(元)8001000120014001600180020002200240026005506507908001020110012001350137015006007008409301070115013601370145015206507409009501100120014001400155

8、0175070080094010301160130014401520165017807508509801080118013501450157017501800088001130125014000160018901850每月家庭消费支出Y(元)0001150000162001910共计325046204450707067807500685010430966012110条件概率1/51/61/51/71/61/61/51/71/61/7条件均值6507708901010113012501370149016101730EY | X=800)=65012 由于不确定因素的影响,对同一收入水平X,不同家

9、庭的消费支出不完全相同;(见表2.1) 但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布Conditional distribution是已知的,如: P(Y=550|X=800)=1/5。 因而,给定收入X的值Xi,可得消费支出Y的条件均值conditional mean或条件期望conditional expectation):)|(iXXYE该例中:该例中:EY | X=800)=650 分析分析13 从散点图发现:随着收入的增加,消费“平均地说也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。X5001000150

10、02000consumption/Fitted values50010001500200025003000incomeconsumptionFitted valuesY14 概念概念 在给定解释变量iX条件下被解释变量iY的期望轨迹称为总体回归线总体回归线(population regression line),或更一般地称为总总体回归曲线体回归曲线(population regression curve )。相应的函数 (方程): )()|(iiXfXYE (2.1 )称为(双变量)总体回归函数总体回归函数(方程)(方程) (PRF) (populationregression functi

11、on) 。15 总体回归函数PRF说明被解释变量Y的平均状态总体条件期望随解释变量X变化的规律。 函数形式可以是线性或非线性的。 例例2.1中中:iiXXYE10)|(bb+ 为一线性函数。其中,1b与2b为未知,然而固定的参数,称为回归系数回归系数(regression coefficients)。162.3 随机扰动项随机扰动项17随机扰动项的引入随机扰动项的引入 总体回归函数说明在给定的收入水平Xi下,该社区家庭平均的消费支出水平。 但对某一个别的家庭,其消费支出可能与该平均水平有偏差。记 )|(iiiXYEY -u )(10iiXYbb+- (2.2 )称iu为观察值iY围绕它的期望值

12、)|(iXYE的离差离差(deviation) ,它是一个不可观测的随机变量,又称为随机干扰项随机干扰项( stochastic disturbance )或随机误差项随机误差项(stochastic error ) 。18由2.2式,个别家庭的消费支出为: Yi=E(Y|Xi)+ui =b0 +b1 Xi +ui (2.3)即,给定收入水平Xi,个别家庭的支出可表示为两部分之和:该收入水平下所有家庭的平均消费支出E(Y|Xi),称为系统性(systematic)或确定性(deterministic)部分。其他随机或非确定性nonsystematic)部分ui。19 (2.32.3式称为总体回

13、归函数方程式称为总体回归函数方程PRFPRF的随机的随机设定形式。表明被解释变量除了受解释变量的系设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。统性影响外,还受其他因素的随机性影响。 由于方程中引入了随机项,成为计量经济学模型,由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。因此也称为总体回归模型。20 随机误差项的影响因素随机误差项的影响因素 在解释变量中被忽略的因素的影响;在解释变量中被忽略的因素的影响; 变量观测值的观测误差的影响;变量观测值的观测误差的影响; 模型关系的设定误差的影响;模型关系的设定误差的影响; 其它随机因素的影响。

14、其它随机因素的影响。212.4 2.4 样本回归函数样本回归函数SRFSRF)22问题的提出问题的提出由于总体的信息往往无法掌握,现实的情况只能是由于总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一组样本。在一次观测中得到总体的一组样本。问题是能从一次抽样中获得总体的近似的信息吗?问题是能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?如果可以,如何从抽样中获得总体的近似信息? 例例2.2:在例:在例2.1的总体中有如下一个样本,问:能否的总体中有如下一个样本,问:能否从该样本估计总体回归函数从该样本估计总体回归函数PRF?Y70065090095

15、0 1100 11501200140015501500X800 1000 12001400 1600 1800200022002400260023该样本的散点图scatter diagram): 样本散点图近似于一条直线,画一条直线以尽可能好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线sample regression lines),其函数形式记为: iiiXXfY10)(bb+ ( 2.4)称为样本回归函数样本回归函数 (sample regression function) SRF。6008001000120014001600y/Fitted valu

16、es1000150020002500 xyFitted values24 注意:这里将2.4看成2.1的近似替代。 iY 就为 )|(iXYE的估计量; ib 为 ib的估计量,) 1 , 0(i25 样本回归函数的随机形式样本回归函数的随机形式/样本回归模型样本回归模型 (2.5)称为样本回归模型。称为样本回归模型。 同样地,对某一个体iY,有 iiiiieXYY+10bb (2.5 )式中,ie称为 (样本残差(样本残差 或 剩余项剩余项(Residual),代表了其他影响iY的随机因素的集合体,可看成为iu的估计量。26 回归分析的主要目的根据样本回归函数根据样本回归函数SRF,估计总体

17、回归函数,估计总体回归函数PRF。即,根据 iiiiieXeYY+10bb估计 iiiiiXXYEYubbu+10)|(27 Y iY iiXY10bb+ ie iY iiXXYE10)|(bb+ )|(iXYE Xi X 样本与总体回归线样本与总体回归线i这这就就要要求求:设计一“方法”构造SRF,以使SRF尽可能“接近”PRF,或者说使) 1 , 0(iib尽可能接近) 1 , 0( iib。注注:这里真实的PRF可能永远无从知道282.5“线性回归的含义n解释变量线性nE(Y|X) = b0 + b1 Xn参数线性nE(Y|X) = b0 + b1 log(X)nE(Y|X) = b0

18、+ b1 X2n非线性回归nE(Y|X) = b0 + exp(b1X)292.6从双变量回归到多元线性回归 很容易将双变量回归推广到多元线性回归,即解释变量包含多个,共同影响因被解释变量,基本形式为 E(Y|X1,X2,X3)= b0 + b1 X1+b2X2 +b3X3 多元线性回归模型可以写成 Y = b0 + b1 X1+b2X2 +b3X3 + u 更为一般的形式为 Y = b0 + b1 X1+b2X2 +bkXk + u302.7 参数估计:OLS 对于双变量总体回归方程: Y = b0 + b1 X + u 我们用样本回归方程来估计总体回归方程 = b0 + b1 X或写成 Y

19、= b0 + b1 X + e 那么,残差项可以写成 ei = Yi i = Yi - b0 - b1 Xi OLS Min: Sei2 = S(Yi - b0 - b1 Xi)2 (RSS)31OLS22ii01iii01i01i0i01ii1i01iii01iQ=e =Y-X, X , Y ,QQ 2Y-X10Q 2Y-XX0 Y-X0 XY-X =0normal eqb bbbb bbb bbb bb b-令如果我们有样本那么,我们通过最小化 ,即可估计出回归参数和 。整理,得称为正规方程组uation32OLS ii12i01011nX -XY-Y=X -X=Y-XOLS1OLSXYY

20、+X2 e=e03040iiiiie XeYbbbbb利用正规方程组,我们可以很容易的求得估计量的性质运用得到的样本回归线经过点,即33例2.26008001000120014001600y/Fitted values1000150020002500 xyFitted values例2.2的样本回归方程34YXybarxbar(X-xbar)(Y-ybar)(X-xbar)217008001110170036900081000026501000111017003220004900003900120011101700105000250000495014001110170048000900005110016001110170010001000061150180011101700400

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论