第五章一元线性回归模型上_第1页
第五章一元线性回归模型上_第2页
第五章一元线性回归模型上_第3页
第五章一元线性回归模型上_第4页
第五章一元线性回归模型上_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章元线性回归模型5.1 例子需求法则:影响需求量的其他变量保持不变时,商品的需求量与其价格呈反方向变动关系。其他变量包括消费者的收入、偏好、同类商品的价格、以及互补商品的价格等等。假设有一小镇上有 55个居民,表5-1给出了在不同价格水平下炒栗子的销售量。iTi谓*m(1)(2)(3)(4)145価*47# 48,49,気 517482纯毎他47,485463眇収忸46农5U464255406313137$,眇 4 437期73ZM36.38.40536831”23玄艮戏 37134928.3032.K36532ID29.30,313的 5S30图4-1从散点图可以看出:(1) 任一给定X

2、,有若干个Y与之对应,例如,当 X = 1时,有7个值对应。(2) 当X增加时Y 般减少。在图中圈起的点给出了 期望值(expected mean )或者与X 相对应的 Y的总体平均值(population average value)。可以认为平均的 Y值随X线性减少(即是一条直线)。称该直线为 总体回归直线 (Population Regressio n Line, PRL)。总体回归直线给出了对应于每一个X值(或任一个自变量)相应的Y(或任何一个应变量)的均值。也可用函数的形式来表示:E( Y | Xi) = B1 + B2Xi(5-1)E(Y | Xi)表示给定X值相应的(或条件的)Y

3、的均值,即 条件期望(conditionalexpectation )或条件均值 (conditional expected value)。因而,E(Y | Xi= 2 ) = 46,即在第2个子总体中(价格等于2), Y的期望值或均值为46。E(Y | Xi)是Xi的函数,意味着 Y依赖于Xi,一般称之为 Y对X的回归。回归简单定 义为在给定X值的条件下Y值分布的均值。换句话说,总体回归直线经过 Y的条件期望值。式(5-1)是总体回归函数(Population Regression Function, PRF)的数学形式。B1, B2 为参数,也称为回归系数 (regression coef

4、ficients)。 B1 又称为截距(intercept), B2 又称为斜率(slope)。注意:我们分析的是在 给定自变量 的条件下,应变量的行为,因此回归分析是 条件回归 分析(conditional regression analysis)。但无需每时每刻都加上“条件”二字。所以以后表达式E Y(Y | Xi)将简写为E(Y),必须清楚后者是前者的简略写法。5.2总体回归函数误差的设定总体回归函数给出了对应于每一个自变量的应变量的平均值。当X = 1元时,相应的Y的均值为48。但是,在这个价格水平下,从7个人中随机抽取一个,则他的需求量并非一定等于48。那么,个人的需求量等于在平均的

5、需求量上加上或减去某一数量:Yi = B1 + B2Xi + ui (5-2)ui表示 随机误差项(stochastic, random error term)、随机扰动项 或简称为 误差项。误差项 是一随机变量,通常用概率分布(例如正态分布、t分布)来描述随机变量。因此,某一价格水平上个人的需求量,比如第i个人的需求量可看做两部分之和:(1) ( B1 + B2Xi ),第i个子总体的平均需求量,也即在此价格水平下总体回归直线上相 对应的点。称为系统的或决定的部分。(2) ui,称为非系统的或随机的部分(由价格以外的因素所决定)。|式(5-2)称为随机总体回归方程(stochastic PR

6、F),式(5-1)称为决定的(或非随机的)总体回各个Y值的均值是多少。归方程(determi nistic or non stochastic PRF),后者表示对于具体价格,而前者告诉我们由于误差项ui的存在,个人需求量在其均值附近是如何变化的。5.3随机误差项的性质(1) 随机误差项可能代表了模型中并未包括的变量的影响。例如上例中,它可能代表了 诸如消费者收入(金融危机),同类竞争产品(如柚子)的价格等因素的影响。(2) 即使模型中包括了所有决定需求量的有关变量,需求量的内在随机性也一定会发生,这是做何种努力都无法解释的,即使人类行为是理性的,也不可以完全可预测的。(3) ui也可以代表测

7、量误差,例如,对需求量Y的样本观察值,由于在数据统计时的四舍五入,都不可避免地会产生误差。Occam的剃刀原则简单优于复杂”如无必要,勿增实体 ”(Entities should not bemultiplied unnecessarily )说明应该尽可能地简单,只要不遗漏重要的信息。因此,建立的 模型越简单越好。即使知道其他变量可能会对Y有影响,也把这些次要的因素归入随机项ui。5.5样本回归函数实际中很少能拥有总体数据,通常仅有来自总体的一个样本。那么,如何根据样本提供的信息来估计总体回归函数?斛2 xgtMgmm4P1?5-3灶秋七軸另魁曲4440J?假设从未见到过表5 - 1,仅有表

8、5 - 2提供的数据,这些数据是从表 5 - 1中对每一个X随 机抽取一个Y值得到的,此时,对于每一个 X值仅有一个Y值与之对应。能否根据表5 - 2提供的样本数据,估计出每一个 X值,相对应的 总体Y的均值吗?即能 根据样本数据来估计总体回归函数吗?实际上不太可能“准确地”估计总体回归函数,因为存在抽样误差。假设有另一个来自 表5 - 1总体的随机样本,见表 5 - 3。对表5 - 2,5 - 3中的数据作图,得图5 - 3所示的散点图。0 I 2345678910价格乌5-3样本回归右技通过散点,可以清晰地得到两条很好地“拟合” 了样本数据的直线,称之为样本回归线,这两条样本回归线哪一条代

9、表了“真实的”总体回归直线呢?如果不看图5 -1,将无法确定图5 - 3中哪一条直线代表了真实的总体回归线。由于抽样的不同,每一条直线也最多是对真实总体回归线的近似。可能从K个不同的样本中得到 K条不同的样本回归直线,所有的这些样本回归线不可能都相同。与从总体回归线得到总体回归函数类似,可用样本回归函数(sample regressionfunction,SRF)来表示样本回归线。Y?i = b1 + b2Xi(5 - 3)其中,、?表示总体条件均值,是E(Y|Xi)的估计量;b1表示B1的估计量;b2表示B2的 估计量。(回忆:估计量是用以表示 如何估计总体参数的公式 。估计量的某一取值称为

10、估计值。)由于并非所有的样本数据都准确地落在各自的样本回归线上,因此,需要建立随机样本回归函数:Yi=b1+b2Xi+ei(5 - 4)其中,ei是ui的估计量,称ei为残差项(residual term),或简称为 残差(residual)。回归分析的主要目的是根据样本回归函数Yi=b1+b2Xi+ei来估计总体回归函数Yi=B1+B2Xi+ui通常分析是根据来自某一总体的单独的一个样本,但是由于抽样的不同,所以对总体回归函数的估计仅仅是近似估计。(思考:既然样本回归函数仅仅是总体回归函数的近似,能否找到一种方法(或过程)能够使这种近似尽可能接近真实值?也就是说,一般情况我们很难获得整个总体

11、的数据,那么如何建立样本回归函数,使得 b1,b2尽可能接近B1,B2呢?) 5.4 “线性”回归的特殊含义对“线性”这一概念有两种不同的解释。E *价格图5-5D线性需求曲线541解释变量线性函数Y=f(X)称为线性的,如果(1) X仅以一次方的形式出现;(2) X不与其他变量相乘或相除(例如,X Y, X/Y,其中Y是另一变量)。 线性的最“本质”的含义是应变量的条件均值是自变量的线性函数。例如式(5 - 2)以及相应的样本形式式(5 - 3)和式(5 - 4)。下面的函数形式不是线性:Yi =B1 + B2X 2i(5 - 7)(5 - 1 )、式1Yi = B1 + B2 -Xi(5

12、- 8)由于回归模型中的解释变量线性,所以解释变量每变动一单位,被解释变量的变化率为一常量,斜率保持不变。但对于非线性回归模型,斜率是变化的。5.4.2参数线性线性的第二解释是因变量的条件均值是参数B的线性函数。下面的模型就是非线性的:2E(Y) =B1+B 2Xi(5 - 9)我们主要关注参数线性的模型。从现在起,线性回归是指参数线性的回归(即参数仅以次方的形式出现在模型中),而解释变量并不一定是线性的。5.5参数的估计:普通最小二乘法最小二乘原理 回顾式(5 - 2)所描述的一元总体回归方程:Yi=B1+B2Xi+ui总体回归方程不能直接观察,用样本回归函数来估计它。Yi=b1+b2Xi+

13、ei注: ei =实际的Yi 估计的Yi=Yi Y?=Yi b1 b2Xi( 5 -10 )估计的 Yi Y?= b1+b2Xi即残差是Yi的真实值与估计值之差。估计总体回归函数的最优方法是,选择B1, B2的估计量bl, b2,使得残差ei尽可能的小。在回归分析中,用的最为广泛的方法之一是普通最小二乘法(ordinary least squares, OLS ):选择参数b1, b2,使得全部观察值的 残差平方和(residual sum of squares, RSS)最小。min : RSS= ei2八(YiY?)2八(Yrb1b2xi)2(5 - 11 )RSS是b1和b2的函数。给定

14、一组数据,选择不同的 b1, b2值将会得到不同的RSS。只需 随意旋转(移动)样本回归函数,可以看出每一次旋转都将得到一个不同的截矩(b1)和一个不同的斜率(b2)。价格利用偏微分,得ei2/:M2 (Yi-b1-b2Xi)(-1)( 吃 ei2b2=2近(Yi-b1-b2Xi)(-Xi)根据最优化的一阶条件,令上述两式为零,于是有:-Yr nb1 b2 Xi-YiXi 二 bl Xi b2 Xi2求解以上联立方程(又称之为 正规方程组),得bVb2Xb2 J (Xi-X)(Y_Y) 送(Xi -X)2、XiYi - nYX Xi2-nX2令 xi=(Xi-X);yi = (Yi-Y),得

15、xiyi、xi2证明:- XiY= Y Xi nXY 八 XYi一、2XiX -2X Xi-2XnX 八 2nX2回到炒栗子一例中,表5 - 2提供了计算O L S估计量bl,b2所需的全部数据,我们得到估计的需求函数:普通最小二乘估计量的一些性质 :ei =0,即残差的总和零。由正规方程得:八 ei2/d (Yi-b1-b2Xi)(-1) = 0 、(Yi-b1-b2Xi)=0Yi=b1+b2Xiz ehz (Yi-Y?)= 0(2) 样本回归线经过样本均值点,即Y = b1+b2X证明:对样本回归方程Yi=b1+b2Xi+ei两边求和,得 Yi = nbl b2 Xk - ei二 nb1

16、b2、Xi用n通除以上方程,得Y = bl b2X(3) 对残差与解释变量的积求和,其值为零 ;也就是说,这两个变量不相关、eiXH 0由正规方程得:ei2/:b2=2, (Yi-b2Xi)(-Xi) = 0、(Yb1-b2Xi)Xi = 0 因为 Ybb1+b2Xi ; Yi Ybei 所以 eiXH 0(4) 对残差与被解释变量的积求和,其值为零;也就是说,这两个变量不相关。zeiYi = 0证明:Y i = b1+b2Xi+ ei丫二 bl b2X (已经证明),两式相减,得Yi-Yi = b2(Xi- X)+ei或 yi = b2xi+ei(上式称之为离差形式,特点是没有了 b1。因此

17、,备b2xiE eiy? =b22: eixi-b2 xi(yi-b2xi)二 b2 xiyi _b; x:因为b2 - xiyi (见前面的正规方程组的求解),、xiyi = b2 xi?T- 2xi所以=煖7 X: -b2 X; =0得到送eiY? = O证明2:zeiYh送 ei(b1+b2Xi) 二瓦 eib1+瓦 ei b2Xi=b1 ei+b2 eiXi =0 出师表两汉:诸葛亮先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣 不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光 先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义

18、,以塞忠谏之路也。宫中府中,俱为一体;陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其 刑赏,以昭陛下平明之理;不宜偏私,使内外异法也。侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下:愚 以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能”,是以众议举宠为督:愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。亲贤臣,远小人,此先汉所以兴隆也; 亲小人,远贤臣,此后汉所以倾颓也。 先帝在时, 每与臣论此事,未尝不叹息痛恨于桓、 灵也。侍中、尚书、长史、参军,此悉贞良死节之臣, 愿陛下亲之、信之,则汉室之隆,可计日而待也 P。臣本布衣,躬耕于南阳,苟全性命于乱世,不求闻达于诸侯。先帝不以臣卑鄙,猥自枉 屈,三顾臣于草庐之中,咨臣以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论