回归分析的性质和基本概念_第1页
回归分析的性质和基本概念_第2页
回归分析的性质和基本概念_第3页
回归分析的性质和基本概念_第4页
回归分析的性质和基本概念_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析的性质和基本概念第一页,共六十四页,编辑于2023年,星期五◆学习目的

理解回归分析的性质和双变量回归分析的一些基本概念。第三章回归分析的基本概念第二页,共六十四页,编辑于2023年,星期五第一节回归分析释义第二节经济变量之间的关系第三节符号术语数据第四节总体回归函数第三页,共六十四页,编辑于2023年,星期五第五节随机干扰项第六节“线性”一词的含义第七节样本回归函数第四页,共六十四页,编辑于2023年,星期五“回归”的历史溯源:

“回归”一词最先由弗朗西斯•高尔顿(FrancisGalton)提出。高尔顿发现一个趋势:父母高,儿女也高;父母矮,儿女也矮。但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高。换言之,尽管父母都异常高或异常矮,但儿女的身高却有走向人口平均身高的趋势。换句话说,尽管父母都异常矮或异常高,但儿女的身高却有走向人口总体平均身高的趋势。——普遍回归定律(lawofuniversalregression)一、概述第一节回归分析释义第五页,共六十四页,编辑于2023年,星期五高尔顿的朋友卡尔.皮尔逊(KarlPearson)证实了他的观点,它收集了1000名成员的身高记录发现,对于一个父亲高的群体,儿辈的平均身高低于父辈的身高;而对于一个父亲矮的群体,儿辈的平均身高则高于其父亲的身高。用高尔顿的话说,这是“回归到中等”(regressiontomediocrity)。第六页,共六十四页,编辑于2023年,星期五

回归的定义

回归分析是关于研究一个叫做因变量的变量对另一个或多个叫做解释变量的变量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设定值,去估计和(或)预测前者的(总体)均值。第七页,共六十四页,编辑于2023年,星期五例

高尔顿的普遍回归定律现代的观点关心的是给定父辈身高的情形下找出儿辈平均身高的变化。即,一旦知道父辈的身高,怎样预测儿辈的平均身高。考虑如下散点图(scatterdiagram):对应于任一给定的父亲身高,都有儿子身高的一个分布范围。父亲身高增加,儿子的平均身高也增加。回归线第八页,共六十四页,编辑于2023年,星期五勾画一条通过这些散点图的直线,以表明儿子的平均身高是怎样随父亲的身高增加而增加。这条线叫做回归线(regressionline)。如下图是不同年龄处测度的男孩身高的总体分布。身高随着年龄增加而增加,通过给定年龄平均身高画一条线。第九页,共六十四页,编辑于2023年,星期五例

菲利普斯曲线下图给出了历史数据所表现的散点图,图中的曲线是把货币工资变化率同失业率联系起来的菲利普斯曲线(Phillipscurve)之一例。该散点图可预测在给定的某个失业率下货币工资的平均变化。第十页,共六十四页,编辑于2023年,星期五例通货膨胀率由货币经济学中得知,其他条件不变,通货膨胀率π越高,人们愿意以货币形式保存的收入比例k越低。如下图。可预测在各种通货膨胀率下人们愿意以货币形式保存的收入比例。第十一页,共六十四页,编辑于2023年,星期五经济学家想研究个人消费支出对可支配个人收入的依赖关系。这种分析有助于估计边际消费倾向(MPC),也就是实际收入每元价值的变化所引起的消费支出的平均变化。一位能设定价格或产出的垄断商,想知道产品需求对价格变化的实际反应,通过定价实验能估计出产品需求的价格弹性(priceelasticity),即产品需求对价格变化的灵敏程度,从而有助于确定最有利可图的价格。其他例子第十二页,共六十四页,编辑于2023年,星期五其他例子公司的销售部主任想知道人们对公司产品的需求与广告费开支的关系。这种研究在很大程度上有助于计算出相对于广告费支出的需求弹性,即广告费预算每变化百分之一时需求变化的百分比。有助于制定“最优”广告费预算。农业经济学家想研究作物(如小麦)收成对气温、降雨量、阳光量和施肥量的依赖关系。这种依赖关系分析能使他对给定的解释变量进行信息预测或预报作物的平均收成。第十三页,共六十四页,编辑于2023年,星期五

计量经济研究是对经济变量之间关系的研究,针对某一具体经济问题展开研究时,首先需要考察的就是相关经济变量之间有没有关系、有什么样的关系。确定的函数关系不确定的相关关系经济变量之间的关系

第二节经济变量之间的关系第十四页,共六十四页,编辑于2023年,星期五函数关系

指某一经济变量可直接表示为其他经济变量的确定的函数,函数表达式中没有未知参数。1)某一商品的销售收入Y与单价P、销售数量Q之间的关系Y=PQ2)某一农作物的产量Q与单位面积产量q、种植面积S之间的关系Q=qS例如:

第十五页,共六十四页,编辑于2023年,星期五相关关系

指不同经济变量的变化趋势之间存在某种不确定的联系,某一或某几个经济变量的取值确定后,对应的另一经济变量的取值虽不能唯一确定,但按某种规律有一定的取值范围。

居民消费C与可支配收入Y之间的关系,可支配收入的取值确定后,消费的取值虽不能唯一确定,但有一定的取值范围,0<C<Y,遵循边际消费倾向递减的规律。居民消费C与可支配收入Y之间的关系可表示为C=

+Y,

、为待估参数。例如:

相关关系的表达式一般表示为含有未知参数的函数形式,需要进行参数估计。第十六页,共六十四页,编辑于2023年,星期五第三节符号术语数据因变量(Dependentvariable)解释变量(Explanatoryvariable)被解释变量(Explainedvariable)自变量(Independentvariable)预测子(Predicted)预测元(Predictor)回归子(Regressand)回归元(Regressor)响应(Response)刺激变量(Stimulus)内生(Endogenous)外生(Exogenous)结果(outcome)共变(Convariate)被控变量(Controlledvariable)控制变量(Controlvariable)第十七页,共六十四页,编辑于2023年,星期五

如果我们研究一个变量对一个解释变量的依从关系,如消费支出对实际收入的依赖,则称这种研究为简单(simple)或双变量回归分析(two-variableregressionanalysis)。

如果我们研究一个变量对多个解释变量的依赖性,如农作物收成依赖降雨、气温、阳光和施肥一例,则称它为复回归分析(multipleregressionanalysis)。

换句话说,在双变量回归中只有一个解释变量,在复回归中则有多于一个解释变量。第十八页,共六十四页,编辑于2023年,星期五符号

字母Y一律指因变量,而一律指解释变量。Xk代表第k个解释变量。Xki

指对变量Xk

的第i次观测值。N或T指总体中的观测值的总个数,n或t指样本中观测值总个数。惯例:

将下标i用于横截面数据(cross-sectionaldata)(即在一个时间点上收集的数据);

将小标t用于时间序列数据(timeseriesdata)(即在一段时间点上收集的数据)。第十九页,共六十四页,编辑于2023年,星期五数据1)时间序列数据;2)横截面数据;3)面板数据;第二十页,共六十四页,编辑于2023年,星期五1)时间序列数据;TableI.1DataonY(PersonalConsumptionExpenditure)andX(GrossDomesticProduct),1982-1996)allin1992billionsofdollars19823081.54620.319833240.64803.719843407.65140.119853566.55323.519863708.75487.719873822.35649.519883972.75865.219894064.6606219904132.26136.319914105.86079.419924219.86244.419934343.66389.6199444866610.719954595.36742.119964714.16928.4第二十一页,共六十四页,编辑于2023年,星期五特点:可以在有规则的时间间隔收集Example:每日(股票价格)、每周(联邦储备委员会提供的货币供给数字)、每月(失业率、消费者价格指数CPI)、每季(如GNP)、每年(政府预算)、每5年(制造业普查资料)、每10年(人口普查资料),有些数据每季和每年都有公布,如GDP和消费者支出数据。极短时间的数据也可以搜集,如股票价格数据,可以得到连续数据(实时牌价)。1)时间序列数据;一个时间序列是对一个变量在不同时间取值的一组观测结果。第二十二页,共六十四页,编辑于2023年,星期五平稳的时间序列数据如果一个时间序列的均值和方差不随时间而系统的变化,那它就是平稳的。随时间推移,M1货币供给稳定上升。不是平稳的。1)时间序列数据;第二十三页,共六十四页,编辑于2023年,星期五2)横截面数据;对一个或多个变量在同一时间点上收集的数据。Example:1990年和1991年美国50个州的劳工会蛋产量和蛋价格,对每一年份50个州的数据构成一个横截面数据样本。下表中有两个横截面数据样本。第二十四页,共六十四页,编辑于2023年,星期五3)面板数据;在面板数据中兼有时间序列和横截面数据的成分。1973-1985年每个国家的通货膨胀率构成一个时间序列,而对某一年说,7个国家的通货膨胀率又构成一个横截面。第二十五页,共六十四页,编辑于2023年,星期五数据来源互联网,e.g.国家统计局,Bloomberg,Wind咨询实验数据,e.g.评价肥胖对血压的影响时,研究者要在人们饮食、烟酒习惯都不变的情况下收集数据。数据的准确性大部分社会科学数据是非实验性质的,存在观测误差。问卷型调查中,非应答问题十分严重。获取数据的抽样方法可能变化很大,要比较不同样本得来的结果通常很困难。通常获得宏观数据(如GDP,就业,通货膨胀,失业),无法告知个人或微观单位的情况。由于保密性质,某些数据只能加总形式公布。如企业普查,不允许公布任何厂家的生产、人员雇佣、能源消耗、研究与开发费用,要研究厂际差异是困难的。第二十六页,共六十四页,编辑于2023年,星期五变量的测量尺度比率尺度(ratioscale)

对于一个变量X,取其两个值X和X,比率X/X和距离(X-X)都是有意义的量。大多数经济变量都属于这一类,问今年的GDP与去年的GDP相差多少是有意义的。区间尺度(intervalscale)

两个时期之间的距离(如2000-1995)是有意义的,但两个时期的比率(2000/1995)是无意义的。序数尺度(ordinalscale)

只存在自然顺序。如考试分数(A、B、C),无法相减或相除。如无差异曲线(indifferencecurves),每条更高的无差异曲线标志着更高的效用水平,但不能量化到底高多少。名义尺度(nominalscale)

不具备比率尺度的任何特征。如性别(男,女),婚姻状况(已婚、未婚、离婚、分居)。适合于比率尺度的计量方法不适合于名义尺度。第二十七页,共六十四页,编辑于2023年,星期五1.总体回归曲线第四节总体回归函数例3-1表中数据指的是一个假想的经济社会中,构成总体的60个家庭及其周收入(X)和周消费支出(Y)的数量。这60个家庭被分成10个收入组(从80美元到260美元),各组中每个家庭的月支出都列在表中。因此,我们就有10个固定的X值和与每个X相对应的Y值,可以说,有10个Y的子总体。第二十八页,共六十四页,编辑于2023年,星期五每个收入组的周消费支出都有相当大的变化,尽管如此,看平均值,周消费支出随着收入的上升而上升。第二十九页,共六十四页,编辑于2023年,星期五条件期望值(conditionalexpectedvalues)

:给定X值下Y的期望值。取决于条件变量X的给定值。第三十页,共六十四页,编辑于2023年,星期五第三十一页,共六十四页,编辑于2023年,星期五注意区分条件期望和无条件期望:1.问:一个家庭周消费支出的期望值是多少?答:如果我们将总体中所有60个家庭的消费支出加总除以60,得到121.20(7272/60)美元,这就是周消费支出的无条件均值或无条件期望值。得到该数字并不关心各个家庭的收入水平。2.问:一个月收入为140美元的家庭的周消费支出的期望值是多少?答:101美元(条件均值)。因此,对收入水平的了解能使我们更好的预测消费支出的均值,这可能正是回归分析的本质。第三十二页,共六十四页,编辑于2023年,星期五总体回归线(populationregressionline,PRL)

几何意义上,总体回归曲线就是解释变量取给定值时因变量的条件均值或期望值的轨迹。图中的黑圆点表示了不同X值下Y的条件均值,将这些均值连起来,就得到所谓的总体回归线或称为总体回归曲线。如下图:现实中,一个总体可能有许多个家庭。图中对于每个X(收入水平)都有周消费支出Y值的一个总体,假定这些Y值均匀分布在其条件均值左右,并且回归线穿过这些条件均值。第三十三页,共六十四页,编辑于2023年,星期五条件均值第三十四页,共六十四页,编辑于2023年,星期五2.总体回归函数从上图中我们清楚的看出,每个条件均值是的一个函数,用符号表示:该方程称为条件期望函数(conditionalexpectationfunction)或总体回归函数(populationregressionfunction,PRF)。它说明了Y的均值或平均对应值是怎样随X而变化的。

采取什么函数形式?比如假定消费支出与收入有线性关系,假定PRF是的线性函数:其中β1

和β2

为未知但固定的参数,称为回归系数(regressioncoefficients).该方程称为线性总体回归函数或简称线性总体回归。第三十五页,共六十四页,编辑于2023年,星期五

这里所说的线性回归模型(linearregressionmodel)和通常意义下的线性函数不同,“线性”回归指参数是线性的,即参数都只以它的1次方出现,解释变量X可以是线性的,也可以不是线性的。例如:

第二个式子代表了非线性回归模型(nonlinearregressionmodel)。第五节“线性”一词的含义第三十六页,共六十四页,编辑于2023年,星期五第三十七页,共六十四页,编辑于2023年,星期五都是线性回归模型。都不是线性回归模型。第三十八页,共六十四页,编辑于2023年,星期五习题如下模型是线性回归模型吗?为什么是或为什么不是?第三十九页,共六十四页,编辑于2023年,星期五

对于参数线性、解释变量非线性的回归模型,只要稍作变换,就可化为线性回归模型的一般形式。例如:

模型

令,,,,可将模型化为

第四十页,共六十四页,编辑于2023年,星期五3.线性回归模型的普遍性例如,著名的Cobb-Dauglas生产函数表现为幂函数形式,著名的菲利普斯曲线(Phillipscurves)表现为双曲线形式。

一般情况下,对于只含有乘、除、指数、幂运算的非线性关系,可通过对数变化化为线性关系,以Cobb-Dauglas生产函数为例,方程两边取对数,可化为线性形式第四十一页,共六十四页,编辑于2023年,星期五对于其他复杂的函数形式,可通过级数展开化为线性形式

,然后在点可先根据所掌握的信息确定参数、、的一组初始值、、(),,处对模型作泰勒级数展开,并取一阶近似值,得例如,对于模型

余项整理得+余项泰勒级数:第四十二页,共六十四页,编辑于2023年,星期五+余项令,,余项原模型可化为第四十三页,共六十四页,编辑于2023年,星期五习题考虑如下非随机模型(即不含随机误差项的模型)。它们是线性回归模型吗?若不是,可能通过适当的代数变换使之转化成线性模型吗?第四十四页,共六十四页,编辑于2023年,星期五第六节随机误差项个别家庭的消费支出水平不一定随收入水平增加而增加。第四十五页,共六十四页,编辑于2023年,星期五个别家庭的消费支出与给定收入水平之间有什么关系?给定收入水平X的个别家庭的消费支出聚集在收入为X的所有家庭的平均消费支出的周围,即围绕着它的条件均值。因此,个别的Y围绕它的期望值的离差(deviation)表示为:第四十六页,共六十四页,编辑于2023年,星期五其中离差ui

是一个不可观测的可正可负的随机变量,称为随机干扰(stochasticdisturbance)或随机误差(stochasticerror)。(1)代表相同收入水平的所有家庭的平均消费支出。这一成分称之为系统性或确定性成分。(2)ui

为随机或非系统性成分。现在假定它是所有可能影响Y,但又未能包括到回归模型中来的被忽略变量的替代变量。

随机误差项一般用希腊字母或表示第四十七页,共六十四页,编辑于2023年,星期五假定对Xi

是线性的,则例如给定X=80,对方程两边取期望值方程中取的是给定的X值为条件的条件期望第四十八页,共六十四页,编辑于2023年,星期五因为故因此,假定回归线通过Y的条件均值,就意味着ui

的条件均值(以给定的Xi

为条件)为零。条件均值总体回归线:解释变量取给定值时因变量的条件均值或期望值的轨迹。第四十九页,共六十四页,编辑于2023年,星期五存在意义

第一,理论的模糊性。

即使有决定Y的行为的理论,也常常是不完全的。我们可以肯定

每周收入X影响每周消费支出Y,还有其他影响Y的变量吗?第二,数据的欠缺。

例如,在原理上,除收入外,家庭财富亦可作消费支出的解释

变量。但不幸的是,一般得不到家庭财富的信息。第三,核心变量与周边变量。

假定除收入外,家庭的孩子数、性别、宗教、教育、地区也会

影响消费支出,合起来影响非常小,当做随机变量来看。第四,人类行为的内在随机性。第五,糟糕的替代变量。

弗里德曼的消费函数理论将永久消费看做永久收入的函数。实际

上我们用可观测的当前消费和当前收入,存在测量误差。第六,简单性原则。保持尽可能简单的回归模型。第七,错误的函数形式。Or?第五十页,共六十四页,编辑于2023年,星期五第七节样本回归函数注意:这张表是代表一个总体。但大多数实际情况,我们仅有对应于某些固定X的Y值的一个样本,所以要面对抽样问题。目标:在样本信息的基础上估计总体回归函数PRF。第五十一页,共六十四页,编辑于2023年,星期五从总体中抽取一个随机样本如下:表2.4中的每个Y都是从表2.1的总体中对应于同一Xi的同组Y值随机抽取的。问:我们能通过表2.4的样本预测总体回归函数PRF吗?第五十二页,共六十四页,编辑于2023年,星期五基于第二个样本的回归线基于第一个样本的回归线第一个样本第二个样本第五十三页,共六十四页,编辑于2023年,星期五SRF是根据第一个样本表2.4画的,SRF是根据第二个样本表2.5画的。图2.4中的回归线称为样本回归线(sampleregressionlines)。两条回归线中的哪一条代表“真实”的总体回归线呢?如果事先不知道总体,则无法确定哪一条是总体回归线。姑且假定它们都代表总体回归线,但因为抽样波动,它们最多是真实总体回归的一个逼近。一般的说,从N个不同的样本会得到N个不同的样本回归线,并且这些样本回归线不大可能是一样的。第五十四页,共六十四页,编辑于2023年,星期五

若将家庭周收入X与消费支出Y的总体回归函数设定为一元线性回归函数的形式同样的我们写出一个样本回归函数:其中的估计量

的估计量的估计量注意:一个估计量,又称样本统计量,是指一个规则或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。由估计量算出的具体数值,称为估计值。第五十五页,共六十四页,编辑于2023年,星期五

引入样本回归函数中的代表各种随机因素影响的随机变量,称为样本残差项、回归残差项或样本剩余项、回归剩余项,简称残差项或剩余项(residual),通常用表示。

概念上,类似于随机干扰项,可以把它当成的估计量,

把残差项引进到SRF中来和把随机干扰项引入到PRF同样道理。对于样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论