版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,课程名称: 计量经济学 主讲教师: 赵坚毅 联系地址: 中国青年政治学院经济系 北京,100089 联系电话: (010) 68712337 电子邮件: 网址:http:bbsindex.asp,2,第一部分 绪论,什么叫计量经济学(Econometrics)?19世纪20年代挪威经济学家R.Frish将它定义为“经济理论”、“统计学”、“数学”三者的结合。(计算机科学),3,计量经济学家的荣耀,1969年首届诺贝尔经济学奖获得者弗里斯(Frisch) 1980年诺贝尔经济学奖获得者克莱因(Klein)计量经济学鼻祖 2000年诺贝尔经济学奖获得者:在微观计量经
2、济学作出杰出贡献的赫克曼(Heckman)和麦克法登(Mc Fadden),4,计量经济学家的荣耀,最近一届(2003)诺贝尔经济学奖获得者:计量经济学家格兰杰(Granger)和恩格尔(Engle) 半数以上的诺贝尔经济学奖授予了在计量模型上颇有建树的经济学家,诺贝尔经济学奖引领经济学发展潮流,5,计量经济学的内容体系,广义计量经济学和狭义计量经济学广义是利用经济理论、数学以及统计学定量研究经济现象的方法统称。(回归分析、投入产出分析、时间序列分析等)狭义以揭示经济变量间的关系为目的,主要应用回归分析方法。 单方程模型和联立方程模型对股票市场的研究VS对金融市场的研究,6,计量经济学的内容体
3、系,线性模型、内在线性模型与非线性模型(均从参数进入模型的角度来定义) 参数模型、半参数模型和非参数模型(均从模型的函数形式是否确定来定义),7,计量经济学的内容体系,因数据类型差异而导致模型的差异:a. 横截面数据集(cross-sectional data set):即给定时点对个人、家庭、企业、城市、国家或一系列其他单位采集的样本所构成的数据集(应该忽略细小的时间差别),8,计量经济学的内容体系,b.时间序列数据集(time series data set):是由一个或几个变量在不同时间的观测值所构成的。 c.混合横截面数据(pooled cross section):有些数据既有横截面
4、数据的特点又有时间序列的特点,但每一时点的样本不同,通常是分析政府政策效果的有力数据,9,计量经济学的内容体系,d.综列数据(panel data):由横截面数据集中每个数据的一个时间序列组成。(定点长期调查) 其他专门数据类型: 1、离散数据(discrete data):通常在考察个人或家庭或企业的决策行为时,通过问卷调查获得,由此发展出“离散选择模型”,10,计量经济学的内容体系,2、持续数据(survival data):用于考察变量从开始到结束或调查终止前所经过的时间长度,如失业持续时间、罢工持续时间、甚至怀孕间隔 3、cohort(一代人) data - 为持续收集特定社会群体在一
5、段时间内的变化的数据。如:调查七十年代出生的样本在10年间的汽车持有率数据或就业率数据等。,11,计量经济学的内容体系,理论计量经济学和应用计量经济学:方法的证明VS方法的应用,12,怎样应用计量经济学企业竞争力评估的一个例子,一、理论模型的设计1。确定模型所包含的变量2。确定模型的数学形式或解决方法,13,怎样应用计量经济学企业竞争力评估的一个例子,二、样本数据的收集1。几类常用的样本数据2。样本数据的质量:(研究结果不能比数据的质量更好) 三、模型参数的估计和检验,14,计量经济学模型成功的三要素,理论 方法 数据,15,计量经济学模型的应用,一、结构分析当一个变量或几个变量发生变化时对其
6、他变量或经济系统的影响(弹性和乘数) 二、经济预测如通过回归分析总收入和总消费之间的关系,从而在知道一变量数据的情况下可以预测另一变量的走势。,16,计量经济学模型的应用,三、政策评价建立模型对政策效果进行评估 四、实证检验对经济理论的检验;对某一行业如医药卫生、农业新方法效果的检验。,17,课堂小测试,对“回归”的认识 你所应用过的计量经济学内容,18,回归,“回归”一词的历史渊源加尔顿回归到中等(或平均) 回归分析是关于研究一个叫做应变量的变量对另一个或多个叫做自变量的变量的依赖关系,其用意在于通过后者的已知或给定值,去估计和预测前者的(总体)均值,19,几个例子,XY 父亲身高与儿子平均
7、身高 年龄与平均身高 个人可支配收入与平均消费支出 垄断商的定价与产品平均需求,20,几个关系,统计关系和确定性(函数)关系计量经济学主要处理的是随机(random或stochastic)的应变量,也就是有着概率分布的变量,这是一种统计关系。也可以从有无随机干扰项的角度来区分。 回归与因果关系从逻辑上来说,回归关系式本身并不意味着任何因果关系,因果关系应该来自统计学之外。 回归与相关关系变量是否是确定的;变量之间是否对称;相关系数度量VS估计或预测应变量的平均值,21,术语,应变量(Dependent)与自变量(Independent) 被解释变量(Explained)与解释变量(Explan
8、atory) 预测子(Predictand)与预测元(Predictor) 回归子(Regressand)与回归元(Regressor) 响应(Response)与刺激或控制变量(Stimulus or control variable) 内生(Endogenous )与外生(Exogenous ),22,线性回归模型,消费函数的一个例子 随机干扰项的意义:1。理论的含糊性(其他因素)2。数据的欠缺(如财富)3。核心变量与周边变量(或上或下的随机影响)4。人类行为的内在随机性5。糟糕的替代变量(永久消费和永久收入)6。节省原则(多重共线性的影响)7。错误的函数形式,23,线性回归模型的假定,1
9、。函数形式: 2。干扰项的零均值: 3。同方差性: 4。无自相关: 5。回归量与干扰项的非相关: 6。正态性:,24,各种假定的含义,干扰项的零均值的意思是凡是模型不显著含有的并因而归属u的因素,对y的均值都没有系统的影响;正的u值抵销了负的u值,以至于他们对y的平均值的影响为零。,25,各种假定的含义,u的同方差性同时也意味着y的同方差性,即随着x的变动,y的取值的分布是一定的,是分布不变的。,26,各种假定的含义,干扰项之间的无自相关意味着y的决定与其他期的u值无关,即不存在u(t-1)决定u(t)从而决定y的情况 干扰项与自变量之间的非相关,干扰项本身是独立于自变量之外的,且如果干扰项与
10、自变量存在相关,则不能独自说明其作用,27,普通最小二乘法,总体回归函数(PRF)与样本回归函数(SRF)之差的平方和最小为最小二乘法的准则。,28,估计参数的特性,最小二乘估计量的线性和无偏性质 所谓线性即估计量是y的一个线性函数 所谓无偏即系数估计量的期望等于系数原值 估计参数的方差、标准差,协方差(注意到x的变差越大,则估计参数的方差越小)(如果协方差为负,那么的过高估计意味着的过低估计。,29,高斯马尔科夫定理,在给定经典线性回归模型的假定下,最小二乘估计量,在无偏线性估计量一类中,有最小方差,也即BLUE (best linear unbias estimator) 最小方差的证明,
11、30,估计参数的特性,干扰项方差的一个无偏估计量,31,回归拟合的评价,Y的总变差是离差的平方和: 方差分解:总平方和回归平方和误差平方和SST=SSR+SSE 决定系数SSR/SST 对单个估计系数的t检验,32,相关系数r,相关系数 相关系数是两个变量间的线性关联的一个度量 相关系数落在-1,1间,如果两变量独立,则它们之间的相关系数为零,反之不成立,33,蒙特卡罗实验,1。给定25个X值,给定 , 的真值,给定零均值的正态分布随机数25个,计算y的25个值 2。利用上述X值和y值做回归,得出 , 的估计值 3。给定同一分布的不同随机数取值,重复上述实验100次,求得100个估计值 4。比
12、较100个估计值的均值,看是否与 , 的真值接近,以此来求证估计值的无偏性,34,正态性假定,我们不仅要用ols法做点估计,我们还要进行假设检验(hypothesis testing),即对系数的真值做出推断,而这需要干扰项的概率分布。 从干扰项的概率分布-估计量的概率分布-系数真值的统计推断,35,为何是正态分布而不是其他?,原因1:中心极限定理证明,如果存在大量独立且相同分布的随机变量,那么,除了少数例外情形,随着这些变量的个数无限的增大,它们的总和将趋向于正态分布 原因2:中心极限定理的另一解说是,即使变量个数并不是很大或这些变量还不是严格独立的,它们的总和仍可视为正态分布 检验数据是否
13、为正态分布:Kolmogorov D检验,零假设为数据是均值和方差未知的正态分布,36,由于正态性假定而新增的性质,1。系数估计量也是服从正态分布的(根据系数估计量是y的线性函数,而y又是干扰项的线性函数) 2。Ols的系数估计量在整个无偏估计量中,无论是线性的还是非线性的估计,都有最小方差(参见Rao的证明),所以我们说最小二乘估计量是最优无偏估计量(BUE),37,由于正态性假定而新增的性质,3。 遵循n-2个自由度的卡方分布 4。随着样本容量无限地增大,系数估计量将收敛于它们的真值(一致性),38,其他分布,卡方分布 F分布 t分布,39,最大似然法(ML),原则:当从总体随机抽取n组样
14、本观测值后,参数估计量应当使得从模型中抽取该n组样本观测值(y)的概率最大 将样本观测值联合概率密度函数称为变量的或然函数(LF)。 在已经取得样本观测值的情况下,使或然函数取极大值的总体分布参数所代表的总体具有最大的概率取得这些样本观测值(y),该总体参数即是所要求的参数,即ML估计量。,40,一个回归实例,用SPSS作体重与肺活量的回归(corr.sav注意预测值与残差),41,课堂作业,推导一般线性回归方程的系数的方差及协方差 证明高斯马尔科夫定理 推导干扰项的方差的一个无偏估计量,42,区间估计与假设检验,估计与假设检验构成统计学的两个主要分支,估计理论又主要由点估计与区间估计组成。
15、回顾一些概念:置信区间、置信系数、显著性水平、置信限、置信下限、置信上限,43,回归系数的置信区间,回归估计量的置信区间 置信区间的宽度与估计量的标准误成正比,即标准误越大,对未知参数的真值进行估计的不确定性愈大。,44,假设检验,什么是假设检验:问某一给定的观测是否与某声称的假设相符,这个声称的假设叫做虚拟假设(null hypothesis),即 ,与之相对的为对立假设(maintained hypothesis),即 假设检验就是要设计一个程序用来决定拒绝或不拒绝虚拟假设,通常采用两种互为补充的方法:置信区间和显著性检验,45,置信区间的方法,检验方法:构造一个参数的 的置信区间。如果参
16、数在假设 下落入此区间,就不拒绝零假设。但如果它落在此区间之外,则拒绝零假设。 第一类错误(拒真):原假设正确,却拒绝了第二类错误(纳假):原假设不正确,却接受 “统计上高度显著”指:当拒绝原假设时,犯第一类错误的概率是一个很小的数,通常小于1%,46,显著性检验方法,构造一个检验统计量,利用该统计量的分布特征,来决定是否接受零假设。 通常一个大的t绝对值,便是与虚拟假设相抵触的迹象 单尾检验,47,一些实际操作问题,“接受”和“拒绝”假设的含义:正如一个法庭宣告某一判决为“无罪” (not guilty)而不为“清白”(innocent)统计检验的结论也应为“不拒绝”而不为接受。 2-t屈指
17、一算法则:如果自由度=20且显著水平定为0.05,则只要t统计量大于2,就可拒绝“零”假设(单尾),48,一些实际操作问题,在进行调查研究之前建立假设而不是相反,以免犯循环推理(circular reasoning)的错误 P值被定义为一个虚拟假设可被拒绝的最低显著水平,或犯第一类错误的精确概率。由于选择显著性水平的武断性,直接选取p值并决定是否在给定的p值水平上拒绝虚拟假设会较好,49,一些实际操作问题,区分统计上的显著性和经济上的显著性。当样本非常大时,几乎任何虚拟假设都一定会被拒绝,点估计的大小成为唯一可研究的问题 两种检验方法的选择,置信区间法优于显著性检验法(点与面之分),50,一些
18、实际操作问题,一点建议:集中讨论系数的大小并报告其置信水平,而不去提显著性检验。如果全部或几乎全部虚拟假设都是错误的,讨论一个估计值是否无异于它在虚拟假设下的预测值,都是无意义的。我们更想探明的是什么模型可充当良好的逼近式,这就需要知道被经验估计所排斥的参数值域。,51,回归分析与方差分析,对SST=SSR+SSE进行研究就叫做从回归的观点做方差分析(analysis of variance ANOVA) F检验:F检验主要用在多元回归问题中,对全部系数为0做检验,其对立假设为非全部系数同时为0,52,预测问题,均值预测与个值预测 置信带 报告回归分析的结果,53,过原点回归,考虑资产组合理论
19、中的特征线方程: 其中 为特定资产组合的收益率 为无风险收益率 为市场组合收益率 为特定资产组合的系统风险,54,课上作业,练习题:资产组合理论的资本市场线(CML)在期望收益率与总风险(由标准差来衡量)之间所设的一个线性关系如下:其中 为资产组合的期望收益率 为资产组合的标准差。下表给出1954-1963年间美国34个共同基金的期望收益率与标准差数据,请检验这些数据是否支持该理论(5%的显著性水平),55,回归模型的函数形式,1。对数线性模型(斜率系数测度了Y对X的弹性) 2。线性到对数模型(斜率系数测度了X的绝对改变量对应的Y的相对改变量,即增长模型) 3。对数到线性模型(斜率系数测度了X
20、的相对改变量对应的Y的绝对改变量),56,回归模型的函数形式,4.倒数模型(随着X无限地增大, (1/X)项趋于零,而Y趋于极限或渐近值 )在菲利普斯曲线中,工资变化对失业水平的反应中,存在有不对称性:当失业率低于经济学家所称的自然失业率时,由失业的单位变化引起的工资上升,要快于当失业率高于自然水平时,由失业的同样变化引起的工资下降。而常数项系数表示工资变化的渐近底限。,57,课上作业,恩格尔支出曲线把一个消费者在某一商品上的支出同他的总收入联系起来。令Y=对某一商品的消费支出,X=消费者收入,考虑上述5类所学模型,你会选择哪个(些)模型做恩格尔支出曲线,描绘其曲线图形,并作解释?(提示:解释
21、各种斜率系数,常数项系数),58,多变量回归模型,三变量模型的符号与假定:干扰项零均值无序列相关同方差性干扰项与每一X变量之间都有零协方差无设定偏误无多重共线性,59,多变量回归模型,多重共线性初探1、维恩Venn图2、不存在一组不全为零的数 和 ,使得,60,多变量回归模型,OLS估计量和估计量的方差、标准误 最小二乘拟合的一些性质:残差和为零,残差与解释变量X2和X3均不相关,61,多变量回归模型,OLS估计量的性质:1。三变量回归线通过Y、X2、X3的均值2。估计的Y的均值等于真实Y的均值3。残差和等于残差的均值4。残差与X2、X3,Y的估计值均不相关5。自变量X2和X3的相关系数朝着1
22、增大,估计系数的方差越大(同样也随 的增大而增大)6。在经典线性模型的假定下,可以证明偏回归系数的OLS估计量是BLUE,62,多变量回归模型,ML估计量:在总体干扰 遵循零均值和常数方差 的正态分布的假定下,ML估计量和OLS估计量是相等的,但 的ML估计量始终都是 而 的OLS估计量为,63,多变量回归模型,复判定系数R-square: Y的变异由变量X2和X3联合解释的比例,64,多变量回归模型,设定偏误初探:所用的回归模型是否是正确设定的?一个三变量回归的例子-期望扩充的菲利普斯曲线 a.假定三变量回归模型正确,检验错误设定的模型(原始菲利普斯曲线)b.错误模型的估计系数(X2对Y的总
23、影响=X2对Y的直接影响+X2对Y的间接影响,65,多变量回归模型,校正的 值原因: 值随着X变量个数的增加而增加 事实上,关于 的最重要的事情是,它在经典回归(CR)模型中是不重要的。CR模型是用来研究一个总体中的参数的,它不问在一个样本中拟合的好坏,如果人们坚持要有对预测成功有一个度量,那么有了标准误也许足够了,因为它对于适当取定的X值来说,对于参数估计来说,是富有信息的。,66,多变量回归模型,简单相关系数:r12(Y与X2之间的相关),r13(Y与X3之间的相关),r23(X2与X3之间的相关) 偏相关系数:r12.3(X3保持不变下的Y和X2的偏相关系数),r13.2(X2保持不变下
24、的Y和X3的偏相关系数),r23.1(Y保持不变下的X2和X3的偏相关系数) X3保持不变下的Y和X2的偏相关,就是从Y对X3回归和从X2对X3回归分别得到的残差之间的简单相关系数。,67,多变量回归模型,偏相关系数的一个例子:令Y=农作物收成;X2=雨量;X3=气温假定r12=0,即农作物收成和雨量没有关联再假定r13是正的,r23是负的,这时r12.3将是正的;就是说,在气温保持不变的情况下,收成和雨量有正的关联。,68,多变量回归模型,关于多项式回归模型:并不违反无多重共线性假定无需提出新的估计问题,69,多变量模型之时间变量,需要考虑有关时间变量的3种情况:1。发现应变量怎样在时间上变
25、动.2。常常用来代替一个影响着因变量的基本变量。(如生产函数中的技术常用时间来代替)3。引进时间变量以避免谬误相关,70,课堂练习,用回归模型研究过去几年的个人消费支出的行为,数据见EXCEL表格,要求去除时间因素对个人消费支出和个人可支配收入的影响,71,多变量回归的假设检验,如果我们仅是对回归模型的参数作点估计,那么并不需要有关干扰项概率分布的任何假定,而如果涉及到假设检验,则要假定干扰项服从某个概率分布。,72,多变量回归的假设检验总论,1。检验关于个别偏回归系数的假设(t检验) 2。检验所估计的多变量回归模型的总显著性(F检验) 3。检验两个或多个系数是否相等(t检验) 4。检验诸回归
26、系数是否满足某种线性约束条件(t检验) 5。检验所估计的回归模型在时间上或在不同横截面单元上的稳定性(邹检验) 6。检验回归模型的函数形式,73,邹至庄检验的过程,邹检验基本假定:第1、2个方程的干扰项独立同正态分布,即均值都为0,方差都为 1。合并全部n1和n2次观测值,用以估计第3个方程并获得它的SSE,记作s1,其自由度为(n1+n2-k),其中k为所估参数的个数(包括截距项) 2。分别估计第1、2个方程并获得它们的SSE,分别记作s2和s3,其自由度分别为(n1-k)和(n2-k)。记s4=s2+s3,其自由度为(n1+n2-2k),74,邹至庄检验的过程,3。求出s5=s1-s4 4
27、。在邹检验的基本假定下,可证明F值遵循自由度为(k,n1+n2-2k)的F分布 5。如果F值大于选定显著性水平的临界F值,则拒绝结构稳定性假设。,75,邹至庄检验的直观理解,直观上,如果两个时期的回归方程并无结构上的区别,则两个时期的回归方程的残差平方和之和应该和整个时期的回归方程的残差平方和相等,而如果两者相差很大,则我们可以构造F检验来检验结构的差异,76,检验回归的函数形式,MWD检验(麦金农,怀特,戴维森):在线性与对数线性回归模型之间进行选择步骤1:估计线性模型并获得Y的估计值,记为Yf步骤2:估计对数线性模型并获得lnY的估计值,记为lnf步骤3:算出Z1=(lnYf-lnf)步骤
28、4:做Y对诸X和得自步骤3的Z1的回归。如果按通常的t检验Z1的系数是统计上显著的,就拒绝H0(H0:线性模型是合适的),77,多变量回归的其他问题,用多变量回归做预测 假设检验三联体:似然比(LR),瓦尔德(Wald,简记W)与拉格朗日(Lagrange)乘数(LM)检验只在非线性回归模型或大样本环境下有更高的效率 麦金农,戴维森语:对于线性回归模型,不管它的误差是或不是正态分布的,当然都不需要过问LM,W和LR,因为我们不能从这些统计量得到任何不为F所含的信息,78,线性模型的矩阵表示,79,线性模型的矩阵表示,80,回归模型假定的矩阵表示,81,干扰项的方差协方差矩阵,82,最小二乘法的
29、矩阵表示,83,放宽经典模型的假定,全部11个假定: 假定1:回归模型对参数而言是线性的假定2:诸回归元X的值在重复抽样中是固定的假定3:对给定的X,干扰项的均值为零假定4:对给定的X,干扰项的方差不变或有同方差性假定5:对给定的X,干扰项无自相关,84,放宽经典模型的假定,假定6:如果X是随机的,则干扰项与诸X是独立的或至少是不相关的。假定7:观测次数必定大于回归元的个数假定8:回归元的取值必须有足够的变异性假定9:回归模型是正确设定的假定10:回归元之间无准确的线性关系假定11:随机(干扰)项是正态分布的,85,应用经典线性模型的主要问题,第1类:关于对模型设定和对干扰项的假定问题(1、2
30、、3、4、5、9和11) 第2类:对数据的假定问题(6、7、8和10),此外,异常值(outliers)问题和测量误差等也可归属此类。,86,不去深究的某些假定的原因,假定1:对参数为线性的回归模型原因1:对参数为线性的模型,应用于许多经验现象中是相当成功的;原因2:有时这种模型是更为复杂的非线性回归模型的初次近似,87,不去深究的某些假定的原因,假定2和6:固定的回归元和随机的回归元原因1:经济学不同其他实验科学,经济学更多依赖于第二手材料(如政府或私人机构收集的数据),因此,即使变量本身实质上也许是随机的,我们也假定变量值是固定的;原因2:因为干扰项是随机的,而如果X也是随机的,则我们必须
31、明确X的分布和干扰项的分布是独立的,才不致改变OLS的优良性质与估计的可行性,88,不去深究的某些假定的原因,假定3:干扰项的零均值原因:干扰项的其他均值会导致截距项估计的有偏性 假定11:干扰项的正态性做假设检验时在大样本和正态性之间的取舍,也就是说,如果正态性得不到满足,那么则要求有大的样本支持。原因:中心极限定理(如果干扰项是独立同分布的,并有零均值和不变方差,而X是非随机的,则OLS系数估计量是渐近正态分布的,且无偏,也就是说t和F检验仍渐近有效),89,多重共线性与微数缺测性(micronumerosity),严格地说,多重共线性即指存在有1个以上的准确线性关系;而共线性是指存在1个
32、线性关系;但在实践中很少区分。 完全共线性: 其中为常数,但不同时为0欠完全共线性:其中为常数,但不同时为0 为随机误差项,90,多重共线性与微数缺测性,如果多重共线性是完全的,那么诸X变量的回归系数是不确定的,并且它们的标准误为无穷大;如果多重共线性是欠完全的,那么,虽然回归系数可以确定,却有较大的标准误(相对于系数本身来说),意思是系数不能以很高的精确或准确度来估计 微数缺测性问题即指假定7观测次数必须大于回归元个数的问题,和假定8回归元的取值必须有足够的变异都是对多重共线性假定的补充。,91,多重共线性的来源,1。数据采集所用的方法。例如,抽样限于总体中诸回归元所取值的一个有限制的范围内
33、。 2。模型或从中取样的总体受到约束。 3。模型设定。例如当X变量的变化范围较小时在回归中添加多项式项, 。 4。一个过度决定的模型。这种情况出现在模型的回归元个数大于观测次数时。,92,存在多重共线性问题时的估计,多变量回归模型的偏回归系数要求其它变量保持不变,而完全共线性注定了变量之间的共变性,因此带来破坏性的后果,93,(近似)多重共线性的后果,1。虽然OLS估计量BLUE,但有大的方差和协方差,故难以作出精确的估计 2。由于后果1,置信区间将要宽得多,以致的不拒绝“零虚拟假设”更为容易 3。仍由于后果1,1个或多个系统的t比率倾向于统计上不显著 4。虽然1或多个系数在统计意义上不显著,
34、总的拟合优度仍非常高 5。OLS估计量及其标准误对数据的小小变化也会是敏感的。,94,多重共线性的侦察,克曼塔(Kmenta)的忠告:1。多重共线性是一个程度问题而不是有无的问题2。由于多重共线性是对被假定为非随机的解释变量的情况而言的,所以这是一种样本而非总体特征。,95,多重共线性的侦察,出现多重共线性的一些规则可供参考:1。R平方值高而显著的t比率少2。回归元之间有高度的两两相关,但在多变量模型中,简单相关系数只是多重共线性存在的充分而非必要条件3。检查偏相关(一种辅助手段),96,多重共线性的侦察,4。特征值(eigenvalues,自变量的交叉乘积矩阵XX)和病态指数(conditi
35、on index)如果CI在10与30之间,就算有中强度的多重共线性,而如果CI在30之上,就算有严重多重共线性 5。方差膨胀因子VIF,当VIF超过10时,我们说该变量是高度共线的,97,多重共线性的补救措施,1。先验信息,即用先验信息去替换有共线性的变量;先验信息来自先前遇到的同样共线问题的经验研究工作,或者来自该研究领域的有关基础理论 2。剔除变量但要注意设定偏误问题,有时医治也许比疾病糟糕 3。变量代换(一次差分形式),98,多重共线性的补救措施,4。补充新数据换一个样本或是增加新数据一般能减轻多重共线性的症状 5。其他方法,如因子分析法、脊回归法,99,思考题,考虑以下模型:其中Y消
36、费,X收入,t=时间。上述模型假定了时间t的消费支出不仅是时间t的收入,而且是以前多期的收入的函数。这类模型叫做分布滞后模型(distributed lag models)1。你预期在这类模型中有多重共线性吗?为什么?.2。如果预期有多重共线性,你会怎样解决这个问题?,100,异方差性,异方差性的性质:假定4指明给定自变量的干扰项的方差是一个常数,即同方差性(homoscedasticity),意谓等同的(homo)分散程度(scedasticity),但如果方差不等,即为异方差性问题。(见收入、储蓄例),101,异方差性的来源,1。按照边错边改学习模型(error learning mode
37、ls),人们在学习的过程中,其行为误差随时间而减少) 2。随着收入的增长,人们有更多的备用收入(discretionary income),从而如何支配他们的收入有更大的选择范围。类比利润较丰厚的公司在分红政策方面比利润微薄的公司有更大的变化。,102,异方差性的来源,3。数据采集技术的改进 4。异方差性还可能因为异常值的出现而产生 5。异方差的另一来源是回归模型设定的不正确性(如在商品的需求函数中,没有把有关互补或互替的商品价格包括进来),103,出现异方差时的估计,当异方差出现时,系数仍是线性和无偏的,但不再是最优的 广义最小二乘法(GLS):先将原始变量转换成满足经典模型假设的转换变量,
38、然后对它们使用OLS程序,这样求得的估计量是BLUE的 加权最小二乘法(WLS)是GLS的一个特例,104,异方差的危害,如果我们忽视异方差性而一味使用惯常的检验程序,则无论我们得出什么结论或作出什么推断,都可能产生严重的误导,105,异方差的侦察,和多重共线性类似,并不存在有侦察异方差性的严明的法则,只有少数经验法则可供参考。在大多数计量经济调查研究中,异方差性不过是一种直觉,先前经验或纯粹的猜想。(因为我们通常只能得到Y的样本数据),106,异方差的侦察,非正式方法:1。问题的性质:在涉及不均匀(heterogeneous)单元的横截面数据中,异方差性可能是一种常规而非例外(如研究一些财务
39、指标时,样本包括大、中、小厂家)2。图解法:在无异方差性的假定下做回归分析,然后对残差平方做图,看这些残差平方是否呈现任何系统性的样式。(如横轴是Y的估计值,纵轴是残差平方,即残差图),107,异方差的侦察,正式方法:1。帕克检验:提出是解释变量X的某个函数从而把图解法公式化。2。格莱泽(Glejser)检验:原理上类似帕克检验。3。斯皮尔曼(Spearman)的等级相关检验:从排序的角度来定义残差与X之间的相关性。,108,异方差的侦察,4。戈德菲尔德匡特检验(适用于和回归模型中解释变量之一有正向关系的情形)步骤1:从最小X值开始,按X值的大小顺序将观测值排列步骤2:略去居中的C个观测值,其
40、中C是预定的,并将其余(n-c)个观测值分成两组,每组(n-c)/2个步骤3:分别对前后两段回归,得RSS1和RSS2步骤4:计算比率:F(RSS2/df)/(RSS1/df) 如果F值大于选定显著性水平的临界F值,则拒绝同方差性假设。,109,异方差的侦察,戈德菲尔德匡特检验说明:1。略去居中的C个观测值是为了突出或激化小方差组和大方差组之间的差异.2。当样本大小为60时,C约为163。求得的F值服从分子和分母自由度各为(n-c-2k)/2的F分布,其中k是包含截距项在内的待估参数的个数。4。要求按照被认定为引起异方差性的X变量把观测值重新排序。,110,异方差的侦察,怀特(White)的一
41、般异方差检验步骤1:对给定的数据,估计并获得残差步骤2:做如下辅助回归:步骤3:在无异方差性的虚拟假设下,可以证明,步骤4:如果算得的值超过选定显著性水平的临界值,结论就是有异方差性,111,异方差的侦察,怀特检验的原理在于检验辅助方程中的残差项与诸X及其交叉乘积项之间是否有显著的线性关系,或相关关系。,112,异方差的补救措施,1。当已知时,用加权最小二乘法 2。当未知时,列出怀特程序(White option)估计量,更专门化的名词是异方差性相一致协方差矩阵估计量(heteroscedasticity-consistent covariance matrix estimators或简记为H
42、CCME)但要注意这仅限于大样本的前提下,113,异方差的补救措施,3。异方差性假定下的变量变换假定1:误差方差正比于假定2:误差方差正比于假定3:误差方差正比于Y均值的平方 4。对数变换,114,自相关,自相关可定义为按时间(时间序列数据如季度产出)或空间(横截面数据如家庭消费支出)排序的观测值序列的成员之间的相关。即违反干扰项之间无自相关的假设。(从回归模型的因变量角度) 自相关(autocorrelation)与序列相关(serial correlation)的区别:变量本身与不同变量的区别,115,自相关的来源,1。惯性,特别是一些宏观经济指标,如GNP、价格指数等 2。设定偏误:应含
43、而未含变量的情形,如替代商品价格;不正确的函数形式,如产出成本方程中未包括产出二次项 3。蛛网模型(农产品供给) 4。滞后效应(消费习惯) 5。“编造”的数据,如季度数据由月度数据求平均而成,这样使数据更平滑而显自相关。(内插与外推等数据揉合技术),116,自相关出现时的估计,首先必须清楚各种干扰项的发生机制:一阶自回归模型AR(1) 一阶移动平均MA(1)自回归与移动平均过程ARMA(1,1),117,自相关出现时的估计,在存在自相关时,用OLS法估计出来的参数虽然仍是线性和无偏的,但不再有效,与异方差问题类似,可以用GLS求得BLUE的估计参数。,118,自相关问题的后果,1。回归模型低估
44、了真实的干扰项方差 2。因此很可能高估了R平方 3。因此,置信区间变得更宽了 3。由此,通常的t和F等显著性检验都变成无效的了。,119,侦察自相关1,残差图:1。用残差(或标准化残差)对时间描点2。用残差对滞后一期的残差描点,是对AR(1)假设的一种检验(如对工资的回归模型),120,侦察自相关2,游程检验又称吉尔里(Geary检验),是对残差序列是否具有系统性样式的统计检验过程。 在残差独立的虚拟假设下,并当n1(正值的残差)10,n2(负值的残差)10的条件下,游程个数(k)将遵循正态分布。 决策规则:在95%的置信度下,k落在,就不要拒绝随机性假设。,121,侦察自相关3,德宾沃森检验
45、,又称DW检验,侦察自相关的最普遍应用的检验方法,其特点在于它仅依赖于残差值。 D-W检验的基本假定:1。回归含有截距项,X非随机或在重复抽样中固定2。干扰项是按一阶自回归模型产生的3。回归模型不把滞后因变量当作解释变量4。没有缺失数据,122,侦察自相关3,D-W检验:步骤1:做OLS回归并取残差步骤2:计算d步骤3:对给定样本大小和给定的解释变量个数找出临界 和值。步骤4:比对决策规则,123,自相关的补救措施,GLS法,124,ARCH,ARCH指回归模型t时刻的干扰项的方差依赖于t-1时刻的干扰项平方,即依赖于 在涉及金融数据,如股票价格、通货膨胀率、外汇汇率等金融时间序列预测的研究工
46、作时,经常用到ARCH模型,因为研究人员发现他们对这些金融变量的预测能力随时期的不同而有相当大的变化。 当出现ARCH时应用GLS法进行估计,125,设定偏误,设定偏误的类型:1。漏掉一个有关变量2。包含一个无需变量3。采用错误函数形式4。测量误差,126,设定偏误的后果,1。略去有关变量,则估计系数有偏误且非一致,系数方差将增大,误差方差将不正确 2。加入多余变量,则估计系数仍无偏且一致,系数方差正确,但是误差方差将不正确,127,设定偏误的检验,1。残差图分析 2。再次使用D-W统计量步骤1:从原回归方程求得OLS残差步骤2:按遗漏的解释变量Z的递增次序对残差排序步骤3:从这样排列的残差计
47、算d步骤4:比对D-W表,如果d值显示有相关性,则模型设定偏误,128,残差图分析,129,有关测量误差的两点说明,如果因变量有测量误差,则OLS估计量是无偏的,且有一致性,但效率较低。 如果自变量有测量误差,则OLS估计量是有偏误的,而且非一致,130,正确设定模型的6种途径,1。理论+约束 2。代理变量 3。假设检验 4。简化 5。数据选择 6。数据后模型构建,131,在模型之间进行选择,1。嵌套模型,如B被嵌套在A中(检验系数是否为零) 2。非嵌套模型判别方法(根据某些拟合优度准则,如R平方、AIC准则等)辨识方法(把供选择的非嵌套模型组合成一个嵌套模型再做检验),132,利用兼容性准则
48、对模型进行选择,戴维森-麦金农J检验步骤1:估计模型D并得到Y的估计值步骤2:将步骤1中得到的Y的估计值作为自变量加入到模型C中步骤3:对步骤2中的Y的估计值系数做t检验,如果不拒绝零假设,则D模型不含有足以改进模型C的任何额外信息,故模型C兼容了模型D步骤4:上述过程C和D对调,再做检验,133,关于虚拟变量的回归,对一个定量变量和一个两分类定性变量的回归;被赋予零值的那个类别被喻为基底(base)、基准(benchmark)、对照(control)、对比(comparison)、参考(reference)或省略(omitted)类,虚拟变量的系数可称为级差截距系数(differential
49、 intercept coefficient),它告诉我们取值为1的类别和取值为0的截距值的差别。 如果一个定性变量有m个类别,则仅引入m-1个虚拟变量,未引入的类别由基底来表示。,134,用虚拟变量比较两个回归,储蓄-收入例 用虚拟变量法比较两个回归不仅能用一个步骤进行比较,还能检查两个回归模型的区别细节(级差截距、级差斜率系数分别表示截距和斜率与原方程相差多少) 衣着开支-性别和教育交叉乘积选项的应用,135,虚拟变量回归,季节调整(消费者价格指数、批发价格指数、工业生产指数等都以季节调整的形式出现),虚拟变量是季节调整的一种方法。 销售额-奖金分段线性回归(样条函数spline func
50、tion)门槛值、结点、阀值,136,虚拟应变量的回归,线性概率模型(LPM):因变量的值是定性变量,回归模型仍是线性 LPM模型的干扰项的非正态性。(评:如果仅是做点估计或在大样本的前提下,则此点可不计) Y的期望值应该在0到1之间 决定系数显示出较少信息 概率值随X的增加而线性增加的性质与事实不符,137,对数单位(logit)模型,1。随着P从0到1(Z从负无穷到正无穷),对数单位L从负无穷到正无穷 2。虽然L对X为线性,但概率本身是非线性的 3。斜率系数显示自变量的单位变化所引起的对数机会比率是怎样变化的 4。一旦估计出斜率系数,可以直接求出概率值,138,对数单位(logit)模型的
51、估计,加权最小二乘法对logit模型进行估计 斜率系数的反对数减去1再乘以100%可得自变量每增加1单位的机会比率的百分比变化 给出自变量每单位变化所引起的概率本身的变化,注意到概率的变化不仅跟斜率系数有关,同时也跟概率值本身有关 可以用最大似然法对logit模型进行估计,139,概率单位(probit)模型,以正态CDF来对虚拟应变量进行估计的模型为概率单位模型(probit model),又称为正态单位模型(normit model) 因为每当P小于0.5时, 将是负数,所以在实践中把数值5加到 ,其结果称为概率单位,140,托比模型,一个仅对某些观测有因变量的信息的样本叫截取样本(cen
52、sored sample),对这类样本的回归叫托比模型,又称截取回归模型或限值应变量模型(limited dependent variable models),一个典型例子是研究门票的需求量,当门票售完时,你所得到的因变量只是售出的数量而非实际的需求量 与truncated sample(某些自变量的值被删减,如低于某收入水平)的区别,141,托比模型的估计,用最大似然法对托比模型进行估计,142,动态模型之分布滞后,分布滞后模型:回归模型不仅含有解释变量的当前值,还含有它们的滞后值,是因为解释变量对因变量的影响是个持续的过程,需要多个时期才能完全展开其影响。相关的例子如:永久收入对消费的影响
53、;银行的货币创造;R&D支出对生产力的影响; 无限滞后分布模型和有限滞后分布模型,143,滞后的原因,心理上的原因 技术上的原因 制度上的原因,144,分布滞后模型的估计,1、现式估计法(阿尔特和丁伯根):逐步引入滞后变量进行回归,直到回归系数符号不稳定或符号难以解释。 2、考伊克方法(从一个分布滞后模型开始,却以一个自回归模型告终),145,分布滞后模型的应用,中位滞后从中位数的角度反映解释变量对因变量的影响平均需要多长时间。 平均滞后从平均数的角度反映解释变量对因变量的影响平均需要多长时间。 适应性期望模型 存量调整模型 适应性期望和存量调整模型的组合(永久收入假说),146,动态模型之自
54、回归,自回归模型(动态模型):回归模型含有因变量的一个或多个滞后值 自回归模型的估计问题:随机解释变量的出现以及序列相关的可能性。 用工具变量法对自回归模型进行估计。工具变量法即找一个与t-1期的Y值高度相关但与t期的V值不相关的变量作为t-1期的Y值的替代变量,然后再作回归称为工具变量法。利维亚坦建议用t-1期的X值作为工具变量,147,在自回归模型中侦察自相关,基于大样本的德宾h检验 决策规则:1、如果h1.96,则拒绝无正的一阶自相关的虚拟假设2、如果h1.96,则拒绝无负的一阶自相关的虚拟假设3、如果h落在-1.96与1.96之间,则不拒绝无一阶(正或负)自相关的虚拟假设,148,阿尔
55、蒙方法,多项式分布滞后模型(PDL) 多项式的次数应至少比联系着i和贝塔的曲线的转向点个数大1,149,葛兰杰检验,自回归模型的推广应用 独立、单向因果关系、反馈因果关系,150,联立方程模型,自变量与因变量互相影响、互相依赖的情况,如需求供给模型、简单的凯恩斯收入决定模型、工资价格模型。 与单一方程模型相比,联立方程模型涉及多于一个应变量,从而有多少个应变量就有多少个方程,另一个特点是一个方程中的应变量作为另一个方程的解释变量,结果是这样的内生解释变量变成了随机的,而且常常和误差项有相关关系,这样导致 OLS估计量的非一致性(证明),151,识别问题,给定P和Q,我们到底是在估计需求函数还是供给函数,这就是识别问题需求函数:供给函数:,152,内生变量还是前定变量,内生变量:其值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度软件开发支持服务协议样本
- 2024室内装修全包工程协议样本
- 高校学生管理整改方案
- 纺织品物理性能检测方案
- 2024年个人汽车贷款购买协议样本
- 2024年会计人员劳动协议范本
- 2024房地产市场产权移交协议
- 企业专项经费审计管理方案
- 车辆租赁购入协议范本2024年
- 劳动力合作协议
- 函数的图象及变换省公开课获奖课件说课比赛一等奖课件
- 2020-2021学年河南省洛阳市高一上学期期中考试化学试题
- 四年级上册语文第六单元任务群教学设计
- 肥胖症诊疗指南(2024年版)
- 《高血压科普知识》课件
- 等级评审护理汇报
- 《建筑工程设计文件编制深度规定》(2022年版)
- 心理咨询中知情同意的伦理困境与解决途径
- 山地光伏除草施工方案
- MapGIS国土资源云平台解决方案
- 花源镇中心幼儿园第三届现代课堂教学大赛活动实施方案
评论
0/150
提交评论