版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE1PAGE29经济学参考书目:高鸿业,《西方经济学:微观部分(第三版)--21世纪经济学系列教材》,《西方经济学:宏观部分(第三版)--21世纪经济学系列教材》,中国人民大学出版社,2005年1月。《西方经济学学习与教学手册(21世纪经济学系列教材)》,中国人民大学出版社,2005年6月。\o"搜索\"高鸿业\"的图书"高鸿业\o"搜索\"刘凤良\"的图书"、刘凤良,《20世纪西方经济学的发展》,商务印书馆,2004年4月尹伯成,《西方经济学简明教程(第5版)》,世纪出版集团、上海人民出版社,2006年3月。4、伍柏麟、尹伯成,《经济学基础教程--复旦博学·经济学系列》,复旦大学出版社,2002年3月。5、\o"搜索\"姚开建\"的图书"姚开建\o"搜索\"梁小明\"的图书"、梁小明,《西方经济学名著导读--经济学经典著作读丛书》,中国经济出版社,2005年1月。6、\o"搜索\"梁小民\"的图书"梁小民,《西方经济学教程(修订版)》,中国统计出版社,2005年12月。7、方福前,《当代西方经济学主要流派》,中国人民大学出版社,2004年12月。8、\o"搜索\"王志伟\"的图书"王志伟,《现代西方经济学主要思潮及流派》,高等教育出版社,2004年9月。数学参考书目:9、赵萍,《经济数学基础及应用线性代数及概率论》,哈尔滨工业大学出版社,2006年10月。10、李尚志,《线性代数》,高等教育出版社,2006年5月。11、卢刚,《线性代数》,北京大学出版社,2006年。12、陈维新,《线性代数(第2版)》,北京科学出版社,2006年。13、冉兆平,《微积分》,上海财经大学出版社,2006年。14、田长生,《概率统计与微积分》,北京科学出版社,2006年。15、李林曙,《微积分》,中国人民大学出版社,2006年。16、王雪标、王拉娣、聂高辉,《微积分》,高等教育出版社,2006年。17、马恩林,《概率论与数理统计》,人民教育出版社,2006年。18、吴赣昌,《概率论与数理统计》,中国人民大学出版社,2006年。19、葛余博等著,《概率论与数理统计通用辅导讲义》,清华大学出版社,2006年。统计学参考书目:20、邢哲,《统计学原理》,中国金融出版社,2006年8月。21、李荣平,《统计学》,天津大学出版社,2006年。22、吴梅村,《数理统计学基本原理和方法》,西南财经大学出版社,2006年。23、曾五一,《统计学》,中国金融出版社,2006年。24、(美)A.M.穆德、F.A.格雷比尔著、史定华译,《统计学导论》,北京科学出版社,1978年。补充材料一、随机变量及其数字特征随机变量及其分布的研究是以事件及其概率的研究为基础展开的。它是统计推断的理论基础。随机变量定义:按一定的概率取不同实数值的变量称为随机变量,用x,y等表示。如(1)天津站每日的客流人数。(2)某商场日销售电视机台数。(3)某储蓄所的日存款余额。(4)某地区居民的日用水量。(5)高速公路上单位时间内通过的机动车数量。(6)流水线上生产的罐装啤酒的净重值。若随机变量x可能取的值为有限个或可列个,则称x为离散型随机变量。若随机变量x可能取的值是整个数轴,或数轴上的某个区间,则称x为连续型随机变量。连续型随机变量的概率分布是通过随机变量在一切可能区域内取值的概率定义的。最常用和最简便的形式是通过概率密度函数表示。对于随机变量x,若存在非负可积函数f(x),(-<x<),使对任意实数a,b,(a<b)有P{axb}=则称x为连续型随机变量。f(x)为x的概率密度函数(简称概率密度或密度)。由上式知f(x)在[a,b]区间上的积分等于随机变量x在[a,b]区间取值的概率。研究经济问题为什么还要学习随机变量?因为许多经济问题都符合随机变量的要求。通过随机变量把经济问题上升到统计理论高度进行研究,有利于找到经济变量变化的一般规律。1.1随机变量的数学期望对于离散型随机变量x,若有概率分布P{x=xi}=pi,(i=1,2,…,)则称xipi为x的数学期望,简称为期望或均值。记作E(x)。对于连续型随机变量x,若密度函数为f(x),则称为x的数学期望。记作E(x)。期望属于位置特征。用来描述随机变量取值的集中位置。体现了随机变量取值的平均大小。期望就是随机变量取一切可能值的加权平均。其中的权数就是概率值。数学期望的性质如下:(1)常量的期望就是这个常量本身。E(k)=k(2)常量与随机变量和的期望等于这个随机变量的期望与这个常量的和。E(x+k)=E(x)+k(3)常量与随机变量乘积的期望等于这个常量与随机变量期望的乘积。E(kx)=kE(x)(4)随机变量的线性函数的期望等于这个随机变量期望的同一线性函数。E(kx+c)=kE(x)+c(5)两个随机变量和(或差)的期望等于这两个随机变量期望的和(或差)。E(xy)=E(x)E(y)(6)两个相互独立随机变量乘积的期望等于这两个随机变量期望的乘积。E(xy)=E(x)E(y)例:5个学生的英语考试分数是80,70,85,90,82。则平均考试分数E(x)==81.41.2随机变量的方差、标准差随机变量x对其均值的离差平方的数学期望,E[x-E(x)]2称作随机变量x的方差。记作Var(x)。则称作x的标准差。方差和标准差用来描述随机变量的离散特征。它们反映了随机变量取值离散程度的大小。对于离散型随机变量x,方差的定义是Var(x)=xi-E(x))2pi其中pi表示x取xi值时的概率。对于连续型随机变量x,方差的定义是Var(x)=x-E(x)]2f(x)dx其中f(x)是x的概率密度函数。注意:(1)Var(x)的量纲是x的量纲的平方。(2)的量纲与x的量纲相同。随机变量方差的性质:(1)常量的方差为零。Var(k)=0(2)随机变量与常量之和的方差等于这个随机变量的方差。Var(x+k)=Var(x)其中x为随机变量,k为常量。(3)常量与随机变量乘积的方差等于这个常量的平方与随机变量方差的乘积。Var(kx)=k2Var(x)其中k为常量。证明:由方差定义Var(kx)=E[kx-E(kx)]2=E[kx-kE(x)]2=k2E[x-E(x)]2=k2Var(x)(4)随机变量的方差等于这个随机变量平方的期望减其期望的平方。Var(x)=E(x2)–[E(x)]2证明:由方差定义Var(x)=E[x-E(x)]2=E[x2–2xE(x)+[E(x)]2]=E(x2)–2E(x)E(x)+(E(x))2=E(x2)–(E(x))2(5)两个相互独立随机变量之和(或差)的方差等于这两个随机变量方差的和。Var(xy)=Var(x)+Var(y)下面证明随机变量之差情形。证明:由方差定义Var(x-y)=E[(x-y)–E(x-y)]2=E[x-y–E(x)-E(y)]2=E[(x–E(x))-(y-E(y))]2=E[(x–E(x))2+(y-E(y))2–2(x–E(x))(y-E(y))]=Var(x)+Var(y)–2E[(x–E(x))(y-E(y))]其中E(x–E(x))(y-E(y))是随机变量x与y的协方差。因为x与y相互独立,所以E[(x–E(x))(y-E(y))]=0(见下面第3小节,随机变量的协方差)。上式的结果是Var(x-y)=Var(x)+Var(y)注意:两个相互独立随机变量差的方差不等于这两个随机变量方差的差。(6)由性质(5)有如下结论:若两个随机变量是相互非独立的,其和与差的方差公式是,Var(x+y)=Var(x)+Var(y)+2Cov(x,y)Var(x-y)=Var(x)+Var(y)-2Cov(x,y)其中Cov(x,y)表示x与y的协方差(协方差概念见下)。1.3随机变量的协方差协方差定义:随机变量x,y分别对其均值的离差乘积的数学期望E[(x-E(x))(y-E(y))]称作随机变量x,y的协方差,记作Cov(x,y)。其中E(x),E(y)分别表示x,y的期望。协方差用来描述两个随机变量关系的紧密程度。对于离散型随机变量x,y,协方差定义为Cov(x,y)=xi-E(x))(yj-E(y))p(xi,yj)其中p(xi,yj)=P(x=xi,y=yj)表示x=xi,y=yj条件下的概率。上式是协偏差[xi-E(x)][yj-E(y)]的加权平均。对于连续型随机变量x,y,协方差定义为Cov(x,y)=x-E(x))(y-E(y))p(x,y)dxdy其中p(x,y)是x,y的概率密度函数。当x,y相互独立时,Cov(x,y)=0。协方差的大小与x,y的量纲有关。一般来说,改变x,y的量纲,则x,y协方差的值也要改变。因此协方差所提供的主要信息是正值、负值还是零。注意:虽然两个变量相互独立,意味着协方差为零,但反过来不一定成立,即协方差为零,该两个变量未必独立(但肯定不存在线性相关)。二、正态分布2.1正态分布与标准正态分布正态分布定义:若连续型随机变量x的概率密度函数为f(x)=exp(-)其中,为常量,>0,则称x服从正态分布。记作xN(,2)。,分别是x的数学期望和标准差。可以证明E(x)=xf(x)dx=xexp(-)dx=Var(x)=(x-)2f(x)dx=(x-)2exp(-)dx=2=三种不同参数的正态分布曲线见图1。概率密度函数f(x)呈钟形。最大值点在x=处。曲线以x=对称。在x=处密度函数曲线有拐点。当x时,f(x)以x轴为渐近线。当较大时,f(x)曲线较平缓;当较小时,f(x)曲线较陡峭。已知和的值,就可以完全确定正态分布密度函数。对某产品的物理量测量常服从于正态分布。标准正态分布定义:对于正态分布密度函数f(x),当=0,=1时,即f0(x)=exp(-)称连续型随机变量x服从标准正态分布。记作xN(0,1)。对于标准正态分布E(x)=0,Var(x)==1。标准正态分布曲线见图2。标准正态分布密度函数f0(x)有如下性质:(1)f0(x)以纵轴对称;(2)x=0时,f0(x)的极大值是1/=0.3989;(3)f0(x)在x=1处有两个拐点;(4)f0(x)=0。N(0,1)N(3,1.5)N(2,1)N(1,0.5)N(0,1)N(3,1.5)N(2,1)N(1,0.5)图1正态分布曲线图2标准正态分布曲线正态分布随机变量的标准化。若xN(,2),a,b为任意实数,且a<b,则P{axb}=exp(-)dx设Z=(x-)/,则(参见微积分中换元积分法)P{axb}=P{Z}=exp(-)dZ显然Z是一个服从标准正态分布的随机变量。当xN(,2)时,则Z=N(0,1)可见对一般正态分布随机变量x做变换Z=(x-)/,则可以把x转化为服从标准正态分布的随机变量Z。对一般正态分布随机变量x计算概率非常不方便。通过标准化变换,利用标准正态分布累计概率表,则很容易计算出x取任意两个值之间的概率。正态分布的线性性质:①若xiN(i,i2),(i=1,2,…,n),且相互独立,则N(,)②若xiN(i,i2),(i=1,2,…,n)且相互独立,ai0为常数,则aixiN(aii,ai2i2)一元线性回归模型对于经济变量之间的关系,一般分为两类:一类是变量之间存在确定的函数关系。例如某企业t时期的销售收入yt等于产品价格p与销售量xt的乘积,用数学表达式表示为:yt=pxt另一类是变量之间存在着非确定的依赖关系。例如某家庭的收入和支出之间的关系,一般来讲,家庭收入越多,支出也相应越多。但是由于各种不确定的因素,使得不同时间内同样的收入会有不同的支出。这就造成了收入和支出之间关系的不确定性,因而不能给出类似于函数的精确表达式。用ut表示其他影响因素,将这两个变量间非确定的依赖关系表示成下列形式:yt=f(xt)+ut为了分析和利用变量之间非确定的依赖关系,人们建立了各种统计分析方法,其中回归分析是最常用的经典方法之一。需要注意的是,回归分析是用来处理一个被解释变量(因变量)与另一个解释变量(自变量)之间的关系,但它并不一定表明因果关系的存在;也就是说,它并不意味着自变量是原因,而因变量是结果。两个变量是否存在因果关系,必须以(经济)理论为判定基础,正如前面讲到的需求法则,它表明:当所有其他变量保持不变时,一种商品的需求量依赖于(反向)该商品的价格。这里,微观经济理论暗示了价格是原因,而需求量是结果。总之,回归并不意味着存在因果关系,因果关系的判定或推断必须依据经过实践检验的相关理论。1.一元线性回归模型有一元线性回归模型(统计模型)如下, yt=0+1xt+ut上式表示变量yt和xt之间的真实关系。其中yt称被解释变量(因变量),xt称解释变量(自变量),ut称随机误差项,0称常数项,1称回归系数(通常未知)。上面的模型可以分为两部分。(1)回归函数部分,E(yt)=0+1xt,(2)随机部分,ut。图2.1真实的回归直线这种模型可以赋予各种实际意义,收入与支出的关系;如脉搏与血压的关系;商品价格与供给量的关系;文件容量与保存时间的关系;林区木材采伐量与木材剩余物的关系;身高与体重的关系等。以收入与支出的关系为例。假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。但实际上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。随机误差项ut中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。所以在经济问题上“控制其他因素不变”是不可能的。回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略(在需求的例子中,如消费者收入、同类竞争产品的价格等因素),(2)人们的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等(数据统计)。所以为了把上述产生的误差考虑在内,在计量经济模型中引进了随机变量ut,认为它对假定存在于x和y之间的精确线性关系进行扰动。回归模型存在两个特点。(1)建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现所研究的经济过程。(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。通常线性回归函数E(yt)=0+1xt是观察不到的,利用样本得到的只是对E(yt)=0+1xt的估计,即对0和1的估计。在对回归函数进行估计之前应该对随机误差项ut做出如下假定。(1)ut是一个随机变量,ut的取值服从概率分布。(2)E(ut)=0。该假定表明:平均地看,随机扰动项对yt没有任何影响,也就是说,正值与负值相互抵消。(3)D(ut)=E[ut-E(ut)]2=E(ut)2=2。称ui具有同方差性。该假定表示,每个y值以相同的方差分布在其均值周围。这是由于x值是给定的或是非随机的,因此,y中唯一变化的部分来自于u。因此,在给定x值的条件下,ut与yt同方差。(4)ut为正态分布(根据中心极限定理)。以上四个假定可作如下表达。utN(0,)。(5)Cov(ui,uj)=E[(ui-E(ui))(uj-E(uj))]=E(ui,uj)=0,(ij)。含义是不同观测值所对应的随机项相互独立。称为ui的非自相关性。该假定表明ui是随机的。(6)xi是非随机的。(7)Cov(ui,xi)=E[(ui-E(ui))(xi-E(xi))]=E[ui(xi-E(xi)]=E[uixi-uiE(xi)]=E(uixi)=0.ui与xi相互独立。否则,分不清是谁对yt的贡献。(8)对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。在假定(1),(2)成立条件下有E(yt)=E(0+1xt+ut)=0+1xt。同学们或许会对这些假定感到迷惑,为什么需要这些假定?它们的现实意义如何呢?如果这些假定不为真,情况又会怎样呢?如何知道某一回归模型却是满足说有这些假定呢?2.最小二乘估计(OLS)对于所研究的经济问题,通常真实的回归直线是观测不到的。收集样本的目的就是要对这条真实的回归直线做出估计。怎样估计这条直线呢?显然综合起来看,这条直线处于样本数据的中心位置最合理。怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用=+xt表示。其中称yt的拟合值(fittedvalue),和分别是0和1的估计量。观测值到这条直线的纵向距离用表示,称为残差(residual),是ut的估计量。yt=+=+xt+称为估计的模型。假定样本容量为T。(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。(这种方法对异常值非常敏感)设残差平方和用Q表示,Q===,则通过Q最小确定这条直线,即确定和的估计值。以和为变量,把Q看作是和的函数,这是一个求极值的问题。求Q对和的偏导数并令其为零,得正规方程,=2(-1)=0(1)=2(-xt)=0(2)下面用代数和矩阵两种形式推导计算结果。首先用代数形式推导。由(1)、(2)式得,=0(3)xt=0(4)(3)式两侧用T除,并整理得,=(5)把上式代入(4)式并整理,得,xt=0(6)=0(7)=(8)因为=0,=0,分别在(8)式的分子和分母上减和得,=(9)=(10)下面用矩阵形式推导首先正规方程为=2(-1)=0(1)=2(-xt)=0(2)T+()=+()====这种形式在单位根检验的理论分析中非常有用。3.最小二乘估计量和的特性线性特性这里指和分别是yt的线性函数。===令kt=,代入上式得=ktyt可见是yt的线性函数,是1的线性估计量。同理0也具有线性特性。无偏性:是指估计量的数学期望值等于总体回归系数的真值。利用上式E()=E(ktyt)=E[kt(0+1xt+ut)]=E(0kt+1ktxt+ktut)=E[1kt(xt-)+ktut]=1+E(ktut)=1因为kt===0;并且ktxt=xt同样可以证得E()=0所以,和的分布中心是1和0,那么方差或者标准差是衡量和是否接近1和0的重要参数。方差或者标准差越小,估计量和就越可靠。(3)有效性0,1的OLS估计量的方差比其他估计量的方差小。证明不需要掌握。Gauss-Marcov定理:若ut满足E(ut)=0,D(ut)=2,那么用OLS法得到的估计量就具有最佳线性无偏性。估计量称最佳线性无偏估计量(TheBestLinearUnbiasedEstimator)。最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。注意:分清4个式子的关系。(1)真实的统计模型,yt=0+1xt+ut(2)估计的统计模型,yt=+xt+(3)真实的回归直线,E(yt)=0+1xt(4)估计的回归直线,=+xt4.OLS回归直线的性质(1)残差和等于零,=0由正规方程2(yt--xt)(-1)=0得(yt--xt)=(yt-)=()=0(2)估计的回归直线=+xt过(,)点。正规方程(yt--xt)=0两侧同除样本容量T,得=+。得证。(3)yt的拟合值的平均数等于其样本观测值的平均数,=。==(+xt)=+=。得证。(4)Cov(,xt)=0只需证明(xt-)=xt-=xt=xt(--xt)=0。上式为正规方程之一。(5)Cov(,)=0只需证明(-)=-==(+xt)=+xt=05.的估计在参数估计量和的方差中均含有随机变量u的方差u2。由于u是一个无法测量的量,因而也不可能计算出u的方差。定义=其中2表示待估参数的个数。可以证明E()=。是的无偏估计量。因为是残差,所以又称作误差均方。可用来考察观测值对回归直线的离散程度。和的估计的方差是()=S2()=,()=S2()=6.yt的分布和的分布了解估计量的抽样分布,是为了判别这些估计量接近其总体真实值的程度如何。根据假定条件utN(0,),E(yt)=E(0+1xt+ut)=0+1xt+E(ut)=0+1xt。Var(yt)=Var(0+1xt+ut)=Var(0+1xt)+Var(ut)=yt是ut的线性函数,所以ytN(0+1xt,)。可以证明E()=1,Var()=,E()=0,Var()=和是yt的线性函数,所以N(1,),N(0,)7.拟合优度的测量拟合优度是指回归直线对观测值的拟合程度。显然若观测值离回归直线近,则拟合程度好;反之则拟合程度差。图2.3三种离差示意图可以证明(yt-)2=(-)2+(yt-)2=(-)2+()2。SST(总离差平方和)=SSR(回归平方和)+SSE(残差平方和)证明(yt-)2=[(yt-)+(-)]2=(yt-)2+(-)2+2(yt-)(-)其中(yt-)(-)=(yt-)(xt-)=(yt-)xt-(yt-)=xt=0度量拟合优度的统计量是可决系数(也称作决定系数或者判定系数)。R2==(回归平方和)/(总离差平方和)=SSR/SST所以R2的取值范围是[0,1]。对于一组数据,SST是不变的,所以SSR↑(↓),SSE↓(↑)。SSR:旧指回归平方和(regressionsumofsquares),现指残差平方和(sumofsquaredresiduals)SSE:旧指残差平方和(errorsumofsquares(sumofsquarederrors)),现指回归平方和(explainedsumofsquares)8.回归参数的显著性检验及其置信区间最小二乘估计值和是由x和y的样本观测值求出的,为了确定它们的可靠程度,有必要进行显著性检验。这种检验是确定和是否显著的不等于零,亦即检验样本是否取自其真实参数为零的总体。主要是检验1是否为零。通常用样本计算的不等于零,但应检验这是否有统计显著性。原假设H0:1=0;备择假设H1:10在H0成立条件下,t===-t(T-2)0t(T-2)若t>t(T-2),则接受备择假设H1:10,表明x对y有显著影响;若t<t(T-2),则接受原假设H0:1=0,表明x对y没有显著影响,一元线性回归模型无意义。对0是否为零的检验。原假设H0:0=0;备择假设H1:00在H0成立条件下,t===若t>t/2(T-2),则接受备择假设H1:00,表明模型中应该保留截距项;若t<t/2(T-2),则接受原假设H0:0=0,表明一元线性回归模型中不应该包括截距项。上面的显著性检验如果得出拒绝j=0(j=0,1)的原假设,只能说明估计值是由取自参数j不为零的总体中的一组样本观测值所确定的。为了确定接近总体j的程度,我们需要构造一个以为中心的区间,总体参数j在一定的置信度下落在这个区间之内。计量经济学中选择的置信度(置信水平)一般为95%,说明总体参数j以95%的概率落在的置信区间内,当然还有5%的可能落在置信区间外。置信区间越小,说明估计值越接近总体参数j。可选择的置信度还有90%和99%。根据t分布来构造置信区间。在原假设H0:1=0成立条件下,t=(具有T-2个自由度)那么我们根据置信度1-,查自由度为f=T-2的t分布表,得临界值t,,t值落在(-t,t)的概率是1-,即P{t/2,(T-2)}=1-由大括号内不等式得1的置信区间-t/2,(T-2)1+t/2,(T-2)可记作其中是=的算术根,而其中的是的算术根。0的置信区间同理可得。由此可以看出,置信区间的大小取决于回归系数估计值的标准差,标准差越小,置信区间越小,越接近j,估计结果就越可靠。9.yF的点预测及其区间预测下面以时间序列数据为例介绍预测问题。预测可分为事前预测和事后预测。两种预测都是在样本区间之外进行,如图所示。对于事后预测,被解释变量和解释变量的值在预测区间都是已知的。可以直接用实际发生值评价模型的预测能力。对于事前预测,解释变量是未发生的。当预测被解释变量时,则首先应该预测解释变量的值。对于解释变量的预测,通常采用时间序列模型。预测式中所有解释变量的值都是已知的称为事后预测。T1T2T3(目前)样本区间(1980-2005)事后预测事前预测(2007)对于模型yt=0+1xt+ut如果给定样本以外的解释变量的观测值xF,有:yF=0+1xF+uF因为xF不是原来回归方程中的样本,所以uF和原模型中的{ut}不相关。如何求出yF的合理的值或范围,就是回归分析中预测的内容。具体分为点预测和区间预测二类。yF的点预测。假定已知解释变量x的一个特定值xF,代入样本回归方程:=+xt,可得=+xF则是yF的预测值,由于求出的是单个预测值,故称为“点预测”。特定值xF是可以任意给定的。如果xF在样本区间内,则点预测过程称为内插预测,人们常常用内插预测检验样本回归方程的预测能力。如果在样本区间之内预测值接近样本值yF,则说明在样本区间内的预测功效是好的。如果xF是样本区间之外的点,则点预测过程称为外推预测。实际预测时,常常做的是外推预测。单个yF的区间预测一个好的预测结果,一是无偏,二是预测的方差要小。我们可以证明点估计值有以下两种不同的概念:①是总体真值yF的无偏估计值;②是总体回归直线E(yF)的无偏估计值。的分布是N(0+1xF,(1++))所以,在置信度1-下,yF的区间预测是[t/2(T-2)]可知,当置信水平1-给定之后,yF的预测区间的大小实际由绝对值的大小决定。xF越接近样本区间内解释变量x的平均值,yF的置信区间就越小,预测结果就越可靠。E(yF)的区间预测E()的分布是E()N(0+1xF,(+))则E(yF)在置信度1-下的区间预测是[t/2(T-2)]yF和E(yF)的置信区间(置信带或置信域)图示如下:(1)样本容量T越大,预测精度越高,反之预测精度越低;(2)样本容量一定时,置信带的宽度当在x均值处最小,其附近进行预测(插值预测)精度越大;x越远离其均值,置信带越宽,预测可信度下降。10.案例:用回归模型预测木材剩余物(file:b1c3)伊春林区位于黑龙江省东北部。全区有森林面积218.9732万公顷,木材蓄积量为2.324602亿m3。森林覆盖率为62.5%,是我国主要的木材工业基地之一。1999年伊春林区木材采伐量为532万m3。按此速度44年之后,1999年的蓄积量将被采伐一空。所以目前亟待调整木材采伐规划与方式,保护森林生态环境。为缓解森林资源危机,并解决部分职工就业问题,除了做好木材的深加工外,还要充分利用木材剩余物生产林业产品,如纸浆、纸袋、纸板等。因此预测林区的年木材剩余物是安排木材剩余物加工生产的一个关键环节。下面,利用一元线性回归模型预测林区每年的木材剩余物。显然引起木材剩余物变化的关键因素是年木材采伐量。给出伊春林区16个林业局1999年木材剩余物和年木材采伐量数据如表2.1。散点图见图2.14。观测点近似服从线性关系。建立一元线性回归模型如下:yt=0+1xt+ut表2.1年剩余物yt和年木材采伐量xt数据林业局名年木材剩余物yt(万m3)年木材采伐量xt(万m3)乌伊岭26.1361.4东风23.4948.3新青21.9751.8红星11.5335.9五营7.1817.8上甘岭6.8017.0友好18.4355.0翠峦11.6932.7乌马河6.8017.0美溪9.6927.3大丰7.9921.5南岔12.1535.5带岭6.8017.0朗乡17.2050.0桃山9.5030.0双丰5.5213.8合计202.87532.00图2.14年剩余物yt和年木材采伐量xt散点图图2.15EViews输出结果EViews估计结果见图2.15。建立EViews数据文件的方法见附录1。在已建立Eviews数据文件的基础上,进行OLS估计的操作步骤如下:打开工作文件,从主菜单上点击Quick键,选EstimateEquation功能。在出现的对话框中输入ycx。点击Ok键。立即会得到如图2.15所示的结果。下面分析EViews输出结果。先看图2.15的最上部分。被解释变量是yt。估计方法是最小二乘法。本次估计用了16对样本观测值。输出格式的中间部分给出5列。第1列给出截距项(C)和解释变量xt。第2列给出第1列相应项的回归参数估计值(和)。第3列给出相应回归参数估计值的样本标准差(s(),s())。第4列给出相应t值。第5列给出t统计量取值大于用样本计算的t值(绝对值)的概率值。以t=12.11266为例,相应概率0.0000表示统计量t取值(绝对值)大于12.1的概率是一个比万分之一还小的数。换句话说,若给定检验水平为0.05,则临界值为t0.05/2(14)=2.15。t=12.1>2.15落在了H0的拒绝域,所以结论是1不为零。输出格式的最下部分给出了评价估计的回归函数的若干个统计量的值。依纵向顺序,这些统计量依次是可决系数R2、调整的可决系数(第3章介绍)、回归函数的标准差(s.e.,即均方误差的算术根)、残差平方和、对数极大似然函数值(第2章介绍)、DW统计量的值、被解释变量的平均数()、被解释变量的标准差()、赤池(Akaike)信息准则(是一个选择变量最优滞后期的统计量)、施瓦茨(Schwatz)准则(是一个选择变量最优滞后期的统计量)、F统计量(第3章介绍)的值以及F统计量取值大于该值的概率。注意:S.D.(被解释变量的标准差)和s.e.(均方误差的算术根)的区别。s.e.和SSE的关系。因为=,而(2)就是SSE(残差平方和),所以已知其中的一个就可以推算出另外一个。根据EViews输出结果(图2.15),写出OLS估计式如下:=-0.7629+0.4043xt(2.64)(-0.6)(12.1)R2=0.91,s.e.=2.04其中括号内数字是相应t统计量的值。s.e.是回归函数的标准误差,即=。R2是可决系数。R2=0.91说明上式的拟合情况较好。yt变差的91%由变量xt解释。检验回归系数显著性的原假设和备择假设是(给定=0.05)H0:1=0;H1:10因为t=12.1>t0.05(14)=2.15,所以检验结果是拒绝1=0,即认为年木材剩余物和年木材采伐量之间存在回归关系。上述模型的经济解释是,对于伊春林区每采伐1m3木材,将平均产生0.4m3的剩余物。图2.16给出相应的残差图。Actual表示yt的实际观测值,Fitted表示yt的拟合值,Residual表示残差。残差图中的两条虚线与中心线的距离表示残差的一个标准差,即s.e.。通过残差图可以看到,大部分残差值都落在了正、负一个标准差(s.e.=2.04)之内。图2.16残差图估计1的置信区间。由t=P{t0.05/2(14)}=0.95得t0.05/2(14)1的置信区间是[-t0.05/2(14),+t0.05/2(14)][0.4043-2.150.0334,0.4043+2.150.0334][0.3325,0.4761](2.65)以95%的置信度认为,1的真值范围应在[0.3325,0.4761]范围中。下面求yt的点预测和平均木材剩余物产出量E(yt)的置信区间预测。假设乌伊岭林业局2000年计划采伐木材20万m3,求木材剩余物的点预测值。2000=-0.7629+0.4043x2000=-0.7629+0.404320=7.3231万m3(2.66)s2(E(2000))=(+)=4.1453(+)=0.4546 s(E(2000))==0.6742因为E(2000)=E(+x2000)=0+1x2000=E(y2000)t=t(T-2)则置信度为0.95的2000年平均木材剩余物E(y2000)的置信区间是2000t0.05/2(14)s(E(2000))=7.32312.150.6742=[5.8736,8.7726](2.67)从而得出预测结果,2000年若采伐木材20万m3,产生木材剩余物的点估计值是7.3231万m3。平均木材剩余物产出量的置信区间估计是在[5.8736,8.7726]万m3之间。从而为恰当安排2000年木材剩余物的加工生产提供依据。木材剩余物产出量单点的置信区间的计算。s2(2000)=(1++)=4.1453(1++)=4.5999 s(2000)==2.1447EViews通过预测程序计算的结果是,木材剩余物产出量单点的置信区间的估计结果是2000t0.05/2(14)s(2000)=7.32312.152.145=[2.71,11.93]问题:估计结果中没有显著性,去掉截距项0可以吗?答:依据实际意义可知,没有木材采伐量就没有木材剩余物,所以理论上0是可以取零的。而有些问题就不可以。例如家庭消费和收入的关系。即使家庭收入为零,消费仍然非零。一般来说,截距项的估计量没有显著性时,也不做剔出处理。本案例剔出截距项后的估计结果是=0.3853xt(28.3)R2=0.91,s.e.=2.0点预测值是2000=0.3853x2000=0.385320=7.7060万m3附录1:怎样用EViews通过键盘输入数据建立新工作文件的方法是从EViews主菜单中单击File键,选择New,Workfile。则打开一个数据范围选择框(WorkfileRange)。需要做出3项选择。①选择数据性质。②启始期(Startdate)。③终止期(Enddate)。3项选择完毕后,点击“OK”键。这时,会建立起一个尚未命名的工作文件(Workfile),且处于打开状态。当打开新工作文件或现有工作文件后,可以通过键盘输入数据和追加数据。具体操作如下:从EViews主菜单中点击Quick键,选择EmptyGroup功能。这时会打开一个空白表格数据窗口(Group)如图3所示。每一个空格代表一个观测值位置。按列依次输入每一个变量(或序列)的观测值。键入每一个观测值后,可通过按回车键(Enter键)或方向指示键()进行确认。按方向指示键()的好处是在确认了当前输入的观测值的同时,还把光标移到了下一个待输入位置。每一列数据上方的灰色空格是用于输入变量名的。给变量命名时,字符不得超过16个。注意:下列名字具有特殊意义,给变量命名时,应避免使用。它们是:ABS,ACOS,AR,ASIN,C,CON,CNORM,COEF,COS,D,DLOG,DNORM,ELSE,ENDIF,EXP,LOG,LOGIT,LPT1,LPT2,MA,NA,NRND,PDL,RESID,RND,SAR,SIN,SMA,SQR,THEN。附录2:怎样用EViews预测。以案例1为例,给定xt=20,求=?EViews预测步骤如下。(1)点击Procs键选Changeworkfilerange功能。在弹出的对话框的Enddata选择框处改为17。点击OK键。(2)双击工作文件的Sample:117区域,在弹出的对话框的Samplerangepairs选择框处把16改为117。(3)双击工作文件窗口中的x序列,打开x数据窗口。点击Edit+/-键,使x数据窗口处于可编辑状态。在t=17的x的观测值位置输入20。相当于给定x=20。(4)打开估计式eq01窗口,点击Forecast键。在S.E.选择框处填入yfse,表示要yt的预测值(用YF表示)也要yt的预测标准差(用yfse表示)。点击OK键,工作文件窗口中已经出现一个yf序列。双击yf序列,可以看到。y17=7.322668。1.相关理论相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是回归分析的一个基本统计量。掌握它有助于对经济问题和经济计量模型的分析与理解。1.1相关的定义与分类定义:相关(correlation)指两个或两个以上变量间相互关系的程度或强度。分类:①按强度分完全相关:变量间存在函数关系。例,圆的周长,L=2πr。高度相关(强相关):变量间近似存在函数关系。例,我国家庭收入与支出的关系。弱相关:变量间有关系但不明显。例,近年来我国耕种面积与产量。零相关:变量间不存在任何关系。例,某班学生的学习成绩与年龄。完全相关高度相关、线性相关、正相关弱相关②按变量个数分按形式分:线性相关,非线性相关简单相关:指两个变量间相关按符号分:正相关,负相关,零相关复相关(多重相关和偏相关):指三个或三个以上变量间的相关。非线性相关负相关零相关因非线性相关可以转化为线性相关处理,而复相关又可看作是简单相关基础上的拓展,所以后面重点介绍简单线性相关。1.2简单线性相关的度量用简单线性相关系数,简称相关系数(correlationcoefficient)度量两个变量间的线性相关强度,用表示。的随机变量表达式是=。的统计表达式是==其中T,总体容量;xt,yt,变量的观测值;x,y,变量观测值的均值。下面解释为什么能对变量间的线性相关强度进行定量度量。因为表达式的分子是协方差,Cov(xt,yt);分母是xi和yt的标准差之积。而xt和yt的标准差不会为零,所以Cov(xt,yt)是否为零,就决定了是否为零,即标志着变量xt,yt间是否存在线性相关关系。但Cov(xt,yt)有两个缺点:①它是一个有量纲的量,取值容易受测量单位的影响;②取值范围宽,相关性越强,Cov(xt,yt)取值越大。为克服上述缺点,用xt,yt的标准差除Cov(xt,yt),于是就得到相关系数的统计表达式。它是一个无量纲量。相关系数是对总体而言。当研究某个问题时,所得数据常是一个样本。对样本来说,相关系数常用r表示,即r是总体相关系数的估计值。r===其中T,样本容量;xt,yt,变量的观测值;,,变量观测值的均值。1.3相关系数的取值范围当两个变量严格服从线性关系时,∣∣=1。证:设直线斜率为k,即y=a+kx。则有===1当两个变量不存在线性关系时,=0。(3)上述是两种极端情形,所以相关系数的取值范围是[-1,1]。当Cov(xt,yt)>0时,则>0(正相关);当Cov(xt,yt)<0时,则<0(负相关);若Cov(xt,yt)=0,则=0(零相关)。为什么图1为正相关?为什么图2为负相关?用(xt–)(yt–)解释。图1正相关图2负相关例1:考察1986年中国29个省市自治区农作物种植业产值yt(亿元)和农作物播种面积xt(万亩)的相关性(见图1.9)。例2:考察1978~2000年天津市城镇居民人均消费与人均可支配收入的相关性性(见图1.10)。图1.9r=0.92图1.10r=0.991.4线性相关系数的局限性(1)只适用于考察变量间的线性相关关系。也就是说当=0时,只说明二变量间不存在线性相关关系,但不能保证不存在其它非线性相关关系。所以变量不相关与变量相互独立在概念上是不同的。(2)相关系数的计算是一个数学过程。它只说明二变量间的相关强度,但不能揭示这种相关性的原因,不能揭示变量间关系的实质,即变量间是否真正存在内在联系,因果关系。所以在计算r的同时,还要强调对实际问题的分析与理解。(3)一般说二变量相关时,可能属于如下一种关系。单向因果关系。如施肥量与农作物产量;对金属的加热时间与温度值。双向因果关系。如工业生产与农业生产;商品供给量与商品价格。③另有隐含因素影响二变量变化。如市场上计算机销量与电视机销量呈正相关。显然人均收入的增加是一个隐含因素。④虚假相关。如年国民生产总值与刑事案件数呈正相关。显然二变量间不存在因果关系。应属虚假相关。中国和美国某个经济指标高度相关,显然这没有可比性,毫无意义。(1997-2001,file:5correlation1)1.5简单相关系数的检验(1)直接检验(查相关系数临界值表)H0:=0;H1:0用xt和yt的样本计算相关系数r,以自由度f=T-2查临界值表。检验规则是,若r>r(T-2)(临界值),则xt和yt相关;若r<r(T-2)(临界值),则xt和yt不相关。(2)t检验H0:=0;H1:0t==t(T-2)其中2表示涉及两个变量。若t>t(T-2),则xt和yt相关;若t<t(T-2),则xt和yt不相关。附录:相关系数临界值表f0.100.050.020.010.00110.987690.996920.9995070.9998770.999998820.900000.950000.980000.990000.9990030.80540.87830.934330.958730.9911640.72930.81140.88220.917200.9740650.66940.75450.83290.87450.9507460.62150.70670.78870.83430.9249370.58220.66640.74980.79770.898280.54940.63190.71550.76460.872190.52140.60210.68510.73480.8471100.49330.57600.65810.70790.8233110.47620.55290.63390.68350.8010120.45750.53240.61200.66140.7800130.44090.51390.59230.64110.7603140.42590.49730.57420.62260.7420150.41240.48210.55770.60550.7246160.40000.46830.54250.58970.7084170
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度甲方委托乙方进行技术研发的合同
- 二零二四年度电商售后服务托管合同3篇
- 2024年度租赁合同:适用于大型餐饮企业的店面租赁
- 2024年度健身俱乐部会员服务合同:高级私人健身教练服务
- 仓库租房合同(04版):二零二四年租赁协议
- 路通建设集团股份有限公司、毛远兵劳务合同纠纷二审民事判决书
- 2024年度工程设备采购合同及其安装服务协议
- 二零二四年度采购合同采购标的和采购数量
- 2024年度代理合同:某外贸公司代理出口商品具体事宜
- 二零二四年度影视制作公司导演聘用合同
- 2024年河北廊坊开发区管理委员招聘笔试参考题库附带答案详解
- (2024年)大学生网络安全常识PPT课件模板
- 《香格里拉并不遥远课件》初中音乐苏少课标版-八年级上册课件3663
- 拜占庭历史与文化智慧树知到期末考试答案2024年
- 2024年物流行业全面培训资料
- (2024版)初中八年级生物备考全攻略
- 主播人设方案
- 毕业论文写作论文写作课件
- JBT 14646-2023 低蠕变填充改性聚四氟乙烯垫片 (正式版)
- 普通高中物理课程标准解读
- 市场营销策划职业生涯规划
评论
0/150
提交评论