第一章_传统观点下的多元线性回归模型回顾_第1页
第一章_传统观点下的多元线性回归模型回顾_第2页
第一章_传统观点下的多元线性回归模型回顾_第3页
第一章_传统观点下的多元线性回归模型回顾_第4页
第一章_传统观点下的多元线性回归模型回顾_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Ch1.传统观点下的多元线性回归模型回顾1. 问题的提出我们认为,要关注的结果与个因素有关,。(其中是截距项,一个量纲标准化的单位指标。)例如:已婚工作妇女的工资(log wage)与工作经验(exper)、工作经验的外在性作用()、受教育程度(educ)、该妇女的年纪(age)、家庭少于6个孩子(kidslt6)以及家庭中孩子至少6岁以上的个数(kidage6)有关,并建立如下的模型:对上述模型,我们做如下说明:a. 关于命题:1. 要关注的结果:已婚工作妇女的工资。2. 影响结果的因素:自身的经验、教育、年龄;和孩子的年龄与多少。注:1.结果与哪些因素有关不是绝对的,例如在中国影响工资的一

2、个重要因素是所在行业,另外社会关系也是不可忽视的,等等。命题与你的目的和知识相关,并且命题要求表述得越清楚越好。b. 关于模型:模型是命题的数学表达,是命题的深化、细化和抽象化。从命题到模型是一个不断提炼的过程。建立一个“好”的模型,取决于我们对命题认识的深入程度和相关知识的储备。一般而言,多元线性回归模型的基本框架是:假设与有因果关系。如果观测的数据来源是:,且存在单调连续函数,使得:,。那么,定义多元线性回归模型:。即:,称是关于未知参数的多元线性回归模型。这里是随机误差项,称为解释变量,是确定性变量。称为因变量或被解释变量。线性模型的类型主要有:1) 多项式模型: 或 例如,库兹涅茨倒U

3、形曲线和拉弗曲线等。2) 对数线性模型:(增长率之间存在因果关系,例如生产函数。)3) 倒数线性模型: 或 (因果呈反向关系,如菲利普斯曲线)4) 指数线性模型:(原因是影响增长率的因素,例如上例)5) Logit线性模型:(因果呈慢,快,慢的变化趋势,并有饱和)如图:6) 虚拟变量(Dummy Variable)模型:解释变量中有些变量变化是“不均匀”的,观测数据在不同时段或不同地区不同行业或不同政策等之下有明显不同的特点。在散点图上,表现为某个解释变量或整体上与因变量有跳跃或转折现象。如图:解决办法是引入虚拟变量。设D是虚拟变量,则D描写的是一种状态,只取1或0为值。1表示受到某种因素影响

4、,0表示没有受到影响。例如:中,截距受到影响,D对Y有整体影响。又,中,的斜率受到了影响,即D对的影响导致对Y的影响,影响斜率。例如,在上例中对已婚妇女的工资可引入行业的虚拟变量。1国有企业,0 非国有企业。注:1。如果的影响是时间特征,则不宜采用虚拟变量。且虚拟变量不宜大量采用。 2经过变换后的数据,参数的含义是不一样的。例如,就是增长率变化的边际效果,又如果,则就是弹性系数。3模型设定是一个非常“艺术”化的东西,准确的设定模型,合理的选择变量,能使模型反映的经济意义更细致、更明显、解释力更直接。这是一门需要在实践中不断摸索和积累的“艺术”。以后,我们总假定从命题到模型可以标准化为如下形式,

5、简称为基本模型:2. 传统观点下基本模型的假定基本模型是因果关系最简单的量化表述。形式上它由两部分构成,一部分是确定性关系,由表达;另一部分是不确定性关系,由表达。其中是未知参数,在不同的模型假定中有不同的内在含义。一般,指的是因素对结果的边际贡献,没有特定的经济含义。关于解释变量,传统观点假定是确定性的变量,而且对的观测是准确的,对没有任何随机性影响。因此,任何两个或多个解释变量之间没有线性相关关系,且解释变量和误差项也没有线性相关关系。这种传统观点蕴含着对解释变量是可控的,甚至样本的观测也可是预先已知的。因此,没有必要考虑估计和检验的渐近性质。假设我们可以对观测N次,把所有观测排成一个矩阵

6、(加上常数截距项)。称为观测矩阵。那么,传统观点假定,秩,即列满秩。且。注:列满秩不意味且不意味它们就没有其它的非线性关系。又因为是任意正整数,以后任意与任意不加区分。关于误差项,随机并不是全部无知,这里随机项反映的是环境和各种不可预料的因素对产生的影响。因为解释变量是可控的,可以认为随机误差不影响,且对的影响是一个小量。又模型一般设定有中心化常数项,各种不可控的水平(平均)影响都可放到常数项上。故可设,,一般情况下是未知的。传统观点进一步假定,。所以抽样后服从多元正态分布,。关于样本统计量,对解释变量进行N次观测得到的值就是样本。的的抽取传统观点假定是独立的,而事实上在许多情况下,独立性往往

7、办不到,样本有时有群集效应、层次效应、串效应,有时为了某种特殊目的会有意识的选择相关的样本,等等。这些特殊样本的问题正是计量经济学要面对的问题,数据是什么样就是什么样,是不能随意假定的。我们将从第二章开始在现代观点下介绍处理各种特殊样本的方法。显然,抽取的样本越多,与的关系表现得就越明显。但是若不对样本进行整理加工,大量数据的堆积并不能看出与之间的因果关系。我们需要对样本做一些加工,提炼出某些有用的信息,这些信息称为样本统计量或样本函数。下面是一些直接常用的样本统计量。给样本值,定义:(1)样本均值(2)样本方差(标准差的平方)(3)样本协方差 样本相关系数(4)样本k阶矩(5)样本k阶中心矩

8、(6)样本顺序统计量和极差统计量(7)偏度(8)峰度(9)中位数 n为偶数,或 n为奇数随着问题的不断深化,特别在假设检验中,我们将引入更多的样本统计量。最后,简单提一下有关样本大数定律和几个重要分布。如果和分别是取自母体的独立样本,那么当,由大数律,等等。三个与正态样本相关的统计分布是:1)分布独立,则;2)分布且两者独立,则;3)分布且两者独立,则。3. 基本模型下的基本问题多元线性回归模型的任务是:通过样本,1)给出未知参数和的估计;2)给出有关及其相关线性组合和方差的统计检验。1.估计问题的提法任意取定观测矩阵和因变量观测值,设为样本的函数。称为的拟合值,为残差值(残差向量),为残差平

9、方和。问题的提法是什么样的样本函数能使得残差平方和最小?即?(注:也用SSR表示残差平方和)2.的求解这是一个多元函数求极值的问题。欲使RSS极小,则一阶条件是:。是一个对称矩阵,且。 。,是正定矩阵。(为什么?)。可逆,。称其为的普通最小二乘估计,记成。注:用样本函数拟合,使残差平方和最小只是一种标准,它的直观意义是明显的。但我们也可以选择另外一种标准,如使残差绝对值的和最小,即:,求。从技术上讲,我们还可以找一个多项式,把所有样本光滑的连接起来。但是这个多项式的系数就没有太多的经济意义。例如给样本则存在次多项式使得。真正有意义的拟合和评价标准是建立在概率统计意义上的,有许多好的统计性质。3

10、.的统计性质(1),根据正态分布的线性变换定理:,则。由,故得:。是的无偏估计,且是的线性函数,服从正态分布。(2)记,则。对,设,则代表了的任一线性估计。改写,那么,。如果考虑让是的无偏线性估计量,则必须有,对于所有真值都成立。其充要条件是。因此满足,就代表了的任一线性无偏估计量。, 故。注意到是一个半正定矩阵,所以主对角线上元素。当且仅当时,方差最小。(其中是中对角线上第个元素)这就是说,在真值的所有线性无偏估计类中,具有最小方差属性,即是有效的。综上所述,是无偏线性估计类中的有效估计。(此称为高斯马尔科夫定理)注:1.对有偏的估计类,不一定是有效的。如存在多重共线性,又不能剔除解释变量,

11、常采用岭回归,牺牲无偏性提高有效性。2.除了无偏性、有效性外,还有一致性、稳健性等许多其他有统计意义的标准。在不同模型和要求下有特殊的意义。传统观点由于样本固定,一般不考虑一致性。这是与现代观点最大的区别。3的极大似然估计在基本模型假定下就是。(习题)4.的无偏估计及统计性质 我们用命题的形式陈述有关未知参数的估计和性质,已备后用。命题1:是未知方差的一个无偏估计。又称为标准差。证明:()容易验证,且。是一个对称幂等矩阵。有性质,特征根为0或1。命题1得证。命题2:服从自由度为的分布。证明:由命题1知,。对称幂等,。的特征根1的个数为。又为实对称阵的,必可正交对角化,存在正交矩阵,使得成立。令

12、 则。独立服从标准正态分布。这是个独立标准正态分布之平方和。由分布的定义,。命题2得证。命题3:与的分布独立。证明:,。与都是的线性函数,故和都服从正态分布。由多元正态分布的性质知,和相互独立当且仅当。事实上,与独立。又是的连续函数,与独立。命题3得证。 把前述内容用框图示意如下:4. 关于假设检验模型中有大量的假定,这些假定是否合理?这些假定包括,变量的选择是否合理,随机误差的设定是否恰当,还有变量与误差不相关是否成立?等等。我们可以把这些假定归结为一些对未知参数的判断,如果这些判断基本正确或错误,那么从数据中就能够反映出来。假设检验是估计完成后对模型的设定做进一步的确认。拒绝原假设,意味着

13、命题真时犯错误的可能性可控制在一定的范围内。请看例:例:假定,观测样本为。,。令,用估计,并构造样本统计量。有。如果命题为真,则。查表得。当拒绝,认为不对,否则不能拒绝。进一步,未知。同样用估计,估计。如何构造统计量?所以,若命题真,则统计量。查表得临界值。当时,拒绝,否则不能拒绝。1假设检验问题的一般提法:从上例,我们得到一般的启示是,对模型中的某一假设给出一个假设命题,在一定条件下命题可转化为对模型中某些未知参数的推断,对的回答是拒绝或不能拒绝。这都有可能判断失误。有二种情况:1)真,拒绝。犯第一类错误“去真”;2)假,接受。犯第二类错误“存伪”。奈克皮尔逊定理说明,给定样本容量,不可能同

14、时保证犯两类错误都充分小。即任何检验方法,若要降低犯第一类错误的概率就会增加犯第二类错误的概率,除非增加样本容量。显著性检验的提法:给定一个,称为显著性水平,通常是一个小概率或等。检验的目标是把犯第一类错误的概率控制在以下,而不考虑犯第二类错误概率的大小。显著性检验的直观含义是:我们只关注命题真时,控制少犯拒绝的错误,而命题假时接受了产生的后果并不严重。例如,基本模型中,假设检验,命题即使是假的,接受了后果并不严重,因为此时一定很小,近似的看成零对模型没有太大影响。但是,当某些命题犯第二类错误后果很严重时,显著性检验就不适用了。例如,伪回归,回归效果非常好且显著性检验也没有问题,如数据存在测量

15、误差,或误差项是单位根过程,但其实这是一个错误的回归。所以当回归效果特别好时,要进一步考虑检验的势V,V是假时拒绝的概率,即V=犯第二类错误的概率。如果V的值很小,说明犯第二类错误的可能性很大,设定的命题很可能是不真的。但是要确定V必须要对被择命题给出确定的范围,这很麻烦。一般的原则是,检验效果非常好,但与实际情况明显抵触,干脆不用,除非特别需要。又,显著性检验的另一个补充是检验的值。值度量的是犯第一类错误的概率,即。因此,值越大,错误的拒绝的可能性越大,故应当接受。值越小,拒绝时就越放心。一般值超过0.8,我们一般不能拒绝。 值与显著性检验的关系是不能拒绝,拒绝。例如,给定,但那么我们有充分

16、的信心拒绝。显著性检验的一般步骤:提出原假设和备择假设,给出显著性水平,依据命题和模型中得到的未知参数的估计和构造样本统计量。且当命题真时,可得到的统计分布(或渐近分布)。通过分布查表或计算得到临界值,最后根据取样后计算的统计值与比较大小判断拒绝还是不能拒绝,相应的给出值作为判断的补充。所以,假设检验问题的关键是:1) 根据问题巧妙建立模型,恰当提出假设命题;2) 寻求样本统计量,给出命题真时的统计分布或渐近分布。其实,假设检验的思想很简单,困难在于找到合适的样本统计量在命题真时的统计分布。一般情况下,假设检验的命题常常归结为某个参数为零或部分参数为零的检验或未知参数线性组合的检验。此时,我们

17、就可以直接应用数理统计中的结论。2.基本模型下的假设检验1)的单参数检验是否可以解释的变化,或者说它们是不是的原因?相应的假设检验命题是:。(为截距项的参数。), 其中是中对角线上第个元素。假设命题真,则。但是未知,这还不是一个样本统计量。又知,且与独立,。由t分布的定义服从自由度为的分布。记称为的标准差,则。给显著性水平,查表得临界值。则就拒绝,否则不能拒绝。拒绝意味着在统计意义上可解释的变化,称统计显著。注:1. 检验是基本模型必须进行的检验。不能拒绝意味着作为解释的原因实际意义不大;但拒绝并不意味着作为解释的原因意义一定就大,尤其值较小时,即但接近,需要作进一步的分析。2.单参数假设检验

18、与区间估计是联系在一起的。不能拒绝的概率含义是:。即,的概率为。称此为置信区间。所以,的标准差越大,越容易接受,但估计精度却降低。同时,注意到,如果未知方差是已知的,由分布的尖峰胖尾性质,故临界值比方差已知时要更远离0点些, 更容易被接受。这说明,信息越多(方差已知),满足命题的要求越严。例如,已知和估计比较,估计命题更难被拒绝。2)的整体性检验每个统计显著,并不意味着整体上对的影响显著。某些的作用有可能相互抵消。于是我们需要检验,至少有某一不为零。或,至少有某一不为零。即整体参数为0和部分参数为0的检验。还有,某些参数要满足一定的制约关系。例如,生产函数一次齐次假定:。我们需要检验,等等。我

19、们可以把上述的检验统一归结为有关判断未知参数的线性方程组的形式:。其中是一个矩阵,是向量。例如推断,相应的。又如推断,则相应的()等等。注:未知参数的非线性推断和有关未知方差的推断不在讨论之列。如推断等等。问题:如何检验?显然,采用检验的方法不行了,依假设检验问题的提法,我们需要找到当命题真时的样本统计量及其分布。从假设检验的理论知,要对进行检验,先要对有一个估计。自然,用估计。,由正态随机变量线性变换定理,。命题4:的二次型服从自由度为的分布。我们一般的证明,则。,正定。且可逆。服从标准正态分布,且分量独立。将代入立得的二次型服从自由度为的分布。的分布尽管已知,但含有未知参数,故还不能成为样

20、本统计量。注意到命题2,服从自由度为的分布。故与都服从分布。若它们彼此独立,由分布的定义,我们就可以得到一个重要的统计量:。命题5:的二次型与相互独立。证明:,其中。又知。只要证与相互独立。又由于与服从正态分布,只要证。事实上,。命题5得证。3.的统计意义假设检验,如果命题真,那么模型的实质就是: ,于是方法在命题真下的实质是: 。我们知道,在无约束条件下的估计为,那么有约束条件下的估计是什么?采用拉格朗日乘子法:。,代入到中,得:,。为约束条件下的残差向量,为约束条件下的残差平方和。(注意:),又注意到统计量的表达式,。再由命题4,最后得:。所以,统计量的统计意义是:命题6:有线性约束条件下

21、的与无约束条件下的的残差平方和所构成的残差形式的样本函数服从分布:。特别,当约束条件为。意即所选解释变量整体与没有因果关系。那么,原模型实质变成:,。 ,。这就得到了传统的拟合优度(决定系数)与统计量的关系。可以看出,是的增函数,是的减函数,且。所以,大致反映了原因整体上能否解释结果。一般来讲,一个多元回归模型可以标准化为:,(有含时数据时用于检验序列相关性。)。注:假设检验通过,即每个都统计显著,且并不能说明这就是一个好的回归模型。甚至有可能是伪回归。(犯第二类错误概率很大)但若某些统计不显著,或统计量偏小,DW值不接近2,那么这个回归模型肯定有问题。(通俗地说,“发烧”肯定病了,“不发烧”

22、不一定就没有毛病。)4.检验的应用检验有广泛的应用。这里仅举几例:1)参数的稳定性检验设同一模型,有两组独立不同的观测:设有N次观测; 设有M次观测。问:不同的独立观测对参数的估计是否有影响?即,原因对结果的定量关系是否稳定。相应的假设检验问题是:即(),至少有一个。如何检验?构造模型,令,得到,取,则,且。 得统计量:。这里是,。知:给水平,查表得,当不能拒绝,表示原因对结果的定量关系是稳定的。于是,可以将两次独立观测联合起来,构成更大的样本观测矩阵,从而得到更精确的估计。拒绝,说明两组观测有差异。我们在后面的面板数据中讨论。特别,如果设定模型为:有次观测; ;有次观测。构造。 得。至少有某

23、一。适当选取和,做检验。这就是单因素方差分析的内容。不能拒绝意味着因素不同水平对结果没有显著影响,拒绝意味着至少有一个水平对结果有显著性影响。2)异常点的检验模型中,如果残差向量有某些分量的残差与其它的分量相比相差很大,我们就称观测为异常点(观测)。如何检验数据是否异常?分析:如果认为残差很大,那么就有理由认为模型设定不对,也就是。故设:表示中的第行,是常数,意味着测量中其他因素造成的一种实质性的偏离。将和按行进行适当的排列,可以构造模型:。要判断是不是数据异常点,相应的假设检验就是:。这就归结为模型中的系数部分为零的检验问题。故采用检验。这里,的自由度?请学生自己考虑。但这里更方便的办法是:

24、(1) 对做得和(2) 对做得和然后采用统计量的残差平方和形式,做检验。注:1.一般异常点的数据量不宜太大,新构造模型的实质是把被怀疑的观测部分作为虚拟变量处理。2.拒绝,认为是异常点还要具体问题具体分析。此时要特别细心,善于从差异中找到问题的原因所在。3)模型设定的偏误检验建立模型时,如果加入了不必要的解释变量,可以直接通过检验和检验将它们排除。但是,模型中一些该引入而没有引入的解释变量如何知道?办法是,加入一个或一些“替代变量”到模型中去。如果这些替代变量可以通过检验和检验,则可判断该模型遗漏了某些解释变量,称为RESET检验。“替代变量”一般选择的拟合值的非线性多项式或其它函数形式。这可以通过残差与的散点图来大致判定。例如:建立模型为如果参数和能通过检验和检验。则说明模型遗漏了某些应加入的解释变量。这是因为、等与肯定是线性无关的。注,RESET检验仅是能判断遗漏了某些解释变量,并不知道遗漏了什么解释变量。4)格兰杰因果关系检验如果和是时间序列数据,那么两个因素的因果关系逻辑上只有四种:(1)是的原因,且不是的原因。(2)是的原因,且不是的原因。(3),互为原因。(4),没有因果关系。分析:因果关系在时间上有前后关系。所以,如果命题(1)真,那么的变化应当发生在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论