Chapter1线性回归模型的OLS估计

上传人：1*** IP属地：贵州上传时间：2023-04-10 格式：DOC 页数：32 大小：1.28MB 积分：20 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

线性回归模型考察多个自变量对一个因变量的影响。比如，施肥量、土质与农业产量的关系，受教育年数、工龄、性别对收入的影响，警察数量、下岗职工对城市犯罪率的影响等。以双变量为例。x1、x2对y存在影响，同时x1和x2之间也存在相关关系。如图所示。X1X1X2y模型设定假定变量yt与k个变量xtj,j=1,…,k，存在线性关系。多元线性回归模型表示为，STYLEREF1\s1.SEQ公式\*ARABIC\s11其中yt是被解释变量（因变量），xjt是解释变量（自变量），ut是随机误差项，i,i=0,1,…,k是回归参数（通常未知）。这说明xjt,j=1,…,k,是yt的重要解释变量。ut代表其他影响yt变化的随机因素。给定一个样本（yt,xt1,xt2,…,xtk），t=1,2,…,T，上述模型表示为，STYLEREF1\s1.SEQ公式\*ARABIC\s12令,,则(3.3)式可以写为，y=X+uSTYLEREF1\s1.SEQ公式\*ARABIC\s13参数估计参数的点估计最小二乘法（OLS）设残差平方和用Q表示，STYLEREF1\s1.SEQ公式\*ARABIC\s14上式中，因为是一个标量，所以有。求Q对的一阶偏导数，并令其为零，STYLEREF1\s1.SEQ公式\*ARABIC\s15化简得，假定1解释变量之间线性无关。Rank(X'X)=Rank(X)=K＋1STYLEREF1\s1.SEQ公式\*ARABIC\s16其中Rank()表示矩阵的秩。即解释变量之间彼此线性无关。如果假定1成立，可以直接得到的最小二乘估计量，STYLEREF1\s1.SEQ公式\*ARABIC\s17表示y的拟合值，表示残差项。拟合值和残差项经常表示为另外一种形式：STYLEREF1\s1.SEQ公式\*ARABIC\s18STYLEREF1\s1.SEQ公式\*ARABIC\s19其中，，称为映射矩阵。Py表示y对X回归的拟合值。，称为零化子矩阵。My表示y对X的残差项。因此，y总是可以表示为y=Py+My。可以证明，P和M都是对称幂等矩阵，即M=M'，P=P'M2=M'M=M'，P2=P'P=P'STYLEREF1\s1.SEQ公式\*ARABIC\s110且有PX=X，MX=0STYLEREF1\s1.SEQ公式\*ARABIC\s111M+P=I，PM=0由正规方程组可得，即。进而可得。即FML定理接下来我们介绍OLS估计量的一个重要性质，即FML定理（FrischandWaugh(1933)、Lovell(1963)）。这一定理体现了线性回归模型参数的经济含义。在虚拟变量等问题的处理中重要的应用。将所有的解释变量拆分为两部分。模型表述为：STYLEREF1\s1.SEQ公式\*ARABIC\s112残差平方和为：STYLEREF1\s1.SEQ公式\*ARABIC\s113对应的正规方程组为：STYLEREF1\s1.SEQ公式\*ARABIC\s114由（1）式可得：STYLEREF1\s1.SEQ公式\*ARABIC\s115由此可以看出，如果，则。即当X2与X1正交时，模型与的参数估计量是完全相同的。将（2.21）式带入正规方程（2）可得到解：STYLEREF1\s1.SEQ公式\*ARABIC\s116其中，M1表示X1的零化矩阵，根据零化矩阵的性质，STYLEREF1\s1.SEQ公式\*ARABIC\s117其中，表示X2对X1回归的残差项，表示y对X1回归的残差项。由此得到如下定理。Frisch-Waugh定理：与得到相同的估计量和残差。即，y对X1、X2的回归方程中，X2的参数估计量等价于y对X1回归的残差项对X2对X1回归的残差项进行回归得到的参数估计量，二者的残差也是相同的。这一定理表明，多元回归模型中，回归参数β2体现了“排除”（partialout）X1影响后的“净”影响。因此，β2也称作“偏回归系数”，体现了X2对y的净影响，称之为“偏影响”（partialeffect）。也正是由于回归参数β2体现了排除X1影响后的“净”影响，因此把X1称作“控制变量”。也就是说，虽然实际经济环境中，我们几乎不能控制X1的变化。但在多元回归模型中，β2已经把X1的影响排除掉了，因此β2理解为“当其他条件不变的情况下”，X2对y的边际影响。对于如下结构关系：X1X2X1X2y如果回归模型，参数1的估计量不会显著，因为将x2的影响排除后，x1对y不存在任何影响。参数估计量的分布特征设真实的DGP为y=X0+u其中，0为真实的参数。如果模型设定准确的话，即y=X+u我们来看参数估计量的统计特征。对于模型错误设定的情况，请参见本章“模型的设定分析”部分。一致性设模型的参数为θ，估计量为。如果，则称具有一致性。一致性意味着随着样本量的增加，参数估计量可以无限接近真实参数，即估计量的分布为真实参数那一点。也就是说，随着样本量的增加，我们可以对真实参数作出越来越精确的推断。一致性是对参数估计量的最低要求。如果估计误差与样本量没有关系，那么很难建立真实参数与参数估计量之间的关系。STYLEREF1\s1.SEQ公式\*ARABIC\s118由假定Rank(X)=K和大数定律，样本均值的概率极限等于总体均值，可得：STYLEREF1\s1.SEQ公式\*ARABIC\s119又由Slustky定理，。由此可得STYLEREF1\s1.SEQ公式\*ARABIC\s120的无偏性的随机性来源于u的随机性，因此，将写为关于u的表达式。STYLEREF1\s1.SEQ公式\*ARABIC\s121即是随机向量u的线性组合。如果X为确定性变量，则的期望为：STYLEREF1\s1.SEQ公式\*ARABIC\s122因此，是的线性无偏估计量。但将X做为确定性变量过于简单。大多数情况下，X与y一样，具有明显的随机特征。假定2u关于X的条件期望为0。E[u|X]=0。假定2也称作X具有严格外生性。具有两个基本含义。第一个含义是，u的无条件均值也为0。这一特征可以通过迭代期望公式直接导出。E(u|X)=0E(u)=E[E(u|X)]=0STYLEREF1\s1.SEQ公式\*ARABIC\s123第二个含义是，u与X以及X的任何函数正交，不相关。STYLEREF1\s1.SEQ公式\*ARABIC\s124Cov(g(X),u)=E{[g(X)-E(g(X))][u-E(u)]}=E[(X-E(X))u]=E{[g(X)-E(g(X))]u}=E{g(X)u–E[g(X)u]}=E[g(X)u]-E[g(X)]E(u)=0当g(X)=X时，u与X正交，u与X不相关。E(Xu|X)=XE(u|X)=0,E(Xu)=E[E(Xu|X)]=E(X)E(u|X)=0Cov(X,u)=E[(X-E(X))(u-E(u))]=E[(X-E(X))u]=E[Xu]-E(X)E(u)=0的条件期望为：STYLEREF1\s1.SEQ公式\*ARABIC\s125当然，的无条件期望为：STYLEREF1\s1.SEQ公式\*ARABIC\s126因此，是0的线性无偏估计量，具有无偏性。与之相关的另外一个较弱的假定是，ut关于Xt的条件期望为0。E[ut|Xt]=0。的有效性假定3随机误差项向量u是同方差、无序列相关的。即协方差矩阵为：Var(u|X)=2I=2STYLEREF1\s1.SEQ公式\*ARABIC\s127OLS估计量的方差矩阵为：STYLEREF1\s1.SEQ公式\*ARABIC\s128其中，2(X'X)-1第i行第j列的元素表示第i个参数估计量和和第j个参数估计量的协方差。当i=j时（即对角线上的元素），表示第i个（包括常数项）参数估计量的标准差。高斯马尔科夫定理：在假定1~3成立的条件下，OLS估计量是最有效的线性无偏估计量。即：设是OLS估计量，为其他无偏估计量，那么。根据迭代期望公式，可以得到。将线性回归模型中OLS估计量称之为最佳线性无偏估计量（BLUE）。方差来源的方差对于统计推断以及经济解释都是至关重要的。方差越大，说明估计量越不精确，因此参数的置信区间就越大，假设检验也就越不准确。假设关注变量x2，设DGP为，模型设定为。根据FML定理，其方差为：其中，表示x2对X1回归的残差平方和。因此，方差也可以表述为：STYLEREF1\s1.SEQ公式\*ARABIC\s129其中，SSE2、R22表示x2对X1回归的残差平方和与可决系数，表示x2的离差平方和。因此，的方差来源于三部份：回归标准差σ02、解释变量之间的相关性、x2的波动。回归标准差σ02体现了模型中噪音的成分，噪音越多（σ02越大），那么解释变量的影响就越难以判断，估计量的就越不准确。σ02是一个总体概念，与样本无关。但它是未知的，在后面的章节推导出其无偏估计量。给定被解释变量y，要想降低σ2，那就需要将更多的成分从随机扰动项中提取出来，方法只有一个：加入新的解释变量。但加入新的变量并不总是有效的，后面的章节还会详细地加以解释。Ri2体现了xi与其他解释变量的线性相关程度。相关程度越高，Ri2就越高，就越大。当Ri2→1时，→∝。这时，我们称之为多重共线性(multicollinearity)。当然，如果部分解释变量之间存在多重共线性，不会影响其他的参数估计。比如，在下面的模型中：yt=0+1x1t+2x2t+3x3t+ut如果x2t与x3t高度相关，那么和会比较大。但x2t与x3t的相关性对没有影响。事实上，如果x1t、x2t都与x3t不相关，即R12→0，那么＝σ2/SST1，与x2t、x3t之间的相关性没有任何关系。因此，如果模型关注的是x1t，那么就没有必要在乎x2t、x3t之间的多重共线性问题。给定其他条件不变的情况下，xi的离差平方和越大，的方差越小。提高xi的离差平方和的方法是增加样本容量。当样本容量不断增加时，离差平方和可以无限大，可以有力地降低的方差。ArthurGoldberger针对人们面临多重共线性问题的困扰提出了小样本问题（micronumerosity），参见Goldberger(1991)。区间估计我们已经知道了的分布形式，如果进行区间估计的话，还需要估计。根据前文所述，=Mu。残差平方和为STYLEREF1\s1.SEQ公式\*ARABIC\s130则残差的方差估计量STYLEREF1\s1.SEQ公式\*ARABIC\s131因s2是一个标量，所以有STYLEREF1\s1.SEQ公式\*ARABIC\s132其中tr()表示矩阵的迹。tr(I)=T，tr(X(X'X)-1X')=k+1。因为对于矩阵ABC有tr(ABC)=tr(BCA)=tr(CAB)，所以tr(X(X'X)-1X')=tr((X'X)-1X'X)=tr(I)=k+1。由此可见s2是的无偏估计量。得到了的方差估计量，就可以构建区间估计了。方法与第一章相同，此处不予赘述。残差的分布接下来我们进一步考察残差的特征。上面我们利用残差估计随机误差项的方差，后面很多统计检验都要利用残差。由，可以得到几个基本结论。（1）每个残差都是所有误差项的线性组合。因此，虽然u同方差、无序列相关，但是异方差、存在序列相关的。（2）。因此，残差的方差小于随机误差项的方差。杠杆越高的观测值，残差的方差越小。与之相关联的另外两种残差为标准化残差与学生化残差。标准化残差为，学生化残差为。其中，表示删除第i个观测值后误差项的标准差。标准化的回归系数参数估计量是有量纲的，因此不能直接比较不同解释变量的相对重要性。如果要比较不同变量的相对重要性，可以首先将所有的解释变量进行标准化，这样便将其转换为没有量纲的概念了。,,然后利用标准化后的解释变量进行回归，标准化的回归系数消除了量纲，可以直接用于比较不同变量重要性。思考题：标准化的回归系数与最初模型的回归系数(0,0,…,k)存在什么关系？例STYLEREF1\s1.SEQ例\*ARABIC\s11考察CEO年薪方程Salary=0+1roe+2sale+3ros+u其中，salary表示CEO年薪（千美元），roe为前三年的平均资产收益率（%），sale表示公司销售额（百万美元），ros表示股票收益率（%）。（数据文件：ceosal）（1）计算OLS估计量、95%的置信区间。.regresssalaryroesaleros,level(95)noheader（2）计算残差、标准化残差、学生化残差；观察每个指标的描述指标 .predictres,residual .predictres_std,rstandard .predictres_stu,rstudent .summresres_*例STYLEREF1\s1.SEQ例\*ARABIC\s12估计工资收入方程，wage=0+1educ+2exper+3tenure+u其中，wage表示工资（千美元），educ表示接受教育的程度（年），exper表示工龄（年），tenure表示在现有岗位的任职时间（年）。（数据文件：wage1）（1）计算OLS估计量、99%的置信区间。.regresswageeducexperexpersqage,level(99)noheader（2）计算标准化的回归系数.regresswageeducexperexpersqage,betalevel(95)noheader模型检验拟合优度y的变化由两部分引起，一是解释变量X=（x1,x2,…,xk）（注意，X不包括常数项），二是随机误差项。那么解释变量与误差项对y的变化所作的贡献如何衡量呢？拟合优度即回归线对散点的拟合程度。回归线拟合散点的程度越好，则表明解释变量对y的解释能力就越强。可决系数考虑如下两个模型：模型中不包括X只有常数项时，的OLS估计量为，残差为。将X纳入模型之后，得到的残差项为。由于X的加入，使得模型的误差项缩小了。这即是被X所解释的部分。因此，可以通过被X所解释的部分在y的离差中所占比例来衡量X对y的解释能力。总离差平方和,STYLEREF1\s1.SEQ公式\*ARABIC\s133回归平方和为由回归直线的性质：y与的均值相同，可得，因此回归平方和又可以写为：STYLEREF1\s1.SEQ公式\*ARABIC\s134残差平方和为STYLEREF1\s1.SEQ公式\*ARABIC\s135则有如下关系存在，SST=SSR+SSESTYLEREF1\s1.SEQ公式\*ARABIC\s136证明：由于，因此STYLEREF1\s1.SEQ公式\*ARABIC\s137平方和除以它相应的自由度称为均方。回归均方定义为MSR=SSR/k，误差均方定义为MSE=SSE/(T-k-1)（即随机误差项的方差估计量）。拟合优度R2计算的变差占y的变差的比值是评价一个估计模型优劣的方法之一。多重可决系数定义如下： STYLEREF1\s1.SEQ公式\*ARABIC\s138显然有0R21。R2越接近1，估计的回归函数对样本点的拟合优度越好，即解释变量对被解释变量的解释作用越强。调整的拟合优度对于给定的样本值yt，总离差平方和是固定不变的。但随着模型中解释变量个数的增加，残差平方和逐渐减小，因此可决系数R2逐渐增加。结论1：增加解释变量时，残差平方和的变化。在模型中加入新的解释变量z时，的残差平方和为：STYLEREF1\s1.SEQ公式\*ARABIC\s139其中，表示的残差平方和，表示的残差平方和，表示z对X回归的残差平方和。证明：设的回归结果为。根据分块矩阵的估计公式，，可得：STYLEREF1\s1.SEQ公式\*ARABIC\s140因此，STYLEREF1\s1.SEQ公式\*ARABIC\s141新模型的残差平方和为：STYLEREF1\s1.SEQ公式\*ARABIC\s142根据Frisch-Waugh定理，STYLEREF1\s1.SEQ公式\*ARABIC\s143即。因此，STYLEREF1\s1.SEQ公式\*ARABIC\s144结论2：增加解释变量时，可决系数的变化由上述结论，STYLEREF1\s1.SEQ公式\*ARABIC\s145其中，表示控制变量X时y与z的偏相关系数。上式两边同时除以总离差平方和，可得STYLEREF1\s1.SEQ公式\*ARABIC\s146因此，当模型中加入新的解释变量的时候，模型的残差平方和总是递减的，可决系数总是递增的。为考虑模型中解释变量个数的变化对R2的影响，定义调整的多重可决系数如下，STYLEREF1\s1.SEQ公式\*ARABIC\s147当在模型中增加解释变量时，SSE将减小，同时T-k-1也减小。从而使SSE的减小量得到一定补偿。通常的值比R2小。有时还会出现取负值的情况。增加新的解释变量时，可能会增加，也可能会降低。这取决于新的解释变量对y的解释能力。结论3：增加解释变量时，调整的可决系数的变化。如果新增加的变量的t统计量大于（小于）1，则模型的调整的可决系数会增加（下降）。非中心化的R2当模型中没有常数项时，的均值不一定为0，y与的均值也不一定相同。因此，等式SST=SSR+SSE不一定成立，即总离差平方和（SST）不能分解为回归平方和（SSR）与残差平方和（SSE）两部分。这时R2可能会出现负值或者大于1的情况。这时可采用非中心化的拟合优度。我们知道，（2.44）式总是成立的，即y的平方和恰好分解为拟合值的平方和与残差平方和。定义非中心化的可决系数为：STYLEREF1\s1.SEQ公式\*ARABIC\s148对比可决系数与非中心化的可决系数可以看出，如果模型中存在常数项，当y的均值为0时，二者是完全相同的。对y进行线性变换y*=by，则Ru2不变。即，y由以米为单位变为以厘米为单位，或者以公斤为单位变为以斤为单位不会改变Ru2。如果对y进行线性变换y*=al+y，则Ru2会发生相应的变化。X中不包括常数项。当a增加时，Ru2也随之增加。因此，当模型中包含常数项时，如果常数项比较大，则Ru2会比较高。但Ru2更多地是由常数项带来的，并没有直观的经济意义。因此，在解释模型的可决系数或非中心化的可决系数时，首先要明确Ru2的计算方法及其可能存在的问题，避免对模型的错误解读。例STYLEREF1\s1.SEQ例\*ARABIC\s13计算例1.1的方差分析表及R2等指标。.regressceosalret例STYLEREF1\s1.SEQ例\*ARABIC\s14计算例1.2的方差分析表及R2等指标。.regresswageeducexperexpersqage整个方程的显著性检验假定4：随机误差项服从正态分布。当检验被解释变量yt与一组解释变量x1,x2,...,xk是否存在回归关系时，给出的零假设与备择假设分别是H0：1=2=...=k=0；H1：i,i=1,...,k不全为零。检验思路：无约束模型为：yt=0+1x1t+2x2t+…+kxkt+ut，（a）受约束模型：yt=0+vt（b）如果原假设成立，那么模型（a）中的参数1,…,k均不显著，模型（a）与模型（b）的残差平方和近似相等。如果备择假设成立，那么模型（a）中至少有一个变量是显著的，而模型（b）中的随机扰动项ut包含了这些显著性的变量，因此模型（b）的残差平方和会明显高于模型（a）的残差平方和。模型（a）的残差平方和表示为SSEU（其中U表示没有约束（Unrestricted））模型（b）的残差平方和表示为SSER（其中R表示带有约束（Restricted））因此，可以根据残差项方差的变化来检验假设是否是正确的。如果（SSER-SSEU）比较大（小），则倾向于拒绝（接受）原假设。正式的统计检验是通过构建如下F统计量来完成的。STYLEREF1\s1.SEQ公式\*ARABIC\s149在H0成立条件下，有FF(k,T–k–1)由检验思路可以看出，F统计量越大（小），我们越倾向于拒绝（接受）原假设。因此，这是右单端检验。检验可以临界值方法和构建p值的方法来完成。设检验水平为，检验规则如下。临界值法：若FF(k,T–k–1)，则接受H0；若F>F(k,T–k–1)，则拒绝H0。P值法：若P(x>F)>α，接受H0；若P(x>F)<α，，拒绝H0。拒绝H0意味着肯定有解释变量与yt存在回归关系。若F检验的结论是接受H0，则说明k个解释变量都不与yt存在回归关系。此时，假设检验应该到此为止。当F检验的结论是拒绝H0时，应该进一步做t检验，从而确定模型中哪些是重要解释变量，哪些是非重要解释变量。检验统计量还可以写为另外一种形式。约束模型（b）中的0估计量为，因此，其残差平方和又等于离差平方和SST。因此，F统计量又可以写为：STYLEREF1\s1.SEQ公式\*ARABIC\s150其中，SSRU表示无约束模型的回归平方和。注：当模型中没有常数项时，Stata输出的R2为非中心化R2；而F统计量也是基于非中心化的F统计量，即(SSR/k)/[SSE/(n-k)]。思考题：证明，在一元回归模型中，F统计量与t统计量存在关系：F=t2？单个回归参数的约束检验当F检验拒绝H0时，并不见得每个解释变量都对yt有显著的解释作用（即不见得每一个都是重要解释变量），所以还应对每个解释变量的系数进行显著性检验。检验统计量为：STYLEREF1\s1.SEQ公式\*ARABIC\s151结论：在基本假定1~4的条件下，上式中的t统计量服从（N-K-1）个自由度的t分布。证明：令，由可知，。STYLEREF1\s1.SEQ公式\*ARABIC\s152如果，并且与zj独立的话，就可以证明上述结论。STYLEREF1\s1.SEQ公式\*ARABIC\s153根据概率统计中的两个基本结论：（1）如果向量，A为幂等矩阵，则，即自由度为矩阵A的秩；（2）如果A为幂等矩阵，则Rank(A)=Trace(A)以及基本假定，可得：由可得Trace(M)=N-K-1。因此，的自由度为N-K-1。由及，可得，STYLEREF1\s1.SEQ公式\*ARABIC\s154综上所述，可得到结论：检验的判别方法与简单线性模型的完全相同，此处不予赘述。线性约束检验与整个方程的显著性相类似，如果仅对其中部分变量的联合显著性进行检验，也可以按照相同的思路利用F检验来进行。将所有的解释变量分解为两部分，X1=(1,x1,x2,…,xJ)和X2=(xJ+1,…,xK)。模型重新表述为：y=X1β1+X2β2+uSTYLEREF1\s1.SEQ公式\*ARABIC\s155其中，共有K个变量，其中X1含有K1个变量，X2含有K2个变量，K=K1+K2。原假设与备择假设分别是H0：β2=0；H1：β2≠0。无约束模型为：y=X1β1+X2β2+uSTYLEREF1\s1.SEQ公式\*ARABIC\s156受约束模型为：y=X1β1+uSTYLEREF1\s1.SEQ公式\*ARABIC\s157如果原假设成立，则无约束模型的残差平方不能明显地提高模型的解释能力；如果备择假设成立，能无约束模型应明显地降低受约束模型的残差平方和。F统计量为：STYLEREF1\s1.SEQ公式\*ARABIC\s158在H0成立条件下，有FF(K2,T–K判断规则与整个方程的判断规则完全相同。例STYLEREF1\s1.SEQ例\*ARABIC\s15在例1.2中，利用F统计量检验变量educ、tenure的联合显著性.testeducexper多个变量的显著性检验－LM检验拉格朗日乘子检验是检验多个变量联合显著性的另外一种常用方法。其基本思路如下。在无约束模型中，随机扰动项u与X2不相关。如果原假设成立，利用受约束模型得到的残差项与X2也不相关。但如果原假设不成立，利用受约束模型得到的残差项与X2就会出现高度相关。LM检验步骤如下。Step1：回归受约束模型，提取残差项；Step2：利用OLS方法回归辅助方程：，记其拟合优度为；Step3：LM统计量（也称为得分统计量）为：。需要注意的是，（1）在辅助回归方程中，虽然与X1是正交的，也要把X1放在模型中；否则，检验统计量不再渐进服从卡方分布。（2）常数项包含在X1中，如果X1中不包含常数项，则采用非中心化的可决系数。事实上，因为为0均值，因此，X1包含常数项的时候，可决系数与非中心化的可决系数是相同的。线性约束的F检验线性约束检验是指检验回归系数的某个或某几个线性组合。对于模型y=X1β1+X2β2+u原假设形式为：H0：其中，R为J×K矩阵，J表示对K个参数的J个线性约束。对于上述原假设构建F统计量STYLEREF1\s1.SEQ公式\*ARABIC\s159结论：假定1~4成立，如果原假设成立，则上述F统计量服从自由度为（J，N-K）的F分布。证明：将F统计量写为：STYLEREF1\s1.SEQ公式\*ARABIC\s160令。前文已经证明。现在只需要证明w服从卡方分布，且与相互独立即可。令，如果原假设成立，则。其期望和方差分别为：根据结论：如果n维随机向量，则，可得。w是的函数，而是的函数。前文已经证明，与是独立的。因此，w与也相互独立。综上所述，。检验步骤如下。Step1：根据上式计算F统计量。Step2：根据对应自由度的F分布查临界值Fcrit。Step3：如果F>Fcrit，则拒绝原假设；否则，接受原假设。实际上，前面的整个方程的显著性检验、部分参数的联合显著性检验、单个参数的显著性检验都是线性约束检验的特殊形式。比如，在模型lwage=0+1exper+2educ+u检验1=0，即检验1=2=0，即检验1=2，即1个自由度的t分布的平方为1个自由度的卡方分布，因此如果只有一个约束时，。因此，对于参数关系的单个约束也可以利用t检验来完成。例STYLEREF1\s1.SEQ例\*ARABIC\s16教育（educ）和工作时间（tenure）的对工资的影响相同，即检验：1=2。.testeduc=tenure工龄（exper）对工资没有影响，即检验：3=0。.testexper对上面两个假设进行联合检验，即检验：1=2，3=0。.testeduc=tenureexper说明：与整个方程的显著性相类似，线性约束的F统计量也是通过比较受约束模型与无约束模型的残差平方和来构建。无约束模型：受约束模型：对于受约束模型的OLS估计，最小化残差平方和STYLEREF1\s1.SEQ公式\*ARABIC\s161STYLEREF1\s1.SEQ公式\*ARABIC\s162利用分块矩阵求解，可得：STYLEREF1\s1.SEQ公式\*ARABIC\s163残差项为：STYLEREF1\s1.SEQ公式\*ARABIC\s164受约束模型的残差平方和为：STYLEREF1\s1.SEQ公式\*ARABIC\s165由（2.71）式，STYLEREF1\s1.SEQ公式\*ARABIC\s166STYLEREF1\s1.SEQ公式\*ARABIC\s167故而可得无约束模型与受约束模型的残差平方和的差为：STYLEREF1\s1.SEQ公式\*ARABIC\s168检验统计量为：STYLEREF1\s1.SEQ公式\*ARABIC\s169判别方法与整个方程的显著性检验相同。（非）线性约束的Wald检验对于一般的参数约束（包括线性约束和非线性约束）的检验的另外一种常见的方法是Wald检验。原假设为：H0：Wald检验统计量为STYLEREF1\s1.SEQ公式\*ARABIC\s170根据Delta方法（参见附录：概率统计），，其中，STYLEREF1\s1.SEQ公式\*ARABIC\s171因此，Wald统计量又可以写为：STYLEREF1\s1.SEQ公式\*ARABIC\s172结论：如果原假设成立，则Wald统计量渐进服从J个自由度的卡方分布，J表示约束条件的个数。如果参数约束为线性形式，即H0：。则因此，Wald统计量为事实上，F统计量与Wald统计量之间的关系是渐进等价的。由，F与具有相同的极限分布。而Wald统计量中，因此，JW*正是Wald统计量。也就是说，JF与Wald统计量都渐进服从J个自由度的卡方分布。例STYLEREF1\s1.SEQ例\*ARABIC\s17在消费模型：const=0+1inct+2const-1+ut中，长期边际消费倾向MPC=1/(1-2)，利用数据估计模型，并检验MPC>1；H0：MPC≥1；H1：MPC<1约束形式为：Wald统计量为：.regressconspgdppL.gdpp.testnl_b[gdpp]*(1-_b[L.gdpp])=1可得：F=105.45，拒绝原假设。模型的设定分析上面所分析的估计量的统计特征都是基于模型设定准确的前提。如果模型设定错误，那么会直接影响到参数估计量的统计分布特征。这里，我们介绍两种情形，过度设定和欠设定。过度设定如果模型的解释变量中加入了本来与y不相关的变量xj，我们称之为过度设定(overspecify)。设真实DGP为但模型设定为：根据FML定理，期望值和方差分别为：如果模型设定正确，即，则其估计量的方差为。由可知，。即模型中加入多余的变量，不会影响参数估计量的无偏性，但会影响有效性。除非，即X与Z正交，则。但在一般情况下，解释变量会存在一定程度的相关。而且，加入的多余变量越多，则估计量的方差越大，越不准确。欠设定与过度设定相对应，如果把本来与y相关的变量排除在模型之外，那么我们称之为欠设定(underspecifying)。设真实DGP为模型设定为：OLS估计量的期望为参数估计量的偏差取决于两个因素，Z对X回归的系数以及Z对y的回归系数。Z对X的影响越大，或者Z对y的影响越大，都将导致参数估计量较大偏差。只有或时，参数估计量才具有无偏性。由于估计量是有偏的，用均方误差（MeanSquaredError）计算估计量的精确度。对于无偏估计量，均方误差等于方差。可以计算出，估计量的MSE为相对于过度设定模型，欠设定模型的均方误差可能更有效、也可能非有效，取决于上述公式的第二部分的大小。例STYLEREF1\s1.SEQ例\*ARABIC\s18利用蒙特卡罗模拟考察模型过度设定与欠设定对参数估计量的影响。假设DGP为y=10+2x1+5x2+u，其中，x1与x2的相关系数为0.6，u~NIID(0,1)。模型1设定为y=0+1x1+2x2+u，模型2设定为y=0+1x1+u，模型3设定为y=0+1x1+2x2+3x3+u。x1与x3的相关系数为0.1，x2与x3的相关系数为0.3。每次生成200个观测值，模拟1000次，观察模型1、2、3的参数估计量的分布。（程序文件：spec.ado）.simulateunder_b=(r(under_b))under_se=(r(under_se))c_b=(r(c_b))c_se=(r(c_se))over_b=(r(over_b))over_se=(r(over_se)),reps(1000)nodots:spec.twoway(kdensityunder_b,lpattern(dot))(kdensityc_b,lpattern(solid))(kdensityover_b,lpattern(dash))异常点检测异常点是指对估计量具有较大影响的观测值，即如果删除某个观测值会引起估计量的较大变化。删除第i个观测值后，参数估计量为：可以等价地表述为：。其中，，即映射矩阵的第i个对角元素，称为杠杆。因此，第i个观测值对估计量的影响取决于一个很关键的因素，即hi。hi介于[0，1]，且和为k+1。如果一个观测值具有较大的杠杆，则它对估计量具有较大的潜在影响。同样地可以求出，删除第i个观测值的残差为：DFITS（WelschandKuh，1977）、Cook距离（Cook，1977）和Welsch距离（Welsch，1982）、COVRATIO（Belsley,KuhandWelsch（1980））都是描述杠杆与残差平方之间关系的统计量。，体现了用保留与删除第i个观测值的样本分别估计方程的拟合值的差异；Cook距离与Welsch距离体现了删除第i个观测值后系数向量之间的距离，Cook距离，Welsch距离。COVRATIO是Belsley,KuhandWelsch（1980）提出的测度单个观测值对估计量协方差矩阵影响的统计量，它等于用保留与删除第i个观测值的样本分别估计方程的协方差矩阵的行列式的比，其中，e表示标准化的残差。对于正常的观测值，COVRATIO近似等于1。较高的残差或较高的杠杆率都会导致COVRATIO偏离1。但如果残差和杠杆率都比较高，那么COVRATIO也近似等于1，这时就无法利用COVRATIO判断异常值。DFBETA是测度不同解释变量的单个观测值对模型估计影响的最直接的统计量，它等于用保留与删除第i个观测值的样本别估计方程的标准化参数的差异。其中，表示用xj对其它解释变量回归得到的残差。如果DFITS超过（Belskey,KuhandWelsch(1980)），或者Cook距离超过4/n（BollenandJackman，1990），或者Welsch距离超过（ChatterjeeandHadi，1988），或者（Belsley,KuhandWelsch（1980））、或者DFBETA超过，都是值得关注或作进一步考察的样本点。其中，k表示模型中的解释变量个数（包括常数项）。例STYLEREF1\s1.SEQ例\*ARABIC\s19利用DFBETA、CORATIO等统计量考察例1.1的异常点（1）利用杠杆-残差平方图进行观察 .regresssalaryroesaleros .lvr2plot,mlabel(code)（2）利用DFITS、Cook距离、Welsch距离、COVRATIO、DFBETA统计量进行观察。 .predictdfits,dfits .listcoderoesalerosifabs(dfits)>2*sqrt(4/209) .predictcooksdife(sample),cooksd .listcoderoesaleroscooksdifcooksd>4/209 .predictwelsch,welsch .listcoderoesaleroswelschifabs(welsch)>3*sqrt(4) .predictcovratio,covratio .listcoderoesaleroscovratioifabs(covratio-1)>=3*4/209 .predictdfbeta,dfbeta(ret) .listcoderoesalerosdfbetaifabs(dfbeta)>2/sqrt(209)虚拟变量在实际建模过程中，被解释变量不但受定量变量影响，同时还有可能受定性变量的影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些定性变量也应该包括在模型中。计量经济学是利用数据研究经济学问题，因此，在对这些定性变量进行模型估计之前首先需要将其量化，即用一定的数值代表其观测值。不同的类型的变量被量化的程度是有差异的，定性变量在量化时所代表的信息是最少的。定性变量的量化称为虚拟变量，即将分类变量转换为二元指示变量。虚拟变量在模型中可以作为解释变量，也可以作为被解释变量。本节中所处理的是虚拟变量作为解释变量的情况。虚拟变量如果一个变量具有m个类别，可以设定m个虚拟变量。比如，性别设定为如下形式：，。学历（分为大学、中学、小学三个类别）设定为如下形式：，，但是，要注意到male+female=l，univ+high+elem=l，即虚拟变量之和恰好等于模型中的常数变量。因此，对于m个类别的分类变量，可以按照两种方法加以设定。保留模型中的常数变量，仅加入（m-1）个虚拟变量；或者m个虚拟变量全部作为解释变量，将常数项删掉。被删掉的虚拟变量中1所对应的类别称作基础类别。比如，季节虚拟变量，,,,模型设定为（X不包括常数变量）STYLEREF1\s1.SEQ公式\*ARABIC\s173第1、2、3、4季度所对应的回归方程的截距项分别为1、2、3、4。虚拟变量的系数表示对应类别的回归方程的系数。如果将模型设定如下（以第1季度作为基础类别）STYLEREF1\s1.SEQ公式\*ARABIC\s174上面两个方程是完全等价的。将D1+D2+D3+D4=l代入模型，可得到两个方程系数的对应关系。因此，模型（1.74）中的常数项表示基础类别的回归方程的系数，虚拟变量表示其它类别与基础类别回归系数的差异。例STYLEREF1\s1.SEQ例\*ARABIC\s110随机调查美国旧金山地区20个家庭的储蓄情况，建立年储蓄额yt(千美元)对年收入xt(千美元)的回归模型。（数据文件：save）观察两个变量的散点图，用是否租房作为标签加以标记。.twoway(scattersaveincome,mlabel(rent))显然，租房家庭与有房家庭的储蓄行为存放明显区别。模型中加入虚拟变量，rent，对于租房家庭，rent=0，对于有房家庭，rent=1。重新回归方程，.regresssaveincomerent例STYLEREF1\s1.SEQ例\*ARABIC\s111在例1.1中，加入行业虚拟变量，重新回归方程。（数据文件：ceosal）。.regresssalarysalesroeindus-utility例STYLEREF1\s1.SEQ例\*ARABIC\s112在例1.2中加入性别、种族变量，重新回归方程。（数据文件：wage1）.regresswageeducexpertenurefemalenowhite例STYLEREF1\s1.SEQ例\*ARABIC\s124NationalOpinionResearchCenter’sGeneralSocialSurvey搜集了1972~1984年妇女就业、家庭等相关数据。利用数据分析家庭小孩个数的变化规律。控制变量包括：教育程度、年龄、种族、地区、生活环境（农村、城镇、小城市等）。（数据文件：fertil1）kids=0+1educ+2age+3age2+4race+5farm+6town+7D74+8D76+9D78+10D80+11D82+12D84+ut.regresskidseduc-d84季节虚拟变量季节波动是很多季度数据的共同特点。对季节数据进行计量分析时，需要首先对其进行季节调整，消除其季节波动成分，利用季节调整后的序列进行分析。季节调整的方法如下。回归模型：其中，S表示季节虚拟变量构成的向量。季节调整的序列则为：或者如果要同时消除序列的季节成分和趋势成分，则可以将模型为：其中，t表示时间趋势变量。季节调整的退势序列则为：或者例STYLEREF1\s1.SEQ例\*ARABIC\s114首先对天津市1998~2006年的季度GDP、投资等数据进行季节调整，然后对季节调整的投资对季节调整的GDP进行回归，Invest_sa=0+1GDP_sa+u。（数据文件：tjpbc2）.xi:regressgdpi.month.predictgdp_sa,res.summgdp.replacegdp_sa=gdp_sa+r(mean).xi:regressinvesti.month.predictinvest_sa,res.summinvest.replaceinvest_sa=invest_sa+r(mean).regressinvest_saL.gdp_sa处理季节数据的另外一种方法是，直接在模型中加入季节虚拟变量，Invest=0+1GDP+2S1+3S2+4S3+u，事实上，首先进行季节调整，然后利用季节调整序列进行分析，与在模型中直接加入季节虚拟变量是等价的。根据FML定理，(1)中的可以通过回归如下方程得到，(2)而Msy和MsX即是季节调整后的序列。因此，体现了经过季节调整序列的X对季节调整序列y的边际影响。对于时间序列数据，采用季节调整序列(2)、与模型中加入季节虚拟变量(1)，得到相同的估计量。例STYLEREF1\s1.SEQ例\*ARABIC\s115用天津市季度GDP对季度投资数据进行回归，模型中加入季节虚拟变量。（数据文件：tjpbc2）.regressInvestGDPi.month当然，实践中官方公布的季节调整数据不是简单地利用虚拟变量来进行处理的。因此，利用其季节调整序列与在模型中直接加入虚拟变量会得到不同的估计结果。线性回归模型的结构分析结构模型中，考察变量结构关系的两个常用概念是边际与弹性。前文所介绍线性模型中，变量x对y的边际影响是常数。接下来我们来看在其它几种常见模型中的结构解释。对数模型先来考察几种常见对数模型。对数函数：yt=0+1Lnxt+utSTYLEREF1\s1.SEQ公式\*ARABIC\s175指数函数：Lnyt=β0+β1xt+utSTYLEREF1\s1.SEQ公式\*ARABIC\s176幂函数：Lnyt=β0+β1Lnxt+utSTYLEREF1\s1.SEQ公式\*ARABIC\s177其中Ln表示自然对数。方程（1.75）中，y与x是对数函数；方程（1.76）中，y与x是指数函数；方程（1.77）中，y与x是幂函数。这些方程中，被解释变量关于参数都是线性的，因此可以直接进行OLS估计、检验。对方程求偏导数可得：dy=1dx/xSTYLEREF1\s1.SEQ公式\*ARABIC\s178dy/y=1dxSTYLEREF1\s1.SEQ公式\*ARABIC\s179d/y/y=1dx/xSTYLEREF1\s1.SEQ公式\*ARABIC\s180dx表示x的变化量，dx/x表示x的变化率。因此，模型（1.75）的经济含义为：其他条件不变时，x每变化100%，y相应变化β1个单位；即x每变化1%，y相应变化β1/100个单位。模型（1.76）的经济含义为：x每变化1个单位，y相应变化100β1%。模型（1.77）的经济含义为：即x每变化1%，y相应变化β1%个单位。在指数模型中，参数体现的y的变化率，而这一变化率为常数，因此也被称作常数增长率模型。下表列出了几种模型设定形式的经济解释模型形式含义经济解释yt=β0+β1xt+utdy=β1dxx变化一个单位，y变化β1个单位yt=β0+β1Ln(xt)+utdy=β1dx/xx变化1%，y变化β1/100个单位Ln(yt)=β0+β1xt+utdy/y=β1dxx变化一个单位，y变化(100β1)%Ln(yt)=β0+β1Ln(xt)+utdy/y=β1dx/xx变化1%，y变化β1%对变量取自然对数是对经济数据处理的常用方法。一方面，变量取自然对数后，参数体现了变化率或弹性的概念。另一方面，取自然对数有助于降低变量的波动，消除异方差。其三，对于时间序列，变量自然对数的差分变量近似表示变量的增长率。当然，并不是所有的变量都适合取对数。如果变量不适合以增长率来表述，则不适合取对数。比如，以时间为测度单位变量，如受教育的年数、年龄、工龄等。比率变量一般倾向于不取对数。比如失业率、犯罪率、入学率等。如果对其取对数形式，那么一定要注意其经济解释。比如，设GDP增长率对失业率回归Gowth=+Unem+u二者均以增长率（%）表示，设最初的失业率为8%。回归系数β解释为当失业率增加一个百分点的时候，即由8%增加至9%的时候，GDP增长率会变化β个百分点。如果失业率取对数形式，Gowth=+ln(Unem)+u那么回归系数β应解释为当失业率变动1%的时候，即由8%增加至8%(1+1%)=8.08%的时候，GDP增长率会变化β/100个百分点。当变量y为非负数时，可以采用ln(y+1)作为y的对数变量。除了0点以外，在其他点上，对系数的经济解释不变。上述模型中，变量取自然对数表示变化率的概念。这里的变化率是针对连续变量的情况。也可以计算离散情况下的变化率。比如，模型Ln(yi)=β0+β1xi+ui，x变化一个单位时，ln(y)变化β1。设新的取值为yf。即，可得，变化率为。例STYLEREF1\s1.SEQ例\*ARABIC\s116工资收入模型Ln(wage)=0+1educ+2exper+3tenure+4female+5nowhte+u回归模型.regresslnwageeducexpertenurefemalenowhite可以根据公式计算出比较精确的工资差异。实际上，对变量取对数除了体现其变化率的概念之外，对于很多数据带来另外一种好处，即降低变量的有偏分布，使其接近于正态分布。我们可以观察对数工资的分布图，并与工资的分布做比较。.histogramwage,normal.histogramlnwage,normal.tabstatsalarylnsalary,statistics(skewnesskurtosis).sktestsalarylnsalary偏度和峰度指标以及正态分布检验统计量显示，虽然工资取对数后仍然不服从正态分布，但相对与工资来讲，情况已经改善了很多。例STYLEREF1\s1.SEQ例\*ARABIC\s117常数增长率模型由于指数模型的回归系数表示y的变化率，而这一变化率是常数，因此指数模型在时间序列中的一个重要应用是常数增长率模型（即变量的增长率为常数）。Ln(yt)=ln(y0)+ln(1+g)*t=+t表示y的连续增长率，可以根据公式计算离散增长率。以利用常数增长率模型计算我国1952-2002年期间的经济增长率。（数据文件：cnmaro）。.genlny=ln(y).gentime=_n.regresslnytime年均（离散）增长率为=0.08。附：设y的增长率为常数g，那么y的变化曲线为： yt=y0(1+g)t两边取对数，可以得到：Ln(yt)=ln(y0)+ln(1+g)*t=+t其中，=ln(y0)，=ln(1+g)代表y的连续增长率，而g代表了y的离散增长率，g=。例STYLEREF1\s1.SEQ例\*ARABIC\s118利用ZellnerandRevankar(1970)美国制造业的数据进行如下分析。变量包括：valueadd=各个州机械制造业的产出增加值，nfirm=各个州的企业个数，capital=各个州的企业资本，labor=各个州的企业劳动力。（数据文件：zellner）（1）估计CD生产函数.genlny=ln(valueadded/nfirm).genlnk=ln(capital/nfirm).genlnl=ln(labor/nfirm).regresslnylnklnl,noheader（2）计算模型的拟合值、残差项，并作图。.predictlny_f,xb.predictlny_fse,stdp.scatterlnylny_f（3）检验假设：行业处于规模报酬不变的状态。.testlnk+lnl=1例STYLEREF1\s1.SEQ例\*ARABIC\s119利用ChristensenandGreene(1976)数据（文件：christensen.dta），估计如下成本函数Ln(Cost)=0+1Ln(Q)+2Ln(Plabor)+3Ln(Pcapital)+4Ln(Pfuel)+u根据经济理论，1体现了规模收益，而2+3+4=1。.regresslncostlnqlnpllnpklnpf.testlnpl+lnpk+lnpf=1.testlnq=1多项式模型如果模型中的解释变量含有某个变量的多项式函数，则称之为多项式函数模型。二次多项式和三次多项式是两种常见的多项式函数。三次多项式模型：y=b0+b1x+b2x2+b3x3+uSTYLEREF1\s1.SEQ公式\*ARABIC\s181二次多项式模型：y=b0+b1x+b2x2+uSTYLEREF1\s1.SEQ公式\*ARABIC\s182比如，拉弗曲线、库兹涅茨倒U曲线、平均成本与产量都表现为二次多项式关系，总成本与产量表现为三次多项式关系。多项式模型体现了x对y的非线性影响。比如，在二次多项式模型中，x与y之间表现为抛物线形状，x对y的边际影响为b1+2b2x。x对y的影响取决于x的取值。如果b2为负值，则表明x对y的边际影响是递减的。例STYLEREF1\s1.SEQ例\*ARABIC\s120工资收入模型中加入工龄的平方项，重新回归方程。log(wage)=0+1educ+2exper+3tenure+4exper2+u.genexpersq=exper^2.regreslnwageeducexperexpersqtenure交叉积模型如果变量x1对y的影响依赖于另外一个变量x2，则我们称x1与x2存在交叉影响。模型中用交叉积来体现变量的交叉影响。比如，模型x1对y的边际影响为。即，x1对y的影响直接取决于x2的取值。交叉效应中一种常见形式是带有虚拟变量的情况，或者是一个连续变量与虚拟变量的交叉积，或者是两个虚拟变量的交叉积。例STYLEREF1\s1.SEQ例\*ARABIC\s121在储蓄方程的案例中，加入虚拟变量与收入的交叉积。Save=0+1Rent+2Income+3RentIncome+u其中，1体现了租房家庭与有房家庭在截距项的差异，即相同收入水平上的有房家庭比租房家庭的储蓄额高出1。2体现了租房家庭与有房家庭的收入对储蓄的边际影响的差异，即有房家庭比租房家庭的边际储蓄倾向高出2。.genrent_inc=rent*income.regresssaveincomerentrent_inc例STYLEREF1\s1.SEQ例\*ARABIC\s122在工资收入方程中，加入性别与种族的交叉积，Ln(Wage)=0+1Educ+2Exper+3Tenure+4Female+5Nowhite+6Female*nowhite+u4体现了工资的性别差异，5体现了工资的种族差异，5体现了性别差异在不同种族也不同。.genfem_now=female*nowhite.regresslnwageeducexpertenurefemalenowhitefem_now例STYLEREF1\s1.SEQ例\*ARABIC\s123利用ZellnerandRevankar(1970)数据估计超对数生产函数Ln(Q)=0+1Ln(L)+2Ln(K)+3Ln2(L)+4Ln2(K)+5Ln(L)Ln(K)+u.regresslnqlnllnklnlsqlnksqlnllnk估计资本和劳动力的产出弹性，并对CD生产函数进行约束检验。劳动力的产出弹性为(L)=1+23Ln(L)+5Ln(K)，资本的产出弹性为(K)=2+24Ln(K)+5Ln(L)，规模报酬系数为(L)+(K)。约束3=4=5，得到了CD生产函数。.testlnlsqlnksqlnllnk例STYLEREF1\s1.SEQ例\*ARABIC\s125考察教育程度、性别对工资的影响。数据包含了1975、1985年的调查数据。（数据文件：cps78_85）模型设定：log(wage)=0+1y85+2educ+3y85educ+4exper+5union+6female+7y8

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Chapter1线性回归模型的OLS估计

文档简介

温馨提示

最新文档

评论

Chapter1线性回归模型的OLS估计

文档简介

温馨提示

最新文档

评论

相关文档