stata面板数据计量知识和参考资料

上传人：新*** IP属地：河北上传时间：2024-05-19 格式：PDF 页数：139 大小：15.64MB 积分：12 举报 版权申诉

已阅读5页，还剩134页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

计量知识:

1、横截面数据、时间序列、面板数据：

横截面数据是在同一时间，不同统计单位相同统计指标组成的数据列。横截

面数据是按照统计单位排列的。因此，横截面数据不要求统计对象及其范围相同，

但要求统计的时间相同。也就是说必须是同一时间截面上的数据。

TumoverH

Premium,,PremiakTurnover,SizeA+Hso,,Iso才/端01mlmy

时间序列数据：

在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的

变化状态或程度。

面板数据：

是截面数据与时间序列数据综合起来的一种数据类型。其有时间序列和截面

两个维度，当这类数据按两个维度排列时，是排在一个平面上，与只有一个维度

的数据排在一条线上有着明显的不同，整个表格像是一个面板，所以把panel

data译作“面板数据”。

举例：

如：城市名：北京、上海、重庆、天津的GDP分别为10、11、9、8（单位亿

元）.这就是截面数据，在一个时间点处切开，看各个城市的不同就是截面数据。

如：2000、2001,2002,2003、2004各年的北京市GDP分别为8、9、10、

11,12（单位亿元）。这就是时间序列，选一个城市，看各个样本时间点的不同

就是时间序列。

如：2000、2001、2002、2003、2004各年中国所有直辖市的GDP分别为：

北京市分别为8、9、10、11、12;

上海市分别为9、10、11、12、13；

天津市分别为5、6、7、8、9：

重庆市分别为7、8、9、10、11（单位亿元）。

这就是面板数据。

*变量合并

2、截面数据，多重共线性和异方差都需要考虑，截面数据不需要检测DW

值！你做出来R方比较小，可能原因是你的回归方程中没有纳入关键变量，建

议你采用逐步回归方法，以提高R方！对于截面数据来说，R方一般在0.7左

右都能接受！相关分析不是必要做的，在模型中加入什么变量进行回归，主要

是依据前期的理论分析和研究目的！仅就计量回何而言，这些步骤只是告诉

你，自变量与因变量的相关性会影响变量在模型中的显著性，而自变量间的相

关则会带来多重共线性！

3、线性相关，也叫自相关：可以用来看x和y的相关性，常用来考察各个x

自变量之间是否存在相关关系。

相天

本例命令pwcorrxy,sig

pwcorrxy,sig

x1.0000

y0.59941.0000

0.0182

Pearson相关系数二0.5994,P值=0.0182<0.05,因此可以认为身高与体

重呈正线性相关。

4、保留字符串中的前四个字符、excel自动重算

genvar2=substr(var1,1,4)从第1位开始提取后面的4位数

excel有时候填充柄功能不行，下拉只能是复制，而不能把公式一直用下来，这

个时候，应该操作：文件-选项-公式-自动重算。即可。

5、Stata的单引号很特别，是''有两个符号，左边是Tab键上面那个

键，即~键，右边是引号键，即回车键左边这个。要分别按两个组成一个单引

号。

6、把字符型日期改成数值型

destringdate,repIaceignore-")

这个命令的意思是，杷date时间那一列，原来这一列是字符型格式，如2016-

01-13,那么要做时间序列来处理的话，先要改成数值型格式，比如20160113,

这个命令就是把这个字符串里面的给删除掉。

destringgov_0,repIace

或者可以直接通过这个语句来把一个变量由字符串变成数值型。

7、截面数据的回归

regyx1x2x3x4x5,robust截面数据一定要加robust

.regvar2var3var4var5

SourceSSdfMSNunb«sofoba■473

F(3,469)»108.13

Model19.608791636.53626385Prob>F=0.0000

Residual28.3504347469.060448688R-squaredr=6.408>

AdjR-squared=0.4051

Total47.9592263472.10160853RootMSZ».24586

var2Coef.Std.£rrzP>ltl[95%Conf.Interval]

var3Z.0023668\.00058644.04/o.ooo\.0012145.0035191

I0.000

vas41.63«-12-7.91-9.71«-12

vasSV21.726491.23444217.60\.ooo119.3007724.15221

/-19.32279

_cons1.058402-16.29O\DO-15.16319

R方是可以解释y变量的40%左右，不好。Cons是常数项，p小于0.1比较好。

8、广义差分法

2.广义差分法

广义差分法是将原模型变换为满足OLS法的

差分模型，再进行OLS估计。

①设有一元线性模型匕=&+万阳+自（1）

存在一阶自相关4=p禺T+V,

其中：5为满足基本假定的扰动项

将模型滞后一期有：匕_产用+4阳.1+〃1

方程两边同乘P,并与原模型（1）相减得

z—aT=你1—2）+力（用一曲-）+（4-0小）（2）

定义变量变换：①）

然,TJ

称（3）式为广义差分变换。（2）式可表示为:

Y；川B、X：+v,(4)

其中：月=4（1—,）

（4）式是经广义差分变换得到的模型，称为广义差分模型。

变换后扰动项满足基本假定，故对（4）式作OLS回归，得估

计值说、£,进而得平Q

此法称广义差分估计法、_

在（3）式中，若。=1,贝IJ（3）式变为:

Y：=Y,-Y,_,=AY,

X；=X「X,_a(5)

此时（5）式称为差分变换。只要DW^O,则"=1

就可以用一阶差分法对模型进行变换。

②若有多元回归模型

匕=4+四X”+P2Xlt+...+J3kxh+fl,(t=l,2...n)(6)

存在一阶自相关：儿=0AT+匕

其中：％为满足基本假定的扰动项

同理可吵空驾的T/差分飞：

(X；=X.2,...,k

可得满足捻*假定敢亡&：

=A+M+M+--+4骂+匕(t=2,3,…,k)

="中：优=^他&

禽=风八一6f

S士中的义…：粼4锲原模型⑹中的儿…，4

广义差分跑不需在序列才於市菽)

可进行OLS浙七-----

9、序列相关、自相关

序列相关性，在计量经济学中指对于不同的样本值，随机干扰之间不再是完全相互独立的，而是存在某种相关性。

又称自相关(autocorrelation),是指总体回归模型的随机误差项之间存在相关关系。在回归模型的古典假定中是

假设随机误差项是无自相关的，即在不同观测点之间是不相关的。如果该假定不能满足，就称与存在自相关，即不

同双;咚面肉舌际符甘柏能.相芋的理府H用自相关系纥表示.根据自相关系数的符号可以判断自相关的状

态，则ut与Ut-1为正关；如果=0,则ut与ut-1不相关斗

10、截面数据、时间序列、面板数据示例

截面数据：一个时间节点

中兴通讯

PV'、0.8629—1962

TR\12.98751414T0227710.546855

VA\411237036854.4E+103.97E+10

LI0.8607000984.4485314.378575

时间序列：多个时间节点，一家企业

日期中集集团I中集集团I中集集团卬集藁团）_______

1-J相对操手闻市值--------

/^014-trk030.85494.65969401305216140.860700098

/2014-01-0K0.906011.92745388874786650.860700098

2014-01-07、0.935020.91763393801965340.860700098

\2014-01-08\0.89286.091896400509043540.860700098

\0.9069

4-01-0913.29034399772566470.860700098

20iMj-10J0.901214.05305391373415600.860700098

面板数据：不同公司，不同时间点

[date

companyP_trsize1i

000039SZ=矣其可’000039var8

'0000390860700T'000039

000039SZ=冥宾532014-01-060.906006711.92745338887478665

000039SZu美矣无'000039201«1-070.934977920.9176253938019653408607001’000039

000039.SZ=笑臭文'0000392(/4-0\-080.89279196.09189634005090435408607001‘000039

000039.SZ=吴矣药’000039i6l4-01)090.906885213.290341399772S66470.8607001’000039

000039.SZu案关灵'0000392014-01-\00.901202514.053051391373415600.8607001'000039

000039.SZu案笑罡'0000392014-01-1B0.874245610.806742399356596870.8607001’000039

000039.SZU案美麦’0000392014-01-140.860153715.639866404328931580.8607001’000039

000039.SZ-’0000392014-01-150.858635915.993744405471640930.8607001'000039

U案矣矛

0000391^Z’0000392014-01-16862869512.987514411237036850.8607001’000039

000063%Z’000063‘000039

u其2由/2014-01-030.973811.183936474277809744.4485306

0000«3.£-'0000632014-01-06(.98901780.6768784460259394004.4485306‘000063

0000C3.SZu义:4由’0000632014-01-07：.04490330.41303354502579018644485306‘000063

000003SZu共疸讯'00006320144)1-08C99998760.59528284522239882944485306'000063

OOOOC3.SZU义理讯’00006320143,9C95671321.2822934522426408744485306‘000063

000003SZU桌速粗'00006320144)1-10G96864551.56047694436281087644485306’000063

0000«3.SZU兴也说'0000632014X)1-13C96480782.57911284253870023244485306‘000063

000063.SZU共电讯'0000632014^)1.14C96495432.07613814251641441844485306‘000063

000063.SZ匚义恚J二0000632014X)1-15C.92S62690.86562894232425968144485306‘000063

000063.SZ/讯叫》632014^)1-16(90761221.02277084395541325844485306'000063

000157S3宣科'0001572014^)1X)3150243840.86827614139825542243785753"000063

，5634584

000157SZ'电宣科'000157£014^1^)60.86490484027726759843785753'000157

15642388

000157SZ=经重科00015710144)1-071.03906514034399618343785753000157

000157SZ二专重容'0001572014-01-0^153680550.86429944038526185443785753,000157

000157SZ=专案科'0001572034-01>09155395091.11266353982182954643785753’000157

000157SZ=专重驾'00015720lWl-10153987341.0376249393245165314.3785753'000157

000157SZ=衰重为'00015720142301062396065017914.3785753'000157

000157,SZ=款重科'0001572014*01-141497go440.8243779398165524574.3785753’000157

000157.SZ=裂重科'0001571.0072694397120243464.3785753’000157

11、时间序列、面板数据回归分析

时间序列：

先要tssetvar1\*var1是时间的一列，先用这个命令表示这一列是时间序

列

再用regyx1x2x3x4x5

面板序列：

xtsetvar1date

这是想要设定前两个变量，必须这样弄，才可以进行面板数据的后续探讨

xtsetvarldate

panelvariable:varl(stronglybalanced)

timevariable:date,20140103to20140116,butwithgaps

delta:1unit

12、把字符型改成数值型

destringvarl,replace把varl改成数值型，原来是字符型

13、面板数据先用随机效应和固定效应都试一下，看哪个好，语句：

Hausman检验有两种，一种做随机模型和固定效应模型，一种是检验OLS和IV估

计

一般而言估计面板数据容易走到两个极端：一个是把其看成截面数据而进行混合回归，

要求每个个体都有完全相同的回归方程；另一个是为每个个体估计一个单独的回归方程。前

者忽略个体间不可预测或被遗漏的异质性，而该异质性与解释变量相关而导致估计不一致，

后者则忽略个体间的共性，也可能没有足够大的样本容量。折中的估计策略：假定个体的回

归方程拥有相同的斜率，但可以有不同的截距项，来捕捉异质性，这称为“个体效应模型

包括个体固定效应、个体随机效应、混合效应。

xtregvar3var4var5var6,fe\*固定效应估计

eststorefe\*储存结果

xtregvar3var4var5var6,re\*随机效应估计

eststorere\*储存结果

hausmanfere,constantsigmamore\*这是hausman检脸的语句

面板数据的hausman检验

原假设是随机效应，p值太小可以拒绝原假设，如果hausman检验■的结果

(Prob>chi2)小于0.1,那么选择固定效应：如果(Prob>chi2)大于0.1,或者chi2

的值小于0,那么选择随机效应。

:注意:术语“随机效应模型”和“固

庭效应模型”用得并不十分恰当，

;容易产生误解。其实固定效应模型

应该称之鱼殛逐应模型)而随

机效应模矗该称之力飞画•美效一二

:应模型”。因为固定效应模型和随机

:效应模型中的0都是随机变量。

14、总体参数的实际值与其估计值相等时，估计量具有无偏性

样本相同、用不同的方法估计参数，可以找到若干个不同的估计式，其中抽样分

布具有最小方差的估计式(最小方差准则)，称为最佳性准则。既是无偏的同时

又具有最小方差的估计式，称为最佳无偏估计式。

当样本容量较小时，有时很难找到最佳无偏估计，需要考虑样本扩大后的性质：

一致性：当样本容量n趋于无穷大时，如果估计式依概率收敛于总体参数的真

实值，就称这个估计式是其实值的一致估计式。渐近有效性：当样本容量n趋

于无穷大时，在所有的一致估计式中，具有最小的渐近方差。

无偏性编段回目录

一个总体参数的无偏性是，其期更值等于参数真值檄计量

这意味着无论你取无数个样本,计算每个样本的估计值，曲彳晶平均值将会等于吃些少

也就是说样本统计量

一致性痛肺段回目录

如果随着样本容量的增大，跑讦痂金血差云湾么我们说这个无偏估计量具有一致性

用方差来测度二者相似的程度。

有效性:扁揖本段回目录

如果T参数有两个无制古计量，我们说方差卒爻小的估计蚩是相对有效的。方估计量就是嬴就

估计量的一致性

是指：炉t灵器

尢触根腌威耦标犍楝具有饭薮由）

15、注释语句

xtregvar3var4var5var6,re/*随机效应估计*/

备注语句在command窗口不行，但是在do窗口可以

16、平稳序列、单位根检验、随机游走、白噪声序列

某人认为：面板数据的单位根检脸出来的最优滞后阶，只是看出来面板数据

的平稳性，之所以从后面比较大的数字往回走，是因为数字越大，可能越难满足，

因此从后面阶数往回走，满足平稳性的要求，更加有说服力。

某人认为：滞后阶越大，说明变量越多，越好？没懂。。

先用dfuller来看观察值个数【为什么观察值比原始数据的值少一百多个？】

dfullervar2

(^377^

Dickey-FullertestforunitrootNuziberofobs

10%Critical

StatisticValueValueValue

单位根检验，选择最大最合适的滞后阶、最优滞后阶

di12*(122/100)A(1/4)122是表示观察值个数di12*(122/100)A(1/4)

.di12*(377/100)*(1/4)

16.721167

取值16阶

dfullervar2,lags(16)reg

【但由于存在gap,就是时间不连续的问题，所以直接用16阶会出现，选择更小的阶

数？】

reg

是因为时间不连续，出现了gap,可自己重新定义连续的时间变量。

数据变量的平稳性是传统的计量经济分析的基本要求之一。只有模型中的变

量满足平稳性要求时，传统的计量经济分析方法才是有效的。而在模型中含有非

平稳时间序列式，基于传统的计量经济分析方法的估计和检脸统计计量将失去通

常的性质，从而推断得出的结论可能是错误的。因此，在建立模型之前有必要检

验数据的平稳性。这就是平稳性检验。

平稳性检脸就是单位根检脸，单位根检脸是指检脸序列中是否存在单位根，

因为存在单位根就是非平稳时间序列了。单位根就是指单位根过程，可以证明，

序列中存在单位根过程就不平稳，会使回归分析中存在伪回归。

平稳时间序列是意义上，随便截一个时间段内的样本值，他们的联合概率分

布都是一样的，不会有差别。但是这跟样本值之间的相关性不冲突，样本值之间

也许存在高度相关。

•给出一个随机时间序列，首先可通过该

序列的时间路径图来粗略地判断它是否

是平稳的。

••个平稳（的丽朝I在图形上往往表现

出一种围变其均值外艇刎过程；

•而羿平稳呼磔往表现出在不同的时

间的有刷磔值（如持续上升或持

续下降）。"一

图9.1平稳时间序列与非平稳时间序列图

意思就是，如果有单位根，那么不平稳，变量之间的相关关系可能是假的，

他们之所以相关，很可能是因为他们随时间变化本来就变化，比如随着时间的推

移，数值都会变大，那么他们之间的正相关关系也是假的，回归关系也是假的。

几种主要的平稳性检验方法

D"C1AI＞脸蛤法

PP检验法

霍尔工具变量法

DF-GLS检蜡法

KPSS检睑法

LMC检险法

17、删除行、excel插入多行

dropin489\*删除第489行

dropin1/3删除1至3行

dropifvar2==.\*删除空值的行，制定一个变量只有空值行才会出现空值

就可以啦

excel插入多行：你可以先插入一行，再插入一行之后，你选中两行，右键点击

插入的话，会直接插入两行的，这时就插入了四行，以次类推

18、白噪声序列

得到白噪声序列，就说明时间序列中有用的信息已经被提取完毕了，剩下的全

是随机扰动，是无法预测和使用的，残差序列如果通过了白噪声检脸，则建模就

可以终止了，因为没有信息可以继续提取。

19、格兰杰检验步骤

通过了平稳检验就不用做协整分析了，如果差分n阶单整就要做协整检验，否则就不用做。

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

stata面板数据计量知识和参考资料

文档简介

温馨提示

最新文档

评论

stata面板数据计量知识和参考资料

文档简介

温馨提示

最新文档

评论

相关文档