版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计量经济学可见内容
第一章
(1)经济模型
理论模型:凯恩斯的绝对收入理论
实证模型:回归模型
建模方法
结构方法:理论到模型,先验的
简化方法:数据到模型,依赖理论少
大数据时代:简化方法将用的多
(2)变量类型p28
STATA中的变量可以划分为三类:分别是数值型,字符型和1=1期型。变量类型可通过help
datatyp显e示。
(-)数值型变量:数值型变量按其精度又可分为五种类型:byte,inIlong,floa、tdouble.
(二)字符串变量:字符变量通常是一些需要用文字描述的信息,如:姓名、住址等。
㈢)口期型变量:在STATA中,1960年1月1口被认为是第0天,因此1959年12月
31日为第-1天
(3)显示数据类型p30(指出哪个变量是什么类型)
.des
STAFA§1・3EA小・KA9§
obs:21198。Censu!!datafor让andXC
varx:714Jun202208:48
size:1.050
storagedisplayvalue
variablenonetypefornathlwlvariablelabel
stateslrl3v,3sSlMlC
regionbyteV8.0gcinr<?gCensusregion
popdouble48.】f1980Population.*000
popurbdoubleQ8.If1980Urbanpopulation."(100
medaftefloatQ9.2fMedianage,years
marrdouble48.IfMarriages,*000
divrdouble48.ifDivorces.'000
Sortedby:
(4)指出指标的含义p34
观测值序号
生成新的数据(generate可简写成gen)
Clear
Setobs1000设置观测值的组数
Genx=_n_n为观察值得序号
Geny=x+100
gen产生新变量
replace改变现有变量
Generate创建一个新的变量。如:generatey=(yl+y2+y3+y4)/4
表示创建一个新的变量y是yl,y2.y3,y4的平均数。
又如:generatexl=Inx2)表示创建一个变量xl是x2的自然对数。
Replace替代一个现有变量。
如:replaceXl=Xl*100表示“将XI变量转换为当前数值的100倍”
又如:replacexl=0ifxl嗔币“当xl=y时,将其记为0”
注意:在STATA中“==”才是逻辑关系运算符““=”则表示“让左边的值与右边相等”
用于创建新变量。
*genurbanized=popurb/pop
.sumurbanized
Variable|ObsMeanStd.Dev.MinMax
+
urbanized|-------21.6667691.1500842.3377319.8903645
表示城市化率水平
replaceurbanized=100*urbanized
.sumurbanized
Variable|ObsMeanStd.Dev.MinMax
-------------+
urbanized|2166.6769115.0084333.7731989.03645
百分数形式
sort(gsor命t)令样本按照某个变量的取值排序。
如:sortxl"表不样本按照xl做升序罗列“gsort-xl”表不样本按照xl做降序罗列”
order命令该命令用于控制变量与变量之间的顺序。
如:orderx3x2xl”表示将x3变量排在第一列,而xl变量则排在第三位”
(5)ifexpp37数学符号的表达式、ifexp的范围
[ifex求]示命令只针对满足exp(普通是一个逻辑表达式)的观测;
[inrang/]示命令只针对处在range指定的范围内的观测,如in5指执行的范围是第5个观
测,in-5指执行的范围是倒数第5个观测,in5/12指执行的范围是从第5到第12个观测:
[inrang的][ifex怛]当于从一个大样本中挑出符合条件的小样本,其用处体现在两个方面。
首先是数据清理阶段,找出那些有明显的错误或者有缺失的观测。其次是在数据处理和分析
阶段,找出有特殊兴趣或者意义的观测。
[ifex俵]示命令只针对满足exp(普通是一个逻辑表达式)的观测;
[ifex帔]大地体现了Stata的灵便性。逻辑表达式exp普通由以下成份构成:
■变量名
■数字,字符,表示缺失值的
■关系运算符:=(等于),!=,~=(不等于),〉(大于),<(小于),>=(大于或者
等于),<=(小于或者等于)
■逻辑运算符:&(与),1(或者),~(非)
以下是一些应用的例子:
ifage>65&age<(即c大于65,小于85的观测)
ifplace=="Canada"&pop~=.(place为“Canada”并且pop不缺失的观测)
ifyear=1994|year=lS9(7ycar为1994或者1997的观测)
if"(DOD二二.&year二二.()排除DOD和year都缺失的观测1
(6)byvarlistp40命令、结果、含义
by是不少命令的前缀。[byvarlist表:]示对varlis(t分类变量)中的每一类分别执行命令。
事实上,Stata的不少命令带有不同的前缀。
例子:分区域对其他变量进行统计byregion,sort:sumedagemarrdivr
基本格式:[byvarlist:]command[varlist][=exp][ifexp][inrange][weight][usingfilename]
options]
其中,符号[表]示可选项。comnand为Stata的命令函数,varlis为t变量,[ifexp、][inrange]
用于设定变量或者观测值,[weight用]于设定观测值的权重,[usingfilename表]示使用的数据
文件,options表示命令的选项,不同命令的选项也不同。
[byvarlist表:]示对varlis(t分类变量)中的每一类分别执行命令(command)。
比如,线性回归模型的命令regress的格式为:.regressdepvar[indepvars][if][in][weight]
[,options]用户可以输入如下命令:.regressdeprdcpidrgdpifdepr<20
->region=NE
VariableOBNMennSid.Dev.MinMnx
medage931233331.02347429.432.2
marr9•14.4792247.567175.226144.518
divr9193043319.577212.62361.972
->region=NCntrl
VariableObsMeanStd.Dev.MinMax
mrdagc1229.525.700811328.330.9
inarr12•17.4364235.295586.09t109.823
divr1224,3358319.6842.14258,809
(7)数据类型转换p47地区分类(怎么分类、描述)
2.24数据类型转换•tabulateregion
•尤其是外部数据导入
•转换方法:
-real。:将不能转换的数值设为虢失值
-destnnQ:转帙,可津新变显
•ncoderegion4)*n*rat«<c«nr«g)
-encode:字符可“换为萼伏数值形式•ntteta.g»n(8CB)
UMhttp/Awww.slat*-pres*♦Mrtew
describeregion
verieBUrwcmEMW,Mel
第三章经济数据的组织和整理
(1)四种类型数据P2
横截面:给定时期,不同个体
时间序列:给定个体,不同时期,ttse设1置日期变量
混合横截面时间序列:
面板数据
横截面数据与标识符变量
在同一时间,不同统计单位相同统计指标组成的数据列.
次序任意
标识符变量:各自独立的ID
例如,为了研究某一行业各个企业的产出与投入的关系,我们需要关于同一时间截面上各个
企业的产出Q和劳动L、资本投入K的横截面数据。这些数据的统计对象显然是不同的,
因为是不同企业的数据。但是关于产出Q和投入L、K的解释、统计口径和计算方法仍然
要求相同,即本企业的Q、L、K在统计上要求可比。
在分析横截面数据时,应主要注意两个问题:
一是异方差问题,由于数据是在某一时期对个体或名地域的样本的采集,不同个体或者地域
本身就存在差异;
二是数据的一致性,主要包括变量的样本容量是否一致、样本的取样时期是否一致、数据的
统计标准是否一致。
时间序列数据
在不同时间点上采集到的数据,这种数据反映了某一事物、现象等随时间的变化状态或者程度。
如我国国内生产总值从1949到2022的变化就是时间序列数据。
时间序列数据是同一对象跨时间的观察值的向量所以必须按照一定顺序(XI,X2,Xt)
横截面数据普通是同一时点对不同对象的观察值的集合顺序的改变应该不影响计量的结果
{XI,X2,Xn}
时间序列算符
声明时间序列:tsset命令
usestata-press/data/rl1/wpi1,clear
tssett
listin1/20
genLwpi=L.wpi/*一阶滞后*/
genL2wpi=L2.wpi
genFwpi=F.wpi/*一阶超前*/
genFwpi=F2.wpi
genDwpi=D.wpi/*一阶差分*/
genD2wpi=D2.wpi
listin1/10
listin-10/-1
混合横截面时间序列数据PoolData
每一个变量都有个体和时间下标
有些数据既有横截面数据的特点又有时间序列的特点,但每一时点的样本不同。例如中国人
民银行自1995年起,每季度在全国各地储蓄所调查储户的一些看法,不同的季度构成时间
序列,而每一个季度调查的样本构成横截面,又因为储户人群都是流动的,所以各个季度调
查的样本是不同的,这样获得的数据就是混合横截面数据集
collapse的用处是计算某个数据库的一些统计量,再把它存为只含有这些统计量的数据库。
用到这个命令的机会不多,我使用它是因为它可以计算中位数和从1到99的百分位数,这
些统计量在常规的数据描述命令中没有。如果要计算中位数,其命令的语法如下collapse
(median)((变量名)),by((变量名))
面板数据(Panel)不同个体在不同时间的表现数据
平衡面板:每一个个体在每一个时间都可观测
非平衡面板
定义面板数据变量sortpaneIvartimevatssetpaneIvartimevar(encode)
iispaneIvartistimevar
(2)总体组间、组内P15(只考有结果的)
列示出样本中主要变量的基本统计量,命令为:xtsuminvestnivaluekstock
(3)非平衡数据p20(看那里不平衡)
采用STATA自带的范例数据,文件名为grunfeld.dota里面包含了六个变量,其中company
和year分别表示样本公司的代码和观察的年份,相当于我们前面提到的截面变量和时间变
量;invest表示公司的投资额;mvalue表示公司的市场价值;kstock表示公司的资本存量。
•webusegrunfeld考总体组间、组内
•tssetcompanyyear
panelvtruo.coftpany(tfronghrMmud)
(MA
•xtdes
1*•…M••
WWIIMI,IHI..«•«ItMt•99
MltaryMfi•1
・畲10*公G(n*lO>.・山△*百20*的JIMT«20.1936-
―■一上帔R,,四句F卜口6山:-3为20
•preserve
•collapse(mean)mvalue(sum)
totmvYreinvest(mean)kstock.by(year)
•生■了一个备的效■宰,It时卸序,—・・a・
•110C“1/S
非平衡数据(看哪里不平衡)
生成时间序列变
Vtsmktim检验非平衡面板数据
•webusegrunleld.clear
•sscinstalltsmktim•«tde»
ccmpony1.1.10n«10
11S518sl954T«20
•setobs20DBftMrMf)=1)FW
Spantrcen>X)pefcxto
•genx=runifornX)(covpmin*Aroechctnefwton)
Da»txjftonofT.ieMb25%$0%Wb
max
•tsmktimmtime,start(2007q1)20202020202020
wiabi*-2007qito2011Q4FmqPwcMIQjn|Mem
1―67ST记诉而FTMTMTiTi"1111”11
•tsmktimmtimel,start(29dec2013)1010000|XXXXXXXXXKXXXXXXXXXX
luvel
bycompany:gtnobts.N
dropifota<maxotn*
非平衡数据
保留间隔,但删除时期小于5年的公司
ttcraMiBtpciHtwri
iMgnrMgosMdw
HtnKunnnumdear
•au>;u>iuiiu>is
Ktuiiu.ini.uiia中”,小第洋EM熨1.方便6JMt!!
UlUllUll:...uiis
niuiiunu-ium•ganmaiopvi-maMtMcar^«nvg)
muiiuiiuiiui..
_W1)S^BQ4
mmimummD
gifmotf>1-含H-d
..siummxmini
1U1UIU.U&I.11U1
miiituinxiumi1U1UU1U1...X11U
UAA4UUA11U11AAitxmmmt.ixiiix
iiHUUiiiuiim..
itm.M
(补充)
(1)什么是假设检验p2
假设检验也叫显著性检验,是统计判断的基本内容之一。在实践中,我们往往会遇到这样的
问题:我们根据样本观测得到的一些结论、根据经验积累得到的一些认识,以及由此得到的
一些判断是否成立?
例如,居民的收入水平是否提高农作物的产量是否增加产品的质量是否上升经济发展的地
区差别是否存在现象之间的数量关系是否成立事物的发展是否具有某种规律等
(2)三种形式
定量资料的统计分析
一、单样本资料的t检验
•样本均数与总体均数比较的:妣
•配对设计/检脸
目的:根据样本均衰工'推断其急体均效M是否,
•或坦设计t检险差齐性检验
已知的体均数限E
只看与本■.W«,
应用条件:也立杵
正态性
w统计虽与参数不同的两种可能
样本:某医生随机抽在10名某希出者的血红
境白,如下:・其一,抽样误差
MRi(偶然的、随机的、较小的)
ftnxn11.n.ik11ILM.ILit11IL
(1.«/«):1••»«••••>
•其二:本质上的荽别
问堪i该病田者的平均Hb含量是否与正常人
(必然的、大于随机误差)
的平均Kb含量相同(正常人的平均Hb
含录为14.02(g/dl))
样本:某医生随机抽直10名某扁令者的血红量白.正态性检验结果
求将其均数为12.59(g/dD,标今差为
1.632619(g/dl).正态性检验
•Ma
VMUBUI€»•一•・Dev.ama•swilkx
Shapinr-Vilk<testfornoranldata
问It读廉号青的平均Hb含金是否与正常人的平均Variable|Obs*VxProb>x
Hb比■相同(正常人的平均Hb含■为14.02
xI10a97568a375-1.5380.93794
(c/dl)).
结论:P=093794>0.05,不拒绝HO,差别无统计学意义,可
认为资料服从正态分布.
ttestx=14.02
样本均数与总体均数比较的t检验
•ttest变量名M#val
nestX=1402
,ttesti#obs#mean#sd#val
ttest1012.591.6326191402
ttesti1012.591.63261914.02T检验结果反映了什么?
t检验
•结论:1-27698,双例P0.0218<0.05,拒绝儿,
差别有垓计学意义,可认为该精感者的平均只1)含
量与正常人的平均Hb含量不同,正常人Hb含量
高.
⑷是否接受原假设P16
・例:我们利用stata里面的自带的sp500制ft・««••«»•Lie
**.现取sp500跖数」支化量的防级交•»・・»1•tcm
易日的数据.已知其日变化量的正常值为•3♦•M・・*M.・■・IM.11•T1-八
05473282J圣未知.现考察最近达201、it•.HimU.tHMM.Mit&I.MM
・•■•aBMieSMtei••BJIM
交易日的日变化量是否偏离正常水平.HMS•-.Wtut9t•II
・t检验如下:・MM<o・M,I”BiMM•-..HTtMtil»-.irm
»*(T<3••・,“WllTl>l«f»•・・,•499^t»M•«aJM
sysusesp500.clear
ttestchange=・.5473282in1/20愉入结果绐出了变■的均值.风准当(StdDe)、均
值的标澹理(StlErrJ以及均值的修信区阚・
还给出了不同3择假设情况下的概率值.在玄例中.
逋是松诩恰险.糙率值为02413口受HI?设.ift
明・近,近20乂4500指数的日文3t发有偏声王
常值・
(5)检验工资水平(结果是?)
工资水平
拥:我ffl利用qata中面的自带的枝会调行数据.
现在我们要千虔在调查人肝工面.百人的工资水
平是否与总而调查人群有显者的区别.
sysusenlsw88dta.dear
,sumwage
VarMMlOMMMCSU0»v4Maa
—T..............
•^•12247J-S794&231004ts24074M9
•ttestwage=7766949ifrace=1
(6)第一步:正态性检验p25
正态性检验
•gend«x2-x1
•swilkd
aweir*VlU•totr3amU4»la
I<M«fIa2H
MLIM•2«•
结论;P-040189>0.05.«?«»0,差别无线计学
盒义,可认为费料・从正叁分布.
I检脸
•ttest变量1=变量2
•ttestx1=x2
结论,edJOM,a*|E2237”g不如第H0,
计学意义,还不险5为眇》•青登槊狗布疗・后・红・白不同.
(7)P值检验p27
第二步:两组资料间的方差齐性检验sdtestx,by(g)
—Z•«<.tM.IM-Bvr.CBM.
•sdtest变量名.by(分组变量名)*14«•••••*a•tM
11•MBtM”331F31・MIM4««*«N
tt•mjtr・tweet•Mean
——•e!•/teiv9•■
•sdtesti#obs1#mean1#sd1#obs2atffweem•tA,M
#mean2#sd2-«i-:*•td>ft
•结论:P=0.5439>0.10.不拒绝l“,差
别无统计学意义,可认为两总体方*相等.
第三步:两独立样本t检脸
ttest变量名,by(分组变量名)[unequal]
ttestiftobslttmean1#sdl#obs2#mean2#sd2[,unequal]
unequal表示假设两组方差不齐,如不选表示假设两组方差达到齐性
ttestx,by(g)
ttestx,by(g)
ttest变量名,by(分组变量名)[unequal]
ttestittobsl#meanl#sdl#obs2#mean2#sd2[,unequal]
unequal表示假设两组方差不齐,如不选表示假设两组方差达到齐性
结论:t=-1.8066,双侧P=0.0839X).05,不拒绝H0,差别没有统计学意义,还不能认为病
人于正常人的尿中17酮类固醇排出量不同。
(8)什么是方差分析?P41
1、方差分析的基本原理是在20世纪20年代由英国统计学家RonaldA.Fishe在r进行实验设
计时为解释实验数据而首先引入的
2、检验多个总体均值是否相等(通过分析数据的误差,判断各总体均值是否相等)
3、研究分类型自变量对数值型因变量的影响(一个或者多个分类型自变量、两个或者多个(k
个)处理水平或者分类、一个数值型因变量)
方差分析的基本原理
1.数据的误差用平方和(sumofsquares)表示.记为SS
2.胞平方和(sumofsquaresfortotal)记为SST
反映全m敷He谖♦大小的军方也
•雉取的全羽36惠超市浦售H之画的设钎方却
3.蛆内平方和(withirvgroupsumofsquares)记为SS^
•反映•内展差大小的中方和
比如.■个位置超市解售目的谍轩方加
•只包含
4.HI间平方和(between-groupsumofsquares)记为S.s)
•反唳墨・展餐大小的中方知
比如.不酉位I超而鞫鱼a之阊的京圣军方知
•晟包括,,3也包括
什么是方差分析?
(例题分析)
(例]确定超市的位置和竞争者的数量对销售额是否有
显著影响,获得的年销售额数据(单位:万元)如下表
F
2个3个以上
380
310
390
290
350
300
220
就售磷否有隘超响,实际上也就是要判断不同位置超市
样本数据
若它们的均值相同,意味着“超市位置”对销售额没有显著影响:若均值不全相同,则
意味着“超市位置”对销售额有显著影响
“超市位置”就是分类自变量,“销售额”则是数值因变量。“超市位置”是要检验的对
象,称为因子(factor,)商业区、居民小区、写字楼是因子的3个取值,称为水平(level或者)
处理(trealmen。I)每一个因子水平下得到的销售额为样本观测值
2、方差分析要解决的问题就是判断超市的位置对销售额是否有显著影响。设商业区、居民
小区和写字楼3个位置超市的销售额均值是否相同
误差的大小用均方(meansquare来)表示,也称为方差(variance)
平方和除以相应的自由度
总平方和(SST)的自由度为nT;组内平方和(SS组内)的自由度为n-k;组间平方和(SS组间)
的自由度为k-1
组内平方和除以相应的自由度结果称为组内方差(within-groupvarian;cc)
误差的大小用均方(meansquare来)表示,也称为方差(variance)
平方和除以相应的自由度
总平方和(SST)的自由度为n-l:组内平方和(SS组内)的自由度为n-k:组间平方和(SS组间)
的自由度为k-1
组内平方和除以相应的自由度结果称为组内方差(within-groupvarian;ce)
组间平方和除以相应的自由度结果称为组间方差(betwean-groupvariance)
P41方差分析的概念(空间、组内、总体)方差分析的基本原理
方差分析的基本原理
L般18的或猊阚平方利小<«0,4<13»4)表示・记力SS
1.4课短(totalerror)
2.2平万和(MJEofsquaresfor必刈记为SSI
"反我全,♦洌数据豹谍差球
•M拾取的全—物电的糖修段之间笑黑--
”取匕金mMWrSH南之司的・谷.方w
2.・*l9URr«ndom・rror)一里内堤爱(wHhirrroup.rror)
1.组内▼方W(wktUn-«roupwmofsqu“e$)记为SS^
,由于“■机性拉
«♦•BLRJflK录妥大小的军方8
•三•仲木-m之■■■机sttLK.4,位邕型一依,011房全平f*J
3.ItWiit.^(treatmenterror)—iflfi(betweengrouperror)•畲
•不冏的处理'二「4.MMTfiHl(betweengroupwmoftq<Mre5H2邓、q
•反唳二:一:救德的望舞•♦
比帕.不二(*,言1173偶司2闻6二・摹育《1
•.e&n
方差分析的基本原理
(误差分解)
方差分析的基本原理P45
(误差分析)
判断原假设是否成立,就是判断组间方差与组内方差是否有显著差异
若原假设成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近1
若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于1
当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,即日变量对因变量有
影响
方差
方差分析的基本假定
基本
1.正看懵(norm«lltv)・同个总体加应HR从正态分布.即对于
因子的同一个水平.其期测值是来自正玄分布总惇的商0假设
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度园林景观规划合同
- 运动鞋市场发展现状调查及供需格局分析预测报告
- 2024年度物流仓储租赁合同
- 软式网球项目评价分析报告
- 2024年度北京市个人汽车租借合同
- 2024年度山地区域水土保持合同:生态环境改善与保护
- 2024年度办公室租赁装修合同
- 红酒盛酒瓶市场发展现状调查及供需格局分析预测报告
- 2024年度农资连锁经营合同
- 2024年度乙状乙方网络安全服务合同
- 运用PDCA康复医学科康复患者训练落实率品管圈QCC汇报
- 乡镇广播应急预案
- 钢包烘烤制度
- DB65T 3952-2016反恐怖防范设置规范 学校
- 土力学地基基础电子书
- 《化镍金之腐蚀》
- 国家电网公司计量现场施工质量工艺规范
- 《把数学画出来 小学画数学教学实践手册》读书笔记思维导图
- 【个人简历】求职简约风PPT模板
- 2023年企业首席质量官试题及答案
- 2023年创新英语大赛题目及答案
评论
0/150
提交评论