![计量与stata四天班_第1页](http://file4.renrendoc.com/view/1074ec0f2bb125426515b4a7816281bc/1074ec0f2bb125426515b4a7816281bc1.gif)
![计量与stata四天班_第2页](http://file4.renrendoc.com/view/1074ec0f2bb125426515b4a7816281bc/1074ec0f2bb125426515b4a7816281bc2.gif)
![计量与stata四天班_第3页](http://file4.renrendoc.com/view/1074ec0f2bb125426515b4a7816281bc/1074ec0f2bb125426515b4a7816281bc3.gif)
![计量与stata四天班_第4页](http://file4.renrendoc.com/view/1074ec0f2bb125426515b4a7816281bc/1074ec0f2bb125426515b4a7816281bc4.gif)
![计量与stata四天班_第5页](http://file4.renrendoc.com/view/1074ec0f2bb125426515b4a7816281bc/1074ec0f2bb125426515b4a7816281bc5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、高级计量经济学及 tt应用第七讲非参数与半参数估计山东大学经济学院q/:econometrics-sa腾讯课堂:https:/2017/4/24,(c) 20171Why Nonparametric?“参数估计法”(parametritimation)假设总体服从带未知参数的某个分布(比如正态),或具体的回归函数,然后估计这些参数。对模型设定所作的假定较强,可能导致设定误差,不够稳健。“非参数估计法”(nonparametritimation)一般不对模型的具体分布或函数形式作任何假定,更为稳健。缺点是要求样本容量较大,且估计量收敛的速度较慢。作为折衷,同时包含参数部分与非参数部分的“半参数方
2、法”(semiparametri求,又有一定稳健性。timation),降低对样本容量的要2017/4/24,(c) 20172对密度函数的非参数估计最原始的非参数方法是画直方图,即将数据的取值范围等分为若干组,计算数据落入每组的频率,以此画图,作为对密度函数的估计。直方图的缺点是,即使随是不连续的阶梯函数。量连续,直方图始终为得到对密度函数的光滑估计,Rosenblatt (1956)提出“核密度估计法”(kernel density estimation)2017/4/24,(c) 20173直方图的数学本质量 x 在x0 处的概假设要估计连续型随f (x0 )密。概率密度是累积分布函数的
3、导数: h) F (x0h)f (x ) lim F (x002hh x x0h0 lim P(x0h)2hh02017/4/24,(c) 20174直方图估计量ni11(x h x x h)以频率估计概率:nf0i0(x ) HIST02h1 xi x0n1i1 11nh2h区间半径 h 定义了“在 附近邻域的大小”,称为“带宽 ”(bandwidth)直方图得不到光滑的密度估计,因为使用示性函数作为“权重函数”(weighting function),且各组间不允许交叠2017/4/24,(c) 20175核密度估计法使用更一般的权重函数,并允许各组之间交叠。核密度估计量为 1 K (x
4、x )f(x ) nh0i0i1nh函数 K () 称为“核函数”(kernel function),本质上就是权重函数。带宽 h 越大,在x0 附近邻域越大,则估计的密度函数 f(x)越光滑,故称带宽 h 为“光滑参数”(smoothingparameter)。2017/4/24,(c) 20176核函数的性质一般假设核函数 K () 满足以下性质:(i) K () 连续且关于原点对称(偶函数);K (z) dz 1zK (z) dz 0K (z) dz (ii),;(iii) 或者存在z0 0 ,使得当 zz0 时,K (z) 0;或者 时,z K (z) 0z当;(iv)z K (z)
5、dz ,其中 为常数。22017/4/24,(c) 20177常见核函数2017/4/24,(c) 20178二次核 (Epanechnikov核)2017/4/24,(c) 20179核密度估计的偏差由于核密度估计使用了在x0 附近的点x来估计f(x0 ),故核密度估计通常是有偏的:Bias(x ) E f(x ) f (x ) 1 h2 f (x)z2K (z)dz000022Bias(x ) O(h )2h偏差的数量级为,记为0当n 时,让带宽 h 0 ,则偏差将在大样本中2017/4/24,(c) 201710核密度估计的方差1Var f(x ) K (z) dz o 1 nh2f (
6、x )00nh,记为Var f(x0 ) O 1 nh1方差的数量级为nh样本容量 n 越大,则方差越小;带宽 h 越大,由于使用了观测点来估计 ,故方差越小。当 n 时,让 nh (虽然 h 0 ,但 h 趋于0的速度比样本容量 n 的速度更慢),则方差在大样本中2017/4/24,(c) 201711核密度估计的一致性与渐近正态由均方收敛可知,核密度估计为一致估计渐近正态性:0, f (x )K (z)2dznh f(x ) f (x ) Bias(x ) d N0000收敛的速度为nh2017/4/24,(c) 201712收敛速度由于最优带宽 h* 与 n0.2 成正比 (参见下文)故
7、n n0.2nh n0.8 n0.4 n0.5n这意味着非参估计量的收敛速度n0.4 慢于参数估计量的通常收敛速度。n2017/4/24,(c) 201713最优带宽在选择“最优带宽”(optimal bandwidth) 时,希望最小化均方误差(MSE):SE f(x ) Bias(x)2Var f(x)000h)2由于Bias(x ) O(h ) ,故2 O(h4 ),而Bias(x00Var f(x0 ) O 1 nhSE f(x0 )mnh O(n0.2 )h*2017/4/24,(c) 201714egrated MSE均方误差MSE仍取决于x0 。为得到对于 x0 所有可能取值的整
8、体度量,可最小化“积分均方误差”(egrated Mean Squared Error,简记IMSE)MSE f(x0 )dx0min IMSE h0.2h 0.2*2f (x) dxn00其中,常数 仅依赖于核函数。2017/4/24,(c) 201715核函数的选择IMSE(h*)能使最小化的核函数为“尼可夫核”(Epanechnikov),是Sa默认的核函数,但只有微弱优势。对于最优带宽的选择远比核函数的选择更重要。使用不同核函数得到的密度估计一般非常接近。2017/4/24,(c) 201716多元密度函数的核估计对于 k 维随估计:量 x,可进行多元密度函数的核 1 nhK ( x
9、x) hni1f (x ) 0i0其中,K () 是k维核函数,即权重函数。K ()通常为一维核函数的乘积,也可使用正态密度函数性质与一元情形相似,最优带宽更宽,收敛更慢,易出现“数据稀疏”问题 (sparseness of data)2017/4/24,(c) 201717非参数回归非参数一元回归模型:yi m(xi ) im() 是未知函数(连函数形式也未知)。(i 1, , n)对于每一个i,分别估计m(xi ) ,从而得到对回归函数 m(x)的估计。不寻求m(x) 的,而寻找其数值解。解如在 x0处,有若干个 y 的观测值,可把这些 y 观测值的平均值作为m(x0 ) 的估计量;但一般
10、不可行2017/4/24,(c) 201718局部平均估计量x0解决方法是,对附近邻域中的观测值也进行加平均估计量”(local权平均,即“局部weighted average estimator):ni1m(x ) wy0i0, hi其中,权重 wi0, h 是 (xi , x0 , h) 的函数,且满足 1 。xi 是 x0ni1附近的点,而 h 是带宽。wi0, h2017/4/24,(c) 201719核回归估计量Nadaraya(1964)与Watson(1964) 使用核函数来定义以下权重,得到“核回归估计量”(kernel regresestimator):K (xi x0 )
11、hwK (x xi0, hni1)hi0故核回归估计量可写为K (x x ) h yni0im (x ) i1K (xx ) h0ni1i02017/4/24,(c) 201720核回归估计量的性质与核密度估计量类似,Bias(x ) O(h2 ) ,方0差Var f(x0 ) O 1 nh ,一致性,渐近正态性 2f (x0 )nh m(x ) m(x ) Bias(x ) N0,d2K (z) dz 000最优带宽 h* O(n0.2 )。最小化IMSE,或使用“交叉核实法”(Cross validation)2017/4/24,(c) 201721交叉核实法在估计m (xi ) 时,不使
12、用 yi 的信息,看其余观测值yi的能力有多强;而这个能力又取决于带宽 h 。故选择带宽h ,使得此能力最强,即最小化以下目标函数: yn2CV(h) mmin(x )1iii1h(x ) ji wji, h y j是对 m(x )的 leave-one-outm jii1iwestimate 。ji, h最小化 CV与最小化IMSE渐近等价2017/4/24,(c) 201722多元核回归对于 k 维随量 x,考虑非参数多元回归:yi m( xi ) i在 x0处的核回归估计量为K ( x x ) h yni0im ( x ) i1K ( x x ) h0ni1i0”(curse of di
13、menality):多元“维度的回归的解释变量越多,则收敛的速度越慢,对样本容量的要求也就越大2017/4/24,(c) 201723k 近邻回归平均估计量 (local核回归估计是局部weighted average estimator)的一个特例。选择权重的另一方式是,对于最靠近 x0 的 k 个的观测值(记此集合为 Nk (x0 ))都给予相同的权重,而对其余观测值则给予权重0。1k1x N(x ) yn(x ) mKNN0ik0ii1越靠近端点,估计量越(boundary problem)确,存在边界问题2017/4/24,(c) 201724局部线性回归核回归估计量是“局部常数估计”
14、(local constant estimator),假定在 x0 附近的邻域里,m(x) 均等于常数局部线性回归假定m(x) 在 x0 附近的某个邻域里为线性函数,即在该邻域里,m(x) a0 b0 (x x0 )最小二乘法(WLS)估计此线性函数:使用ni12(x x )hy a b (xx )minKi0i00i0a0 , b02017/4/24,(c) 201725Fan Regres“局部线性回归”(local linear regres (1992)首倡,也称“范回归”(Fan regres)由Fan)。局部线性回归不仅能较好地解决“边界问题”,而且比核回归更有效率且适用于数据类型
15、。如果带宽足够小,则在此小邻域内,一般的函数都可以很好地用线性函数来近似,故局部线性回归具有较好的性质。2017/4/24,(c) 201726局部 p 级多项式估计量假定 m(x)在 x0 附近的某个邻域为 p 级多项式。“局部 级多项式估计量”(localpolynomial estimator of degree p)最小化以下目标函数:2K (x x ) h y ani1x x) pmina(0i0, 0i0a0 , b02017/4/24,(c) 201727Lowess估计量Cleveland (1979) 提出“局部散点光滑估计量”(Locally weighted scattl
16、ot smoothing,简记Lowess),是局部多项式估计量的变种或升级版。该估计量使用“三三核”(tricubic kernel),同时使用可变(由x0 到其最近的 k 个观测值的距离所决定),以带宽h0, k及对较大的残差 给予较小的权重。Lowess的优点是,使用了可变带宽(依数据的稠密程度而定),对于界问题。值更稳健,且缓解了在两端估计的边2017/4/24,(c) 201728核密度估计的Sa命令kdensityy,kernel(kernel)bwidth(#)n(#)norm选择项“kernelkernel”指定核函数(默认二次核);“bwidth(#)”指定带宽,默认使用最优
17、带宽“n(#)”指定估计点数;“norm”表示同时画相应的正态分布,以作为对比2017/4/24,(c) 201729核回归的Sa命令(安装)sscinstallkernreg1kernreg1yx,bwidth(#)kercode(#)npo(#)gen(mhvargridvar)“bwidth(#)”用于指定带宽,默认值为最优带宽;“kercode(#)”指定核函数,其中Uniform,2 = Triangle,3 = Epanechnikov,4 =Quartic (Biweight),7 = Cosinus;Triweight,6 = Gaussian2017/4/24,(c) 201
18、730核回归的Sa命令(续)(#)” 为必选项,用于指定将解释变量“x”的“npo取值范围分为多少个等距离的点(称为“网格点”,gridpo,并在这些点上进行核密度回归;选择项“gen(mhvargridvar)”产生两个变量,其中“gridvar”为解释变量“x”的网格点,而“mhvar”为对应的核密度回归值。该程序将最优带宽记为“全局宏”(global macro)“S_1”(字母“S”为大写),故可以用“$S_1”来调用它。2017/4/24,(c) 201731货币流通速度的案例以数据集mpyr.dta为例,将 logv (货币流通速度的对数)对 r (名义利率) 进行核回归:usem
19、pyr.dta,clearkernreg1 r_grid)logvr,k(3)np(100)gen(logv_kern尼可夫核(k = 3),在100个等距离的此命令使用了网格点进行估计,并将解释变量r(利率)的网格点记为变量“r_grid”,对应的核密度回归值记为“logv_kern”。2017/4/24,(c) 2017322017/4/24,(c) 201733Kernel regres, bw = _00000F, k = 3-.899915-1.85043.6914.61Grid pos将散点图、线性回归线及核密度回归线画在一张图上:graphtwoway(scatterlogvr)
20、(lfitlogvr,lpattern(-)(linelogv_kernr_grid)2017/4/24,(c) 201734-2.5-2-1.5-1-.5051015Log of M1 Velocity = logmr - logyFitted values logv_kern调用最优带宽由于该命令的默认带宽为最优带宽,故可以利用该程序计算最优带宽。dis$S_1.90306211这表明,最优带宽为0.90。2017/4/24,(c) 201735k 近邻回归令()安netinstallsnp10.pkgknnregyx,knum(#)gen(mkvar)“knum(#)”为必选项,用于指定
21、k近邻回归中k的取值;选择项“gen(mkvar)”将k近邻回归值赋予变量“mkvar”。2017/4/24,(c) 201736k 近邻回归的案例knnreglogvr,knum(10)gen(logv_knn)k-NN regres, k = 10-.62545- .6914.61Nominalerest rate2017/4/2437Log of M1 Velocity = logmr - log局部多项式回归令lpolyyx,bwidth(#)kernel(kernel)degree(#)gen(gridvarnewvar)“bwidth(#)”指定带宽,默认值为“rule-of-th
22、umb (ROT) bandwidth estimator”;“kernel(kernel)”指定核函数,默认为“kernel(epanechnikov)”;“degree(#)”指定多项式的级数,默认值为“degree(0)”,即只有常数项(局部均值平滑,local-mean smoothing);“ en gridvar newvar)”产生两个变量,“gridvar”为解释变量“x”的网格点,“newvar”为对应的局部多项式回归值。2017/4/24,(c) 201738局部线性回归lpolylogvr,b($S_1)degree(1)gen(r_grid_llogv_lpoly)20
23、17/4/2439Log of M1 Velocity = logmr - logy-2-1.5-1-.5Local polynomial smooth051015Nominal.903062105178833kernel = epanechnikov, degree = 1, bandwidth = 1.5erest rateLowess回归lowessyx,bwidth(#)gen(newvar)选择项“bwidth(#)”用于指定带宽,默认值为0.8;选择项“gen(newvar)”将被解释变量的光滑值(smoothed values)赋予变量“newvar”以数据集mpyr.dta为例
24、:lowesslogvr,b($S_1)gen(logv_lowess)2017/4/24,(c) 201740Lowess smoother051015Nominalerest rate.903062105178833bandwidth = .82017/4/24,(c) 201741Log M1 Velocity-2-1.5-1-.5合并画图将以上所有各图合并在一起:graphtwoway(scatterlogvr)(lfitlogvrl(-)(linelogv_knnr,lp(_)(linelogv_kernr_rid)(linelogv_lolr_grid_l,lp(_.)(linel
25、ogv_lowessrl.2017/4/24,(c) 2017422017/4/24,(c) 201743-2.5-2-1.5-1-.5051015NominalLog of M1 VelocityFitted valueslogv_knnlogv_kernlpoly smooth: Log of M1 Velocitylowess: Log of M1 Velocityerest rate半参数回归非参数回归假设对回归函数一无所知,但经济理论可能其具体形式有所限制,利用这些信息可提高估计效率。当解释变量较多时,完全的非参数方法“维度的”,要求很大的样本容量。可使用包含“参数部分”(param
26、etric component)与“非参数部分”(nonparametric component)的“半参数模型”(semiparametric m)。2017/4/24,(c) 201744部分线性模型最常见的半参数模型为“部分线性模型”PartiallLinear m,简记PL):yi xi g(zi ) i假设扰动项均值独立于所有解释变量:E(| xi , zii2017/4/24,(c) 201745差Robinson(1988)提出“差分估计量”(Robinson difference estimator),以消去g(zi ) 。给定 zi ,对方程两边取条件期望E( yi | zi
27、 ) E( xi | zi ) g(zi ) :E(i | zi ) 0 (迭代期望定律)将两个方程相减:zi iyi E( yi | zi ) xi Exi对上式中的条件期望,可进行非参估计(核估计)2017/4/24,(c) 201746差分估计量(续)OLS回归:y E ( y | z ) x E ( x | z ) uiiiiiii对 g(zi ) 的非参数估计:g(zi ) E ( yi | zi ) E ( xi| zi )PL2017/4/24,(c) 201747部分线性模型的Sa命令)(sscinstallsemiparsemiparyx1x2x3,nonpar(z)robu
28、stcluster(varname)kernel(kernel)gen(varname)cipartial(varname)“nonpar(z)”指定非参部分,“robust”使用异方差稳健标准误,“cluster(varname)”使用聚类稳健标准误。2017/4/24,(c) 201748semipari(续)E ( yi | zi )(nonparametric“gen(varname)”用来fit of the dependent variable);“ci”表示在图上给出此nonparametric fi 的置信区间; yi E ( yi | zi )“partial(varname)”(dependent variable partialled out from thennrmtric fit“kernel(kernel)”指定核函数,默认核,即“kernel(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2031年中国灯箱镇流器行业投资前景及策略咨询研究报告
- 2025至2031年中国排气歧管总成行业投资前景及策略咨询研究报告
- 2025至2030年中国除铁锰器数据监测研究报告
- 2025至2030年中国迷宫密封数据监测研究报告
- 2025至2030年中国立式凝结水泵数据监测研究报告
- 菏泽斜屋顶阳台窗施工方案
- 2025至2030年中国大功率塑焊机数据监测研究报告
- 2025至2030年中国塑料管材粉碎生产线设备数据监测研究报告
- 2025至2030年中国反光交通雨服数据监测研究报告
- 2025至2030年中国传动轴护套数据监测研究报告
- 2023-2024人教版小学2二年级数学下册(全册)教案【新教材】
- 浙江省炮制规范2015版电子版
- 小学《体育与健康》体育基础理论知识
- JJG 144-2007标准测力仪
- GB/T 740-2003纸浆试样的采取
- GB/T 7324-2010通用锂基润滑脂
- GB/T 5916-2020产蛋鸡和肉鸡配合饲料
- 妇产科急诊患者院前急救
- 急性会厌炎诊疗常规
- 医院内静脉血栓栓塞症防治质量评价与管理指南(2022版)
- 冷藏车的制冷原理、发展进程及前景课件
评论
0/150
提交评论