应用时间序列分位数回归.docx_第1页
应用时间序列分位数回归.docx_第2页
应用时间序列分位数回归.docx_第3页
应用时间序列分位数回归.docx_第4页
应用时间序列分位数回归.docx_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录一、为什么需要分位数回归二、总体分位数三、样本分位数四、分位数回归的估计方法五、分位数回归模型的估计六、R软件操作分位数回归一、为什么需要分位数回归?1、一般的回归模型着重考察x对y的条件期望E(y|x)的影响,如果y|x不是对称分布,则E(y|x)难以反映条件分布的全貌。如果能够估计条件分布y|x的若干重要的条件分位数,比如中位数等,能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值)。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。2、使用 OLS 进行“均值回归”,由于最小化的目标函数为残差平方和,容易受极端值影响。“分位数回归”,使用残差绝对值的加权平均作为最小化的目标函数,不易受极端值影响。而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。二、总体分位数假设Y为连续型随机变量,其累积分布函数为Fy()。Y的“总体q分位数”,记为yq,满足以下定义式:q = P (Yyq)= Fy(yq) =总体q分位数正好将总体分布分为两部分,其中小于或等于yq的概率为 q,而大于yq的概率为 (1-q )。如果q =1/ 2,则为中位数,正好将总体分为两个相等的部分。如果Fy()严格单调递增,则有yq=Fy-1 (q) 对于回归模型,记条件分布 y | x 的累积分布函数为F y | x ()。条件分布y | x 的总体q分位数,记为yq,满足以下定义式:q= F y | x (yq)假设F y | x ()严格单调递增,则有yq= F y | x -1(q)由于条件累积分布函数F y | x ()依赖于x ,故条件分布 y | x的总体q分位数yq也依赖于x,记为yq (x),称为“条件分位数函数”。对于线性回归模型,如果扰动项满足同方差的假定,或扰动项的异方差形式为乘积形式,则yq (x)是x的线性函数。证明如下:y=x+ uu=x iid(0,2)不失一般性,假设x0。如果x为常数,则扰动项 u 为同方差;反之,则为乘积形式的异方差。根据定义,条件分位数函数yq (x)满足q=Pyyq (x) (条件分位数的定义)=Px+ uyq (x)=Puyq (x) x=Pxyq (x) x=P(yq (x) x)/( x)=F(yq (x) x)/( x)其中,F()为的累积分布函数。因此,(yq(x) x)/( x)= F-1 (q)。yq(x)= x+ x*F-1(q),故yq (x)是x的线性函数。在同方差的情况下,x为常数,所有条件分位数函数yq(x),0q1的斜率都等于,只有截距项x*F-1 (q)依赖于 q。一般地,条件分位数函数的“斜率”也依赖于 q,记为q。在下文中,假设条件分位数函数是解释变量 x 的线性函数。三、样本分位数对于随机变量Y,如果总体的q分位数yq未知,可使用样本 q分位数 yq 来估计yq。将样本数据y1,y2,yn按从小到大的顺序排列为y(1),y(2), y(n)。yq 等于第nq个最小观测值,其中n为样本容量,nq表示大于或等于nq而离nq最近的正整数。【例】n= 97,q =0.25,则nq=97* 0.25= 24.25= 25。但这种方法不易推广到回归模型。一种等价方法是,将样本分位数看成是某最小化问题的解。样本均值也可看成是最小化残差平方和的解:minu i=1nyi-2 m u=y=1ni=1nyi样本中位数可视为“最小化残差绝对值之和”问题的解:min i=1nyi- =median y1,y2,yn 为什么求解这个最小化问题会得到样本中位数呢?因为只要的取值偏离中位数,就会使得残差绝对值之和上升。例 考虑一个样本容量为99 的样本,假设其样本中位数(即第50个最小观测值)为 10。49 1050th 1249假设第 51 个最小观测值为 12。如让 =12而不是10,则对于前50 个观测值而言,其残差绝对值yi-都将增加 2;对于后 49 个观测值而言,其残差绝对值yi-都将减少 2。故总变动为(50*2) -( 49*2)=2,故第 51个最小观测值不如第50个最小观测值(中位数)更能使目标函数最小化。同理,第49个最小观测值也不如第50个最小观测值。由此可知,第 50个最小观测值(中位数)是最优解。命题 可以将样本q分位数视为以下最小化残差绝对值的加权平均问题的最优解:min i:yi nqyi-+i:yin1-qyi- =yq例 如果q =1/4,则满足“yi”条件的观测值只得到1/4的权重,而满足“yi”条件的其余观测值则得到3/4的权重。因为估计的是1/4分位数(位于总体的底部),故较大的观测值得到的权重较小,而较小的观测值得到的权重较大。证明:将目标函数中的绝对值去掉可得min i:yi nqyi-+i:yin1-q-yi对 求一阶导数可得i:yi nq-1+i:yin1-q=0 假设y(k) y(k+1),其中y(k)为第k个最小观测值,则共有k个观测值满足“yi”,故-(n-k ) q+ k(1-q)=0经整理可得k=nq。k 必须是整数。故最优解=ynq=yq,即样本分位数。四、分位数回归的估计方法将单变量情形下对样本分位数的估计方法推广到线性回归。假设条件分布y | x的总体q分位数yq(x)是x的线性函数:yqxi=xiqq称为“q分位数回归系数”,其估计量 q 由以下最小化问题来定义:minq i:yixiq nqyi-xiq+i:yi fit1 = rq(foodexp income, tau = 0.5, data = engel,method=br) # 进行分位数回归 fit1 # 直接显示分位数回归的模型和系数Call:rq(formula = foodexp income, tau = 0.5, data = engel, method = br)Coefficients:(Intercept) income 81.4822474 0.5601806 Degrees of freedom: 235 total; 233 residual说明:以食物支出(foodexp)为因变量及家庭收入(income)为自变量拟合中位数回归模型,得到的常数项系数为81.48,自变量系数为0.56。由此可知即使家庭没有收入来源,这个家庭也有食物支出81.48。家庭收入每变动1个单位,食物支出同向变动0.56个单位。运行结果: summary(fit1) # 得到更加详细的显示结果Call: rq(formula = foodexp income, tau = 0.5, data = engel, method = br)tau: 1 0.5Coefficients: coefficients lower bd upper bd (Intercept) 81.48225 53.25915 114.01156income 0.56018 0.48702 0.60199说明:summary函数这里分别给出了中位数回归常数项系数和自变量系数的上下限,相当于给出了(1-)%的置信区间。中位数到上下限的距离并不相等,可以看出食物支出和家庭收入的分布是偏态的。运行结果: r1 = resid(fit1) # 得到残差序列,并赋值为变量 r1 acf(r1) pacf(r1) Box.test(r1, type=Ljung-Box)# 对残差进行LB检验Box-Ljung testdata: r1X-squared = 18.762, df = 1, p-value = 1.481e-05说明:通过r1 = resid(fit1)命令得到中位数回归模型的残差,然后对其画自相关图和偏自相关图,来直观的观察残差是否是白噪声序列。根据自相关图可以看出,存在一阶自相关,其余的相关系数大部分在两倍标准差以内。再观察偏自相关图的值,也存在一阶偏自相关,其他滞后项大多都在两倍标准差以内,得出可能不是白噪声序列。下面进行LB统计量的检验,给出统计学的证据。LB统计量的原假设H0:p1=p2=Pm,得到的p值= 1.481e-05 summary(fit1, se = nid) # 通过设置参数 se,可以得到系数的假设检验Call: rq(formula = foodexp income, tau = 0.5, data = engel, method = br)tau: 1 0.5Coefficients: Value Std. Error t value Pr(|t|)(Intercept) 81.48225 19.25066 4.23270 0.00003income 0.56018 0.02828 19.81032 0.00000说明:进行系数的显著性检验。由于残差项不是白噪声序列A. se = “rank”和 B. se=“iid”并不适用。选择C. se = “nid”:表示按照Huber方法逼近得到的估计量。H0:系数与零没有显示出差异。由上式结果知,常数项的P值为0.000030.05拒绝原假设,说明系数是显著的;自变量的P值为0.00000F) 1 2 703 15.557 2.449e-07 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1说明:对三个不同分位点的回归模型进行方差分析。原假设H0:三个回归模型拟合的值没有显著性差异。P值=2.449e-07 summary(lm(foodexp income)Call:lm(formula = foodexp income)Residuals: Min 1Q Median 3Q Max -725.70 -60.24 -4.32 53.41 515.77 Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) 147.47539 15.95708 9.242 2e-16 *income 0.48518 0.01437 33.772 2e-16 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1Residual standard error: 114.1 on 233 degrees of freedomMultiple R-squared: 0.8304,Adjusted R-squared: 0.8296 F-statistic: 1141 on 1 and 233 DF, p-value: 2.2e-16说明:对因变量食品支出和自变量家庭收入的线性最小二乘回归,y=147.47539+0.48518x,系数的显著性水平*是非常显著的,其中调整的R方是0.8296;F统计量的值为1140,p值2.2e-16,说明方程模拟的很好。由于R软件找不到关于分位数回归的评价检验,如拟合优度、F统计量。所以转为用Eviews来进行分位数回归的拟合。先来看看Eviews拟合均值回归模型的一些输出结果。Dependent Variable: YMethod: Least SquaresDate: 12/24/16 Time: 11:11Sample: 1 235Included observations: 235VariableCoefficientStd. Errort-StatisticProb.C147.475415.957089.2420050.0000X0.4851780.01436633.771790.0000R-squared0.830365Mean dependent var624.1501Adjusted R-squared0.829637S.D. dependent var276.4570S.E. of regression114.1079Akaike info criterion12.32064Sum squared resid3033805.Schwarz criterion12.35008Log likelihood-1445.675Hannan-Quinn criter.12.33251F-statistic1140.534Durbin-Watson stat1.410754Prob(F-statistic)0.000000说明:用Eviews拟合的均值回归模型y=147.4754+0.485178x,调整的R方是0.829637;F统计量的值为1140.534,p值为0.000000。跟R软件计算出来的统计量的数值都是一一对应的。下面我们用eviews来拟合分位数回归的模型。运行结果:eviews来拟合中位数回归的模型Dependent Variable: YMethod: Quantile Regression (Median)Date: 12/24/16 Time: 12:21Sample: 1 235Included observations: 235Huber Sandwich Standard Errors & CovarianceSparsity method: Kernel (Epanechnikov) using residualsBandwidth method: Hall-Sheather, bw=0.15744Estimation successfully identifies unique optimal solutionVariableCoefficientStd. Errort-StatisticProb.C81.4823524.034943.3901620.0008X0.5601810.03137017.857070.0000Pseudo R-squared0.620556Mean dependent var624.1501Adjusted R-squared0.618927S.D. dependent var276.4570S.E. of regression120.8447Objective8779.966Quantile dependent var582.5413Restr. objective23139.03Sparsity209.3504Quasi-LR statistic548.7092Prob(Quasi-LR stat)0.000000说明:Pseudo R-squared 伪R2 ;Adjusted R-squared调整的伪R2;S.E. of regression分位数回归式的标准误差;Quantile dependent var分位数回归式中只有常数项存在的系数估计值;Objective目标函数极小值;Objective分位数回归式中只有常数存在的目标函数极小值;Sparsity分位数稀疏函数估计值;Quasi-LR statistic:准似然比估计量的值;Prob (Quasi-LR stat)准似然比估计量的值所对应的概率值。用Eviews拟合的中位数回归模型y0.5=81.48235+0.560181x;其调整的R方为0.618927。运行结果:eviews来拟合0.99分位数回归的模型Dependent Variable: YMethod: Quantile Regression (tau = 0.99)Date: 12/24/16 Time: 12:34Sample: 1 235Included observations: 235Huber Sandwich Standard Errors & Covar

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论