金融高频数据和超高频数据研究综述_第1页
金融高频数据和超高频数据研究综述_第2页
金融高频数据和超高频数据研究综述_第3页
金融高频数据和超高频数据研究综述_第4页
金融高频数据和超高频数据研究综述_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金融高频数据和超高频数据研究综述

一、高频数据和高频数据的概念及其研究的基本模式(一)更高频率的金融数据近年来,随着计算方法和计算方法的发展,数据写入和存储成本显著降低,并可以进行大规模数据库分析。所以,许多科学领域的数据都开始以越来越精细的时间刻度来收集,这也使得对更高频率的金融数据进行研究成为可能。在金融市场中,高频率采集的数据可以分为两类:高频数据(highfrequencydata)和超高频数据(ultrahighfrequencydata)。高频数据是指以小时、分钟或秒为采集频率的数据。而超高频数据则是指交易过程中实时采集的数据。高频数据和超高频数据两者之间的最大区别是:前者是等时间间隔的,后者的时间间隔是时变的。一般而言,金融市场上的信息是连续的影响证券市场价格运动过程的。数据的离散采集必然会造成信息不同程度的缺失。采集数据频率越高,信息丢失越少;反之,信息丢失越多。(二)分析研究动因从金融高频数据和超高频数据产生至今,对金融高频数据和超高频数据的分析一直是金融研究领域一个备受关注的焦点。其中对金融高频数据进行研究的代表人物是Andersen和2003年诺贝尔经济学奖得主Engle的学生Bollerslev,而超高频时间序列研究的开创性工作是由Engle等人完成的。对金融高频数据和超高频数据进行分析研究的动因主要可以归结为以下两点:第一,对金融高频数据和超高频数据本身所具有的特征的关注。金融高频数据和超高频数据除了包括交易价格外,还包括与交易相关的询价和报价、交易数量、交易之间的时间间隔等等。如何从总体上来分析这些数据和具体处理其特殊性,便成为众多金融领域的从业者和研究者所面临的一个富有挑战的课题。第二,金融高频数据和超高频数据对理解金融市场的微观结构来说相当重要。金融高频数据和超高频数据中包含着大量市场微观结构的信息。目前微观结构理论的研究大多是定性研究,这些理论在多大程度上符合实际,需要实证研究对其进行检验。随着对金融高频数据和超高频数据研究和认识的深化,为检验现有的市场微观结构理论提供了条件。同时在探寻金融市场微观结构的过程中,还可以对现有的经济理论、研究方法和计量模型等进行不断的创新和完善。二、共同发展的相关研究尽管对金融高频数据和超高频数据的分析研究的历史并不长,但是目前的发展状况却着实令人鼓舞。众多研究者对此都表现出了极大的兴趣,分别从不同的角度对金融高频数据和超高频数据进行了探索和研究。在此本文有所侧重地阐述一些具有代表性的研究内容。(一)高频数据统计特征在讨论金融高频数据如何应用时,对数据本身的统计特征也不能忽视。因为统计特征不仅是认识数据的基本依据,也是正确使用数据的首要前提。早期的研究表明,金融高频数据是不稳定的,在较短期间内有厚尾(heavy-tail)趋势。相比较而言,近期对金融高频数据统计特征的研究更为深入和具体。Andersen和Bollerslev的研究发现高频收益数据具有非正态性。随着数据频率的增加,其数据的峰度也是随之增加的,到分钟数据,峰度就已经达到了100以上了。1Andersen和Bollerslev采用高频数据对美国股票市场和外汇市场的日内波动性和长记忆性进行了研究,证明了在这些市场中存在着波动的长记忆性。2Andersen和Bollerslev利用高频数据对日本股票市场进行了研究,通过滤波的方法证明了波动长记忆性的存在。3(二)关于日内波动的研究“日历效应”是指波动、交易量、买卖价差、交易频率等金融变量在日内、周内、月内表现出稳定的和周期性的运动模式。“日历效应”产生的原因主要有:(1)规律性的宏观经济信息发布导致了金融波动周期性的日内“U”型走势;(2)由闭市效应导致交易商投资策略变化引起的。闭市使得投资者不能交易,也不能从证券价格和交易活动中学到相关信息,所以闭市加大了投资者的信息不对称和风险,加大了利用私人信息进行投机交易的需求;(3)行为金融学认为“U”型模式是由于投资者的情绪变化所引起的。“日历效应”是对金融高频数据的研究中最重要的发现。McInish和Wood利用分钟数据发现日内波动具有“U”型模式4;Admati和Pfleiderer,Brock和Kleidon各自给出了日内“U”型模式的理论解释5;Hedvall对它们进行了比较6;Rahman和Lee等利用个股交易数据对日内“U”型模式进行了实证研究,并发现交易量、买卖价差、交易频率也存在“U”型模式7;Andersen和Bollerslev系统地分析了“日历效应”,并解释了它产生的原因,通过德国马克对美元的汇率数据拟合了“日历效应”。8Andersen,Bollerslev,Cai利用弹性傅立叶形式回归(FlexibleFourierFormRegression)对日本股票市场进行了分析,发现由于日本市场有不同于美国市场的午间休市的交易制度,日本股票市场波动呈现日内双“U”型模式。3对于“日历效应”的定量研究具有重大的意义:(1)正确的计量高频数据的“日历效应”对研究日内波动的持续性至关重要。Andersen和Bollerslev在研究“日历效应”与波动持续性之间的关系时,发现在对日内周期性的“U”型模式进行滤波处理之后,波动持续性大大的下降2;Andersen和Bollerslev使用德国马克对美元的汇率数据将“日历效应”、重大事件公布效应以及波动持续性三者放在一起来研究,发现“日历效应”对准确计量波动性至关重要。8(2)正确的计量高频数据的“日历效应”有助于研究金融时间序列的长记忆特性。2003年诺贝尔经济学奖得主Granger认为长记忆性很可能是由于外部事件所导致的结构变化而引起的。高频数据数量庞大,短时期内的数据就具有大样本的性质。选取短时期的高频数据,消除高频数据周期性的“日历效应”,由于短时期的数据不存在结构变化,所以有助于研究长记忆性到底是时间序列的内在特征,还是由于外部事件所导致的结构变化引起的。(三)市场微观结构金融市场微观结构理论主要研究的是不同交易机制下金融市场的质量和同一交易机制下交易者的行为。金融市场微观结构影响了市场的流动性,市场效率,交易成本以及波动性,所以对它的研究意义重大。在过去20年,金融市场微观结构的理论和实证得到飞速发展。基于金融高频数据和超高频数据对市场微观结构所作的实证研究主要集中在以下几个方面:对交易数据如波动性、交易量与价格差额之间相互作用的研究;对收益、报价、交易与交易之间的横向相关关系的研究;对金融市场的技术分析和市场效率的研究;对不同金融市场之间相互关系的研究。在国内有关微观结构的实证研究主要有以下几篇有代表性的文献:孙培源、杨朝军利用日内交易的高频数据研究了流动性和交易活动之间的相关性和各自时间序列的性质9;杨朝军、孙培源、施东晖利用日内交易的高频数据,根据证券市场微观结构理论,对上海股票市场的报价深度的日内特征进行了研究,同时对其影响因素进行回归分析,发现我国股市中除交易量、波动性和价格水平外,信息的非对称性是影响流动性水平的重要因素。10(四)“已实现”标准差的时间聚合性质对利用高频数据计算金融波动作出贡献最大要数Andersen与Bollerslev两人近年来的工作。特别引人注目的,Andersen和Bollerslev提出了一种叫“已实现”波动(realizedvolatility)的测量方法。1“已实现”波动是把一段时间内收益率的平方和作为波动率的估计,这种估计方法不同于ARCH类模型和SV类模型,它没有模型(modelfree),不需要进行复杂地参数估计。在一定的条件下,“已实现”波动是没有测量误差的无偏估计量。根据Andersen和Bollerslev等对西方国家发达金融市场的高频金融时间序列的研究11,“已实现”波动通常具有下列性质:(1)由于日内高频收益率之间存在序列相关和异方差性,所以“已实现”方差(realizedvariance)与“已实现”标准差(realizedstandarddeviation)的无条件分布都是极端右偏,而且具有极高的峰度。但是“已实现”标准差的偏度要比“已实现”方差的要低;(2)虽然“已实现”标准差的无条件分布都是极端右偏,而且具有极高的峰度,但是“已实现”标准差取对数后的无条件分布却很近似正态分布;(3)虽然日间收益率的无条件分布并非正态分布,具有明显的“高峰厚尾”性,但是日间收益率除以“已实现”标准差后的条件分布却近似是正态分布;(4)以上三条性质都是针对每日的“已实现”波动而言的,然而对“已实现”波动的时间聚合性质的研究,即对每周,每两周,每三周及每月的“已实现”波动的研究中发现:在时间聚合下,“已实现”波动的方差按h2d+1的尺度增长,其中h表示时间跨度,d是常数;(5)“已实现”波动的自相关系数按双曲线的速率缓慢下降;(6)“已实现”波动取对数后的无条件分布是正态分布,具有显著的分数维单整的性质。根据对数“已实现”波动所具有的分数维单整特性,通常采用分整自回归移动平均模型ARFIMA(p,d,q)(AutoregressiveFractionallyIntegratedMovingAverageModel,简称ARFIMA模型)来很好的刻画。“已实现”波动在多变量的情形下可以扩展为“已实现”协方差矩阵,它不仅包括各变量自身的“已实现”波动,也包括变量之间的“已实现”相关系数。对“已实现”协方差阵可以建立向量分整自回归移动平均模型,VARFIMA模型(VectorAutoregressiveFractionallyIntegratedMovingAverageModel)。估计出VARFIMA模型的参数以后,就可以预测将来的波动性和相关系数,可以很方便地应用于资产定价,资产配置等领域。多元GARCH模型和多元SV模型早就被提出,多元GARCH模型和多元SV模型把波动率和相关系数作为隐性变量,不能直接观测,需要首先进行模型的参数估计,然后才能得到波动率和相关系数的值。但是由于所谓的“维数灾祸”问题,很难得到多元GARCH模型和多元SV模型参数的正确的估计值,因此很少能运用于资产定价,组合管理等实际领域。而“已实现”协方差把波动率和相关系数当作显性变量,可以利用高频数据直接计算当期的波动率和相关系数的值,具有计算简单,结果准确的优点。同时,VARFIMA模型的估计相对于多元GARCH模型和多元SV模型来说要简单的多,可以弥补多元GARCH模型和多元SV模型难于估计的缺陷。(五)如何解决目前的问题随着金融高频数据和超高频数据的不断增加,如何使用模型来恰当的描述这些数据就成为一个重要的问题。然而,在低频数据的建模中颇受欢迎的ARCH类模型和SV类模型并不能直接用于高频数据和超高频数据。关于高频数据和超高频数据的计量模型,目前还没有一个被大家普遍认可的模型框架,可以见到的文献也不多,但是理论界还是存在一些比较活跃的模型。1.基于金融高频数据的计量模型这些模型基本是在ARCH类模型的基础上扩展出来的,主要包括:弱GARCH模型和异质ARCH模型(HARCH模型)。(1)时空聚合模型弱GARCH模型是由Drost和Nijman第一次提出。12Drost和Nijman分别定义了三种模型:强GARCH模型,半强GARCH模型和弱GARCH模型。其中弱GARCH模型包含半强GARCH模型,半强GARCH模型包含强GARCH模型。弱GARCH模型可以用于不同频率的数据,并且不管它是流量变量,还是存量变量,估计出的弱GARCH模型的参数之间都满足一定的解析关系,即通常所说的在时间聚合下是封闭的。但半强GARCH模型和强GARCH模型却不具有这种时间聚合下封闭的性质。弱GARCH模型建立了低频时间序列和高频时间序列之间的解析关系,其关于参数的封闭性的结论的一个重要应用是作为评价模型是否适合的一个标准。(2)harch模型的广义广义定义HARCH模型是由Müller和Dacorogna等提出的,主要是针对高频数据的两个基本特征:波动的长记忆性和波动的非对称性。13HARCH模型的形式为:r(t)=σ(t)ε(t)σ2(t)=c0+∑nj=1j=1ncj(∑ji=1i=1jr(t-iΔt))2其中:c0>0,cn>0,cj≥0(j=1,…,n-1)HARCH模型在广义上属于ARCH类模型。但是,在HARCH模型中,条件方差表示为过去不同期限长度的收益率平方之和,这一点与ARCH类模型把条件方差表示为过去相同期限长度的收益率的函数不同。为了刻画波动的记忆性,Müller和Dacorogna等在HARCH模型的基础上进一步发展了EMA-HARCH模型(exponentialmovingaverageHARCH模型),并进行了实证分析。2.金融超高频数据建模研究近年来,关于金融超高频数据的研究主要集中在对金融超高频数据的建模研究。针对金融超高频数据的计量经济模型主要分为两大类:一类是关于交易间隔的模型;另一类是关于交易价格变化的模型。(1)交易间隔模型具有代表性的关于交易间隔的模型是由Engle和Rusell正式提出的自回归条件交易间隔模型(AutoregressiveConditionalDurationModel,ACD模型)和Bauwens和Veredas提出的随机条件交易间隔模型(StochasticConditionalDurationModel,SCD模型)。ACD模型众所周知,金融市场上的交易往往是一段时间比较频繁,一段时间比较平淡。也就是说,较长的交易间隔往往跟随着较长的交易间隔,较短的交易间隔往往跟随着较短的交易间隔。这说明交易间隔具有聚集性。针对交易间隔的这一性质,Engle和Rusell在原有的ARCH模型的框架下,用一个标值点过程(markedpointprocess)去刻画随机的交易间隔,不同的标值点过程得到不同的ACD模型。Engle和Rusell利用ACD模型很好的完成了对交易频率的预测。14基本的ACD模型的形式为:di=Ψiεiεi~i.i.d.p(ε;π)ψi=ω+∑pj=1j=1pαjdi-j+∑qj=1j=1qβjψi-j其中:p(ε;π)为εi的概率密度函数;通常假设εi满足的分布形式有:指数分布、Weibull分布、Gamma分布以及Burr分布等。Bauwens和Goit针对基本的ACD模型需要对参数的取值范围加以限制,对参数估计带来不便这一缺陷,提出了LACD模型(logarithmicACD模型)15。LACD模型与Nelson(1991)提出的EGARCH模型相似。Zhang,Russell和Tsay把门限的思想引入到ACD模型框架,提出一种非线性的ACD模型,即TACD模型(ThresholdACD模型),使得交易间隔过程具有更富弹性的形式。16为了刻画交易间隔的长记忆性,Ghysels和Jasiak沿袭FIGARCH的建模思想,提出了FIACD模型(FractionallyIntegratedACD模型)。17SCD模型另一个具有代表性的关于交易间隔的模型是由Bauwens和Veredas提出的SCD模型。18SCD模型假设交易间隔是由一个隐的(latent)随机因素产生,并且这一随机因素服从一阶自回归过程。这一隐因素能够捕捉到金融市场中的随机信息流,而这一信息流很难被投资者直接观测到。SCD模型的形式为:di=ψiεi,ψi=eφiφi=ω+βφi-1+ηi其中:εi~p(ε;π),p(ε;π)为εi的概率密度函数;ηi~i.i.d.N(0,σ2);εi和ηi相互独立。由SCD模型的形式可知,di的边际分布是由εi和φi的混合分布决定的。εi的概率密度函数通常假设为标准的Weibull分布或标准的Gamma分布。SCD模型的参数并不需要像ACD模型那样需要对参数的取值范围加以限制。但是,由于在SCD模型中,交易间隔是由一个不可观测的随机过程决定的,从而导致其似然函数难以得到。因此,SCD模型的参数估计要比ACD模型的参数估计困难。SCD模型的参数估计方法主要有伪极大似然函数估计方法和GMM估计方法。(2)acd-garch模型ACD类模型和SCD模型只是对超高频时间序列中的交易时间间隔建模,但是高频数据还包括交易价格。交易价格同样传递着重要的信息,因此还必须对交易价格或收益来建模。传统的ARCH类模型和SV类模型是针对相等时间间隔上采集的数据来建模的,而对于超高频数据而言,任意两次交易之间的时间间隔是不确定的,是时变的。传统的ARCH类模型和SV类模型不能直接用来对超高频数据建模。近年来,在高频数据分析中关于交易价格的计量模型主要有:ACD-GARCH模型和UHF-GARCH模型(ultra-high-frequencyGARCHmodel)。ACD-GARCH模型为了刻画超高频金融数据的波动性,Ghysels和Jasiak运用了GARCH过程的时间聚合思想,在ACD模型的框架下,引入了GARCH效应,提出了ACD-GARCH模型。19ACD-GARCH模型的形式为:di=Ψiεi,εi~i.i.d.(0,1)ψi=ω+∑pj=1j=1pαjdi-j+∑qj=1j=1qβjψi-jri=σiηi,ηi~i.i.d.(0,1)σ2ii2=μ+∑rk=1k=1rφkr2i−ki-k2+∑sk=1k=1sφkσ2i−ki-k2其中:di为第i次交易与第i-1次交易之间的间隔;ψi为di的条件均值;ri为第i次交易的对数收益率;σ2ii2为ri的条件方差。模型中的系数需要满足的约束条件为:αj,βj≥0,ω>0,∑max(p.q)j=1j=1max(p.q)(αj+βj)≤1;ϕk,φk≥0,μ>0,∑max(r,s)k=1k=1max(r,s)(ϕk+φk)≤1Ghysels和Jasiak采用超高频数据进行了实证研究,发现在交易间隔时间序列与收益波动时间序列之间存在因果关系,尤其是日内交易间隔会对收益波动中的意外事件有所反应。UHF-GARCH模型传统的ARCH类模型和SV类模型实际上是针对相等时间间隔的波动进行建模的。与此相类似,对于超高频金融数据,可以考虑对单位时间间隔上的波动建模。Engle指出只需用交易间隔(duration)去调整超高频收益率,就可以在传统的GARCH模型的框架下对超高频数据建模,并且提出了UHF-GARCH模型(ultra-high-frequencyGARCHmodel)。首先考虑对超高频收益率ri除以di−−√di,然后把单位时间间隔上的收益率ri/di−−√ri/di纳入传统的GARCH模型的框架下建模。20假设单位时间间隔上的收益率ri/di−−√ri/di满足ARMA(p,q)过程:ri/di−−√=∑pj=1αj(ri−j/di−j−−−√)+∑qj=1βjΨi−j+Ψiri/di=∑j=1pαj(ri-j/di-j)+∑j=1qβjΨi-j+Ψi其中:Ψi=σiηi,ηi~i.i.d.(0,1)Ψi服从GARCH(r,s)过程:σ2i=μ+∑rk=1ϕkΨ2i−k+∑sk=1φkσ2i−kσi2=μ+∑k=1rϕkΨi-k2+∑k=1sφkσi-k2三、目前,金融高频数据和超高频数据的研究存在几个问题,以及未来的研究预测(一)金融时间序列模型其他指标间的协调对金融高频数据和超高频数据的分析和建模研究作为金融计量学的一个全新的研究领域,虽然在理论研究和实证研究方面取得了一些突破和研究成果,但是毕竟对金融高频数据和超高频数据的研究还处于起步阶段,有许多问题目前还没有得到解决。目前在金融高频数据和超高频数据的研究中存在的问题大致可以归纳为以下几个方面:(1)目前,关于金融高频数据和超高频数据的建模研究都是从不同角度展开的,迄今为止,还没有出现一个大家所公认的模型。此外,模型中到底应该包括哪些指标这一问题还未得到有效地解决。通常我们都是用价格来建模,但是,交易量,交易时间,交易者的个性,指令,相关市场运行等其他指标同样也反映了信息。如果忽略了这些信息,所建立的模型则可能不会有较好的效果。(2)由于高频金融时间序列存在微观结构误差,所以分析和建模过程中频率并不是选择越高越好。微观结构误差是指由于交易的竞要价跃动(bid-askbounce),不同步交易(asynchronoustrading),闭市效应(marketclosingeffects)等引起的高频收益率的序列相关从而导致相关指标偏离信息的真实反映。但是,现有文献中的模型的取样频率有1分钟,5分钟及30分钟不等。如何确定最优抽样频率尚无有效而简便的办法,而且对抽样频率的研究一致也被忽视。(3)“已实现”波动充分地利用了高频时间序列的信息,对波动能够很准确地度量,这对于金融研究工作者和实际从业人员都有很重要的意义。一方面可以直接应用于期权定价的研究,另一方面可以作为评价其他各个波动模型好坏的标准。然而,已实现波动估计量虽然是金融资产收益波动的无偏估计量,但是却

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论