




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目录引言3交易异象识别思路及其有效性的判别方法42.1.交易异象识别识别42.1.1.新高现象定义:42.1.2.放量现象定义:42.1.3.有效性判定标准5统计规律有效性的判别方法 6所造出的概率分布是否符合正态分布6不同时间段的概率分布是否一致7高频交易模型对主要指数成分股的实证分析8上证 50 及沪深 300 内部成分股的实证分析 8策略设计8对上证 50 及沪深 300 内部成分股的实证分析8交易成本敏感性分析12估算策略可容纳规模13分析价量极值统计模型的适用性14从股票波动率角度分析 14从股票行业属性角度分析14从市场系统性风险角度分析 15总结与展望 16引言由于 A 股市场做
2、空工具的匮乏,从量化对冲的角度来看,市场上获取绝对收益一般都是通过持有超额收益的股票组合多头,加上股指期货的空头来实现的。目前获取超额收益的主要途径是从多因子模型角度来考虑的,无论是优化权重模型,还是 IC-IR 加权、亦或是 BARRA 模型,其本质上都是通过股票间的横向比较来获取超额收益,那么现在的问题是:我们是否可以从股票自身的择时来获取超额收益呢?这也是我们提出 T0 系列策略的初衷,希望将个股择时与多因子模型结合起来,给投资者带来更多思路。本篇是我们高频 T0 策略系列的第一篇报告。从交易的角度来看,T0 策略包括三大类:动量突破、联动效应、日内回转(俗称“接飞刀”)。我们也准备从这
3、个角度切入来研究高频策略,但是不同于手工交易员的操作思路,我们更加看重的是从数理统计和数据挖掘的角度来探讨 A 股背后的数据规律,并在此基础上构建相应的策略模型。按照上述分类,本篇报告的 T0 策略属于中周期的动量突破类策略。本篇报告在实现过程中纳入了深度学习的理念及部分算法。从算法应用 层面看,深度学习在图像处理领域更加成熟,其类似于一种图像降维技 术,通过提取图像中的特征值对类似图像进行匹配。本文通过深度学习 的方法对参数组及胜率的多维空间进行降维,并对其分布形态进行评估,从而确定模型泛化能力,这符合深度学习在图像识别领域的逻辑,也与 研究目的更加契合。在本篇报告中,应用我们提出的方法对主
4、要指数成分股进行了实证分析。模型自2010 年5 月至2019 年5 月,在扣除所有成交成本(双边按照0.15计算交易费用),及保持指数原有权重不变的情况下,相对上证 50 指数, 实现年化 T0 收益 3.94,最大回撤-0.45,信息比率 8.75; 相对沪深 300 指数,实现年化 T0 收益 4.19,最大回撤-0.21,信息比率高达 19.95, T0 收益整体表现优异。我们的研究主要分为三个部分:第一部分主要是介绍交易异象思路设计以及概率分布有效性的判别方法,第二部分在寻找有效概率分布的基础上构建交易策略并给出主要指数成分股的实证分析,也给出了交易成本敏感性及策略容量规模的分析,第
5、三部分我们主要从股票波动率、行业属性及市场系统风险方面,讨论了价量极值统计规律 T0 策略的适应性问题,最后在此基础上提出一些进一步研究的方向。T0 策略与多因子策略的相关性很低,具有很强的互补性,我们认为这应 该也是量化对冲领域未来发展的重要方向之一,现有的优秀 Alpha 策略 基本上都是将这两块结合起来考虑的,我们也想在这个方面做一个尝试,希望能起到抛砖引玉的作用。交易异象识别思路及其有效性的判别方法交易异象识别识别从过去10 年上交所统计年鉴可以看到,A 股仍然是个人交易为主的市场,与成熟的资本市场相比,对信息的反应往往具有一定的滞后性。从这个角度来说,放量新高及放量新低对判断指数涨跌
6、是具有参考价值的,这也是技术派常用的指标之一。从低频应用的结果来看,如果仅仅只是根据单一指标来择时结果是比较糟糕的,其中最重要的原因是低频择时策略的胜率不高,大约在 55左右。与此同时,低频领域可交易次数过少,这个胜率很难通过足够统计样本使结果达到相对稳定。此外,低频交易的持仓时间长,暴露于基本面的风险大,净值很难达到稳定。但是,高频交易借助于其持仓时间短,交易频率快,交易次数多的优势,能够有效提高策略净值的稳定性,这是高频相对低频择时的重要优势之一。沿着这个思路,我们提出了对所有指数成分股在 tick 数据级别下的交易异象规律统计策略,相对于单一的指数来说,个股组合的可交易次数极大的提高,这
7、在一定程度上保证了能够稳定实现胜率的途径。下面,我们以放量新高现象为例,阐述策略逻辑。新高现象定义:新高的定义,即当前价格是过去一段时间的最大值,显然时间窗口参数 N 的取值频度设置对最终算力有较大的影响,这里我们给出的建议是以天为基础单位给出的一组参数:(0.25 天、0.5 天、0.75 天、1 天、1.5 天、2 天、2.5 天、3 天、3.5天、4 天、4.5 天、5 天、10 天、20 天)放量现象定义:放量的定义,这有两个层面的定义,一是成交量计算的窗口宽度及基准期的宽度,二是放量的程度,即当前累计成交量是否处于过去一段时间的最大累计成交量。下面以中国平安在 2019 年 5 月
8、16 日的 1min 日内累计成交量来说明:图 1 中国平安 2019-05-16 日累计成交量从左图可以看出,股票的成交活跃度在开盘时段显著高于其他时间,整体呈现出先高后低的形态,这与开盘时间集中交易隔夜信息有关。但是,我们的初衷是从交易驱动的维度刻画放量现象,并不希望将开仓时点锁定于开盘时间。因此,我们将尝试设计一个分位数水平作为放量现象的体现。从右图可以看出,当最大累计成交量分位数在 0.5 以上时,日内超过这个时间点占比都不足 1,所以我们将放量定义为当前交易量处于过去一段时间累计成交量的某一个分为水平,这样既可以满足我们对放量定义的初衷,也同时使得观察时点不局限于开盘时间。有效性判定
9、标准策略收益结果评判的标准,主要是从胜率角度来考虑的:统计观察时点之后 1 小时内最高涨幅超过 0.4的百分比。从实际交易时止盈平仓的角度来看,即使扣除双边 0.15的交易费后,当次开仓大概率不会产生亏损。简单来说,当给定累计成交量计算窗口 T(例如 T=20,表示 20 根 tick成交量之和)及最大累计成交量分位数 S(S=0.7,表示超过最大累计成交量 70的位置)下,就可以得出以下的概率密度函数:股价过去 N 日新高,累计成交量达到过去 M 日目标分位,对应最高涨幅超过 0.4的百分比为了更好的理解这个想法,以中国平安在 2019-05-22 日至 2019-05-29日的表现为例:图
10、 2 中国平安 1min 及 20min 的累计成交量在参数 N=M=5,S=0.7 的时候,对 20min 的累计成交量来说,2019-05-29 13:18:26(即红色竖线位置)属于放量新高的时点,但是对 1min 的累计成交量来说,2019-05-29 13:18:26(即红色竖线位置)不属于放量新高的时点。因此,不同参数组对应的信号位置、胜率、以至于最终的净值表现都是不同的。那么问题就转化为,参数组和胜率之间是否存在稳定的对应关系,如果有,则可找到一组最优参数来设计交易策略。统计规律有效性的判别方法上部分已经说明如何构造不同参数下的概率分布图,但是在实际使用的过程中,我们还需要考虑什
11、么样的概率密度函数是有统计意义的。当然关于这个问题本身就是很大的课题,对我们来说,至少需要考虑下面两个方面。所造出的概率分布是否符合正态分布正态分布也叫常态分布,是连续随机变量概率分布的一种,自然界、人 类社会、心理和教育中大量现象均按正态形式分布。基于这方面的考虑,我们也希望根据历史数据所得出的概率分布图也是符合正态分布的,当 然由于选择参数范围的限制,意味着可能展示的只是正态分布的一部分,如下图所示:图 3 概率分布图数据来源:Wind,国泰君安证券研究左边概率分布近似于正态分布的左半部分,而右边的概率分布则完全是不同于正态分布,所以从这个角度来看,根据历史数据统计出来的左边概率分布更符合
12、统计规律。但是,随着参数的增多,概率分布图的维度将不断提高,所以接下来的核心是如何定量的刻画出这一分布特征,使其能够与正态分布进行近似度匹配。这里借鉴的是深度学习中池化卷积的方法,下面给出算法步骤:、寻找胜率最大值所对应的位置,以及整个位置的可取值范围;、将可取值范围至最大值位置的间隔等分成 N 个子区域,再计算每个子区域的最小胜率值为该区域的代表值,最后计算代表值与标准正态分布的相关系数为判定标准、为了更好的体现区分度,可增加惩罚系数,即 N 个子区域需单调递减,否则增加惩罚系数,降低原有相关系数值。为了更好的理解上述思路,我们仅以二维实例来说明,图 4 二维正态分布图数据来源:Wind,国
13、泰君安证券研究上图蓝线是由标准正态分布函数(右半部分)生成的概率分布图,红线 是等分区间,每等分区间取最小值即可。最后给出,在这个算法下,上 述三维概率分布与正态分布的相关系数,左边概率分布为 0.9765,左边 概率分布为 0.3586,这里需要指出的是达到统计规律有效性的条件之一:历史统计出的概率分布与正态分布的相关系数达到 0.90 以上。不同时间段的概率分布是否一致假设股票的数据有 10 年,每 5 年可以统计出一个概率分布的话,那么 面对的问题是:第一如何判断不同区间段概率分布的有效性;第二如何 加权相邻区间的概率分布。显然这本身就是个庞大的课题,在本文中笔 者只想尝试回答一个问题,
14、即整个区间得到的概率分布是否有统计意义?一种检测方法是从内部分区间段来考虑的,如果历史统计的概率分布是 有意义的话,那么分区间上的概率分布(依然有足够多的样本数据,这 里取得是 5 年时间段)和原有的分布不应该相差太大。差异的判断标准 可以使用前述的相关系数来表示,这里给出达到统计规律有效性的条件 之二:历史统计出的概率分布与分区间分布的相关系数达到 0.90 以上。至此,我们已经给出了一种判断概率分布有效性的判别方法,显然这个判别方法是比较粗糙的,但是至少是向两个方向努力:第一,泛化能力,即扰动最优参数组下的最差结果越好,说明泛化能力越强,符合正态分布的特征在一定程度上是可以度量其泛化能力。
15、第二,不同于自然科学,金融市场会随着参与者的变化而展现出不同的规律,所以识别出这种变化就显得非常重要,我们认为应对短期突变的最好方式是不同策略间的战术性配置,应对长期的变化的最好方式是样本抽样下的置信区间。高频交易模型对主要指数成分股的实证分析上证 50 及沪深 300 内部成分股的实证分析策略设计至此,我们讨论了如何构造量价关系的历史概率分布以及判断其统计规 律的有效性,但还没有给出如何根据已统计的规律设计成可交易的策略。在这一部分,我们将构建基于价量极值统计规律的 T0 策略。策略具体构建步骤如下所示:Step1:根据最近 5 年的历史数据建立不同参数下的概率分布,并根据有效性判别方法的两
16、个条件来确定符合条件的参数组,最后在参数组内寻找最高的胜率值来确定最终的参数组;Step2:根据 Step1 已确定的参数组,来设计开平仓的策略: 1)、开仓的条件:a)、开仓时间不超过 14:40;b)、满足已确定参数组的要求;2)、平仓的条件 :a)、固定时间平仓:从开仓时点开始,超过 1 小时,则强制平仓;b)、止损平仓:如果跌幅超过-0.3,则止损平仓; c)、止盈平仓(采用二档止盈):如果持有期间最大涨幅超过0.6,则以保住50的盈利为条件止盈如果持有期间最大涨幅超过1.8,则以保住80的盈利为条件止盈Step3:每 1 年调整重新计算,Step1 下的最优概率分布;这里我们需要强调
17、的是,整个策略的核心是如何寻找有效的统计规律(概率分布),至于开平仓的条件只是为了实现该规律而采用的一种途 径,肯定有更好的开平仓条件(比如不同止盈条件,及不同参数的设计 等),但这不是该篇文章阐述的重点,我们只是提供从统计数据规律到 构建策略模型及实现回测结果的一种思路,希望能丰富读者的策略思维。此外,高频交易策略与低频策略有所不同,其更重视的是在风险可控的 基础上追求稳定的盈亏比,通过足够高的交易次数来达到净值的稳定。对上证 50 及沪深 300 内部成分股的实证分析本节,我们将给出策略对上证 50 及沪深 300 的实证回溯分析,其中相关参数设定如下:、回测时间从 2015 年 5 月至
18、 2019 年 5 月;、股票池为沪深 300 成分股和上证 50 成分股;、交易成本为双边 0.15;、比较基准为:沪深 300 及上证 50,权重根据中证指数公司公布的权重月度调整;、T0 交易以未来 15 分钟均价成交;策略的结果展示如下:、上证 50 成分股的 T0 实证分析:图 5 上证 50 组合 T0 策略净值数据来源:Wind,国泰君安证券研究 注:左轴表示指数收益,右轴表示 T0 收益图 6 资金占有率数据来源:Wind,国泰君安证券研究。注:左轴表示百分占比值表 1: 组合分年度绩效统计年份年化超额收益信息比率最大回撤2015 年(始于 5 月)3.8916.21(未年化)
19、-0.242016 年3.3810.24-0.332017 年2.406.32-0.382018 年4.6310.29-0.452019 年(截止 5 月)2.048.5(未年化)-0.24汇总3.948.75-0.45数据来源:国泰君安证券研究。表 2: 组合分年度绩效统计数据来源:Wind,国泰君安证券研究注:左轴表示百分占比值年份年化超额收益信息比率最大回撤2015 年(始于 5 月)3.2723.36(未年化)-0.142016 年3.4616.48-0.212017 年2.9822.93-0.132018 年4.9941.58-0.122019 年(截止 5 月)2.3016.43-
20、0.14汇总4.1919.95(未年化)-0.21数据来源:国泰君安证券研究。5.2)、沪深 300 成分股的 T0 实证分析:图 7 沪深 300 组合 T0 策略净值数据来源:Wind,国泰君安证券研究注:左轴表示指数收益,右轴表示 T0 收益图 8 资金占有率上述结果表明,策略自 2015 年 5 月至 2019 年 5 月,相对上证 50 指数,实现年化收益 3.94,最大回撤-0.45,信息比例高达 8.75,相对沪深 300 指数,实现年化收益 4.19,最大回撤-0.21,信息比例高达 19.95, T0 收益整体表现优异。虽然在采用标准权重下,相对上证 50 及沪深 300的超
21、额收益相差不大,但是从实际投资的角度来看,沪深 300 的 T0 策略是远好于上证 50 的 T0 策略,这不仅体现在最大回撤上,更是体现在资金占率上,上证 50 的平均资金占有率 11.85,沪深 300 的平均资金占有率为 8.54,这意味着沪深 300 做 T0 需要的准备金远小于上证 50,资金使用的效率上更高。从分年度角度来看,T0 策略收益无论是对上证 50 指数还是对沪深 300指数而言,最好的年份都是 2015 年,这可能和市场交易的活跃度有关,但更加精细的讨论,我们放在后面价量统计模型适应性的小节中。从结果上来看,我们的 T0 策略基本上没有受到这两年风格巨变所带来的影响,从
22、这个层面也能看出与多因子模型较好的互补性。严格来说,除非完全复制指数权重,否则多因子模型下的股票组合是不可能完全消除市值风格的影响。这几年的风格突变,也进一步的警示我们风格因子的暴露是一把双刃剑,要想减少回撤就必须要严格控制主要风格因子的敞口,但是这种控制往往也会限制收益。一般来说,在保持行业中性及主要风格因子中性(如 BARRA 的风格因子)的前提下,相对沪深 300 指数的超额收益基本上在 10左右,仅仅从多因子角度是很难提高到 15。据不完全统计,近两年公募基金公司的沪深 300 指数增强产品的年化超额收益如下:图 9 主要公募沪深 300 指数增强表现数据来源:Wind,国泰君安证券研
23、究。注:表示相对沪深 300 指数的超额收益由于幸存者的偏差,我们并不认为私募基金平均水平会大幅超越公募基金的表现,这意味着上述产品的中位数可以代表市场的平均水平,即使是给予 3 倍的放大,单纯多因子模型的收益在风格暴露有限的基础上,也是很难超越 10的年化收益。本篇报告中的 T0 策略,虽然并不复杂,但是却很好的解决了现有多因子模型的问题:既严格保持风格因子中性,又可以提高策略收益。这也是我们涉足高频 T0 领域的根本出发点,而且我们认为未来对大市值股票的 T0 策略研究应该是量化领域争夺的新的制高点。交易成本敏感性分析本小节,我们将考虑 T0 策略对交易成本的敏感性问题,以检验 T0 策略
24、可承受的交易成本的极限空间。图 10 不同交易费用下的策略表现数据来源:国泰君安证券研究。表 3: 极值统计单次交易成本年化超额收益最大回撤日胜率0.153.94-0.4556.820.22.74-0.5654.150.251.54-1.3451.490.30.36-2.7048.210.35-0.80-5.6245.140.4-1.96-9.0441.140.45-4.22-12.9137.550.527.0-16.6934.89数据来源:国泰君安证券研究从结果来看,随着设定的客观交易成本不断增加,策略的年化超额收益也逐渐下降。整体而言,差不多交易成本在 0.3左右,是该策略的盈亏点,乍一看
25、似乎没有多少的,但是这也正是高频与低频最大的不同,其交易的频率决定了对交易成本的敏感性,从这个角度来看,至少说明两点:第一,对高频交易来说,交易成本(包括费用及滑点)对结果具有非常重要的影响,这也意味算法交易的研究也是高频交易不可或缺的一部分;第二,我们发现日胜率在 50左右的策略,恰好也是策略的盈亏点,这是我们后续研究机器学习下判断特征有效性的一个重要指标。估算策略可容纳规模通常来说,收益、风险和资金容纳规模是相互矛盾的,在策略实现相对较高收益、较低风险的情况下,可容纳的资金规模相对不会很大,因此有必要对这类策略的规模容量做一定的估算。我们以符合 T0 交易的股票日成交金额作为可容纳资金规模
26、的上限,同时参考个股的权重及容纳率来计算可容纳规模,具体来说:、每日记录符合 T0 交易信号的股票数据,包括日成交金额、所占指数权重。、根据指定的容纳率,来计算: 个股日成交金额 * 容纳率 / 个股权重 的平均值作为每日的容纳规律估算值。注意这里的容纳率是一个主观值,即单只个股最高的容纳规模除以其对应的日成交量,对高频策略来说,我们建议的不要超过 1。在测算时间与组合构造时间保持一致,可的不同容纳率的规模估算,具体结果如下所示:表 4: 极值统计 T0 策略的容纳规模估算容纳率沪深 300 的容纳规模(亿元)上证 50 的容纳规模(亿元)0.12.70.80.25.41.70.38.12.5
27、0.410.83.40.513.54.20.616.25.10.718.95.90.821.66.70.924.37.6127.08.5数据来源:国泰君安证券研究。图 11 容纳率在 0.5下的容纳规模估算数据来源:Wind,国泰君安证券研究。从上述结果可以看到,策略可容纳资金规模与市场整体成交量相关,2015 年基本上是成交量最高的时候,可容纳规模在 20 亿(容纳率取0.5),之后逐年下降,不过即使在成交量比较低迷的 2016 年及 2018年,其可容纳的规模依然有 10 亿。所以说对规模不超过 10 亿的基金来说,该策略还是可以起到增厚收益的结果,但是客观而言,对于资金量较大的机构投资者
28、而言,完全利用该策略进行阿尔法投资不太现实,策略比较适合作为多策略体系中的一个模块。分析价量极值统计模型的适用性本节将讨论价量极值统计模型的适应性,主要从以下三个方面来讨论:个股的波动率、行业的属性及市场系统风险的影响。从股票波动率角度分析波动率的计算有很多种方式,包括标准差、振幅及回归残差下的特质波动率等,这里仅采用最简单的年化标准差作为波动率的计算方式。图 12 波动率分档下的策略表现数据来源:Wind,国泰君安证券研究。类似于单因子的分档测试方式,我们发现波动率对高频策略模型有着很强的解释作用,即波动率越大的股票其高频策略表现越好。这似乎与多因子模型中对波动率因子的测试结论相反,从股票间
29、横向比较来看,低波动率的股票组是能够战胜高波动率的股票组。这也反映出 T0 与 Alpha之间属性的区别,没有一只股票能同时具备高 Alpha 和高 T0 的价值,那么如何平衡 Alpha 和 T0 也是我们未来研究的核心方向之一。从股票行业属性角度分析利用中信一级行业(总共有 27 个子行业)的分类, 给出高频交易策略模型分行业的表现,行业内部的个股采用等权重的方式计算收益:图 13 不同交易费用下的策略表现数据来源:Wind,国泰君安证券研究。从子行业的角度来看,表现最好的 5 个行业是计算机、房地产、有色金属、电子元器件及传媒,表现最差的 5 个行业是综合、煤炭、银行、建筑及商贸零售。对
30、沪深 300 指数来说,表现差的行业权重总和略大于表现好的权重总和,这在一定程度上也解释了为什么纯 T0 组合在保持指数标准权重下,年化收益率并不高,大概在 5左右。从市场系统性风险角度分析从 2015 年 05 月至 2019 年 5 月,我们可以大体上把这段时间沪深 300指数的表现划分为四个时间段:第 1 阶段: 从 2015 年 05 月至 2016 年 02 月,这段时间沪深 300 指数的整体表现是下跌;第 2 阶段: 从 2016 年 02 月至 2018 年 01 月,这段时间沪深 300 指数的整体表现是上涨,属于大盘白马股行情;第 3 阶段: 从 2018 年 01 月至 2019 年 01 月,这段时间沪深 300 指数的整体表现是下跌;第 4 阶段: 从 2019 年 02 月至 2019 年 05 月,这段时间沪深 300 指数的整体表现是上涨;下图统计在不同的四个阶段下,高频交易策略做多对比做空的净值表现:图 14 不同阶段下的策略表现数据来源:Wind,国泰君安证券
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 裁判员职业评审试题及答案
- 足球法则变化对裁判的影响试题及答案
- 2024年种子繁育员的职场认证试题及答案
- 2024模具设计师知识点试题及答案
- 全面复习体育经纪人考试试题及答案技巧
- 模具设计中的多学科融合试题及答案
- 2024年足球裁判员如何平衡职业与私生活的技巧试题及答案
- 各类足球裁判员考试必须掌握的试题及答案
- 模具设计师资格认证考试心得分享与试题及答案
- 模具设计师资格考试多元化试题及答案分析
- HG20202-2014 脱脂工程施工及验收规范
- 公司收款委托书模板
- 宏观经济学全套课件(完整)
- 2024年私人房屋装修合同电子版(2篇)
- JT-T-808-2019道路运输车辆卫星定位系统终端通信协议及数据格式
- 锗γ射线谱仪校准规范
- 七年级下册数学平行线中拐点问题
- 计算机基础知识题库1000道含完整答案(历年真题)
- 河北省唐山市丰润区2023-2024学年部编版八年级下学期5月期中历史试题
- 走进歌剧世界智慧树知到期末考试答案2024年
- 珠宝鉴赏智慧树知到期末考试答案2024年
评论
0/150
提交评论