环境因子研究探索:标的池环境状态研判与交易行为选择_第1页
环境因子研究探索:标的池环境状态研判与交易行为选择_第2页
环境因子研究探索:标的池环境状态研判与交易行为选择_第3页
环境因子研究探索:标的池环境状态研判与交易行为选择_第4页
环境因子研究探索:标的池环境状态研判与交易行为选择_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、K-means 算法和 CNN 介绍本文首先用聚类方法中的 K-means 算法对当前市场可能存在的状态进行分类识别,而后运用卷积神经网络CNN 将图像聚类结果作为样本进行训练学习,进而得到数据特征到市场状态的映射关系。K-means 算法K-means 算法是一种基于划分的聚类算法,基本思想是:以空间中 K 个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至同一类样本之间有最高的相似度,不同类样本之间的相似度最低1。K-means 算法的处理流程如下:随机地选择 K 个数据对象,每个数据对象代表一个簇中心,即选择 K 个初始中心;对剩余的每个对象,根据其

2、与各簇中心的相似度(距离),将它赋给与其最相似(距离最短)的簇中心对应的簇;然后重新计算每个簇中所有对象的平均值,作为新的簇中心;不断重复(2)、(3),直到准则函数收敛,即簇中心不发生明显的变化。通常采用均方差作为准则函数,即最小化每个点到最近簇中心的距离的平方和,即: (, )2 =1 其中,k 是簇的个数,是第 i 个簇的中心点,(, )2是样本到的距离。该算法的最大优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式。CNN 网络卷积神经网络 CNN(Convolutional Neural Networks)是神经网络中的一种,被广泛 应用于模式分类,物体检测和物体识别等方面2

3、。CNN 可以直接将图像作为网络的输入,提取包括颜色、纹理、形状等特征,有效避免了传统识别算法中复杂的特征提取和数据 重建过程。通过 CNN 建立模式分类器,可以直接用于灰度图像分类任务。CNN 本质上是一个多层感知机,其成功的关键在于它所采用的局部连接和共享权值 的方式,一方面减少了的权值的数量使得网络易于优化,另一方面降低了过拟合的风险。给定一个图像 和滤波器 ,一般 , ,其卷积为: = +1,+1 。=1 =1一个输入信息和滤波器的二维卷积定义为: = ,其中表示卷积运算。图 1:二维卷积示意图资料来源:数据描述数据集选取 2010 年 1 月 4 日至 2021 年 7 月 30 日

4、的沪深 300 成分股数据,考虑指数成分股的调整。在数据集上的每一天均根据过去 10 天的沪深 300 成分股收益率计算相关系数矩阵,共得到 2510 张图片。预留 20%的数据用于策略回测,其余 80%的数据全部用于聚类。CNN 训练模块在聚类分析结果基础上进行,所以 CNN 模块的训练集和验证集分别为聚类分析数据集的前 80%和后 20%。表 1:数据集划分总数据集K-means 训练集(80%)测试集(20%)CNN 训练集(80%)CNN 测试集(20%)测试集(20%)资料来源:聚类分析每一天的成分股相关系数灰度图代表当天的市场环境3。聚类分析可以学习过去 10年间每一天的市场环境相

5、似性并加以分类,提炼出分类中心。根据各个图片与分类中心的距离可以对所有图片加以分类。通过观察各类图片对应的沪深 300 指数未来 1、5、10天的收益率分布情况,来初步检测分类的有效性和可解释的金融内涵。市场环境和收益率分析以 3 组分类为例,从图 2 可见,各组的成分股相关系数灰度图有明显区别,明暗度差异较大。在相关系数矩阵的最后一列还考虑了沪深 300 本身和成分股之间的相关系数,因此每张图均为301 301的维度。成分股之间的相关系数越大,对应点越暗。相关系 数矩阵对角线上均为 1,因此每张灰度图均有一条对角线。从示例可见,3 分类下,第 1、 3 组的图片线条感更重,呈现网格状。第 2

6、 组的图片则更加紧密,图片内部没有比较明显的明暗分化,这说明第 2 组对应的各成分股之间相关性差距较小,反映该状态下沪深300 各成分股的趋势一致性更强。1、3 组对应的各成分股则呈现比较明显的结构分化,且第 1 组的结构分化较第 3 组更加显著。图 2:3 组聚类情况下各组示例资料来源:从收益率分布情况看,不同分类情况下,各组的收益率分布均值差异较大,但波动率比较接近,这反映在相同波动下,各组的收益率差异较大。此外,某一组相较于其他组的优势存在一定的持续性。比如,在 3 组聚类的情况下,第 2 组的未来 5 天和未来 10天的收益率的均值大于其余两组。同样的,在 5 组聚类的情况下,第 1、

7、3 组的优势在未来 1、5、10 天的情况下均有所体现。这表明通过聚类方法尝试探索和寻找更有利于投资的市场阶段或许是可行的。图 3:3 组聚类情况下的各组收益率分布资料来源:图 4:2 组聚类情况下的各组收益率均值图 5:3 组聚类情况下各组收益率均值资料来源:资料来源:图 6:4 组聚类情况下的各组收益率均值图 7:5 组聚类情况下各组收益率均值资料来源:资料来源:图 8:2 组聚类情况下的各组波动率图 9:3 组聚类情况下各组波动率资料来源:资料来源:图 10:4 组聚类情况下的各组波动率图 11:5 组聚类情况下各组波动率资料来源:资料来源:以上分析表明根据成分股的相关系数矩阵对市场状态

8、作区分,对于研究标的池未来收益率的分布具有一定指示性作用。3 组聚类情况下,我们观察到,第 2 组对应状态下的沪深 300 指数大多处于上涨阶段,第 1、3 组对应状态大多位于回调或指数震荡时期。 5 组聚类情况下,第 1、3 组状态更大概率地出现在指数上涨阶段,而第 2 组状态几乎出现在指数下跌的阶段,第 4、5 组状态则出现在市场偏震荡的阶段。市场环境和沪深 300 走势分析本节运用前述方法,在沪深 300 指数的价格时间序列中做市场状态标注。首先我们考虑只有两种市场状态分类的情形,发现当市场处于上涨或下跌行情时,对应市场环境分别处于“两分类”的不同状态。比如 2014 年 3 月至 20

9、15 年 4 月期间,沪深 300 指数从 2100 点上升至 4800 点,涨幅接近 130%,这段期间几乎全部处于状态 1。2010 年至 2014 年 3 月,沪深 300 指数总体呈现震荡下跌趋势,跌幅超 60%,期间大多数时间点处于状态 2,个别时间点出现状态 1。2015 年 4 月至 2016 年 1 月期间,沪深 300 指数从4800 点跌至最低 2800 点,跌幅超 40%,此段跌势下持续处于状态 2。基于此,我们也可以感受到,颗粒度相对小的分类方式可能对于市场环境的真实刻画存在不足,为了提升刻画精准程度,我们需要进一步提升分类组数。图 12:2 组聚类情况下沪深 300

10、指数走势资料来源:增加市场状态分类数,考虑的类别数越多,对应的市场状态分类越细。将市场状态分为 3 种类别的情况下,上涨波段的状态依然比较统一(状态 2),下跌和震荡行情下出现新的市场环境分类。尤其是在震荡下跌波段(2010 年至 2013 年),和 2 分类相比,分成 3 类的情况下,对应上升波段的状态 2 数量明显减少。这也间接说明 3 分类方法对标的池环境状态的刻画更加准确了。图 13:3 组聚类情况下沪深 300 指数走势资料来源:继续增加分类数从 3 类增加至 4、5 类。随着分类数的增多,下跌趋势特别是 2010年至 2014 年的一段下跌趋势下的状态分类越来越复杂,而上涨波段的分

11、类变化不大。聚类结果显示,市场上涨的情形是比较一致的,下跌则对应着各种各样复杂的市场环境,需要更加细致的分类。图 14:4 组聚类情况下沪深 300 指数走势资料来源:图 15:5 组聚类情况下沪深 300 指数走势资料来源:CNN 训练将聚类学习获得的市场状态作为标签,沪深 300 成分股的相关系数矩阵灰度图作为输入,训练一个卷积神经网络(Convolutional Neural Networks, CNN)。数据预处理:直接将已有标签的数据集前 80%的数据作为训练集,后 20%的数据作为验证集。结果显示,不同分类情况下验证集和训练集的预测准确率均比较高,因此CNN 网络基本获取到了聚类分

12、析的规律。当获知某一天的成分股收益率矩阵,可以根据训练的 CNN 得到对应的状态分类。表 2:不同分类情况下 CNN 训练结果K2345训练集98.7%92.5%86.4%82.7%验证集99.1%88.3%80.2%72.8%资料来源:为了检测训练的CNN 网络是否在样本外也反映学习的规律,选取总数据最后20%, 2018 年 2 月 2 日至 2021 年 7 月 30 日的无标签的数据进行测试。结果显示CNN 在新数据上也能保持学习到的规律,环境状态的分类和训练集上的结论基本一致。以 3 种状态分类为例,状态 2 依然对应上涨趋势,状态 3 多对应下跌趋势。再比如 5 种状态分类下,状态

13、 1 依然对应上涨,状态 3、5 多对应下跌趋势。图 16:2 组聚类情况下沪深 300 指数走势资料来源:图 17:3 组聚类情况下沪深 300 指数走势资料来源:图 18:4 组聚类情况下沪深 300 指数走势资料来源:图 19:5 组聚类情况下沪深 300 指数走势资料来源:择时策略构建前文分析表明,沪深 300 成分股之间相关系数矩阵可以用来表征沪深 300 所处的状态(指数运行的阶段)。下面根据市场环境的转换设计一个择时策略,在沪深 300 历史数据上进行回测, 以检验作为标的池环境状态表征的变量是否可以作为有效因子向 CJInvBots 提供输入信息。策略设计选取数据集中后 20%

14、的数据作为测试集(这部分数据集没有用于聚类和 CNN 的训练)进行回测,回测时间区间为 2018 年 2 月 2 日到 2020 年 7 月 30 日共 784 个样本。为了保证买入卖出价位的适当,同时考虑买入卖出价格限制条件。这里设置为买入价格不超过历史 200 个交易日的 10%分位数,卖出价格设置为不低于历史 200 个交易日 90%分位数。聚类分析结果显示,价格趋势逆转往往对应着市场状态的转变。以 2 种状态分类的情况为例,当市场从状态 1 转为状态 2 时,多对应市场由涨转跌;当市场从状态 2 转为状态 1 时,多对应市场由跌转涨。再比如 3 种状态分类的情况下,状态 3 转为状态

15、1,或者状态 3 转为状态 2 多对应由跌转涨,而状态 2 转为状态 3 多对应由涨转跌。因此,可以设计一个择时策略,当遇到市场由跌转涨的信号时,买入;当遇到市场由涨转跌的信号时,卖出。策略回测不同分类数目(k)下,回测结果显示,考虑按照相关系数矩阵择时的情况下,回测累计和年化收益率均显著高于沪深 300 及只考虑价格限制的低买高卖策略。5 种状态分类情况下,策略回测年化收益率达 13.59%,同期沪深 300 的年化收益率为 4.06%。风险方面来看,择时的最大回撤率显著低于不择时的情况。表 3:不同分组情况下的回测结果k=2k = 3k=4k=5沪深 300低买高卖初始资金(万元)1001

16、00100100100100最终资金(万元)140.14145.27146.14149.14113.28121.73净收益(万元)40.1445.2746.1449.1413.2821.73年化收益率()11.3612.6512.8613.594.066.47年化波动率()25.2724.5224.8524.7720.7925.38夏普比率0.450.520.520.550.200.25索提诺比率0.650.790.770.850.270.36最大回撤()17.1617.2217.2217.2127.6222.69换手率0.430.250.250.21-0.058图 20:不同分组情况下策略回

17、测损益曲线资料来源:随着分类数的增加,对市场状态的划分也更加细致。不同分类数下,聚类的多头信 号均比较准确,差别不大。当分类数变多时,对下跌和震荡趋势的状态描述会更加准确。反映在回测结果中,当分类数增加时,回测结果也相对较优。当前市场环境诊断及研究结论春节前沪深 300 价格上涨 8.18%,春节后回调 14.41%,截至 2021 年 8 月 20 日,沪深 300 较年初下跌 9.46%。以 5 分类为例,2010 年 1 月 4 日至 2021 年 8 月 20 日的市场环境画像聚类结果如下。结果显示,当前环境状态和历史阶段的上涨环境状态相似度高于和下跌环境的相似性。模型在震荡趋势下的分

18、类效果不佳,震荡趋势下的市场环境更加复杂。需要更多的信息辅助诊断。综上,基于本文的研究我们有如下几点启发:仅依靠环境状态“单因子”择时能起到增益效果,可以作为“信息”输入结合其他多因子模型使用,进行综合评判。例如:植入我们的 CJInvBots 系统,让机器模型在做出行为选择时的信息来源更加广泛。“聚类监督CNN研判”同样需要在时间线上“滚动”进行。完全依赖历史信息得到的分类方案,在样本外的分类有效性会逐渐递减。环境状态因子的结果有助于投资者有效识别当前的市场状态,在不同投资难度的市场阶段调整风险偏好和投资策略。图 21:5 组聚类情况下当前沪深 300 指数环境分类资料来源:参考文献Polykovskiy, D. and Novikov, A., Bayesian Methods for Machine LearningCoursera and National Research University Higher School of Economics.LeCun, Y. and Bengio, Y., 1995. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 3361(10),

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论