版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
不同分类算法下的大小盘风格判断2019.8.
12主要内容大小盘轮动是重要市场特征分类算法判断风格特征XGBoost与逻辑回归效果较好231.1
大小盘风格轮动是重要市场特征大小盘风格轮动是A股市场的一个重要特征,对大小盘轮动规律的有效把握,将有助于提升投资收益。我们分别使用沪深300、中证1000指数表征大盘股、小盘股的走势,通过计算中证1000对沪深300的相对强弱,可以衡量大小盘风格切换情况。大小盘指数历史表现资料来源:申万宏源研究2009年起,市场出现强烈的大小盘风格轮动效应;2016年之前,小盘股总体占优。2016年后,市场出现长期风格反转,大盘股总体占优。主要内容大小盘轮动是重要市场特征分类算法判断风格特征XGBoost与逻辑回归效果较好42.1
大小盘轮动受宏观及微观因素驱动大小盘轮动现象受多种因素驱动,既包括宏观经济、政策制度等宏观变量,也包括证券市场流动性、投资者结构、投资者情绪等微观结构。我们在模型中选择以下指标作为特征变量,包括宏观经济数据和证券市场数据。由于宏观数据发布有滞后期,对其统一做滞后一个月处理,即相对于交易数据多滞后一期。特征变量资料来源:申万宏源研究52.2
大小盘轮动是一个分类问题大小盘轮动策略的目标是在大盘与小盘两类风格中选择合适的投资标的,我们只关注两类风格孰强孰弱,而不关注风格走势差异的具体幅度,因此这是一个二分类问题。本篇报告测试不同的分类算法在大小盘轮动中的有效性。具体算法包括:决策树、随机森林、XGBoost、支持向量机和逻辑回归。我们直接使用沪深300、中证1000指数作为大盘风格
、小盘风格的表征,并使用两条指数的价格计算轮动组合收益率。考虑到早期证券市场结构与现在有较大不同,为了保持模型的稳定性,将2007年作为回测起点。62.3
选择回测方式:固定窗口与滚动窗口我们采用月频调仓,分别在固定窗口与滚动窗口方式下回测了模型表现。固定窗口:将全部历史样本划分为训练集与测试集,在训练集内通过交叉验证与网格调参确定最优超参数,并将之应用于样本外预测;滚动窗口:在每个月末,向前选取固定数量月数的样本作为训练集,将训练得到的模型用于下月的风格判断。与固定窗口相比,滚动窗口的优点在于时效性更强,能够利用最新数据进行模型训练。无论是固定窗口还是滚动窗口,都涉及到训练集长度的选取,训练数据的月份数量实际上成为一个重要参数。回测结果显示,滚动窗口的风格预测准确率高于固定窗口,结果也更稳定,我们只展示滚动窗口的预测效果。72.4
滚动窗口测试、避免未来信息我们使用固定长度的时间窗口,每月月末滚动向后建立模型并预测。各分类算法的超参数一般采用默认值,将时间窗口长度作为主要参数进行优化,窗口长度范围在60-130个月之间。在训练集内使用T-1期特征数据与T期大小盘强弱分类标签建模;再使用训练得到的模型,根据T期最新特征数据,对T+1期大小盘强弱做出预测。单次预测过程中没有未来信息的引入,为样本外预测。当然在最后评估窗口长度这一参数时,有历史回看的成分,为此我们在下文中展示不同窗口长度的预测效果稳定性,以对模型做出综合评判。82.5
决策树算法决策树是通过一系列特征和判断规则对数据进行分类的过程,它通过测试一系列是与否的问题来得到正确答案。决策树的构建算法主要有ID3、C4.5、CART方法,其中ID3是最基本的构建算法,只能处理离散特征属性;C4.5算法以ID3算法为基础,可以处理连续特征属性。CART算法是二分类的,既可用于分类也可用于回归。决策树过程资料来源:申万宏源研究92.5.1
决策树的CART算法𝟐CART算法特征选择:对特征属性做二元分类,满足条件的样例分至左子树,不满足条件的分至右子树分类标准:Gini指数,Gini指数越小,数据纯度越高𝑮𝒊𝒏𝒊
𝒕 =
𝟏
− 𝒑𝒄𝒌
𝒕𝒌已知特征A条件下的基尼系数为:𝑮
𝑫,
𝑨
=𝑫𝑳 𝑫𝐑𝑫 𝑫𝑮𝒊𝒏𝒊
𝑫𝑳 + 𝑮𝒊𝒏𝒊
𝑫𝑹节点分类样本数目低于阈值或Gini值低于阈值按最小化Gini指数进行分类是否输出决策树CART过程输入数据集资料来源:申万宏源研究102.6
随机森林分类算法决策树1小盘占优决策树2小盘占优决策树3小盘占优……决策树n-1大盘占优决策树n小盘占优小盘占优最终结果决策树的缺点是容易过拟合,而随机森林是树的集成方法,可以在一定程度上降低过拟合,同时提高预测能力。随机森林是一个包含多个决策树的分类器,预测结果由全部决策树的预测均值或投票产生。随机森林中包含的决策树越多,鲁棒性越强。随机森林的随机性体现在:1.用于构造单棵决策树数据点的随机性(自助采样);2.选择划分特征的随机性。随机森林过程输入数据资料来源:申万宏源研究112.7
XGBoost算法𝑓𝑘𝑖 𝑘XGBoost属于梯度提升树,也是一种树的集成方法。与随机森林算法不同,随机森林中多个分类器是独立的,而XGBoost中的分类器是依次构造的,每添加一棵树,都需要学习一个新函数,并拟合前次预测的残差,样本预测值即该样本在每棵树中对应叶节点的值加总。令𝑓𝑘
为单棵决策树的预测函数,
ℱ是所有决策树的集合,则样本𝒙𝒊的预测值𝑦
𝑖为:𝐾𝑦
𝑖=
𝜙𝒙𝒊 =𝑓𝑘𝒙𝒊,𝑓𝑘∈
ℱ𝑘=1令𝑙
𝑦
𝑖,
𝑦𝑖
为损失函数,
Ω(𝑓𝑘)为正则化项,
则XGBoost对应的最优化问题为:min𝑙𝑦
𝑖
,
𝑦𝑖 +
Ω(𝑓𝑘)122.8
支持向量机(SVM)分类算法支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大间隔对应的超平面。以非线性SVM为例,其对应的优化问题为:𝒘,𝒃
𝟐𝒊=𝟏𝑵𝟏min 𝒘
𝟐
+
𝑪 𝝃𝒊𝒔.𝒕.𝒚𝒊
𝒘𝑻𝝓
𝑿𝒊 +
𝒃 ≥𝟏−𝝃𝒊,𝝃𝒊≥
𝟎其中𝝓
𝑿𝒊
为核函数,𝒘,
𝒃为确定超平面的参数SVM过程资料来源:申万宏源研究132.9
逻辑回归分类算法逻辑回归是一种广义线性回归。其因变量可以是二分类也可以是多分类。逻辑回归模型中,x为正例的概率为:𝒘𝒉 𝒙 =
𝒈
𝒘𝑻𝒙 =𝟏𝟏+
𝒆−𝒘𝑻𝒙逻辑回归对应的优化问题为:min𝒘𝟏𝟐𝒎𝒘 𝒊𝒋=𝟏𝒏𝒎
𝒉 𝒙 −𝒚𝒊2+𝝀
𝒘𝟐𝒋𝒊=𝟏14主要内容大小盘轮动是重要市场特征分类算法判断风格特征XGBoost与逻辑回归效果较好153.1
策略效果评价—主要关注胜率与盈亏比评估大小盘轮动效果,有超额收益率、胜率、相对盈亏比。但由于各算法的回归窗口不同、计算收益率的区间并不相同,超额收益率无法直接对比。市场风格的均衡或集中特性也会对超额收益率有较大影响。当市场中风格轮动较为均衡时,轮动策略更容易取得超额收益。但市场风格长期偏向大盘或小盘一方时,即使策略的胜率、盈亏比较高,也难以取得超额收益。因此超额收益率并非最恰当的评价指标。我们主要关注胜率和相对盈亏两个评价指标。胜率,即月度预测的准确率,胜率=预测准确的月数/总月数相对盈亏比,即预测正确时的平均获利与预测错误时的平均亏损之比,相对盈亏比=预测正确时的相对收益/abs(预测错误时的相对亏损)163.2
市场风格集中时,超额收益率并不客观例如在极端情况下,如果小盘指数始终跑赢大盘指数,那么即使策略胜率达到100%,超额收益也仅为0。为此,引入调整后超额收益率,来说明这一问题:调整后超额收益率
=
实际超额收益率
×
α𝑟,α
>
1为调整系数其中,r
=
ABS(大盘指数占优的月数比例-小盘指数占优的月数比例)当实际风格轮动较为均衡时,r接近0,实际超额收益率可以反映轮动效果;但当一种风格始终占优时,r接近1,需要将实际超额收益率放大,才能反映模型真实效果。由于以上参数选取具有主观性,因此我们并不实际计算,只是用它来说明如下问题:如果回测区间内市场风格过于集中,即使模型的胜率与盈亏比很高,也难以获得明显超额收益;但只要模型预测能力保持稳定,可以期望当后期市场风格轮动恢复均衡后,模型将有良好表现。173.3
决策树算法—策略表现波动较大回归窗口长度在110-122个月间时,模型表现较好,胜率均在55%以上,但胜率与盈亏比的波动均较大。我们选择窗口长度为116个月,2016/10-2019/06,模型胜率66.7%,相对盈亏比1.35,同期沪深300实际胜率为63.6%;轮动策略累计净值为1.15,战胜中证1000,但小幅跑输沪深300。模型胜率与盈亏比轮动策略走势资料来源:申万宏源研究183.4
随机森林算法—表现有所提升随机森林算法下,模型胜率和相对盈亏比都有所提升。我们选择窗口长度为114个月,2016/08-2019/06,模型胜率65.7%,相对盈亏比1.43,同期沪深300实际胜率为60.0%;轮动策略累计净值为1.17,战胜中证1000,小幅跑输沪深300。模型胜率与盈亏比轮动策略走势资料来源:申万宏源研究193.5
XGBoost算法—长周期窗口胜率提升明显XGBoost算法下,长周期窗口胜率提升明显,窗口长度大于122个月时,平均胜率超过70%。我们选择窗口长度为125个月,
2017/07-2019/06,模型胜率79.2%,相对盈亏比1.08,同期沪深300实际胜率为62.5%;轮动策略累计净值为1.16,同时战胜中证1000和沪深300。模型胜率与盈亏比 轮动策略走势资料来源:申万宏源研究203.6
支持向量机—策略表现一般支持向量机算法胜率不高,平均胜率略低于50%,相对盈亏比较为稳定。我们选择窗口长度为65
个月,
2012/07-2019/06,模型胜率52.4%,相对盈亏比1.61,同期沪深300实际胜率为48.8%;轮动策略累计净值为2.43,虽然胜率不高,但由于回测期间市场风格均衡,策略仍能战胜中证1000和沪深300。模型胜率与盈亏比轮动策略走势资料来源:申万宏源研究213.7
逻辑回归算法—胜率稳定性高逻辑回归算法有较高的胜率稳定性,全部回测窗口上的平均胜率为62.4%。我们选择窗口长度为70个月, 2012/12-2019/06,模型胜率65.8%,相对盈亏比1.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 1.1 质点 参考系(分层作业)(原卷版)
- 第6讲 中国古代文明的成熟与繁荣-隋唐时期 高三统编版(2019)必修中外历史纲要上一轮复习
- 北京市国网-2023年《信息安规》科目 单选题+多选题+判断题+简答题真题冲刺卷下半年A卷
- 合同法民法典衔接
- 暴雨灾害普查与评估区划(征求意见稿)
- 2024届湖北省黄石市河口中学中考三模英语试题含答案
- 2024届河南省商城县长竹园第一中学中考英语押题卷含答案
- 交通安全及管制专用设备相关行业投资规划报告范本
- 大、中容量数字程控交换机相关行业投资方案
- 光伏汇流箱相关项目投资计划书
- 2022版云南财经大学推免管理办法
- 小学数学实践性作业设计课题研究报告
- Q∕GDW 11304.41-2021 电力设备带电检测仪器技术规范 第4-1部分:油中溶解气体分析仪(气相色谱法)
- 如何有效沟通PPT
- 第二节地形剖面图的绘制——高爱玲
- 古建筑修缮-竣工验收总结报告
- 英语中48个音标对应的字母组合16478
- 汽车充电桩项目建设申请报告(范文模板)
- 十四五生命健康产业发展规划
- 全等三角形的判定sss_sas_习题
- 有一婴孩为我们而生
评论
0/150
提交评论