机器学习合成非线性因子增强效果如何_第1页
机器学习合成非线性因子增强效果如何_第2页
机器学习合成非线性因子增强效果如何_第3页
机器学习合成非线性因子增强效果如何_第4页
机器学习合成非线性因子增强效果如何_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目录 HYPERLINK l _TOC_250030 多因子选股理论成熟,因子合成面临挑战 7 HYPERLINK l _TOC_250029 理论成熟,国内市场应用广泛 7 HYPERLINK l _TOC_250028 因子有效性随市场变化,因子合成面临挑战 9 HYPERLINK l _TOC_250027 机器学习选股框架 11 HYPERLINK l _TOC_250026 数据准备 11 HYPERLINK l _TOC_250025 模型训练 12 HYPERLINK l _TOC_250024 参数调整 12 HYPERLINK l _TOC_250023 组合构建 13 HY

2、PERLINK l _TOC_250022 机器学习选股回测 14 HYPERLINK l _TOC_250021 逻辑回归 14 HYPERLINK l _TOC_250020 算法简介 14 HYPERLINK l _TOC_250019 回测结果 15 HYPERLINK l _TOC_250018 朴素贝叶斯 16 HYPERLINK l _TOC_250017 算法简介 16 HYPERLINK l _TOC_250016 回测结果 16 HYPERLINK l _TOC_250015 支持向量机 18 HYPERLINK l _TOC_250014 算法简介 18 HYPERLIN

3、K l _TOC_250013 回测结果 18 HYPERLINK l _TOC_250012 决策树 19 HYPERLINK l _TOC_250011 算法简介 19 HYPERLINK l _TOC_250010 回测结果 21 HYPERLINK l _TOC_250009 随机森林 22 HYPERLINK l _TOC_250008 算法简介 22 HYPERLINK l _TOC_250007 回测结果 23 HYPERLINK l _TOC_250006 梯度提升树 24 HYPERLINK l _TOC_250005 算法简介 24 HYPERLINK l _TOC_250

4、004 回测结果 24 HYPERLINK l _TOC_250003 XGBoost 26 HYPERLINK l _TOC_250002 算法简介 26 HYPERLINK l _TOC_250001 回测结果 26 HYPERLINK l _TOC_250000 LightGBM 27算法简介 27回测结果 28神经网络 29算法简介 29回测结果 30如何评价机器学习模型效果? 32多数模型有增强效果 32因子影响:线性与非线性的拆分 34因子贡献:规模、估值因子显著下降 35因子相关性:流动性、波动率相关性最高 37基本面 vs 技术面,哪个更有效? 38样本池换成中证 500,效果

5、如何? 395. 总结 39参考文献 40风险提示及声明 41图表目录图 1:多因子模型分组净值曲线 8图 2:多头组合净值曲线 8图 3:规模因子 12 个月滚动 IC 9图 4:估值因子 12 个月滚动 IC 9图 5:质量因子 12 个月滚动 IC 9图 6:分析师一致预期因子 12 个月滚动 IC 9图 7:不同加权方法净值曲线 11图 8:机器学习选股流程示意图 11图 9:滚动窗口法示意图 12图 10:Sigmoid 函数 14图 11:逻辑回归模型月度 IC(中位数 12.96%) 15图 12:逻辑回归模型回归系数 15图 13:逻辑回归模型分组净值曲线 15图 14:逻辑回

6、归模型多头组合净值曲线 15图 15:朴素贝叶斯模型月度 IC(中位数 12.61%) 16图 16:朴素贝叶斯模型多头组合净值曲线 16图 17:朴素贝叶斯模型分组净值曲线 17图 18:支持向量机模型月度 IC(中位数 12.76%) 18图 19:支持向量机模型多头组合净值曲线 18图 20:支持向量机模型分组净值曲线 19图 21:决策树模型月度 IC(中位数 10.52%) 21图 22:决策树模型特征重要性 21图 23:决策树模型分组净值曲线 21图 24:决策树模型多头组合净值曲线 21图 25:随机森林示意图 22图 26:随机森林模型月度 IC(中位数 13.04%) 23

7、图 27:随机森林模型特征重要性 23图 28:随机森林模型分组净值曲线 23图 29:随机森林模型多头组合净值曲线 23图 30:梯度提升树示意图 24图 31:梯度提升树模型月度 IC(中位数 12.68%) 24图 32:梯度提升树模型特征重要性 24图 33:梯度提升树模型分组净值曲线 25图 34:梯度提升树模型多头组合净值曲线 25图 35:XGBoost 模型月度 IC(中位数 12.72%) 26图 36:XGBoost 模型特征重要性 26图 37:XGBoost 模型分组净值曲线 26图 38:XGBoost 模型多头组合净值曲线 26图 39:LightGBM 的 lea

8、f-wise 生长策略 28图 40:LightGBM 模型月度 IC(中位数 13.14%) 28图 41:LightGBM 模型特征重要性 28图 42:LightGBM 模型分组净值曲线 29图 43:LightGBM 模型多头组合净值曲线 29图 44:神经网络的典型结构 30图 45:神经网络模型月度 IC(中位数 13.62%) 30图 46:神经网络模型多头组合净值曲线 30图 47:神经网络模型分组净值曲线 31图 48:机器学习模型多头组合净值曲线 33图 49:2017-2018 年随机森林模型表现 33图 50:2017-2018 年神经网络模型表现 33图 51:单因子

9、边际影响拆分 34图 52:规模因子边际依赖函数 34图 53:成长因子边际依赖函数 35图 54:财务质量因子边际依赖函数 35图 55:逻辑回归模型回归系数 35图 56:随机森林模型特征重要性 36图 57:XGBoost 模型特征重要性 36图 58:随机森林模型部分因子相关性 37图 59:神经网络模型部分因子相关性 37表 1:多因子模型分组回测结果 8表 2:多因子模型分年度表现 8表 3:不同加权方法回测结果 10表 4:不同加权方法分年度表现 10表 5:各模型参数含义及搜索范围 13表 6:逻辑回归模型分组回测结果 15表 7:朴素贝叶斯模型分组回测结果 17表 8:支持向

10、量机模型分组回测结果 19表 9:常用决策树算法对比 20表 10:决策树模型分组回测结果 21表 11:随机森林模型分组回测结果 23表 12:梯度提升树模型分组回测结果 25表 13:XGBoost 模型分组回测结果 27表 14:LightGBM 模型分组回测结果 29表 15:神经网络模型分组回测结果 31表 16:机器学习模型多头组合回测结果 32表 17:机器学习模型空头组合回测结果 32表 18:机器学习模型分年度表现 33表 19:机器学习模型因子相关性 37表 20:基本面因子回测结果 38表 21:技术面因子回测结果 38表 22:中证 500 回测结果 39多因子选股理论

11、成熟,因子合成面临挑战理论成熟,国内市场应用广泛股票价格的波动受到多种因素的影响,这些与股票收益率相关的影响因素被称为因子。多因子选股根据因子刻画股票收益率并进行选股,目前在量化投资领域已经被广泛使用。1993 年,Fama、French 提出了一种三因子模型,用以解释股票投资组合的收益率。三因子模型认为,投资组合的收益率可以由三个因子解释:1、市场因子,即市场指数相对于无风险利率的超额收益率, ;2、规模因子,小市值股票相对于大市值股票的超额收益率,SMB;3、估值因子,高账面市值比股票相对于低账面市值比股票的超额收益率,HML。 = + + + 其中,为投资组合的超额收益率。在三因子模型的

12、基础上,更多可以解释股票收益率的因子被发掘出来。Carhart提出的四因子模型(1997)引入了动量因子(MOM),而 Fama、French 后续提出的五因子模型则引入了两个新因子,公司盈利能力因子(高盈利公司相对于低盈利公司的超额收益率,RMW)与投资风格因子(投资保守公司相对于投资激进公司的超额收益率,CMA)。随着量化投资的进一步发展,演化出了更为复杂的多因子模型。如 Piotroski 模型(2000)选取多个基本面指标,通过 9 个标准1考察公司的基本面状况,并根据打分进行排名,构建投资组合。Mohanram 模型(2005)在 Piotroski 模型的基础上进行了因子的改进,取

13、得了更好的超额收益。多因子模型也迅速应用于 A 股市场,已有上百个因子被检验。2018 年 8 月, MSCI 发布了应用于中国股票市场的 Barra 风险模型,CNE6。Barra 模型包括了波动率、质量、动量、价值、规模、成长、流动性、情绪、股息率这 9 类一级风格因子,同时还细分了 20 个二级基础因子,46 个三级因子。根据申万金工因子库,从因子数据库中筛选有效性较强的 33 个细分因子,经过市值、行业中性化,去极值、标准化等预处理,合成规模(负向)、估值(正向)、分红(正向)、盈利(正向)、财务质量(正向)、成长(正向)、反转(负向)、波动率(负向)、流动性(负向)、分析师一致预期(

14、正向)10 大类风格因子。等权合成大类风格因子,可以得到股票在每一期的因子值。按照因子值从高到低排序,并分为十组,等权配置组内股票构建投资组合。1 1、ROA0;2、ROA 同比0;3、经营性现金流为正;4、经营性现金流净利润;5、杠杆率同0;7、相比前一年股权稀释更低;8、毛利同比0;9、资产周转率同比0。从回测结果看,多因子模型分组效果较好,组间单调性明显。第一组年化收益率-8.2%,第十组年化收益率 30.8%,夏普比率、最大回撤等指标也呈现明显的单调性。以第十组作为多头组合,相对中证全指超额收益明显。从分年度的表现来看,多头组合在多数年份超额收益显著,在 2017、2020 年跑输中证

15、全指。图 1:多因子模型分组净值曲线图 2:多头组合净值曲线121086420g1g2g3g4g5 g6g7g8g9g101261058463422100多头组合中证全指超额收益-右轴 资料来源:申万宏源研究资料来源:申万宏源研究表 1:多因子模型分组回测结果年化收益率年化波动率夏普比率最大回撤Calmar 比率g1-8.2%28.9%-0.28-84.6%-0.10g21.3%27.9%0.05-76.0%0.02g35.9%27.9%0.21-71.0%0.08g410.5%27.3%0.38-65.5%0.16g514.4%27.3%0.53-61.7%0.23g615.7%27.0%0

16、.58-59.2%0.27g718.7%26.9%0.70-55.1%0.34g822.6%27.0%0.84-48.4%0.47g926.4%26.7%0.99-47.0%0.56g1030.8%26.2%1.18-44.4%0.69资料来源:申万宏源研究表 2:多因子模型分年度表现201220132014201520162017201820192020多头组合16.1%47.6%72.3%130.0%10.7%-4.5%-17.5%39.6%24.6%中证全指1.9%5.2%45.8%32.6%-14.4%2.3%-29.9%31.1%24.9%超额收益率15.2%42.5%18.5%75

17、.5%30.0%-6.8%18.3%6.6%-0.3%超额波动率6.5%7.1%8.0%12.6%5.7%7.9%9.0%6.6%8.4%超额夏普比率2.345.972.326.015.23(0.86)2.041.00(0.03) 相对最大回撤-4.9%-2.2%-12.3%-8.1%-2.4%-11.3%-5.6%-3.5%-10.9% 资料来源:申万宏源研究因子有效性随市场变化,因子合成面临挑战多因子选股的假设在于:股票收益率可以被一种或多种因子解释,并且因子持续有效。但市场风格是随时变化的,不同时期股票收益率的影响因素也不尽相同。尤其是近两年来,A 股市场结构性行情愈发明显,部分风格因子

18、越来越难以解释市场变化。等权法合成因子简单直观,但无法体现因子间的差异,固定权重也很难反映因子的变化。在进行单因子测试的时候,我们往往关心因子对股票未来收益率的预测能力。通过计算因子值与未来收益率之间的相关系数,可以得到因子的信息系数 IC2。以最常用的规模因子为例,回测期内 IC 中位数-4.76%。12 个月滚动 IC 可以刻画因子 IC 的变化趋势,规模因子在 2017 年之前非常有效,此后因子 IC 的稳定性下降,相关性在正负之间出现两次跳跃。估值因子也是回测期内较为有效的一类因子, IC 中位数 3.78%。但近两年来,估值因子出现失效,IC 明显降低。与之相对应的,则是质量因子的预

19、测能力明显增强。质量因子回测期内 IC 并不高,中位数 1.37%。但 2017 年以后因子 IC 稳步上升。15%10%5%0%-5%-10%-15%-20%14%12%10%8%6%4%2%0%-2%图 3:规模因子 12 个月滚动 IC 图 4:估值因子 12 个月滚动 IC资料来源:申万宏源研究资料来源:申万宏源研究图 5:质量因子 12 个月滚动 IC图 6:分析师一致预期因子 12 个月滚动IC2 本报告中的 IC 均指秩相关系数,即当期因子值排序与下一期股票收益率排序之间的相关系数。6%5%4%3%2%1%0%-1%-2%-3%-4%8%7%6%5%4%3%2%1%0%资料来源:

20、申万宏源研究资料来源:申万宏源研究因此,不同因子之间存在差异,并且因子自身的有效性也会随时间发生变化。在进行因子合成时,也应该考虑这些因素。IC 表示因子对未来收益的预测能力,一个自然的想法是使用 IC 加权法代替等权法。使用 12 个月滚动 IC 作为权重进行因子合成,重新对大类因子进行合成,并分组建投资组合。从整体的回测结果看,IC 加权法可以提高多头组合和空头组合的收益,但年度表现差异明显。在 2017 年之前,IC 加权法有比较好的增强效果。但 2017 年之后,市场风格发生变化,因子动量持续时间较短,IC 加权法表现也随之下降。虽然 IC 加权法包含了因子之间的差异以及因子自身的变化

21、,但仍然无法体现因子之间的交互作用。而机器学习适用于对大量数据进行分析、拟合,寻找输入输出之间的映射关系。训练得到的模型可以反映非线性关系,自适应地寻找因子发生的潜在变化,并具有很好的泛化能力。因此,可以尝试使用机器学习进行因子合成,并构建投资组合。表 3:不同加权方法回测结果年化收益率年化波动率夏普比率最大回撤Calmar 比率多头组合-等权法30.76%26.18%1.18-44.44%0.69多头组合-IC 加权法32.15%26.02%1.24-43.72%0.74空头组合-等权法8.21%28.94%0.28-84.60%0.10空头组合-IC 加权法10.28%29.88%0.34

22、-86.93%0.12资料来源:申万宏源研究表 4:不同加权方法分年度表现201220132014201520162017201820192020等权法16.1%47.6%72.3%130.0%10.7%-4.5%-17.5%39.6%24.6%IC 加权法17.4%51.4%81.3%153.0%14.0%-6.0%-19.8%34.2%20.2%资料来源:申万宏源研究图 7:不同加权方法净值曲线141.3121.251.2101.1581.11.056140.950.920.8500.8等权法IC加权法IC加权法/等权法-右轴资料来源:申万宏源研究机器学习选股框架在报告量化投资新起点机器学

23、习系列报告之一中,我们详细介绍了机器学习项目的标准工作流程。在此基础上,将机器学习应用于多因子选股,主要步骤包括数据提取、数据处理、滚动训练、交叉验证、参数调整、因子合成、组合构建、模型评价。机器学习的一个特点是数据驱动(data-driven)。算法的学习过程需要大量的数据,因此数据量越大,算法的学习效果越好。为了最大程度利用现有数据,我们首先尝试在全市场范围内应用机器学习模型进行选股。图 8:机器学习选股流程示意图资料来源:申万宏源研究数据准备股票样本池:沪深全部 A 股,剔除 ST 及上市不满 120 个交易日的股票;回测区间:2010 年 1 月-2020 年 12 月;输入数据:回测

24、区间内,十大类风格因子(月频); 输出数据:机器学习因子,即股票未来一期上涨概率;数据处理:缺失值较多的特征是分析师一致预期,对缺失数据零值填充,在滚动的每个训练区间内,对因子数据进行均值-方差标准化;样本标签:按下一期月度收益率对股票进行排序,前 30%的股票标记为 1,后 30%的股票标记为-1。模型训练股票市场的表现受到经济预期、流动性、风险偏好、交易行为等多种因素影响,不同时期主导因素也在发生着变化。为了使模型可以动态适应市场变化,学习风格因子与收益率之间的映射关系,采用滚动窗口法进行训练,窗口期为 24 个月。在每月末最后一个交易日结束后,计算各类风格因子。使用过去 24 个月的因子

25、数据、涨跌标签作为训练集,预测未来一期股票上涨概率,训练集约 5 万个样本。图 9:滚动窗口法示意图资料来源:申万宏源研究参数调整机器学习模型的目的,是通过训练学习模型参数,从而确定输入与输出之间的对应关系。但除此之外,还有一类无法通过模型学习到的参数,又被称为超参数,通常需要预先指定初始值。由于超参数存在较多的可能值,采用网格搜索和交叉验证的方法确定最优参数值。这里我们使用 auc 作为最优参数选择标准,进行 5 折交叉验证。在每个窗口期训练机器学习模型时,将训练集随机分为 5 个子集,使用其中 4 个子集进行训练,另一个子集进行验证。如此重复 5 次,得到 5 个 auc 得分的平均值。关

26、于交叉验证的详细介绍请参考报告量化投资新起点机器学习系列报告之一。不同机器学习模型参数含义及搜索范围如下表所示。模型参数名称参数含义搜索范围penalty惩罚项形式l1, l2, elasticnet, noneC正则化程度0.01, 1, 10l1_ratio弹性网中 l1 惩罚项系数0.2, 0.4, 0.6, 0.8, 1朴素贝叶斯alpha平滑参数0.01, 0.1, 1, 10, 100C正则化程度0.01, 0.1, 1kernel核函数形式rbfgamma核函数系数0.01, 0.1, 1criterion分裂效果度量指标gini, entropy决策树max_depth最大深度

27、4, 6, 8, 10min_samples_split分裂节点最少样本数100, 150, 200min_samples_leaf分裂叶节点最少样本数30, 50, 70n_estimators决策树个数50, 250, 500随机森林max_depth决策树最大深度4, 7, 10min_samples_split分裂节点最少样本数50, 90, 130min_samples_leaf分裂叶节点最少样本数30, 60n_estimators决策树个数150, 300梯度提升树max_depth决策树最大深度4, 7, 10min_samples_split分裂节点最少样本数60, 120m

28、in_samples_leaf分裂叶节点最少样本数30, 60n_estimators决策树个数50, 250, 500XGBoostmax_depth决策树最大深度4, 7, 10min_child_weight分裂叶节点最小样本权重和0.2, 0.6, 1gamma分裂叶节点最小损失函数下降值0.2, 1n_estimators决策树个数50, 250, 500LightGBMmax_depth决策树最大深度4, 7, 10num_leaves决策树最大叶子数20, 25, 30, 35, 40, 45, 50, 55, 60subsample采样比例0.5units隐藏层神经元数量16,

29、 32神经网络dropout_rate随机删除神经元比例0.25, 0.5batch_size训练选取样本个数32表 5:各模型参数含义及搜索范围逻辑回归支持向量机资料来源:Scikit-learn: Machine Learning in Python,申万宏源研究组合构建在确定模型的最优参数后,即可得到通过机器学习算法合成的新因子,即未来一期股票上涨概率的预测值。按照模型的预测值从高到低排序,并分为十组,等权配置组内股票构建投资组合。依次计算每一组的年化收益率、夏普比率等指标,进行模型比较。机器学习选股回测逻辑回归算法简介逻辑回归(Logistic Regression)是一种经典的机器学

30、习算法,也是最常用的分类模型,由英国统计学家 Cox 在 1958 年提出。逻辑回归的优点在于原理清晰、形式简单,训练成本低。同时回归系数的可解释性强,过拟合也可以通过正则化方法解决。但由于其线性模型的本质,有时会存在欠拟合问题。=1逻辑回归是广义线性模型的一种,在线性回归的基础上进行了拓展,将之应用于分类问题。给定数据集 = (, ) ,线性回归可以写成如下向量形式: = T + 若想将线性回归应用于分类问题,则需要找到一个单调可微函数,将线性回归的输出值映射到区间0, 1。而 Sigmoid 函数正满足这样的性质,函数形式如下:1() = 1 + , 图 10:Sigmoid 函数10.5

31、0-10-8-6-4-20246810资料来源:申万宏源研究则逻辑回归可以写成如下形式:1 = 1 + T+模型的输出值即为样本属于某一类别的概率,决策边界 = 0.5,即T + = 0。由于决策边界是一个超平面,逻辑回归本质上仍然是线性模型,但在决策过程中加入了非线性映射。3.1.2 回测结果回测期内,逻辑回归模型合成因子的 IC 中位数 12.96%,平均值 12.98%。从分组测试结果看,合成因子的分组效果较好,单调性明显。第一组年化收益率-12.1%,夏普比率-0.40。第十组年化收益率 34.1%,夏普比率 1.26。0.20.10-0.1-0.2-0.3-0.450%40%30%2

32、0%10%0%-10%-20%-30%图 11:逻辑回归模型月度IC(中位数 12.96%)图 12:逻辑回归模型回归系数规模估值分红盈利 财务质量成长反转波动率流动性分析师预期 资料来源:申万宏源研究资料来源:申万宏源研究图 13:逻辑回归模型分组净值曲线图 14:逻辑回归模型多头组合净值曲线1614121086420多头组合-逻辑回归多头组合-等权资料来源:申万宏源研究资料来源:申万宏源研究表 6:逻辑回归模型分组回测结果年化收益率年化波动率夏普比率最大回撤Calmar 比率g1-12.1%30.0%-0.40-87.1%-0.14g21.6%28.2%0.06-76.5%0.02g36.

33、7%27.3%0.25-68.4%0.10g410.1%27.2%0.37-67.4%0.15g512.4%27.3%0.45-63.8%0.19g615.6%26.3%0.59-58.7%0.27g718.9%26.7%0.71-54.9%0.34g823.2%26.9%0.86-48.6%0.48g926.3%26.5%0.99-47.4%0.55g1034.1%27.0%1.26-48.9%0.70资料来源:申万宏源研究朴素贝叶斯算法简介朴素贝叶斯(Naive Bayes)可以追溯到 1950 年代,是一种以贝叶斯定理为基础,假设特征之间相互独立并建构分类器的简单方法。朴素贝叶斯逻辑简单

34、、复杂度低,具有良好的概率理论基础。由于估计后验概率存在一定困难,朴素贝叶斯假设不同特征之间互相独立,而这往往与实际情况不符。在特征较多或者特征之间相关性较大时,朴素贝叶斯分类效果并不好。因此当需要放宽特征相互独立这一假设条件时,则可以考虑使用半朴素贝叶斯模型,即考虑部分特征之间的依赖关系。朴素贝叶斯的理论基础是概率论中的贝叶斯公式,假定样本中不同维度的特征相互独立,则可得:( = |) = ( = )(| = ) = ( = ) ( | = ), = 1,2, , ()()其中为第个输入特征,为输出值,1, , 为的可能值。在模型训练的过程中,首先使用“经验概率”决定(| = )与( = )

35、的值,即(| = )是所有类别为的样本中第 i 个输入特征为的样本占比;( = )是所有样本中类别为的样本的占比。之后在进行预测时,直接取概率最大的作为预测结果,即 = argmax ( = |)= argmax ( = ) (| = )由于(| = )与( = )已经在模型训练时得到计算,因此朴素贝叶斯模型的运算效率很高。回测结果朴素贝叶斯算法需要指定先验分布的形式,在样本特征多为连续值时,一般使用高斯分布。而在样本特征是二元离散值或稀疏的多元离散值时,应该使用伯努利分布。我们分别对两种先验分布进行了测试,与上述适用场景一样,先验分布为高斯分布的朴素贝叶斯模型表现更好。回测期内,朴素贝叶斯模

36、型 IC 中位数 12.61%,平均值 13.04%。从分组净测试结果看,合成因子的分组效果较好,单调性明显。第一组年化收益率-10.7%,夏普比率-0.35,第十组年化收益率 35.0%,夏普比率 1.31。图 15:朴素贝叶斯模型月度 IC(中位数 12.61%) 图 16:朴素贝叶斯模型多头组合净值曲线50%40%30%20%10%0%-10%-20%-30%1614121086420多头组合-朴素贝叶斯多头组合-等权资料来源:申万宏源研究资料来源:申万宏源研究图 17:朴素贝叶斯模型分组净值曲线资料来源:申万宏源研究表 7:朴素贝叶斯模型分组回测结果年化收益率年化波动率夏普比率最大回撤

37、Calmar 比率g1-10.7%30.7%-0.35-87.3%-0.12g21.4%28.6%0.05-76.5%0.02g36.4%27.8%0.23-70.8%0.09g410.7%27.4%0.39-65.2%0.16g513.3%26.7%0.50-62.9%0.21g615.2%26.6%0.57-59.9%0.25g718.6%26.3%0.71-52.4%0.35g822.1%26.4%0.84-49.4%0.45g925.1%26.5%0.95-47.2%0.53g1035.0%26.7%1.31-47.7%0.73资料来源:申万宏源研究支持向量机算法简介1995 年,Co

38、rtes 和 Vapni 提出了现代版本的支持向量机(Support Vector Machine)。支持向量机既可以用于分类,也可以用于回归,分为支持向量分类(SVC)与支持向量回归(SVR)两类。由于支持向量机的决策边界清晰,理论基础完善,同时适用于各种非线性问题,以其为代表的浅层学习在很长一段时间内是机器学习的主流技术。支持向量机的基本思路是寻找一个区分不同种类样本的超平面,又被称为决策边界。距离超平面最近的几个样本点被称为“支持向量”,划分超平面两侧的两个支持向量到超平面的距离之和被称为“间隔”。支持向量机的目标便是寻找一个使得“间隔”最大化的划分超平面,等价于求解下列问题:min 1

39、 2, 2. . ( + ) 1, = 1,2, , 对于非线性分类问题,则可将训练样本从原始空间映射到一个更高维的空间,将其转化为一个线性分类问题,通常使用“核函数”进行求解。由于支持向量机只选取训练样本中的关键样本,即支持向量进行计算,因此 SVM 对非支持向量的数据扰动不敏感,可以有效减轻噪声的影响,具有良好的鲁棒性。而当数据量较大时,SVM的核函数映射维度非常高,此时训练成本较高,因此并不适合大数据集的训练。回测结果回测期内,支持向量机模型合成因子的 IC 中位数 12.76%,平均值 12.72%。从分组测试结果看,合成因子的分组效果较好,单调性明显。第一组年化收益率-7.6%,夏普

40、比率-0.26。第十组年化收益率 33.5%,夏普比率 1.24。图 18:支持向量机模型月度 IC(中位数 12.76%)图 19:支持向量机模型多头组合净值曲线50%40%30%20%10%0%-10%-20%-30%-40%1614121086420多头组合-支持向量机多头组合-等权资料来源:申万宏源研究资料来源:申万宏源研究图 20:支持向量机模型分组净值曲线资料来源:申万宏源研究表 8:支持向量机模型分组回测结果年化收益率年化波动率夏普比率最大回撤Calmar 比率g1-7.6%28.7%-0.26-82.9%-0.09g2-3.4%28.8%-0.12-80.1%-0.04g35.

41、6%27.6%0.20-72.9%0.08g49.4%27.5%0.34-67.6%0.14g512.1%27.0%0.45-62.9%0.19g617.2%26.6%0.64-58.2%0.29g720.0%26.7%0.75-53.9%0.37g823.4%26.5%0.88-47.7%0.49g926.3%26.6%0.99-48.4%0.54g1033.5%27.1%1.24-47.3%0.71资料来源:申万宏源研究决策树算法简介决策树(Decision Tree)是机器学习中的一个重要模型,由于其非线性特征以及较好的可解释性,已成为机器学习中最常用的模型之一,并且衍生出一系列基于决策

42、树的集成模型。决策树的树形结构可以清晰地展示模型决策过程,非常直观且易于理解。树中每个节点表示某个决策规则,每个分支路径则表示在该决策规则下可能的特征值,而每个叶节点最终输出一个决策。并且决策树对于数据清洗的要求更低, 受异常值的影响小。但需要注意的是,决策树的训练非常容易出现过拟合,可以通过剪枝对特征进行处理。决策树算法训练过程:1、生成一个节点;2、如果所有输入节点的样本属于同一类别,则该节点为叶节点;3、评估所有输入特征,并选择一种“最优”的特征划分方式,生成相应分支;4、对于每一个分支,重复执行步骤 1。显然,算法的关键在于特征划分方式。决策树通过对特征进行划分,提高划分后数据集的纯度

43、,即样本更集中于某一类别。因此,不纯度衡量了决策树分裂子节点带来的提升效果。常用的不纯度指标包括交叉熵和基尼系数。1、交叉熵是信息论中的一个重要概念,可以用来度量两个概率分布间的差异。表示第类样本所占比例,对于离散分布,交叉熵定义如下: 2=12、基尼系数其实是交叉熵的一个近似值。在交叉熵的基础上,对公式中的2 进行泰勒展开,忽略高阶项,可以得到到基尼系数的公式: (1 )=1在研究二分类问题时,交叉熵和基尼系数分别可以简化为 log2 (1 ) log2(1 )和2(1 )。决策树算法通过不纯度度量指标,衡量分裂子节点带来的提升效果,决定如何进行特征划分。决策树模型可解释性较好的一个重要原因

44、是特征重要性。通过计算每个特征的不纯度增益并进行归一化,可以得到特征重要性。特征重要性越高,则该特征在决策树训练过程中作用越大。常见的决策树算法包括 ID3、C4.5 和 CART。其中,ID3 算法使用在交叉熵基础上计算得到的信息增益,进行特征划分。但信息增益倾向于选择取值较多的特征,如股票代码在选股中是一个无效特征,但若计算其分裂节点的信息增益值则很大。因此 C4.5 算法对此进行了改进,使用信息增益率进行特征划分。而 CART 既可以构造分类树,也可以构造回归树。由于交叉熵的对数运算计算成本较高,CART 算法使用基尼指数作为特征划分的依据,提高了决策树的生成效率。同时 CART 也可以

45、应用于回归问题,是最常用的一种决策树生成算法。表 9:常用决策树算法对比ID3C4.5CART特征划分信息增益信息增益率基尼指数使用范围分类分类分类、回归生成效率低低高样本量小小大缺失值连续值剪枝策略资料来源:申万宏源研究回测结果回测期内,决策树模型 IC 中位数 10.52%,平均值 11.05%。从分组测试结果看,合成因子的分组效果一般,中间组单调性并不明显,年化收益率相对等权组合提升并不明显。第一组年化收益率-6.3%,夏普比率-0.21。第十组年化收益率为 32.8%,夏普比率 1.19。图 21:决策树模型月度IC(中位数 10.52%) 图 22:决策树模型特征重要性50%40%3

46、0%20%10%0%-10%-20%-30%1.210.80.60.40.20规模估值分红盈利 财务质量成长反转波动率流动性分析师预期资料来源:申万宏源研究资料来源:申万宏源研究图 23:决策树模型分组净值曲线图 24:决策树模型多头组合净值曲头组合-决策树多头组合-等权资料来源:申万宏源研究资料来源:申万宏源研究表 10:决策树模型分组回测结果年化收益率年化波动率夏普比率最大回撤Calmar 比率g1-6.3%29.7%-0.21-82.2%-0.08g22.3%28.0%0.08-76.4%0.03g35.6%27.4%0.21-72.4%0.08g411.7%2

47、6.9%0.43-65.5%0.18g512.0%27.2%0.44-60.2%0.20g612.0%26.8%0.45-63.8%0.19g717.8%26.7%0.67-52.3%0.34g818.9%26.7%0.71-56.2%0.34g926.7%27.1%0.99-49.7%0.54g1032.8%27.5%1.19-49.3%0.67资料来源:申万宏源研究随机森林算法简介决策树的缺点是由于过度分裂带来的过拟合,除了剪枝策略,更常用的方法是使用集成模型抑制过拟合。集成学习的思想非常简单,综合多个弱分类器的输出结果,能够达到强分类器的效果。同时集成模型不会过度依赖某一个分类器,大大增

48、加了模型的泛化能力。集成算法可以分为 Bagging、Boosting 和 Stacking 三类。随机森林(Random Forest)是 Bagging 的代表,由 Breiman 在 2001 年提出。随机森林以决策树为基础,用随机的方式生成多棵相互独立的决策树,并且以决策树输出类别的众数决定最终输出。随机森林原理简单,可以并行计算。由于其每次只抽取 m 个特征用于划分,在 Bagging 的基础上兼顾了样本扰动和属性扰动,拥有更好的多样性,特升了泛化性能。随机森林算法训练过程:1、生成棵决策树:有放回地随机从训练集中抽取部分样本,并随机选择个特征构建决策树,重复次;2、获得所有决策树给

49、出的个分类结果;3、取众数作为随机森林的预测值。图 25:随机森林示意图资料来源:机器学习在量化金融中的应用,申万宏源研究回测结果回测期内,随机森林模型回测期内 IC 中位数 13.04%,平均值 13.44%。从分组测试结果看,合成因子的分组效果较好,单调性明显。第一组年化收益率-12.1%,夏普比率-0.41。第十组年化收益率为 35.2%,夏普比率 1.30。图 26:随机森林模型月度IC(中位数 13.04%) 图 27:随机森林模型特征重要性100%80%60%40%20%规模估值分红盈利财务质量成长反转波动率流动性分析师预期0%资料来源:申万宏源研究资料来源:申万宏源研究图 28:

50、随机森林模型分组净值曲线图 29:随机森林模型多头组合净值曲线1614121086420多头组合-随机森林多头组合-等权资料来源:申万宏源研究资料来源:申万宏源研究表 11:随机森林模型分组回测结果年化收益率年化波动率夏普比率最大回撤Calmar 比率g1-12.1%29.9%-0.41-87.3%-0.14g20.9%28.3%0.03-76.2%0.01g35.4%27.5%0.20-70.7%0.08g49.8%27.2%0.36-67.7%0.14g513.7%27.0%0.51-62.5%0.22g616.4%26.7%0.61-57.1%0.29g717.8%26.4%0.67-5

51、4.4%0.33g822.1%26.5%0.83-49.1%0.45g928.0%26.9%1.04-48.4%0.58g1035.2%27.2%1.30-47.9%0.74资料来源:申万宏源研究梯度提升树算法简介梯度提升树(Gradient Boosting Decision Tree)是一种 Boosting 集成方法。 Boosting 算法的核心在于,依次训练多个弱学习器。首先训练一个弱学习器,根据弱学习器的误差更新训练样本的权重,即误差大的训练样本的权重更高。基于调整权重后的训练集,重新训练弱学习器,如此循环得到最终的强学习器。因此,梯度提升树中后一棵树的拟合目标是之前所有树的残差和

52、。通过每次学习之前模型的误差,一般只需要较少的树就可以很好地拟合数据。但 Boosting 是一个串行过程,与随机森林相比,计算成本较高。梯度提升树训练过程:1、初始化一棵决策树;2、计算损失函数的负梯度,作为模型残差的近似值;3、使用另一棵决策树拟合残差;4、如此反复,直至生成棵决策树。图 30:梯度提升树示意图资料来源:机器学习在量化金融中的应用,申万宏源研究回测结果回测期内,梯度提升树模型回测期内 IC 中位数 12.68%,平均值 12.82%。从分组测试结果看,合成因子的分组效果较好,单调性明显。第一组年化收益率-10.5%,夏普比率-0.36。第十组年化收益率为 34.5%,夏普比

53、率 1.27。图 31:梯度提升树模型月度 IC(中位数 12.68%)图 32:梯度提升树模型特征重要性100%80%60%40%20%规模估值分红盈利财务质量成长反转波动率流动性分析师预期0%资料来源:申万宏源研究资料来源:申万宏源研究图 33:梯度提升树模型分组净值曲线图 34:梯度提升树模型多头组合净值曲线1614121086420多头组合-梯度提升树多头组合-等权资料来源:申万宏源研究资料来源:申万宏源研究表 12:梯度提升树模型分组回测结果年化收益率年化波动率夏普比率最大回撤Calmar 比率g1-10.5%29.2%-0.36-86.3%-0.12g21.2%27.9%0.04-

54、75.8%0.02g35.3%27.6%0.19-71.8%0.07g48.9%27.4%0.32-67.5%0.13g513.4%27.1%0.50-63.2%0.21g616.4%26.5%0.62-58.5%0.28g717.6%27.0%0.65-56.9%0.31g822.2%26.6%0.83-48.6%0.46g927.2%26.9%1.01-48.7%0.56g1034.5%27.1%1.27-47.3%0.73资料来源:申万宏源研究XGBoost算法简介XGBoost 全称 eXtreme Gradient Boosting,是一个开源的梯度提升框架,由华人学者陈天奇于 20

55、14 年开发。XGBoost 是 GBDT 基础上的一种改进算法,在目标函数中加入了正则项,减少了模型过拟合的可能性。XGBoost 的目标函数由两部分组成,包括模型的损失函数与抑制模型复杂度的正则项:obj() = ( , ) + ()=1其中,模型复杂度由叶子的个数和叶节点权重定义如下:( )12 = + 2 =1相对于 GBDT,XGBoost 的精度更高,在优化过程中对损失函数进行二阶泰勒展开。GBDT 在每次迭代时用到全部的训练数据,而 XGBoost 中可以选择随机采样,增强了模型的泛化能力。同时,XGBoost 还包含了对缺失值的处理。在工程实现上, XGBoost 支持并行计算

56、,可以大幅提升计算效率。这些模型原理和工程实现上的改进,增强了 XGBoost 的泛化能力,优化了模型的性能。回测结果回测期内,XGBoost 模型回测期内 IC 中位数 12.72%,平均值 13.15%。从分组测试结果看,合成因子的分组效果较好,单调性明显。第一组年化收益率-12.0%,夏普比率-0.41。第十组年化收益率为 35.2%,夏普比率 1.30。图 35:XGBoost 模型月度 IC(中位数 12.72%)图 36:XGBoost 模型特征重要性100%80%60%40%20%2011-12-302012-06-292012-12-312013-06-282013-12-31

57、2014-06-302014-12-312015-06-302015-12-312016-06-302016-12-302017-06-302017-12-292018/6/292018/12/282019/6/282019/12/312020/6/300%规模估值分红盈利 财务质量成长反转波动率流动性分析师预期资料来源:申万宏源研究资料来源:申万宏源研究图 37:XGBoost 模型分组净值曲线图 38:XGBoost 模型多头组合净值曲线1614121086420多头组合-XGBoost多头组合-等权资料来源:申万宏源研究资料来源:申万宏源研究表 13:XGBoost 模型分组回测结果年化

58、收益率年化波动率夏普比率最大回撤Calmar 比率g1-12.0%29.5%-0.41-87.2%-0.14g21.2%28.1%0.04-75.9%0.02g35.5%27.6%0.20-72.1%0.08g49.5%27.3%0.35-67.1%0.14g514.3%27.0%0.53-63.5%0.23g615.8%26.7%0.59-55.4%0.29g717.7%26.6%0.66-56.4%0.31g822.1%26.5%0.83-49.7%0.45g927.5%27.0%1.02-48.5%0.57g1035.2%27.1%1.30-47.3%0.74资料来源:申万宏源研究Lig

59、htGBM算法简介LightGBM 由微软于 2016 年开发,与 XGBoost 类似,也是对 GBDT 算法的改良与工程实现。为了解决存在大量数据时 GBDT 算法效率不足的问题,LightGBM 采用了基于直方图优化的决策树算法,将连续特征划分为分立的小组。相对于常见的预排序(pre-sorted)算法,直方图优化算法减少了划分特征的计算量和内存占用,并且方便并行计算。在生成决策树时,一般采用按层生成(level-wise)的方式,直到达到停止条件。而 LightGBM 采用带深度限制的按叶生成(leaf-wise)方式,每次树分裂时,优先选择增益最高的叶节点进行分裂(即使会导致不同分支

60、的层数不同)。这种策略可以在分裂次数相同的前提下,提高运算精度,但有时更容易引起过拟合,因此在算法中限制了决策树的深度以减少过拟合现象。此外,LightGBM 可以直接对类别特征进行处理,而无需转换为 one-hot 编码。在并行算法方面,LightGBM 也在特征并行和数据并行上进行了一系列改良,增加了整体的运算效率。图 39:LightGBM 的 leaf-wise 生长策略资料来源:机器学习在量化金融中的应用,申万宏源研究回测结果回测期内,LightGBM 模型回测期内 IC 中位数 13.14%,平均值 13.15%。从分组测试结果看,合成因子的分组效果较好,单调性明显。第一组年化收益

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论