兼谈人工智能量化多因子基金的特点_第1页
兼谈人工智能量化多因子基金的特点_第2页
兼谈人工智能量化多因子基金的特点_第3页
兼谈人工智能量化多因子基金的特点_第4页
兼谈人工智能量化多因子基金的特点_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 HYPERLINK / 解决。 HYPERLINK / 谨请参阅尾页重要声明及华泰证券股票和行业评级标准人工智能与多因子选股模型的结合人工智能(Artificial Intelligence)本质是以数理模型为核心工具,结合控制论、认知心理学等其它学科的研究成果,最终由计算机系统模拟人类的感知、推理、学习、决策等功能。近年来,伴随着计算机算力的大幅提升和海量可用数据的积累,人工智能技术经历了突飞 猛进的发展。从围棋到电子竞技再到多人德州扑克,人工智能展现了其在复杂博弈环境中的强大自我学习能力。人工智能和它借助的机器学习方法也逐渐渗透到人类生活的方方面面。从手写数字的自动识别,到电脑手机上的指

2、纹解锁功能、语音识别系统,再到无人驾驶、智能医疗、智能投顾等热门领域,处处都有人工智能的身影。在投资领域,为了论证人工智能的有效性和可行性,自 2017 年 6 月开始华泰金工连续发布了 23 篇深度研究报告,并以周报跟踪的方式,向投资者展示人工智能和机器学习运用于量化投资中各个步骤的细节。图表1: 机器学习与多因子模型的结合思路资料来源: 如图表 1 所示,从模型构建的角度上来看,机器学习与多因子选股有诸多共通之处,借助机器学习模型,多因子模型可以在以下方面相比于传统方法论有所突破:机器学习模型相比传统线性模型在海量数据下有更好的性能。基于机器学习的多因子选股模型能充分使用海量、高维的因子数

3、据。大多数机器学习模型都具有非线性拟合能力。基于机器学习的多因子选股模型能利用非线性因子。接下来,我们将介绍常用的机器学习模型。常用的机器学习模型简介XGBoost 简介XGBoost 是梯度提升算法的一种高效实现,原理类似 GBDT。传统的 GBDT 通过串行集成多个 CART 决策树来形成强学习器,XGBoost 则在GBDT 的基础上进行了多方面优化。相比传统的线性模型,XGBoost 由于使用决策树为基学习器,具有非线性拟合能力。决策树是一种非线性的分类器,如图表 2 的异或问题(横纵坐标 X1、X2 相同则分类为 1,不同则分类为 0),该问题在逻辑回归、线性核的支持向量机下无解,但

4、是使用决策树可以轻松图表2: 决策树解决非线性分类中的异或问题资料来源: HYPERLINK / 谨请参阅尾页重要声明及华泰证券股票和行业评级标准相较于传统的 GBDT 算法,XGBoost 主要在损失函数、正则化、切分点查找和并行化设计这些方面进行了改进,使得其计算上比常见工具包快 5 倍以上。图表 3 显示了 XGBoost 算法的流程,它与 GBDT 在数学上的主要不同之处在于训练每个弱学习器时的目标函数。图表3: XGBoost 算法流程示意资料来源:XGBoost, 由图表 3 可知 XGBoost 算法的基本步骤与 GBDT 类似,下面主要阐述 XGBoost 的独特之处。在损失函

5、数的设计上,XGBoost 加入了正则项,用以控制模型复杂度,并且对损失函数做了二阶泰勒展开来近似。而传统的 GBDT 模型没有正则项,并且在优化时只用到了一阶导数的信息。正则项的加入使得 XGBoost 模型有着较低的方差,不容易发生过拟合。在计算信息增益选取最佳切分点时,XGBoost 不是使用传统的 Gini 增益,而是利用图表 4 的公式来做评价指标。值得注意的是引入分割不一定会使目标函数减小,因为目标函数中还有对引入新叶子的惩罚项,而优化这个目标对应了树的剪枝,当引入分割带来的增益小于一个阈值时,可以剪掉这个分割。图表4: 信息增益的计算公式资料来源:XGBoost, HYPERLI

6、NK / 谨请参阅尾页重要声明及华泰证券股票和行业评级标准XGBoost 另外一个独特之处在于其处理缺失值的方法。模型将缺失值当作稀疏矩阵来处理,在寻找切分点的过程中,模型只对该列特征值当中非缺失的值进行遍历,通过这个技巧来减少为稀疏特征寻找切分点的时间开销。在实现上,模型会分别处理将缺失的特征值样本分配到左叶子结点和右叶子结点的两种情形,计算增益后选择增益大的方向进行分裂。XGBoost 还借鉴了随机森林的做法,支持列采样,即在选取切分点时只在部分特征中进行筛选,这样不仅能降低过拟合,还能减少计算时间。XGBoost 还支持并行,但是 XGBoost 的并行不是指能够并行地训练决策树,而是在

7、处理特征的层面上实现并行。我们知道,训练决策树最耗时的一步就是对各个特征的值进行排序(为了确定最佳切分点)并计算信息增益,XGBoost 对于各个特征的信息增益计算就可以在多线程中进行。Stacking 简介Stacking 是一种常见的集成学习框架。一般来说,Stacking 将训练一个多层(一般是两层,本文中默认两层)的模型结构,第一层(也叫学习层)包含 n 个不同的模型,将得到的预测结果合并为新的特征集,并作为下一层模型的输入,由下一层模型再次根据对应的数据标签进行训练,得到一个完整的框架。简单的示意图如下:图表5: Stacking 集成学习流程示意图资料来源: 通常情况下,Stack

8、ing 中第一层的模型会使用拟合度高的模型,以追求对训练数据的充分学习(如 XGBoost、神经网络、SVM 等)。由于不同的模型在原理上和训练集上有所差别, 第一层模型可以认为是从原始数据中自动提取有效特征的过程。第一层模型中,由于使用了复杂的非线性变化提取特征,更易产生过拟合的情况。为了降低过拟合的风险,第二层模型倾向于使用简单的模型,例如逻辑回归、Lasso 回归等广义线性模型。从以上分析可以看出,Stacking 能够成功的关键在于第一层模型能针对原始训练数据得出有差异性(相关性低)且预测能力好的输出值,这样通过第二层模型进一步学习后,能够在多个第一层模型中取长补短,提升预测的准确度和

9、稳定性。 HYPERLINK / 谨请参阅尾页重要声明及华泰证券股票和行业评级标准机器学习选股模型测试流程和测试结果测试流程图表6: 机器学习选股模型构建示意图数据获取特征和标签提取特征预处理训练集和交叉验证集合成模型评价样本外测试,组交叉验证样本内训练合优化构建组合调整参数资料来源: 机器学习选股模型的构建方法包含下列步骤:数据获取:股票池:全 A 股。剔除 ST 股票,剔除每个截面期下一交易日停牌的股票,剔除上市 3 个月内的股票,每只股票视作一个样本。回测区间:2011 年 1 月 31 日至 2019 年 9 月 30 日,月度滚动回测。特征和标签提取:每个自然月的最后一个交易日,计算

10、图表 7 中 231 个因子暴露度, 作为样本的原始特征;计算下个自然月的个股超额收益和信息比率(以中证 500 指数为基准),作为样本的标签。特征预处理:中位数去极值:设第 T 期某因子在所有个股上的暴露度序列为,为该序列中位数,1为序列| |的中位数,则将序列中所有大于 + 51的数重设为 + 51,将序列中所有小于 51的数重设为 51;行业市值中性化:将填充缺失值后的因子暴露度对行业哑变量和取对数后的市值做线性回归,取残差作为新的因子暴露度。标准化:将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差, 得到一个新的近似服从N(0,1)分布的序列。训练集和交叉验证集数据处理:直

11、接将样本合并成为样本内数据,按 90%和 10%的比例划分训练集和交叉验证集。样本内训练:训练两个模型:XGBoost,模型输入为 231 个因子,训练目标为下个自然月的个股超额收益(以中证 500 指数为基准)。Stacking:包含两个 XGBoost 基模型,两个模型输入都为 231 个因子,训练目标分别为下个自然月的个股超额收益和信息比率(以中证 500 指数为基准),再将两个基模型集成。交叉验证调整参数:模型训练完成后,使用模型对交叉验证集进行预测。选取交叉验证集 MSE 最小的一组参数作为模型的最优参数。样本外测试,组合优化构建组合:确定最优参数后,以 T 月月末截面期所有样本预处

12、理后的特征作为模型的输入,得到每个样本的预测值(),将预测值视作合成后的因子。然后使用组合优化模型得到 T 月月末截面期的股票权重。进行组合优化时,优化目标为最大化预期收益,约束条件为相对于中证 500 控制行业市值中性,个股主动权重偏离上限为 1%。模型评价:构建选股组合评价模型。 HYPERLINK / 资料来源:Wind,朝阳 HYPERLINK / 谨请参阅尾页重要声明及华泰证券股票和行业评级标准图表7: 选股模型中涉及的部分因子及其描述大类因子示例因子因子数目估值EP、BP、SP、DP 等8成长营业收入同比增长率、净利润同比增长率、经营性现金流同比增长率、ROE 同比增长率4财务质量

13、ROE、ROA、毛利率等92杠杆资产负债率、现金比率、流动比率等6市值对数总市值1动量反转HAlpha(个股 60 个月收益与上证综指回归的截距项) return_Nd(个股最近 N 日收益率)wgt_return_Nd(个股最近 N 日内用每日换手率乘以每日收益率求算术平均值) exp_wgt_return_Nd(个股最近 N 日内用每日换手率乘以函数 exp(-x_i/N/4)再乘以每日收益率求算术平均值,x_i 为该日距离截面日的交易日的个数) N=5,10,20,60,120,24019波动率std_FF3factor_Nd( 特 质 波 动 率 ) std_Nd(个股最近 N 日的日

14、收益率序列标准差) N=5,10,20,60,120,24012换手率turn_Nd(个股最近 N 日内日均换手率)bias_turn_Nd(个股最近 N 日内日均换手率除以最近 2 年内日均换手率)N=5,10,20,60,120,24012股价股价取对数1betaBeta(个股 60 个月收益与上证综指回归的 beta)1一致预期Wind 一致预期评级、目标价。朝阳永续一致预期 EP、一致预期BP、一致预期 ROE、一致预期 EPS 等18股东户均持股比例的同比增长率1传统技术因子MACD、RSI、PSY、BIAS 等6101 技术因子部分因子直接来自于 worldquant101 因子;

15、部分因子通过遗传规划挖掘而得,其中包含适合用于机器学习的非线性因子47资料来源:Wind,朝阳永续, 测试结果: XGBoost 和 Stacking 均有优秀的选股能力图表 8图表 10 展示了机器学习选股模型的测试结果,回测区间为 2011 年 1 月 31 日至2019 年 9 月 30 日,月频调仓,交易成本为双边千分之四。可以看出,机器学习构建的选股模型长期来看相对中证 500 具有稳定的超额收益,Stacking 由于进行了模型集成,相比XGBoost 表现更好。图表8: 机器学习选股模型回测净值(全 A 选股,中证 500 行业市值中性)6 XGBoost净值Stacking净值

16、5432102011-022012-022013-022014-022015-022016-022017-022018-022019-02永续, 图表9: 机器学习选股模型回测超额收益(全 A 选股,中证 500 行业市值中性)XGBoost超额收益回撤(右轴)Stacking超额收益回撤(右轴) XGBoost累积超额收益(左轴) Stacking累积超额收(左轴)350%5%250%3%150%1%50%2011-01-50%2016-012017-012018-012019-01-1% HYPERLINK / 谨请参阅尾页重要声明及华泰证券股票和行业评级标准2012-012013-012

17、014-012015-01-150%-3%-250%-350%-5%资料来源:Wind,朝阳永续, 图表10: 机器学习选股模型回测绩效(全 A 选股,中证 500 行业市值中性)模型名称年化收益率年化波动率夏普比率最大回撤年化超额收益率年化跟踪误差超额收益最大回撤信息比率Calmar比率相对基准月胜率月均双边换手率XGBoost19.05%25.47%0.7541.42%17.17%4.80%3.88%3.574.4278.85%115.82%Stacking20.27%25.48%0.8042.26%18.36%4.96%4.74%3.703.8783.65%116.17%中证 5001.

18、14%26.76%0.0465.20%资料来源:Wind,朝阳永续, HYPERLINK / 谨请参阅尾页重要声明及华泰证券股票和行业评级标准信达澳银量化多因子混合基金的特点:AI+量化投资基金简介基本信息信达澳银量化多因子混合基金(LOF)是一种上市型开放式基金,产品主要成分为股票, 占基金资产的 60%-95%,选股主要利用的是量化多因子模型。图表 11 介绍了信达澳银量化多因子混合型证券投资基金(LOF)的产品要素:图表11: 信达澳银量化多因子混合型证券投资基金(LOF)产品要素产品信达澳银量化多因子混合型证券投资基金(LOF)产品代码166107.OF投资比例本基金的投资组合比例为股

19、票资产占基金资产的比例为 60%-95%;每个交易日日终在扣除股指期货合约需缴纳的交易保证金后,现金和到期日在一年以内的政府债券的投资比例不低于基金资产净值的 5%;其中现金不包括结算备付金 存出保证金、应收申购款等。产品特点量化多因子模型利用长期积累并最新扩展的大数据和非结构化数据库,利用 AI(人工智能)技术科学地考虑了大量的各类信息,包括来自市场各类投资者、公司各类报表、分析师预测等等多方的信息, 使用决策树、随机森林、神经网络为主的深度学习等非线性机器学习方法来选择非线性因子,构建具有线性因子和非线性因子的综合量化多因子模型。比较基准中证 500 指数收益率*95%+银行活期存款利率(

20、税后)*5%托管行中国银行股份有限公司基金经理王咏辉资料来源:信达澳银基金, 产品费用信息图表 12 介绍了信达澳银量化多因子混合型证券投资基金(LOF)的费用信息:图表12: 产品费用信息费率结构认购费认购金额(M)A 类认购费率C 类认购费率M50 万元1.2%050 万元M200 万元0.8%0200 万元M500 万元0.6%0M500 万元每笔 1000 元0申购费申购金额(M)A 类申购费率C 类申购费率M50 万元1.5%050 万元M200 万元1.0%0200 万元M500 万元0.8%0M500 万元每笔 1000 元0赎回费份额持有时间(T)A 类赎回费率C 类赎回费率T

21、7 日1.5%1.5%7 日T1 年0.5%01 年M基金份额净值(申购日)+申购费用+卖出佣金时,投资者可通过选择“场内申购”基金份额后(T+2 个工作日)再“场内卖出”份额实现套利。当市场价格基金份额净值(赎回当日)-赎回费用-买入出佣金时,投资者可通过“场 内买入” HYPERLINK / 谨请参阅尾页重要声明及华泰证券股票和行业评级标准基金份额后(T+1 个工作日)再“场内赎回”份额实现套利。交易方便:LOF 基金可以让投资者像买卖股票或封闭式基金一样在二级市场进行交易,方便投资者更快的把握行业轮动与市场择时。参与科创板投资:相比较普通投资者严格的科创板股票投资准入标准,LOF 基金可

22、以方便投资者更加积极的参与到科创板投资机会。信达澳银基金管理团队介绍信达澳银基金于 2006 年 6 月 5 日成立,是国内首家由国有资产管理公司控股,也是澳洲唯一在中国合资设立的基金管理有限公司。截止 2018 年 12 月 31 日,公司共管理 21 只公募产品,产品覆盖股票、指数、量化、债券、货币。资产管理总规模 274.88 亿元,其中公募基金总规模 142.69 亿元,专户总规模 132.19 亿元。信达澳银的公募投资研究团队共有 34 人,共拥有基金经理 10 人。截至 2019 年 9 月 30 日,信达澳银基金旗下权益类基金以今年前三季度 42.23%的绝对收益率,位列同类排名

23、6/126;以最近三年 28.11%的绝对收益率,位列同类排名 11/99。另外,信达澳银的智能量化团队发展迅速,团队首创了量化 LOF+科创网下申购的投资策略,采用主动量化模型在沪深 A 股以及科创板股票中择优投资,并在不断推广量化多因子 LOF、量化先锋 LOF、量化科技龙头 LOF 和量化新经济 LOF 等产品。信达澳银量化多因子混合基金(LOF)拟任基金经理为王咏辉先生。王咏辉先生是英国牛 津大学工程科学本科,牛津大学计算机科学硕士,现担任信达澳银基金副总经理兼权益投资总部总监、智能量化与资产配置总部总监,21 年证券基金从业经验。自 1998 起曾任职于伦敦摩根大通投资基金管理公司、HSBC、BarclaysGlobalInvestor、BarclaysCap

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论