版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
江海证券有限公司及其关联机构在法律许可的情况下可能与本报告所分析的企业存在业务关系,并且继续寻求发展这些关系。因此,投资者应当考虑到本公司可能存在影响本报告客观性的利益冲突,不应视本报告为投资决策的唯一因素。金融工程研究报告股票多因子系列(股票多因子系列(三机器学习在多1.金融工程深度报告:股票多因子系列(一量价类因子实测—基2.金融工程深度报告:股票多因子系列(二基本面类因子实测—3.金融工程深度报告:SmartBeta系列(一红利指数增强策略初4.金融工程深度报告:衍生品量化系列(一可转债多因子模型◆机器学习主要是指让计算机从观测数据(样本)中学习、归纳、总◆过拟合问题成为机器学习算法的主要痛点之一。为了对抗过拟合,常见的算法◆我们简要介绍了监督学习类别下的线性回归模型、逻辑回归模型、支持向量机模型以及集成学习模型。针对以上模型,我们从聚宽数据库筛选出基础类、情绪行滚动训练,并将模型的输出预测值作为因子并进行分层回测检组合年化收益10.35%,夏普率1.96合对比来看,高斯核支持向量机表现最好,同时,非线性模型在回撤控制方面普◆可以发现,滚动训练的模式下,线性回归模型本身已经非常优秀,在加入惩罚项后并不能提升模型效果反而带来“负优化”,各类非线性模型也很难战胜线性回练集长,无法覆盖市场完整的经济周期,某些算法可能无法充分发挥学习能力的优势;2)我们分层回测时每组的持仓股票数过多,每组占到全市场股票数的缩减收益也会带来高昂的持仓成本;3)在市场风格变动较小的时期,即因子动量效应存在的时间里,线性模型已然是最优解无需再运用更复杂的模型,正如奥本报告可能存在数据缺失、数据错误、数据不及时、模型处理错误等风险。本报告仅从金融工程角度,对可转债市场数据进行统计、分析,不构成对市场指数、行业或个股进行预测或推荐。本报告涉及的策略搭建方法仅供参考,不构成任何投资建议。本报告回测结果仅依赖于过去公开数据,不代表未来收益,随着市场变化,所测试的结果与研究结论可能存在失效的风险。敬请参阅最后一页之免责条款 4 4 5 6 7 7 9 4 5 6 7 9 敬请参阅最后一页之免责条款 敬请参阅最后一页之免责条款 敬请参阅最后一页之免责条款我们人类作为自然界中最具智慧的生物,很大程度上依赖于我们有着超凡的学习能力,这种学习能力赋予我们能快速地学会直立、行走、奔跑,掌握语言系统、各类知识体系以及锻炼培养思想、情操。对于人类来听觉、视觉、触觉、嗅觉、味觉我们可以从自然界中接收各类信号,并基于我们所学到的知识对信号所产生的结果做出判断或给出预测。例如,当天空乌云密布,我们预计不久将会降雨进而带伞出门;当时段处于上下班高峰期时,我们预计道路拥堵而选择地铁出行;当一碗热气腾腾的辣椒炒肉端上菜定样本上通过某种学习算法得到最拟合样本的映射关系,在接收到新信号后,图1、机器学习系统示意图其中,机器学习算法的分类方式有许多种,按照不同的拟合函数可将机器学习算法分为线性模型与非线性模型;按照拟合函数是否有具体形式可将机器学习算法分为参数模型与非参数模型。一般来说,可将机器学习算法分敬请参阅最后一页之免责条款u监督学习:对于某个样本集,如果学习算法的目的是寻找特征向量x与对应的标签y之间的映射关系,其中标签y有着监督与指导学习过程的作用,则称之为监督学习。监督学习中按照标签y的变量类型可进一步分为分类算法(标签y为离散变量)u无监督学习:与监督学习不同,无监督学习样本集中不包含标签y,期望通过在特征向量x上学习到某种规律或模式。u半监督学习:半监督学习是一种介于监督学习与无监督学习之间的学习方法,其利用少量有标签的数据和大量无标签的数据来训练,中的智能体(agent)通过与环境互动来学习,环境会根据智能体的动作和当前状态给出一个奖励值,智能体的学习目标图2、常见机器学习算法从预测的角度来说,我们自然希望模型给出的预测值与真实值的差距越临着过拟合(overfitting)的风险,也就是说模型将训练样本的一学习到了,而忽略了数据背后的一般性规律,敬请参阅最后一页之免责条款图3、K折交叉验证示意图金融数据一般为信噪比较低的时间序列,由于其包含大量“噪音”值,导致机器学习算法很容易拟合样本内的“噪音”从而产生过拟合的问题此对抗过拟合对于训练金融数据的学习器尤其重要。然而,由于金融数据为则很好的规避了这一点,具体来说,随着时间的推进,我们仅使用当下能获敬请参阅最后一页之免责条款图4、时序交叉验证示意图经典的多因子模型为个股截面上的因子暴露于下期收益率的线性回归模型,本质上就是一种监督学习过程,因此本节主要围绕监督学习模型Y=f(X)=βTX+ε=β1x1+β2x2+⋯+βnxn+ε其中,回归系数βT=(β1,β2,…,βn)可以通过最小二乘法(OLS)求出其=(XTX)−1XTY其背后的思想是,我们希望找到一条直线,使得样本内所有的点到直线β(0LS)=arJmin(f(xi)−yi)2还有一个前提条件是(XTX)−1存在,即(XTX)为满秩矩阵,而现实任务中存敬请参阅最后一页之免责条款在变量个数远大于样本个数高维数据,会导致(XTX)不满秩,其逆矩阵不存其中λ为调节参数,用以控制惩罚力度的大小。若是将惩罚项改为回归两者的区别在于,岭回归的约束集为圆,残差平方和等高线只会与其相切于圆周上,而不会与坐标轴相切,因此只是将所有的回归系数收缩而不会但有时候,如果某些变量相关性较高时,Lasso可能会随意删除某些变量,敬请参阅最后一页之免责条款单调可微的函数将真实的标签y与线性回归所得的预测值关联起来即可。也就是找到一个合适的联接函数使得0≤y≤1,如果使用逻辑分布(logisticz=βTX+ε敬请参阅最后一页之免责条款通过极大似然法即可求出得出逻辑回归模型中的回归系数,再将新的特样本点到超平面的距离最远,进而达到将数据区分为两类的目的,这样的样f(X)=βTX+α=0敬请参阅最后一页之免责条款对于所有正例(yi=1)都有f(x)≥1(图中菱形对于所有正例 yif(x)≥1。因此,想要找到间隔最大的分离超平面,等价于以下优化问题:s.tyif(x)≥1,i=1,2,3,…以上情况建立在样本集线性可分的情况下,对于线性不可分的样本,可以通过维度转换将原始特征空间映射到一个更高纬的特征空间,使得样本线性可分。而这样的映射函数则称之为核函数(kernelfunction常见的核函u线性核:K(xi,xj)=xiTxju多项式核:K(xi,xj)=(1+YxiTxj)d,d>1u高斯核:K(xi,xj)=exp(−Y‖xi−xj‖2)u拉普拉斯核:K(xi,xj)=exp(−Y‖xi−xj‖⬚)uSigmoid核:K(xi,xj)=tanℎ(βxiTxj+θ)⬚,β>0,θ<0敬请参阅最后一页之免责条款集成学习的基本思想是,通过组合预测效果较差的弱学习器(weaklearner)形成一个强学习器(stronglearner)以达到增强预测效果的目的。其采用一种自上而下的分裂决策模式对数据进行分类。具体来说,从树的顶部出发,只需在每个叶节点处回答相应的是或否问题,即可到达终端类别节袋装法是一种并行的集成学习算法,其采用有放回的再n个学习器的预测结果进行平均得到最终的预测结果;对于分类问题,采用在使用袋装法时,我们希望弱学习器之间的关联性越低越好,这样模型习器,使用袋装法在决策树每次分裂时,仅随机挑选所有变量中的一部分变首先训练一个弱学习器,得到训练后的残差或是错误分类,后续弱学习器都针对前序模型的错误进行专门训练,根据前序模型的结果,来调整训练样本敬请参阅最后一页之免责条款敬请参阅最后一页之免责条款提升决策树算法(GradientBoostingDecisionTree)之一,其在梯度提升本节我们从实践出发测试不同机器学习方法在多因子模型上的效果。具的基础类、情绪类、成长类、动量类、每股指标类、质量类、风险敬请参阅最后一页之免责条款MAD=median(|xi−median(xi)|)暴露的影响,我们对输入因子进行行业市值中性化(使用中信fnew=fraw−(β1log(fcap)+β2fInd)对于回归算法:将股票池收益率序列转化为月度数据,对于第对于分类算法:将股票池收益率序列转化为月度数据,对于第行超参数的调整,对于训练时间开销较大的模型则使用人为设定超敬请参阅最后一页之免责条款对于分类算法,可得到观测值到分离超平面的“符号距离”或是信心得分,在此处,该值越大表明越有可能是正例(涨跌幅前20%层检验的方法探究其有效性。具体来说,我们按照输出值的大小将指标值类1111111敬请参阅最后一页之免责条款retained_earnings盈余11类AR=∑−26(ℎigℎi−openi)/∑−26(openi−lowi)BR=∑−26(ℎigℎi−closei−1)/∑−26(closei−1−lowi)类11111))1111类Aroon(上升)=[(25-最高价后的天数)/25]*1Aroon(下降)=[(25-最低价后的天数)/25]*11梅斯线,MASS(N1=9,N2=251敬请参阅最后一页之免责条款量类1111111111类1111111111类1类11敬请参阅最后一页之免责条款11111111类1111111111我们首先从线性回归模型出发,检验线性回归、岭回归、Lasso回归以及弹性网回归模型的效果,同时多空组合的超额指标以中证全指为基准指数进行计算。具体结果如下所示,不难发现,线性回归本身已具有出色的选股的线性回归,表明正则化处理并不能提升模型的选股能力。原因可能是,我们在进行训练前已经对因子进行了正交化处理,导致进一步收缩回归系数的意义不大,且约束某些因子的回归系数可能影响因子与收益率序列的潜在关系。具体体现在岭回归、Lasso回归以及弹性网回归都出现过最后一组表现敬请参阅最后一页之免责条款撤,表明未来不是过去的简单重复,在发生重大逻辑转变的时候,线性模型2011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2图13、线性模型分层回测净值多空组合回撤(右轴)多空组合净值多空组合超额净值43210 第10组第9组第8组第7组第6组 86422011/22011/82012/22012/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表3、线性模型因子检验结果敬请参阅最后一页之免责条款图16、岭回归模型多空组合净值图16、岭回归模型多空组合净值 998765432102011/82012/22011/82012/22013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/82022/22022/82023/22023/82024/22011/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表5、岭回归模型因子检验结果敬请参阅最后一页之免责条款图18、Lasso模型多空组合净值 第10组图18、Lasso模型多空组合净值 第10组第9组第8组第7组第6组 第5组第4组——第3组第2组第1组2011/82012/22013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/82022/22022/82023/22023/82024/22011/82012/22013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/82022/22022/82023/22023/82024/298765432102011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表7、Lasso模型因子检验结果敬请参阅最后一页之免责条款图20、弹性网模型多空组合净值图19、图20、弹性网模型多空组合净值10864202011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表9、弹性网模型因子检验结果TOR敬请参阅最后一页之免责条款线性支持向量机也是广义线性模型中的一种,其采用线性核作为核函数。在训练过程中,支持向量机模型中使用c≥0作为控制惩罚力度的超参数,c越大表明越不容忍模型犯错,则正则化的程度越低,模型越容易过拟合,反之亦然。由于线性支持向量机的训练开销较小,因此我们使用网格搜索的方法滚动确定最优惩罚力度,c的网格搜索范围为{1e-5,1e-4,…,1}。从回测结果可以看出,线性支持向量机的结果与普通线性回归类似,分层单调性与多空组合表现都比较好,但效果也不如普通线性回归,其较线性图21、线性支持向量机模型分层回测净值 图21、线性支持向量机模型分层回测净值 43.582.586641.542200.502011/82012/22011/82012/22013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/82022/22022/82023/22023/82024/230.0%25.0%20.0%15.0%10.0%5.0%0.0%多空组合回撤(右轴)多空组合净值30.0%25.0%20.0%15.0%10.0%5.0%0.0%2011/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表11、线性支持向量机模型因子检验结果敬请参阅最后一页之免责条款TOR敬请参阅最后一页之免责条款逻辑回归的表现与线性支持向量机较为相近,表现稍弱于线性支持向量图24、逻辑回归模型多空组合净值图23、图24、逻辑回归模型多空组合净值第10组第5组第10组第5组第9组第4组第8组第3组第7组第2组第6组第1组101088664422002011/82012/22012/82011/82012/22012/82013/22014/22014/82015/22015/82016/22016/82017/22018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/22011/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表14、逻辑回归模型因子检验结果R敬请参阅最后一页之免责条款集成学习中包含的超参数较多,其中随机森林涉及到的超参数有:n_estimators(决策树的数量)、max_features(分裂变量的最大数目n_estimators=300,其余参数使用网格搜索滚动调优max_depth:[3,4,5,6]、但当市场风格转变时,可以快速捕捉因子与收益率之间的非线性关系,进而回撤水平都远低于线性模型,体现了集成学习模型的强大学习能力。图25、随机森林模型分层回测净值第9组第4组第8组第第9组第4组第8组第3组第7组第2组第6组第1组9876543210图26、随机森林模型多空组合净值2.5210.502010/12010/72011/12011/72012/12012/72013/12013/72014/12014/72015/12015/72016/12016/72017/12017/72010/12010/72011/12011/72012/12012/72013/12013/72014/12014/72015/12015/72016/12016/72017/12017/72018/12018/72019/12019/72020/12020/72021/12021/72022/12022/72023/12023/72024/12024/712.0%10.0%8.0%6.0%4.0%2.0%0.0%敬请参阅最后一页之免责条款表16、随机森林模型因子检验结果_图28、XGBoost模型多空组合净值图28、XGBoost模型多空组合净值987698765432102011/22011/82012/22012/82011/22011/82012/22012/82013/22013/82014/82015/22015/82016/22016/82017/22017/82018/22019/22019/82020/22021/22021/82022/22022/82023/82024/22011/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2敬请参阅最后一页之免责条款表18、XGBoost模型因子检验结果R图30、LightGBM模型多空组合净值多空组合回撤(右轴)多空组合净值多空组合超额净值图30、LightGBM模型多空组合净值多空组合回撤(右轴)多空组合净值多空组合超额净值 987654321032102011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2敬请参阅最后一页之免责条款表20、LightGBM模型因子检验结果除线性核支持向量机外,我们还测试了多项式核、高斯核、Sigmoid核支持向量机的多因子组合效果,非线性核中涉及到两个超参数c与gamma,我们同样采取网格搜索地方式动态调参,网格搜索地范围为{c:[1e-4,1e-3,…,1],gamma:[1e-4,1e-3,…,1]}。敬请参阅最后一页之免责条款图32、多项式核支持向量机模型多空组合净值图31、多项式核支持向量机模型分层回测净值图32、多项式核支持向量机模型多空组合净值多空组合回撤(右轴)多空组合净值多空组合超额净值8765432103210多空组合回撤(右轴)多空组合净值多空组合超额净值87654321032102011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/22011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表22、多项式核支持向量机模型因子检验结果R敬请参阅最后一页之免责条款图34、高斯核支持向量机模型多空组合净值图33、高斯核支持向量机模型分层回测净值图34、高斯核支持向量机模型多空组合净值多空组合回撤(右轴)多空组合净值多空组合超额净值54321086420多空组合回撤(右轴)多空组合净值多空组合超额净值543210864202011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表24、高斯核支持向量机模型因子检验结果敬请参阅最后一页之免责条款图35、Sigmoid核支持向量机模型分层回测净值6543210图36、Sigmoid核支持向量机模型多空组合净值2102011/22011/82011/22011/82012/22012/82013/22013/82014/22014/82015/22015/82016/22016/82017/22017/82018/22018/82019/22019/82020/22020/82021/22021/82022/22022/82023/22023/82024/2表26、Sigmoid核支持向量机模型因子检验结果敬请参阅最后一页之免责条款2综上,对所有线性与非线性模型进行对比后可知,普通线性回归模型为线性模型中最优,纯多头年化收益20.65%,多空组合年化收益10.35%,夏市场风格无明显变化时,线性模型具有优势,而市场风格发生突变时,线性模型往往无法及时调整而导致回撤较大。非线性模型则不同,在市场环境变2敬请参阅最后一页之免责条款等各类智能大模型层出不穷,人工智能已经渐渐影响到人们生活的方方面面。这一包含大量信号与数据的领域中有着天然的适配环境。基于此,本文从传统的机器学习算法出发,介绍了其分类以及各个分类下各算法的简要原理,测的方法。主要可分为:监督学习(supervisedlearning)、无监督学习过拟合问题成为机器学习算法的主要痛点之一。为了对抗过拟合,常见接着,我们简要介绍了监督学习类别下的线性回归模型、逻辑回支持向量机模型以及集成学习模型。针对以上模型,我们从聚宽数据库筛选出基础类、情绪类、成长类、动量类、每股指标类、质量类、风险类、风格类、技术指标类共计89个因子作为模型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版四年级上册数学第六单元《除数是两位数的除法》测试卷审定版
- 食品供货协议书
- 认证服务合同服务说明
- 设备授权经销合同案例
- 设备采购方式合同
- 诚信纺织品采购协议
- 语文要素教学的创新思路
- 财务担保保函
- 购车协议合同注意事项
- 购销合同买方权益分析
- 2024-2025北师大版九年级(上)第六单元 反比例函数 单元测试卷(含答案)
- 2024年全国职业院校技能大赛中职(大数据应用与服务赛项)考试题库(含答案)
- 电力工程质量监督工作总结
- GB/T 9445-2024无损检测人员资格鉴定与认证
- 北京市房山区2024-2025学年八年级上学期期中考试语文试卷
- 2023年年北京市各区初三语文一模分类试题汇编 - 议论文
- 瑜伽馆会员管理与服务手册
- 武汉大学专业技术支撑岗位招聘 考试试卷及答案
- 《飞越疯人院》电影赏析
- 高考英语听力指导课
- 人教鄂教版五年级上册科学复习资料
评论
0/150
提交评论