版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金股数据库20版本金股数据库2.0版本相较1.0版本进行了大幅改良。首先,2.0版本数据库大幅增加了字段数量。在1.0版本数据库基础上,添加了行业间可比的决策成功率、推荐赔率、推荐波动率、推荐夏普比、剔除前五个交易日的推荐成功率、月内最高价到推荐日的天数等字段。2.0版本数据库以更加立体,公平的视角对推荐行了刻画。除了字段数量的提升,数据库数据量也大幅增加,由1.46万行数据增加至2.92万行数据。金股数据库2.0版本上线后将定期更新,数据量也会进一步得到提升。金股数据库1.0版本待完善1.0版本数据库有较大的完善空间。首先,数据库的字段不够丰富,定量刻画推荐的角度较单一。1.0版本数据库共有32个字段。其中4个用于定量刻画推荐,分别是统计期推荐成功率、近一年推荐成功率、计期推荐产生超额概率、近一年推荐产生超额概率。刻画推荐的指标较少。其次,推荐成功率的刻画,可能存在行业偏误。行业作为整体,资产价格上涨时,业内股票的推荐容易成功。经济发展阶段、行业景气度和投资者风险偏好等因素,导致不同行业资产价格走势长时间不同步,从而导致行业间推荐成功率可比程度低。在因子投资实践中,一般也需要对资产进行行业中性化处理。综上,对1.0版本数据库的完善势在必行。金股数据库2.0版本更新针对1.0版本数据库的不足,2.0版本数据库做了以下几点尝试。克服行业间不可比引入行业公平决策成功率算法,尝试克服行业间推荐成功率不可比的缺陷若当月分析师推荐金股,则以推荐的金股的涨跌判定决策是否成功。若当月分析师不推荐金股,则获取分析师覆盖行业的申万一级行业涨跌幅,若行业跌,判定分析师不推荐金股的决策成功,若行业上涨,反之。刻画行为信息在胜率算法基础上,引入赔率算法,得出推荐的回报期望。考虑到部分券商金股推荐会有1~2天的滞后,增加了剔除每月前5个交易日后收率、剔除前5个交易日后胜率的算法。引入波动率和夏普比以刻画推荐的风险收益特征。数据库指标算法及描述统计金股数据库2.0详细字段如表1所示:表1:金股数据库20版本字段表序号字段名称序号字段名称1机构名称32绝对视近1_a分Aha2推荐月份33绝对视近1_a分Ba3证券代码34近1_推成功率4证券简称35近1_产超额量5上一月跌()36近1_未生超数量6当月涨幅(37近1_产超额率7分析师38行业公近1_a分Aha8所属申一级业39行业公近1_a分Ba9申万一行业数40行业公近1_决成功率10当月申一级跌()41当月金组合跌()11合成后万一涨跌()42统计_推成功_含当月12当月推票43统计_推产生额概_含月13未推_决成功44行业公_计_决成功_含当月14未推_决失败45绝对视近1_推成功_含当月15推票成功46近1_产超额率不含月16推票失败47行业公近1_决成功_含当月17产生超额48统计_月涨跌()18未产生额49统计_月动率19统计_产超额量50统计_月普比20统计_未生超数量51本次推_21行业公_月成功52本次推_高价推荐天数22行业公_月失败53本次推_度收率剔前5易日23未推_统期Ba布la54统计_赔率未推_统期Ba布ea55统计_最价距荐日数25推票统期a分Aha56统计_推成功_除前5交日26推票统期a分Ba57统计_月涨跌(_除前5交易日27统计_推成功率58统计_月普_不当月28统计_推产生额概率59统计_赔_含当月29行业公_计期ea分_pa60统计_最价距荐日数不当月30行业公_计期ea分_ta61统计_推成功_除前5交日_含当月31统计_行公_决成功率62统计_月涨跌(_除前5交易_不当月资料来:、指标计算方法数据库关键指标算法如下。当月金股组合涨跌
∑𝑁
𝑖𝑟=𝑖=0𝑁(rolioer)是分析师j在月份t推荐的N股的平均涨跌幅,𝑖为金股i的当月涨跌幅。合成后申万一级行业涨跌幅NWL1tn=∑i0
𝑐𝑢𝑛𝑖𝐶
∗𝑆𝑖L1ern是分析师j在月份t合成后的申万一级行业涨跌幅。C是分析近12个月累计金股推荐个数,𝑐𝑢𝑛𝑖是分析师j近12个月申万一级行业𝑖内股票的累计推荐个数,𝑆𝑖是月份t的申万一级行业𝑖的涨跌幅。统计期、近一年推荐成功率分析师在时间周期内推荐成功次数除以总推荐次数。若推荐的金股当月涨幅大于0,判定为成功,反之失败。统计期、近一年推荐产生超额概率分析师在时间周期内推荐产生超额的次数除以总推荐次数。若推荐的金股当月涨跌于金股所属申万一级行业的涨跌,判定为成功,反之失败。统计期、近一年行业公平决策成功率分析师在时间周期内决策成功次数除以总决策次数。若当月分析师推荐金股,金股当月涨幅大于0,则判定决策成功,反之,判定决策失败。若当月分析师不推荐金股,则获取分析师覆盖行业的合成后申万一级行业涨跌幅,行业下跌,判定分析师不推荐金股的决策成功,反之判定失败。月波动率sd=
√∑(𝑖n−1𝑖是金股当月收益率,̅是分析师j统计期内推荐金股的平均月收益率,𝑛是分析师j统计期内累计推荐金股的数量。月夏普比𝑟𝑝𝑜=
̅�𝑡𝑑̅是分析师j统计期内推荐金股的平均月收益率,𝑓是无风险收益率,𝑡𝑑是分析师j推荐金股收益率的月波动率。推荐赔率使用金股上月末收盘价作为基准,计算两个收益率:推荐当月的金股月度收益率𝑇;推荐当月,金股月内最高收盘价所对应的收益率𝑥,𝑇。推荐赔率=T−mx,T。最高价距推荐日天数被推荐金股月内最高收盘价交易日距离当月第一个交易日的天数。月度收益率_剔除前5交易日剔除每个月前5个交易日后得到的金股收益率。指标描述性统计图1:数据库关键指标分布及描述性统计资料来:、金股增强组合策略获得多个维度的刻画指标后,本文使用IC动量挖掘、OLS线性拟合、遗传规划和神经网络模型尝试提取各指标有效信息,合成分析师推荐因子。所使用的1个基础指标如所示。表2:合成分析师推荐因子使用的基础指标序号指标序号指标指标1统计期_推荐成功率指标7统计期_收益率_剔除前5交日指标2统计期_推荐产生超额概率指标8统计期_月夏普比指标3统计期_行业公平_决策成功率指标9近1年_推荐成功率指标4统计期_赔率指标10近1年_产生超额概率指标5统计期_最高价距推荐日天数指标11近1年_行业公_决策成功率指标6统计期_推荐成功率_剔除前5交易日资料来:IC动量挖掘合成因子使用各基础指标与预期收益率的IC进行动量挖掘,动态合成分析师推荐因子入池条件:历史推荐次数大于等于7次的分析师所推荐的金股。调仓周期:月度调仓。C正向指标(C_Poitiv)因子组合构建方法:在t月末或+1月初进行如下计算。1)计算各分析师t月推荐的金股组合月收益率,得到𝑢𝑟𝑛𝑡序列;2)计算各分析师-1月的N个评价指标的数值,得到N个𝑛𝑑𝑐𝑡𝑜𝑡−1,𝑛序列;3)使用斯皮尔曼相关秩,分别计算𝑡𝑢𝑟𝑛𝑡序列与N个𝑛𝑑𝑐𝑡𝑜𝑡−1,𝑛序列的相关系数,得到N个指标与预期收益率的I;保留与预期收益率IC为正的J个指标,舍弃IC为负的指标;获取+1月初推荐金股的分析师名单,计算各分析师的J个指标百分位排序的均值,代表分析师+1月分析师的推荐因子;根据第5步计算出的分析师推荐因子,将分析师等分为5组,并持有相应的股,构建金股分组组合。2020年4月至202年1月末,I_oitive合成因子的分组回测净值走势,各组的月均收益率如图2所示。图2:I_Poive合成因子分组回、组间单调性资料来:、I_oitive合成因子的分组效果尚可,组间单调性较好。截止2022年1月末,第1组至第5组的累计净值为1.53,1.73,.67,196,21;月均收益率分别为1.53,1.92,1.82,238,2.9。I_oitive合成因子的IC表现如图3所示。图3:IC_Poive合成因子IC资料来:、I_oitive合成因子月均IC为0.026,IR为0.16,IC为正的月份占比为55。总体表现偏风险因子。C正向指标前6名(C_Pitive6)因子组合构建方法:在t月末或+1月初进行如下计算。4)计算各分析师t月推荐的金股组合月收益率,得到𝑢𝑟𝑛𝑡序列;5)计算各分析师-1月的N个评价指标的数值,得到N个𝑛𝑑𝑐𝑡𝑜𝑡−1,𝑛序列;6)使用斯皮尔曼相关秩,分别计算𝑡𝑢𝑟𝑛𝑡序列与N个𝑛𝑑𝑐𝑡𝑜𝑡−1,𝑛序列的相关系数,得到N个指标与预期收益率的I;保留与预期收益率IC为正且IC数值排名前6的指标;获取+1月初推荐金股的分析师名单,计算各分析师的6个指标百分位排序的均值,代表分析师+1月分析师的推荐因子;根据第5步计算出的分析师推荐因子,将分析师等分为5组,并持有相应的股,构建金股分组组合。2020年4月至202年1月末,I_oitive6合成因子的分组回测净值,各组的月均收益率如图4所示。图4:I_Poiv6合成因子分组回测、组间单调性资料来:、I_oitive6合成因子的分组效果尚可,组间单调性较好。截止2022年1月末,第1组至第5组的累计净值为1.59,1.64,.78,188,21;月均收益率分别为1.64,1.74,2.01,227,2.7。I_oitive6合成因子的IC表现如图5所示。图5:I_Poiv6合成因子IC资料来:、I_oitive6合成因子月均IC为0.023,IR为0.155,C为正的月份占比为55。总体表现偏风险因子。OLS合成因子使用预期收益率与各评价指标进行OLS回归,根据回归结果动态合成分析师推荐因子。入池条件:历史推荐次数大于等于7次的分析师所推荐的金股调仓周期:月度调仓。为筛选作为解释变量的指标,先计算各指标间的相关系数矩阵,挑选相关性较低的标纳入解释变量。表3:基础指标间相关系数矩阵指标1 指标2 指标3 指标4 指标5 指标6 指标7 指标8 指标9 指标10 指标11指标11005020707090605010808051003020901000100指标20209020310080809040705指标300010702001007030805030708指标4070209010807100401080808000704指标5031006指标6090804020305080610指标70609010004060509010508080810030700指标80100040300020003100408指标908010707030407041009指标100708000504050600080910指标1108资料来:、最终选择的解释变量为:统计期_推荐成功率_剔除前5交易日,统计期赔率,统计期月夏普比,近1年产生超额概率。因子组合构建方法:在t月末或+1月初进行如下计算。计算各分析师t月推荐的金股组合月收益率百分位排序,得到𝑢𝑟𝑛𝑡序列;计算各分析师-1月的4个评价指标的百分位排序,得到4个𝑛,𝑡1序列;3)使用𝑢𝑟𝑛𝑡序列作为被解释变量,4个𝑛𝑑𝑐𝑜𝑡1,𝑛序列作为解释变量,进行OLS回归,得到4个回归系数和1个截距项;4𝑢𝑟𝑛𝑡=0,𝑡1+∑𝑛,𝑡−1⋅𝑛,𝑡−1+𝜖𝑡−1𝑛1获取+1月初推荐金股的分析师名单,使用第3步得到的回归系数和截距项,算预估的分析师推荐金股的收益率百分位排序,作为分析师推荐因子;根据第4步计算出的分析师推荐因子,将分析师等分为5组,并持有相应的股,构建金股分组组合。2020年4月至202年1月末,LS合成因子的分组回测净值走势,各组的月均收益率如图6所示。图6:S合成因子分组回测、组间单调性料来源
LS合成因子的分组效果较差,组间单调性一般。截止2022年1月末,第1组至第5组的累计净值为1.45,1.5,1.73,147,1.2;月均收益率分别为1.36,1.76,.95,1.46,171。OLS合成因子的IC表现如图7所示。图7:LS合成因子IC资料来:、LS合成因子月均IC为0.00,IR为0.00,IC为正的月份占比为58。总体表现为风险因子。遗传规划挖掘因子把分析师推荐的金股组合按月收益率进行5分类,并将分类结果作为标签,将1个础评价指标作为特征。使用遗传规划(neticogramming,P)算法,挖掘特征表达式,使得标签和特征表达式间相关关系最强,并根据表达式计算分析师推荐因子。入池条件:历史推荐次数大于等于7次的分析师所推荐的金股调仓周期:月度调仓。基础算子(GP_aic)为了使挖掘出的特征表达式具有一定程度的可解释性,首先使用基础算子,构建G_basic模型。G_basic模型的超参数如表4所示。表4:_bc模型超参数超参数 值种群数量 3代世数量 20树深度 23层相关性量 斯皮尔相关秩交叉变概率 0oit异概率 001子树变概率 001点变异率 001算子 d,b,l,iv资料来:_basic模型挖掘出的特征表达式为:div(ub(0,1,ub(10,7))。统计期推荐成功率−近1年行业公平决策成功G_asic式=
近1年行业公平决策成功率−统计期月夏普比使用_basic表达式的计算结果作为分析师推荐因子的数值,并进行分组回测。2020年4月至2022年1月末,_basic合成因子的分组回测净值走势,各组的月均收益率如图8所示。图8:P_bc合成因子分组回测组间单调性资料来:、_basic合成因子的分组效果欠佳,组间单调性一般。截止2022年1月末,第1组至第5组的累计净值为1.64,1.56,1.0,1.85,.84月均收益率分别为1.71,1.7,2.03,213,2.6。_basic合成因子的IC表现如图9所示。图9:P_bc合成因子表达式IC资料来:、GP_basic合成因子月均IC为-0.008,IR为-0138,IC为正的月份占比为52。总体表现为风险因子。进阶算子(GPavad)GP_basic合成因子的表现欠佳。尝试在G-basic的基础上,引入更复杂的算子和更庞大的种群构建G_advanced模型。G_advanced模型的超参数如表5所示。表5:_dvnd模型超参数超参数 值种群数量 4代世数量 20树深度 23层相关性量 斯皮尔相关秩交叉变概率 0oit异概率 001子树变概率 001点变异率 001算子 d,b,l,i,Mx,n,i,Cos资料来:、_advanced挖掘出的特征表达式为:in(add(div(8,10),8)。近1年推荐成功率GP_aacd表达式=sin(近1年行业公平决策成功率
+近1年推荐成功率)使用G_advanced表达式的计算结果作为分析师推荐因子的数值,并进行分组回测。2020年4月至202年1月末,G_advanced合成因子的分组回测净值,各组的月均收益率如图10所示。图10:_dvnd合成因子分组测、组间单调性 资料来:、GP_advanced合成因子的分组效果一般,组间单调性一般。截止2022年1月末,第1组至第5组的累计净值为1.1,1.93,1.33,.32,18;月均收益率分别为0.47,2.24,1.09,157,2.9,2.2。G_advancd合成因子的IC表现如图1所示。图11:P_dvnd合成因子表达式C资料来:、GP_advanced合成因子月均IC为0.0223,IR为0365IC为正的月份占比为68。总体有效性尚可,相对于G_baic合成因子提升较大。神经网络合成因子以分析师推荐的金股组合收益率分类作为标签,以2.3节中遗传规划挖掘的表达式所涉及到的特征作为输入特征。四个特征分别为:统计期_推荐成功率、统计期_月夏普比近1年_产生超额概率、近1年_行业公平_决策成功率。使用神经网络模型(uralorks,N)拟合分类标签与特征之间的关系,并根据网络训练结果动态合成分析师推荐因子。入池条件:历史推荐次数大于等于7次的分析师所推荐的金股调仓周期:月度调仓。扩展窗口2分类(NN_exing_c2)首先,使用N_expandinc2模型来测试网络模型是否有基础的分类效果。N_expandig_2模型的超参数如表6所示。表6:_expdig_2模型超参数超参数 值分类数量 2网络结构 452*8262激活函数 Reu、otax损失函数 Costpy数据回窗口 扩展窗口训练集验证比例 0703学习率 005资料来:、每月末,训练网络,并根据训练出的网络计算次月分析师推荐因子的分类标签。按标签分别构建2个金股组合。2020年4月至022年1月末,N_expanding_2合成因子的分组回测净值走势,各组的月均收益率如图12所示。12:_xpdig_2合成因子组回测、组间单调性 资料来:、N_expandig_2合成因子的分组效果尚可,组间单调性尚可。截止2022年1月末,第1组和第2组的累计净值分别为1.26,1.59;均收益率分别为1.53,2.5。N_expandig_2合成因子的IC表现如图13所示。图13:_xpdig_2合成因子IC资料来:、N_expandig_2合成因子月均IC为-0.007,IR为-0.05,IC为正的月份占比为63。表现总体为风险因子。滚动3个月5分类(NN__c5)2.4.1节中,初步验证了神经网络对分析师有2分类效果。引入NN_r3_c5模型,尝试对分析师进行更加细致的分类。金融市场的表层规律可能具有时变性,为了提高模型对态规律的敏感性,尝试使用回望3个月的滚动窗口数据作为NN模型的输入,用以拟合分析师推荐因子和评价指标之间的关系。表7:N_r3_5模型超参数超参数 值分类数量 5网络结构 452*8265激活函数 Reu、otax损失函数 Costpy数据回窗口 滚动3训练集验证比例 0703学习率 005资料来:、每月末,训练网络,并根据训练出的网络计算次月分析师推荐因子的分类标签。按标签分别构建5个金股组合。2020年4月至022年1月末,NN_r3_c5合成因子的分组回测净值走势,各组的月均收益率如图14所示。图14:_r3_5合成因子分组回测组间单调性 资料来:、NN_r3_c5合成因子的分组效果较差,组间单调性较差。截止2022年1月末,第1组至第5组的累计净值分别为1.48,103,1.3,1.8,0.7;月均收益率分别为2.1,0.3,1.47,309,0.5。NN_r3_5合成因子的IC表现如图15所示。图15:_r3_5合成因子IC资料来:、NN_r3_c5合成因子月均IC为0.001,IR为0.15,IC为正的月份占比为50。因子表现总体为风险因子。扩展窗口5分类(NN_exing_c5)2.4.2节中,使用滚动回望窗口训练的网络模型,分类效果较差。可能是因为滚动窗口的样本量较少。考虑将滚动3个月的回望窗口模型调整为扩展窗口模型。_xpndg模型的超参数如表8所示。表8:_xpdig_5模型超参数超参数 值分类数量 5网络结构 452*8265激活函数 Reu、otax损失函数 Costpy数据回窗口 扩展窗口训练集验证比例 0703学习率 005资料来:、每月末,训练网络,并根据训练出的网络计算次月分析师推荐因子的分类标签。按照标签分别构建5个金股组合。2020年4月至022年1月末,NN_expanding_5合成因子的分组回测净值走势,各组的月均收益率如图16所示。图16:_xpdig_5合成因子组回、组间单调性 资料来:、NN_expandig_5合成因子的分组效果欠佳,组间单调性一般。截止2022年1月末,第1组至第5组的累计净值分别为0.99,1.23,.5,1.13,113;月均收益率分别为0.19,127,1.9,.74,06。NN_expanding_c5合成因子的IC表现如图17所示。图17:_xpdig_5合成因子IC资料来:、NN_expandig_5合成因子的月均IC为-0.007,IR为-0.105,IC为正的月份占比为63。因子表现总体为风险因子。小结在《金股数据库和金
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年高校博士研究生教师职务聘任合同范本3篇
- 二零二五年度跨境电子商务代理销售合同6篇
- 二零二五年空压机行业市场推广与销售合同3篇
- 二零二五年度储煤场煤炭储备与智能物流服务合同3篇
- 2024版土地贷款反担保合同范本3篇
- 二零二五年度特殊环境搬迁及环保措施合同3篇
- 二零二五版跨境担保居间交易合同细则2篇
- 展会国际物流合同(2篇)
- 二零二五版代驾服务租赁合同范本(含车辆使用限制条款)2篇
- 二零二五版快递驾驶员职业发展规划与聘用合同3篇
- 公共政策分析 课件 第8章政策评估;第9章政策监控
- 人教版八年级上学期物理期末复习(压轴60题40大考点)
- 企业环保知识培训课件
- 2024年度管理评审报告
- 暨南大学《微观经济学》2023-2024学年第一学期期末试卷
- 医药销售合规培训
- DB51-T 5038-2018 四川省地面工程施工工艺标准
- 三年级数学(上)计算题专项练习附答案
- GB/T 12723-2024单位产品能源消耗限额编制通则
- 2024年广东省深圳市中考英语试题含解析
- GB/T 16288-2024塑料制品的标志
评论
0/150
提交评论