基于遗传算法的股票分类和组合优化_第1页
基于遗传算法的股票分类和组合优化_第2页
基于遗传算法的股票分类和组合优化_第3页
基于遗传算法的股票分类和组合优化_第4页
基于遗传算法的股票分类和组合优化_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、正文目录 HYPERLINK l _TOC_250009 引言 3 HYPERLINK l _TOC_250008 文章主要内容 3 HYPERLINK l _TOC_250007 一、研究背景 3 HYPERLINK l _TOC_250006 二、相关工作 3 HYPERLINK l _TOC_250005 三、遗传算法的组成部分 7 HYPERLINK l _TOC_250004 四、算法详解 11 HYPERLINK l _TOC_250003 五、实验结果 18 HYPERLINK l _TOC_250002 讨论 26 HYPERLINK l _TOC_250001 总结 26 H

2、YPERLINK l _TOC_250000 参考文献 27图表目录表 1 两公司的现金股利率 8表 2 每个股票的现金股利率 8表 3 每组平均现金股利占所有组的比例 8表 4 例子中使用的股票 13表 5 股价序列的 12 只股票 14表 6 2011 年至 2013 年 12 只股票的现金股利 14表 7:所有归一化的股票序列 15表 8:十二个代表性的股票序列 15表 9 所有染色体的组合满意度 15表 10 染色体的组平衡 16表 11 所有染色体的序列距离 16表 12 所有染色体的适应度 16表 13 参数设定 18表 14 基于 Proposed Approach(f1)用 S

3、AX 的 GSP 的比较 20表 15 基于 Proposed Approach(f1)用 ESAX 的 GSP 的比较 20表 16 此处录入标题 21表 17 基于 Proposed Approach(f2)的 GSP 与 ESAX 的比较 21表 18 过去和本文提出的方法得出的 GSP 的SAX 和ESAX 距离 25表 19 过去和本文提出的方法在一年的训练和测试集上的平均回报 25表 20 过去和本文提出的方法在两年的训练和测试集上的平均回报 25引言在市场上,对于资产、基金的分类一直是大家讨论的话题,根据业绩走势对于基金进行分类我们也曾有相关研究。研究资产的相关性一个重要的应用就

4、是可以利用相似资产找到原资产中不可购买的一部分资产。本期琢璞系列我们推荐 Chen, Chun-Hao, and Chih-Hung Yu(2017)的A Series-based group stock portfolio optimization approach using the grouping genetic algorithm with symbolic aggregate approximations,文献利用遗传算法对相似资产进行了归类,便于投资者选择替代资产,可以对于这个问题提供一些理论参考文章主要内容一、研究背景由于金融市场受各种各样因素的影响,投资仍然是个极具吸引力的话

5、题。同时,市场上还有许多衍生品可供投资者选择。换句话来说,投资者可以根据很多方法来创建投资组合。通常,使用两个客观的度量值,即风险价值(VaR)和投资回报率(ROI)来评估投资组合的质量。由于许多因素会影响给定投资组合的收益,因此需要一种更为复杂的方法来获得一个考虑多个因素的投资组合。通过使用均值方差(M-V)模型,人们提出了许多优化算法来挖掘最佳投资组合。尽管已经有了许多股票投资组合优化方法,但这些方法仅用于得出股票投资组合,不能保证分组后每组的股票价格相似。实际上,这往往是不够的,因为用户可能会由于各种原因无法购买建议的股票,例如建议购买的股票价格太高。这时应建议购买替代股票。因此,在过去

6、的方法中,提出了一种使用分组遗传算法(GGA)来筛选股票投资组合(GSP)的算法。二、相关工作本节介绍与本篇论文具体使用方法相关的研究。首先,在 2.1 节中介绍了投资组合优化的相关方法,在第 2.2 节中提供了相关背景知识。投资组合优化的相关方法迄今为止,许多投资组合优化方法已经被提出,譬如使用单目标和多目标遗传算法来推导最优投资组合。 Chang 提出了一种使用遗传算法(GA)进行组合优化的启蒙方法,该算法使用了半方差,平均绝对偏差和偏度方差,同时提出了一种根据利润和风险找到投资组合的优化方法。 Chen 设计了一种基于领域驱动数据挖掘概念的方法,根据投资者的需求,优化可行的股票投资组合。

7、Guo 提出了一种称为“基于模糊模拟遗传算法”(FSGA)的方法,该方法基于可信度理论框架内的公式化均值-方差模型来解决带有 V形交易成本的模糊多期投资组合选择问题。Bevilacqua 提出了一种使用多目标 GA 的 ROI 和 VaR 进行投资组合优化的算法,其中使用的 PONSGA 模型考虑了五种不同的风险度量,可以最小化风险并最大化投资组合收益。 Saborido 将均值-下行风险偏度(MDRS)模型视为约束的三目标优化问题。设计了三个新的遗传操作,包括突变,交叉和倒位,并将它们合并到现有的多目标进化算法(如NSGAII 和 MOEA / D)中,以更有效地分析投资组合。此外,学者还提

8、出了几种混合算法,这些算法结合了不同类型的数据挖掘技术。 Hachloufi 结合遗传算法的分类设计了一种混合算法,该算法可获得近似最优的股票投资组合。首先, 该算法根据预期收益和风险将资产分成给定类别。然后, 利用 MinVaR-MaxVaL 算法找到接近最优的资产组合。同时,提出了一种用于投资组合选择的综合方法。通过使用向量机,将资产分为三个预定义类别:低风险,高收益和流动资产。从这三个类别中,开发出了一套实际代码的 GA 以根据使用偏好来挖掘投资组合。此外,Gottschlich 还介绍了一种利用集成智慧提出股票投资建议的方法。考虑到财务和伦理标准,Gupta 设计了一个用于投资组合选择

9、全面的三阶段多标准决策制定框架。首先,使用层次分析处理技术来评估每项资产的伦理表现得分。然后,通过模糊多准则决策方法为每种资产计算出其财务质量得分。接着利用三种混合投资组合优化模型来获得投资组合。还提出了其他进化方法来解决投资组合优化问题。 Mousavi 提出了一种利用多树遗传规划(GP)的动态证券交易系统的方法。Wang 在模糊随机不确定性下,根据不同的风险偏好,制定了两个多期投资组合选择模型。接着,设计了一种基于粒子群优化算法的模糊随机仿真算法,以求近似最优解。上述提出的每种方法都只能用于得到股票投资组合。然而,对于投资者而言,仅仅得出股票投资组合是远远不够的,因为有太多的理由不去购买算

10、法推荐的股票。因此,Chen基于 GGA 对 GSP 进行优化,GGA 可以为用户提供一组股票投资组合,而不只是一个股票投资组合。这样做的主要目标是将股票分成几组,而每组中的股票相似。每个染色体会有以下两个评判标准:组平衡度和投资组合满意度,然后进行遗传操作以寻找更好的后代。重复遗传操作,直到找到合适的分组股票组合。背景知识本节主要介绍背景知识。在 2.2.1 节中说明分组问题的定义,而在 2.2.2 和 2.2.3 节中对SAX 和 ESAX 进行了说明。分组问题的定义根据 Falkenauer 的定义,假设存在一组对象 O=o1,o2,., on,那么分组问题可以被定义为: Gi = O

11、and Gi Gj = ,i j,Gi 代表一个分组,使用给定的标准将对象分成组是一个优化问题。遗传算法是由 Holland 提出的,用于在接受的时间范围内为复杂的问题找到合适的解决方案,并已用于解决各种优化问题。基于遗传算法,提出了利用遗传算法来解决各种分组问题(GGA)。GGA 的基本概念如下,在编码过程中,利用分组情况和组内对象来表示分组结果。接下来,将介绍 GGA 的组成。一个染色体包含两个部分:分组情况和对象部分。例如,下面给出了完整的染色体:ACBBC:ABC.在前面的染色体中,在冒号左边,字符串“ ACBBC”是对象部分,代表五个对象,即 o1,o2,o3,o4 和 o5。在冒号

12、之后,字符串“ ABC”是分组部分,这意味着对象部分中的每个对象都应属于三个组之一。因此,该染色体代表五个对象,这些对象被分为三组。在此示例中,对象o1 属于组A,而对象 o3 和 o4 属于组B,对象 o2 和 o5 属于组 C。这三个遗传操作包括交叉,变异和倒位。交叉不是在 GA 中交换基因,而是在 GGA 中切换组。变异是将对象从一组移动到另一组。最后,第三个基因操作是倒位,其目的是让交叉算子获得更多种染色体。实际上,通过改变染色体中各组的顺序,执行交叉算子时可以生成不同的染色体。符号聚合近似时间序列在实际应用中很容易获得,时间序列中的每个数据点 dt 表示某个时间 t 的值。因此,具有

13、 n 个数据的时间序列 T 可以表示为 T d1,d2,.,dn。时间序列分析一直是一个重要而有趣的研究领域,因为它在许多应用中很常见。当数据量很大时,时间序列分析可能会成为一项耗时的任务。因此,需要采用降维技术来提高数据挖掘过程的效率。众所周知,我们可以采用符号聚合近似(SAX)对时间序列进行降维。 SAX 的主要概念是根据给定的字母大小将时间序列转换为符号。流程如图 1 所示。图 1 SAX 流程图资料来源:招商证券量化团队整理从图 1 可以看出,第一步是对给定的时间序列进行标准化。以时间序列 T = 39.35,38.4, 36.65,42.2,40.83,39.9,36.75,37.5

14、,38.8,41.3为例,标准化后,T 变为 T=0.04,-0.21,-0.69,0.83, 0.45、0.20,-0.66,-0.45,-0.10,0.58。由于时间序列数据的维数始终很高,因此使用 PAA(一种降维方法)将维数从 n 减少到 m 个数据点,其中 mn。首先将给定的时间序列基于预定义的片段大小划分为 m 个片段。然后,计算每个段的平均值。最后,可以通过组合m 个平均值来形成给定时间序列的PAA 近似值。假设段大小设置为 3,则将 T减小为 T” = 0.28,0.49, 0.40,0.58。最后,根据给定的字母大小,将 T”中的数据转换为符号序列。例如,因为-0.28 在-

15、0.84,-0.25)范围内,所以它被映射为符号“ B”。以相同的方式,得出“ B,D,B,D”这一完整的符号序列。扩展符号聚合近似在 SAX 中,对于给定的分段大小,使用PAA 来减少时间序列的维数,然后将减少时间序列的每个点转换为一个符号。但是,当分段大小为较大值时,使用单个符号表示分段可能不够。因此将SAX 进行扩展,提出了ESAX 以解决此问题。在每段中,SAX 仅将平均值转换为符号。但是,在 ESAX 中,段的最大值,平均值和最小值均被转换为符号。因此,每个段都由三个符号表示,它们更清楚地反映了每个段中的信息。假设 s1,s2和 s3 是从第i 个股价序列的第j 个分段的 rij m

16、ax,rij min 和 rijavg 转换而来的第一,第二和第三个符号,并且 tmax,tmin 和 tavg 出现在时间轴上最大值,最小值和平均值的位置。可以通过以下方式确定三个符号 s1,s2 和 s3 的顺序:ESAX 的概念如图 2 所示。图 2 ESAX 流程图资料来源:招商证券量化团队如图 2 所示,首先根据均值和方差对时间序列进行标准化。以时间序列 T = 13.7,13.75, 13.75,13.05,13.2,9.12,9.29,9.32,9.32,9.38,9.52,11.9,12.0,11.75,12.2,11.9,12.05,8.85,8.57,8.44为例。标准化后

17、,T 变为T= 0.7,0.72,0.72,0.53,0.57,-0.51,-0.47,-0.46,-0.44,-0.4,0.22,0.25,0.18,0.3,0.22,0.26,-0.58 ,-0.66,-0.69。假设将段大小设置为 5,则每组 5 个数据点将减少为 3 个点-最大值,最小值和平均值。减少的时间序列 T”是0.72、0.65、0.53,-0.51,-0.47,-0.44,-0.4、 0.11、0.3、0.26,-0.29,-0.69。最后,基于字母大小,将 T”中的数据点转换为符号表示。例如,因为 0.72 在0.25,0.84)的范围内,它被映射成符号“ D”。同样,由

18、ESAX 导出的完整的符号序列为“ D,D,D,B,B,B,B,B,C,D,D,B,B”。三、遗传算法的组成部分在本节中,提出了该算法的四个要素:代表染色体,初始总体,适应和选择以及遗传操作。代表染色体假设一组S 由n 个股票组成,分别表示为s1,s2,.,sn。该算法的目的是将股票分为几类,来获得可用于形成各种股票投资组合的 GSP。图 3 染色体示意图资料来源:招商证券量化研究团队整理图 3 显示染色体由三个部分组成:分组情况,股票和股票投资组合。分组情况和股票部分用于指示如何将股票分为几类。同一组 Gi 中的股票具有相似的属性。基于股票投资组合部分,从组中选择股票以形成股票投资组合。如果

19、组数为 K,则股票投资组合中的最大股票数量也将为 K。因此,每个组由股票投资组合部分中的两个基因表示,即 bi和 ui,其中 bi 表示实际数量,ui 是从组中购买的选定股票 si 的购买数量。当 bi 的值大于或等于 0.5,就将股票 si 选入投资组合中。 si 的一个购买单位是 1000 股,下面给出了将 GSP 编码为染色体的示例。初始总体设计生成初始总体的策略很重要,因为它可能会影响最终的优化结果。本文利用股票的现金股息收益率来创建初始总体。接着,使用 Quanta Computer INC.(QCI)和 Taiwan Mobile Co.,Ltd.(TWM)的股票来具体说明这样做的

20、好处。表 1 显示了基于每股现金股息和当前股价的两家公司的现金股息收益率。根据表 1,由于 QCI 的现金股息分别为NT$ 4、4、3.8 和 4,因此,2011、2012、2013和 2014 年 QCI 的现金股息收益率分别为 6.27,5.85,5.46和 5.78。同样, TWM 的现金股息收益率分别为 5.46,5.14,2.07和 5.35。将 QCI 与TWM 的现金股利收益率进行比较,由于 QCI 的现金股利收益率稳定,因此 QCI 优于 TWM。换句话说,购买 QCI 的投资者更有可能获得稳定的收益和较低的风险。表 2 中显示了 n家公司的现金股息收益率(yi)。表 1 两公

21、司的现金股利率资料来源:招商证券量化团队整理表 2 每个股票的现金股利率资料来源:招商证券量化团队整理表 3 每组平均现金股利占所有组的比例资料来源:招商证券量化团队整理根据股票的现金股息收益率,可以通过现有技术(例如 kNN 和k-means 聚类)将n 个股票分为K 个聚类。对于每个组,计算股票 avgCDi 的平均现金股利,并将其用于初始化股票投资组合。然后,计算每组平均现金股利占所有组的比例,如表 3 所示。表 3 显示,每个组都有其自己的股票投资组合概率。以 G1 和 Gi 为例。当 G1 的平均现金股利大于 Gi 时,G1 的股票更有可能被选择形成投资组合。因此,更大的平均现金股利

22、增加了从组中挑选股票以形成股票投资组合的可能性。使用此策略,可以提高初始总体的质量。适应和选择要评估个体的质量,定义合适的适应度函数很重要。根据适应度值,可以选择父代个体以概率的方式进行交配,从而从总体中获得大量个体。考虑到给定的股票价格序列和股票的基本信息,本文的目标是得出一种 GSP,该 GSP 不仅可以实现良好的收益,而且可以提高组合中股票的相似性。因此,需要定义适当的适应度函数来评估每个个体。本文基于先前方法中使用的适应度函数,开发了两个用于优化 GSP 的新适应度函数。前一种方法的适应度函数如下:f(Cq) = PS(Cq) GB(Cq), 其中PS(Cq)表示投资组合满意度,用于评

23、估用户对利润和指定染色体需求的满意度,是GB(Cq)组平衡度,用于计算相似组中的股票数量。参数用于控制两个因素的相关性。利润满意度当 GSP 的投资组合满意度很高时,通过染色体生成的股票组合可以获得良好的利润收益。需要考虑给定的客观标准和主观标准这两个因素。 PS(Cq)的计算公式为:PS(Cq) =NCp=1subPS(SPp)/NC, 其中 NC 是从染色体Cq生成的股票投资组合的数量,subPS(SPp)是第p 个股票投资组合SP 的满意度。subPS(SP )的公式为:subPS(SP ) = ROI(SPp) ,pppsuitability(SPp)ROI(SP )是股票投资组合SP

24、 的利润,其计算公式为:ROI(SP ) = n(SPi SPi) pppi=1sbu + Div(i) u + u Risk , 其中u 是股票s 的购买数量,SPi,SPi,Div(i)和Risk 分iiiii isb i别是卖出价,买入价,现金股息和股票si的风险,其可以通过历史模拟(HS)计算。suitability(SPp)的计算公式为:suitability(SPp) = ICP(SPp) + PP(SPp) , 其中ICP(SPp)是投资资本处罚,PP(SPp) 是投资组合处罚,是用于控制这两个因素影响的参数。ICP(SPp)用于测量SPp 中的投资资本对预设的最大投资资本的满意

25、度,如公式所示:max Inves , if Cap max InvesICP(SP ) = Cappp, 其中Cap 是SP 的投资资本,max Inves是预pp Capp , if max Inves Cappp max Inves定义的最大投资。 PP(SPp) 用于测量SPp中购买的股票数量对预设的最大购买股票数量 num Comp , if numCom num Com的满意度,如公式所示:PP(SP ) = numComp, 其中num CompnumCom , if num Comp 0; 其中 Ki=11, otherwise.为组数,Ui表示组Gi的购买单位ui是否在规定范

26、围内。如果购买的单位在最小购买单位和最大购买单位之间,则Ui为 1,否则,Ui为-1。当UB(Cq)为 1.4 时,所有组的购买单位均在规定范围内;但是,当UB(Cq)为 1.15 时,某些组的购买单位不在规定范围内。其他情况时,UB(Cq)为 1。价格平衡度为了确保同一组中的股票价格尽可能相似,使用了价格平衡度的概念。价格平衡的公式为:PB(C) = MAX(1, kn |Secj| log |Secj|),其中Sec 是价格部分,用于表示用户定qi=1j=1|Gi|Gi|j义的股票价格范围,|Secj|是第j 部分的股票价格,|Gi|是组Gi中的股票数量。结合SF(Cq),UB(Cq)和P

27、B(Cq),优化的适应度函数f(Cq)的公式为:f(Cq) = PS(Cq)GB(Cq) UB(Cq).PB(Cq)距离因子最后一个评价因子是序列距离因子。该因子的目的是衡量同一组中股价序列的相似性。( Gi Gi)染色体C的序列距离SD(C )的公式为:SD(C ) = KseriesDist Bm ,Bn, 其中qqqi=1GiGiKTm Tni=1 GiGi 1Tm TnBGi, BGi 是两个从股票价格序列TGi , TGi 转化而得的符号序列,并且可以分别表示为mnmnBGi =b, b, , b和BGi =b, b , , b, seriesDist(BGi, BGi)是两个符号序

28、列的mm1m2mknn1n2nkmn距离, 其 计 算 公 式 为 : seriesDist(BGi, BGi) = k symbloDist(b , b ) , 其中 mni=1minisymbloDist(bmi, bni)是两个符号bmi, bni的距离,其计算公式为:symbloDist(bmi, bni) =0, if bmi = bni ;1, if bmi, bni相邻;其中gap(bmi, bni)是根据bmi和bmi中给定字母的顺序计算的。gap(bmi, bni), otherwise.在本文中,使用SAX 和 ESAX 将时间序列转换为符号序列。因此,根据上文中稳定性因子

29、和系列距离因子的公式,定义了第一适应度函数:f1(Cq) = PS(Cq) GB(Cq) /SD(Cq), 其中参数和用于反映组平衡度和序列距离的相关性,可由用户设置。另外,又定义了第二适应度函数:f (C) = PS(Cq)GB(Cq) UB(Cq)2q.PB(Cq)SD(Cq)遗传操作算法中使用了三种遗传操作:交叉,突变和倒位。这些与先前方法中采用的操作相同。由于编码方案包含三个部分,因此对它们执行遗传操作的过程描述如下,首先对分组部分执行交叉操作,随机选择两个染色体作为基础染色体和插入染色体。从插入染色体中选出一些组,并将其插入基础染色体中。然后,删除基础染色体中的冗余组。在股票投资组合

30、上执行交叉操作,可以使用单点交叉操作来生成新的后代。若对股票执行突变操作,可以随机选择两个组,两个组的股票数量均大于 1,然后随机选择一组中的股票,将其重新分配给另一组。如果对股票投资组合进行突变操作,首先随机选择一个基因进行突变,当所选基因在股票投资组合部分中位于奇数位置时,其值从0,0.5更改为0.5, 1或从0.5,1更改为0,0.5。当所选择的基因在于偶数位置,从区间1,maxUnit中产生随机值来替换旧的值。四、算法详解本节介绍了使用 GGA 基于符号序列优化 GSP 的算法,分别在第 4.1 节和第 4.2 节中给出伪代码和建议的方法示例。算法的伪代码为了清楚地描述该算法,其对应的

31、伪代码如图 7 所示。图 7 显示了该算法基于现金股利(第 1 行)生成初始总体。然后将股票价格序列转换为符号序列(第 2 至 4 行)。这里需要注意变量类型指示是使用 SAX 还是 ESAX 来获得符号序列。然后通过设计的合适的适应度函数(第 7 至 13 行)来评估每个染色体。当在算法中使用适应度函数 f1 时,将使用投资组合满意度,组平衡度和序列距离以评估染色体,而使用适应度函数 f2 用于评估染色体时,将计算两个附加因子,即单位平衡度和价格平衡度。然后进行遗传操作以产生不同的染色体(第 14 至 17 行)。重复进化过程,直到达到终止条件为止。最后,输出即是获得的 GSP(第 21 至

32、 22 行)。图 5 优化方法的伪代码资料来源:招商证券量化团队整理具体示例本小节提供一个示例,用以解释说明通过给定的股价序列和相关信息推导出 GSP 的算法。假设有十二只股票,相关数据如表 4 所示,股票价格序列及其现金股利分别如表 5和表 6 所示。步骤 1:将 pSize 设置为十二。然后,使用以下子步骤生成初始总体:子步骤 1.1:将 K 设置为 4 时,十二种股票被随机分为四组,以形成分组部分。例如, C1 的分组部分可以是 G1:3,9,G2:2,4 ,10,G3:1、5、8、12,G4:6、 7、11。子步骤 1.2:根据股票的现金股利计算每组的平均现金股利。以 C1 中的组 G

33、1 为例,其股票的现金股利分别为 2.97 和 2.5。因此,G1 的平均现金股利为 2.73(=(2.97 + 2.5)/ 2)。同样,计算 G2,G3 和 G4 的平均现金股利分别为 1.4、1.45 和 2.87。子步骤 1.3:计算每组平均现金股利占所有组的比例。由于 G1,G2,G3 和 G4 的平均现金股利分别为 2.73、1.4、1.45 和 2.87,以 G1 为例,G1 的平均现金股利在所有组中的比例为 0.323(= 2.73 /(2.73 + 1.4 + 1.45 + 2.87)。同样,G2,G3 和 G4 占所有组中的平均现金股利比例分别为 0.165、0.17 和 0

34、.34。子步骤 1.4 和 1.5:将 numCom 设置为 3,则生成的集合 R 为0.23,0.31,0.46。因此,组 G1 和 G2 被选为投资组合中的候选组。子步骤 1.6 和 1.7:根据候选组生成股票投资组合。因为选择了组 G1 和 G2,所以将 b1 和b2 设置为大于 0.5 的值,而将 b3 和b4 设置为小于 0.5 的值。每个组的已购买单位数是从区间0,max-Unit内随机生成的。假设 maxUnit 为 10,则生成以下十个初始染色体:步骤 2:使用以下子步骤将股票的股价序列转换为符号序列:子步骤 2.1:对股票价格序列中的每个数据值进行标准化。以 s1 的值 17

35、.3 为例,由于均值和方差分别为 18.63 和 0.9238,因此标准化后的值为-0.63。以相同的方式进行标准化后,所有标准化的序列都显示在表 7 中。表 4 例子中使用的股票资料来源:招商证券量化团队整理子步骤 2.2 至 2.4:然后利用 PAA 来降低标准化序列的维数。假设 paaSize 设置为五个,则生成 50(= 246/5 +1)个段。计算每个段的平均值,并将其用于表示该段。以股票 s1 的细分 seg1 为例,平均价值为-1.92(=(-0.63 + -0.95 + -0.58 + -0.85 + -0.49)/ 5)。假定给定的字母大小为 5 并使用 SAX,则 seg1

36、 的平均值小于-0.84,因此将其转换为符号“ A”。同样,s1 的符号系列为“ AAAABBBBAC EE”,表 8 中显示了十二个符号系列。表 5 股价序列的 12 只股票资料来源:招商证券量化团队整理表 6 2011 年至 2013 年 12 只股票的现金股利资料来源:招商证券量化团队整理表 7:所有归一化的股票序列资料来源:招商证券量化团队整理表 8:十二个代表性的股票序列资料来源:招商证券量化团队整理表 9 所有染色体的组合满意度资料来源:招商证券量化团队整理表 10 染色体的组平衡资料来源:招商证券量化团队整理表 11 所有染色体的序列距离资料来源:招商证券量化团队整理表 12 所

37、有染色体的适应度资料来源:招商证券量化团队整理步骤 3:使用以下子步骤计算每个染色体的适应度值:子步骤 3.1:通过以下子步骤计算每个染色体的投资组合满意度:子步骤 3.1.1:首先,生成可能的股票投资组合。以染色体 C1 为例,根据其分组部分(G1:3,9,G2:2,4,10,G3:1,5,8,12,G4:6,7, 11),共有 72(= 2343)个股票投资组合。所有这些都收集在集合 SP = 3,2,1,6,3,2,1,7,3,2,1,11,3,2,5,6,3,2,5,7,.,9,10,12,11中。子步骤 3.1.2:计算每个股票投资组合的利润。以 SP1:3,2,1,6为例,因为根据

38、染色体 C1 :0.75、9、0.89、9、0.10、9、0.09、6的股票投资组合部分,s1,s2,s3 和 s6 的风险分别为-0.83,-0.65,-1.75 和-2.19,则 SP1 的利润为 6.84(= 9(9.52-13.7)+9(2.97)-9(1.75)+9( 18.3516.1)+9(0.6)-9(0.65)。4子步骤 3.1.3:计算每种股票投资组合的适应度。假设最大购买股票数量为 2,最大投资资本为 1000,则 SP1 的适应度因子为 8.791 (=SCP(SP1)+ PP(SPp) )=(1000 / 268.2)+(3 / 2)4)。子步骤 3.1.4:计算每个

39、股票投资组合的稳定性因子。将参数 h 设置为 3;现金股利的第三大方差为 2.123。以 SP1 为例,因为购买了股票 s2 和 s3,并且它们的现金股利的标准化方差为 0 和 1.384,所以 SP1 的稳定因子计算为 4.769(= 2(1+ max(0, 1.384)。子步骤 3.1.5 至 3.1.7:容易得知,SP1 的投资组合满意度为 0.055(= 6.84(/(8.791) 1.54.769)。同样,C1 的组合满意度为-0.0426。重复子步骤 3.1.2 至 3.1.7,所有染色体的组合满意度如表 9 所示。子步骤 3.2 到 3.4:若在此示例中仅使用组平衡度,根据染色体

40、的分组情况计算每个染色体的组平衡。以 C1 染色体为例,因为 C1 的分组情况是 G1:3,9,G2:2,4,10, G3:1,5,8,12,G4:6, 7,11,其组平衡度为 1.8441。表 10 显示了所有染色体的组平衡。子步骤 3.5:使用 SAX 来计算每个染色体的序列距离。以 C1 为例。根据公式,C1 的 SAX 距离为 51.0(=(seriesDist(s3,s9)+ seriesDist(s2,s4)+ seriesDist(s2, s10)+ seriesDist(s4,s10)+ seriesDist(s1,s5)+ seriesDist(s1,s8)+ seriesD

41、ist(s1,s12)+ seriesDist(s5,s8)+ seriesDist(s5,s12)+ seriesDist(s8,s12)+ seriesDist(s6,s7)+ seriesDist(s6,s11 )+ seriesDist(s7,s11)/ 13)。表 11 显示了所有染色体的序列距离。子步骤 3.6:假设参数和分别为 5 和 2。那么,C1 染色体的适应度值为 0.00147(=(-0.1794221.84415 / 51.02)。所有染色体的适应度值在表 12 中给出。步骤 4:对总体执行选择操作以形成下一个总体,此处使用了精英选择策略。在此示例中,十个初始染色体被选

42、择用以形成下一个总体。步骤 5:对总体执行两阶段交叉操作。在第一阶段,假设选择了染色体 C1 和 C5。它们的分组情况分别是“ G1:3,9,G2:2,4,10,G3:1,5,8,12,G4:6, 7,11”和 “ G5:2,6,11,G2:12,G3:3,5,8,9,10,G4:1,4,7”。 设插入基础染色体C5 的位置为 G3,染色体 C1 的插入顺序为“ G:3,5,8,9,10”。因此,在执行交叉操作之后,C1变为“ G1:3,5,8,9,10,G2:2,4,G3:1,12,G4:6,7,11。” 接着,将交叉的第二阶段应用于染色体 C1和 C5。因为 C1和 C5 的股票投资组合部

43、分分别为“ 0.57,5,0.04,8,0.05,6,0.84, 8” 和 “ 0.75,9,0.89,9,0.10,9,0.09,6”,假定切点为 2,新的股票投资组合部分为C1”:“ 0.75,9,0.04,8,0.05,6,0.84,8 和 C5:“ 0.57,5,0.89, 9,0.10,9,0.09,6。”步骤 6:对总体执行两阶段突变操作。第一阶段,股票从一组随机转移到另一组。染色体 C2 的分组情况为:“ G1:4,9,G2:2,8,12,G3:7,G4:1,3,5,6, 10,11”。 举例来说,若将 G4 中的 s11 移至 G3;染色体 C2的分组情况变为“ G1:4,9,

44、G2:2,8,12,G3:7,11,G4:1,3,5,6,10。”在第二阶段,如果 C2 的 b2 发生突变,则染色体 C2的股票投资组合部分将变为“ 0.12,9,0.56, 8,0.79,8,0.05,7”。步骤 7:对总体执行倒位操作。取染色体 C4 的分组情况:“ G1:2,9,10,G2:3,12, G3:1,8,11,G4:4,5,6,7”。举例来说,假设 G1 和 G4 已交换,分组情况将变为“ G1:4,5,6,7,G2:3,12,G3:1,8,11,G4:2,9,10。”步骤 8 和 9:当满足终止条件时,将输出具有最佳适应性值的 GSP。在此示例中,经过 150 代,得出的

45、 GSP 如下所示:Cbest:G1:7,8,9,11,G2:4,6,G3:1,10,12,G4:2,3,5,0.90,5,0.68,9,0.06,9,0.84,9。染色体 Cbest 将十二只股票分为四组, G1 组包含 s7,s8,s9 和 s11; G2 组包含 s4和 s6; G3 组包含 s1,s10 和 s12;组 G4 包含 s2,s3 和 s5。此外,G1,G2 和 G4可以形成可能的股票投资组合。换句话说,可以提供二十四种股票投资组合(= 423)给用户。五、实验结果在这一节中,我们进行了实验,来说明本文提出的方法在实际的金融数据集上的优点。参数设置见表 13。表 13 参数

46、设定资料来源:招商证券量化团队整理第 5.1 节描述了实验数据集。第 5.2 节对得出的 GSP 进行了分析。第 5.3 节比较了本文提出的方法和过去的方法在ROI 上的结果,并在第 5.4 节进行了讨论。实验数据集数据集包含从台湾证券交易所收集的 2012/01/01 至 2014/12/31 的数据。该数据集包含 31 只股票,其属性包括股价、现金股利和风险值。每个股票价格序列包括大约 742 个数据点,每个数据点代表一天的收盘价。股票的风险值是用 HS28和从给定的股票价格序列转换而来的月平均序列来计算的。该数据集总共包含 15 个股票类别,其中前三名是半导体、通信网络和金融。31 个股

47、票价格序列如图 5 所示。图 5 数据集的股价序列资料来源:招商证券量化团队整理从图 5 可以看出,大多数股票价格在 0 到 100 之间,有些在 100 到 400 之间,还有一些大于 400 。对我们的研究主题感兴趣的读者, 实验数据集可从此链接获得 ( HYPERLINK .tw/chchen/StockPriceSeries(31).rar) .tw/chchen/StockPriceSeries(31).rar)。在下一节中,将本文提出的方法的结果与过去的方法4进行了比较,以显示本文提出方法的优点。为了区分这两种方法,我们用原先的适应度函数“Previous Approach”来命名

48、过去的方法。在本文提出的方法中,使用公式(19)和(20)中定义的两个适应度函数 f1 和 f2 来挖掘 GSP;这两个函数分别被命名为“Proposed Approach(f1)”和 “Proposed Approach(f2)”得出的股票投资组合分析首先,本节介绍并分析了基于 Proposed Approach(f1)和两年培训数据集(2012 年至 2013 年)得出的 GSP。在分别使用 SAX 和 ESAX 距离算法的情况下,表 14 和表 15 对比了基于Proposed Approach(f1)的初始 GSP 和得出的最佳 GSP表 14 和表 15 显示,得出的 GSP 在适应

49、值方面优于初始 GSP。此外,从投资组合满意度和序列距离得分可以看出,本文提出的方法不仅获得了较好的 ROI,而且提高了股票序列在组合中的相似性。以表 14 中得出的 GSP 为例,其投资组合满意度和序列距离分别为 41.04 和 10,说明得出的 GSP 优于初始 GSP。同样的现象也可以在表 15 中找到。然而,采用 SAX 和 ESAX 的本文提出的方法得出的 GSP 的价格相似度分别为3.4 和 6.2,这意味着这两组股票的购买价格有些不同。表 14 基于 Proposed Approach(f1)用 SAX 的 GSP 的比较资料来源:招商证券量化团队整理表 15 基于 Propos

50、ed Approach(f1)用 ESAX 的 GSP 的比较资料来源:招商证券量化团队整理因此,在两年的训练数据集(2012 年至 2013 年)上进行了实验,分别使用 SAX 和 ESAX距离算法,对比基于Proposed Approach(f2)的初始 GSP 和得出的 GSP。结果分别见表 16 和表 17。表 16 此处录入标题资料来源:招商证券量化团队整理表 17 基于 Proposed Approach(f2)的 GSP 与 ESAX 的比较资料来源:招商证券量化团队整理表 16 和表 17 显示,得出的 GSP 在适应值方面优于初始 GSP。由于表 16 和表 17 中得出的

51、GSP 的序列距离分别为 9 和 40,很明显,股价序列的相似性有所增加,并且优于初始 GSP。此外,通过比较表 16 和表 17 的得出的 GSP 与表 14 和表 15 的得出的 GSP,我们还可以发现,对于高单位平衡和低价格平衡的 GSP,Proposed Approach(f2)比 Proposed Approach(f1)。总的来说,我们可以得出这样的结论:由于序列距离的减小,同一组得出的 GSP 中股票价格序列的相似性增加。为了更清楚地验证这一点,我们进行了实验,从股票价格序列在组合中的相似性的角度比较了过去和本文提出的方法的结果。分别基于 Previous Approach、Pr

52、oposed Approach(f1)、Proposed Approach(f2)得出的 GSP 的股价序列如图 9-11 所示。图 6 按过去方法的股价序列资料来源:招商证券量化团队整理图 7 proposed approach(f1)组股价序列资料来源:招商证券量化团队整理图 8 proposed approach(f2)组股价序列资料来源:招商证券量化团队整理图 9 显示 G1 组和 G6 组中的股票价格序列不同于其他组。例如,对于 G1,股票代号 2357、2207 和 2912 代号 1402、1326 和 1303 不同。比较图 9 与图 10、图 11 中各组的股价序列,我们可以

53、观察到,本文提出的方法可以增加股票价格序列在组合上的相似性。举图 10(a)到(d)为例,很明显,组合中的股票价格序列相似性比图9 中的更好,因为只有股票代号2207 不同于G2 中的其他股票,并且其他三组中的股票价格序列很相似。然后,比较了图 10 和图 11 中各组的股票价格序列图。我们还可以观察到,当使用适应度函数 f2 时,组内股价序列比使用适应度函数 f1 时更接近。此外,由于 f2 考虑了价格均衡,结果还表明,图 11 中组合的股票买入价格非常相似。最后,为了说明本文提出的方法的优点,将其与过去的方法在 SAX和 ESAX 距离方面进行了比较,如表 18 所示。表 9 过去和本文提出的方法得出的 GSP 的 SAX 和 ESAX 距离资料来源:招商证券量化团队整理表 10 过去和本文提出的方法在一年的训练和测试集上的平均回报资料来源:招商证券量化团队整理表 11 过去和本文提出的方法在两年的训练和测试集上的平均回报资料来源:招商证券量化团队整理表 18 显示,过去方法的 SAX 和 ESAX 距离分别为 14 和 47。与本文提出的方法得到的距离进行比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论