从网络结构模型识别“中心资产”_第1页
从网络结构模型识别“中心资产”_第2页
从网络结构模型识别“中心资产”_第3页
从网络结构模型识别“中心资产”_第4页
从网络结构模型识别“中心资产”_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、正文目录 HYPERLINK l _TOC_250010 金融市场的层级结构特性 3 HYPERLINK l _TOC_250009 网络结构模型 3 HYPERLINK l _TOC_250008 设定邻接矩阵 3 HYPERLINK l _TOC_250007 基于互信息率的节点关系度量 4 HYPERLINK l _TOC_250006 基于时间动态规整的节点关系度量 4 HYPERLINK l _TOC_250005 网络结构优化 5 HYPERLINK l _TOC_250004 基于中心性的网络分析 6 HYPERLINK l _TOC_250003 基于网络中心度的选股因子 7

2、HYPERLINK l _TOC_250002 中心度的时序分析 8 HYPERLINK l _TOC_250001 中心度因子在选股上的应用 10 HYPERLINK l _TOC_250000 参考文献 13图表目录图 1:20 只股票的全连接树与最小生成树示例 6图 2:2020 年 12 月与 2019 年 12 月沪深 300 成分股的最小生成树 8图 3:2015 年 12 月与 2010 年 12 月沪深 300 成分股的最小生成树 8图 4:沪深 300 成分股的度中心性均值与波动率 9图 5:沪深 300 成分股的紧密中心性均值与波动率 9图 6:沪深 300 成分股的介数中

3、心性均值与波动率 9图 7:沪深 300 成分股的度中心性均值与波动率 10图 8:沪深 300 成分股的紧密中心性均值与波动率 10图 9:沪深 300 成分股中心度等权得分因子头尾分组测试 11图 10:沪深 300 成分股中心度加权得分因子头尾分组测试 11图 11:沪深 300 成分股中心度得分因子五分组测试 11表 1:沪深 300 成分股中心度得分因子分组测试绩效指标 12金融市场的层级结构特性金融市场是高度复杂的系统,宏观经济形势、中观行业景气度和微观企业经营的变动都在系统内部实现信息交互,并影响参与者的决策与博弈进而反映在资产价格上。长期来看,在合理的观察视角下,金融市场是动态

4、均衡的,均衡性反映在观察维度与客观规律的匹配,动态性反映在短期收益风险和长期收益风险的取舍。例如,股票市场的长期增速取决于一国经济的增长水平,尽管一国经济长期低迷时股票市场难有上佳的表现,但短期流动性刺激会引起风险偏好提升,市场估值中枢会产生偏离。那些基于短期流动性视角的投资者相对盈利驱动的投资者容易捕获这一收益。然而,对市场参与者而言,寻找到一个长期有效的观察视角是十分困难的,从多个局部有效的观察视角去研判和决策也面临着权重分配问题。经典的周期分析、多维打分、因子择时等方法都或多或少在试图解决这一问题。特别地,在 2020 年市场经历疫情初期的大幅下挫后,受益刺激政策和复苏预期,一众核心资产

5、大幅上涨,市场“二八”分化明显,沪深 300 指数相对中证 500 指数跑赢明显,IF 和 IC 明显差异的升贴水结构也表明投资者对“大而美”的偏好。尽管在 2021 年初,不少“明星公司”出现了一定的获利回吐,但长期资金的配置性流入使得整体估值水平并未下挫,白马公司依然是市场关注的焦点。在一致的审美预期下,“抱团组合”内部呈现明显的联动性,而与边缘资产的关联性相对弱化,即呈现出一定的层级结构特性。学术研究也表明,金融系统通常具有层级结构的属性(Simon, 1962),网络模型作为层级结构模型的代表,与金融系统内部相互作用的特点具有匹配性。抽象而言,一些股票具有相似的风险偏好属性,而一些股票

6、价格波动上几乎毫无关联。因此,我们试图从股票之间非线性关联性的视角,结合网络结构模型的建模思想和网络理论的工程工具,识别具有超配价值的“中心资产”。网络结构模型网络模型最基本的数据结构是图 = (, ),其中代表节点,代表边。对应在股票市场上,我们用图结构里的节点来表示某一股票池中的股票,用边来表示股票之间的关系。假如两两股票之间存在某种关联,则两者所表示的节点之间有边相连,若两两股票之间没有关联,则相应节点之间不存在边连接。在此基础上,我们可以对任意两个节点间的边赋予权重(即节点的距离或者边的长度),以表示节点所代表的股票之间关联性的强弱。对于互相没有关联性的股票,边的权重为零和不存在边相连

7、是完全等价的。通过选择不同的赋权方法,并设置一定的规则来优化结构,就可以得到目标的网络结构模型。由此,我们将网络模型的构建拆解成邻接矩阵设定和网络结构优化两个步骤。设定邻接矩阵设定边的权重是构建邻接矩阵时最核心的部分,它直接影响网络的性能。其物理含义就是如何更好地刻画股票之间的相关性。常用的皮尔逊相关性系数(Pearson Correlation)只适合用于量化线性的相关性,斯皮尔曼相关性系数虽有捕获部分非线性关系的能力,但并没有改变计算原理,且损失了原有分布的信息。然而,随着研究的深入,人们越发意识到单纯的线性关系很难完全描述复杂的金融系统内部事物的关系。基于互信息率的节点关系度量针对股票的

8、收益率序列,我们首先考虑使用互信息率这一指标来描述两两之间的关系。由于收益率之间的相关性函数是未知的,互信息率这类非参数指标就非常适用。简单来说互信息率可以量化两个随机变量之间共享了多少信息,从而很好地捕捉到随机变量间的线性和非线性关系。互信息率是从信息理论中熵的概念而来,表达形式如下:() = () ()其中是随机变量的概率密度函数。此时,若有另一随机变量,令,为和的联合概率密度函数,那么和的联合熵为:() = ,(, ),(, )那么我们可以用熵的表达式来定义互信息率: (, ) = () + () (, )即: (, ) = ,(, )(, ), ()()通过以上方式计算所得互信息率是非

9、负的,当且仅当和相互独立时为 0。在此基础上,我们将互信息率进行归一化,并转换为节点的距离。我们期望越接近于 0 时表示两个变量间关系紧密,当越接近于 1 时表示两个变量间关系疏远。因此,可以表示为:(, ) = 1 1 (2(, )应当注意的是,我们多数时候将股票收益率序列视为连续变量,直接计算两两股票的互信息或许并不合意,Meyer(2012)等学者研究表明对在计算资产收益率相关变量的互信息时需要进行一定的离散化处理,如等频率分割收益率区间。实际上,我们在研究过程中同样发现离散化处理后计算的距离有更明显的区分度。基于时间动态规整的节点关系度量尽管使用互信息率可以捕获股票收益率序列之间共享的

10、信息量,但是它忽视了时间序列本身的特性。同时,我们在计算互信息率时依然需要对收益率序列进行离散化处理,这也损失了一定的信息量。因此,我们引入动态时间规整这一算法来帮助我们更好地度量节点关系。动态时间规整算法(Dynamic Time Warping)最早由日本学者 Itakura 在上世纪 70 年代提出的,在处理非等长时间序列相似性上具有广泛的应用,如孤立词语音识别等模板匹配任务。非等长时间序列并不是绝对的长度意义,而是重点应对局部存在分形、时间轴扭曲的问题。例如,即使两段内容完全相同的语音序列,但因个别词语上存在抑扬顿挫的区别,反映在时间轴上就存在非对齐的问题。同样,在金融市场上,相同行业

11、的两只股票通常具有长期的相关性,但在局部序列上,股票 A 因行业事件率先上涨,而股票 B 相对滞后但逐步跟随,形成前后峰。由于 K 线本身是等时间划分的,在这一情形下传统欧式距离度量相关性方法都难以纳入错位和分形的影响。令 P 和 Q 分别代表 T 的时间序列(n 个点)。两者的欧式距离(Euclidean Distance)可以表示为:(, ) = ( )2=1显然,ED 在处理序列时采取一对一的模式。而 DTW 可以处理一对多的模式,它实际上转化成了一个优化问题:构建一个(n,n)的矩阵 M,其中,表示和的欧式距离。从起点1,1到终点,的路径中,搜索具有最小矩阵元素之和的路径。该路径元素的

12、总和就是 DTW 距离。DTW 核心在于搜索最优路径,动态规划涉及到较高的计算复杂度,在处理多变量时间序列匹配时候存在迭代计算开销过大的问题,可根据需要选择合适的加速算法。由于我们研究输入序列 P 和 Q 是收益率转化而来的净值序列,不需要特殊的加速算法。网络结构优化利用上述方法度量两两节点之间的关系,我们可以得到所有元素大于等于 0 的邻接矩阵,即我们可以构建出一个完全连接的网络模型。然而,一个节点的完全连接网络拥有( 1)/2条边,假如我们以沪深 300 的成分股来建模,此时我们需要计算 44850 条边,这对我们后续评估网络中节点的重要性或中心度产生了极大的困难。另外,如此量级的边数本身

13、具有取舍性,对一些相关性微弱的股票,我们完全有理由基于一定的规则进行剔除,以实现优化网络结构的目标。最直接的方法是,我们在 2.1 计算得到边的权重(节点距离)时,将超过一定阈值的边删除。例如,当某两只股票的距离超过 0.8 时,对应节点删除边。优化的方法是根据该网络所有的边的横截面分布进行右尾截断,如删除距离超过 90%分位数的边。以阈值删除边的好处是极大节省了计算时间,但其优化目标并不明确。因此,我们考虑使用非监督学习中的最小生成树算法。最小生成树算法通过把高度连接的网络合理剪枝,在舍弃一部分连接的同时最大限度保留网络的有效结构,从而获得一个树状结构的网络。这一方法是网络分析中降低模型冗余

14、的常用做法。我们据此获得的树状模型的每个节点还是能通过其他节点互相连接的,而节点与节点之间的距离之和是我们能获得的最小值。我们简要介绍最小生成树的数学表达。依然用图 = (, )表示一个完全连接的网络,其中是顶点,是边,是边的权重(距离)。此时我们要找到一个新的生成树 = (, ) 使顶点与顶点间的总距离最小, 对应为一个优化问题: . = 1 | 1 , , , (,) 0,1, 其中第二个约束条件的(, )表示所有的边,|表示的基数,其含义是生成树不能有闭环。为了更直观对比最小生成树算法对网络结构的优化,我们利用 networkx 包提供的网络建模工具,随机产生 20 只股票构建全连接网络

15、,随机赋予权重后并使用 Prim 算法求解最小生成树。图 1:20 只股票的全连接树与最小生成树示例资料来源:Wind;基于中心性的网络分析在前两节,我们探讨了如何针对某一股票池构建出最小生成树,这些抽象有助于我们从网络结构的视角去探寻复杂系统中各个标的关联性,但我们最终目标是筛选出有超配价值的标的,即找到那些特殊的节点。因此,我们很自然地需要寻找一些关于节点的量化指标帮助我们达成这一目的。在网络分析中,最常用的一类量化指标就是中心性。中心性描述的是给定节点相对于其他节点的中心程度,通常周边连接了越多节点的节点其中心性越高,而位置越靠边缘的节点中心性越低。引申到股票网络里来,我们可以认为中心性

16、衡量的是给定股票对整个系统的重要程度。中心性越高说明该股票对整个系统的重要性越大,因此我们可以称这类中心性高的股票为“中心资产”。反之,所处位置越边缘,对系统的影响程度越小,我们可以认为这类股票为“边缘资产”。结合网络分析领域学者们的经典研究(Borgatti, 2005),这里我们选取了如下三个指标以度量节点的中心性:度中心性度中心性是最常用的中心性,它衡量的是一个节点与其他节点发生直接联系的程度。如果一个节点与其他很多节点发生直接联系,那么这个节点就处于中心地位。即节点的关系越广,相邻节点越多,那么节点也就越重要。标准化计算方法是每个顶点的度除以途中可能的最大度数,即 1,令()为顶点的度

17、,表达式如下:() =() 1紧密中心性紧密中心性反应的是某个节点与其他节点之间的接近程度。如果一个节点离 其他节点越近,那么它影响其他节点的能力就越强。这个点的紧密中心性基 于该点到网络中其他所有节点的最短路径之和。如果进行归一化,那么就是 求这个节点到其他所有节点的平均最短距离。一个节点的平均最短距离越小,那么该节点的紧密中心性越大,令(, )为节点和节点之间的最短路径长度,则平均最短距离的倒数定义为该节点的紧密中心性,表达式如下: 1() = (, )介数中心性介数中心性是指某节点出现在其他节点之间的最短路径的个数。如果这个节点的介数中心性高,那么它对整个网络结构的转移会有很大的影响,考

18、察的是节点对其他节点信息传播的控制能力。介数中心性的求解过程可以分为三个部分:计算每对节点(, )之间的最短路径,以及记录该路径所经历的节点;对每个节点判断出现在上一步中(, )间的最短路径集合中的次数占最短路径总数的比例;最后对所有节点累加节点在上一步的比例从而获得节点 的介数中心性,为了方便和其他中心性对比以及之后的计算,归一化后的表达式如下: () = ,() 2基于网络中心度的选股因子, 1在本章节,我们根据上一节中介绍的方法论来实证构建选股因子。我们选择沪深 300月度更新的动态成分股作为股票池,回溯期自 2009 年 1 月至 2020 年 12 月。在每个成分股更新的月度截面,我

19、们采集股票池中所有股票之前 T 个交易日的收益率序列作为观察样本,即一个形状为300, 252, 1的矩阵,分别使用互信息和时间动态规整来构建邻接矩阵。在使用互信息率时,我们采取收益率横截面 n 等分的离散化标记。在使用动态时间规整时,我们将收益率序列转化为净值序列。在某些截面,新进成分股的历史数据较少,我们对数据缺失超过 20%的节点剔除。我们首先取 T=252,即回溯一年的日收益率序列,对收益率序列按 5 日均值平滑,随后横截面离散化处理十等分。在优化网络时,我们设置 P95 的权重阈值,随后使用 Prim算法剪枝,得到了图 2 和图 3 所示的历史月份沪深 300 成分股最小生成树。图

20、2:2020 年 12 月与 2019 年 12 月沪深 300 成分股的最小生成树资料来源:Wind;。注:左图为 2020 年 12 月,右图为 2019 年 12 月。图 3:2015 年 12 月与 2010 年 12 月沪深 300 成分股的最小生成树资料来源:Wind;。注:左图为 2015 年 12 月,右图为 2010 年 12 月。中心度的时序分析尽管剪枝后的沪深 300 成分股网络依然有较高的复杂度,各月度截面的差异并不容易观察,但直观来看,在每个月度截面上,一些股票位于网络的中心位置,与其他股票的关联性更强,位于网络边缘的股票只有稀疏的连接,这表明中心性这一类型的指标有助

21、于我们在横截面实现个股网络重要性的排序。通过时序分析我们发现,沪深 300 成分股的中心性表现出很强的“头部效应”,即中心性最强的前 20%股票的平均中心性要远远高于剩下的 80%,而剩下中心性较弱的 80%股票的平均中心性相差不大。图 4:沪深 300 成分股的度中心性均值与波动率资料来源:Wind;。节点关系利用互信息率计算。图 5:沪深 300 成分股的紧密中心性均值与波动率资料来源:Wind;。节点关系利用互信息率计算。图 6:沪深 300 成分股的介数中心性均值与波动率资料来源:Wind;。节点关系利用互信息率计算。从图 4 至图 6 可以看出,三大中心性指标均呈现出显著的头尾差异性

22、,特别是在节点度和介数中心性度量下,TOP20%的股票组合中心程度远远高于其余 80%的股票,且保持了明显的平稳性。为了进一步佐证这一现象,我们分别对回看窗口、收益率离散化等分区间和节点关系度量方法进行了修改和多组测试。实验发现在不同的参数和方法组合下,网络和节点的上述统计特性相对一致。不过,在动态时间规整算法下,沪深 300 成分股头尾组合的中心性呈现出一定的波动聚集性。在 2010 年初、2015 年中和 2020 年末等时段,个股中心性集体趋强,网络联系整体趋向紧密,同期市场确实出现了集体性冲高和一定程度的泡沫化,随后市场进入了快速的调整。这一发现与 Hakan Kaya 学者在海外资产

23、上类似研究的发现具有相似性,其认为资产池网络中心性系统性增强可以预示系统性风险的积聚,具有一定的择时效应。当然,对择时效应的研究并不在本文的讨论范围内,但从物理现实的对应程度来说,基于动态时间规整算法构建出的股票网络模型比基于互信息率的网络模型更贴近市场。图 7 和图 8 分别展示了基于动态时间规整算法构建网络的沪深 300 个股度中心性、紧密中心性序列。图 7:沪深 300 成分股的度中心性均值与波动率资料来源:Wind;。节点关系利用动态时间规整计算。图 8:沪深 300 成分股的紧密中心性均值与波动率资料来源:Wind;。节点关系利用动态时间规整计算。中心度因子在选股上的应用在上一节中,

24、我们注意到基于动态时间规整算法构建出的沪深 300 成分股网络模型更符合市场规律,我们以此模型进一步分析中心度是否具有对股票未来一段时间的收益 率具有解释性。由于股票网络在每个月末会重新生成,我们将标签自然地设置为未来一个月的收益率。我们先沿用“二八法则”进行分组,即每期中心性 Top20%的组合和 Bottom80%的组合,分别用上述指标按等权打分和加权打分进行测试。在不考虑换仓手续费的情况 下,得到如图 9 和图 10 所示的回测结果。而后,我们对中心度得分五等分进行分组测试,设置双边千三的手续费,得到如图 11 的回测结果。可以看到,股票中心度得分高的组合在未来一个月具有更高的收益率,T

25、op20%代表的“中心资产”在过去 10 年间稳健跑赢 Bottom80%代表的“边缘资产”,具有显著的超额收益。在考虑换仓手续费后,中心性较高的 G01 和 G02 组相对沪深 300 指数依然取得一定的超额收益,因子单调区分性明显,G01 组信息比率达到 0.43 也表明超配“中心资产”对组合表现的提升是有效的。事实上,在使用互信息率进行建模时,我们并没有找到稳健的超额收益分组,这也说明动态时间规整算法在刻画时间序列相关性时表现更优。图 9:沪深 300 成分股中心度等权得分因子头尾分组测试资料来源:Wind;。左图为简单平均收益率,右图为加权平均收益率。图 10:沪深 300 成分股中心

26、度加权得分因子头尾分组测试资料来源:Wind;。左图为简单平均收益率,右图为加权平均收益率。图 11:沪深 300 成分股中心度得分因子五分组测试资料来源:Wind;。左图为简单平均收益率,右图为加权平均收益率。表 1:沪深 300 成分股中心度得分因子分组测试绩效指标组合年化收益率(%)年化波动率(%)夏普比率最大回撤(%)超额收益率(%)超额收益波动率(%)信息比率胜率(%)超额收益最大回撤(%)基准3.6123.360.1540.550G015.9922.720.2636.982.295.290.4354.6114.75G025.0824.540.2040.081.416.070.235

27、0.0014.69G031.8725.400.0750.91-1.677.48-0.2248.4626.16G042.0025.570.0755.95-1.5510.65-0.1446.9236.90G05-0.1125.92-0.00458.11-3.607.66-0.4746.1539.13资料来源:Wind;值得注意的是,在 2019 年 4 月至 2020 年 7 月这段时间,中心度因子出现了一段明显的回撤。通过持仓分析,我们发现在该区间 Top20%组合中出现频次较高的个股大量来自银行保险、能源钢铁等低估值行业,如平安银行、宁波银行、宝钢股份、国电电力、杭州银行、中国平安等个股均上榜

28、近 10 次。在前 30 高持仓频次的个股中,仅有三一重工、海大集团、美的集团、正泰电器、云南白药、同仁堂 7 只个股来自其它行业。这一偏向顺周期和传统价值风格的持仓组合在极致的科技成长风格下确实表现乏力。当然,自 2020年 9 月以来,市场风格的再度转换也使得中心度因子结束回撤期,“中心资产”组合进入新的表现阶段。总结而言,通过构建股票网络模型计算而来的中心度得分因子具有不错的截面选股能力和一定的时序稳健性,但它在特定市场风格下的表现与价值、估值因子具有一定的相关性,更像是一类统计意义上的风险因子。这一因子是否具有 alpha 属性、能否作为价值大类因子的组成、是对什么风险的补偿是我们后续深入的研究方向。风险提示结论基于量化模型及历史数据,模型存在失效风险。参考文献Mantegna, R. N. 1999. “Hierarchical Structure in Financial Markets.” The European Physi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论