




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十九章
大数据机器学习方法在金融学中的应用
学习目标1.理解大数据机器学习方法在金融研究中的一些应用2.了解非线性Lasso方法3.了解工具变量主成分分析法(IPCA)4.了解如何使用机器学习进行纠偏
章节简介本章聚焦于股票收益率的样本外预测、潜在因子模型的构建和从大量可观测因子中筛选出最有定价效能的因子这三个方面,介绍机器学习方法在其中的实证应用。识别并验证哪些变量具有真正的解释力和定价能力
强调机器学习模型在处理高维数据和复杂关系中的应用股票收益率横截面预测实证高维问题和机器学习解决方案:传统线性模型(如Fama-MacBeth回归)在高维情况下容易出现多重共线性和过拟合问题。机器学习方法通过正则化和降维(如PCA)解决这些问题。机器学习可以更好地处理非线性关系,如神经网络模型可以近似任意非线性函数。Gu,Kelly,andXiu(2020)的研究:机器学习方法用于预测股票收益,包括弹性网、主成分回归(PCR)、偏最小二乘(PLS)、回归树和神经网络。回归树表现优于广义线性模型,神经网络表现最好,浅层学习效果优于深层学习。重要特征包括动量、流动性、风险测度、估值比率和基本面信号,宏观经济变量中账面市值比最重要。由散户投资者主导,导致高波动性和短线交易行为。中央控制的银行主导金融体系,市场自动修正机制受政府影响。卖空限制导致市场定价效率低于西方市场。相关研究:Leippold,Wang,andZhou(2021)的研究:流动性成为最重要的预测因子,中国市场显示出更大的可预测性,特别是小规模和非国有企业的股票。散户投资者对短期可预测性有正向影响,长期来看大盘股和国有企业有较高可预测性。Freybergeretal.(2020)和Wangetal.(2023)的研究:在美国和中国市场应用非线性Lasso方法,展示了机器学习在处理高维股票收益预测和非线性问题方面的优势。中国市场的特点Fama-Macbeth回归是一个两步截面回归检验方法,它非常巧妙排除了残差在截面上的相关性对标准误的影响,适用于预测股票收益率等残差项横截面相关性高、时间序列相关性不高的情况。
首先基于时间序列回归估计每个测试资产的因子暴露
第二步是横截面回归,在每个横截面上计算如下回归
然后将每个横截面的估计取均值作为Fama-MacBeth回归的估计
基于回归的预测方法
基于回归的预测方法Lasso
非线性Lasso(非参数组Lasso)假设特征与条件预期收益之间存在非线性关系,在𝑡时,第𝑗个特征与股票条件预期收益之间的关系可以描述为
自适应LassoLasso在变量选择和参数估计上不具有一致性,使用自适应Lasso(AdaptiveLasso)则可以解决这一问题
即基于第一轮Lasso训练的参数对不同参数的惩罚项进行加权,对第一轮训练得到的估计值较大的参数进行较低的惩罚,从而在第二轮Lasso中获得具有一致性的估计结果。
类似地可以得到自适应组Lasso模型,即基于第一轮每组参数的训练结果对每组的惩罚项进行加权后进行第二轮训练。
交叉验证
机器学习模型确定超参数比如上面Lasso中的超参数𝜆时往往采用交叉验证的方法
5折交叉验证:划分训练集和测试集之后,再进一步将训练集随机划分为5等份;选定一个超参数值,第一轮训练模型时,采用第2、3、4、5份训练集数据训练模型,使用第1份训练集数据作为验证集,计算验证集上目标测度比如均方误差的值;第二轮训练时采用第1、3、4、5份训练集数据训练模型,使用第2份训练集数据作为验证集,测度验证集上模型的表现;由此进行5轮训练后得到5个模型表现测度值进而计算出模型表现平均值,对比不同超参数值下模型表现的好坏,取模型在验证集上表现最好时的超参数并重新使用完整的训练集训练模型。
使用k折交叉验证的弊端:如果使用未来股票信息训练模型而使用过去的数据检验“预测”股票收益的好坏,存在前瞻性偏差
时间序列交叉验证:将训练集按时间顺序从早到晚划分成均匀的5份,第1份时间最早,第一轮训练模型时,采用第1份训练集数据训练模型,使用第2份训练集数据作为验证集,第二轮则用第1、2份数据训练,第3份用来验证,直至第五轮用前4份数据训练,第5份数据验证
预测因子的实证表现对股票横截面收益率具有预测作用的因子类型:应计负债、债务发行、投资、低杠杆、低风险、动量、盈利能力、质量、季节性、短期逆转、价值等
主流的多因子模型都是稀疏的,即一般不超过5个因子,稀疏因子模型之间发生了激烈的竞争对比
Fama-French五因子(FF5)模型、Hou-Xue-Zhang四因子(q4)模型、BarillasandShanken(2018)根据对FF5、q4等模型进行贝叶斯因子检验的结果提出的六因子模型、Hou-Mo-Xue-Zhang五因子模型
下面展示一些常用因子在中国和美国市场上的表现
表1记录了2000年1月至2023年12月中国和美国市场上部分常用因子的表现
MKtRf——市场因子、SMB——市值因子、VMG/HML——价值因子
表1:因子历史平均月度表现(2000年1月至2023年12月)
在基于Fama-French三因子构造中国三因子时,Liuetal.(2019)剔除了市值最小的后30%的股票以避免壳价值污染
根据表1,经过Liuetal.(2019)改造后的规模因子和价值因子在近24年都有着显著的正收益,相比之下PanelB中Fama-French因子在近24年并没有取得显著的正收益,PanelA中Liuetal.(2019)规模因子和价值因子的累积收益也远高于PanelB
中美国市场上Fama-French因子的表现
预测因子的实证表现基于Wangetal.(2023)构建的132个中国股票收益预测指标,使用机器学习方法对沪深300成分股的收益进行预测
使用Fama-MacBeth回归、自适应Lasso、自适应组Lasso三种方法,采用12年窗口的滚动估计,股票特征在横截面上进行排序并转换为0到1之间的取值
表2:股票收益预测多空组合表现
AGLasso、ALasso、FMB分别代表自适应组Lasso、自适应Lasso、Fama-MacBeth回归,KFold和TSCV则分别代表普通5折交叉验证和5折时间序列交叉验证
Fama-MacBeth回归选股能力最弱,最优的方法是使用基于时间序列交叉验证的自适应Lasso
组Lasso样本外存在过拟合现象,与沪深300的样本空间较小有关
预测因子的实证表现工具变量主成分分析法简介
将股票(或其他资产)的收益率用以下的线性因子模型来描述
相对于经典的因子定价模型,IPCA方法具有两个显著的优势
第一,IPCA模型结合了来自资产特征的附加信息来估计资产收益的潜在因子结构,而经典的基于主成分分析的潜在因子模型的则只使用资产的收益率信息
第二,IPCA模型是一个条件资产定价模型,可以描述因子载荷的动态变化。此特性可以缓解定价研究中的两个挑战,高维性和迁移资
检验资产特征变量在收益率截面定价能力的常用方法是投资组合排序法;
IPCA模型拓展投资组合排序法到高维空间,构造了特征与期望超额收益的关系
投资组合排序和IPCA有两点不同
1.投资组合排序在检验特征的定价能力的时候只能同时控制一个或者两个特征,而IPCA方法不受特征数量的限制2.投资组合排序构造的是可观测的因子,但是IPCA没有预设定价方程的因子结构,而是通过统计方法来估计潜在因子。
工具变量主成分分析法简介
线性映射参数的估计
目标是最小化复合模型的误差平方和,即
线性映射参数的估计
对于无约束模型,截距𝛼𝑖𝑡+1是工具变量的线性函数,允许超额收益以与系统性风险无关的方式依赖于特征变量
这可以理解为动态贝塔对超额异常回报的横截面回归系数估计量
线性映射参数的估计
IPCA方法的资产定价实证检验
检验模型设定为
原假设和备择假设分别为
假设推断通过bootstrap完成第二个非常有用的检验是,具有预先指定的可观察因素的有影响力的模型是否可以为IPCA模型增加解释能力,从而可以比较不同的定价模型。模型设定为
对应的Wald型检验统计量为
它测量模型(19.14)和不包括可观察因子的IPCA模型之间的距离。假设推断通过bootstrap完成
相应的,Wald型检验统计量为
IPCA方法的资产定价实证检验
IPCA在美国市场的实证表现
Kellyetal.(2019)使用美国股票数据表明,IPCA解释股票超额收益率的表现优于传统的资产定价模型,并给出了一个很好的例子来实施和解释IPCA的潜在因子。
股票回报和特征数据来自Freybergeretal.(2020)。时间段介于1962年7月至2014年5月之间,股票数量为12,813只,每只股票都有36个特征。
为了消除异常值的影响,我们对每个横截面的股票应用秩变换
它衡量了模型对条件预期回报的描述能够解释的已实现回报变化的比例
表3:IPCA模型美国市场实证表现
表3的面板A报告了当潜在因子数量为1至6时个股的拟合优度。
受限制的单因素IPCA模型无法解释条件预期回报的异质性
当我们考虑多个IPCA因素时,约束模型和无约束模型的差距逐渐缩小
表3的结果表明,如果规范中至少包含五个因素,IPCA基本上解释了与股票特征相关的平均股票回报的所有异质性。它通过识别一组因素和相关负载来做到这一点,使股票的预期回报与其对系统性风险的敞口保持一致,而无需诉诸异常收益来解释特征的预测作用
IPCA在美国市场的实证表现
如何从大量可观测定价因子中识别出有效定价因子
本节主要探讨资产定价研究中的一个核心问题:哪些因子才是构成真实因子定价模型的有效因子。
经典的多因子模型,如Fama-French的三因子、五因子模型,用因子风险溢价来解释资产的预期收益,这些风险溢价是基于市场对于承担特定风险的额外补偿。然而,检验一个因子是否具有显著的风险溢价并不足以证明该因子真正具有定价能力
一个有效的因子,是指其与SDF的相关性显著,即该因子捕捉到了资产定价中的系统性风险,而不是指它具有显著的风险溢价
随机贴现因子理论
我们可以用两个基本公式来描述资产定价(HansenandRichard,1987和Cochrane,2005)
为了更深入理解这个概念,让我们来看一个关于效用最大化的问题
随机贴现因子理论
随机贴现因子与多因子模型
多因子模型通过分析各种经济因素,比如GDP增长率、消费增长率,来解释资产价格为何各不相同。实际上随机贴现因子与多因子模型是等价的
因此研究者将GDP增长率、消费增长率、汇率走势以及其他评估经济状态发生可能性的宏观变量定义为“定价因子”(pricingfactor)。(19.27)式中提到的边际效用增长率难以直接度量,因此实证中研究者常用这些定价因子作为增长率的代理变量:
这里将随机贴现因子表达为一系列定价因子的组合,这和我们通常见到的多因子模型非常相似
公式(19.31)展示了多因子模型的一般形式:
我们可以证明公式(19.30)和(19.31)在数学上是等价的。
对比(19.31)式与(19.33)式,易推出:
这些推导显示了随机贴现因子和多因子模型在数学上是等价的。这意味着,一旦我们有了一个多因子模型,我们就可以找到相应的随机贴现因子表达式,反之亦然
随机贴现因子与多因子模型
双重Lasso回归方法
当我们有大量数据并想找出哪些因素真正影响资产定价时,传统方法如最小二乘法可能不太适用。这时,Lasso回归、决策树和神经网络这样的机器学习方法能有效处理这种高维数据,但它们可能因为过分适应数据中的“噪声”而无法提供无偏的估计结果。
为了解决这个问题,Fengetal.(2020)提出了一种新的方法:双重选择Lasso模型。这个方法首先用Lasso回归挑选出最能解释收益率的因子,然后再用Lasso回归找出可能被遗漏的变量。这样一来,我们就能在一定条件下满足估计的一致性。在这一节中,我们将讨论如何运用双重选择Lasso法来估计随机贴现因子载荷,并将这个方法应用到对中国A股市场的实证研究中
双重Lasso回归方法
对股票收益率和所有基准因子之间的关系进行Lasso回归分析:
由于实际中样本量有限,传统的Lasso回归可能无法百分之百准确地选出真正的模型,可能会遗漏一些重要变量。这意味着单纯依赖一次Lasso回归可能会导致对SDF载荷的错误统计推断。因此,我们需要进行第二步的Lasso回归,以找出那些在第一步中可能被遗漏的、但仍对解释资产收益率有贡献的因子:
双重Lasso回归方法
双重Lasso回归方法
因子与测试资产
在这一节中,我们的目标是探索一些新的定价因子,看看它们在基准因子的基础上是否对测试资产有边际解释力。首先介绍A股市场主流定价因子的定义,并在本章的附录一中给出了因子的详细构建方法,之后介绍如何构建测试资产去检验这些因子和其他潜在因子的解释力。更多关于主流因子模型在A股市场的实证研究,可以参考Chen,Wu,andZhu(2022)和Chen,Shen,andLiu(2021)的研究。
表19.4:A股市场基准定价因子描述性统计
在表19.4中列出了金融学文献中的主流因子模型,和这些模型在中国A股市场的表现。除此之外,我们还考虑了两个额外的因子。第一个是基于Amihud(2002)的非流动性测度构建的流动性因子AMI,第二个是Asnessetal.(2013)提出的QMJ因子(Quality-Minus-Junkfactor)。在A股市场这两个因子也有显著的正收益率。
表19.5:CH-4四因子模型下显著的市场异象单变量分组检验
除此之外,我们还考虑了其他7个在文献中提出,并在A股市场表现显著的市场异象,包括季度总资产比市值(amq)、总资产收益率变化(droa)、净资产收益率变化(droe)、Fama-French三因子调整的异质性波动率(ivff)、季度销售增长(sgq)、短期收益反转(srev)和股票换手率变化(vturn)。对于每一个异象,我们根据每个特征的30%和70%将股票分成3个投资组合,并且对变量进行调整,保证高排名与更高的平均回报相关联。同时,我们根据市值的中位数将股票分成两组,因子的收益是两个高特征投资组合的平均值与两个低特征投资组合的平均值之间的收益差。表19.4提供了这些待测试因子的平均值、标准差、𝑡值、年化夏普比率、偏度和峰度
因子与测试资产
为了确保我们的测试资产不会受到某些特定因子结构的影响,我们选择了大量的特征变量,并通过分组排序的方法来构建测试资产。我们选择了26个显著的公司特征变量来构造投资组合作为因子检验的测试资产。这26个显著的特征变量包括盈余公告日前后累积超额收益率、换手率、Amihud非流动性比率、季度总资产比市值、Dimson贝塔值、净值市价比、资产回报率变化、净资产回报变化、美元计价交易量、预期投资增长、收益价格比率、投资增长、Fama-French三因子调整的异质性波动率、长期收益率反转、前24个月收益价格动量、最高日度收益、前5年年末平均收益附近的累积异常收益率、11个月动量、研发费用占市值比、净资产回报率、季度销售增长、季度股价与销售额比率、短期收益反转、总波动率、股票美元交易量变化和股票换手率变化。我们采用独立双重分组排序方法,将所有A股上市公司根据它们的市值和这26个公司特征变量分别构建5×5的投资组合,共构建了650个(25×26)投资组合。这些投资组合将作为我们因子识别检验的测试资产。
表19.6:待测试因子的描述性统计表
因子与测试资产
实证结果
继上一小节介绍了因子模型和测试资产构建之后,这一节我们将探讨使用双重选择Lasso方法在中国A股市场上进行因子识别的实证研究结果。我们从表19.6中选取了10个因子作为我们的待测试因子,接下来的目标是检验这些具有显著风险溢价的因子是否能够帮助我们解释不同测试资产的收益率差异。
考虑所有20个基准因子,应用双重选择Lasso法的两步筛选共选出了4个基准因子,包括预期增长(𝑅𝑒𝑔)、流动性(AMI)、质量因子(QMJ)和市场超额回报(MKT),其中前三个因子来自第一步,最后一个因子来自第二步。我们选择这些因子而不是Liu-Stambaugh-Yuan提出的中国市场CH-4模型中的因子,是因为选定的基准因子能更好地适应我们的测试资产。事实上,相较于CH-4模型,这些因子对于我们650个测试资产的收益有更强的解释力。
表19.7:随机贴现因子载荷估计
从表19.7的结果中我们可以看到,在10个待测试因子中,有8个在5%的显著性水平下具有显著的随机贴现因子载荷,这些因子多数被归类为交易摩擦类因子。相比之下,当我们使用Liu-Stambaugh-Yuan的CH-4模型作为对照时,有7个因子具有显著性。两种基准因子模型下都显著的因子包括盈余公告日前后累积超额收益率(abr)、Dimson贝塔值(betad)、总资产收益率变化(droa)以及Fama-French三因子调整的异质性波动率(ivff)。这种差异的出现是因为两种方法使用了不同的基准因子,而基准因子的选择对于评估新因子的额外贡献有着重要影响。
实证结果
表19.8:因子模型定价能力对比
实证结果
自纠偏机器学习法识别有效因子
介绍了在线性的随机贴现因子假设下如何识别能够解释横截面股票收益的因子。但实际上,这种线性关系并不一定成立。例如JagannathanandKorajczyk(1986)表明,与期权特征相类似的股票(如高杠杆公司股票)的被动投资组合收益可能与市场收益有非线性关系。因此,本节在假设随机贴现因子具有非线性结构的基础上,介绍Chernozhukovetal.(2022)提出的自纠偏机器学习(AutomaticDebiasedMachineLearning,ADML)方法,并采用该方法来估计A股市场定价因子的随机贴现因子载荷。
自纠偏机器学习法
自纠偏机器学习法
自纠偏机器学习法
自纠偏机器学习法
数值模拟过程
数值模拟结果
图19.1:数值模拟结果
定价因子识别实证研究
在这一节中,我们探讨了在解释中国和美国股票市场的收益方面,哪些因子起到了重要作用。作为世界上最大的新兴资本市场,中国股市的散户投资者占比很大,套利的限制性也相对更强,这使得它与美国股市的交易和定价性质具有显著的差异。
仿效Houetal.(2020)和Chenetal.(2022),我们使用国泰安数据库(CSMAR)的交易和财务数据,构建了132个描述中国股票市场的公司特征。在该实证研究中,使用了762个3×2的投资组合作为测试资产,样本期覆盖了2000年1月到2021年12月。另一方面,美股市场作为一个更成熟的资本市场,我们参考了Fengetal.(2020)的方法,选取了150个风险定价因子作为美国市场的因子库,并使用750个3×2的投资组合作为测试资产。这部分数据的样本期是从1976年6月到2017年12月。
我们使用自纠偏机器学习(ADML)方法来分析在中国A股市场和美国股市中各个因子相对于其他因子的边际贡献。有趣的是,我们在这两个市场中发现了一些相似和不同的特点。
首先,在两个市场中,与估值比率、盈利能力和投资相关的因子都非常重要。但是动量和反转类因子,比如动量因子(UMD)和36个月的动量(mom36m),在解释美国股市的收益时非常显著。而在中国A股市场,与动量相关的因子,如过去6个月的回报(r6)、过去11个月的回报(r11)和短期反转(srev)在A股市场不具有显著的增量定价能力。这些发现与Lietal.(2010)和Cheungetal.(2015)一致,体现了我国A股市场的动量效应较弱。
另外,与博彩效应相关的因子,在解释中国股市的收益方面非常重要。这些因子包括采用FamaandFrench(1993)三因子模型计算的特质波动率(ivff)以及最大日收益率(mdr)。相比之下,在美国股市中,这些彩票类因子的表现较弱。中国股市中的大量交易由个人投资者而非机构投资者主导(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 药物与疾病关系图谱解析试题及答案
- 2024年汽车安全标准理解试题及答案
- 宠物营养师考试的常见问题解答试题及答案
- 省考宠物营养师技能要求试题及答案
- 2024年食品质检员考试的参考书籍试题及答案
- 了解2024年二手车评估师考试流程及试题答案
- 酒店防台抗汛知识课件
- 科学规划美容师考试的复习路线试题及答案
- 汽车的安全检测标准流程解析试题及答案
- 统计学回归预测能力试题及答案
- 活动8无土栽培智慧多(课件)四年级劳动北师大版
- 《论语》全文带拼音有注释(完整版)
- 慢性心力衰竭患者液体出入量智能化管理实践
- 2024-2030年中国碳金融行业市场深度调研及发展战略与投资前景研究报告
- 二年级下册口算题1000题大全-
- 提高急诊科高危患者转运成功率
- 五年级下册语文:第3-4单元测试题 含答案 部编版
- 精神障碍社区康复服务流程图
- 中外政治思想史-形成性测试四-国开(HB)-参考资料
- 2024年山东省济南市莱芜区中考一模化学试题
- 膜萃取技术及其应用研究进展
评论
0/150
提交评论