【基于GBDT模型的人民币兑美元汇率预测实证探究(论文)9400字】_第1页
【基于GBDT模型的人民币兑美元汇率预测实证探究(论文)9400字】_第2页
【基于GBDT模型的人民币兑美元汇率预测实证探究(论文)9400字】_第3页
【基于GBDT模型的人民币兑美元汇率预测实证探究(论文)9400字】_第4页
【基于GBDT模型的人民币兑美元汇率预测实证探究(论文)9400字】_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

导论1.1研究背景及其意义汇率一直是经济学家们热衷于研究的热点话题。汇率又称外汇利率或者外汇汇率,它指的是两种不同国家的货币之间兑换的比率,亦可视为一个国家的货币对另一个国家的货币的价值。当今时代,大多数经济体已经转向灵活的汇率制度,我国也不例外。随着我国国际化速度的加快,人民币汇率波动的幅度也在不停的增加。而在迅速增加的汇率波动性的影响下,我国的国际贸易和金融投资也会受到相应的影响。由此看来,对汇率走势和波动区间的预测和把握显得至关重要。既然汇率对于国家或地区的经济贸易影响重大,作为当今世界的经济大国,中美两国的汇率波动,也与中美两国的宏观经济变动息息相关。中美汇率的波动对我国经济的长期发展,尤其是对外贸易以及国际投资的稳定有非常重要的影响。即使是于风险投资者而言,想要在时刻变动的中美汇率上用最小的风险获得最大的投资收益率,对汇率波动走势和区间的预测也是必不可少的一环。但是想要对汇率进行预测是极其困难的,想要完美对汇率走势进行预测更是难上加难。造成这一结果的主要原因在于汇率的影响因素过多,且难以分析全面。仅仅是财政和经济系统当中,自身的变动会牵动汇率造成影响的因素就数不胜数,而在经济系统之外仍有许多因素会对汇率造成极大影响。因此学者们对汇率预测的研究从未停止。在之前的研究中,已有研究者根据经济学原理当中的购买力评价理论等经典理论构建时间序列模型对汇率进行预测,而这些方法最后的实证结果往往不甚理想。比起预测汇率,它们似乎在解释汇率变动的原因上更有说服力。即使在这一期数据的预测上表现良好,在下一期数据的预测时又会偏离数据原本的走向,成为无意义的数据预测。为了解决这一问题,考虑到机器学习模型更高的预测准确度,本文将使用一种机器学习模型:GBDT(梯度提升树)模型,结合多种宏观经济因子对汇率的走势进行分析,以求较精确的掌握其发展、变化的内在规律,对投资者的后续投资给出更好的指导。1.2主要工作与技术方法1.2.1论文主要工作本文的主要工作是利用梯度提升算法对数据进行回归预测,并且将其应用到美元兑人民币汇率的预测之中。在因子的选取上,本文选择了四个对汇率的影响程度较大且较直接的因子构建预测模型。分别为银行间同业拆借加权平均利率、价格指数、货币总量和通货膨胀率。本文的数据选取自2000年1月至2015年5月的以月为单位的汇率和十一个因子的数据。应用机器学习算法中的GBDT算法对汇率数据进行实证分析,借助Python软件进行分析模拟和预测,观察最后的拟合成果。1.2.2技术方法本文主要运用GBDT算法构建多因子模型,将数据集中前百分之七十五的数据作为训练集的数据,后百分之二十五的数据作为预测集的数据,用真实值比较预测值,用他们之间的误差判断模型的准确程度。最后通过MSE方法对模型进行评估,观察模型准确度。最终模型1.2.3创新与不足最终模型本文的创新在于使用了近年来开始流行的机器学习算法对汇率数据进行预测。并选取了多种宏观经济因子进行建模,得到多因子模型。而本文的不足之处在于最后的模型达到的预测精度较低,未达到预期效果。因子的选取未达到最优解,还需要增加因子的选取和模型改进。

2文献综述多年来,汇率预测一直是经久不衰的话题。许多学者都在汇率预测上花费了心血,也使用了许多的方法尝试对汇率进行预测。但是由于浮动汇率制被越来越多的国家采用,汇率的波动也开始变化的越来越快。而这对于汇率预测来说无疑带来了更大的挑战。对汇率造成影响的因素之间也具有复杂的非线性关系,想要对这样的数据进行预测将会变得极为困难。就目前的文献而言,对汇率的预测主要使用了时间序列模型和机器学习模型。2.1时间序列模型过去对于汇率时间序列的研究主要集中于使用ARIMA模型。早期的文献直接在简要介绍时间序列模型的基础上,使用人民币/美元的日汇率值进行实证研究,并建立相应的ARIMA模型或者EGARCH模型对已有的汇率数据进行预测和评价。早在2005年,上海理工大学的肖庆宪[7]就已经使用ARIMA模型和EGARCH模型对人民币兑美元的日汇率进行了分析预测。最后的预测结果显示,时间序列模型适合短期预测,长期预测效果较差。除此之外,由于汇率波动的集群性特征,他也使用了ARCH模型对汇率进行预测。结果表明,汇率的时间序列确实具有指数异方差性,相较于ARIMA模型,ARCH模型更适合较长周期的汇率趋势预测,预测误差也较小,但两个模型都不适合长期汇率预测,且只能对于较平稳的市场发挥其作用,限制性较大,准确性也有待提高。而在2016年,田志伟[4]对非平稳的时间序列进行了研究,寻找趋势当中“永久”的特征。由于时间序列模型对非平稳的时间序列研究准确性较差,他采用了差分的方法将非平稳的时间序列转化为平稳的时间序列,对2014年和2015年汇率波动较大的时间序列进行分析,且得到了较好的结果,但仍然无法对长时间的汇率进行预测,且精度较小。通过不同学者对不同时间序列的汇率使用ARIMA模型的结论,不难看出时间序列模型在汇率预测上有不能进行长期预测且预测准度较差的缺点,无法再进一步突破。2.2机器学习模型随着时间的推移,机器学习开始走进人们的视野,并慢慢应用于汇率预测的研究。机器学习是一门新兴的交叉型学科,它基于计算机科学、统计学、概率论等,并已经被应用到多个领域的研究中。在过往的统计模型中,根据已知的理论基础与可得的经验,与一定的数学方法与统计学方法,通过计算得到能够解释过往现象的“模型”,并应用于新的研究中。在机器学习中,经验一般是以“数据”的方式进行储存,计算机程序基于给定的“学习方法”以及“损失函数”,通过大量的计算“逼近”最接近于经验事实的“模型”。因此它在金融领域现在所展现出来的作用只是冰山一角,还有很多可挖掘的潜力。2020年开始,利用机器学习算法对金融时间序列进行模型构建的相关研究才逐渐增多,出现了采用多种机器学习算法比较最佳效果的研究,也有结合机器学习算法和时间序列方法进行汇率预测的研究。如林骁[9]使用了多种机器学习算法,如LASSO回归与弹性网络方法、主成分分析法、决策树,随机森林等对汇率进行预测分析,最后发现随机森林方法、主成分分析法和偏最小二乘法预测效果最好。在结合时间序列和机器学习算法的研究中,任思儒[6]就使用了GARCH时间序列模型和LSTM机器学习模型相结合训练模型,结果发现加入时间序列模型对于单纯使用机器学习模型对汇率的预测结果有了显著提升。2.3结论在汇率的预测问题上,从现有的研究来看,以时间序列模型和机器学习算法为主流。汇率的影响因素太多,不仅是在经济环境的变化上,国家政策也会对汇率的走势进行干预,像这样的因素是不可能一一考虑到的。而不同的宏观因子数据的计量单位不同,也导致只能得到数量有限的样本数据。因此我选择了机器学习算法当中的GBDT算法。GBDT算法能够在有限的样本上模拟出相较时间序列而言更加准确的模型,再通过这个模型获得精度较高的特征因子。尽管这些由模型得出的特征因子并不能达到百分之百的准确度,但是已经很接近真实结果,同时又能比得到真实结果减少大量的时间浪费,提供了可操作性。GBDT分析的目的主要可以体现在两个方面,第一个就是获得训练样本序列产生的随机机制,即通过训练数据得到数学模型;第二个就是在训练数据的基础之上,预测训练样本序列未来可能的取值取值,并且与真实值进行对比,观察模型的预测准度。在传统的方法中,时间序列分析方法一直是汇率问题研究的有效方法,但局限性强,预测结果也不够精确。而我所使用的GBDT算法更加灵活多变,误差更小,能够在恰当的模型中对汇率进行模拟和预测,同时也能够为金融公司的财富积累和风险投资者的投资行为进行引导与建议。3理论与方法3.1什么是GBDT算法3.1.1GBDT背景简介GBDT(GradientBoostingDecisionTree)算法是一种对决策树进行迭代的算法,又叫MART(MultipleAdditiveRegressionTree)算法。GBDT算法通过构造一组弱学习器,得到多颗决策树,并且把多颗决策树的结果进行累加,将累加的结果作为最终的预测值进行输出。GBDT算法是决策树与集成思想的有效结合的典型。GBDT的集成思想使其具有天然优势,可以在大量杂乱无章的数据中发现有区分性的特征或者特征组合。自算法的诞生之初,它就和SVM一起被认为是泛化能力较强的算法。近些年来更因为被用于构建搜索排序而引起广泛的关注。它最早被应用于雅虎,后又被广泛应用在搜索排序、点击率的预估上。业界中,Facebook就使用了GBDT算法来对用户使用过程中收集到的大量数据自动发现并区分出许多有效的特征或者特征组合,将其作为LR模型中的特征输入,并通过这样的方法来提高使用CTR预估(Click-ThroughRatePrediction)算法预测数据走势的准确性;除此之外,GBDT在淘宝的搜索及预测业务上也发挥了重要作用。在竞赛中,GBDT也是经常为参赛者所使用的一种机器学习算法。因为它不仅具有强大的场景适应性,而且相比较于其他算法还有着出众的准确率。如此优异的性能也让GBDT收获了机器学习领域的“屠龙刀”这一赞誉。3.2GBDT算法流程首先GBDT算法是采用加法模型,将基函数进行线性组合,并通过不断地减小训练过程当中产生的残差来实现对数据的分类或者回归。GBDT算法在训练的过程中需要通过多轮迭代,并且在每轮迭代结束时产生一个弱分类器,再对该弱分类器在上一轮迭代产生的弱分类器的梯度基础上进行训练。如果损失函数是平方损失函数,则梯度就是残差值。在使用GBDT算法训练模型的过程中,一般来说对弱分类器的要求即足够简单,并且有尽量低的方差值和偏差值。这是由于模型训练的过程就是不断地降低偏差值并以此提高分类器的精度,从而提高模型的精度。在弱分类器的选择上一般以分类回归树为主,并且每棵分类回归树的深度都较浅。最后将每轮迭代得到的弱分类器进行加权求和得到的总分类器,就是我们最后要得到的加法模型。假设该模型一共训练M轮,每轮迭代产生一个弱分类器。GBDT算法是通过极小化经验风险来确定下一轮迭代出的弱分类器的参数。GBDT算法可以选择不同的损失函数,包括0-1损失函数,平方损失函数,对数损失函数等等。不同的损失函数最后得到的差值不同,如果选择平方损失函数,那么这个差值就是残差。构建GBDT模型的关键点:希望损失函数能够不断的减小;希望损失函数能够尽可能快的减小。总而言之,GBDT算法的核心在于拟合回归树的算法。模型使用当前的训练模型中损失函数的负梯度值作为提升树回归问题中残差的近似值来对回归树进行拟合。并且这一过程在GBDT算法每轮迭代的时候重复进行,并对弱学习器进行更新。损失函数的负梯度值也在一轮轮迭代中不断拟合,这样每轮训练的时候都能够让损失函数尽可能快的减小,尽快的收敛达到局部最优解或者全局最优解。这才造就了GBDT算法强大的回归能力。3.2.1DecisionTree:CART回归树首先,GBDT使用的决策树是CART回归树。这取决于GBDT算法的特性:GBDT算法每次迭代都需要对连续的负梯度值进行拟合,因此无论处理回归问题或者二分类及多分类的问题,CART回归树都是都是决策树的不二选择。回归树算法中,如何寻找最合适的划分点对决策树进行划分也是一大难题。回归树中所有特征因子可能的取值都可以作为回归树的划分点。在分类树中,为了寻找最佳划分点,一般用熵或者基尼系数的纯度作为标准对其进行判断。但如果想要对连续的样本标签进行衡量,上面的指标便不再合适,这时一般采用平方误差的指标对模型拟合精度进行评价。回归树生成算法:输入:训练数据集D;输出:回归树;在将训练数据集D输入的空间中,把每个不同的区域递归划分为两个子区域并以此构建二叉决策树和决定每个子区域的输出值。(1)选择最佳切分变量a与切分点b;(2)用选择的(a,b)划分子区域并决定区域相应的输出值;(3)继续对子区域调用步骤(1)和(2)的过程,直到满足停止条件为止。(4)将输入空间划分为M个区域R1,R2...Rm,生成决策树:(3.1)3.2.2GradientBoosting:拟合负梯度  梯度提升树(GrandientBoosting)是提升树(BoostingTree)的一种改进算法,那么先对提升树的原理进行分析。一、提升树算法:初始化;对m=1,2,...,M:(a)计算残差(3.2)(b)拟合残差学习一个回归树,得到(c)更新得到回归问题提升树:(3.3)二、GBDT算法GBDT算法将前面提到的回归树与拟合负梯度进行结合,由弱学习器训练得到强学习器,并计算得出最佳拟合值。GBDT算法步骤如下:初始化弱学习器:(3.4)对m=1,2,...,M有:(a)对每个样本i=1,2,...,N计算负梯度,即残差:(3.5)(b)将得到的残差数据作为样本新的真实值,并将数据作为下一棵树的训练数据;(c)对叶子区域计算最佳拟合值:(3.6)(3)得到最终学习器。3.3结论总而言之,GBDT算法主要通过构造弱学习器,对决策树的结果进行累加得到最终模型。GBDT算法可以通过自动构建CART树,不断进行迭代,以提高对数据预测的准确度。同时GBDT算法的一大优势在于它可以对非线性的数据进行处理,包括连续值和离散值。除此之外GBDT在训练过程中使用了拥有强大异常数据处理能力的损失函数,预测准确率相比其它方法而言也更高。接下来使用GBDT算法对中美汇率预测进行实证分析,观察GBDT算法的表现如何。4中美汇率预测实证本文选取了四个宏观经济的特征因子构建多因子模型,将得到的数据集分为训练集和预测集,用训练集的数据训练模型,再将模型应用于预测集的数据当中,观察数据拟合结果,对模型进行评估。4.1数据选取本文选取的十一个宏观因子分别为:全国银行间同业拆借加权平均利率。该利率是根据全国范围内信用等级较高的银行组成报价团再自主报出的人民币同业拆出利率计算确定的算术平均利率,是单利、无担保、批发性利率。居民消费价格指数。我国居民消费价格指数采用国际通用做法,编制定基价格指数序列,将对比基期固定在2000年,即主要以2000年的城乡居民消费支出资料来确定基期年的消费量,以2000年平均价格水平作为对比基数,通过链式拉氏公式计算之后每一期的价格变化。其公式为:(4.1)其中:P--代表性消费品的价格a--权重。货币总量。货币总量是指投入流通中的纸币的总额。由于数据较大,对数据取对数。通货膨胀率。通货膨胀率,也称为物价变化率,主要用以衡量市场上货币贬值、通货膨胀的程度大小,是超出实际需要的货币量与在市场上实际流通需要的货币量之比。货币在市场上的流通与商品价格,也就是消费者价格有着最为直接的联系。因此这里使用消费者价格指数对通货膨胀率进行解释,用价格指数的同比增长率代表通货膨胀率。香港贴现窗基本利率。基本利率是用作计算经贴现窗进行回购交易时适用的贴现率的基础利率。目前基本利率定于当前的美国联邦基金利率目标区间的下限加50基点,或隔夜及1个月香港银行同业拆息的5天移动平均数的平均值,以较高者为准。隔夜香港银行同业拆出利率。香港隔夜离岸人民币银行同业拆放利率就是指香港银行间以一天为期限互相拆借资金的利率。1个月香港银行同业拆息定价。是指香港银行间以一个月为期限互相拆借资金的利率。拆出利率。表示银行间愿意贷款的利率。名义有效汇率指数。名义有效汇率指数是根据一定的权重对我国与若干样本国家的名义双边汇率进行加权得到的汇率。我国的名义有效汇率等于其货币与所有贸易伙伴国货币双边名义汇率的加权平均数,实际有效汇率指数。实际有效汇率是剔除通货膨胀对各国货币购买力的影响,我国货币与所有贸易伙伴国货币双边名义汇率的加权平均数。美国居民消费价格指数。美国发布的居民消费价格指数是反映一定时期内城市居民购买的生活消费品价格和服务项目价格的变动趋势和程度的相对数,居民消费价格指数的变化对货币政策和财政政策都可能产生影响。所有因子选取的都是从2000年1月至2015年5月以月为单位的数据,共186条数据。最后采用的汇率数据是选取了2000年1月至2015年5月的中美汇率月度数据共186条。其中汇率的意义是1美元兑换人民币的期末价格。再将2000年1月至2011年7月的共139条月度数据作为训练区间,将2011年8月至2015年5月的共47条数据作为预测区间。4.2识别嘈杂特征嘈杂特征容易造成模型过拟合,因此在建模之前识别嘈杂特征是有必要的。本文使用featexp方法对训练集和测试集的数据进行趋势相关性分析。分析结果见表4.1。表4.1趋势相关系数表特征相关系数全国银行间同业拆借加权平均利率0.945249居民消费价格指数0.646904货币总量0.945249通货膨胀率0.17253香港贴现窗基本利率0.949808隔夜香港银行同业拆出利率0.9353271个月香港银行同业拆息定价0.907916拆出利率0.949808名义有效汇率指数0.928032实际有效汇率指数0.937879美国居民价格指数0.996356可以看出在所有特征中,美国居民价格指数、实际有效汇率指数、名义有效汇率、拆出利率、香港贴现窗基本利率等趋势相关性较高,可结合因子重要性分析进行特征因子的筛选。4.3模型参数调整4.3.1弱分类器数量选择构建模型得到可视化R2(1-偏差)随着树数量的变化趋势图4-1。图4-1可视化R2变化趋势图从图中可以看出,树的数量提升对模型的影响有极限,最开始,模型的表现会随着树的数量一起提升,但到达某个点之后,树的数量越多,模型的效果没有明显的改变,这也说明了暴力增加弱分类器的数量不一定有效。当弱分类器数量等于960时,模型的偏差最小。因此将弱分类器数量更改为960。4.3.2loss损失函数选择使用不同的损失函数对模型进行分析,得到表4.2。表4.2泛化误差表lossr2vargels0.9911160.0000090.000088lad0.9865720.0000300.000210huber0.9915300.0000060.000077quantile0.8329150.0037720.031690从表中可以看出,当loss函数是huber函数时,模型的r2最大,方差最低,模型的泛化误差最低,综合考虑用huber函数作为损失函数。通过对其它参数的分析,综合考虑决定替换弱分类器数量为960,并选择huber函数作为损失函数,再将函数对训练集进行训练,得到最终模型,并使用最终模型进行预测。4.4模型评估4.4.1用MSE函数评估模型使用损失函数中的均方误差(MSE)来对调整后的模型进行评估。MSE的计算公式为:(4.2)其中:为时间预测的波动率;为t时间的已实现波动率;T为预测区间的总数目。使用MSE函数对模型效果进行评估,最后得分为0.013136653032801074。将预测集的预测值输出为黑色实线,真实值输出为红色虚线,输出结果为图4-2。图4-2模型预测结果4.4.2特征因子重要性评估用排列重要性方法对各特征因子重要性进行评估,得到表4.3。表4.3重要性排列表权重特征1.4812±0.5853美国居民价格指数0.0039±0.0014货币总量0.0019±0.0007名义有效汇率指数0.0016±0.0005实际有效汇率指数0.0012±0.0004全国银行间同业拆借加权平均利率0.0009±0.00011个月香港银行同业拆息定价0.0008±0.0011居民消费价格指数0.0005±0.0002拆出利率0.0003±0.0001隔夜香港银行同业拆出利率0.0002±0.0001香港贴现窗基本利率0.0000±0.0000通货膨胀率从表中可以看出美国居民价格指数的重要性十分显著。部分依赖图简称PDP图,能够展现出一个或两个特征变量对模型预测结果影响的函数关系。特征选择:当某个特征的PDP曲线几乎水平或者无规律抖动的时候,这个特征可能是无用的特征;当某个特征的PDP曲线非常陡峭的时候,说明这个特征的贡献度是比较大的。各特征PDP图见图4-2。图4-3各特征PDP分析图通过对各特征PDP图的对比,发现美国居民价格指数对模型的贡献度最为显著。而其它因子的贡献度较小。4.5结论在选取的十一个宏观因子当中,外汇美国居民价格指数因子相对于其它宏观因子而言,相关系数最高,重要性最显著,且贡献度最高。最后训练出的模型拟合度较高,预测较为准确。5模型总结5.1总结与反思本文选取了十一个宏观因子构建GBDT模型对汇率进行预测。该模型的优点在于在数据时间序列跨度较大且数据波动性较大的情况下,仍表现出了较高的预测精度。说明了GBDT模型对人民币兑美元汇率的良好预测性能。除此之外,我发现在选取的因子当中美国居民价格指数因子对模型贡献度最高。而该模型的缺点在于在这十一个因子构建出的模型中,除美国居民价格指数以外的因子贡献度过低,即只找到了一个显著性因子。在对模型的改进上,我认为可以选取更多的预测因子,例如GDP、产出缺口等汇率影响因素。除了特征的选择,还可以尝试对数据做离散化处理,观察模型的表现。除此之外,在模型的选取上,可以选择更多的机器学习算法。例如对汇率的时间序列构建xgboost与LSTM等模型,或者将它们与时间序列模型相结合,并观察不同模型的预测结果,寻找精度最高的模型。5.2研究意义美国一直稳居当今世界最大经济体的宝座,而中国后来居上,中国的国民生产总值也已达到世界第二的水平,仅仅次于美国。因此中国想要发展壮大,在其道路上必然有美国的身影,两者在今后的发展道路上,上到经济战略,下到民生生活,无论是在宏观还是微观上都有着密不可分的关系。而中美汇率就是衡量两国经济关系的重要因子,它的变化对于两国甚至是世界来说都至关重要。而GBDT模型能够在一定程度上对模型的波动趋势与波动区间进行预测和指导方向,这对于国家和汇率的投机者来说都有一定的参考意义。5.3未来展望本文在使用机器学习算法对汇率预测进行研究分析的道路上取得了一定的进展,但仍有许多缺陷和遗憾没有完成。由于自身学识的不足,对汇率的时间序列预测分析并没有展示出深度的内涵。从预测结论中可以看出,模型的建立仍有许多需要完善的部分。想要继续对人民币兑美元汇率进行预测分析,我认为可以选取更多的特征因子,并且尝试将时间序列模型与GBDT模型相结合,观察模型的拟合精度能否再有所提升。

参考文献[1]操玮,任思儒.基于LSTM与GARCH族混合模型的人民币汇率波动预测研究[J].计算机应用研究,2020,37(S1):79-82.[2]戴晓枫,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论