版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、正文目录 HYPERLINK l _TOC_250016 研究背景3 HYPERLINK l _TOC_250015 研究目标3 HYPERLINK l _TOC_250014 分析方法3 HYPERLINK l _TOC_250013 Adaptive-Lasso 正则方法3 HYPERLINK l _TOC_250012 BP 神经网络预测模型4 HYPERLINK l _TOC_250011 建模过程5 HYPERLINK l _TOC_250010 主要步骤5 HYPERLINK l _TOC_250009 数据探索5 HYPERLINK l _TOC_250008 变量解释5 HYP
2、ERLINK l _TOC_250007 数据预处理5 HYPERLINK l _TOC_250006 模型构建6 HYPERLINK l _TOC_250005 Adaptive-Lasso 变量选择6 HYPERLINK l _TOC_250004 社融同比增速预测6 HYPERLINK l _TOC_250003 模型评估及优化8 HYPERLINK l _TOC_250002 模型结论与研究展望9 HYPERLINK l _TOC_250001 模型结论与解释9 HYPERLINK l _TOC_250000 研究与应用展望9图表目录图 1:单一隐藏节点人工神经网络预测模型网络拓扑图7
3、图 2:社融同比增速真实值与预测值对比图8图 3:模型综合误差与神经网络隐藏层数量的关系9图 4:三维隐藏节点人工神经网络预测模型网络拓扑图9表 1:基于 Adaptive-Lasso 算法的变量选择结果6表 2:社融同比增速及其相关因素历史数据和预测表7研究背景根据已有文献,总的来看,我国很多研究者已经对宏观经济数据的影响因素及宏观经济数据的预测进行了很多研究,部分研究者先建立被解释变量与各待定的影响因素之间的多元线性回归模型,运用最小二乘估计方法来估计回归模型的系数,通过系数能否通过检验来变量之间的关系,这样的结果对数据的依赖程度很大,并且普通最小二乘估计求得的解往往是局部最优解,同时因为
4、预测因子间存在相关性,常规线性模型会存在如下缺陷,比如过度拟合,预测变量共线性带来不准确的参数估计,后续的检验可能就会失去应有的意义。而与此同时,更多的研究者是基于经验进 行的预测,不可避免地带来一些主观性。近几十年来,随着现代统计技术的不断完善和发展,由此可见,机器学习方法对于无法通过理论分析得出规律的 复杂问题有着极其优越的拟合效果,近年来,机器学习算法凭借其高效的拟合预测效果,逐渐在各个研究领域被广泛应用,部分学者通过引入人工神经网络、支持向量机等机器学习算法来尝试解决相关分类与预测的问题。基于人工神经网络的非线性回归预测模型的有效性与基于神经网络的非线性回归对于解决无法得出具体函数表达
5、的或者本身就没有具体的函数表达的问题的有效性和优越性被相继证明。由此可见,对新的数据运用新的方法来考察宏观经济数据的影响因素及其预测是可行并且有价值的。本文在已有研究的基础上运用 Adaptive-lasso 变量选择方法来研究影响宏观经济数据变化的因素,在其基础上根据反向传播算法建立人工神经网络(Artificial Neural Network, ANN)来预测未来短期内的宏观经济数据。其优点为:新的现代统计方法的运用,能更好的度量各因素的影响程度,从而全面地反映各指标与被解释变量的关系。研究目标本次建模目标在于利用 2011 第三季度到 2019 年第二季度的宏观经济数据,采用 Adap
6、tive-Lasso 方法,梳理影响社融同比增速关联指标的有关数据,分析并识别影响社融同比增速的关键影响因素,构建社融同比增速预测模型。进而利用 BP 神经网络对未来(2019 年第三季度)的社融同比增速进行预测,并提出相应的投资建议。分析方法Adaptive-Lasso 正则方法在以往的文献中,大多使用普通最小二乘法来对回归模型的系数进行估计,预测变量的选取则采用的是逐步回归。 然而,无论是最小二乘法还是逐步回归,都有其不足之处。它们一般都局限于局部最优解而不是全局最优解。如果预测变量过多,子集选择的计算过程具有不可实行性,且子集选择具有内在的不连续性,从而导致子集选择极度多变。Lasso
7、是近年来被广泛应用于参数估计和变量选择的方法之一,并且 Lasso 进行变量选择在确定的条件下已经被证明是一致的。本文选用了 Adaptive-Lasso 方法来探究社融同比增速与各因素之间的关系。Lasso 是由 Tibshirani (1996)提出的将参数估计与变量选择同时进行的一种正则化方法。Lasso 参数估计被定义如下:2 = arg 2 =1+ =1(3-1)=1其中, 为非负正则参数, | | 称为惩罚项。Lasso 方法虽然可以解决最小二乘法和逐步回归局部最优估计的不足,但是其自身需要满足一定的苛刻条件。OU 提出了一种改进的 Lasso 方法,其改进之处在于给不同的系数加上
8、了不同的权重,称为 Adaptive-Lasso 方法,定义如下:称为 Adaptive-Lasso 方法,定义如下:2() = arg 2 =1+ | | =1(3-2)式中,权重 1= 0 , = 1, 2, , 为由普通最小二乘法得出的系数。|BP 神经网络预测模型人工神经网络算法是当今机器学习领域中比较热门的一类算法,已有研究证明三层人工神经网络可以拟合任何连续有界函数,因此人工神经网络已经得到了广泛应用。人工神经网络模型是由大量处理单元单向加权相连而成的网络,该处理单元称为人工神经元。人工神经网络主要由输入层、隐藏层以及输出层组成。其中输入层神经元将输入值传递到隐藏层。隐藏层神经元将
9、输入值加权求和,并通过激励函数产生一个输出值发送至输出层。隐藏层神经元的计算公式如公式(3-3)所示: = (1-3)其中为输入向量,为隐藏层权重参数向量,为隐藏层某个神经元的输出。函数称为激励函数,一般选取可微非线性函数作为激励函数。输出层的各神经元将隐藏层的计算结果加权求和并产生输出结果,所有输出神经元的输出结果即为神经网络模型的输出。输出层神经元计算公式如下: = (3-4)其中为所有隐藏神经元的输出,为输出层的权值参数。模型输出与目标输出的差值称为误差,若误差不为 0,则模型会根据误差调整其权值,使得误差向 0 逼近。根据误差调整权值的算法称为学习规则,人工神经网络可以根据学习规则的不
10、同进行分类,其中 BP 神经网络是一类应用比较广泛的算法。在 BP 神经网络算法中,当误差非 0 时,算法会根据误差,依次修改输出层、隐藏层的连接权值, 从而使得误差达到允许的范围之内,从而实现对数据的拟合。假设现有个训练数据组成的训练数据集,即 , , = 1, , 。其中,为输入值,为目标输出。从节点到节点的输入表示为,节点到节点的权值表示为。BP 神经网络学习过程具体如下:第一步,初始化模型。人为设定隐藏层的节点数;根据样本的输入输出维度确定输入层节点数和输出层节点数;初始化神经网络的参数,即对 赋予接近于 0 的随机值第二步,用训练数据 , 对模型进行训练,根据 BP 网络的学习规则进
11、行参数调整,参数调整的具体步骤如下:将训练数据输入神经网络,通过公式(3)计算出隐藏层各个节点的输出;然后通过公式(5)计算出模型输出。计算输出层节点的实际输出值与目标输出值之间的偏差,此偏差是当前模型的误差: = ,其中 = 1,2, , (3-5)BP 神经网络认为模型误差是各个节点产生的误差综合作用的结果,因此依次反向计算各个节点贡献的误差项。对于网络的输出单元,计算它的误差项 = 1 (3-6) 符合该结论的神经网络需要满足以下条件:隐藏层采用 sigmoid 函数作为激励函数;输出层采用线性单元对于网络的隐藏单元,计算它的误差项=1 = 1 (3-7)根据误差项,更新节点权值,其中为
12、学习速率,一般设置为接近于 0 的值 = + ,其中 = (3-8) 第三步,将训练数据依次放入模型,重复第二步训练方法,直到模型误差低于目标要求或者迭代次数达到一定设定值停止训练。至此神经网络训练完毕,可输入相应的值利用该模型进行预测。建模过程主要步骤统计数据数据探索建模预测Adaptive-Lasso 变量选择 基于BP算法的人工神经网络模型 模型评估与优化变量解释与数据预处理从数据库提取相关数据数据探索变量解释基于宏观审慎评估,我们选择了与社会融资规模相关的指标进行梳理,初始选取的数据包括:金融机构:住户贷款的同比增速,城镇居民人均可支配收入同比增速,私营非金融部门的偿债比率,个人住房贷
13、款加权平均利率,利息债务比,十年期国债与三年期国债差值,居民部门债务率,中央政府债务率,地方政府债务率,广义政府部门债务率,非金融企业债务率,非金融部门债务率,社会融资规模与 GDP 之比,M2,GDP,房地产投资,房地产新开工以及地产去库存周期。主要思路是通过宏观审慎框架建立与社融的相关性;其中指标涵盖收入水平,杠杆比率,宏观运行数据, 银行流动性以及定价数据,分部门融资数据以及房地产相关数据。数据预处理本次研究中所用的宏观经济数据集共包含 19 个变量,包括 18 个特征(自变量)和 1 个被解释变量(因变量),包含的数值范围下至 0,上至 100 以上。而最适合神经网络的运行的数据集应该
14、是位于 0 附近的狭窄波动范围内,并且分布服从一钟形曲线。为此,我们通过标准化处理将输入数据转化为一个 0 1 的标准化范数,即: () = ()( 4-1 )模型构建Adaptive-Lasso 变量选择运用 LARS 算法来模拟式(3-2)的 Adaptive-Lasso 估计,对于每一个给定的 ,该算法会寻找一个最优的 。此处取 = 1,用 R 语言编制相应的程序后运行得到如下结果,如表 1 所示。表 1:基于 Adaptive-Lasso 算法的变量选择结果X1X2X3X4X5X6X7X8X9X1017.778530.00000-0.835601.987780.00000-3.0047
15、9-1.126111.18748-0.231960.00000X11X12X13X14X15X16X17X180.000000.320653.945060.37771-1.059920.000000.00000-0.25634由表 1 可看出,城镇居民人均可支配收入同比增速(X2)、十年期国债与三年期国债差值(X5)、广义政府部门债务率(X10)、非金融企业债务率(X11)、房地产投资(X16)以及房地产新开工(X17)的系数为 0,因而,在模型建立的过程中这几个变量被剔除了。主要的排除原因包括多重共线性;与被解释变量的相关性不显著;追踪数据的有效性, 同时需要说明的是,影响因变量的因素不局限
16、于文中所用的数据,模型只是对已有数据的表达。综上所述,利用 Adaptive-Lasso 方法识别影响社融同比增速的关键影响因素是金融机构:住户贷款的同比增速、私营非金融部门的偿债比率、个人住房贷款加权平均利率、私营非金融部门的偿债比率、加权平均利率:个人住房贷款、居民部门债务率、中央政府债务率、地方政府债务率、非金融部门债务率 M2 增速,GDP 增速以及地产去库存周期。社融同比增速预测对 Adaptive-Lasso 变量选择方法识别的影响宏观经济数据的因素建立 BP 神经网络预测模型(基于 neuralnet 包, 可自动实现神经网络迭代次数、学习速度的设置。),在该模型中,12 个特征
17、分别对应一个输入节点,每一个输入节点后跟随相应的隐藏节点,最终得到单一的预测社会融资同比增速的单一节点。城镇居民人均可支配收入同比增速(X2)、私营非金融部门的偿债比率(X3)、个人住房贷款加权平均利率(X4)、十年期国债与三年期国债差值(X6)、居民部门债务率(X7)、中央政府债务率(X8)、地方政府债务率(X9)、非金融部门债务率(X12)以及非标融资同比增速(X18)指标的未来两个报告期数值通过得出。代入所建立的 BP 神经网络预测模型,按照随机原则划分训练数据集与测试数据集,比例为 25 : 8。初始状态下,这是一个单一隐藏节点的多层前馈网络。得益于网络结构拓扑图,我们可以窥见人工神经
18、网络黑箱的冰山一角,每个输出节点至隐藏层的权值亦如图所示。图 1:单一隐藏节点人工神经网络预测模型网络拓扑图资料来源: 实际上,具有一个隐藏节点的神经网络与目前计量经济学常用的线性回归模型类似,每个输入节点与隐藏节点间的权重类似于回归系数,也就是说,如果构建一个与上述神经网络原理相同的线性回归模型,则模型整体的相关系数即为神经网络预测值与真实值之间的相关系数。通过进一步评估与优化(详见 4.4 节),我们得到了预测性能更佳的模型,通过这一模型预测得到的社融同比增速预测值为 10.62224465%,相关数据见表 2,其中红色字体的数据为预测数据。图 1 为 BP 神经网络社融同比增速真实值与预
19、测值对比图,可见预测误差位于可接受范围内。表 2:社融同比增速及其相关因素历史数据和预测表期数X1X3X4X6X7X8X9X12X13X14X15X18Y2019Q30.17319.2835.680.328554.97616.34121.324249.2060.2788.496.3311.87210.6222019Q20.1719.2845.70.26655.30416.41321.534249.5910.2938.56.311.84810.962*2019Q10.17619.2965.70.3754.27816.25021.420248.3850.3838.66.411.99611.169*
20、2018Q40.18219.25.750.37453.19916.52820.422243.6520.2148.16.610.74310.183*2018Q30.18219.55.720.36452.57516.23920.771245.0080.2388.36.79.58911.149*2018Q20.18819.65.60.28351.35316.03219.548243.4690.24186.810.311.675*2018Q10.219.75.420.31450.38115.98219.791243.3270.2968.26.89.69312.537*2017Q40.21419.65.
21、260.26949.36316.36820.068242.2470.2738.16.89.68514.052*2017Q30.23119.85.010.11748.99716.11320.350242.6220.30196.89.69714.8772017Q20.23919.84.690.09647.7715.91419.705241.0250.3229.16.89.92714.9222017Q10.24519.84.550.27646.44315.72719.341239.2820.40210.16.89.89815.7272016Q40.23519.54.520.41245.09516.1
22、2520.587235.7630.24111.36.78.75916.1822016Q30.21419.54.520.33543.99916.10321.153233.6920.25411.56.78.9816.5282016Q20.19419.54.550.29842.33215.68221.167230.8060.28611.86.710.62316.7592016Q10.17619.44.630.45940.61815.23119.952225.8250.40913.46.713.23516.4232015Q40.16818.94.70.23439.40515.47221.416215.
23、9730.22513.36.912.75815.0882015Q30.16219.15.020.28938.78915.21121.147212.8760.24213.16.914.82914.0412015Q20.15519.35.530.6537.84614.85119.549209.7160.27711.8718.15412.5392015Q10.15719.66.010.31136.90614.63621.669206.1940.30611.6717.90712.9862014Q40.16619.46.250.28336.10114.89423.926203.9600.25712.27
24、.317.6214.1732014Q30.17219.76.960.23235.80514.65023.336201.9980.27912.97.321.78214.5672014Q20.19319.66.930.30935.27914.40322.358201.5650.35714.77.419.59616.282014Q10.21419.26.70.43234.4314.22221.638197.1890.40012.17.415.01916.0512013Q40.23118.66.530.35533.49314.62321.025193.6190.29213.67.813.06317.2
25、312013Q30.23718.66.390.23833.30914.62620.244192.7560.32914.27.811.75718.4972013Q20.23618.36.290.26932.3714.44319.274190.0720.372147.710.22119.4292013Q10.21317.96.270.44431.09214.09118.521186.4890.47615.77.910.08719.8352012Q40.18617.26.220.49829.96414.41217.818181.3580.29313.87.910.84618.2582012Q30.1
26、7819.26.20.45729.61414.50117.573178.3890.30314.87.811.80317.6242012Q20.16619.56.680.79928.72114.37916.898174.0320.31313.67.915.73415.7342012Q10.18119.67.430.60428.17714.47716.909170.5530.33113.48.122.05716.2342011Q40.20919.77.620.51427.88714.86416.696169.3790.26313.69.516.93117.4212011Q30.22719.67.3
27、60.25228.11415.36016.527169.8100.280139.914.8518.726资料来源: (其中带“*”数据为历史数据测试样本)真实值预测值10.82 10.76 10.83 11.37 10.73 10.6211.9113.02181614121086420社融同比增速(%)图 2:社融同比增速真实值与预测值对比图资料来源: 模型评估及优化对于神经网络,一般采用误差平方和(Sum of Squared Error, SSE)来描述模型整体的误差。而在本研究中,除此之外,我们还定义了综合误差()来评估模型的准确性。通过测试数据集使用 compute () 函数生成一个带有两个分量的列表:$neurons 被用于存储网络中的每一层神经元;$net.results 则用于存储预测值。通过后者,我们首先可以获得预测值与测试数据中的真实值之间的相关系数 ,这可以表现预测数据的发展趋势是否与真
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- pvc管采购合同模板
- 劳务派遣工厂合作合同范例
- 加工生产劳务合同模板
- 智能制造自动化生产线改造合同
- 智慧社区建设与管理服务合同
- 剧组合同范例
- 初中英语教学改革心理辅导与学生支持
- 包羊合同范例
- 单位集资建房合同范例
- 高中语文教学改革的评价与反馈机制
- 各种能源排放因子
- 基础生命科学导论:第七章-进化课件
- 鼻腔冲洗专业知识讲座课件
- 高压氧质量控制中心工作职责
- 一年级《劳动实践指导手册》《学习用品我整理》教案
- 小学数学北师大三年级上册整理与复习新北师大版三年级上册数学《整理和复习》
- NCCN癌痛指南更新解读专家讲座
- 大学英语口语课件
- 二维动画课件
- 国开电大软件工程形考作业3参考答案
- 广东食品安全管理人员抽查考核题库(含答案)
评论
0/150
提交评论