《金融与财务机器学习》-姜富伟 习题解答_第1页
《金融与财务机器学习》-姜富伟 习题解答_第2页
《金融与财务机器学习》-姜富伟 习题解答_第3页
《金融与财务机器学习》-姜富伟 习题解答_第4页
《金融与财务机器学习》-姜富伟 习题解答_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《金融与财务机器学习》复习思考题答案第一章金融领域的机器学习1.阐述机器学习的主要思想和步骤。机器学习的主要思想是用先验知识设计一个合理的结构,再用实际经验对这一结构的细节进行修正和优化;其主要步骤包括数据预处理、特征提取、特征转换和预测。2.阐述机器学习在金融领域适用的主要原因。机器学习在金融领域适用的主要原因是金融对机器学习具有需求性,即在解决金融问题中,会遇到预测问题的高维的特性、传统金融模型的稀疏性假设等问题。而机器学习具有解决上述问题的优势:在数据高维特性的处理方面,机器学习方法强调变量选择和降维技术减少自由度并压缩预测变量之间的冗余变化,非常适合解决高维情境下的预测问题;机器学习工具箱给我们提供了无需在预测问题上施加特殊稀疏性分析资产价格的机会,稀疏性假设问题得到很好地解决。此外,机器学习能够提供更加丰富的函数形式,适合更多金融领域的运用场景。3.阐述机器学习在金融领域不适用的主要原因。机器学习在金融领域不适用的主要原因是金融数据存在着“小数据性”、信噪比较低、模型稳定性较差等特点,这些特点使人们在金融领域运用机器学习到时必须经过谨慎的考虑。

第二章Python软件使用简介1. Python通常如何调用第三方程序包?Python中可使用import语句导入第三方程序包,也可使用“from…import…as”语句导入第三方程序包中的部分函数。2. Python序列包含哪些类型?Python中序列类型包括字符、元组、列表、字典和集合。字符串用于记录文本信息以及任意字节集合,字符串使用引号来界定;元组是固定长度,不可变的Python对象序列;列表是长度可变,内容也可变的Python对象序列;字典是一系列键值对集合,键值对是两个相关联的值,可以使用键来访问相关的值;集合是无序、对象可变的Python对象序列。3. Python常用的第三方库有哪些?常用第三方库包括多维数组Numpy、面板处理Pandas、科学计算Sympy、统计分析Statsmodels、金融计量Linearmodes和机器学习Scikit-learn(sklearn)。4. Python怎么处理缺失值?面对缺失值一般处理方法可以分为:过滤缺失值、填充缺失值、不处理三种方法。Pandas中提供了dropna()和fillna()两个指令来进行数据清理,其中dropna()用于过滤缺失值,fillna()可对缺失数据进行填充。5. Python常用内置机器学习包有哪些?Scikit-learn(sklearn)是机器学习中常用的第三方模块,包括回归(Regression)、降维(DimensionalityReduction)、分类(Classfication)、聚类(Clustering)等机器方法。Python中深度学习的程序包主要包括Pytorch和Tensorflow。

第三章金融大数据的处理与分析1.国内常用的金融数据库有哪些?金融领域实证研究和业界处理中常用的金融数据库有国内的国泰安数据库、万得资讯、中国研究数据服务平台以及获取国外数据的CRSP数据库。不同的数据库侧重和覆盖不同金融研究层面,且有各自的优缺点。2.请列举几个常用描述性统计常用工具。描述性统计常用工具包括:均值、方差、中位数、偏峰度、各类相关系数。3.请简要阐述数据预处理的基本流程。数据预处理的基本流程为检查缺失值并处理、异常值识别与处理、数据标准化。4.什么是标准差法?该方法的主要用途是什么?标准差方法也被称为“3σ”方法,在给定的样本xtt=1T中,那些落在样本均值的3倍标准差范围内的数据点即可被认为是异常点,我们可以定义上(下)阈值为:tℎretℎo该方法的主要用途是设立临界值后识别样本异常值。5.简要阐述截尾法和缩尾法的区别。截尾方法将任何大于上阈值或任何小于下阈值的数据点从样本中删除。缩尾方法将样本中大于上阈值的数据点直接设置为上阈值,将任何小于下阈值的数据点设置为下阈值。6.什么是Z值标准化(Z-Score)法?Z-Score处理方法为将观测值减去总体均值后除以总体方差,将数据转化为均值为0方差为1的分布。其计算公式为:Z=Z值标准化计算简单,使得不同量级的数据便于比较,是最常用的标准化方法。第四章因子与因子模型1.解释因子、资产价格异象和因子定价模型。“因子”是系统性风险的一种定量表现形式,描述了众多资产共同暴露的某种系统性风险。资产价格异象是指传统因子定价模型中无法解释的收益率序列中持续存在的规律性模式。因子模型模型是一种定量的建模方法,它将资产的预期收益率分解为系统性风险影响部分和定价误差部分。2.阐述Fama-French三因子模型的基本结构、所反映的异象、异象的代理变量以及代理变量的构造。Fama-French三因子模型的基本结构是:所反映的异象是规模异象和价值异象。规模异象选取的代理变量是市值,价值异象选取的代理变量是账面市值比。代理变量的构造方法:(一)取纽交所上市公司市值的中位数,将三个市场中市值高于中位数的股票分入V-B(大市值)组,其他分入V-S(小市值)组。(二)取上市公司账面市值比的上30分位数和下30分位数,将三个市场中账面市值比高于上30分位数的股票分入BM-H组,账面市值比低于下30分位数的股票分入BM-L组,其他股票分入BM-M组。(三)根据以上的双因子排序,得到一共六个组别,即S/H、S/M、S/L、B/H、B/M和B/L组。(四)根据以上分组,规模因子的超额收益等于三个小市值组合(S/H、S/M和S/L)的等权平均收益率减去三个大市值组合(B/H、B/M和B/L)的等权平均收益率;而价值因子的超额收益等于两个高账面市值比组合(S/H和B/H)的等权平均收益减去两个低账面市值比组合(S/L和B/L)的等权平均收益。3.阐述Fama-French五因子模型的基本结构、所反映的异象、异象的代理变量以及代理变量的构造。Fama-French三因子模型的基本结构是:所反映的异象是规模异象、价值异象、盈利异象和投资异象。规模异象选取的代理变量是市值,价值异象选取的代理变量是账面市值比,盈利异象选取的代理变量是股权收益率,投资异象选取的代理变量是总投资变化率。代理变量的构造方法:(一)取纽交所上市公司市值的中位数,将三个市场中市值高于中位数的股票分入V-B(大市值)组,其他分入V-S(小市值)组。(二)取上市公司权益收益率的上30分位数和下30分位数,将三个市场中权益收益率高于上30分位数的股票分入ROE-R组,权益收益率低于下30分位数的股票分入ROE-W组,其他股票分入ROE-N组。(三)根据以上的双因子排序,一共得到六个组别,即S/R、S/N、S/W、B/R、B/N和B/W组,(四)计算盈利因子的超额收益,其公式为:RRMV(五)取上市公司总投资变化率的上30分位数和下30分位数,将三个市场中总投资变化率高于上30分位数的股票分入总资产变化率-A组,总投资变化率低于下30分位数的股票分入总资产变化率-C组,其他股票分入总资产变化率-N组。(六)根据以上的双因子排序,得到一共六个组别,即S/A、S/N*、S/C、B/A、B/N*和B/C组(*是为了和盈利因子的分组相区别),根据以上分组计算投资因子的超额收益。其公式为:RRMV值得注意的是,规模因子的构建是基于其他三个因子的分组排序结果的。在价值因子、盈利因子和投资因子的提取过程中,我们分别用账面市值比、权益收益率和总资产变化率对市值进行了双因子排序,一共得到了18(3*6)个投资组合;根据以上分组计算规模因子的超额收益。其公式为:R1/9(R4.阐述CH-3模型的基本结构、所反映的异象、异象的代理变量以及代理变量的构造。CH-3模型的基本结构是:所反映的异象是规模异象和价值异象。规模异象选取的代理变量是市值,价值异象选取的代理变量是账面市值比。代理变量的构造方法:(一)按照市值对上市公司进行排序,剔除市值最小的30%的股票,形成新的数据集;(二)取新的数据集中上市公司市值的中位数,将市场中市值高于中位数的股票分入V-B(大市值)组,其他分入V-S(小市值)组。(三)取上市公司市盈率的上30分位数和下30分位数,将三个市场中市盈率高于上30分位数的股票分入EP-V组,市盈率低于下30分位数的股票分入EP-L组,其他股票分入EP-G组。(四)根据以上的双因子排序,得到一共六个组别,即S/V、S/M、S/G、B/V、B/M和B/G组,根据以上分组,计算规模因子的超额收益,其公式为:RSMB=1/3((五)计算价值因子的超额收益,其公式为:RSMB5.总结Fama-French五因子模型和CH-3模型在Fama-French三因子模型上所做的改进及改进的动机。Fama和French从股利贴现模型出发,推导出公司价值是各期净利润和公司账面变动之差的贴现值之和,且发现预期收益率和预期盈利呈正相关,与预期投资呈负相关。于是,他们在Fama-French三因子模型的基础上加入了盈利因子和投资因子,提出了新的Fama-French五因子模型。Liu等根据中国市场上存在的壳效应,在构建因子时剔除了市值最小的30%的公司的数据;通过应用Fama-macbeth回归,发现在中国市场上相较于账面市值比,市盈率能更好地反映价值效应;综合以上两点,提出了CH-3模型。6.解释时变性问题及其背后的原因。因子的时变性是指某些因子在某些时间区间表现良好的预测能力,但却在其他期间失效。其主要原因有:P-hacking、多重检验问题、出版后的复制问题以及经济数据的修正问题。

第五章因子模型的估计、检验与解释1、简单阐述单变量组合分析的具体步骤。单变量组合分析的步骤主要包括股票分组、投资组合调整、投资组合收益率计算以及统计检验四个部分。第一,在股票分组部分,须要按照排序变量分位数确定好各组断点,并根据断点将股票依序定组。第二,在投资组合调整部分,须要对股票的分组情况按照月、季度或年的固定频率进行定期调整,对股票进行重新分组。第三,在投资组合收益率计算部分,须要对分组后的股票计算组内的等值加权或者市值加权的股票收益率。第四,在统计检验部分,须要检验排序变量对收益率是否存在显著影响,并判断这种影响的单调性,具体实践方法可以分别通过检验计算得出的组合收益率是否显著为0以及计算出每个组平均截面收益率的Spearman等级相关系数来实现。2、因子模拟组合法包含几种方法?具体阐述它们的流程。因子模拟组合法包含排序分组法、Fama-MacBeth两阶段回归方法、最大相关性投资组合方法、方差最小化法和三步回归法这三种方法。第一种,排序分组法下,首先须要先将宏观变量等特征变量映射资产的回报率中,通过时间序列回归的方法估计出每个资产对该特征变量的风险暴露。接着,将该回归系数作为资产的排序变量,对资产进行单变量排序,把资产划分为固定数量的组合,并构建多空组合,最后计算出因子收益率。第二种,Fama-MacBeth两阶段回归方法下,第一步与组合排序分组法在开始单变量分组之前实施的步骤相同,将基础资产收益率与特征变量进行时间序列回归,估计出每个资产对该特征变量的因子载荷;第二步先对每个资产的收益率取时间序列上的均值,再将每个资产的收益率均值和第一步估计出来的因子载荷进行一次OLS横截面回归,估计出因子风险溢价。第三种,最大相关性投资组合方法下,先基于单变量回归估计出不可交易因子的资产载荷,接着以最大化每个因子模拟组合与所要构建的不可交易因子之间的相关性为目标,求解最优化问题,最后得到相应不可交易因子的风险溢价。第四种,方差最小化法下,建立一个通用的最小方差因子模拟投资组合构建框架,计算投资组合权重和因子投资组合的目标暴露,通过最优化问题求解不可交易因子的风险溢价。第五种,三步回归法下,共分为三个步骤。第一步是PCA步骤,通过主成分分析(PrincipalComponentsAnalysis,PCA)从基础资产回报中提取收益率的前L个(L≤N)主成分,并将不可交易因子投射到这L个主成分上,得到经过基础资产映射之后的因子和相应的因子载荷。第二步是横截面回归步骤,对资产的平均收益和第一步计算得到的因子载荷进行OLS横截面回归,估计出因子模拟投资组合的风险溢价。第三步是时间序列回归步骤,将第二步得到的风险溢价与第一步经过映射得到的因子进行时间序列回归,得到因子模拟投资组合的权重,并将该权重与第二步估计出来的投资组合风险溢价相乘,最终得到三步回归法的风险溢价估计值。3、时序回归法的Alpha检验和GRS检验的差别是什么?Alpha检验主要是针对单个指标或者单个股票进行的,它检验在一定的假设条件下,单个Alpha为0的原假设是否成立。而GRS检验是针对多个指标或者多个股票进行的,它可以对一系列股票的Alpha进行联合检验,即检验在一定的假设条件下,所有候选股票的Alpha联合为0的原假设是否成立。4、比较Fama-MacBeth两阶段回归和三阶段回归的异同。Fama-MacBeth两阶段回归和三阶段回归均是估计因子收益率的回归方法。Fama-MacBeth回归根据因子暴露是否具有时变性,可以分为两阶段回归和三阶段回归。简单来说,两种回归的第一阶段是相同的,均是通过上一节所介绍的时间序列回归求得资产的因子暴露的估计值βi',但两阶段回归是“先求均值,再求回归”,而Fama-MacBeth三阶段回归的核心思想是“先求回归,再求均值”,有效防止了截面上αit的相关性影响因子收益率的估计值。不过,两种回归的目标却“不谋而合”,学术界中大部分时候都是为了检验因子预期收益率λ

,并且在因子暴露βi'不具备时变性(即常数)的情况下,两阶段回归和三阶段回归的估计结果是一致的;当因子暴露β5、可以从哪些角度解释因子模型?可以从风险补偿、错误定价和数据窥探这三个角度来解释因子模型。如果因子确实可以获得超额收益,则其可以归因于风险补偿、错误定价角度;而如果构建的新因子并不是真实存在,而是由于过拟合所带来的巧合,这种时候就归因于数据挖掘(或数据窥探)。其中,风险补偿的判断方法包括常识判断、宏观经济判断和定价模型检验这三种方法,错误定价的判断方法包括业绩公告期、预测未来基本面、有限注意力和套利成本这四种方法,数据挖掘的判断方法则包括交易成本、机智的套利者和因子拥挤这三种方法。

第六章金融资产收益预测1.阐述资产收益率短期不可预测性的原因来源。当间隔的两个时间点非常接近时,安全利率接近零,经济状况变化不大,因此随机折扣因子也变化不大,可以假设其为1。此时根据无摩擦市场条件下的均衡定价公式Pt=EtMt+1Vt+1可知,短期内股价运动是一个鞅过程,即股价符合随机游走的形式。阐述样本内预测模型和样本外预测模型的联系与区别。样本内预测和样本外预测都是进行金融资产收益预测的重要步骤。样本内预测是指用全部观测值来估计模型,然后用估计得到的模型对其中的一部分观测值进行预测;而样本外预测是指将全部观测值分为两部分,部分用来估计模型(这也算是样本内预测,只不过并没有使用了全样本的数据),然后用估计得到的模型对另一部分数据进行预测。在股票收益的时间序列的分析中,样本内预测是时间序列资产定价的开始,但目前无论学者还是现实世界的投资者,大家更关心的是样本外预测。阐述主要的模型评价方法。模型的主要评价方法包括样本外预测评价和投资价值评估评价。其中,样本外预测评价主要通过统计量进行比较,包括ROS2统计量、经调整的t统计量,以及经调整的MSFE统计量;投资价值评估评价是看收益预测模型是否会产生显著的经济价值4.阐述Campbell-Shiller分解的基本思想。Campbell-Shiller分解基于现值模型,通过泰勒展开将股票的现价、未来的分红及收益的关系式进行线性化,将股息价格比(D/P)的对数分解为未来期望收益对数折现率和对数股息变化的加权和。Campbell-Shiller的现金流折现率分解告诉我们:当股息价格比(D/P)较高时,必然是由于以下3个原因(其一或全部):(1)未来股息会上升;(2)未来的股票收益率会变低;(3)存在着“泡沫”,即价格的过度波动现象。

第七章包含惩罚项的线性回归模型1.阐述在时序和横截面使用普通最小二乘法时的差异。自变量和因变量的时间截点不同。OLS在时序回归中的自变量与因变量并不完全在同一时间截点,存在跨期的情况;而OLS在横截面下的自变量与因变量均为一个时间截点上的,不存在跨期的情况。2.OLS模型在高维数据下存在什么问题?OLS模型在高维数据下会存在“维数灾难”的问题,高维数据会带来较多的预测变量,而过多的预测变量可能会降低模型的预测准确率。若观测个数m远大于预测变量个数n时,OLS的方差较低。然而,不满足m远远大于n的情况下,OLS回归得到的结果可能会出现过拟合的情况,此时模型在测试集上的表现较差。倘若n>m,使用OLS模型将会得到多个系数估计结果,方差也变得无穷大,此时不再适用OLS的方法。3.为什么要对线性回归模型加入惩罚项?OLS模型通常无法解决自变量个数较多带来的模型解释力和预测精度下降的问题,一般需要采用其他方法来对线性回归模型进行修正。归根结底,自变量数量较多的问题最终影响到的是自变量前面的模型参数,使得参数估计值不准确。可以通过对系数进行约束或者加以惩罚的方式来对自变量个数较多的模型进行拟合,从而降低参数估计的方差,提高参数估计的准确率,增强模型的拟合效果。4.对比LASSO、岭回归和弹性网络在几何模型上的差别并阐述其在大数据变量挑选时的不同。类似地,这几个模型都是在基本线性回归模型上对参数施加约束或者惩罚的模型,因此,他们的几何模型都是在基本线性回归的目标函数上引入惩罚项的;不同的是,这几个方法施加的惩罚项不同。具体而言,岭回归只是在几何模型上施加了L2范数的惩罚项,LASSO只是在几何模型上施加了L1范数的惩罚项,而弹性网络则是在几何模型上同时施加了L1和L2范数的惩罚项。在变量挑选上,岭回归可以压缩变量,LASSO可以筛选变量,而弹性网路则是同时具有变量压缩和变量筛选的功能。5.哪些施加惩罚项的线性回归模型能够压缩变量?哪些能够选择变量?岭回归和弹性网络可以压缩变量,LASSO和弹性网络可以选择变量。6.调节参数或惩罚参数的选择标准有哪些?如何判断哪些模型是较优的?调节参数或惩罚参数的选择标准包括信息准则判断和交叉验证两种方法。其中,信息准则的模型选择方法包括赤池信息准则(AkaikeInformationCriterion,AIC)和贝叶斯信息准则(BayesianInformationCriterion,BIC),交叉验证的模型选择方法则包括交叉验证法和广义交叉验证法。通常情况下,AIC准则低、BIC准则低、交叉验证法下的均方误差低的模型是较优模型。

第八章数据降维模型1.阐述“降维”这一概念背后的现实逻辑。降维即通过数学变换将高维空间数据投射到低维空间中,并在这一过程中最大程度的保留重要信息,使得缩放后各个特征之间的距离与原始空间中的距离尽可能接近。2.对比主成分分析与其他几类线性降维模型之间的差异。首先,主成分回归只利用了自变量的信息,根据协方差矩阵求得主成分,而偏最小二乘法利用了因变量和自变量的信息。其次,主成分回归是对数据做了一个正交变换,因此主成分之间都是正交的,而偏最小二乘法则不一定。最后,在确定主成分个数的时候,两者都可以通过交叉检验确定,但是主成分回归一般使用信息占比值来确定,一般来说大于0.8就行了。3.对比线性降维模型与非线性降维模型之间的差异。由于高维空间与低维空间的关系不同,故降维模型可以分为线性将为模型与非线性降维模型。线性降维方法假设从高维空间到低维空间的函数映射是线性的,但是在世纪生活中,线性的映射不一定能找到一个合适的低维嵌入,故需要选择非线性映射,即非线性降维模型。

第九章树模型与分类模型1.阐述逻辑回归的步骤。完整的逻辑分类,一般需要4个步骤:线性求和、函数映射、计算误差以及修正参数。首先,进行线性求和。假设有一个n维的输入列向量

x,也有一个n维的参数列向量h,还有一个偏置量b(类似于二维的直线方程

y=ax+b中的b),那么通过线性求和可得:z=ℎ式中,z的值域为[−∞,+∞],现状我们还无法根据z来判断x到底是属于0类还是1类的。其次,我们利用激活函数进行函数映射。以Sigmoid函数为例,让z的值映射到[0,1]之间,即:y=σ(z)=σ(式中,y的值域为[0,1]。最后,计算误差,并进行参数的修正。假设我们期望输入的判定值是u,而实际得到的判定值是y,为了使u尽可能接近y,我们会先计算;随后,我们通过迭代计算修正h和b的值。如果我们将损失函数C(u,y)定义为用来描述u和y之间差距的损失函数,那么我们的目的使C(u,y)最小化。通过不断迭代,我们能够计算得出h和b的最优解,进而确定最优模型,得到最好的分类结果。2.阐述树形模型非线性特征的来源。树形结构通过分支引入了“非线性”的概念,基于树的模型本身就是非线性的。分叉作为是树形模型最重要的结构,可以将具有不同特征的样本进行分类,类比人类在面对问题时自然的决策机制,定义为“决策树”模型。一颗典型的决策树包含一个初始根节点,若干个延展出的内部节点和包含最终决策结果的叶节点,而具体节点数取决于模型初始设定的参数。使用决策树决策的过程即从根节点开始,选择一个特征作为当前节点的分裂标准,自上而下生成子节点,直到到达叶子节点得出分类决策的结果。3.阐述树形模型的度量指标,并试析信息增益作为划分标准的缺陷。树形模型常见的度量指标有三种,信息熵与信息增益,信息增益率和基尼系数。决策树的生成便是使用某特征对数据集进行划分,从而使得划分后各数据子集的纯度比划分前的数据集纯度高,这种划分前后纯度的差值称为信息增益。信息增益率就是在信息增益指标的基础上增加一个惩罚参数,该惩罚参数即为所选特征信息熵的倒数。基尼系数表示在训练集中随机选中一个样本,此样本被分类错误的概率。信息增益准则的缺点是对取值较多的属性有所偏好。一旦有一个指标对每一个样本都有不同取值,再以该指标为划分依据,那每个结点的熵就为0,则所有分支结点的总熵也为0,那么这个特征的信息增益就一定是最大的。因此如果此时用信息增益准则作为属性划分的依据,最后根节点必然都是该指标划分的结果,但是显然这是不对的。4.阐述对树形模型进行剪枝的原因并比较不同剪枝方法的差异。在分支过程中面临的问题在于当使用的属性过多,模型训练的“过好”则会出现过拟合的情况。此时,需要主动删除决策树模型的一些分支,来降低“过拟合”的风险。预剪枝的原理是设定一些规则极早地停止树的扩散,这些规则包括但不限于:对树的深度设置一个阈值、设置每个叶片节点中所包含样本的最小值、不纯度指标单次下降幅度的下限等。而后剪枝的操作与预剪枝相反,在决策树模型构建完成后进行剪枝处理,通过删除节点的分支来剪去中间节点或者叶节点达到后剪枝的目的。预剪枝提前使很多分支都没有展开,降低了过拟合的风险,但是这个分支下的后续划分可能是非常有用的。从这点考虑,预剪枝是基于”贪心“的本质来禁止分支以及后续的展开,在降低过拟合的同时也有欠拟合的风险。相比预剪枝,后剪枝的优点是后剪枝决策树通常比预剪枝决策树保留了更多的分支,而且后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树。但后剪枝的缺点是决策树训练时间开销比未剪枝决策树和预剪枝决策树都要大的多。在后剪枝中最常用的主要有最小误差剪枝法、悲观剪枝法和代价复杂性剪枝法。最小误差剪枝方法和代价复杂度法等方法从生成决策树自下而上进行剪枝处理,而悲观剪枝法是一种完全使用训练数据来进行剪枝的方法,而且采用自上而下的剪枝的策略。5.说明Boosting和Bagging两类集成算法的差异。Boosting算法是基于“串联”模型的思想来提高弱学习器准确度的集成方法。Bagging通过并行的方式同步生成多个基学习器,最终通过集合所有学习器的结果来得到训练结果。不同于Boosting,Bagging生成的基学习器之间并没有“依附”关系,每个模型通过随机设定样本集和特征数来得到。6.试析AdaBoost模型和GBDT模型的异同。梯度下降树模型和Adaboost模型有很大的不同。首先二者使用的基学习器不同,AdaBoost算法利用单层决策树的误差来更新样本权重值,然后进行迭代;而GBDT要求弱学习器必须是分类与回归树模型。其次由于使用了CART模型,因此相比AdaBoost通过提升错分数据点的权重来定位模型的不足,GBDT模型可以使用更多种类的目标函数,通过计算目标函数的梯度,使用梯度下降的方式来减少训练误差。因此GBDT常用在处理连续数据的回归问题中,此时目标函数可以为均方误差等。7.阐述XGBoost模型在GBDT算法基础上做了哪些方面的优化。具体优化方面如下:(1)GBDT的基分类器只支持CART树,而XGBoost支持线性分类器;(2)GBDT在优化时只使用了一阶倒数,而XGBoost对目标函数进行二阶泰勒展开;(3)XGBoost在训练之前,对数据预先进行排序并保存为block,后续迭代中重复使用,并最终实现对基回归树的并行构建;(4)与GBDT不同的是,在构建目标函数时,XGBoost不仅使用了损失函数,还加入代表了所有决策树复杂程度的正则化项来防止过拟合,尽可能保证模型的泛化能力。8.阐述随机森林模型为何能成为机器学习方法最受欢迎的模型之一。随机森林中的“随机”就是指的上述过程中的样本随机性和属性随机性。两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入,使得随机森林不容易陷入过拟合,并且具有很好得抗噪能力。与传统Bagging中基学习器的“多样性”通过样本扰动来实现不同,随机森林模型的多样性不仅来自于样本,同时也来自属性扰动。更多的随机特性使得随机森林的泛化能力大大提高,模型在很多现实任务中表现出强大的性能。随机森林对噪声和异常值有较好的容忍性,能够在不需要降维的条件下处理具有高维特征的输入样本,具有良好的可扩展性和并行性,而且能够评估各个特征在分类问题上的重要性,这使得随机森林模型成为树形模型中最受欢迎的模型之一。

第十章神经网络模型1.阐述神经网络模型非线性特征的来源.构成神经网络的基本单元是神经元,而神经元与神经元之间经过激活函数的作用。通常使用的激活函数很多都是非线性的,这可以拓展神经网络的运用范围。2.阐述梯度下降法和BP算法的联系与区别。梯度下降法和BP算法都是神经网络的模型训练方法。但梯度下降法在训练过程中首先找到一个连续可微的函数作为待优化的函数;然后利用梯度下降法进行参数迭代估计,使可微函数在估计的参数处最优值达到最小,其效率较为低下;而BP算法则首先计算输出层的误差,再按照公式逆向反推各隐藏层和输入层的参数值,在达到规定的训练次数或模型误差减少到一定范围时停止训练,其效率较高。阐述LSTM的特点。LSTM模型是循环神经网络的一类分支,具有判定有效信息的记忆模块,改善循环神经网络的长程依赖问题,目前已广泛应用于神经语言程序等具有时序特征的数据挖掘及分析中。阐述生成式对抗网络的“博弈性”特征。生成式对抗网络是无监督学习方法的一种,一个典型的GAN主要包含两个独立的神经网络:生成器和判别器。其由生成器得到预测数据分布后,判别模块对真实数据和预测数据进行分类并返回判别信息给生成器,而最终的优化结果即使得生成器生成的预测收益同真实收益无法被判别器识别,以达到以假乱真的效果。这就是生成式对抗网络的“对抗性”,也即“博弈性”的特征。5.阐述强化学习的基本框架强化学习中的基本框架由两个可以进行交互的对象组成:智能体和环境。智能体可以感知外界环境的状态和反馈的奖励,做出不同的动作进行决策,或是指根据外界环境的奖励来调整策略进行学习。环境是指智能体外部的所有事物,其受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励。

第十一章模型评估、训练与可解释性1.举例说明“偏差”和“方差”在金融学中的含义。机器学习中的偏差概念(Bias)主要指模型期望输出与真实值之间的差别,刻画了模型本身的拟合能力。方差(Variance)则度量了训练集的变动所导致的学习性能的变化,体现了在不同训练集上模型输出值的变异性,刻画了模型输出结果由于训练集的不同造成的波动。在金融学中可以延伸到选股模型的实践,比如一些选股模型本身对训练集拟合能力很好(即偏差小),一旦更换新的训练集可能导致股票收益预测能力波动较大(即方差大)。在金融机器学习中,要合理适当权衡模型的偏差与方差。2.“训练误差”和“泛化误差”的区别是什么。模型在训练集上的误差称为训练误差,而泛化误差即是模型在全新样本上的误差。3.训练集、验证集和测试集的区别与联系?模型在训练集中开展训练或完成参数选择;而验证集则是用来做模型选择,考察其过拟合情况或调参,即做模型的最终优化及确定的;而最终的测试集表现代表了模型的样本外的预测能力,纯粹是测试已经训练好的模型准确度。而在实际应用中,通常只会将数据分为两类,即训练集和测试。4.回归模型中常见评价指标有哪些?预测模型的常见评价指标主要基于预测误差的测度,常见的有平均绝对值误差(MAE)和均方误差(MSE)。样本外的预测分析中可以使用均方预测误差(MSFE)、R2指标以及Diebold-Mariano方法5.阐述分类模型中的评价指标。二元分类指标中包含准确率(预测正确的样本在所有样本中占的比例)、错误率(被预测错误的样本在所有样本中所占比例)、精确率(所有被预测为正收益的样本中,多少比例是真的正收益)与召回率(所有真的正收益中,多少比例被模型成功预测)。ROC曲线是反映灵敏性和特效性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性。AUC值就是ROC曲线下的面积大小,通常取值在0与1之间。6.阐述K折交叉验证法的实施步骤。(1)把数据集随机分为互斥的K个子集,为确保随机性,进行P次随机划分取平均;(2)将K个子集随机分为K-1个子集,与余下1个子集,总共有K种分法;(3)在每一种分组结果中,训练K-1个子集数据,另外1个当作测试集,这样就产生了K次结果,对结果取平均;(4)称为P次K折交叉验证,通常令K=5或K=10(当K=N时情况会在下一节进行分析)。7.比较留出法、留一法、K折交叉验证法的优势和劣势。留出法:优势在于简单方便,易于理解。劣势在于不够稳定;泛化误差估计的准确度降低。留一法:优点在于训练集比初始数据集相比仅少一个数据集,偏差较小;留一法在分割训练集和测试集时没有随机性,重复使用结果相同。不足之处是模型拟合N次,在数据集比较大时训练计算精度过高,计算资源消耗大;每次训练只有1条测试数据,无法有效帮助参数调优。K折交叉验证法:K折交叉验证法的优点是每个样本都会被用作训练和测试,因此产生的参数估计的方差会很小,但考虑到金融数据的时序和周期特性,交叉验证中过多“旧”数据的使用反而可能弱化预测结果。综上所述,当数据量足够时,选择简单省时的留出法,在牺牲很小的准确度的情况下,换取计算的简便;当数据量较小时,应该选择交叉验证法,因为此时按留出法的思路划分样本集将会使训练数据过少,偏差过大;当数据量特别少的时候,计算资源的消耗可以接受,此时应考虑留一法。8.什么是超参数设定?请阐述超参数设定的具体方法。超参数设定即为调节超参数(Hyperparameter),简称超参,调参的过程即为超参优化过程。超参数调优主要包括手动搜索、网格搜索、随机搜索以及贝叶斯优化四种方法。9.阐述黑箱模型与白箱模型。通常在做模型选择(黑箱模型或白箱模型)时,要权衡模型预测客观精确性和可解释性。黑箱模型(包括:神经网络模型、集成模型等):模型预测具有高度的精准性,但其内部运算机制难以被理解,也无法衡量每个特征变量对于模型预测结果的重要性,更不能体现特征变量之间的相互作用。白箱模型(包括线性回归模型、决策树模型等):模型具有出色的可解释性,且内部的运算机制也容易理解,但模型预测能力受限,且无法对数据集内在的复杂性进行建模。10.增强模型可解释性的方法有哪些?(1)特征重要度(2)特征交互(3)ShapleyValues(常用SHAP方法)(4)部分依赖图(PDP)(5)个体条件期望图(ICE)(6)累积局部效应图(ALE)(7)全局(GSM)或局部(LIME)代理模型。

第十二章金融领域的机器学习1.文本数据有哪些特点?文本数据与诸如行情交易等传统金融数据不同,具有两个独特特征。首先,文本数据一般无固定结构,无法用传统二维表进行逻辑表达。其次,文本数据具有与生俱来的高维特性。2.文本数据可以通过哪些途径获得?文本大数据主要通过三种方式获取:1.手工收集法;2.数据库获取法;3.网络抓取法。3.将文本数据转化为数据矩阵的方法有哪些?可以利用词袋模型(BagsofWords)、Word2Vec(WordtoVector)、N元模型(N-gram)、主题模型(TopicModel)、BERT模型(BidirectionalEncoderRepresentationfromTransformers)等方法将文本数据转化为数据矩阵。4.文本特征识别方法有哪些?文本特征识别方法有可读性衡量(Readability)、文本叙述方法(Narrative)、文本相似性(Similarity)等。5.对文本数据进行信息提取的方法有哪些?可以利用词典法、朴素贝叶斯、支持向量机以及深度学习等方法对文本数据进行信息提取。6.文本分析技术在金融市场有哪些应用?目前,文本分析技术在金融市场的应用大致可分为两类,一是对文本显示的投资者情绪正负、新闻或者文件语调正负进行分类的问题,二是对关注度、不确定性、恐慌程度、意见分歧程度的度量以及相应的回归问题。7.根据研究主体不同,关注度可以分成哪三类?根据研究主体不同,关注度可分为投资者关注度(散户投资者和机构投资者)、媒体关注度和分析师关注度三类。

第十三章基于机器学习的金融时间序列预测1.常见的宏观经济指标有哪些?常见的宏观经济指标有通货膨胀、国民生产总值、就业率和国际收支平衡。2.PCA与sPCA的区别在哪里?两者的预测能力如何?传统PCA模型在处理预测因子集时只考虑数据内部的信噪比,并没有考虑数据集与被预测项的关系。而sPCA强调单一数据中包含两类信息,一为模型预测所需要的,而另一类为其他无关的噪声信息,因此在降维前给予信息多的数据更高权重而降低信息少、噪音多的数据权重,新构建的数据集将具有更高的预测能力。3.公司特征指标一般分为哪几类?公司特征指标一般分为估值类指标、投资类指标、趋势类指标、市场类指标和无形资产类指标。

第十四章基于机器学习的因子投资1.阐述第一节案例深度学习中国股票市场因子投资组合中的训练集、验证集以及预测集的设定。样本初始训练集为2003年1月至2006年12月,初始验证集为2007年1月至2008年12月,利用得到的预测模型估计样本期为2009年1月至2009年12月的股票收益;之后每年初保持验证集和测试集长度不变,训练集长度增加一年,最终得到的样本外预测集为2009年1月至2017年12月共108个月收益预测数据。2.第二节案例各类机器学习方法构建中国股票市场因子投资组合中如何对数据进行筛选和修正?首先,将财务数据的样本时间区间起始点选在2000年后。这是由于中国股票市场从90年代初期建立的头十年里,市场机制不健全、上市公司数量较少、公司的财务造假和内幕交易现象较严重,因此难以得到令人信服的实证资产定价研究结论。其次,我国在2000年左右加入了世界贸易组织(WTO),以此为契机,我国的市场经济的发展程度更加完善,股票市场机制更加成熟,上市公司的财务披露质量和监管力度显著提高。因此,根据目前研究中国股票市场的研究经验,将分析的起始点选在2000年后。3.第三节案例因子动物园中所构造的因子模型包括哪些?包括五因子模型与七因子模型,如下所示RR4.对投资组合的评估指标有哪些?有夏普比率(Sharperatio),确定等价收益(CER,certaintyequivalentreturn)和换手率(Turnover)。夏普比率是一种普遍使用的评估投资组合表现的指标,其含义是投资组合每单位风险所带来的收益。确定等价收益的等价意味着一个投资者认为下列两个选择是等价的:①某个投资组合策略所产生的收益②恒等于CER的无风险利率。换手率是评价投资组合表现的关键指标,其定义为N个资产在各期之间变化值的绝对值之和。5.阐述二次组合方法。与主要致力于通过单次精确估计来减少估计过程中的误差不同,Kan&Zhou(2007)和Zhou(2011)提出了将互补方法的结果进行二次组合,从而得到一个表现更好的方法,即为二次组合方法。

第十五章基于机器学习的风险管理1.金融风险是什么?你所知道的风险度量指标有哪些?金融风险包括了金融市场风险、金融产品风险、金融机构风险等。一家金融机构发生的风险所带来的后果,往往超过对其自身的影响。金融机构在具体的金融交易活动中出现的风险,有可能对该金融机构的生存构成威胁;具体的一家金融机构因经营不善而出现危机,有可能对整个金融体系的稳健运行构成威胁;一旦发生系统风险,金融体系运转失灵,必然会导致全社会经济秩序的混乱,甚至引发严重的政治危机。常用的风险指标有逾期天数、逾期期数、递延指标、不良率、欺诈损失率等等。(1)逾期天数(dayspastdure,DPD)代表已逾契约书预定缴款日的延滞天数,贷款型产品自缴款截止日后第一天开始计算;而信用卡较为特别,虽然缴款截止日为关账日后20天,但逾期天数也是由次一关账日后起算。(2)递延指标(lagged)为计算延滞率时常用的一种方法。银行的风险管理单位较常使用lagged指针,优点是可以回溯逾期起源,不受业务起伏影响,较能合理的反应逾期状态,缺点是需要回推历史数据,计算较为麻烦。2.GARCH模型是用来解决波动率的什么问题?是通过什么办法解决的?GARCH模型假设波动率是一个有着自回归结构的隐含变量,因此能以极其简单的结构来刻画波动率聚类效应,使波动率度量值的设定更加合理。3.我国股市的崩盘风险来源有哪些?你可以解释其背后的经济原因吗?在金融市场理论下,我国股市的崩盘风险来源主要有两点:(1)首先是投资者结构。我国不管是在股市、债市、基市这些传统的资本市场,个人投资者都占主体和主导地位。个人投资者的主要特征是过度交易,其行为很大程度上扭曲了整个市场的资产定价和市场流动性。(2)其次引起系统性风险的原因就是交易制度。我国用的是指令驱动的交易制度,没有做市商,市场的流动性主要由投资者主导。一旦市场出现大幅度波动,知情交易者不愿意提供流动性,这样就出现流动性风险,流动性风险的蔓延和传染形成系统性风险。4.在第一节的案例一中,你对2015年前后的样本预测结果有什么看法?你认为是什么因素影响了模型的预测能力?在2015年股灾发生之后各模型的预测能力都有明显的下降,但其预测能力依旧表现优秀。这说明使用机器学习模型来预测波动率是切实可行的,但是风险事件的发生也会对模型预测精度产生影响。有可能股灾等事件的发生使得投资者更加害怕此类事件,市场更容易受到风险的影响,反映程度更难以预测,因此机器学习方法的预测精度有所下滑(合理即可)5.在第二节的案例二中,你认为那种机器学习模型表现最好,为什么?在测试集样本下,Bagging和随机森林方法在训练阶段展示出了较高的准确性。然而,这并不意味着他们是好模型,有可能这两种机器学习方法在训练集中产生了过拟合效应。因此为了增加说服力,在来看使用原始数据集检验的结果——所有的预测模型性能都有所下降,但是综合来看,机器学习模型中的boosting、bagging和随机森林模型的预测效果最为优秀。6.在第三节的案例二中,为什么要用对精准度与召回率进行等权调整的F1度量值来衡量整体预测能力呢?F-score作为机器学习模型中最常用的测量方法,是根据测试的精确度和召回率计算出来的。F-score关注的是权衡精确度和召回率,精确度可以看作是质量的衡量标准,而召回率则是数量的衡量标准。较高的精度意味着模型返回的相关结果比不相关的结果更多,高召回率意味着模型返回了大部分相关结果。而在案例中为了比较不同模型的预测精度,因此需要使用对测试的精准度与召回率进行等权调整的F-score值。

第十六章基于文本分析的投资者情绪研究1.阐述金融市场不同类型文本的特征在学术研究以及业界实践中主要应用的文本包括企业会计报告文本、媒体新闻报道文本、网络论坛文本和政府公告文本。企业会计报告是按照监管要求定期对外提供关于企业经营状况的整体报告,包含了反

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论