第6讲 树类分析及其在金融运用_第1页
第6讲 树类分析及其在金融运用_第2页
第6讲 树类分析及其在金融运用_第3页
第6讲 树类分析及其在金融运用_第4页
第6讲 树类分析及其在金融运用_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

树类分析及其在金融领域的应用第六讲树类分析是数据挖掘技术领域的一种重要方法,能够从一系列具有众多特征和标签的数据中总结出决策规则,并用树状图的结构呈现这些规则。作为金融平台来说,为了把控风险,保证资金的流动性,就要提前预测未来一段时间内的用户购买和提现金额。准确预测用户到期是否复投就变得至关重要。章前导读12345了解树类分析方法的基本原理熟悉决策树方法和随机森林的原理与代码熟练运用回归决策树和分析决策树等熟悉各种模型的优缺点与评价指标掌握各种模型的具体应用情景,特别是金融领域的应用学习目标树类分析方法概述及其应用场景随机森林算法原理决策树算法原理树类分析方法在金融领域的应用本讲内容一、树类分析方法概述及其应用场景第一节树类分析方法概述及其运用场景树类分析主要包括决策树随机森林梯度提升决策树树类分析的应用场景临床医学非金融领域:企业营销企业决策天文学基因研究……金融领域:资产定价风险预测股票市场树类方法概述与比较最早产生于20世纪60年代,是由亨特(Hunt)等人研究人类概念建模时建立的学习系统(ConceptLearningSystem)优点计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以直接处理分类型变量而不需要创建哑变量关键难点建立决策树不足存在过拟合的问题,泛化能力差决策树随机选择特征构建决策树随机森林投票在数据噪音比较大的情况下会过拟合基本流程:相比决策树的优点:不足:随机选择样本解决了模型的抗干扰能力易于实现;训练速度快;突出优良特征数据量大的情况下预算量大的问题树类方法概述与比较随机森林树类方法概述与比较优点:训练效果好、适合低维稠密数据,模型可解释性好,不需要做特征的归一化、可以自动选择特征、不易过拟合以决策树为基分类器(一般是CART树)进行迭代的决策树算法不足:弱学习器之间相互依赖,难以并行训练数据、不适用高维稀疏特征等梯度提升决策树树类分析方法在金融领域的应用在风险预测中的应用B在资产定价中的应用A二项式期权定价模型:使用离散概率来确定期权到期时的价值在股票市场中的应用C决策树预测用户违约:获取用户的历史数据,将贷款客户不断分类,简化树的复杂度,评估客户的信用等级充分利用庞大的交易数据进行股票涨跌预测二、决策树算法原理基本概念1.父节点、子节点2.根节点3.叶子节点4.节点分裂最小样本数5.叶子节点最小样本数6.树最大深度(垂直深度)第二节决策树算法原理决策树算法流程是否(if-else)规则的集合决策树的构造:1.由训练样本集生成决策树2.用新的样本数据集校验并进行决策树的剪枝定义在特征空间与类空间上的条件概率分布根节点分支节点决策结果(叶子节点)分支节点决策结果(叶子节点)决策结果(叶子节点)决策结果(叶子节点)条件1条件2条件3决策树算法——ID3算法主要特点:根据“最大信息增益”来选择分裂节点的属性,从而可以获得有关于每个节点的最大类别信息ID3决策树算法是其他决策树算法的基础其中,i代表X的n种离散取值,而pi则表示取X值为i的概率,log为以2或以e为底的对数。熵:度量事物的不确定程度随机变量的熵的表达式:信息增益(InformationGain)信息增益:原信息熵值与条件熵值之差02条件熵:当引入某个用于分类的变量,则将根据分类条件划分后的信息熵称之为条件熵,其公式为:01信息增益越大,分类后混乱程度越低,该条件分类的效果越好。03通过不断选取信息增益最大的条件作为首先划分的依据,依据该逻辑进行分裂,不断重复该过程最终构建出决策树。原理简单,降低了个别异常数据的敏感度,大样本数据集计算速度也较快。倾向于选择取值较多的属性而非最佳分裂属性;未考虑缺失值的情况和特征属性之间的关联,只适用于离散型数据,只能用于分类不能用于回归。ID3算法的主要原理优势不足主要原理01020102优势:不足:将连续的特征离散化解决离散数据问题改进改善了ID3算法的几个主要问题,分类准确率较高计算机运算效率低未考虑特征属性间的相关性,只能用于分类C4.5算法——以最大信息增益率作为标准信息增益率:信息增益与条件熵的比值决策树算法——CART分类树CART分类树引入基尼系数(Gini)作为选择分裂节点的特征,其表达式为与熵一样,基尼系数表征的也是事件的不确定性

决策树算法——CART分类树引入某个用于分类的变量后,分割后的基尼系数公式为:基尼增益(Gain)的公式为:度量目标:选择误差平方和最小的划分特征与切分点作为最优特征和最优切分点预测结果:采用最终叶子的均值或者中位数来预测输出结果决策树算法——CART回归树

ID3、C4.5、CART算法总结算法支持模型树结构特征选择标准连续值处理缺失值处理剪枝特征多次使用ID3分类多叉树信息增益不支持不支持不支持不支持C4.5分类多叉树信息增益率支持支持支持不支持CART分类、回归二叉树基尼系数、均方差支持支持支持支持决策树剪枝YUJIANZHI预剪枝:HOUJIANZHI后剪枝:指定每一节点包含的最小样本数目指定决策树的深度指定节点的熵/基尼系数小于某个值时,停止分裂在构建决策树的过程中同时伴随着剪枝先生成与训练样本集完全拟合的决策树再利用测试样本集来检测决策树的预测精度决策树完全生成之后再进行剪枝#改变参数实现预剪枝决策树的预剪枝代码决策树的后剪枝方法在剪枝的过程中,对于决策树的任意子树,其代价函数为:后剪枝通常比预剪枝保留更多的分支,其欠拟合风险很小;泛化性能更优;但训练时间开销更大决策树的评估评估方法ROC曲线AUC指标均方误差(MSE)交叉验证法评估内容模型的准确性模型的稳定性三、随机森林算法原理010203用随机的方式构造多棵决策树,形成决策树的“森林”原理:根据决策树的算法,通过拟合算法,将分散的决策树进行整合,大量树体融合后,通过分类结果进行统计后的运算。克服了决策树过拟合问题对噪声和异常值有较好的容忍性对高维数据分类问题具有良好的可扩展性和并行性随机森林算法优势随机森林随机森林算法基本步骤一二三四自助抽样法(Bootstrap)从全部训练样本单元中抽取个样本单元构成Bootstrap数据集基于数据集构造一棵树,对于树上的每个节点,重复选取最佳分分枝变量并分裂,直到节点的样本数达到指定的最小限定值获得决策树聚合决策树做出最终决策29随机森林代码随机森林的泛化误差能够正确分类训练样本之外的样本数据的能力模型的泛化能力泛化误差的上界模型未能对其进行正确分类的概率泛化误差袋外数据泛化误差估计方式大数据是指数据的集合,其大小超出了现有典型数据库获取、存储管理和分析数据的能力。平均基尼指数下降法:通过计算变量导致的基尼系数不纯度下降程度,得到各特征对分类树每个节点上观测值的异质性的影响,从而衡量特征的重要性。随机森林的参数调试四、树类分析方法在金融领域的应用面对充满不确定性的新常态,未来银行需要不断借助大数据和机器学习,优化自身的风险管理水平,提高核心竞争力树类分析方法在金融领域的应用案例一:客户违约预测——基于决策树分类模型得益于决策树的可解释性强等特点,通过决策树搭建客户违约预测模型,可以更科学高效地预测客户是否会出现违约情况。1.提取特征变量和目标变量2.划分训练集和测试集3.模型搭建和评估决策树模型的搭建案例一:客户违约预测——基于决策树分类模型模型的预测及效果分析案例一:客户违约预测——基于决策树分类模型股市的暴涨暴跌直接影响到金融市场的稳定,增加发生系统性金融风险的可能性,进一步影响经济的健康发展。树类分析方法在金融领域的运用案例二:股票涨跌预测——基于随机森林分类模型传统的预测方法都无法十分准确的模拟股票预测的非线性关系。随机森林算法作为多个决策树算法的集成,它的泛化能力更强,并且不存在过拟合的问题,因此通常使用随机森林算法预测股票价格的变动。案例二:股票涨跌预测——基于随机森林分类模型openclosehighlowvolumecode2012-03-0111.9411.9011.9911.861543166000312012-03-0211.9012.2012.2111.893563756000312012-03-0512.2412.2212.5112.194069196000312012-03-0612.1711.7812.1711.762788626000312012-03-0711.6411.4511.7111.41363519600031股票数据的获取与处理模型训练与预测结果分析38dateclosevolumehigh_low…rsiY_testY_predict2020-03-1913.5618570220.09…32.21112020-03-2014.4416215150.07…42.20112020-03-2314.5114334760.08…42.93112020-03-2415.2612364280.03…50.27112020-03-2515.5410904880.05…52.75-112020-03-2615.345534630.04…50.7811序号特征名称特征重要度1close_open0.242

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论