如何运用机器学习预测财务困境_第1页
如何运用机器学习预测财务困境_第2页
如何运用机器学习预测财务困境_第3页
如何运用机器学习预测财务困境_第4页
如何运用机器学习预测财务困境_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要2016年,印度破产委员会为陷入财务困境并寻求偿付能力或解决方案的印度公司制定了《破产法》。根据IBC2016年的数据,自那以后大约有300家公司在印度申请破产。本研究对在孟买证券交易所(BSE)上市的印度公司的财务困境进行了均衡样本研究,将最先进的机器学习技术应用于预测任务,如逻辑回归、套索回归、决策树、bagging、boosting和支持向量机,并选择了18个企业层面的变量作为解释变量,其中市值/债务比率是所有模型中最关键的变量,并在Altman的z-score模型中建议将其用来度量杠杆。关于市值/负债比率的显著性的发现与已有文献一致。财务状况不佳的公司的债务预计会高于财务状况良好的公司。此外,由于投资者可能对投资陷入困境的公司不感兴趣,这可能会导致财务困境公司的市值进一步下降。随机森林套袋模型在模型的性能上获得了最高的准确率、召回率和接收者工作特征曲线下面积(AUC),将模型的准确性提升到了新的高度。Ⅰ.研究背景在审计中应用数据分析的好处是可以提高审计工作者财务困境是公司可能无法履行其财务义务的一种情况,会影响整体经济。例如,对业务的低效管理可能导致失败,同时,外部商业环境方面也面临着衰退的压力,或者竞争性竞争可能会迫使一家公司灭亡。然而,无论出于何种原因,企业破产都会影响到许多利益相关者——股东,银行,债权人。因此,财务危机预测问题对管理者、利益相关者、金融机构、贷款人、政府和银行至关重要。最近,由于不良资产(NPA)的增加,印度的银行遭受了巨大损失。根据印度储备银行(RBI)的数据,不良贷款率(银行贷款组合中不良贷款量与银行持有的未偿还贷款总额的比率)呈上升趋势(图1)。图1:不良贷款率早些年印度的没有一个单一的实体来管理财务困难公司的破产法律,在2016年,印度通过了统一的《破产法》(IBC),通过之后破产程序加快了,陷入困境的公司的清盘也变得更加便捷。自上世纪60年代以来,人们对财务困境和破产预测进行了大量研究。随着计算和技术领域的进步,许多监督机器学习技术被用于各种分类任务,其中预测破产是其中之一。现有文献记录了公司可能陷入财务困境的诸多原因,从内部因素资产管理不善到外部因素全球经济衰退。在现有的关于财务困境的文献中,许多变量被用来预测财务困境。大多数论文认为,没有一套单一的财务比率是足够的,但提倡将它们与其他比率结合使用,以捕捉企业的不同方面,即偿付能力,流动性,盈利能力,效率等。随着神经网络和来自监督机器学习的各种新的数据挖掘方法的出现,可以分析的变量数量增加了,因为这些先进的技术可以处理许多变量。一项关键的调查仍然是确定有助于预测财务困境事件的重要变量。对企业财务困境进行评估,无论是对从业者还是对学者都具有重要意义。Ⅱ.研究设计2.1数据根据IBC2016年的规定,在印度的公司必须在IBBI提起诉讼处理清算和破产事宜。本研究考察了向IBBI提交的破产和决议相关案件,从IBBI网站上获得了这些数据,其中包括262家在孟买证券交易所(BSE)上市的公司,这些公司在2016年至2019年期间向IBBI提交了破产和解决方案。本研究的目标是确定预测公司危机事件的财务比率。因此,本研究还收集了262家财务健康的公司的数据,这些公司属于同一行业,与陷入困境的公司规模相同。规模是由三年内收入和资产的平均值来定义的。本研究从印度经济监测中心(CMIE-Prowess)维护的Prowess数据库中收集了这524家公司的企业层面财务数据。最终数据集包含524行和20列,包括公司名称和目标列,财务困难和健康的公司的条目分别为1和0。财务比率有18个自变量。这些比率主要可以分为四个重要类别:流动性、偿付能力、盈利能力和效率。数据集的目标变量是通过将处于财务困境的公司标记为1而将其他公司标记为0来创建的。在建模阶段之前需要对数据进行预处理。由于一些公司没有提供一些指标,一些比率为0或没有定义。因此,在进一步处理数据之前需要进行数据清理。最初,大约有300家公司陷入财务困境。在检查了缺失值和零之后,缺失10项以上指标的公司被剔除,最终数据库中有262家陷入困境的公司。在这262家公司中,通过行业映射从相同规模的十分位数中选择了另外262家健康公司。在使用该数据进行最终建模之前,进一步检查该数据是否存在异常值和缺失值,并在R软件中进行规范化。本研究根据大量关于破产和财务困境的文献中的运用频率程度选择了一些变量,如表1所示。表1:变量列表2.2研究方法本研究的主要目标是使用表1中列出的定量比率来预测走向财务困境的公司。其中企业可以分为二分类,即“有财务困难”和“没有财务困难”。机器学习技术可以用于处理分类任务。机器学习方法分析同一类型观测的趋势,并识别将数据点与特定类别区分开来的特征。在本研究中,公司必须根据各种流动性,偿付能力,盈利能力和效率变量来区分为两个给定的类别。该方法基于可能的可区分因素的概念和统计公式中使用的权重选择,这些权重可能有助于区分这两类。机器学习模型严格遵循GIGO原则,意思是“垃圾进垃圾出”;因此,在建模阶段之前需要对数据进行预处理,以使所使用的模型得到更好的结果。数据预处理包括探索性数据分析、对变量进行归一化、去掉相关性较高的变量等。这些将在后面的段落中详细讨论。本研究使用524家公司和18个变量的总样本比较了财务困境的各种分类算法。用于给定任务的算法如下:a)逻辑回归,b)lasso正则化,c)决策树,d)随机森林套袋算法,e)增强算法(XgBoost),f)支持向量机。数据预处理是机器学习模型的重要组成部分,因为数据需要具有可接受的质量,以供机器学习算法的相关结果使用。检查了缺失的值后,发现数据集中缺少48个值。这些缺失值是使用缺失值的相应类的中位数来估算的。大多数算法对异常值的鲁棒性不强,因此应该对这些异常值进行处理,并将其控制在限制范围内。由于异常值,像逻辑回归这样的算法不会收敛,对异常值高度敏感。对于异常值处理,本研究使用R中的squishlibrary函数,高于99个百分位数的值用第99个百分位数来计算,低于1个百分位数的值用第1个百分位数来计算。绘制箱形图以查看两类数据的分布并识别异常值。有些特征具有非常高的相关性,因此建议从两个高度相关的特征中删除一个特征。本研究使用R中的corrplot函数绘制相关矩阵,为了完成这项任务,基于它们在文献中的流行程度,很少删除特征。Ⅲ.研究结果分析3.1数据的描述性统计表2给出了所有变量的描述性统计。通过检查变量的描述性统计,本研究可以看到一些变量具有非常高的极值,这表明数据中存在异常值。这些异常值可能会在建模阶段引起问题,因此使用Squish函数对它们进行处理,该函数允许将超过99个百分点的值用第99个百分点进行估算,将低于1个百分点的数值用第1个百分点估算。表2:描述性统计3.2变量的相关性在建模之前,应该检查变量的相关性,因为模型中高度相关的变量会导致对变量的错误解释,因为如果本研究谈论逻辑回归,相关变量会增加变量的权重。因此,在拟合模型之前,从每对相关变量中删除一个变量。相关图如图2所示。图2:变量间的相关性变量留存收益/总资产(X2)和净收入/总资产(X8)的相关性为1,这是合理的,因为净收入是税后利润,留存收益是股息后利润。由于留存收益和净收入可以相互表示为线性函数,分母相同,因此可以预期相关性为1。变量EBIT/销售额额(X6)和净收入/销售额额(X11)也具有0.89的高相关性,这可以再次通过EBIT和净收入之间几乎线性的关系来理解。EBIT是息税前收益,而净收入是税后收益,所以这两个变量表明收益和分母相同,显示出高度的相关性。现金/流动负债(X15)和债务/总资产(X16)也高度相关。从相关变量对中,根据其在文献中的受欢迎程度选择变量(参见Altman(1968)和Ohlson(1980))。这里删除的变量是净收入/总资产(X8)、经营现金流/债务(X10)、净收入/销售额额(X11)、营运资金/销售额额(X14)和现金/流动负债(X15)。3.3逻辑回归采用logistic回归模型进行分类,logit模型总结如表3所示。由此可以推断,有6个显著变量的置信区间大于95%,分别是营运资金/总资产、留存收益/总资产、市值/总负债、销售额额/总资产、经营现金流量/总资产和流动资产/总资产。在6个显著变量中,有4个与Altman(1968)在z-score模型中使用的相同。表3:Logistic回归结果除了流动资产/总资产外,所有重要变量的系数都是负的,这是预期的保留收益/总资产、销售额额/总资产和经营现金流量/总资产可以被视为盈利能力的衡量标准。对于健康的公司,这些措施应该比那些陷入困境的公司更高。所以,这些系数可以是负的。营运资本/总资产是衡量流动性的一个指标,这可能也是负的。然后,市值/债务,杠杆的衡量标准,预计对健康的公司具有高价值,因为它们应该具有低债务和高市值。对于流动资产/总资产,系数是正的。3.4Lasso正则化Lasso正则化用于惩罚逻辑回归的代价函数,减少少量系数,并为逻辑回归创建稀疏解。在logistic回归总结中本研究可以看到,与其他特征相比,留存收益/总资产的系数是极端的,因此变量可能主要是推动解决方案。从带有logλ的系数图((图3))可以明显看出,该系数在没有正则化的情况下表现得像一个离群值。图3:系数与logλ曲线图这两个系数比其他没有正则化的系数更大,它们是留存收益/总资产和经营现金流量/总资产。这些系数可以正则化,其他不重要的特征系数可以通过选择合适的λ值降为零。这里λ是一个超参数,是在交叉验证的帮助下选择的。交叉验证图如图4所示。图4:误差和logλ曲线图图上的两条垂直线分别是λmin和λmin加一个标准误差。λ的选择是逻辑回归模型的偏差-方差权衡。偏差会增加,但方差会减少,并且任何模型的总误差等于((偏差))2+方差。此外,该模型将更精简,功能更少。图顶部的值是在λ的特定值处选择的系数的数量。选取λmin+1标准误差作为建立稀疏解的套索,选取8个特征。这八个特征包含了逻辑回归的所有六个显著特征。这8个变量的正则化系数见表4。表4:套索系数3.5决策树使用R中的rpart库对任务使用决策树。决策树图如图5所示。决策树的优点之一是易于解释。这就是为什么它是一个广泛使用的算法。在下面的图中,在根节点,本研究有419个观测值,其中202个是1秒。因此,0.48是在这个节点上得到1的概率,100%表示所有的观测值都在这个节点上,因为它是根节点。第一个分割变量是X4,即市值/债务,该变量的截止值为0.283。这一分裂获得的信息最多,甚至在这一分裂中,数据也被分配到56%和44%。其他的分裂也可以用同样的方式来解读。图5:决策树的输出决策树可以看作是一个嵌套的if-else算法;因此,规则可以总结。首先,如果市值/债务≥0.28,息税前利润/总资产≥-0.023,则该企业可被归类为健康企业。其次,如果市值/总负债<0.28,销售额额/资产≥1.6,经营现金流量/总资产≥0.099,则可以将企业归类为健康企业,而如果后一个条件不满足,只要前两个条件都满足,企业就可以被归类为陷入困境的企业。第三,如果市值/债务<0.28,销售额额/资产<1.6,则该公司可被归类为陷入困境的公司。最后,少数市值/债务≥0.28,息税前利润/总资产<-0.023的企业可被归类为不良企业。使用终端节点中的概率值来决定分类的截止点,该截止点由r中的信息值包来完成。对于给定的训练数据决策树,分类的截止点可能为0.09,因为大多数0在0.09处被分类,如左下角节点所示。决策树也被用来查看特征的重要性,这是通过减少基尼杂质在任何特定节点计算。将变量重要性缩放到100,如图6所示。在总共14个变量中,有10个变量在模型中减少了一定数量的基尼杂质。根据决策树,市值/债务是最关键的变量,决策树的前3个变量包括Altman变量。第四个变量,债务/总资产,是一个偿付能力变量。图6:决策树的变量重要性3.6随机森林套袋算法本研究使用随机森林套袋算法,并通过反复交叉验证来调整超参数。调优的超参数是基本模型中使用的特征的数量和要使用的树的数量。交叉验证的超参数调优图如图7所示。选择的调谐度量是精度,使用不同的模型和不同的超参数集,并绘制了准确度图。在本研究的训练集中,最好的模型有150棵树和5个特征。图7:随机森林的超参数整定随机森林还通过基尼杂质的平均减少来说明变量的重要性。变量重要性图如图8所示。根据随机森林,最重要的变量是市值/债务。对于决策树和随机森林来说,前4个变量是相同的,可以看出,相同的变量在不同的数据样本下表现更好,其中3个是奥特曼变量。图8:随机森林的变量重要性3.7增强算法(XGboost)增强的决策树也有不同的超参数需要调整。调优的超参数包括要采样的列的比例、迭代次数、学习率和树的最大深度。经过20轮优化后的最佳模型,学习率为0.1,子样本比为0.6,最大树深度为5(图9)。图9XGBoost的超参数调优XGboost算法的变量重要性如图10所示。XGboost还表明,市值/债务是最好的变量。这个变量在所有三个模型中都被标记为最重要的。奥特曼用这个变量来反映杠杆。这一变量的重要性表明,高负债和低市值的公司很可能陷入财务困境。根据XGBoost的说法,其他重要变量包括息税前利润/资产、运营现金流/总资产和流动资产/总资产。图10:XGBoost的变量重要性3.8支持将训练数据拟合到所有模型后,在新数据上对模型进行检验,并根据不同的度量进行比较。对于分类模型,有许多性能度量。研究中比较了所有模型的准确度、精密度和召回率。精确度的定义是,在所有预测的阳性结果中,有多少是实际阳性的,召回率的定义是在实际的阳性事件中,有多少被正确归类为阳性事件。根据问题的需要,精确度和召回率可能都很重要。对于一家愿意了解其财务状况的公司来说,召回是至关重要的。另一方面,对于想要投资某家公司的投资者来说,精确度同样重要,因为如果本研究的模型预测某家公司在没有陷入财务困境的情况下陷入财务困境,投资者就会损失机会成本。因此,这两种措施同等重要。另一个性能指标是接收器工作特性((ROC))曲线下面积((AUC)),图11。对所有模型计算了这些度量,列于表5中。不同模型的混淆矩阵如下表所示。所有模型的混淆矩阵如表6所示。图11:模型的ROC曲线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论