![证据权重方法在企业信用风险评估应用_第1页](http://file3.renrendoc.com/fileroot_temp3/2021-12/3/7f54e248-2c2f-4a82-8844-1081da6d577c/7f54e248-2c2f-4a82-8844-1081da6d577c1.gif)
![证据权重方法在企业信用风险评估应用_第2页](http://file3.renrendoc.com/fileroot_temp3/2021-12/3/7f54e248-2c2f-4a82-8844-1081da6d577c/7f54e248-2c2f-4a82-8844-1081da6d577c2.gif)
![证据权重方法在企业信用风险评估应用_第3页](http://file3.renrendoc.com/fileroot_temp3/2021-12/3/7f54e248-2c2f-4a82-8844-1081da6d577c/7f54e248-2c2f-4a82-8844-1081da6d577c3.gif)
![证据权重方法在企业信用风险评估应用_第4页](http://file3.renrendoc.com/fileroot_temp3/2021-12/3/7f54e248-2c2f-4a82-8844-1081da6d577c/7f54e248-2c2f-4a82-8844-1081da6d577c4.gif)
![证据权重方法在企业信用风险评估应用_第5页](http://file3.renrendoc.com/fileroot_temp3/2021-12/3/7f54e248-2c2f-4a82-8844-1081da6d577c/7f54e248-2c2f-4a82-8844-1081da6d577c5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 证据权重方法在企业信用风险评估应用 危明铸 沈凤山 袁峰 麦伟杰摘 要:本文以广东省各个行政部门的企业数据为基础,研究了证据权重在企业信用风险等级评估中的应用,并且根据国家“企业信用风险分类评价标准”系统建立了企业信用评价指标,成功地将证据权重逻辑回归算法应用到真实的企业信用数据集,建立企业信用风险评估模型,使得监管部门能够准确地掌握企业的信用情况。通过与经典的逻辑算法比较,验证了该方法的有效性。关键词:证据权重 逻辑回归 信用风险 企业信用:o212
2、 :a :1674-098x(2020)10(b)-0137-07abstract: based on the enterprise data of various administrative departments in guangdong province, this paper studi
3、es the application of weight of evidence in the assessment of enterprise credit risk levels, and establishes enterprise credit evaluation indicators based on the national "enterprise credit risk classification and evaluation standards". the weight-of-evidence logistic regression algorithm
4、is applied to real enterprise credit data sets to establish enterprise credit risk assessment model, enabling regulators to accurately grasp the enterprise credit situation. compared with the classical logic algorithm, the validity of the method is verified.key words: weight of evidence; logistic re
5、gression; credit risk; credit of enterprise企業信用是市场经济的产物,是对各类市场参与主体履行相应经济契约的能力及其企业整体的可信程度所进行的一种综合分析和测定,是企业的一项重要无形资产。随着市场主体“宽进严管”改革的不断深入,国务院相继颁发了国务院办公厅关于推广随机抽查规范事中事后监管的通知(国办发201558号)1、国务院关于“先照后证”改革后加强事中事后监管的意见(国发201562号)2和国务院关于印发2016年推进简政放权放管结合优化服务改革工作要点的通知(国发201630号)3等相关文件,企业信用在社会经营活动中变成一个有效的“身份证”,塑造
6、了一个企业在社会的面目和形象。针对目前市场主体规模庞大、难以把握重点监管对象、双随机抽查的靶向性不强等不足,有些学者已经发表了自己的研究成果。odom等人4早在1990年把人工神经网络应用到企业信用风险评估上,并将其与经典的多元回归分析比较,实验表明人工神经网络具有更优越的性能;prinzie等人把逻辑回归(logistic)引入随机森林算法并对其进行优化以及改进,然后将改进的算法应用于预测公司的信用风险5;lin f等人研究随机森林与kmv模型结合,提出将违约距离作为随机森林的输入,实验表明对企业信用风险预测性能更有效6;traskin等人利用随机森林具有筛选重要变量的特征,提出将其应用在保
7、险公司偿付判别中7;吴丽丽运用logistic回归模型深入探讨了我国商业银行信用风险监管的问题8;郭玉华根据微型企业的特征,运用logit模型进行实证分析,银行可以借助该模型对微企的信用风险进行评估9;方匡南,范新妍等人指出传统的logistic回归建立企业运行风险预警模型效果不够好,提出了基于网络结构关系的logistic模型10;杨俊等人使用gradient boosting算法对中国建设银行上海分行的企业贷款客户数据建立模型,并和逻辑回归以及专家规则进行横向比较,结果表明gradient boosting算法的模型要优于另外两种模型11;熊正得等人利用因子分析法对深沪a股上市的制造企业财
8、务数据构建风险评价体系,并在违约测度阶段应用logistic回归对不同组样本进行测度12;刘丹等人使用证据权重、逐步回归对信用评价指标进行筛选,构建一套具有区分违约能力的信用风险模型13;刘丽君、韩静磊等人运用woe法评估了生活垃圾焚烧厂固化飞灰中重金属的非致癌健康风险,并将其与传统的非致癌健康风险评价方法进行比较14;赵雅迪等人通过信息值(information value,)及证据权重转化(weight of evidence,woe)结合逻辑回归算法构建用电客户电费风险预测模型15;陈超等人采用卡方分箱法和woe编码判别确定影响转炉理想终点目标的关键工艺参数,并且运用逻辑回归算法对编码后
9、数据构建的转炉操作工艺评价模型16;危明铸等人在企业信用风险预测上综合运用了各种机器学习算法比较各种方法的优缺点17。本文对过去一定时期(如1年)出现过信用风险事件(如偷税、行政处罚等)的企业数据集,根据国家“企业信用风险分类评价标准”系统建立企业信用评价指标体系。应用机器学习方法预处理评价指标数据集,如特征选择(information value,iv)、缺失值处理、异常值处理,并将评价指标以证据权重(weight of evidence,woe)编码方式离散化形成woe数据集,之后结合逻辑回归算法学习企业过去发生信用风险事件与否的规律,建模企业信用风险评分模型。1 相关技术1.
10、1 逻辑回归逻辑回归(logistic regression)是一种比较流行的二分类的机器学习算法。例如,探讨企业信用风险与那些变量有关,可将企业数据集标记为两组,假设存在信用风险的一组企业标记为1,那么没有信用风险的一组为0,并用y表示响应变量,x表示自变量,逻辑回归用(1)式表达:上面(8)式即为逻辑回归的最后表达式,且有:,即与变量x为线性关系,而(9)式可以通过最大似然估计及梯度上升法18求解。1.2 信息价值和证据权重信息价值(information value,iv)是训练模型之前所提取的有效的信息量,亦即提取有用的变量信息作为建模。当经典的逻辑回归算法用于自变量多的企业数据建立分
11、类模型时,经常存在诸多不足。譬如变量共线比较敏感、很难拟合真实的数据分布,因此需要对自变量进行特征筛选,因此引入信息价值。iv可以根据量化指标的大小来衡量自变量的预测能力,它基于信息熵作为测量单位。信息熵用来描述“一个系统的混乱程度”,通常是度量样本集合纯度的一种指标。所谓“纯”,就是让分类器的一个分支拥有相同的属性。当熵为1时,表示企业数据中某个变量趋于一个分段,此时信息价值iv较小;当熵为0时,表示企业数据中某个变量存在多个分段,此时信息价值iv较大。设x是x个企业数据样本的集合,具有个不同的连续变量,其概率密度函数为,它的信息熵表示如下19:(10)式中e表示数学期望。由于信息熵能够精确
12、地描述企业信用有风险与无风险样本分布,本文将其引入企业信用风险评估中。对于给定的变量x,按照企业数据集将其分成两部分,对应有信用风险的数据密度概率为,对应无信用风险的数据密度概率为,即iv值由有信用风险的数据分布与无信用风险的数据分布之比的信息熵加上无信用风险的数据分布与有信用风险的数据分布之比的信息熵20:(13)式表明woe为企业无信用风险概率与企业有信用风险概率之比取自然对数。到此,可以将(12)、(13)式写在一起,得到iv与woe的关系式:在企业信用风险评估模型中,我们需要选择具有好的预测能力变量,即要求信息价值值大。值越大,说明该变量对无信用风险的企业与有信用风险企业的区分度越大。
13、从(14)关系式中可知,为了使得较大,必须保证该变量的woe与分布函数具有一致性,亦即woe与企业的数据分布单调一致,否则需要根据实际业务中的情况进行具体的分析。2 建模与过程本文的企业信用风险评估使用评分卡的方式建立模型。评分卡是当前运用比较广泛的信用风险评价方法,其原理是将评价指标以证据权重(woe)编码方式离散化之后,再运用逻辑回归进行模型训练。该方法的特点为可解释性强,模型结果稳定。整个建模过程包括数据获取和整合、目标确定和训练窗口选择、变量分段并计算信息价值、模型训练及模型评价。2.1 数据获取和整合根据企业该领域的特殊性,文本在建模中抽取以下三类变量:(1)原始变量。这
14、些变量从数据库中提取,概括了基本情况、各类原始明细等。通常来说,这些变量易于理解,但往往不是对模型最有效的;(2)衍生业务指标。这些字段来源于原始变量,有明确业务含义(如企业过去3年被投诉举报数量),這些变量通常比原始变量有更好地预测能力,也是评分卡最常用指标。然而,这些数据通常不自然存在于数据库中,需要在实施阶段通过计算得到;(3)衍生模型指标。这些变量由分析人员对原始数据进行多层转换和计算,通常由其他模型计算得出(如舆情风险指数),这些变量的预测能力一般是很好的,但和衍生业务指标相比,最大的区别在于缺少简单清晰的业务含义,由模型高度抽象后计算得出。2.2 目标确定和训练窗口选择针对过去出现
15、过信用风险事件的企业,其目标变量标记为1,过去未出现过信用风险事件的企业,其目标变量标记为0。评分卡模型是用特定时间段的数据训练的,这个特定时间段被称为建模窗口。选用窗口过短,企业数据在短期内波动频繁,容易引起模型预测结果的偏差,窗口过长则模型对企业及周围环境的反应容易产生滞后现象。本文以1年为上限,即模型将预测企业在未来一年内是否发生信用风险事件的概率。2.3 变量分段并计算信息价值实际的企业信用风险数据集中变量有两种情况,分别是定性变量和定量变量。对于类别变量,已分好段,直接计算iv值;对于连续变量和离散变量,假设将变量x2分成k段,我们需要寻找k-1分点使得woe与该变量保持单调性。必须
16、注意的是变量x2可能有多种划分保证这种单调性,这时我们选取iv的最大值作为最优分箱结果。分段后,设pbk、pgk分别表示变量x2第k段对应目标变量为1(有信用风险)和0(无信用风险)的比例, 由(13)、(14)式得到:其中,有了每个分段的woek后,变量x2的信息价值的定义如下:计算完iv后,根据实际企业业务情况,选择iv0.01的变量入模,因为iv在0.01以下的变量几乎毫无预测能力,可舍弃。2.4 模型训练模型的理论基础为逻辑回归算法,计算模型事件发生(本文y=1,即出现过信用风险事件)的概率,有(8)式展开得:这里,表示截距,为逻辑回归中的系数,由最大似然法(ml)求解,为原始变量经转
17、换后的woe值。模型开始训练时,通常会选择用逐步回归对变量持续进行筛选,每一步都移入对模型预测能力有帮助的变量,同时移除对模型无增益的变量。除了模型本身对变量的选择外,还考虑其它因素对变量进行选择,如下几项:(1)变量独立:即共线问题。回归中的多重共线性是一个当模型中一些预测变量与其他预测变量高度相关时发生的条件。严重的多重共线性可能会产生问题,因为它可以增大回归系数的方差,使它们变得不稳定。(2)变量一致性:即变量训练出来的参数正负性,和变量与目标变量的相关系数正负性必须一致,否则说明变量有偏差,需剔除;(3)变量可解释性:即变量及其变化趋势是可以被业务理解和使用的,而不是完全黑盒不可解释,
18、或者变量趋势无业务含义。2.5 模型评价模型性能的好坏决定其在实际中的应用效果,良好的模型会真实地反映出企业的发展趋势。本文采用“柯尔莫哥洛夫-斯米尔诺夫曲线”和“受试者工作特征”对企业信用风险模型进行性能评价。(1)柯尔莫哥洛夫-斯米尔诺夫曲线(kolmogorov-smirnov,k-s):将总体样本进行n等分(通常选用较大数值,如1000),并按模型计算出的违约概率降序排序,计算每一等分中信用风险事件发生的累计百分比(bad)和信用风险事件未发生的累计百分比(good),绘制出两者的差异,验证两者的一致性。(2)受试者工作特征(receiver operating characteris
19、tic,roc)曲线:通过在0到1之间改变用于创建混淆矩阵(confusion matrix)的临界值,绘制sensitivity(灵敏度)与1-specificity(1-特殊度)曲线。roc曲线下的面积为auc统计量,一般认为auc统计量0.75时,建立的模型具有较好的预测能力。3 实例分析3.1 数据说明与指标体系本节先根据“国家互联网+监管系统企业信用风险分类评价标准”建立企业信用风险指标体系,再从广东省各个行政部门获取过去一年内的企业有关数据集共1000条记录。我们随机选择700条记录作为模型训练集;剩余300条记录作为测试集,用来验证模型的性能及有效性。其数据格式与指标
20、体系分别如表1、表2所示。3.2 前期工作对1000条企业信用记录,鉴于每条记录拥有51个变量,可以考虑在建模前对了进行一些预处理工作。如下是实例分析前对数据集进行的预处理说明。(1)变量的相同率:指的是某个数据集中某个变量的值有多少个是相同的。高度一致的变量值包含的信息量少,无法区分各条记录的差异,因此会导致该变量对模型的建立不起作用。本文定義变量的相同率阈值identical_limit0.9,高于0.9的变量直接删除;(2)缺失值:这是数据挖掘建模中不可避免的步骤,造成数据缺失的原因是多方面的,文本根据企业业务情况,某变量的缺失率阈值missing_limit0.8,高于0.8的变量直接
21、删除,其余用到如图1的方式处理。3.3 结果分析实例分别运用经典逻辑回归及证据权重逻辑回归对企业信用风险数据集建模,并在训练集、测试集采用(kolmogorov-smirnov,k-s)、(receiver operating characteristic,roc)曲线检验模型的有效性。图2、图3为证据权重逻辑回归法在训练集、测试集的k-s、roc曲线图。其中,图中的虚线为训练集、测试集的good数据(企业无信用风险)与bad(企业有信用风险)的累积概率分布,其意义表示两个分布函数是否有差异,用p值衡量,并设置显著水平为=0.05。这里,模型在训练集、测试集均有,说明两者来自同一分布。此外,k
22、-s值越大模型性能越好,而模型在训练集、测试集中分别有k-s=0.5541、k-s=0.5404,查看表3的参考值可知,模型具有非常好的分辨力能。再者,模型在训练集、测试集的roc曲线都有不错的表现,由其与横坐标围成的图形面积值分别为auc=0.8279、auc=0.8097,均大于0.75,说明模型的二分类性能良好。最后,我们根据二分类的混合矩阵分析模型在预测阴性(文本为无信用风险企业)和阳性(文本为有信用风险企业)的单侧能力,模型的混合矩阵如表4、表5所示。从表中看到模型在训练集中识别“有信用风险”的记录能力为88.1%,201条有风险的记录只有24条记录被错误预测为无风险;在测试集中识别
23、“有信用风险”的记录能力为83.0%,87条有风险的记录只有14条记录被错误预测为无风险;同时,模型在上述数据集的整体准确率分别为85.6%、82.5%。图4、图5为经典逻辑回归算法在训练集、测试集的k-s、roc曲线图,其在训练集和测试集k-s的值分别为0.5225、0.4306;roc中的auc值分别为0.8387、0.7667,很明显经典逻辑算法在训练集上有过拟合现象。不论从k-s值或roc中的auc值比较,实例证明带证据权重逻辑回归法在企业信用风险模型评估中显然由于经典的逻辑回归算法。4 结语本文基于广东省有关行政部门的真实企业数据,应用证据权重逻辑回归对其进行信用风险建模
24、。通过对模型的k-s值和roc中auc值作了深入分析,并与经典的逻辑回归做比较,实例验证了带证据权重逻辑回归法在预测企业信用方面的有效性。展望未来,我们会应用决策树算法的信息增益结合证据权重再次探讨它们在企业信用风险评估中的效果,然后做一个全面的分析、归纳。参考文献1 国务院办公厅关于推广随机抽查规范事中事后监管的通知eb/ol.http:/2 国务院关于“先照后证”改革后加强事中事后监管的意见eb/ol.http:/3 国务院关于印发2016年推进简政放权放管结合优化服务改革工作要点的通知eb/ol.http:/4 odom m d,sharda r.a neural network mod
25、el for bankruptcy predictionc/ ijcnn international joint conference on neural networks.ieee, 1990:163-168.5 prinzie a,poel d v d. random forest for multiclass classification: random multinomial logitj. working papers of faculty of economics & business administration ghent university belgium, 200
26、8,34(3):1721-1732.6 yeh c c, lin f, hsu c y. a hybrid kmv model, random forests and rough set theory approach for credit ratingj. knowledge-based systems, 2012, 33(3):166-172.7 kartasheva a v, traskin m. insurers insolvency prediction using random forest classificationj. social science electronic publishing, 2013, 10(3): 16-62.8 吴丽丽. 基于logistic回归模型的商业银行信用风险管理研究d.哈尔滨:哈尔滨工业大学,2007.9 郭玉華. 微型企业信用风险评估基于l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 天津天狮学院《深度学习基础》2023-2024学年第二学期期末试卷
- 赤峰学院《语文课程标准与教材研究》2023-2024学年第二学期期末试卷
- 衡阳幼儿师范高等专科学校《食品基因工程》2023-2024学年第二学期期末试卷
- 黑龙江农垦职业学院《废弃物分析技术》2023-2024学年第二学期期末试卷
- 2025年公共照明设施更新建设项目合同样本
- 长沙理工大学城南学院《中国现当代文学名著选读》2023-2024学年第二学期期末试卷
- 青海建筑职业技术学院《邯郸导游词翻译》2023-2024学年第二学期期末试卷
- 聊城职业技术学院《建筑工程评估基础》2023-2024学年第二学期期末试卷
- 铜川职业技术学院《港口与海岸水工建筑物》2023-2024学年第二学期期末试卷
- 2025年个人汽车信用贷款合同示范
- 三化一稳定严进严出专案报告
- 2024过敏性休克抢救要点(附图表)
- 香港(2024年-2025年小学二年级语文)人教版阶段练习试卷(含答案)
- 翻译批评与赏析课件
- 广西2024年高考物理模拟试卷及答案1
- 2024年广东省中考历史真题(含解析)
- 垃圾填埋场项目经济效益和社会效益分析
- JGJ52-2006 普通混凝土用砂、石质量及检验方法标准
- 组织生活个人发言稿
- (高清版)JTST 273-2024 水运工程测量定额
- 电网工程劳务分包投标技术方案(技术标)
评论
0/150
提交评论