基于MultiBoost-LMT算法的供应商信用评价研究_第1页
基于MultiBoost-LMT算法的供应商信用评价研究_第2页
基于MultiBoost-LMT算法的供应商信用评价研究_第3页
基于MultiBoost-LMT算法的供应商信用评价研究_第4页
基于MultiBoost-LMT算法的供应商信用评价研究_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    基于multiboostlmt算法的供应商信用评价研究    黄艳莹+陈力摘要:供应商违约问题一直是供应链管理模式中的一大难题,建立有效的模型实现较准确的供应商违约预测来协助企业采取应对措施,对于企业竞争致胜具有重要意义。本研究首先对multiboost算法的框架进行改进,用lmt算法代替c4.5决策树算法,作为multiboost的基分类器,提出multiboost-lmt算法,其优点是对样本中的奇异点和异常值不敏感,不易出现过拟合现象,具有更高的泛化能力。其次将multiboost-lmt算法应用于供应商信用评价问题,在两个公开的供应商信用数

2、据集上的数值试验表明:与其它算法相比,所提出的multiboost-lmt算法能够显著地提高供应商信用分类精度,具有较高的实用价值。abstract: default of supplier has been regarded as one of the toughest difficulties in supply chain management. how to establish an effective model to handle the default of supplier is a significant work. in this paper, a novel method

3、 called multiboost-lmt algorithm is presented. due to the fact that the proposed multiboost-lmt can effectively avoid overfitting without the loss of the advantages in reducing the bias and the variance of the classified model, the proposed multiboost-lmt can increase the model performance significa

4、ntly. for verification and illustration, two public available supplier credit datasets are used to test and compare the performance of other machine learning algorithm. the experimental results show the proposed multiboost-lmt algorithm can yield better performances compared with other machine learn

5、ing algorithm listed in this study.关键词:供应商信用评价;multiboost;lmtkey words: supplier credit score;multiboost;lmt:tp1812.5 :a :1006-4311(2017)12-0076-030 引言随着全球經济迅猛发展,市场竞争已经发展到了供应链与供应链之间的竞争。在供应链管理模式中,拥有优秀的供应商队伍是企业竞争致胜的关键。而对供应商信用进行正确评价又是合理选择供应商的重要因素。因此,对供应商的信用分析很有意义1-3。关于供应商信用评价问题,国内外目前已有不少研究。如石晓军等利用多因素视角

6、下的双层规划建立供应商信用评价模型4。徐晋等利用灰色关联模型建立供应商信用评价模型5。jafar razmi等将网络分析法和模糊集理论应用到供应商信用评价问题6。本研究着重数据挖掘方法与供应商信用评价问题的结合,主要考察分类算法进行供应商信用评价的研究。随着数据挖掘技术的不断发展,很多新的分类算法被提出来,例如支持向量机7、人工神经网络8等。与其它基于经验风险最小化的算法相比,支持向量机不易出现过拟合现象,具有较好的泛化能力,在信用评价领域得到了广泛的应用9-12。但是它的缺点也十分明显,即算法的分类准确率过度依赖参数的选择,当算法参数选择不合适时,算法的分类准确率很低13。当单个分类器难以较

7、好地拟合数据集时,基于集成学习技术的multiboost算法的出现和发展成为了一个更理想的选择。multiboost算法是schapire在20世纪90年代提出的一种集成学习算法。与以往单个分类器模型相比,它通过wagging策略对多个分类器的分类结果进行组合来决定最终的分类,以取得比单个分类器更好的性能14。标准multiboost算法,是以c4.5决策树算法作为基分类器,c4.5决策树算法是基于经验风险最小化原则,对数据集中的异常值敏感,容易出现过拟合现象,导致multiboost算法的泛化能力较差15-19。本文在文献20-22的基础上提出了multiboost-lmt算法,主要思想是改

8、进multiboost的框架,用lmt算法代替c4.5决策树算法作为基分类器,从而解决了原算法容易出现过拟合的问题,提高了泛化能力。文章余下的内容安排如下:首先描述了multiboost算法和lmt算法的基本原理,然后说明本文提出的multiboost-lmt的算法流程;其次使用沃尔玛供应商和本田汽车零配件供应商信用数据集进行数值试验,并对不同模型的结果进行对比;最后对全文进行总结,指出本文不足及未来主要研究方向。1 模型建立1.1 multiboostmultiboost算法的基本思想是,集成k个基分类器小组k,每个基分类器小组k中包含了由adaboost算法集成的ik棵c4.5决策树。基分

9、类器小组k之间使用wagging策略进行组合23。 1.2 lmtlmt(logistic model tree)算法是一种决策树与logistic 回归的组合算法,与普通的决策树相比,lmt通过将对应子样本空间中的所有属性作为自变量,构建logistic回归模型来确定对应的分类类别24。birant通过实验证明,相比c4.5决策树, lmt不仅具有较高的分类精度,而且能够避免过度拟合训练集25。gupta s和kumar d通过实验证明,相比支持向量机,lmt的分类精度不依赖于算法参数的选择26。1.3 multiboost-lmt算法改进multiboost的框架,将lmt算法作为mult

10、iboost的基分类器?准j,避免过拟合。multiboost lmt算法的流程如下:初始化权重:将样本集s'中的样本元素权重均设为1;令k=1;令n=for t=1 to t ik=k·t/n;若ik=t,则根据连续泊松分布重置样本集s'的随机权重;k+;ct=?准j(s');t=;若t>0.5,11根据连续泊松分布重置样本集s'的随机权重;12k+;13转到8;14若t=0,15令t=10-10;16根据连续泊松分布重置样本集s'的随机权重;17若0<t<0.5,18令t=;19对于?坌xjs',20若ct(xj)

11、yj,令weight(xj)'=weight(xj)·;21若ct(xj)=yj令weight(xj)'=weight(xj)·;22若weight(xj)<10-8,令weight(xj)'=10-8;23最优解为:c*(x)=log2 数值试验为验证multiboost-lmt算法的性能,本文采用两个数据集进行测试。两个数据集分别是沃尔玛供应商信用数据集(包含39000个样本,21750个正例和17250个反例,正例样本和反例样本中分别包括1200个和700个人工添加的异常样本)和本田汽车零配件供应商信用数据集(由12000样本构成,568

12、0个正例和6320个反例,正例样本和反例样本中分别包括500个和800个人工添加的异常样本)。为了便于对比分析,对每一个数据集,分别采用标准支持向量机(c-svm)、标准multiboost和multiboost-lmt三种算法进行分类测试。实验在intel(r)core(tm)/ram 8g机上完成,算法c-svm、multiboost和multiboost-lmt采用r语言编程。2.1 分类器性能评价指标评价分类器性能的指标有很多,powers通过precision、recall、f-measure和roc評价分类器的性能27。huang和ling通过accuracy和auc评价分类器的性

13、能28。chen和tang等通过accuracy、recall和f-measure评价分类器的性能29。nakayama和hayashi通过accuracy和recall评价分类器的性能30。lei和yang等通过accuracy、recall和roc评价分类器的性能31。本文选用的评价分类器性能指标包括:accuracy、recall和auc。下面给出它们的定义:accuracy(准确度)=(1)recall(查全率)= (2)auc(aera under curve)= (3)其中,tp表示分类正确的正例个数,tn表示分类正确的负例个数,fp表示分类错误的负例个数,fn表示分类错误的负例个

14、数,s0表示所有正例的位置,n0表示正例样本个数,n1表示负例样本个数。2.2 基于multiboost-lmt算法的信用评价试验这部分给出c-svm、标准multiboost和multiboost-lmt不同分类算法之间的性能比较试验。本文采用十重交叉验证法(10-fold validation)进行实验,把沃尔玛和本田汽车两个数据集分成10个不交叉的子集,每次取其中1个子集作为测试集,其余9个子集作为训练集得到分类器,如此重复10次,训练集和测试集的类标属性都是已知的,由训练集的类标训练模型,在测试阶段中我们假设测试集的类标属性未知,而使用模型得到预测值,然后通过比较预测值与实际值来判定模

15、型正确率。最后的整体正确率是10次实验整体正确率的平均值。从图1和图2的实验结果可以看出,multiboost-lmt在accuracy、recall和auc三项指标上比其它两种算法表现更好,说明multiboost-lmt是一种较好的供应商信用评价方法32。原因有两方面:multiboost-lmt算法基于集成学习技术,容易取得比单个分类器更好的分类效果;multiboost-lmt将lmt作为基分类器,克服了原算法容易出现过拟合的问题,提高了泛化能力。3 总结与展望本文对multiboost的框架进行改进,用lmt算法代替c4.5决策树算法作为基分类器,克服了原算法容易过拟合的问题,提高了

16、泛化能力。在两个公开的供应商信用数据集上的数值试验表明:与支持向量机和标准multiboost算法相比,所提出的multiboost-lmt算法具有更好的分类性能。该方法目前只解决了分类问题,由于其良好的性能,下一步将考虑把该方法改进推广至回归、聚类等问题上。 參考文献:1吴军,李健,汪寿阳.供应链风险管理中的几个重要问题j.管理科学学报,2007,9(6):1-12.2田歆,汪寿阳,华国伟.零售商供应链管理的一个系统框架与系统实现j.系统工程理论与实践,2009(10):45-52.3舒彤,陈收,汪寿阳.基于影响因子的供应链协同预测方法j.系统工程理论与实践,2010(8):1363-137

17、0.4石晓军,张顺明,朱芳菲.多因素视角下商业信用期限决策的双层规划模型与实证研究j.中国管理科学,2008,16(6):112-122.5徐晋,綦振法.供应商信用等级分析及评价模型j.山西财经大学学报,2003,25(4):71-74.6razmi j, rafiei h, hashemi m. designing a decision support system to evaluate and select suppliers using fuzzy analytic network processj. computers & industrial engineering, 20

18、09, 57(4): 1282-1290.7rebentrost p, mohseni m, lloyd s. quantum support vector machine for big data classificationj. physical review letters, 2014, 113(13): 130503.8taormina r, chau k w, sethi r. artificial neural network simulation of hourly groundwater levels in a coastal aquifer system of the ven

19、ice lagoonj. engineering applications of artificial intelligence, 2012, 25(8): 1670-1676.9harris t. credit scoring using the clustered support vector machinej. expert systems with applications, 2015, 42(2): 741-750.10wang g, ma j. a hybrid ensemble approach for enterprise credit risk assessment base

20、d on support vector machinej. expert systems with applications, 2012, 39(5): 5325-5331.11chen c c, li s t. credit rating with a monotonicity-constrained support vector machine modelj. expert systems with applications, 2014, 41(16): 7235-7247.12kim k, ahn h. a corporate credit rating model using mult

21、i-class support vector machines with an ordinal pairwise partitioning approachj. computers & operations research, 2012, 39(8): 1800-1811.13chou j s, cheng m y, wu y w, et al. optimizing parameters of support vector machine using fast messy genetic algorithm for dispute classificationj. expert sy

22、stems with applications, 2014, 41(8): 3955-3964.14benbouzid d, busa-fekete r, casagrande n, et al. multiboost: a multi-purpose boosting packagej. the journal of machine learning research, 2012, 13(1): 549-553.15elomaa t. in defense of c4. 5: notes on learning one-level decision treesj. ml-94, 2014,

23、254: 62.16zhang y, wang s, wu l. spam detection via feature selection and decision treej. advanced science letters, 2012, 5(2): 726-730.17yadav s k, bharadwaj b, pal s. mining education data to predict student's retention: a comparative studyj. arxiv preprint arxiv:1203.2987, 2012.18venkatesan p

24、, yamuna n r. treatment response classification in randomized clinical trials: a decision tree approachj. indian journal of science and technology, 2013, 6(1): 3912-3917. 19patidar p, dangra j, rawar m k. decision tree c4. 5 algorithm and its enhanced approach for educational data miningj. 2015.20we

25、bb g i, zheng z. multistrategy ensemble learning: reducing error by combining ensemble learning techniquesj. knowledge and data engineering, ieee transactions on, 2004, 16(8): 980-991.21luo s t, cheng b w. diagnosing breast masses in digital mammography using feature selection and ensemble methodsj.

26、 journal of medical systems, 2012, 36(2): 569-577.22kotti m, benetos e, kotropoulos c, et al. a neural network approach to audio-assisted movie dialogue detectionj. neurocomputing, 2007, 71(1): 157-166.23maalej a, amor b b, daoudi m, et al. shape analysis of local facial patches for 3d facial expres

27、sion recognitionj. pattern recognition, 2011, 44(8): 1581-1589.24johannes. logistic model treesj. machine learning,2005, 59(3), 161-205.25birant d. comparison of decision tree algorithms for predicting potential air pollutant emissions with data mining modelsj. journal of environmental informatics,

28、2011, 17(1): 46-53.26gupta s, kumar d, sharma a. performance analysis of various data mining classification techniques on healthcare dataj. international journal of computer science & information technology (ijcsit), 2011, 3(4).27powers d m. evaluation: from precision, recall and f-measure to roc, informedness, markedness and correlationj. 2011.28huang j, ling c x. using auc and accuracy in evaluating lea

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论