基于模糊积分集成向量积的数据挖掘方法探讨_第1页
基于模糊积分集成向量积的数据挖掘方法探讨_第2页
基于模糊积分集成向量积的数据挖掘方法探讨_第3页
基于模糊积分集成向量积的数据挖掘方法探讨_第4页
基于模糊积分集成向量积的数据挖掘方法探讨_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 基于模糊积分集成向量积的数据挖掘方法探讨吴冲,陈贤品哈尔滨工业大学管理学院,哈尔滨(150001)E-mail:摘 要:支持向量机(SVM)作为数据挖掘的应用已经成了研究热点,但它多层分类问题中应有改进之处。基于模糊积分集成向量机方法是在SVM基础上,用Bagging技术结合模糊积分原理对子向量机进行集成的方法,能有效地适用于多分类决策问题。该文首先介绍了基于模糊积分集成向量机的理论知识,然后将其用于商业银行信用评估模型,论证了其可以作为一种有效的数据挖掘方法。关键词:数据挖掘;模糊积分;集成向量机;SVM1 前言数据挖掘(Data Mining)通常又称数据库中知识发现(KDD),自动的或

2、方便的模式提取,这些模式代表隐藏在大型数据库、数据仓库或其他大量信息存储中的知识1。数据挖掘能够发现的模式包括关联规则、特征规则、总结规则、分类预测规则、离散规则、聚类、偏差分析等。其中最重要的是数据的分类和回归问题。应用于数据的分类和回归问题的方法主要有决策树、神经元网络、贝叶斯信念网络等。神经元网络等现有的机器学习理论实质上都是在经验风险最小化原则下提出的,在有限样本的情况下,经验风险最小不一定意味着期望风险的最小,在有些情况下就会出现过学习和推广性不好等情况,得到的结果不是很理想。此外,神经元网络还存在网络结构的确定必须依靠经验,容易陷入局部极小点等缺点。支持向量机2(SVM)是在统计学

3、习理论的基础上发展起来的一种新的机器学习方法,它基于结构最小化原则,有线性可分、线性不可分、非线性三种情况,能有效地解决过学习问题,具有良好的推广性和较好的分类精确性。正在成为继模式识别和神经元网络研究之后机器学习领域新的研究热点,并将推动机器学习理论和技术的重大发展。当前,SVM已被用于人脸识别、医疗诊断、商业银行信用风险评估3等方面。同时,国内外都已经有了把SVM应用于数据挖掘的类似研究4。集成支持向量机5是对支持向量机的一种改进应用,它将子支持向量机作为中间层,利用一定的决策函数得出各自的决策,最后根据集成方法得到输出层。本文中我们运用现运用较广的模糊积分方法对各个子支持向量机进行集成。

4、基于模糊积分的集成支持向量机方法更符合现实中的多分类情况,在数据挖掘应用方面会有很好的前途。2 基于模糊积分的支持向量机集成2.1模糊积分原理模糊积分是建立在模糊测度上的概念6。定义 1 令X为论域,是X的-代数。模糊测度是定义上的实值集函数g,除满足模糊测度的有界性、当调性和连续性的基本性质外,还满足如下条件:若A,B,AIB=,则有 g(AUB)=g(A)+g(B)+g(C)+g(A)g(B),>1若X=x1,x2,xn为有限集合,g:X0,1为一g模糊测度,则称g(xi)为X上- 1 - 的模糊密度,并记g=g(xi)。X的任何子集的模糊测度均可由该集合的模糊密度得到。 定义2 假

5、设X为一有限集,h为X的一个模糊子集,那么h在X上关于g的模糊积分定义为:1h(x)og()=supmin(minh(x),g(AE)=supmin(a,g(AF)AEXXEa0,1a其中F为h的截集:F=x|h(x)。若X为一有限集X=x1,x2,.,xn,并调整为h(x1)h(x2)h(xn),则 h(x)og=maxmin(h(x),g(X) iiXi=1n2.2 基于模糊积分的支持向量机集成集成向量机是指:通过某种方式将有限个子支持向量分类机的预报结果组合起来, 以便对新的样本进行类别预测。这些子支持向量机是通过对同一任务(如两分类问题)、用源数据库中不同子集分别进行独立训练得到的。本

6、文采用Bagging技术对支持向量机进行集成。其思想如下7:令训练集TR=(xy)i=1,2,Ll,通过bootstrap技术从给定的训练集TR中随机抽i,i取示例构成K个训练子集TRkBk=1,2,LK训练示例允许重复选取,故训练集TR中的样本xi可能在新的训练子集中出现多次,而样本xj则可能以此也不出现。用K个支持向量机对相应的训练子集TRk进行学习,然后将分类的结果进行集成。基于Bagging的支持向量机集成结构图如图2-1所示:B图2-1 基于Bagging的支持向量机集成结构图研究表明:若集成是高度偏向的即对与相同的输入,集成中所有的子分类器都给出相同或者相近的输出,则其泛化误差接近

7、于各子分类器泛化误差的加权平均。反之,若集成中各子分类器的差异度较大,其泛化误差将远小于各子分类器泛化误差的加权平均。Bagging方- 2 - 法正是通过重新选取训练集增加了集成个体的差异度,从而提高的泛化能力。我们采用模糊积分方法对集成结论进行组合,对与一个给定的多支持向量机集成问题,子支持向量机为ei,i=1,2,Lk,K为子支持向量机的数目。=C1,C2,L,CM,为类别标签集合,M为类别数目,用um,m=1,2,L,M,M代表每个子支持向量机的输出。对于模糊积分来说,um就是子支持向量机ei对输入模式属于第m类的评价,即hi;而对应的当前子支持向量机的性能代表了该支持向量机做出评价的

8、可靠性,即模糊积分的密度gj。设:µ1,µ2,LµMii是一个有限集合,并设h:0,1是一个函数,且有h(µ1)h(µ2)Lh(µM),根据公式:Xh(x) g=maxmin(h(xi),g(Ai) i=1Kn模糊积分的计算如下: FImaxmin(h(µi),g(Ai) i=1式中,Ai=µ1,µ2,Lµi,g的值可以依据如下公式1i11g(A)=g(x)=gig(Ai)=g+g(Ai1)+gg(Ai1),1in计算得到,式中的的计算如下 +1=(1+gi) i=1K其中(1,),0通过上述公

9、式,可以计算一个输入模式对某一类别的模糊积分根据同样的方法,可以计算该模式相对于其他类别的模糊积分。我们用FIm(x)(m=1,2,LM)表示输入模式x相对于各类别的模糊积分,则支持向量机集成的系统决策模型如下8:Mclass(x)=argmaxFIm(x) m=1具体算法如下:输入:模式x输出:模式x所属类别算法:第一步:对于输入模式x,每个子支持向量机都要进行判断,并输出x相对于每个类别的隶属度。第二步:对于每类别Cm,每个子支持向量机都要计算hm(µk)和gh(µk),并计算出相对于类别Cm的模糊积分FIm。第三步:对模式x所属的类进行判断决策。为了更形象地说明基于模

10、糊积分集成支持向量机的算法原理,我们用图2-2形象地表示出来。- 3 -图2-2 基于模糊积分的支持向量机集成过程3 基于模糊积分集成SVM的实例这里我们将基于模糊积分集成SVM的方法应用到商业银行信用风险评估中去。数据来源于中国工商银行总行信贷部以及中国工商银行黑龙江省分行哈尔滨市南岗区支行。样本行业范围为制造业,贷款种类为短期贷款。经过整理共获取963个样本,为了减轻训练难度,对数据进行稳健性处理,最终获得355个样本数据。23个商业银行信用风险指标进行因子分析,分为四个解释因子(营运能力因子、偿债能力因子、盈利能力因子和现金获取因子)。通过研究发现,在C、和的值固定时,的值取得过小,会导

11、致支持向量机的过学习现象,过大,会造成训练样本集的欠学习现象。C的取值对测试结果也有影响,C的取值小,则对样本数据中超过管道的样本惩罚就小,使训练误差变大;C的取值过大,系统的泛化能力就会变差。的取值对支持向量机的数量有影响,的取值过小,支持向量机的数量增多,取得过小,分类的精度就会降低。本文的研究中通过选取不同的参数值进行训练之后,再依据训练的结果集成支持向量机对验证数据进行分类。而对于子支持向量机的选择,我们采用子支持向量机中个体差异度测量的方法9,即GD=p(任意一个支持向量机错分)-(任意两个支持向量机同时错分)p (任意一个支持向量机错分)p考虑到计算量的大小和实际效果,选取6个支持

12、向量机作为集成支持向量机的选择子支持向量机,然后根据子支持向量机的选择标准取其GD值最大的4个集成向量机的组合作为集成支持向量机的组成部门。表3-1、3-2是各自子向量机和组合GD值得训练结果。表3-1 各自支持向量机训练结果 支持向量机 正确分类比例81%81%84% SVM1 2 3 SVM45SVM6- 4 -表3-2 各种子支持向量机组合模型的GD值1 4 5 7 组合模式值 1234 1235 1236 1245 1246 1256 1345组合模式值0.5556 0.6345 0.5902 0.48811346 1356 1456 2345 2346 2456 3456组合模式6和

13、11的GD值要比其他的组合模式要大,我们选取这两种组合模式进行集成。集成之后再用集成支持向量机对剩余的155个数据值进行分类。从以下数据可以看出,集成支持向量机的分类准确率比单一支持向量机有了较为明显的提高,其结果还是令人满意的。表3-3 子支持向量机和集成支持向量机的分类效果支持向量机 正确分类比例 支持向量机 正确分类比例123456组合6 组合11 将采用集成支持向量机的分析结果和用单一支持向量机、模糊神经网络的分类结果进行横向比较,如下表3-4。表3-4 各种分类方法分类效果的比较正常 关注 次级 可疑 损失 分类准确率基于模糊积分的集成支持向量机基于投票法的集成支持向量机单一支持向量

14、机(SVM2)模糊神经网络实际 结果45 15 从表中我们可以看到基于模糊积分的集成支持向量机的最后分类准确率要好于单一支持向量机、模糊神经网络,这说明这个数据挖掘方法还是有很好的适用性。4总结基于模糊积分的集成支持向量机方法是在原有SVM方法的基础用bagging技术结合模糊积分原理集成,它拥有SVM方法的一切优点,比其它机器学习算法和统计学习技术有着- 5 - 更好的优越性,这从本文基于模糊积分集成支持向量机的商业银行信用风险评价模型的例子,我们并可以看到。作为一种新的机器学习方法,基于模糊积分集成支持向量机方法可以应用于数据挖掘的分类、回归和未知模式的探索等方面的领域。由于基于模糊积分集

15、成支持向量机应用了SVM中的传统算法,就难免要面对这样的问题:如何解决大样本训练过多占用内存,从而导致训练时间过长和效果不佳的问题。当前有关研究人员正在探讨SVM更优的算法,如SMO、LSVM、ASVM、SOR、SSVM等,本文探讨的这种数据挖掘方法也要与时俱进,不断完善自己。基于模糊积分集成向量机方法不能解决数据挖掘领域的全部问题,但它肯定会成为数据挖掘方面的一个重要的工具。参考文献1 Jiawei Han, Micheline Kamber. 数据挖掘概念与技术. 机械工业出版社, 2006:3-62 萧嵘, 王继成, 张福炎. 支持向量机理论综述. 计算机科学. 2000, (27)3

16、侯惠芳, 刘素华. 基于支持向量机的商业银行信用风险评估. 计算机工程与应用. 2004, (3):176-1784 张辉, 张浩, 陆剑锋. SVM在数据挖掘中的应用. 计算机工程. 2004, (6):7-85 谷雨,郑锦辉,戴明伟,何磊. 基于Bagging支持向量机集成的入侵检测研究. 微电子学与计算机. 2005,(5):25-276 马鸿,张捷, 王玉静. 模糊测度与模糊积分的应用. 沈阳大学学报. 2003(2):15-187 Valentini G, Muselli M. Cancer Recognition with Bagged Ensemble of Support Ma

17、chines. Neurocomputing.2004, (56)461-4668 Breiman L. Bagging Predictors. MachineLearning Reserch. 1996,(24):123-1409 Chkir, I E, Cosset J. Diversification strategy and capital structure of multinational corporations. Journal ofMultinational Financial Management. 2001, (1):17 -37Based on fuzzy integr

18、al integrated vector plot of the datamining methodWu Chong,Chen XianpinHaerbin Institute of thchonlogy,Haerbin(150001)AbstractSupport Vector Machine (SVM) as a data mining application has become a hot research, but it should be in the multi-classification improvement. Based on fuzzy integral integrated vector machine SVM method is based on the technology used Bagging principle twinned with fuzzy integral vector machine integrated approach can be effectively applied to multiple classification deci

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论