支持向量机算法和软件ChemSVM介绍_第1页
支持向量机算法和软件ChemSVM介绍_第2页
支持向量机算法和软件ChemSVM介绍_第3页
支持向量机算法和软件ChemSVM介绍_第4页
支持向量机算法和软件ChemSVM介绍_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

支持向量机算法和软件ChemSVM介绍陆文聪1,陈念贻1,叶晨洲2,李国正2

(1.上海大学化学系计算机化学研究室,上海,200436)

(2.上海交通大学图象及模式识别研究所,上海,200030)摘要VladimirN.Vapnik等提出的统计学习理论(statisticallearningtheory,简称SLT)和支持向量机(supportvectormachine,简称SVM)算法已取得令人鼓舞的研究成果。本文旨在对这一新理论和新算法的原理作一介绍,并展望这一计算机学界的新成果在化学化工领域的应用前景。“ChemSVM”软件提供了通用的支持向量机算法,并将其与数据库、知识库、原子参数及其它数据挖掘方法有机地集成起来。关键词模式识别;支持向量机;支持向量分类;支持向量回归中图分类号:O06-04IntroductiontotheAlgorithmofSupportVectorMachineandtheSoftwareChemSVMLUWen-cong1,CHENNian-yi1,YEChen-zhou2,LIGuo-zheng2(1.LaboratoryofChemicalDataMining,DepartmentofChemistry,ShanghaiUniversity,Shanghai,200436,China)

(2.InstituteofImageandPatternRecognition,JiaotongUniversity,Shanghai,200030,China)Abstracts:Thegreatachievementshavebeenapproachedinthedevelopmentofstatisticallearningtheory(STL)andsupportvectormachine(SVM)aswellaskerneltechniques.ThispaperaimedatintroducingtheprincipleofSLTandSVMalgorithmandprospectingtheirapplicationsinthefieldsofchemistryandchemicalindustry..KeyWords:Statisticallearningtheory,Supportvectormachine,Supportvectorclassification,Supportvectorregression众所周知,统计模式识别、线性或非线性回归以及人工神经网络等方法是数据挖掘的有效工具,已随着计算机硬件和软件技术的发展得到了广泛的应用[1-4],我们亦曾将若干数据挖掘方法用于材料设计和药物构效关系的研究5-12]。但多年来我们也受制于一个难题:传统的模式识别或人工神经网络方法都要求有较多的训练样本,而许多实际课题中已知样本较少。对于小样本集,训练结果最好的模型不一定是预报能力最好的模型。因此,如何从小样本集出发,得到预报(推广)能力较好的模型,遂成为模式识别研究领域内的一个难点,即所谓“小样本难题”。最近我们注意到:数学家VladimirN.Vapnik等通过三十余年的严格的数学理论研究,提出来的统计学习理论statisticallearningtheory简称SLT)[13]和支持向量机(supportvectormachine,简称SVM)算法已得到国际数据挖掘学术界的重视,并在语音识别[14]、文字识别[15]、药物设计[16]、组合化学[17]、时间序列预测[18]等研究领域得到成功应用,该新方法从严格的数学理论出发,论证和实现了在小样本情况下能最大限度地提高预报可靠性的方法,其研究成果令人鼓舞。张学工、杨杰等率先将有关研究成果引入国内计算机学界,并开展了SVM算法及其应用研究[19],但国内化学化工领域内尚未见SVM的应用报道。收稿日期:2002-06-10;修回日期:2002-09-10资金资助:国家自然科学基金委和美国福特公司联合资助,批准号:9716214作者简介:陆文聪(1964一),男,教授。研究方向:计算机化学。

本文是本论文系列的第一篇,主要介绍Vapnik等在SLT基础上提出的SVM算法,包括支持向量分类(supportvectorclassification,简称SVC)算法和支持向量回归(supportvectorregression,简称SVR)算法,并展望这一计算机学界的新成果在化学化工领域的应用前景。1统计学习理论(SLT)简介[13]1.1背景现实世界中存在大量我们尚无法准确认识但却可以进行观测的事物,如何从一些观测数据(样本)出发得出目前尚不能通过原理分析得到的规律,进而利用这些规律预测未来的数据,这是统计模式识别(基于数据的机器学习的特例)需要解决的问题。统计是我们面对数据而又缺乏理论模型时最基本的(也是唯一的)分析手段。Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题,但这些研究长期没有得到充分的重视。近十年来,有限样本情况下的机器学习理论逐渐成熟起来,形成了一个较完善的SLT体系。而同时,神经网络等较新兴的机器学习方法的研究则遇到一些重要的困难,比如如何确定网络结构的问题、过拟合与欠拟合问题、局部极小点问题等。在这种情况下,试图从更本质上研究机器学习的 SLT体系逐步得到重视。1992—1995年,Vapnik等在SLT的基础上发展了SVM算法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其它机器学习问题。很多学者认为,它们正在成为继模式识别和神经网络研究之后机器学习领域中新的研究热点,并将推动机器学习理论和技术有重大的发展。神经网络研究容易出现过拟合问题,是由于学习样本不充分和学习机器设计不合理的原因造成的,由于此矛盾的存在,所以造成在有限样本情况下:1)经验风险最小不一定意味着期望风险最小;2)学习机器的复杂性不但与所研究的系统有关,而且要和有限的学习样本相适应。SLT体系及其SVM算法在解决“小样本难题”过程中所取得的核函数应用等方面的突出进展令人鼓舞,已被认为是目前针对小样本统计估计和预测学习的最佳理论。1.2原理Vapnik的SLT的核心内容包括下列四个方面:1)经验风险最小化原则下统计学习一致性的条件;2)在这些条件下关于统计学习方法推广性的界的结论;3)在这些界的基础上建立的小样本归纳推理原则;4)实现这些新的原则的实际方法(算法)。设训练样本集为(y,X),(y,X)XeRm,yeR,其拟合(建模)的数学实质是从函数集中1 1 nn选出合适的函数f(x),使风险函数:(1)更无法求其极小。传统的统计(2)R[f]=j(y-f(X))2P(x,y)dxdy为最小。但因其中的几率分布函数5P(x,y)为未知,上式无法计算,数学遂假定上述风险函数可用经验风险函数R[(1)更无法求其极小。传统的统计(2)Remp[f]=土"(y-f(I,))2

i=1根据大数定律,式(2)只有当样本数n趋于无穷大且函数集足够小时才成立。这实际上是假定最小二乘意义的拟合误差最小作为建模的最佳判据,结果导致拟合能力过强的算法的预报能力反而降低。为此,slt用结构风险函数Rh[f]代替Rmp[f],并证明了Rh[f]可用下列函数求极小而得:.[ h(ln2n/h+1)-ln(5/4)(3)min"emp[f]+V n (3)此处n为训练样本数目,S.为VC维空间结构,力为VC维数,即对函数集复杂性或者学习能力的度量。1-8为表征计算的可靠程度的参数。SLT要求在控制以VC维为标志的拟合能力上界(以限制过拟合)的前提下追求拟合精度。控制VC维的方法有三大类:1)拉大两类样本点集在特征空间中的间隔;2)缩小两类样本点各自在特征空间中的分布范围;3[降低特征空间维数。一般认为特征空间维数是控制过拟合的唯一手段,而新理论强调靠前两种手段可以保证在高维特征空间的运算仍有低的VC维,从而保证限制过拟合。对于分类学习问题,传统的模式识别方法强调降维,而SVM与此相反。对于特征空间中两类点不能靠超平面分开的非线性问题,SVM采用映照方法将其映照到更高维的空间,并求得最佳区分二类样本点的超平面方程,作为判别未知样本的判据。这样,空间维数虽较高,但VC维仍可压低,从而限制了过拟合。即使已知样本较少,仍能有效地作统计预报。对于回归建模问题,传统的化学计量学算法在拟合训练样本时,将有限样本数据中的误差也拟合进数学模型了。针对传统方法这一缺点,SVR采用七不敏感函数”,即对于用f(x)拟合目标值y时/G)=WTX+b,目标值y,拟合在七-wTx-b<£时,即认为进一步拟合是无意义的。这样拟合得到的不是唯一解,而是一组无限多个解。SVR方法是在一定约束条件下,以||w||2取极小的标准来选取数学模型的唯一解。这一求解策略使过拟合受到限制,显著提高了数学模型的预报能力。2支持向量分类(SVC)算法2.1线性可分情形SVM算法是从线性可分情况下的最优分类面(OptimalHyperplane)提出的。所谓最优分类面就是要求分类面不但能将两类样本点无错误地分开,而且要使两类的分类空隙最大。d维空间中线性判别函数的一般形式为g[)=WTX+b,分类面方程是wTx+b=0,我们将判别函数进行归一化,使两类所有样本都满足gG)x,此时离分类面最近的样本的gG)T,而要求分类面对所有样本都能正确分类,就是要求它满足y.("x.+b)-1>0,i=1,2,,n。 (4)式(4)中使等号成立的那些样本叫做支持向量(SupportVectors)。两类样本的分类空隙(Margin)的间隔大小:Margin=2/网 (5)因此,最优分类面问题可以表示成如下的约束优化问题,即在条件(4)的约束下,求函数2-2(wTw)(6)4(w)=22-2(wTw)(6)的最小值。为此,可以定义如下的Lagrange函数:L(w,b,以)=-2wtw-&■[yi(wtx+b)-1]i=1其中,ai>0为Lagrange系数,我们的问题是对w和b求Lagrange函数的最小值。把式(7)分别对w、b、ai求偏微分并令它们等于0,得:i=1-=0nEay=0-b iii=1-—=0n以.[y.(wtx+b)-1]=0i以上三式加上原约束条件可以把原问题转化为如下凸二次规划的对偶问题:[max乙-1EEaayyLJi2 ijijiji=1 i=1j=1TOC\o"1-5"\h\z<s.t a>0,i=1,…,n (8)Eay.=0

i1

l i=1这是一个不等式约束下二次函数机制问题,存在唯一最优解。若。*为最优解,则iw*=Ea*yx (9)iiii=1a*不为零的样本即为支持向量,因此,最优分类面的权系数向量是支持向量的线性组合。b*可由约束条件ai[yi(WTX^+b)-1]=0求解,由此求得的最优分类函数是:f(x)=sgn((w*)tx+b*)=sgn(Ea*yx*xb*) (10)" ,―广ii+i=1sgn()为符号函数。2.2非线性可分情形当用一个超平面不能把两类点完全分开时(只有少数点被错分),可以引入松弛变量,(,30,i=1,n),使超平面wTx+b=0满足:TOC\o"1-5"\h\zy(wtx+b)>1-& (11)当0<。<1时样本点了.仍旧被正确分类,而当。31时样本点x被错分。为此,引入以下目标函数:i i i iV(w,&)=—WTW+CE& (12)i=1其中C是一个正常数,称为惩罚因子,此时SVM可以通过二次规划(对偶规划)来实现:[maxEa-1EEaayy(tx)i2ijijiji=1 i=1j=1<s.t 0<a<C,i=1,…,n (13)Eay.=0iil i=1

3支持向量机(SVM)的核函数若在原始空间中的简单超平面不能得到满意的分类效果,则必须以复杂的超曲面作为分界面,SVM算法是如何求得这一复杂超曲面的呢?首先通过非线性变换①将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的核函数(内积函数)实现的,令:K3,X.)=,::①3.)•①3.)) (14)用核函数K(x,X)代替最优分类平面中的点积xtx,就相当于把原特征空间变换到了某一新.j ij的特征空间,此时优化函数变为:(15)Q^)二乙-1££火yyK(x,x).2 ijijij(15)i=i i=1j=1而相应的判别函数式则为:(16)f(x)=sgn[(w*)r4(x)+b*]=sgn(£na*yK(x,x)+b*)(16)i=1其中X.为支持向量,X为未知向量,(16)式就是SVM,在分类函数形式上类似于一个神经网络,其输出是若干中间层节点的线性组合,而每一个中间层节点对应于输入样本与一个支持向量的内积,因此也被叫做支持向量网络,如图1y=y=sgnS个支撑向量机的非线性变换图1支持向量网络预报未知样本类别的示意图Fig.1Thesketchmapofsupportvectornetworktopredictanunknownsample由于最终的判别函数中实际只包含未知向量与支持向量的内积的线性组合,因此识别时的计算复杂度取决于支持向量的个数。目前常用的核函数形式主要有以下三类,它们fK与已有的算法有对应关系。⑴多项式形式的核函数,即K(X,Xi)=ILxi)+J,对应SVM是一个q阶多项式分类器。(2)径向基形式的核函数,即K(x,xt)=exp{-与巡"j,对应SVM是一种径向基函数分类器。⑶S形核函数,如K(x,xi)=tanh(v(xTx.)+c),则SVM实现的就是一个两层的感知器神经网络,只是在这里不但网络的权值、而且网络的隐层节点数目也是由算法自动确定的。

4支持向量回归(SVR)方法SVR算法的基础主要是£不敏感函数(£-insensitivefunction)和核函数算法。若将拟合的数学模型表达为多维空间的某一曲线,则根据£不敏感函数所得的结果就是包络该曲线和训练点的“£管道”。在所有样本点中,只有分布在“管壁”上的那一部分样本点决定管道的位置。这一部分训练样本称为“支持向量”(supportvectors)。为适应训练样本集的非线性,传统的拟合方法通常是在线性方程后面加高阶项。此法诚然有效,但由此增加的可调参数未免增加了过拟合的风险°SVR采用核函数解决这一矛盾。用核函数代替线性方程中的线性项可以使原来的线性算法“非线性化”,即能作非线性回归。与此同时,引进核函数达到了“升维”的目的,而增加的可调参数却很少,于是过拟合仍能控制。4.1线性回归情形TOC\o"1-5"\h\z设样本集为:G,X),G,x)xwRn,yeR,回归函数用下列线性方程来表示,1 1 llfG)=wtx+b (17)最佳回归函数通过求以下函数的最小极值得出,山叫"ILI(18)-u=i.=i .其中C是设定的惩罚因子值,&、&*为松弛变量的上限与下限。Vapnik提出运用下列不敏感损耗函数:3)*:广.(】9)|/\x\-y-£I'Uicr^ise通过下面的优化方程:] 云云W-。:血-叫炽-七)|〕旧5血.〔厂)=m:L顼-归尸 L(20)TOC\o"1-5"\h\zH.a- 寸/ X4/ 、+ U十剧在下列约束条件下:III<(<. i=<Ct*<<\/=I I土奴-〔,;)=11,■=1求解:a,a*=argmin<1a,a*=argmin<11!Z<—a*X—a*)S)2 iijjijl=1j=1—£a—a*)y+£a+a*)i-'- - -iii iii(21)由此可得拉格朗日方程的待定系数a,.和a*,从而得回归系数和常数项:—a*(22)i(22)i_rib=-2wu+x」4.2非线性回归情形类似于分类问题,一个非线性模型通常需要足够的模型数据,与非线ftSVC方法相同,一个非线性映射可将数据映射到高维的特征空间中,在其中就可以进行线性回归。运用核函数可以避免模式升维可能产生的”维数灾难”,即通过运用一个非敏感性损耗函数,非线性SVR的解即可通过下面方程求出:(23(23)其约束条件为:(24)(25)(24)(25)SVM模块的应用软件・<(.\ ,■=I..…/.d=l由此可得拉格朗日待定系数七和a;,回归函数fXJ则为:SVs5ChemSVM应用软件介绍以解决化学化工上问题为目的,我们参照国际文献自编了包含“ChemSVM”,其中SVM算法涉及到凸二次规划的求解,采用了序贯极小优化(SequentialMinimalOptimization)算法[20]。由于SVM算法在应用上不够方便的地方主要是核函数及其参数如何选取的问题,为此,“ChmSVM”针对该问题上作了一些改进,即一方面在程序的操作界面上提供各种核函数及其参数,给用户自由选择和研究的方便;另一方面,程序可用单纯形优化方法自动选出待选的核函数及其参数,并根据数据集留一法预报正确率最高的目标来确定最终计算用核函数及其参数,从而建立推广能力强的数学模型。以软件使用上的方便性、算法上的先进性和解决具体问题的有效性为目的,“ChemSVM”软件将不断地发展和完善。“ChemSVM”软件提供了通用的支持向量机算法。在具体应用问题上,还可以将其与数据库(含分门别类的数据表)、知识库(含数据挖掘规则等)、原子参数(由系统自动采集)及其它数据挖掘方法有机地集成起来。比如,“ChemSVM”已与熔盐相图智能数据库相融合,使SVM算法成为熔盐相图智能数据库的有效的数据挖掘手段。这方面应用成果已另文报导在本刊有关SVM应用的系列论文中I21,22】。6应用前景SLT和SVM算法之所以从20世纪90年代以来受到很大的重视,在于它们对有限样本情况下模式识别中的一些根本性问题进行了系统的理论研究,并且在此基础上建立了一种较好的通用学习算法。以往困扰很多机器学习方法的问题,比如模型选择与过拟合问题、非线性和维数灾难问题、局部极小点问题等,在这里都得到了很大程度上的解决。而且,很多传统的机器学习方法都可以看作是SVM算法的一种实现,因而SLT和SVM被很多人视作研究机器学习问题的一个基本框架。一方面研究如何用这个新的理论框架解决过去遇到的很多问题;另一方面则重点研究以SVM为代表的新的学习方法,研究如何让这些理论和方法在实际应用中发挥作用。SLT有比较坚实的理论基础和严格的理论分析,但其中还有很多问题仍需人为决定。比如结构风险最小化原则中的函数子集结构的设计、SVM中的内积函数(包括参数)的选择等。尚没有明确的理论结果指导我们如何进行这些选择。另外,除了在监督模式识别中的应用外,SLT在函数拟合、概率密度估计等机器学习问题以及在非监督模式识别问题中的应用也是一个重要研究方向。我们认为,SLT和SVM算法(包括SVC和SVR)有可能在化学化工领域得到深入和广泛的应用,以往用人工神经网络、传统统计模式识别和线性及非线性回归等数据挖掘算法研究和处理的化学化工数据都可能在应用SVM算法后得到更好的处理结果[23]特别是样本少、维数多的“小样本难题”,应用SVM算法建模会特别有效。可以预计,将来在分析化学的数据处理、化学数据库的智能化、有机分子的构效关系(QSAR,QSPR)、分子和材料设计、试验设计、化工生产优化、以及环境化学、临床化学、地质探矿等多方面都有可能展开SLT和SVM算法的应用研究,并取得良好效果。参考文献DomineD.,DevillersJ.,ChastretteM.,KarcherW..Non-linearmappingforstructure-activityandstructure-propertymodeling.JournalofChemomatrics1993,7:227-242WangZiyi,Jenq-Hwang,KowalskiBruceR.,ChemNets:TheoryandApplication,AnalyticalChemistry,1995,67(9):1497-1504RuffiniR.etal.,Usingneuralnetworkforspringbackminimizationinachannelformingprocess,SAETrans.J.Mater.Manufacture,1998,107,65FukunagaK..Introductiontostatisticalpatternrecognition.Academic.NewYork;1972ChenNianyi(陈念贻),QinPei(钦佩),ChenRuiliang(陈瑞亮),LuWencong(陆文聪),ApplicationofPatternRecognitioninChemistryandChemicalEngineering(模式识别在化学化工中的应用),Peking(北京),SciencePublisher(科学出版社),2000ChenNianyi,LuWencong,ChemometricMethodsAppliedtoIndustrialOptimizationandMaterialsOptimalDesign,Chemometricsandintelligentlaboratorysystems,1999,45,329-333ChenNianyi,LuWencong,SoftwarePackage“MaterialsDesigner”anditsApplicationinMaterialsResearch,IPMM799,Hawaii,USA,July,1999LUWencong,YANLi-cheng,CHENNian-yi,PatternRecognitionandANNSAppliedtotheFormobilityofComplexIdide,JournalofMolecularScience,1995,11(1):33LiuLiang(刘亮),BaoXinhua(包新华),FengJianxing(冯建星),LuWencong(陆文聪),ChenNianyi(陈念贻),MolecularSievingofPinacolone(or1-Arylethanone)Containing1H-1,2,4-TriazoleGroupandTheirReducedProducts(a-唑基-a-芳氧烷基频哪酮(芳乙酮)及其醇式衍生物抗真菌活性的分子筛选), ComputerandAppliedChemistry(计算机与应用化学),2002,19(4):465LuWencong(陆文聪),BaoXinhua(包新华),WuLan(吴兰),KongJie(孔杰),YanLicheng(阎立诚),ChenNianyi(陈念贻),StudiesonHierarchicalProjectionMethodAppliedtoRegularitiesofFormationofBinaryComplexCompoundinMBr-M’Br2System(二兀漠化物系(MBr-M’Br2)中间化合物形成规律的逐级投影法研究), ComputerandAppliedChemistry(计算机与应用化学),2002,19(4):474LuWencong(陆文聪),FengJianxing(冯建星),ChenNianyi(陈念贻),TernaryIntermetallicCompoundsbetweentwoTransitionandoneNontransitionElements(二种过渡元素和一种非过渡元素间形成三元金属间化合物的规律), ComputerandAppliedChemistry(计算机与应用化学),2000,17(1):43LUWencong(陆文聪),YanLicheng(阎立诚),ChenNianyi(陈念贻),ExpertSystemPVPECforOptimizedDesignofPTCandV-PTCMaterials (PVPEC-PTC和V-PTC材料优化设计专家系统),ComputerandAppliedChemistry(计算机与应用化学),1996,13(1):39VapnikVladimirN.,TheNatureofStatisticalLearningTheory.Berlin,Springer,1995Wan,Vincent;Campbell,WilliamM.,Supportvectormachinesforspeakerverificationandidentification,NeuralNetworksforSignalProcessing-ProceedingsoftheIEEEWorkshop2,2000:775-784ThorstenJoachims,LearningtoClassifyTextUsingSupportVectorMachines.Dissertation,UniversitaetDortmund,February2001.BurbidgeR,TrotterM,BuxtonB,HoldenS,Drugdesignbymachinelearning:supportvectormachinesforpharmaceuticaldataanalysis,ComputerandChemistry,2001,26(1):5-14TrotterM.W.B.,Buxton,B.F.,Holden,S.B.,Supportvectormachinesincombinatorialchemistry,MeasurementandContro

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论