版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 江南大学博士学位论文核方法在分类、回归与聚类方面的研究及应用姓名:陈晓峰申请学位级别:博士专业:轻工信息技术与工程指导教师:王士同20090401摘要摘要近年来,核方法在模式识别与机器学习领域中得到了快速的发展。核方法的本质,是通过核函数,把数据从低维的输入空间映射到高维的特征空间。如在分类问题上,核方法可以使输入空间中线性不可分的数据,在特征空间中是线性可分的。本论文对核方法中的鲁棒支持向量回归机、半监督多标记支持向量学习、稀疏支持向量学习及核聚类等四个方面进行研究。具体来说,本论文的工作分述如下:针对鲁棒支持向量回归机问题,提出一种自适应误差惩罚支持向量回归机,该算法能够减少离群点对支持
2、向量回归机的不利影响。进一步地,研究了鲁棒支持向量回归机的代价函数的性质,引入一类鲁棒代价函数族,实现了模糊鲁棒支持向量回归机。不仅具有鲁棒性的优点,而且能够对离群点进行识别。对于半监督多标记的支持向量学习问题,研究一种半监督多标记支持向量算法。把半监督多标记学习问题转化为半监督单标记学习问题,然后基于 原则对未标记样本分类,通过迭代的方式求解半监督单标记学习问题。 能利用未标记样本的信息,提高多标记学习的性能。在稀疏支持向量学习问题上,给出一种直接稀疏核回归机。在中,通过给.支持向量回归机增加非凸约束,限定支持向量个数,然后用梯度下降法求解优化问题。算法可以显著地降低支持向量的数量,用更少的
3、支持向量,得到较好的拟合结果。在核聚类算法问题上,研究了两种改进的信任力传播聚类算法和。用核函数将样本映射到高维空间,并使用先验信息辅助聚类,提高了聚类精度。算法是一种基于万有引力的信任力传播聚类算法,该算法根据近邻样本之间的信息,加快聚类速度,能在更短的运行时间内,得到与信任力传播聚类算法相媲美的性能。作者在攻读博士学位期间还进行了伪图像识别方面的工作,研究一种伪图像识别算法。从语义的角度,根据相对频域特征和语义特征识别伪图像,它不但可以检测伪图像,而且能较好地估计出模糊区。关键词:核方法,鲁棒性,多标记学习,稀疏核方法,聚类,伪图像识别 , .,., ?, . , , , . ,. : ,
4、 ., ., ., ., ,? ?, ? . ? ?,? ,. .?, ? .? 、 . 占. ,. , . , ,. . , . . .:,? ,独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含本人为获得江南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名: 日期:丝里:乏.陛耍。噬醯关于论文使用授权的说明本学位论文作者完全了解江南大学有关保留、使用学位论文的规定:江南大学有权保
5、留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。止萋;屯保密的学位论 蛳签 名: 名孔醛一解豇掷阻骺啦一雌牟 遵庑不、日 期第一章绪论第一章绪论 弟一早珀下匕.研究背景近年来,核方法在模式识别与机器学习领域中得到了快速的发展剖。核方法的本质,是通过核函数,把数据从低维的输入空问映射到高维的特征空间。例如,在分类问题上,通过核方法,可以使输入空间中线性不可分的数据,在维数更高的特征空间中是线性可分的。核方法得名于核函数的使
6、用,通过核函数,不需要计算样本映射后的坐标,而只用计算样本之间在特征空间中的内积即可,这样就大大减少了算法的复杂度。数十年来,研究人员提出了多种核方法,如支持向量机,支持向量回归机心。,支持向量数据描述,支持向量聚类畸,核鉴别分析阳,核主成分分析盯,核聚类国刮等。核方法在文本信息处理训,生物信息学?羽,手写字符识别等领域有大量成功的应用。.研究的目标和意义核方法中存在若干尚待深入研究的问题,其中鲁棒支持向量回归机、多标记支持向量学习、稀疏支持向量回归机及核聚类较受关注。支持向量回归机具有良好的泛化性能。实验表明,支持向量回归机的训练会受离群点的影响,离群点加剧了支持向量回归机的拟合误差,降低其
7、泛化性能。离群点是样本集中与其他样本表现很不一致的样本,它的形成原因有多种,既可能是数据被噪声污染导致,又可能包含重要的未知信息,因此受到了广泛的关注。由于离群点降低了支持向量回归机的性能,因此对支持向量回归机进行改进,研究鲁棒支持向量回归机,提高其对离群点的抗干扰能力即鲁棒性很有必要。鲁棒支持向量回归机通常通过两类方法减小离群点的影响,其一是设计具有新结构的支持向量算法,其二是设计新的代价函数,以迭代的方式,根据松弛变量调整样本对应的训练参数,由此减小离群点的影响。本论文从构造具有鲁棒性的代价函数,研究代价函数的通常性质,和离群点识别等方面入手,提高支持向量回归机的鲁棒性,并能检测离群点。传
8、统的核方法主要解决单标记学习问题,在学习过程中,一个样本仅有一个标记。在多标记学习中,一个样本通常具有一个或多个标记。与传统学习方法相比,多标记学习能更有效的解决生物信息学问题。这是因为在生物信息学中,一个基因通常具有一个或多个功能,即具有一个或多个标记。在基因功能预测方面,获得已标记样本的代价比较高,一方面是因为需要较多的人力参与,另一方面是因为样本数量急剧增长,大规模的标定样本非常困难。由于基因测序自动化的广泛使用,使得生物数据库的容量急剧增长,而基因功能分析的速度没有大的变化,不能满足应用需求。在这种情况下,用于基因功能预测的已标记样本远小于未标记样本。目前研究成果提出的多标记学习算法多
9、集中在监督学习方面,不考虑未标记样本的内在信息。本论文将半监督学习引入多标记学习,同时从已标记和未标记的基因数据中学习,可以减少人工标记成本,提高效率。江南人学博:学位论文支持向量回归机的支持向量数量,决定其处理未知样本的效率。支持向量回归机的评价时间与支持向量的数量呈线性关系。如果支持向量数量较多,则预测未知样本的目标值也会消耗较多的时间。为了提高支持向量回归机的处理效率,减少支持向量的数量是一种有效的策略。因此研究稀疏的支持向量回归机,减少支持向量的数量,加快其处理速度,是提高其处理实际问题效率的较好方法。本论文研究一种直接稀疏核回归机算法,通过给支持向量回归机增加非凸约束限定支持向量个数
10、,然后用梯度下降法求解优化问题。聚类算法是非监督的,传统的聚类算法在输入空问对样本进行处理。通过核函数,将输入空间的样本映射到高维空问,可以使得在输入空间较难聚类的样本,在更高维的特征空间得到更好地处理,提高聚类性能。本论文研究核聚类算法,把信任力传播聚类算法扩展为半监督核信任力传播聚类算法,更好地解决非线性问题,并能根据先验信息辅助聚类,并研究了基于力.有引力的信任力传播聚类算法,根据样本之间的近邻信息和万有引力解决聚类问题,缩短运行时间。本论文以上述四个问题为目标进行研究,开发新的方法来解决面临的问题和挑战,从而对核方法的理论和应用进行丰富和发展,使其更有效地应用于生产实际。.研究的主要工
11、作和组织结构针对前述的研究目标,本论文进行了相关的研究。本论文的研究内容主要涉及四个方面,即鲁棒性支持向量回归机、基于支持向量机的半监督多标记学习的基因功能分析、直接稀疏核方法在支持向量回归机的扩展和核信任力传播聚类算法的研究。具体地,本论文内容共分八个章节展开:第一章介绍本论文的研究背景,并概述本论文的主要研究工作。第二章对核方法的相关理论进行阐述,介绍机器学习、统计学习理论,并引入核方法。第三章研究一种自适应误差惩罚支持向量回归机,该方法可以较好地改进支持向量回归机的鲁棒性,较大地降低了离群点在训练中的不利影响,得到泛化性能更好的支持向量回归机。第四章进一步研究鲁棒支持向量回归机问题,从鲁
12、棒代价函数性质和离群点识别这两个角度出发,提出一种以占.支持向量回归机为基础,基于模糊聚类的鲁棒支持向量回归机,解决离群点识别的问题,提高支持向量回归机的鲁棒性。第五章研究生物基因数据的半监督多标记学习问题和稀疏支持向量回归机问题。实现了半监督多标记支持向量算法,该方法使用策略把半监督多标记学习问题转化为半监督单标记学习问题,然后基于 原则对未标记样本分类,通过迭代的方式求解半监督单标记学习问题。该算法能利用未标记样本的信息,提高多标记学习的性能。在稀疏支持向量回归机方面,将直接稀疏核学习框架扩展到回归问题上,研究了一种直接稀疏核回归机,通过给.支持向量回归机增加非凸约束限定支持向量个数,然后
13、用梯度下降法求解优化问题,得到稀疏性更好的支持向量回归机。第一章绪论第六章研究核聚类算法。首先把信任力传播聚类算法扩展为半监督核信任力传播聚类算法,引入核方法,把输入空问的样本映射到更高维的特征空间,使得算法能更好地解决非线性问题,并改进信任力信息的传播方式,使之能根据先验信息辅助聚类。研究了基于万有引力的信任力传播递聚类算法,它根据样本之间的近邻信息和万有引力解决聚类问题,得到与信任力传播聚类算法相媲美的聚类效果,但运行时间大大缩短。此外,作者在攻读博士学位期问还进行了伪图像识别方面的工作,第七章对该部分工作进行总结,研究一种伪图像识别算法,从语义的角度,根据相对频域特征和语义特征识别伪图像
14、,它不但可以检测伪图像,而且能较好的估计出模糊区。第八章总结全文,并对进一步研究做了展望。第二章核方法相关理论概述第二章核方法相关理论概述本章主要对核方法的相关理论基础进行回顾。首先介绍统计学习理论的主要内容,然后以二类支持向量机为例,阐述支持向量算法的理论基础与求解方法,讨论核方法的性质,以及核方法的扩展等问题。.统计学习理论在现实世界的中,存在大量人类可以观测到,但无法精确认识的事物和现象。基于数据的机器学习问题,就是从观测到的事物和现象出发,研究如何从无法分析其内在规律的数据中,通过学习获取某种规律,然后再根据所学习到的规律对未知数据的性质进行预测。统计方法是数据分析的重要手段。如果数据
15、的内在规律不能通过理论模型描述,则统计方法是分析数据性质的主要工具。因此,统计方法在机器学习中具有重要的地位。传统统计方法研究的是渐进理论,它假定可以获取到的训练样本是无穷多的,即研究样本数量趋于无穷大时的极限特性。传统统计方法在机器学习领域获得巨大的成功,然而,在很多实际问题中,能获取到的样本数量是有限度的,传统统计方法的假定很难满足。为解决上述问题,等提出统计学习理论【】。统计学习理论是一种小样本统计理论,它研究有限样本情况下的机器学习问题。.机器学习机器学习问题可以用图.表示。在该图中,未知系统表示研究目标,在给定输入的情况下,未知系统输出,。根据机器学习理论和方法,从和,中进行学习,。
16、学习器可以认为是对未知系统内在规律可以得到学习器的近似。对于未知样本,可以用学习器估计对应的输出,。机器学习问题可以形式化地描述如下:已知输入和输出存在一定的未知内在关系,即存在一个未知的联合概率,机器学习就是根据刀个独立同分布观测样本.西,朔,艺,.,矗,以在一组函数厂,中寻找一个最优的函数,使预期的期望风险.”,姐五最小,其中,称作预测函数集,为广义参数。三,叻为损失函数,计算用,对进行预测丽造成的损失【,。不同的学习问题有不同的损失函数。江南人学博学位论文图?机器学习的模型.?有三种主要的机器学习问题,它们分别是分类问题、回归问题和概率密度估计问题。对于分类问题,令学习器的输出,的取值仅
17、为两种,即,并令,们为指示函数指示函数即函数值只取和的函数,则分类问题中的损失函数为:七坳胞胪:多;震嚣如果学习器的输出与指示函数不同,则出现了分类错误。分类问题就转化为样本集.已知,联合概率,未知,寻找使得分类错误最小的函数。对于回归问题,学习器的输出为实数值,令,叻为实函数,则回归问题的损失函数为:.三,?,回归问题就转化为在样本集.已知,联合概率,未知,在损失函数.下,寻找使得式.最小的函数。设密度函数为,概率密度估计问题的损失函数为:.,计一,计与分类问题和回归问题不同,在概率密度估计问题中,不考虑样本的输出。概率密度估计问题转化为在概率分布未知的情况下,已知数据分布.葺,.,毛损失函
18、数为式.,寻找使得式.最小的函数。.经验风险最小原则要使式的期望风险最小化,必须知道联合概率,的准确信息。但通常情况下,联合概率,是未知的,因此不能直接最小化式.。在这种情况下,可以采用经验风险代替式.的期望风险。经验风险函数为:.们言荟咒,们用式.的经验风险函数来近似期望风险,即用最小化经验风险代替最小化第二审核方法相关理论概述原则。期望风险,就是经验风险最小原则,也称为用经验风险最小原则代替期望风险最小原则并没有可靠的理论依据,它是人类的直觉。在实际问题中,很难保证根据经验风险最小原则得到的学习器等价于根据期望风险最小原则得到的学习器。经验风险最小原则的一个明显缺点就是“过学习现象,它是指
19、如果一味追求训练误差最小,往往导致学习器泛化能力的下降。.统计学习理论的主要内容统计学习理论是传统统计方法的改进,它研究在小样本的情况下,经验风险最小原则成立的条件,有限样本下经验风险与期望风险的关系,以及如何找到更好的学习策略,以便避免经验风险最小原则的缺点。统计学习理论要解决的核心问题是,如果采用经验风险最小原则进行学习,在什么情况下能取得小的实际风险。统计学习理论的主要内容包括四方面:经验风险最小原则下,统计学习一致性的条件;在上述条件下,统计学习方法推广能力的界的性质;在上述界的基础上构建小样本学习的原则;实现以该原则为。基础的统计学习算法.学习过程一致性的条件学习过程致性,是指当训练
20、样本的数量趋近于无穷大时,经验风险的最优值能够收敛到真实风险的最优值。当满足学习过程一致性条件时,就可以保证在经验风险最小原则下的学习过程得到的学习方法,在样本数量无穷大时趋近于根据期望风险最小而得到的结果。学习过程一致性可以用图。说明,在该图中,如果期望风险和经验风险都一致收敛到最小可能的风险值,则学习过程是一致的,其中是实际可能的最小风险。风险捍图学习过程一致性.学习过程一致性可以形式化地定义如下:设,矿是在样本集.下,在函数集中使得经验风险取得最小的预测函数,它对应的损失函数为,.。此时的经验风险值为雄,设真实风险为江南人学博:学位论文门。如果下面两式成立,则,对应的经验风险最小学习过程
21、是一致的:.门磊一尺.门石一尺上述对学习过程一致性的定义是平凡一致性的。平凡一致性存在一种可能,即如果预测函数集包含某个特殊的函数,它使得一致性条件能够满足,但这个函数集的其他函数都不能满足一致性条件,那么这个函数集仍然符合一致性定义。而该函数集的一致性仅仅取决于这个特殊函数,而不是整个函数集的性质,其结果是经验风险最小原则只能在该特殊函数上取得。事实上,只有非平儿一致性才对统计学习理论有意义,也就说,学习过程的一致性,不依赖于函数集的个别函数,而是依赖于函数集的整体性质。学习过程非平凡一致性定义如下:对于预测函数集,为广义参数,其子集定义如下:.:,如果对于任意非空子集,一,栅,都有蕊础五足
22、计成立,则经验风险最小原则对预测函数集和概率函数,是非平凡一致的。下文提到的一致性,除注明外均指非平凡一致性。.统计学习理论的关键定理学习理论关键定理按如下方式给出】:定理.:设预测函数集,为广义参数,满足条件.厂,.,则经验风险最小学过程一致性的充分必要条件是,经验风险如。在函数集,计上,在如下意义下一致收敛于实际风险:.一如。】,/其中,表示概率,如。和分别表示在刀个样本下的经验风险和真实风险。该定理把学习一致性问题转为式.的一致收敛问题,它在统计学习理论中是非常重要的,因此又被称为统计学习理论的关键定理。可以看出,根据关键定理,经验风险最小原则一致性的条件是充分必要地取决于预测函数集中最
23、差的函数,也就是按照最坏情况分析,因此基于该条件得到的结果是偏保守的。式.是一致单边收敛的,与其关系密切的是一致双边收敛,形式如下:.。】,.函数集的学习性能及维的引入 .在给出统计学习理论的关键定理后,需要进一步地解决若干深入问题,即在什么条件下,经验风险最小原则下的学习策略,在样本数量趋向无限大时,能收敛于根据期望第二章核方法相关理论概述风险最小原贝得到的结果。同时,考虑到效率问题,需要研究经验风险最小原则下的收敛速度问题,即尽可能快地收敛到最优解。统计学习理论定义了一系列指标解决上述问题。设指示函数集为,训练样本集为乙,其中乙中有刀个训练样本:.乙磊,只,.,丹乙表示指示函数集罩的指示函
24、数能对磊实现的不同分类的总数。随机熵是指示函数集对样本集能实现的不同分类组合数量的对数,用磊表示,按下式计算:.日乙.根据随机熵,可以定义指示函数集对训练样本集的分类能力,称之为熵,用日胛表示,它是随机熵对所有可能的样本数为野的样本集取期望:.伽乙定理.:指示函数学习过程双边一致收敛的充分必要条件是旦盟:.定理.是双边收敛的充分必要条件,同时也是单边一致收敛成立的充分条件。如果定理.满足,则统计学习过程的一致性即可成立。统计学习过程快的收敛速度,按如下方式定义:如果对于任意的疗,都有. 刀.,。.其中为常数,则称学习过程的渐进收敛速度是快的。为研究收敛速度快的充分条件和必要条件,定义指示函数集
25、的生长函数如下:.生长函数是指示函数集在所有可能的样本集上的最大随机熵,它表示指示函数集把刀个样本分成两类的最大可能的分类方式总数。退火熵的定义为:.疗 乙定理.:指示函数集学习过程收敛速度快的充分条件是型:一一。.定理.:指示函数集学习过程一致性的充分必要条件是,对于任意的样本分布,都有型:.”挖.且此时学习过程具有快的收敛速度。定理.:所有指示函数集的生长函数具有的性质是, 它或者与样本数成正比,即满足以下公式:江南人学博.:学位论文.玎聆或者具有如下的上界,即:门办,刀其中为整数。根据定理.,可以给出维的定义,对于一个指示函数集,如果它的生长函数是线性的,则它的维是无穷大,女果满足式.,
26、指示函数集的维是无穷大的。反之,如果指示函数集的生长函数以参数为的对数函数为上界,那么该指示函数集的维是有限的且等于,即满足式.,指示函数集的维为。可以按照如下方式理解维:如果一个样本集含有个样本,它能被某个指示函数集按照所有可能的分类方式分为两类,则称该函数集能将样本数为的样本集打散,对于任意指示函数集,它能打散的最大样本集的样本数量,就是它的维。举例来说,如果某指示函数集能打散含有个样本的样本集,而不能打散含有个样本的样本集,则该指示函数集的维为。如果某指示函数集能打散任意大小的样本集,则该指示函数集的维是无穷大。维是统计学习理论的关键概念之一,它是描述指示函数集的学习性能的最好指标。然而
27、,目前尚没有统一的理论框架计算任意指示函数集的维,只能计算一些较为特殊的函数集的维。如何计算维是一个有待深入研究的问题。.统计学习理论推广性能的界及结构风险最小原则本节以二类分类为例,分析维、样本数量等因素对统计学习理论推广性能的界的关系。根据统计学习理论中关于函数集的推广性的界的结论,对于指示函数集】:,们,如果损失函数,的取值为或者,则有如下定理定理.:在二类问题上,对指示函数集中的所有函数,经验风险和实际风险之间至少以概率一满足如下关系:舶们昙石其中,当指示函数集中包含无穷多个元素时,.:孚,坐盟:仅,?/当指示函数集包含有限的个元素时,有:.:.。在最其中,为指示函数集的维,仅和.是两
28、个常数, ,【坏的情况下,。,则有:尺川/?.第二章核方泫相关理论概述定理.:如果损失函数是一般的有界非负实函数,满足,则有如下关系至少以概率一成立:.。驯计譬掣根据定理.和定理.可知,统计学习理论框架下的实际风险由两部分组成,即为:.。其中,式.右边的第一部分为经验风险,第二部分为置信范围。根据式.至.可知,置信范围与等相关,因此,式.又可以写成:芸.根据上述定理,可以得到如下结论:如果等比较小,则置信范围比较大,经验风险最小原则的学习结果推广性比较差,反之,则经验风险最小原则的学习结果会接近期望风险最小的学习结果。如果样本数量刀固定,维越大,则置信范围越大,置信风险就越大,因此学习结果的推
29、广性比较差,这就解释了为什么学习器的复杂性越高,越可能会导致过学习现象。根据式.,在统计学理理论中,如果要得到好的学习效果,需要同时最小化经验风险和置信范围。统计学习理论提出结构风险最小原则解决上述问题。首先,把指示函数集,分解为函数子集序列,每个子集按照置信范围的大小排列:.?在样本数量固定的情况下,置信范围的大小取决于维,因此各子集按置信范围排列就是按照维排列:.向?魂?每个子集分别对应各自的经验风险和置信范围,从中选择经验风险与置信范围之和为最小的子集,就可以达到最好的学习效果,这种方法称为结构风险最小原则。.二类支持向量机与核方法.二类线性可分情况下的支持向量机支持向量机是在统计学习理
30、论基础上发展出来的分类算法。设线性可分样本集为而,净,.,刀,而,咒,是样本的类标记,是输入维数。支持向量机的学习问题,就是在线性空间中,寻找一个分类超平面。该超平面具有两个性质:首先,它要能将两类数据无错的分开;其次,它能使得两类数据到分类超平面的距离尽可能大。根据统计学习理论,前一个性质保证了经验风险较小,后一个性质保证置信范围较小。线性空间中,分类超平面的一般形式为:江雨人字博:宇位论义.桫其中,为列向量,秒表示的转置。将分类超平面归一化,使得所有样本都满足.,?。经过归一化之后,两类样本距离分类超平面的最短距离为志,这样,最大化样本到超平面的距离相当于最小化。为方便求解,用最小化竺代替
31、最小化,不影响学习效果。求解最优分类超平面问题,可以转化为下面的优化问题:.且约束为.只薯一约束.的目的是避免分类错误。上述优化问题,就是求式.在约束.下的极值问题,根据法求解,则有:.跏妒秒舻善仅触一其中,口【,.,仪。】,.,为系数,且,。分别对.,和求偏导得:.眩,笋?喜仅艄旺,驾笋喜式.的极值在式.和.均为零的情况下取得,分别令两式为零可得:.肛善艄乏彤 .将式.和.代入式.得:.工一主善荟善伐,根据对偶理论,优化问题.和.转化为对偶优化问题,即为:.一圭善否仅,仅,乃一善日.仪,第一二章核方法相关理论概述.仪。进一步地,式.等价于。寺叩,彭乃一一,.智智叫叫叫智下是二次规划问题,具有
32、全局唯一解。优化问题.在约束.和.根据二次规划的条件,最优解满足:.,只桫一若【,为最优解,则:【脶.由取值不为零的.对应的样本表示出来,这些样本就是支持向量。根据式.,如果仪,不为零,则必然有只桫,因此值可以按如下方式求出:.扣妄叫。葺,% .二类线性可分情况下,最优分类函数是:厂引窆伐,乃其中,函数定义如下:. .二类线性不可分情况下的支持向量机如果样本集是二类线性可分,支持向量机一定能找到一个最优分类超平面,将两类样本无错的分开,且使得这两类数据与超平面之间的距离最大。如果样本是线性不可分的,这就意味着训练集中的某些样本不能满足式.,可以通过给式.增加松弛变量解决该问题。这样,在二类线性
33、不可分情况下,求解最优分类超平面问题,可以转化为下面的优化问题:.唧抄桫酗且.矽一毛.亏。式.引入了松弛变量毛,使约束条件寻以满足。为了让松弛变量尽可能小,式.的后一项用调节,它是用户选择的非负参数。根据法求解上述优化问题,则有:江南人学博:掌位论义.,孝,去彬亏,一仪,胁,一亏,.一螨其中,:【“,.,。】,.,门为系数,且,善【写,.一号”】。分别对,号,求偏导得:.?堂掣羔咐.,.。一。?亡一:窆,咒.厶川里生竺掣?,一,芘;式.的极值在式.、.和.均为零的情况下取得,令三式为零可得:.乞仅毛 .伐,.?将式.和.代入式?得:.扭:一丢羔?只喜【,根据对偶理论,优化问题式.、.和.转化为
34、对偶优化问题,即为:.与羔芝仪一乃毫,一喜,且打伐。 .仅.【对比二类线性可分与二类线性不可分情况下的对偶问题形式,可以看出两者的区别,而在于姗系数仅,的定义域发生变化。在二类线性可分时,仅需要满足仪,在二类线性不可分时,仅要同时满足【,和伐,两个条件。优化问题式?至.仍是二次规划问题,存在唯二解。第二章核方法相关理论概述.核的引入前两节综述了二类线性可分与二类线性不可分情况下支持向量机算法。在这两种情况下,分类超平面是线性函数,也可以称为线性分类判别函数。如式.所示,该函数仅涉及未知样本与训练样本的内积运算。根据广义线性判别理论【,如果一个问题在输入空间是线性不可分的,则可以通过构造新的特征
35、,把原问题转化到新的特征空问。一般来说,特征空问的维度高于输入空问,任意高次的判别函数求解问题,都可以通过构造新的特征,映射到更高维的特征空间,然后按照特征空间的线性判别函数、口题求解。显然,对于输入空间线性不可分的二类支持向量机问题,可以通过映射到特征空间更好地解决。根据前两节的理论推导可知,在支持向量机算法的求解过程中,不需要知道样本在特征空间的具体表示形式,仅需要计算样本之问的内积即可。这表明可以在不知道映射函数的具体形式的情况下,求解分类超平面函数。假定西表示从输入空间到特征空间的映射:.:专将样本从输入空间映射到特征空间,样本,在特征空问的映射可表示为,。二类线性不可分时,分类超平面
36、在特征空间的求解,是下面的优化问题:?.唧芝善专,目.只.,葺一弓,.号,.,刀根据法求解上述优化问题,则有:,口,孝,二 .,岛一,咒而一毛,一“毛.分别对,亏。求偏导得:塑掣:.,一窆仅,辨薯 百 .堂掣:窆仅,辨.急“。“望墨竺掣:?,一,.钙,令式.、.和.为零得:江南人学博:学位论文.舻酗.善仪舻.,一将式.和.代入式.得:仅一圭善善,./”葺,善仅,.根据对偶理论,优化问题式.、.和.转化为对偶优化问题,即为:.哑圭/嘴鹏叱吣,一善,且沼窆毗:.【。.对比式.和.,可以看出,将输入空、日的样本映射到特征空间之后,使得优化问题发生变化,即用薯取代了,也就说,输入空间的内积被映射空间的
37、内积取代。设核函数形式为:.薯,薯式.又可以写成:。圭/,乃砸,一仪.引入核后的最优分类函数的形式为:.善嗍荆埘.核的类型核函数的形式决定支持向量机的特征空间。由于核函数的可选性较广,如何判断一个函数可以作为核函数是一个关键问题。一般那来说,如果一个函数能够满足条件,则该函数可以作为核函数,定理如下:设为任意函数,且满足条件.定理:任意一个核函数,。,如果对任何满足.条件的函数,都有:第二章核方法相关理论概述.,成立,则,是某个特征空间的内积运算,且该条件是充分必要的。定理.可以用于判别一个函数是否可以作为核函数。在实际应用中,以下三种核函数较为常用:.,。,.,一?,.,式.、.和.分别为多
38、项式核函数,高斯核函数及核函数。.核方法的扩展以统计学习理论为基础,核方法得到了快速的发展,广泛的应用于模式识别与机器学习的多个领域,除了分类问题外,还扩展到了回归,聚类,核鉴别分析【,核主成分分析【,特征选择【?,流形【等多个领域。由于具有严格的理论基础和良好的应用表现,核方法在未来仍是研究的热点。.本章小结本章首先对核方法的相关理论基础进行回顾,然后以二类支持向量机为例,给出不同情况下支持向量机的求解方法,引入核的概念,并对核方法相关理论与核的类型做了概述,为以后各章做铺垫。第三章自适应误差惩罚支持向量口归机第三章自适应误差惩罚支持向量回归机.引言支持向量机是基于统计学习理论而发展的分类方
39、法。支持向量凹归机则是基于统计学习理论的函数拟合与回归估计方法【】。支持向量回归有良好的拟合性能,泛化能力强,具有拟合时能达到全局最优的特点。常用的支持向量回归机有占一.】和.。离群点是样本集中与其他样本表现很不一致的样本,它的形成原因有多种,既可能是数据被噪声污染导致,又可能包含重要的未知信息,因此受到了广泛的关注【。引。支持向量回归机在处理含有噪声导致的离群点的数据时,拟合性能要受到这些离群点的影响。若样本集中存在离群点,则它们中的大部分将会是支持向量。与其他训练样本相比,离群点对应较大的训练误差,拟合曲线的平滑性受到它们的影响远比其他训练样本大,导致训练结果与没有离群点时相比会有较大变化
40、。因此减小离群点的影响对构造鲁棒的支持向量回归机有重要意义。在支持向量分类问题中,存在减小离群点影响的问题。文献的方法是,先计算样本与其所属类的质心的距离,如果距离太大,这个点可能就是离群点,就要对该点的训练误差进行一定的限制。文献建立一和更一般的.,前者的原理是最小化留一法交叉验证的训练误差上界,后者用自适应边界处理样本,即每个样本在训练中的边界是根据训练需要调整的。文献【】提出一种可以同时检测并压缩离群点的算法,通过损失函数检测并移除离群点。文献弓入非线性的惩罚函数,自适应地调整参数,限制离群点的训练误差上界。文献.提出构造鲁棒支持向量回归机的方法。文献】的方法是,首先用常规得到一个近似的
41、支持向量回归函数,然后对目标函数加权,通过迭代得到优化的收敛结果。文献【】的方法是用加权平方误差损失函数代替常规支持向量回归方法中的占.不敏感函数。文献【】的方法是首先用常规得到一个初始径向基函数网,再用鲁棒损失函数调节网络参数。文献研究了一种分为三段的代价函数,根据拟合误差的取值范围计算对应的训练代价,分别是用占一不敏感函数计算低频变量的噪声代价,用平方误差函数计算样本检测误差代价,用线性函数限制离群点的影响。综上所述,设计鲁棒的支持向量机或支持向量回归机的方法分两类,第一类方法是以常用的支持向量算法为基础,设计具有新结构的支持向量机和支持向量回归机,如文献提出的算法;第二类方法是设计新的代
42、价函数,以迭代计算的方式,根据训练误差调整支持向量算法训练中样本对应的训练参数,由此减小离群点的影响,如文献【等。后者的优点是,算法的本质仍然是支持向量算法,不需要特殊的训练方式,可以将训练支持向量机而发展起来的优化方法应用到新算法中,其关键就是设计出具有抗离群性能的鲁棒代价函数。本章提出一种自适应误差惩罚支持向量回归机 ,它以.支持向量回江南人学博学位论文归机为基础,通过引入一种新的代价函数消减离群点的影响,它属于第二类方法。.支持向量回归算法:?支持向量算法在函数拟合上的扩展,得到支持向量回归机。本节对支持向量回归机的理论进行回顾,阐述.支持向量回归机算法。对于回归问题,设训练样本集为薯,
43、 ,.,聆,其中为输入值,为输出值,为维数,”为训练样本数。在占一中,估计函数,使得对于所有的训练样本,有厂薯一只,且/要尽可能平滑。引入核,则占算法足下面的优化问题:.艘。抄善氆亏:且.儿一缈薯一号,.薯一咒毛;.亏,号:岔表示参或,由下述占一不敏感代价函数计算:.昌三三吲。星一上述优化问题通过求极值方法求解,则有:,口,口,孝,孝, ,缈亏亏:一仅号毛仅:芎:只一.,一仪,只薯一亏,一,毛,一:专:.?上式分别对缈,芎,和亏:求偏导得:”、”.伽鲁、业呜笋麴一孙【:州薯”.鲁、业鼍乎麴磐飞. ?/里墨竺竺。窒至;必一仅,一, ;第二章白适应谈差惩罚支持向量同归机。一.【. 一 ,业等竽业:
44、一:芘:式.的极值在式.、.、.和.均为零的情况下取得。令上述四式为零可得:,一【:葺.仅:一,.?【,一,.一【:一“:根据对偶理论,得到对偶将式.、.、.和.代入式.,优化问题为:圭喜喜仅,一阉薯刚伐,:一只【一:.日?:.仅.:上述优化问题是二次规划问题,在求得最优值【。和:之后,样本集的拟合函数可以表示为:.善,叫弧一剐舶其中,按同时满足式.和.的值取得:.一只一职薯或伐:.一一,薯【或【;对于支持向量回归机,每个样本均对应两个系数,如样本对应,和伐:。对于任何一个样本,只要其对应的两个系数中有一个不为零,则该样本就是支持向量,如果两个系数均为零,则该样本不是支持向量。.:自适应误差惩
45、罚支持向量回归机如果数据中存在离群点,则离群点对应的松弛变量要:匕常样本大得多,这就导致离群点对应的拟合误差更大。因此,如果要消除离群点的影响,构建鲁棒支持向量回归机,其关键在于构造合适的代价函数。为了减小离群点对回归的影响,代价函数必须是江南人学博一:学位论文有界的,也就是说,如果将松弛变量视为训练误差,则无论训练误差有多大,代价函数不能无限的大,否:练出来的支持向量回归机对噪声和离群点很敏感。此外,代价函数应当具有合适的结构,以方便求解二次规划问题,使得训练参数能根据松弛变量自动地进行调整,以便减少离群点的影响,这种性质可以称为自适应性。本节引入一种新,一的代价函数芎,三?下文简称为矿函数
46、构建鲁棒支持向量回归机。、,【”函数是有界函数。如图.所示,函数是奇函数,且芎,。离群点对芎?应的松弛变量较大,但无论多大,函数极限是,因此,用它做代价函数可以大大降低离群点的影响。参数盯调节函数的收敛速度,当仃较小时,代价函数收敛的速度较快。图?不同盯值时的函数盯. 以占.为基础,求解的优化问题如下:一。;?.,.一、?“且.咒一鼍一号.抄.毛,芎:上述优化问题通过法求解,则有:三.,厂亏,矿,第三章自适应误差惩罚支持向量【口归机,玩%痿,孝,孝,声三.,矽兰矿专,。矿亏:,一窆仅。亏,一只,?薯一羔:鬈只一葺一,辨.,薯一芎,一葛一鄞号,一 。 . .,?/上式分别对.,亏,和亏:求偏导得
47、:./ . 口桫:业学一静州毛”业蚴 . . 鲁、磐飞。”。 。里墨垒竺蔓磐矿毛,?,一, 芘;”/吣一叫。. . 望墨鱼型生掣矿。亏;,。一一?; 芘:其中,叼,是函数的一阶导数,形式如下:.、川 形即焘”?求式.的极值,令式.、.、.和.为零可得:.肛闰弧葺;一,.矿。芎,?.矿亏:,:一肛将以上四式代入式.,得到对偶优化问题为:、一一”。三,一撕厂仅:毛,一口智鲁?,;一以,一;.目.江南人学博:学位论文。一:.。号,.:专:,由此,算法转化为求解上述二次规划问题。对比占.和的优化问题可以看出,两者之问区别在于对系数的约束是不同的。在占一中,根据式.和.,所有样本对应的系数采取同样的约束
48、,且约束的范围相同。显然,在这种情况下,对于样本集中的离群点,它们的松弛变量比正常样本大的多,因此对应的系数通常为,因此在最终获得的支持向量回归机中,由于离群点的存在,使得回归性能下降,拟合曲线的平滑性变差,会向离群点扭曲。在中,根据式.和.可知,样本的系数由其对应的松弛变量自动调整。如图.给出的图形,的函数值随着亭变大而迅速减小,因此,由于离群点对应的松弛变量孝远比正常值大,离群点对应的参数迅速降低,离群点的系数的取值范围也随之趋近零,因此离群点在训练中的影响也就随之减小。日遵,乇图不同仃值时的形。函数盯. 这样,自适应误差惩罚支持向量回归机的实现步骤如下:.用常规的.训练出初始的支持向量回
49、归机;.选择函数的参数仃,莎下降系数参数 和仃的下限:.计算盯/,若更新后的盯,则转到,否则,转到;.计算爵“,并根据计算对应得:矿醑,;第三章自适应议差惩罚支持向量口归机.根据更新后的掣,训练新的支持向量回归机,返回;.返回矽和的值。.实验研究.实验设置本节对进行实验研究。实验采用三种函数拟合问题,即正弦函数、函数和多元多项式函数。为检验不同情况下各算法的性能,分别混入个不同幅度的离群点,这些离群点是区间【? 】的随机数。在训练结果的图示中,“表示离群点,“.表示测试样本点,实线为根据训练结果绘制的拟合曲线。核函数对支持向量回归机的效果影响较大,常用的核函数一般为线性核、多项式核、高斯核和核等。在拟合非线性数据时,高斯核与核的性能比线性核与多项式核性能更好。在取相同的核参数盯时,用核函数的拟合效果受离群点的影响更明显。为研究的性能,用对离群点更敏感的核函数用于测试,核函数形式如下:忆一训.训一%尹实验参数取为,盯,.,占.。加权鲁棒支持向量回归方法是张讲社等在文献】中提出的,它与.和相比具有良好的拟合性能。用.和与作对比实验,其中参数按照文献【
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025产品经销合同模板
- 组装衣柜预售合同范例
- 照看宠物服务合同范例
- 拆迁补偿合同范例
- 网签车位合同范例
- 2025债权担保合同
- 美容院内部人员合同范例
- 电梯合股合同范例
- 业务经营合同范例
- 水电箱安装工程合同范例
- 洛阳白马寺景点介绍中文及英文
- 材料工程基础(山东联盟)智慧树知到答案章节测试2023年烟台大学
- 销售破冰话术
- 线性系统理论多年考题和答案
- 酒店预订系统
- 绘本《等一会聪聪》
- GB/T 41620-2022科学技术研究项目评价实施指南应用研究项目
- 2023年银行安全保卫知识考试题库(含答案)
- GB/T 20774-2006手用1∶50锥度销子铰刀
- GB/T 17689-2008土工合成材料塑料土工格栅
- 餐厅店长工作职责流程及职责
评论
0/150
提交评论