(机械工程专业论文)支持向量机在旋转机械故障诊断中的应用研究.pdf_第1页
(机械工程专业论文)支持向量机在旋转机械故障诊断中的应用研究.pdf_第2页
(机械工程专业论文)支持向量机在旋转机械故障诊断中的应用研究.pdf_第3页
(机械工程专业论文)支持向量机在旋转机械故障诊断中的应用研究.pdf_第4页
(机械工程专业论文)支持向量机在旋转机械故障诊断中的应用研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕士学位论文 摘要 本文介绍了旋转机械故障诊断的背景、发展和故障机理等基础知识,概括了常 用故障诊断的方法,着重研究了二十世纪六十年代初迅速发展的方法支持向量 机( s v m ) ,详细介绍了支持向量机目前存在的六个问题:特征提取与选择、训练 样本的选择、参数优化问题、不平衡样本问题、多分类问题、多故障问题。并就目 前的解决办法做了详细的叙述。 针对特征选择问题根据信息熵的大小来判断其稳定性,首先选择几种故障的,? 种特征属性,并建立决策表,计算信息熵,信息熵最大的去掉,认为是冗余的特征。 剩余的特征作为特征向量,将此特征向量输入支持向量机( s v m ) 进行故障识别。 并用方差的方法进行比较,方差大的说明特征不稳定去掉,最后的仿真结果证明信 息熵的方法可以实现故障的正确分类,效果良好。 针对不平衡样本的问题,引入遗传算法,通过遗传算法的交叉和变异来增加少 类样本来达到和多类样本平衡的目的,并选取几种属性作为特征向量输入支持向量 机( s v m ) 进行故障识别,并与不平衡样本时的情况进行对比,实验表明引入遗传 算法能够实现故障的正确分类,达到分类的目的。 关键词:旋转机械,故障诊断,支持向量机,特征选择,不平衡样本 华北电力大学硕士学位论文 a b s t r a c t i nt h i sp a p e li th a si n t r o d u c e ds o m eb a s i ck n o w l e d g eo ff a u l td i a g n o s i so ft h er o t a t i n gm a c h i n e w h i c hi n c l u d e st h eb a c k g r o u n d 、t h ed e v e l o p m e n ta n df a u l tm e c h a n i s m ,s u m m a r i z e dt h ec o m m o n l y u s e df a u l td i a g n o s i sm e t h o d s ,f o c u s e do nam e t h o d - - s u p p o r tv e c t o rm a c h i n e ( s v m ) ,w h i c hi s d e v e l o p e dr a p i d l yi nt h ee a r l y19 6 0 sa n dd e n t a l l yi n t r o d u c e ds i xp r o b l e m se x i s t i n gi ns u p p o r tv e c t o r m a c h i n e :f e a t u r ee x t r a c t i o na n ds e l e c t i o n ;t r a i n i n gs a m p l e ;t h ep r o b l e mo fp a r a m e t e ro p t i m i z a t i o n ; u n b a l a n c e ds a m p l e ;m u l t i c l a s s i f i c a t i o np r o b l e m ;t h ep r o b l e mo fm u l t i p l ef a u l t s a n dd e t a i l e d d e c r y p t e dt h es o l u t i o n so ft ot h es i xp r o b l e m s a c c o r d i n gt of e a t u r es e l e c t i o np r o b l e m ,i t ss t a b i l i t yc a nb ej u d g e db a s e do ns i z eo fi n f o r m a t i o n e n t r o p y f i r s t l y , w ec a ns e l e c ts o m ec h a r a c t e r i s t i co fs e v e r a lf a u l t s ,e s t a b l i s ht h ed e c i s i o nt a b l e , c a l c u l a t ei n f o r m a t i o ne n t r o p y , r e m o v et h ei n f o r m a t i o ne n t r o p ya n dt h i n ki ta st h er e d u n d a n tf e a t u r e s w ep u tt h er e m a i n i n gf e a t u r e sa sf e a t u r ev e c t o r sa n dp u tt h ef e a t u r ev e c t o ri ns u p p o r tv e c t o rm a c h i n e ( s v m ) f o rf a u l ti d e n t i f i c a t i o n a n dc o m p a r i n gw i t ht h ev a r i a n c em e t h o da n dr e m o v i n gt h ei n s t a b l e v a r i a n c ef e a t u r e ,f i n a l l yw ec a ns e et h es i m u l a t i o nr e s u l t ss h o wt h a tt h em e t h o do ft h ei n f o r m a t i o n e n t r o p yc a nr e a l i z ef a u l tc l a s s i f i c a t i o na n di t se f f e c ti sg o o d o nt h ei m b a l a n c ep r o b l e m ,b yi n t r o d u c i n gt h eg e n e t i ca l g o r i t h m ,t h r o u g ht h ec r o s s o v e ra n d m u t a t i o no fg e n e t i ca l g o r i t h mw ec a ni n c r e a s eaf e wc a t e g o r i e so fs a m p l e st or e a c ht h ep u r p o s eo f b a l a n c i n gw i t ht h em a n yk i n d so fs a m p l e s ,s e l e c ts e v e r a la t t r i b u t e sa sf e a t u r ev e c t o r sp u a i n gi n t ot h e s u p p o r tv e c t o rm a c h i n e ( s v m ) f o rf a u l t i d e n t i f i c a t i o na n dc o m p a r e dt ot h eu n b a l a n c e t h e e x p e r i m e n ts h o w st h a tt h ei n t r o d u c i n gg e n e t i ca l g o r i t h mc a nr e a l i z ec o r r e c tc l a s s i f i c a t i o no ft h ef a u l t a n da c h i e v et h ep u r p o s eo fc l a s s i f i c a t i o n k e y w o r d s :r o t a t i n gm a c h i n e ;f a u l td i a g n o s i s ;s v m ;f e a t u r es e l e c t i o n ;u n b a l a n c e ds a m p l e 华北i 乜力大学硕士学位论文 第1 章绪论 1 1 旋转机械故障诊断技术的研究意义 作为生产系统安全运行和提高质量重要手段和关键技术的故障诊断技术受到 了越来越多的重视,是现代工业和科学技术的发展的产物。机械设备的可靠性、安 全性及可用性等促进了机械设备故障机理及故障诊断技术的研究。然而目前,传统 的单一机械部件构成的设备也越来越少见,微电子等软件部分的加入使得旋转机械 朝着连续化、高速化、集中化、大型化等趋势发展,提高了生产率的同时对旋转机 械在安全可靠性的要求也就更高了。因为不仅设备各零部件问相互关联而且不同设 备问也存在着一定的联系,整个生产装备是一个整体。这样如果一台设备部件出现 异常,其工况不仅影响该机器设备本身的运行,而且还会波及后续生产,引起连锁 反应,造成整个生产流程的中断,产生巨大经济损失,甚至引起灾难性的人员伤亡 事故。而机械设备中的关键设备大部分是旋转机械,如发电机、汽轮机、鼓风机等, 其主要工作部分都是回转零部件。机械设备的状态检测和故障诊断的本质是通过对 机器外部征兆的监控,获取特诊参数正确的信息,并进行分析和识别。因此,研究 旋转机械故障诊断技术具有重要的理论意义和工程应用价值【l 】。 1 2 旋转机械故障诊断技术的非线性问题及发展现状 旋转机械故障种类很多,最常见的有:油膜震荡,转轴裂纹,不平衡,动静碰 摩,气流激振,不对中等,除了单一故障外还会有耦合故障。在旋转机械中,由于 转子轴承系统存在着强非线性的激励源,例如:密封力、油膜力、气流激振等,这 会有许多非线性问题的存在,特别是当转子系统出现故障时非线性问题会更加明 显,因此能否解决非线性问题更加符合工程实际的要求。由于旋转机械发生故障时 主要表现为振动状况的变化,而且振动信号便于后续测量和分析,因此对振动信号 测量和分析是机械状态检测和故障诊断中常用的手段。故障诊断过程包括三个步 骤,首先是信息获取,其次提取故障特征,最后是模式识别。模式识别是2 0 世纪 华北电力大学硕士学位论文 6 0 年代初迅速发展起来的,与新技术的研究开发有着密切联系的一门新兴学利2 1 。 它的理论与方法在多个领域得到广泛应用,推动了人工智能的发展。模式识别是智 能系统的重要组成部分和强有力的工具,在数据处理和判别决策两方面。模式识别 的方法有经典的模式识别方法、现代模式识别方法、有监督分类和无监督分类。在 现代模式识别方法中发展较快的有模糊识别方法,基于神经网络的智能模式识别和 支持向量机( s v m ) 分类方法。s v m 既是一种数据驱动的建模方法又是一种核函数方 法,通过选择合适的核函数来对样本之间的相似度进行度量,从而避开了传统方法 中为进行特征提取所做的非线性特征映射。支持向量机是以结构风险最小化原则为 思想提出的,能够提高学习机的推广能力,即使是由有限集得到的判别函数对独立 的测试集仍然能够得到比较小的误差。 目前用于故障诊断的技术的方法有多种,有传统的故障诊断方法和智能诊断方 法,其中智能的包括神经网络,模糊识别等。目前典型故障样本的严重不足以及诊 断知识的发现问题都严重制约着机械故障智能诊断的发展。近几年,基于统计学习 理论的s v m 的研究逐渐成为机器学习领域中的一个重要方向。s v m 的目前研究和 应用主要表现在以下六个方面:样本特征的提取与选择、训练样本的选择、参数优 化问题、不平衡样本问题、多分类问题、多故障问题。在这六个方面中有的已经很 成熟了,比如说参数优化问题在支持向量机中的研究已经很成熟了,其他的相对来 说就显得略微的不成熟,需要我们去研究与完善。故本文针对特征选择问题和不平 衡样本问题展开讨论、研究。提出了基于信息熵和遗传算法的方法,并通过实验验 证,证明了方法的有效性。 1 3 本论文的安排和主要工作 本文主要的工作是支持向量机,详细分析支持向量机目前存在的问题:并对样 本特征的选择和不平衡样本问题提出相应的解决办法,具体安排工作如下: l 、对模式识别进行深入的了解并对常用的几种模式识别方法,例如,模糊 识别方法,基于神经网络的智能模式识别和支持向量机( s v m ) 分类方法进行总 结分析和实验研究; 2 华北 l a b 大学硕士学位论文 2 、将神经网络和支持向量机就分类问题作对比。 3 、研究支持向量机理论及其存在的缺陷问题,总结现有的解决方法,并对 特征选择和不平衡样本情况进行深入分析和研究; 4 、针对样本特征选择问题提出方法:基于信息熵的支持向量机特征选择方 法,并用仿真和实验证明该方法的有效性; 5 、针对不平衡样本情况提出:基于遗传算法的支持向量机的不平衡样本的 解决方案,并用仿真和实验验证该方法的可行性: 6 、总结并对目前支持向量机的研究提出展望。 华北电力大学硕士学位论文 第2 章支持向量机 模式识别是2 0 世纪6 0 年代初迅速发展起来比较典型的交叉学科,与传感技术、 信息论、人工智能、计算机科学等学科相辅相成。支持向量机作为其中的一个分支, 研究有限样本情况下的机器学习理论,目前在很多的领域得到广泛的学习。 2 1 模式识别的方法 2 1 1 模式识别的概念 模式识别技术就是随着现代科学技术的发展和计算机技术的发展形成的一种 模拟人的各种识别的能力和方法的技术。 模式识别2 0 1 的目的就是利用计算机模拟人的识别能力,是对两个不同层次的识 别能力进行模拟,包括分析和判断两个过程。分析的过程是确定划分模式类的特征 和表达方式;判断的过程是依据待识别对象的特性,判断属于某种模式类。 一般,模式识别系统组成如图2 1 所示。 观察对象信息获取一- 预处理一特征提取分类判决一类别号 和选择 图2 一l 模式识别系统的组成图 模式识别 2 0 1 的本质是在于实现元素( 表征观察对象) 和集合( 表征模式类) 的从属 关系的判定过程。模式识别作为一门学科,从属于机器智能的范畴,即属于人工智 能的范畴。模式识别的迅速发展和广泛的实际应用,极大地推动了人工智能的发展 和应用,为人工智能奠定了基础。 模式识别技术在地球资源、环境;生物医学工程;生产自动化;文件处理和管 理自动化;军事:公安侦破;商业自动化等七个领域中得到实际应用并取得了相当 大的成效。 4 华北i 乜力大学硕士学位沦文 2 1 2 模式识别的几种方法 1 传统模式识别方法 1 ) 统计模式识别 统计模式识别是最广泛的一种识别方法,是把观察对象描述为一个随机的向 量,将模式类表述为有限或者是无限个具有相似数值特性的模式组成的集合。它的 分类问题是根据待识别客体的特征向量值及其它的约束条件将其分到某个类别中 去,并利用统汁决策与估计理论,解决了很多的实际问题,缺陷是对特征的选择目 前还没有建立统一的理论。如图2 2 所示,统计模式识别由4 部分组成,其中分类 器设计和分类决策属于分类器。 观察对象一信息获取一预处理一特征提取和选择c 筹羹萎釜计 图2 2 统计模式识别系统的组成框图 2 ) 结构模式识别。 结构模式识别也称为句法方法,已经发展成为一个独立的科学分支。结构模式 识别可以采用比较简单的子模式组成多级结构,来描述一个比较复杂的模式。但是 在实际应用当中,统计方法和结构模式识别方法往往是相互配合使用,相互补充。 如图2 3 所示,结构模式识别系统的组成图。 观察对象 一- 信息获取一预处理模式表达 2 现代模式识别方法 图2 3结构模式识别系统的组成框图 文法推断 句法分析 1 ) 模糊模式识别 模糊识别是采用模糊数学的理论方法来实现的,描述和研究具有“模糊性”的 事物,实质就是观察对象( 元素) 和模式类( 集合) 之间的从属关系。模糊集合理论是 5 华北电力大学硕士学位论文 l a z a d e h 在1 9 6 5 年提出的,为发展信息科学奠定了数学基础。采用了隶属度来描 述元素属于一个集合的程度,来解决信息的不确定性问题,以模糊集合论为基础, 处理的对象一般是带有模糊性的模式识别问题。模糊识别特别是对一些复杂的机械 系统其原因和征兆的关系比较复杂时,或者是征兆和状态之间无法建立明确的数学 曩。模型时,往往会产生很好的效果。模糊识别形成并不断发展,在其他的领域正蓬勃 的发展。模糊识别可解决某些难用定量理论来说清楚的问题,但并不是所有的问题 都可以,作为模式识别的一个新天地,应用前景比较广泛。 2 ) 神经网络模式识别 心理学家m c c u l l o c h 和数学家p i t t s 在1 9 4 3 年提出了人工神经元的数学模型, 神经网络是在研究人脑组织所取得的成果基础上提出的。其目的是模拟人脑神经系 统的结构与功能。主要是利用人工神经网络的学习、记忆和归纳功能,先根据训练 样本设计训练分类器,再利用分类器对待识别对象进行分类决策。神经网络具有很 强的自适应能力、容错能力、学习能力和鲁棒性;其最大的特点就是有学习的能力, 是模式识别中发展比较成熟的一种技术。 神经网络的优点是:要求对问题的了解较少、可对特征空间进行较为复杂的划 分、使用于高速并行处理系统来实现,可以实现难以用其他技术实现的最优信号处 理算法。神经网络是解决识别过程从数据获取、特征提取到判决几个阶段的有力工 具,但不足之处是需要大量的训练数据,在非并行处理系统中的模拟运行的速度很 慢,并且无法获取特征空间中的决策面等。 3 ) 支持向量机 支持向量机的理论是v a p n i k 在2 0 世纪9 0 年代提出的。是一种基于统计学习理论 的机器学习方法。9 0 年代支持向量机将大间隔超平面、核函数、解的稀疏性、松弛 变量等完美的结合在一起,使得具有更优良的性能。其思想是基于最优分类超平面, s v m 是一种基于结构风险最小化原理的机器学习技术,具有较好的泛化性能和精 度,一开始出现就应用于分类问题中。其优势是即使没有对模式类的特征进行深入 地分析,也能得到很高的分类精度。核心内容是在1 9 9 5 年左右,由v a p n i k 和 c h e r v o n e n k i s 提出的,目前仍处于不断发展阶段。s v m 的出现使有限样本下的机器 6 华北i 乜力大学硕士学位论文 学习理论形成了一套比较完善的理论体系,克服了神经网络等学习方法中网络结构 难以确定、局部极小点、收敛速度慢、过学习、欠学习以及训练时需要大量数据样 本等弊端。本章第二节详细介绍支持向量机。 2 2 支持向量机 在机器智能研究中,机器学习理论的出发点是用机器模拟人的学习能力。基于 数据的机器学习问题研究的是怎样从一些观测数据中挖掘出不能通过原理分析而 得到的规律,并利用这些规律分析客观对象,对未来数据或无法观测的数据进行预 测。实际中存在着大量的我们根本无法准确地认识,然而却可以进行观测的事物, 因此基于数据的机器学习在现代科学、技术到社会、经济等各个领域中都具有一阔 的应用前景。 传统的学习理论是基于经验风险最小化原则( e r m ) 的。经验风险是指在训练 集上的风险,常用均方误差来表示的。理论表明,当训练样本趋于无穷多时,经验 风险收敛于实际风险。因此e r m 隐含地用训练样本无穷多为假设条件。然而,在 实际应用中,例如故障诊断,样本数据通常是有限的,因此研究有限样本情况下的 机器学习理论的实用价值更高。 2 2 1 机器学习的基本理论 机器学习作为实现人工智能的途径,自2 0 世纪8 0 年代以来就引起了广泛的兴 趣。 s i m o n 对学习的阐述是:“如果一个系统能够通过执行某种过程而改进它的性 能,这就是学习”。在1 9 5 7 年r o s e n b l a r t t 首次提出了第一个学习机器的模型,称 为感知器【3 2 2 1 。机器学习( m a c h i n el e a m i n g ) 是研究如何使计算机具有类似于人的学习 的能力,使之能通过学习自动获取知识【3 0 】。 机器学习是从观测样本出发寻找并构造一个学习系统模型,本质上是学习输入 与输出的一种映射关系。机器学习的目标是利用给定有限数量的训练数据对某系统 输入与输出之间的依赖关系进行估计,并根据输入与输出之间的依赖关系对未知输 7 华北电力大学硕士学位论文 出做出尽可能准确的预测【3 1 。机器学习问题包含模式识别、函数逼近、概率密度估 计等三类问题。机器学习的基本模型可以用图2 4 来表示。 机器学习模型一般是数据产生器g 依靠某个未知的概率分布函数f g ) 独立产 生向量x ,x r ”,向量x 输入到训练器输出一个确定的y ,学习机器对任何一个确 定的x 返回一个y ,并且跟y 值非常接近。 图2 4 机器学习模型 具体来说就是根据门个独立同分布的观测样本x ,y 。) ( x :,y :) ,x n ,y 。) ,在函数 s ( x ,口) 中求得一个最优函数厂g ,a 。) ,对训练器s 进行估计,使期望风险 尺( 口) = p ( y ,( 圳) 舻( w ) ( 2 - i ) 的值最小,其中样本分布是未知的,l ( y ,s ( x ,口) ) 是损失函数。 2 2 2 统计学习理论 1 统计学习理论 v a p n i k 等人提出统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l t ) ,在2 0 世纪6 0 年代中期开始研究有限数据集的情况下给予数据的机器学习问题。到了9 0 年代中 期逐渐发展成熟起来,并形成了较完善的理论体系。 统计学习理论是研究在小样本的情况下建立有效地估计和预测的理论,并针对 小样本问题建立了一套理论体系。从理论上研究了经验风险最小化原则成立的条件 以及在有限样本情况下经验风险与期望风险的关系和利用理论找到新的学习原则 和方法。支持向量机就是在此基础上发展而来的一种通用的学习方法1 4 】o 而统计理 r 华北电力大学硕:l 二学位论文 论的发展与重视,也正是因为它是支持向量机的种通用的基于数据机器学习的方 法。 统计学习理论的内容主要包括以下4 个方面5 】: ( 1 ) 经验风险最小化原则下的一致性条件: ( 2 ) 推广性的界的结论; ( 3 ) 关于小数据样本归纳推理原则; ( 4 ) 实现新原则的方法或算法。 其中,最具有指导性的理论就是推广性的界,还有一个重要的概念就是v c 维。 2 v c 维 v c 维的概念是在1 9 6 0 至1 9 9 0 年期间提出并完善的,提出人是俄罗斯数学家 v a p n i k 和c h e r v o n e n k i s ,是统计学习理论的核心基础,统计学习是用v c 维来表示 学习机器的复杂程度。 定义2 1 假设集合f 是一个由x 上取值为+ l 或1 的函数值所组成的集合。定义 f 的v c 维为 v c d i m ( f ) = m a x k :n ( f ,卅) = 2 ”) ( 2 2 ) 当如:扩,棚) = 2 ” 是一个无限集合时,定义陀d i m ( f ) = 。 以二分类问题为例,若存在行,个样本运用学习机器则有2 ”种划分,在此存在一 个函数厶,使得此函数对其中一个类取+ 1 ,另一类取- 1 ( 其中+ l 和一1 分别代表两类 样本的属性值) 。如图2 5 中平面中的直线的v c 维为3 。 图2 - 5平面直线的v c 维等于3 9 华北电力大学硕士学位论文 目前还没有一种通用的方法来计算任意函数的v c 维,目前只是知道一些特殊 函数的v c 维,例如:行维实数空间的v c 维是,7 + l ,函数g ,口) = s i n ( a x ) l 构v c 维 i 是无穷大的。 3 经验风险最小化准则 学习问题可以用y 与x 之间存在的未知依赖关系来表示,即联合概率f ( x ,j ,) 。 机器学习问题即是根据胛个观测样本( 一,y ) ,( x :,少:) ,( _ ,此) ,在函数扩( x ,) ) 中求 最优的函数厂( x ,( d o ) ,对它们之间的依赖关系进行估计,使得期望风险 尺( ) = 仁陟,g ,) 弦g ,y ) ( 2 3 ) 最小。式中,集合沙x ,) 为测试函数集,c o 是函数的广义定义参数。 陟,i ( x ,) 是沙( x ,) ) 对y 预测所造成的损失。 对于未知的概率分布f ( x ,y ) 要使得期望风险最小化,上式( 2 3 ) 的期望风险是无 法直接计算与最小化的,传统方法采用经验风险最小化( e m p i r i c a lr i s km i n i m i z a t i o n , e r m ) 准则来逼近式( 2 3 ) 定义的期望风险。 定义2 2 对于指示函数集l ( y ,x ) 和概率分布函数f ( y ) ,如果序列尺h ) 和 h ) 的概率都收敛于癯写尺0 ) ,则称为经验风险最小一致性( e r m ) 。如图2 - 6 所 示,序列r a序y o 如。a i ) 同时依概率收敛于i n f r ( a ) 口一 墨( 口,) 、 r 。,( ) 。 , 图2 6 经验风险最小一致性 由尺( q ) 判定期望风险收敛到最好的可能值,根据) 判定估计风险可能的 最小值。 4 结构风险最小化准则 l o 华北电力大学硕士学位论文 对于两类分类f - j 题有以下结论,指示函数集中所有函数,经验风险r e 。b ) 和实 际风险尺0 ) 之间至少( 1 7 7 ) 的概率满足下面的关系: r ( ) r e 妒( ) + 鱼鱼翌史学 ( 2 4 ) 式( 2 4 ) 中,h 是函数集的v c 维,是样本数,叼为满足0 r 7 l 的参数。 由上式( 2 4 ) 看出,实际风险是由经验风险和置信范围两部分组成。其中v c 维 的h 依赖于学习机器所工作的函数集合,h 越大置信范围则越大,则可能导致真实 风险与经验风险之间的差别越大,就可能会产生过学习的现象。通过控制对函数结 构的选择来控制v c 维的h 。 定义2 3 ( 结构风险最小化原则) 所谓结构最小化准则就是在可同伦结构的嵌套 函数集s = 仁( z ,c o ) , o j a 。) ,s 。cs :c cs 。寻找一个中间子集s + ,使得上式( 2 4 ) 右端的结构风险达到最小。 图2 7 所示,若给定样本数,则随着h 的增加,经验风险逐渐变小,置信范围 逐渐递增。真实风险的界是经验风险和置信范围之和,随着结构元素序号的增加, 经验风险减小,置信范围随之增大。则最小的真实风险的上界是在结构的某个适当 的元素上取得的。 一 图2 7 结构风险最小化原理图 华北电力大学硕士学位论文 2 2 3 支持向量机 支持向量机的基本理论和概念是2 0 世纪9 0 年代贝尔实验室的v a p n i k 教授首 次提出来的【6 0 1 ,是在统计学习理论的v c 维理论和结构风险最小化原理的基础上 发展起来的一种新的机器学习方法,其思想来源于最优分类超平面。 1 分类问题的提出 刀维空间上的分类问题是由,个数据样本组成的训练集,集合为: ( t ,儿) ,( _ ,乃) 。其中誓r ”为输入向量,y j l ,一1 ) 为输出向量,f = 1 , 2 ,3 ,。 分类即是将,个数据样本组成的集合正确无误的分成两类。其实质就是寻找能够把 r ”上的点分成两部分的规则函数g g ) ,根据判别函数厂g ) = s g n 詹g ) ) 推断任一的输 入x 相对应的并准确的y 值。这是二分类的问题的描述。 2 s v m 的基本思想 s v m 的思想主要可以概括为两个方面:( 1 ) 针对线性可分情况进行分析,对线 性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化 为高维特征空间使其线性可分,使得高维特征空间采用线性算法对样本的非线性特 征进行线性分析成为可能;( 2 ) 基于结构风险最小化理论在特征空间中构建最优分类 超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率 满足一定的上界。其训练与分类过程如图2 8 所示。 数据 特征选择,i ) 1 1 练分类器 训练集 新数据特征选择 - 分类,判别 训练集 图2 8 支持向量机的训练与分类过程 支持向量机在分类问题中,简单地描述为:系统随机地产生一个超平面并移动 它,直到数据集中属于不同类的点正好位于超平面的不同侧面,但是在绝大多数情 况下,得到的并不是最优解。而s v m 寻找的是一个能满足分类要求的超平面,并 华北电力大学硕士学位论文 且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白 区域( m a r g i n ) 最大,如图2 - 9 所示。图中实心点和空心点分别代表两类样本,把两 类样本正确分开的线是h ,h l 和h 2 分别为通过各类样本中离分类线最近的点且平 行于分类线的直线,也就是要求分类线不但能将两类样本正确地分开,而且要使 h l 和h 2 之间的间隔最大。 图2 - 9 最优分类面的示意图 3 支持向量机 1 ) 原始问题与对偶问题解的关系 原始问题 m 。i 。n 制1 2i 6 ” 儿( 0 9 一) + 6 ) l ,i = 1 , ( 2 - 5 ) ( 2 6 ) 为导出式( 2 5 ) ( 2 6 ) 的对偶问题,引入拉格朗h ( l a g r a n g e ) 函 ( ,6 ,a ) = 去i l 1 1 2 一a ,( ( 薯) + 6 ) 一1 ) ( 2 7 ) 其中a = q 1 一,a ,t 为拉格朗日乘子向量,则有下面的定理: 定理2 1 最优化问题 吁x 一圭喜喜咒乃g i _ b 一+ 高a , c 2 固 华北电力大学硕士学位论文 , “ m a i = 0 i = i a ,o ,i = 1 , 是原始问题式( 2 5 ) 与( 2 6 ) 的对偶问题。 ( 2 9 ) ( 2 - 1 0 ) 定理2 2 考虑线性可分问题,则对偶问题式( 2 8 ) 一( 2 1 0 ) 必有解a = g i ,a 。 对偶问题是一个最大化问题,但是在最优化方法的研究中常常用等价最小化问 题来替代最大化问题,这里引进与对偶问题有相同解集的最小化问题 委圭圭少奶g i _ b i o j - - 圭a , 江1 江1i - l , s , z y , a = 0 f = l a 0 ,i = 1 , 定理2 3 最优化问题( 2 11 ) 一( 2 1 3 ) 是凸二次规划。 ( 2 - 1 1 ) f 2 - 1 2 ) ( 2 1 3 ) 定理2 4 考虑线性可分问题,设a = g i ,a j 厂是问题( 2 ii ) ( 2 1 3 ) 的任意解, 则a 0 ,即存在a 的分量a j 0 ,而且可按下列方式计算出原始问题( 2 - 5 ) 一( 2 6 ) 的唯一解0 ,b ) : 或 , + = a t y i x i ,= l 6 + :乃一圭a 江x i _ ) , 0 9 + = a t y , x , ,= l 肚一( z i 耋a ;x ; j 压y 善a ? 6 一p i 2 a ? i = i = l 2 ) 线性可分支持向量分类机 线性可分就是容易用一条直线将两类样本正确的分开。如图2 1 0 所示: 1 4 f 2 1 4 ) ( 2 - 1 5 ) ( 2 1 6 ) ( 2 - 1 7 ) 华北电力火学硕士学他论文 。 图2 1 0 线性可分分类图 给定两类线性可分的数据样本训练集t = _ ,y 。) ,“,乃) j y 广,其中 x i r a , y i y = + l ,一1 ) ,f = l , ;若是两类正确的分开,即错误率为0 ,还要使分 类间隔最大,则需要对判别分类面w x + b = 0 做标准化处理,满足以下的关系式: 约束条件: 少, ( w x ) + 6 一1 o ,i = 1 ,门 ( 2 1 8 ) 此时分类间隔为2 | ,间隔最大等价于恻1 2 ,满足上式( 2 5 ) 并且使去忪1 1 2 最小 分类面就是图2 - 9 中的最优分类线h 。并且最优分类面问题可以表示成下面的约束 优化问题,即在上式( 2 1 8 ) f m o 束下,求 函数最小值: ( w ) :如w l l 2 ( 2 - 1 9 ) 引入下面的拉格朗日( l a g r a n g e ) 函数: l ( w ,6 ,口) :翔叫1 2 一艺口f k ( 炒x + 6 ) 一1 】( 2 - 2 0 ) 为求得上式( 2 2 0 ) f 拘最小值,需求偏微分,令偏微分等于0 ,于是求得下式: 罢:o w :争q ”_ 伽, g f :- l a 。 盖= 。喜哪= 。 陋2 , 罢:o q 陟i ( w 薯+ 6 ) _ 一1 = o 在约束条件式( 2 1 8 ) 与式( 2 2 1 ) 的约束下,可将求解的问题转化为凸二次规划的 华北电力大学硕士学位论文 对偶问题: m a x 羔口i 一去窆宝a i a j y i y j ( x i 。) i - i- - i - 1 s , i 0 ,i = l ,刀( 2 2 2 ) 口,y i = 0 ,= i 对偶问题是一个二次寻优的问题,存在唯一解。若彳是最优解,其中a ,为相应 的l a g r a n g e 乘子,则有: 最终得到的最优分类函数为: 1 4 1 + = a ;y ,x i ,= 1 ( 2 - 2 3 ) 加) 键n ( w 。x ) + 6 ) = s g n i 善口j 少,x i x ) “, p 2 4 ) 其中:口;为支持向量,b + 为分类阀值,可由条件口,k ( w x i + 6 ) 一1 _ o 求解。 3 ) 非线性可分支持向量机 非线性可分是必须用非线性曲线才能正确将样本分开的情况,如图2 1 l 所示: o o oo 图2 1 1 非线性可分分类 。 对于非线性分类的问题,若是在原始的空间中最优分类面不能得到满意的分类 效果,则可通过非线性变换转化为某个高维空间中的线性问题,在变换空间中求最 优的分类面。s v m 通过核函数变换解决了变换的复杂性,核函数为: k g ,_ ) = b ) 驴k ( 2 - 2 5 ) 华北电力大学硕二l :学位论文 ( 1 ) 给定训练集丁= ( _ ,y 。) ( x ,”) ) 位d y y 7 ,其中x ier d , y i y = 1 , - 1 , ,= 1 ,? ; ( 2 ) 选取适当的从空问r ”到h i l b e r t 空间的变换:x = 妒g ) 以及惩罚参数c 0 ; ( 3 ) 构造并求解凸二次规划问题 啷n 吉喜喜y i y ,a ,a ,( _ ) ,咖k ) ) 一喜仗, ( 2 2 6 ) 得解 “ y i o t ,= 0 ; ( 2 2 7 ) j = l 0 a j c ,i = 1 , a = q i ,a ? 厂; ( 4 ) 计算6 + :选取位于开区间( o ,c ) 中的a + 的分量a j ,据此计算 ( 5 ) 构造决策函数 其中 6 厂窆坍j 0 ( x ) g ,) ) ; 厂( x ) = s g n ( g ( x ) ) , g g ) = m a ? ( 一) 妒g ) ) + 6 + f 2 2 8 ) ( 2 - 2 9 ) f 2 - 3 0 ) ( 2 3 1 ) ( 2 - 3 2 ) 4 ) 多类支持向量机 由于第5 章中实验设备及仿真分析中用到了三类分类器,所以在这里介绍一下 多类支持向量机。多分类支持向量机的实质是找到一个能把r ”上的点分成m 部分 的规则,实质是寻找一个决策函数使得 厂g ) :x = r 寸】, ( 2 3 3 ) 下面是用二分类的方法构造一个行类分类器的方法与步骤: ( 1 ) 构造 个二分类规则,其中规则五 ) ,k = 1 ,聆将第k 类的训练样本与其 它训练样本分开,若向量_ 属于第尼类,贝os g n 阮x i ) 】- l ,贝j s g n 阮沁) = 一l 。 1 7 ( 2 ) 选取函数五g ) ,k = 1 ,门中最大值所对应的类别: 朋= a r g m a x f ( x ,) ,z k ) ) 通过上述步骤即可构造将f 类数据样本进行分类的多类分类器。 ( 2 - 3 4 ) 用支持向量机的方法如下:对一直数据样本训练集x :,一x l ,x r n 其中上 标 表示向量属于第疗类。 考虑线性函数集: 五( x ) = b ) + 瓯,k = 1 ,”( 2 3 5 ) 目标是构造门- i k , 仇) 函数,使得: m = a r g m a x ( x 1 ) + “一,融) + 吃】)( 2 。3 6 ) 誊 能将训练样本正确无误的分开,即不等式 t + b k 一0 c ; i ) 一b m 1 对所有的k = 1 ,刀,m 七和i = 1 ,厶成立。 若上述过程有解,则选0 ,仇l 七= 1 , ,使泛函窆0 t t ) 取最小值。 若不能正确的分开,则需最小化下面的泛函: 窆0 t t ) + c 窆兰等 七= l 七= 】j = j 约束条件为: 。) + 仇一似”) 一b m 1 一考? f 2 - 3 7 ) ( 2 - 3 8 ) ( 2 3 9 ) 式中k = l ,玎,朋七,i = 1 ,厶。 为求解上式,采用拉格朗日乘子将函数五g ) 在支持向量上展开,则有以下的表 达式: 还需要最小化为如下的二次形式: ( 2 - 4 0 )仇卜v灶 七 b q k 闩 删 、l厂,#砖 聊 q 槲 = 、l ,0五 华北i 乜力大学硕士学位论文 以口) = 主 芝日, , ,) 一i 1 ( 芝口i g ,b ,( 七,卅) ,巧) 。1 ”7 2 1 “,7 。1 f 2 4 1 ) + 艺兰口jm ,尼b ,7 + ,七糖譬) 一2 e y l 口i ( k ,i * b ,m ,尼虹? ,) ) 】 o 口肛,打7 ) c , 七 为构造支持向量,只需要在公式中用核函数k g 巧) 代替内积k 巧) 。 4 核函数 ( 2 - 4 2 ) ( 2 4 3 ) 2 0 世纪的6 0 年代m m i n s k y 和s p a p e r t 就已经指出学习机器计算能力的有限 性,1 9 2 2 年v a p n i k 利用核函数成功地将线性支持向量机推广到非线性支持向量机 时,核函数才得到充分的挖掘。支持向量的成功来源于两项关键的因素,其中的一 个因素就是核函数方法的引入。s v m 通过核函数k g ,x ) 可以将输入空间中线性不 可分的特征向量非线性地映射到输出特征空间中,变得线性可分。 非线t b 上l - 灭t r _ 里i 宴函数g ( x ) = k 。g ) ,g ,g ) 将m 维输入矢量x 映射到,维特征空间 中,则特征空间的线性决策函数为 d ( x ) = w7 g g ) + 6 ( 2 - 4 4 ) 定义2 4 ( 核函数) 6 1 称定义在r ”尺”上的函数k b ,少) 是r ”r ”的核函数或简称 它是核函数,如果存在着从尺”到h i l b e r t 到空间h 的变换 : r ”jh ( 2 - 4 5 ) xh g ) ( 2 - 4 6 ) 使得 k ( x ,y ) = ( x ) 咖( y ” ( 2 4 7 ) 其中( ) 表示空间h 中的内积。 行 一一 七 、p 七 幻q k 川 删 = 、l, 口 h删 华北电力大学硕士学位论文 1 ) 核函数的特征 定理2 5 ( 核函数的特征) 定义在r ”r ”上的对称函数k ( x ,少) 是核函数的充要条 件是对任意的_ ,_ r ”,k ( x ,y ) 是关于工l ,一,_ 的g r a m 矩阵是半正定的。 定理2 6 设k ,( 工,y ) 矛l lk :( x ,y ) 都是r 尺。上的核函数,则它们的和 k ( x ,y ) = k 。( x ,y ) + k :( x ,y ) ( 2 4 8 ) 与积 k ( x ,少) = k ,( x ,y ) k :( x ,y )( 2 4 9 ) 也都是核函数。 2 ) 常用的核函数 a ,线性核函数: 对于线性可分问题在输入空间中不需要将空间映射到高维空间时,采用的函数 k ( x ,y ) - - x r y 。 ( 2 ) 多项式核函数: 设d 为正整数,则对于d 阶齐次多项式函数k g ,少) = g y 尸和d 阶非齐次多项 式函数k g ,y ) = g j ,+ 1 ) a 都是核函数。核函数中的d 的选择可以控制系统的v c 维 的维数。 ( 3 ) 径向基核函数: 以参数g a u s s 径向基函数k ( x ,y ) :e x p ( _ 0 x - y2 o :) 是核函数。 径向基核函数是普遍采用的核函数,对应的空间是无穷维的,有限样本数据在 该空间也是线性可分的。 ( 4 ) s i g m o i d 函数: 核函数采用的是双曲正切函数,函数为:k ( x ,y ) - - t a n h v ( x ,y ) + 口】,但是当且 仅当y 和a 取适当值时才能满足核函数的条件。 2 3 方法对比 本节采用神经网络与支持向量机做一个对比,两者在形式上相似,但是实际应 2 0 华北l 乜力犬学硕士学位论文 用中有很大的不同,神经网络相当于一个黑匣子,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论