统计学习理论与支持向量机

上传人：2*** IP属地：湖北上传时间：2023-02-01 格式：PPT 页数：76 大小：474KB 积分：28 举报 版权申诉

已阅读5页，还剩71页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

统计学习理论

和支持向量机

13720915刁志蕙2023/2/11内容提要统计学习理论的基本概念与原理支持向量机支持向量机在性别分类中的应用总结与展望2023/2/12统计学习方法概述

统计方法是主要研究如何从一些观测（样本）出发得出目前尚不能规律，利用这些规律去分析客观现象，对未来数据或无法观测的数据进行预测。就是说，观测一些自然现象或专门安排的实验所得资料，是否与理论相符、在多大的程度上相符、偏离可能是朝哪个方向等等问题，都需要用统计分析的方法处理。2023/2/13统计学习方法概述

统计学习方法：传统方法:统计学在解决机器学习问题中起着基础性的作用。传统的统计学所研究的主要是渐近理论，即当样本趋向于无穷多时的统计性质。统计学中关于估计的一致性，无偏性和估计方差的界等以及关于分类错误率都属于渐进特性。统计方法主要考虑测试预想的假设和数据模型拟合。它依赖于显式的基本概率模型。

模糊集粗糙集支持向量机2023/2/14统计学习方法概述统计方法处理过程可以分为三个阶段：（1）搜集数据：采样、实验设计（2）分析数据：建模、知识发现、可视化（3）进行推理：预测、分类

常见的统计方法有:回归分析（多元回归、自回归等）判别分析（贝叶斯判别、费歇尔判别、非参数判别等）聚类分析（系统聚类、动态聚类等）

2023/2/15统计学习理论的发展VladimirN.Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题，由于当时这些研究尚不十分完善，在解决模式识别问题上趋于保守，且数学上比较艰涩，而直到90世纪以前并没有能够将其理论付诸实现的较好方法，直到90年代中，有限样本情况下的机器学习理论逐渐成熟起来，形成了一个完善的理论体系---统计学习理论（StatisticalLearningTheory简称SLT)2023/2/16统计学习理论统计学习理论是小样本统计估计和预测学习的最佳理论。统计识别模式问题可以看作一个更广义问题的特例，就是基于数据的机器学习问题。假设输出变量Y与输入变量X之间存在某种对应的依赖关系,即一未知概率分布F(X,Y)，F(X,Y)反映了某种知识。学习问题可以概括为:根据l个独立同分布(independentlydrawnandidenticallydistributed)的观测样本trainset，

(x1,y1),(x2,y2),…,(xn,yn)

2023/2/17函数估计模型学习样本的函数:GSLMxyy^y-输出系统学习机预测输出假设输出变量Y与输入变量X之间存在某种对应的依赖关系,即一未知概率分布F(X,Y)，学习问题可以概括为:根据n个独立同分布(的观测样本训练集，

(x1,y1),(x2,y2),…,(xn,yn)

机器学习就是根据上面的n个独立同分布的观测样本，在一组函数{f(x,w)}求一个最优的函数{f(x,w0)},使期望风险最小。2023/2/18期望风险学习到一个假设H=f(x,w)作为预测函数,其中w是广义参数.它对F(X,Y)的期望风险R(w)是(即统计学习的实际风险)：

其中，{f(x,w)}称作预测函数集，w为函数的广义参数，故{f(x,w)}可以表示任何函数集。L(y,f(x,w))为由于用f(x,w)对y进行预测而造成的损失。不同类型的学习问题有不同形式的损失函数。

2023/2/19有三类基本的机器学习问题，它们是模式识别，函数逼近和概率密度估计。对于模式识别问题（这里仅讨论监督模式识别问题），系统输出就是类别符号。在这两类情况下，y={0,1}or{-1,1}是二值函数，这时预测函数称作指示函数，基本定义是：在这个预测函数中期望风险就是平均错误率，使它最小的模式识别方法就是贝叶斯决策在函数拟合问题中，y是连续变量（设为单值）是x的函数损失函数定义为2023/2/110预测函数实际上，只要把函数的输出通过一个域值转化为二值函数，函数拟合问题就变成模式识别问题了。对概率密度估计问题，学习的目的是根据训练样本确定x的概率分布。记估计的密度函数为p(x,w),则损失函数定义为2023/2/111

而对训练集上产生的风险Remp(w)被称为经验风险(学习的训练误差)也就是用算术平均的方法来逼近期望风险:

经验风险由于Remp(w)是用已知的训练样本（即经验数据）定义的，因此称为经验风险，用对参数w求经验风险Remp(w)的最小值代替求期望风险R(w)的最小值，就是所谓的经验风险最小化（ERM)原则.2023/2/112经验风险最小化首先Remp(w)和R(w)都是w的函数，传统概率论中大数定理只说明了(在一定条件下)当样本趋于无穷多时Remp(w)将在概率意义上趋近于R(w)，却没有保证使Remp(w)最小的点w*与使R(w)

最小的w’*是同一个点(同步最小)，更不能保证Remp(w*)能够趋于Remp(w’*)。其次，即使我们有办法找到这些条件在样本数无穷大时得到保证，我们也无法认定这些前提下得到的经验风险最小化方法在样本数有限时仍能得到最好的结果。2023/2/113根据统计学习理论中关于函数集的推广性的界的结论，对于两类分类问题中的指示函数集f(x,w)的所有函数(当然也包括使经验风险最小的函数)，经验风险Remp(w)和实际风险R(w)之间至少以不下于1-η(0≤η≤1)的概率存在这样的关系:

经验风险2023/2/114过学习在早期的神经网络研究中，人们总是把注意力集中到如何使Remp（w)最小，但很快发现，一味的训练误差小并不是总是能达到很好的预测效果，人们将学习机器对未来输出进行正确预测能力称为推广性，某些情况下，当训练误差过小反而会导致推广能力的降低，这几乎是所有神经网络遇到的所谓的过学习问题（overfitting）。从理论上看模式识别也存在同样的问题，但因为所用的分类器模型是相对比较简单的，所以学习问题不像神经网络出。之所以出现过学习现象，一是因为学习样本不充分，二是学习机器设计不合理，这两个问题是相互关联的2023/2/115

一般的学习方法(如神经网络)是基于Remp(w)最小,满足对已有训练数据的最佳拟和,在理论上可以通过增加算法（如神经网络）的规模使得Remp(w)不断降低以至为0。但是,这样使得算法（神经网络）的复杂度增加,VC维h增加,从而φ(h/l)增大,导致实际风险R(w)增加,这就是学习算法的过拟合(Overfitting).

过学习2023/2/116过学习OverfittingandunderfittingProblem:

用几阶分类是合适的underfittingoverfittinggoodfitProblemofgeneralization:一个小的经验风险并不意味着小的期望风险2023/2/117统计学习理论的核心内容统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论。它从理论上较为系统的研究了经验风险最小化原则成立的条件，有限样本下经验风险与期望风险的关系及如何利用这些理论找到新的学习原则和方法等问题，其主要包括下面四个方面（1)经验风险最小化原则统计学习一致性的条件；（2）在这些条件下关于统计学习方法推广性的界的结论；（3)在这些界的基础上建立小样本归纳推理准则（4）实现这些新的原则的实际方法（算法）2023/2/118学习过程的一致性问题学习过程一致性训练样本数n时，有

Remp(w)R(w)，经验风险的最优值可以收敛到真实风险最优值。称该学习过程是一致的，又称该学习过程满足一致性。一个学习过程，只有满足学习过程一致性的条件，才可以保证在经验风险最小化原则下得到的最优方法，在训练样本数n时，得到期望风险最小的最优结果。2023/2/119学习过程的一致性问题期望风险——R(w*|n)，在L(y,f(x,w*|n))下的，由式

得到的真实风险值。如果满足其中为实际真实风险的下确界。则称为经验风险最小化学习过程是一致的。2023/2/120经验风险和真实风险的关系示意图2023/2/121统计学习理论的关键定理如果损失函数有界，则经验风险最小化学习一致的充分必要条件是即经验风险一致收敛于真实风险其中：P —— 表示概率Remp(w)——经验风险R(w) —— 同一w的真实风险2023/2/122函数集的学习性能与VC维为了研究函数集在经验风险最小化原则下的学习一致性问题和一致性收敛速度，统计学习理论定义了一系列有关函数集学习性能的指标。1指示函数集的熵和生长函数设指示函数集和训练样本集为函数集中的函数能够对样本集实现不同的分类方法数目，记为N(Zn)定义1：随机熵将上述不同的分类方法数目的对数定义为随机熵H(Zn)=lnN(Zn)说明：随机熵与分类函数集合有关，且与样本集有关。2023/2/123函数集的学习性能定义2：指示函数的熵将随机熵取期望，称为指示函数的熵H(n)=E[lnN(Zn)]定义3生长函数函数集的生长函数定义为，在所有可能的样本集上的最大随机熵说明：1生长函数描述了函数集把n个样本分成两类的最大可能的分法数目2最大值：3由于是在所有可能的样本集中取最大，因此与样本分布无关。2023/2/124h是函数H=f(x,w)的VC维,l是样本数.

VC维(Vapnik-ChervonenkisDimension)。模式识别方法中VC维的直观定义是：对一个指示函数集，如果存在h个样本能够被函数集里的函数按照所有可能的2h种形式分开，则称函数集能够把h个样本打散。函数集的VC维就是它能打散的最大样本数目h。VC维2023/2/125VC维如果存在有h个样本的样本集能够被函数集中的函数“打散”，而不存在有h+1个样本的样本集能够被函数集中的函数“打散”，则函数集的VC维就是h。如果对于任意的样本数，总能找到一个样本集能够被这个函数集“打散”，则该函数集的VC维就是无穷大。由此：如果对于一个指示函数集，其生长函数是线性的，则其VC维即为无穷大。如果生长函数以参数h的对数函数为上界，则函数集的VC维是有限的且其VC维等于h。由此：由前面的定理，经验风险最小化学习过程一致的充分必要条件是函数集的VC是有限的，且收敛速度是快的。2023/2/126VC维1可以证明，损失函数集与预测函数集2d维空间中的阈值分类器的VC维是d+1有相同的VC维2023/2/127结构风险最小化归纳原则(SRM)结构风险最小化原则首先把函数S={f(x,w),w}.分解为一个函数子集序列S1S2…Sn…S:每个子集的VC维都是有限的且满足h1≤h2≤…≤hn≤…≤hk每个子集中的函数对应的损失函数或者是有界的非负整数或者是一定的参数对(p,k)满足2023/2/128在结构风险最小化原则下，一个分类器设计要包括两方面任务：（1）选择一个适当的函数子集（使之对问题有最优的分类能力）（2）从这个子集中选择一个判别函数（使经验风险最小）结构风险最小化归纳原则(SRM)2023/2/129结构风险最小化归纳原则(SRM结构风险最小化原则给我们提供了一种不同于经验风险最小化的更科学的学习机器设计原则，但是由于其最终目的是在上式中两个求和项之间进行折衷，因此实际上原则并不容易如果能够找到一种子集划分的方法，使得不必足以计算就可以知道每个子集中所取得的最小经验风险（比如所有子集都能把训练样本完全正确分类，即最小经验分线都为0）则上面两步就可以分开进行，即先选择使置信范围最小的子集。然后再其中选择最优函数。可见关键是如何构造函数子集结构，下面我们介绍的支持向量机是一种较好的实现了有序风险最小化思想的方法2023/2/130支持向量机SVM基于统计学习理论的支持向量机(Supportvectormachines,SVM)以其优秀的学习能力受到广泛的关注。但传统支持向量机在处理大规模二次规划问题时会出现训练时间长、效率低下等问题。支持向量机是Vapnik等人于1995年首先提出的它是基于VC维理论和结构风险最小化原则的学习机器。它在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势,并在一定程度上克服了维数灾难和过学习等传统困难,再加上它具有坚实的理论基础,简单明了的数学模型,使得支持向量机从提出以来受到广泛的关注,并取得了长足的发展。2023/2/131最优分类面与支持向量设线性可分样本集为d维向量，2类样本，y为类别标签，则线性判别函数为分类面方程为2023/2/132最优分类面与支持向量作判别函数归一化，即满足|g(x)|1，即距离分类面最近的样本距离为|g(x)|=1，则两类的分类间隔为2/||w||。如图所示分类间隔就是H1和H2之间的距离2023/2/133最优分类面与支持向量最优分类面令分类间隔2/||w||最大，等价于||w||或者||w||2最小，使得分类面对于所有的样本能正确分类，支持向量过两类样本中离分类面最近的点，且平行于最优分类面的超平面H1,H2上的训练样本则称为支持向量，显见，最优分类面是由支持向量来“支撑”的2023/2/134最优分类面与支持向量最优分类面的求取由最优分类面的条件建立目标函数，为二次型由满足条件作为约束条件（样本条件）则有约束优化问题

2023/2/135最优分类面与支持向量由拉格朗日乘子法求解最优分类面的条件。定义拉格朗日函数为式中i>0，为拉格朗日乘子。L对w，b求极小值。由得到最优化条件

2023/2/136最优分类面与支持向量求原约束优化问题的对偶问题，可以得到单一变量的优化函数为（Q的求极大值）如果i*为最优解，则有最优分类面的权系数向量为训练样本向量的线性组合。该最优解满足2023/2/137最优分类面与支持向量因此有：对于多数样本xi来说，i*为零，而不为零的i*对应于使等号成立的样本xi即支持向量。通常支持向量的个数很少。对应于最优权系数向量，则最优分类函数为上式中，只对支持向量进行作求和运算。分类阈值b*则由任意一个支持向量满足等式解出。如何处理高维特征空间中维数灾难?研究发现在特征空间Z中构造最优超平面,并不需要以显式形式来考虑特征空间,而只需要能够计算支持向量与特征空间中向量的内积,但是如何计算特征空间中的内积?SVM不直接进行计算该内积,而是用满足Mercer定理的核函数来代替,如下:2023/2/138Φ(x)·Φ(xj)=K(x·xj)式中,Φ(·)是输入向量到特征空间的一个非线性映射。因此,只要将原空间中对偶问题表达式的内积形式用核函数K(x·xj)代替,即是特征空间中对偶问题的表达形式。2023/2/139广义最优分类面前面的最优分类面式在线性可分条件下推导出来的。不能应用于线性不可分情况。改造。约束条件1：对于线性不可分情况，许多样本不能满足正确分类条件式因此，增加松弛项，分类条件式为约束条件2：线性可分条件下的分类间隔最大，线性不可分时引入约束

在两个约束条件下对错分样本最小函数求极小值

2023/2/140支持向量机SVM支持向量机的数学表达最优分类的优化函数与最优分类函数表达式中都含有内积运算

如果将表达式中的内积运算由内积函数来代替，将原来的特征空间作非线性变换，算法的其他条件不变，这就是SVM.2023/2/141支持向量机SVM使用非线性的内积函数，将输入空间作非线性变换，变换到一个高维空间，然后在高维空间中确定最优分类面。非线性变换是通过定义适当的内积函数实现的,支持向量机的基本思想Mercer条件，对于任意的对称函数K(X,X’),它是某个特征空间的内积运算的充分必要条件是，对于任意的φ（x)不等于0，且K(xi,xj)=φ(xi)•φ(xj),2023/2/142支持向量机的拓扑结构支持向量机的拓扑结构类似一个RBF神经网络。2023/2/143常用的内积函数

常用的内积函数不同的内积函数表现为不同的支持向量机算法，常用的内积函数有以下几类（1）多项式内积函数此时得到的支持向量机是一个q阶多项式分类器（2)采用核函数内积得到的支持向量机是一种径向基函数分类器，它与传统的的径向基函数（RBF)方法的基本区别是，这里每一个基函数的中心对应一个支持量，它们以及输出权重都是由算法自动确定的（3）S型内积函数

则支持向量机实现的就是一个两层的多层感知器的神经网络，只是在这里不但网络的权值，而且网络的隐层节点数目也是由算法自动确定的2023/2/144SVM举例这是一个二维合成的数据实验，图中的小圆圈和点分别表示两类的训练样本，虚线画出了q=2的多项式内积函数求得的支持向量机分类线，而画圆圈的样本点是求得的支持向量，而画叉的样本点为错分的样本。2023/2/145SVM训练算法支持向量机的训练算法归结为求解一个受约束的二次规划问题（QP）问题。对于小规模的QP问题,它体现出了十分优秀的学习能力,但当将其应用到大规模的QP问题时,就会表现出训练速度慢、算法复杂、效率低下等问题。现在主要的训练算法都是将原有大规模的QP问题分解成一系列小的QP问题。但是如何进行分解以及选择合适的工作集是这些算法面临的主要问题,并且这也是各个算法优劣的表现所在。另外一些算法主要是增加函数项、变量或系数等方法使公式变形,使其具有某一方面的优势,或者有一定应用范围。经过上面的讨论,我们知道QP问题的解仅依赖于与支持向量对应的那些训练样本点,但是当训练样本增大时,就会过多占用内存,从而导致训练时间过长和效果不佳,因此设计适合于大量样本的算法成为SVM研究中的重要内容。2023/2/146

SVM算法研究进展chunking算法分解算法SMO算法增量学习方法粒度支持向量机模糊支持向量机2023/2/147粒度支持向量机粒度支持向量机是近年来兴起的一种新的训练算法,它是由Y.C.Tang首先提出来的。它是以粒度计算(GrC)理论和统计学习理论为基础的一种新型学习模型。基本思想是：通过常用的粒划分方法构建粒空间获得一系列信息粒,然后在每个信息粒上进行学习,最后通过聚合信息粒上的信息(如数据、规则、知识、属性等)获得最终的SVM决策函数。这一学习机制通过数据粒化可以将一个线性不可分问题转化为一系列线性可分问题,也就是说将一个大规模的QP问题,通过粒度划分,分解为一系列小的QP问题;同时,也使得数据的泛化性能增强,即可在SVM训练中得到间隔更宽的超平面。2023/2/148粒度支持向量机粒度支持向量机进行粒度划分基于关联规则的粒度支持向量机：其基本思想是通过将径向基核函数进行麦克劳林展开,从展开式中学习关联关系,通过这些关联关系进行粒度划分,进而在各个粒上进行SV训练。基于聚类的粒度支持向量机的基本思想是通过常用的聚类方法对训练样本集进行粒度划分,然后选择包含支持向量较多的粒参与分类或回归。基于熵空间的粒度支持向量机的基本思想是首先对训练样本集进行粗粒度的选择SV,去除一部分对构造最优分类超平面无用的样本点,然后再对粗选后的样本进行细粒度的SV训练2023/2/149模糊支持向量机模糊SVM(FSVM)是将模糊数学和支持向量机相结合的学习方法,主要用来处理训练样本中的噪声数据。基本思想是：计算每个样本属于各类的隶属度,噪声数据属于该类的隶属度较低,由此来降低噪声对最优超平面的影响。模糊支持向量机中,训练数据中多了一项si,它表示样本xi

属于yi

的隶属度。其目标函数变为对偶形式中只是αi的范围变成0≤αi

≤C·si.。FSVM主要存在的问题是如何确定隶属度值,即如何确定各个样本的权重。虽然不少研究者在这方面做了很多的工作,但还没有一个可遵循的一般性准则,这其中主要有两类方法:一类是基于时间序列的度量方法,这类方法以训练样本的采集时间顺序来确定模糊隶属度,然而该类方法缺乏坚实的理论依据,并且仅仅使用于序列学习的情况。另一类是基于样本空间的度量方法,其中比较有代表性的是基于KNN的模糊隶属度度量方法,该方法具有较少的计算量及较强的鲁棒性。2023/2/150SVM应用SVM主要运用在模式分类,回归问题两方面。其中在分类问题中,主要有线性分类和非线性分类,线性分类中又分为线性可分和线性不可分两种情况。线性不可分相对于线性可分来说,就是引入了一个松弛变量ξ。线性分类是在原空间中进行样本分类,而非线性分类是将向量从原空间映射到特征空间,并用核函数代替内积运算,在特征空间中进行样本分类。回归问题是通过把样本集因变量进行上下平移ε,将回归问题转化为分类问题。回归问题有线性回归和非线性回归,非线性回归是在线性回归的基础上引入两个松弛变量ξξ*,来控制误差大小。2023/2/151SVM在性别分类介绍这篇文献主要只有主面部缩略图（不含头发）的性别分类问题的研究。使用这样图片的动机有两个：一，发型很容易改变外观；二，我们希望通过调查最小的面部信息并通过不同分类器来学习男性和女性面部。在以前的性别分类研究实验中使用高分辨率头发的信息和相对较小的数据集的图像。在这篇文献中我们证明SVM分类器能够学习和分类一大组的无头发的低分辨率的图像仍然具有很高的精度。

近年来，支持向量机已经成功地应用于在计算面部处理各种任务。这些

包括人脸检测，人脸姿态识别和人脸识别。在本文中，我们采用支持向量机为图像的性别缩略图脸分类，与传统的分类比较它们的性能（例如，线性，二次，Fisher线性判别，以及最近邻居），也包括更现代的技术RBF网络和大集合-RBF分类器。我们也比较支持向量机分类器的性能到人类测试受试者的高和低分辨率图像。尽管人类能相当不错从普通的照片分辨性别，我们的测试性别表明他们在识别没有头发的高分辨率图像上有困难。然而，人类的性能在高分辨率（6.5％误差）认为是适当的，但下降与低分辨率图像（31％误差）。SVM分类平均误差率的变化可以忽略不计。在我们的研究中，很少或根本没有头发信息在人类使用和机器实验同时使用。这不同于以前的文献，在性别分类中都包括头发信息。2023/2/152背景介绍性别观念和歧视从心理和计算的角度已被研究。尽管性别分类心理学文献已经引起很大关注，但是很少的基于视觉学习方法被提出。Gollomb等训练了完全连接两层神经网SEXNET，来从900张人脸图像中鉴定性别。其上的一组90张照片实验（45男，女45例），得到8.1％的平均错误率相比平均错误率11.6％的研究在五种人类受试者中。CottrellandMetcalfe也将神经网络应用人脸情感和性别分类。一组160张64乘64的人脸图像的维数在自动编码器（10男10女）从4096减少到40。这些载体则表现为输入到另一个层网络进行训练。2023/2/153BrunelliandPoggio发明HyperBF网络进行性别分类，其中两个竞争的RBF网络，一个用于男性，另一个用于女性，使用16种几何特征作为输入进行了训练（例如，瞳孔分离眉，眉厚度，鼻子的宽度）。对168图像数据集的结果（男21例，女21例）显示的平均错误率21％。使用类似的技术如Golombetal.andCottrellandMetcalfeTamuraetal.用于多层神经网络，在多种分辨率（从32×32到8×8像素）对人脸图像进行性别分类。他们对30张测试图像实验表明，其网络能够从8×8的图像确定性别平均错误率是7％。2023/2/154背景介绍Wiskott等人。用于二维视图来描述的面孔标号图，而不是采用了矢量的的灰度级来表示的面。该节点是通过基于小波变换的局部“喷气机”为代表并且边缘被标记相似的距离矢量在几何特征。他们用一小部分男性和女性对编码的遥控模型图为了生成的图表“一般的脸知识”新的面孔由弹性图匹配。对于每一个新的脸，使用中的节点生成复合重建模型图。大多数使用节点的性别在用于分类的复合图像。错误他们的实验对112人脸图像画廊率为9.8％。最近，杜仲等。提出了一种混合动力分类基于神经网络（的RBFs）和电感决策树与昆兰的C4.5算法。实验在3000FERET人进行了面大小64乘72像素。最好平均出错率为4％。2023/2/155性别分类器性别分类器如图1所示输入一个x，输出一个f（x),它的极性或者说符号决定了类的成员，它的幅度可以解释为在做决定时的确定性。几乎所有的二元分类器可以在这些方面加以观察;基于密度分类器（线性，二次和Fisher）的输出函数f（x）是一个对数似然比，而对于基于内核分类器（近邻，RBF和支持向量机的）输出是一个“势场”从相关的距离到分界点。

2023/2/156支持向量机是一种学习算法模式分类和回归。支持向量机基本训练原则是寻求最优线性超平面，使得预期对于看不见的测试样品分类误差最小化-即良好泛化性能。根据该结构风险最小化归纳原则，一个函数，训练数据准确，属于分类一组具有最低VC维函数将产生最好效果不管输入空间的维度。基于这个原理，线性支持向量机的使用系统的方法来找到最低的线性函数VC维。对于线性不可分的数据，可支持向量机（非线性）映射输入到一个可以找到线性超平面高维特征空间，虽然没有保证线性解决方案将一直存在在高维空间中，但是在实践中构建一个工作方案是相当可行的。2023/2/157对于线性支持向量机，核函数只是一个简单的积在输入空间，同时在一个核函数非线性支持向量机通过映射函数（可能是无限的）有效的映射到高维特征空间。然后构造一个超平面在F中。这种映射后面动机是它更有可能找到一个线性超平面在高维特征空间。运用Mercer的定理在预测样品的昂贵的计算就可以通过高维特征空间中的一个非常简单的核函数代替满足条件这里Φ是一个非线性投影功能函数，几个内核函数诸如多项式和径向基函数已经显示出满足Mercer’s原理，并且已经成功地应用到非线性支持向量机。事实上，采用不同的核函数，支持向量机可以实现各种学习机，其中一些与经典建筑重合。然而，自动选择“正确”的核函数及其相关参数的仍然是个问题，一般的在模型选择上要进行反反复复的训练2023/2/158RBF(RadialBasisFunction)径向基函数（RBF）网络也基于一个内核技术改进的综合，但它是基于而不是在正则化理论。一个典型的RBF网络具有K个高斯基函数由下式给出Ci是高斯基函数的中心，σi2是方差，ωi是权值函数，b是偏移项（1）参加训练的高斯RBF网络给定学习任务包括确定的总人数,高斯基函数，定位自己的中心，计算其相应的方差，并解出重量系数和偏差。合适的选择K,Ci，σi能够产生一个在分类和线性回归都很强大的RBF神经网络。（2）在传统的RBF神经网络中径向基函数是预定的，而在大集合RBF网络中数量迭代增加，直到错误降到设定的阈值一下。在这两类情况下，RBF中心可以由k-均值聚类决定。2023/2/159RBF与此相反，一个SVM与同RBF核会自动判断该中心的数目和位置，以及权重和阈值，最大限度地减少一个上界预期风险。最近，Evgeniou等人表明支持向量机与RBF网络可以在一个统一的制定框架中的统计Vapnik统计学习理论。因此，支持向量机提供了较为系统的分类方法相比较于传统的RBF和各种其他的神经网络。2023/2/160FLDFisher线性判别（FLD）在特定的子空间中发现最佳线性投影的一种方法的一个例子，不同于寻找投影能够最大限度地提高预测的方差作为主成分分析，FLD确定投影，Y=WT

FX，即最大化类间之间的比例散射和类内散布。因此，分类被简化到投影空间。考虑一个c类的问题，由类间散布矩阵求出和类内散布矩阵在这里μ是所有平均，μi是第i类的平均，Ni是第i类的样本数目2023/2/161FLD最优投影WF是一个投影矩阵能够最大化类内散射和类间散射的比率，公式如下其中{wi|i=1,2…m}是一组广义SB和SW的特征向量，对应于m个最大广义特征值{λi|i=1,2….m}。但是，SB的秩为c-1或更少，因为它是C矩阵的总和为一级或更小的矩阵。因此，该上界为c-1。为了避免奇点，我们可以先用PCA以降低特征空间到N-C的维数，并且然后用荧光检测器进行降维到c-1。这两步程序是用在计算“的Fisherfaces，比如在我们的实验中，我们使用一个单一的高斯来模拟男性和女性类的分布得到的一维空间。这个样品的类成员能够通过测定用最大后验概率，或等效地通过似然比测试决定。2023/2/162LinearandQuadraticClassiers二次分类器的决策边界是由二次型x中决定的，通过贝叶斯错误而得最小化。假设每个类的分布是高斯，分类器的输出由下式给出其中μi和（i=1,2）是相对应的高斯分布的平均值和方差线性分类器是二次分类的一种特殊形式，假设这样就简化了判别式对于这两种分类器，f(x)的符号决定类成员，也相当于一个似然比检验2023/2/163Experiments2023/2/164Experiments在我们的研究中，256×384像素通过使用自动面部处理系统进行来补偿平移，缩放以及轻微的旋转进行预处理。如上图所示，并使用最大似然估计人脸检测，仿射变形用于几何形状对齐和用于环境照明亮度归一化的变化。输出结果如图“面印痕”被标准化到80×40（满）的分辨率。这些“面印痕”进一步分采样21×12像素“缩略图”为了我们的低分辨率实验。2023/2/165Experiments上图示出了已经加工好的面输出（注意的几个例子这些面孔含有很少或根本没有发信息）。在我们的试验中总共有1755幅缩略图（1044名男性和711女性）。对于每个分类器的平均错误率估计与5-fold交叉验证（CV）-也就是说，5路数据集剖分，4/5用于训练和五分之一用于测试，然后后面四组依次旋转。该训练集的平均大小为1496（793名男性和713只雌性）和测试集的平均大小为259（133雄性和雌性126）

2023/2/166MachineClassication支持向量机分类器最初是随不同的内核进行测试为了探索可能性，

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计学习理论与支持向量机

文档简介

温馨提示

最新文档

评论

统计学习理论与支持向量机

文档简介

温馨提示

最新文档

评论

相关文档