版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、研究报告题 目 支支持向量机机学习报告告 学 号 学 生 支持向量机机学习报告告支持向量机机方法是建建立在统计计学习理论论的VC 维理论和和结构风险险最小原理理基础上的的,根据有有限的样本本信息在模模型的复杂杂性(即对对特定训练练样本的学学习精度)和和学习能力力(即无错错误地识别别任意样本本的能力)之之间寻求最最佳折衷,以以期获得最最好的推广广能力。支持向量量机SVMM(Suppportt Vecctor Machhine)是AT&TBelll实验室室的VVVapniik提出的的针对分类类和回归问问题的统计计学习理论论。由于SSVM方法法具有许多多优点和有有前途的实实验性能,该该技术已成成为机
2、器学学习研究领领域中的热热点,并取取得很理想想的效果,如如人脸识别别、手写体体数字识别别和网页分分类等。1原理及方方法SVM根据据问题的复复杂性可以以分为线性性可分SVVM和非线线性可分SSVM,其其基本原理理如下:在进行文文本分类的的时候,每每一个样本本由一个向向量(就是是那些文本本特征所组组成的向量量)和一个个标记(标标示出这个个样本属于于哪个类别别)组成。如下: Di=(xii,yi) xi就是是文本向量量(维数很很高),yyi就是分分类标记。 在二元元的线性分分类中,这这个表示分分类的标记记只有两个个值,1和和-1(用用来表示属属于还是不不属于这个个类)。有有了这种表表示法,可可以定义
3、一一个样本点点到某个超超平面的间间隔: yyi(wxxi+b)如果某个个样本属于于该类别的的话,那么么wxi+b0(因因为我们所所选的g(x)=wwx+b就就通过大于于0还是小小于0来判判断分类),而而yi也大大于0;若若不属于该该类别的话话,那么wwxi+bb 核函数矩矩阵K是对对称半正定定的。这个条件也也是充分的的,由Meercerr定理来表表达。Merceer定理:如果函数KK是上的映映射(也就就是从两个个n维向量量映射到实实数域)。那么如果果K是一个个有效核函函数(也称称为Merrcer核核函数),那那么当且仅仅当对于训训练样例,其其相应的核核函数矩阵阵是对称半半正定的。Merceer
4、定理表表明为了证证明K是有有效的核函函数,那么么不用去寻寻找,而只只需要在训训练集上求求出各个,然然后判断矩矩阵K是否否是半正定定(使用左左上角主子子式大于等等于零等方方法)即可可。把一个本来来线性不可可分的文本本分类问题题,通过映映射到高维维空间而变变成了线性性可分的。就像下图图这样: 圆形和方形形的点各有有成千上万万个。现在在想象我们们有另一个个训练集,只只比原先这这个训练集集多了一篇篇文章,映映射到高维维空间以后后(当然,也也使用了相相同的核函函数),也也就多了一一个样本点点,但是这这个样本的的位置是这这样的:就是图中黄黄色那个点点,它是方方形的,因因而它是负负类的一个个样本,这这单独的
5、一一个样本,使使得原本线线性可分的的问题变成成了线性不不可分的。这样类似似的问题(仅仅有少数点点线性不可可分)叫做做“近似线线性可分”的问题。 但这种对噪噪声的容错错性是人的的思维带来来的。由于于原本的优优化问题的的表达式中中,确实要要考虑所有有的样本点点,在此基基础上寻找找正负类之之间的最大大几何间隔隔,而几何何间隔本身身代表的是是距离,是是非负的,像像上面这种种有噪声的的情况会使使得整个问问题无解。这种解法法其实也叫叫做“硬间间隔”分类类法,因为为他硬性的的要求所有有样本点都都满足和分分类平面间间的距离必必须大于某某个值。 仿照人的思思路,允许许一些点到到分类平面面的距离不不满足原先先的要
6、求。由于不同同的训练集集各点的间间距尺度不不太一样,因因此用间隔隔(而不是是几何间隔隔)来衡量量有利于我我们表达形形式的简洁洁。我们原原先对样本本点的要求求是: 意思是说离离分类面最最近的样本本点函数间间隔也要比比1大。如如果要引入入容错性,就就给1这个个硬性的阈阈值加一个个松弛变量量,即允许许因为松弛变变量是非负负的,因此此最终的结结果是要求求间隔可以以比1小。但是当某某些点出现现这种间隔隔比1小的的情况时(这这些点也叫叫离群点),意意味着我们们放弃了对对这些点的的精确分类类,而这对对我们的分分类器来说说是种损失失。但是放放弃这些点点也带来了了好处,那那就是使分分类面不必必向这些点点的方向移
7、移动,因而而可以得到到更大的几几何间隔(在在低维空间间看来,分分类边界也也更平滑)。显然我们们必须权衡衡这种损失失和好处。好处很明明显,我们们得到的分分类间隔越越大,好处处就越多。回顾我们们原始的硬硬间隔分类类对应的优优化问题:|w|2就是目目标函数(当当然系数可可有可无),希希望它越小小越好,因因而损失就就必然是一一个能使之之变大的量量(能使它它变小就不不叫损失了了,我们本本来就希望望目标函数数值越小越越好)。那那如何来衡衡量损失, 其中l都是是样本的数数目。把损损失加入到到目标函数数里的时候候,就需要要一个惩罚罚因子(ccost,也也就是liibSVMM的诸多参参数中的CC),原来来的优化
8、问问题就变成成了下面这这样:一是并非所所有的样本本点都有一一个松弛变变量与其对对应。实际际上只有“离群点”才有,所有有没离群的的点松弛变变量都等于于0(对负负类来说,离离群点就是是在前面图图中,跑到到H2右侧侧的那些负负样本点,对对正类来说说,就是跑跑到H1左左侧的那些些正样本点点)。 二是松弛变变量的值实实际上标示示出了对应应的点到底底离群有多多远,值越越大,点就就越远。 三是惩罚因因子C决定定了重视离离群点带来来的损失的的程度,显显然当所有有离群点的的松弛变量量的和一定定时,定的的C越大,对对目标函数数的损失也也越大,此此时就暗示示着不愿意意放弃这些些离群点,最最极端的情情况是把CC定为无
9、限限大,这样样只要稍有有一个点离离群,目标标函数的值值马上变成成无限大,问题变成无解,这就退化成了硬间隔问题。 四是惩罚因因子C不是是一个变量量,整个优优化问题在在解的时候候,C是一一个必须事事先指定的的值,指定定这个值以以后,解一一下,得到到一个分类类器,然后后用测试数数据看看结结果怎么样样,如果不不够好,换换一个C的的值,再解解一次优化化问题,得得到另一个个分类器,再再看看效果果,如此就就是一个参参数寻优的的过程,但但这和优化化问题本身身决不是一一回事,优优化问题在在解的过程程中,C一一直是定值值。 从大的方面面说优化问问题解的过过程,就是是先试着确确定一下ww,也就是是确定了前前面图中的
10、的三条直线线,这时看看看间隔有有多大,又又有多少点点离群,把把目标函数数的值算一一算,再换换一组三条条直线(你你可以看到到,分类的的直线位置置如果移动动了,有些些原来离群群的点会变变得不再离离群,而有有的本来不不离群的点点会变成离离群点),再再把目标函函数的值算算一算,如如此往复(迭迭代),直直到最终找找到目标函函数最小时时的w。 松弛变量也也就是解决决线性不可可分问题的的方法,核核函数的引引入也是为为了解决线线性不可分分的问题。其实两者者还有些不同。以文文本分类为为例。在原原始的低维维空间中,样样本相当的的不可分,无无论怎么找找分类平面面,总会有有大量的离离群点,此此时用核函函数向高维维空间
11、映射射一下,虽虽然结果仍仍然是不可可分的,但但比原始空空间里的要要更加接近近线性可分分的状态(就就是达到了了近似线性性可分的状状态),此此时再用松松弛变量处处理那些少少数“冥顽顽不化”的的离群点,更加简单有效。 对比复杂的的推导过程程,SVMM的思想确确实简单。是在样本本中去找分分隔线,为为了评判哪哪条分界线线更好,引引入了几何何间隔最大大化的目标标。之后解解决目标函函数的最优优化问题。在解解决最优化化的过程中中,发现了了w可以由由特征向量量内积来表表示,进而而发现了核核函数,仅仅需要调整整核函数就就可以将特特征进行低低维到高维维的变换,在在低维上进进行计算,实实质结果表表现在高维维上。由于于
12、并不是所所有的样本本都可分,为为了保证SSVM的通通用性,进进行了软间间隔的处理理,导致的的结果就是是将优化问问题变得更更加复杂,然然而惊奇的的是松弛变变量没有出出现在最后后的目标函函数中。最最后的优化化求解问题题,也被拉拉格朗日对对偶和SMMO算法化化解,使SSVM趋向向于完美。SVM有如如下主要几几个特点:(1)非非线性映射射是SVMM方法的理理论基础,SVM利利用内积核核函数代替替向高维空空间的非线线性映射;(2)对对特征空间间划分的最最优超平面面是SVMM的目标,最大化分分类边际的的思想是SSVM方法法的核心;(3)支支持向量是是SVM的的训练结果果,在SVVM分类决决策中起决决定作用
13、的的是支持向向量。(44)SVMM 是一种种有坚实理理论基础的的新颖的小小样本学习习方法。它它基本上不不涉及概率率测度及大大数定律等等,因此不不同于现有有的统计方方法。从本本质上看,它避开了了从归纳到到演绎的传传统过程,实现了高高效的从训训练样本到到预报样本本的“转导导推理”,大大简化化了通常的的分类和回回归等问题题。(5)SVM 的最终决决策函数只只由少数的的支持向量量所确定,计算的复复杂性取决决于支持向向量的数目目,而不是是样本空间间的维数,这在某种种意义上避避免了“维维数灾难”。(6)少数支持持向量决定定了最终结结果,这不不但可以帮帮助我们抓抓住关键样样本、“剔剔除”大量量冗余样本本,而
14、且注注定了该方方法不但算算法简单,而且具有有较好的“鲁棒”性性。这种“鲁棒”性性主要体现现在:增、删非非支持向量量样本对模模型没有影影响;支持向量量样本集具具有一定的的鲁棒性;有些成功功的应用中中,SVMM 方法对对核的选取取不敏感两两个不足:(1) SVM算算法对大规规模训练样样本难以实实施由于SSVM是借借助二次规规划来求解解支持向量量,而求解解二次规划划将涉及mm阶矩阵的的计算(mm为样本的的个数),当当m数目很很大时该矩矩阵的存储储和计算将将耗费大量量的机器内内存和运算算时间。针针对以上问问题的主要要改进有有有J.Pllatt的的SMO算算法、T.Joacchimss的SVMM、C.J
15、J.C.BBurgees等的PPCGC、张学工的的CSVMM以及O.L.Maangassariaan等的SSOR算法法(2) 用SVMM解决多分分类问题存存在困难经经典的支持持向量机算算法只给出出了二类分分类的算法法,而在数数据挖掘的的实际应用用中,一般般要解决多多类的分类类问题。可可以通过多多个二类支支持向量机机的组合来来解决。主主要有一对对多组合模模式、一对对一组合模模式和SVVM决策树树;再就是是通过构造造多个分类类器的组合合来解决。主要原理理是克服SSVM固有有的缺点,结结合其他算算法的优势势,解决多多类问题的的分类精度度。如:与与粗集理论论结合,形形成一种优优势互补的的多类问题题的组
16、合分分类器。2试验及分分析2.1liibsvmm自带例子子1用heaart_sscalee测试调整c,分分类准确率率会变化,但但是,变为为100%,我认为为可能是测测试数据和和训练数据据是相同的的数据集引起的。2不同的参参数tt 核函数数类型:核核函数设置置类型(默默认2)0 线性:uv1 多项式式:(r*uv + cooef0)deggree2 RBFF函数:eexp(-r|u-v|22)3 siigmoiid:taanh(rr*uvv + ccoef00)不同的核函函数对分类类准确率的的影响。对于heaart_sscalee不同的核核函数对分分类准确率率的影响不不大,rbbf 核函函数的性
17、能能最好。3调整c和和g以找到最最优的c和和g使分类类正确率最最高调整c和gg得到c=1和g=0.0031255,分类正正确率最高高。2.2wiine数据据集实验1测试wine数数据标签有有三类,各各选取一半半作为测试试集,一半半为训练集集。准确率率并不好。 2不同的的参数tt 核函数数类型:核核函数设置置类型(默默认2)0 线性:uv1 多项式式:(r*uv + cooef0)deggree2 RBFF函数:eexp(-r|u-v|22)3 siigmoiid:taanh(rr*uvv + ccoef00)不同的核函函数对分类类准确率的的影响。多项式和ssigmooid函数数的训练结结果最差
18、。3调整c和和g以找到到最优的cc和g使分类类正确率最最高。调整c和gg得到c=64和和g=0.0000977,分类正确确率最高。3图形化3结论及改改进SVM有如如下主要几几个特点: (1)非线线性映射是是SVM方方法的理论论基础,SSVM用内内积核函数数代替向高高维空间的的非线性映映射;(22)对特征征空间划分分的最优超超平面是SSVM的目目标,最大大化分类间间隔是SVVM方法的的核心; (3)支支持向量是是SVM的的训练结果果,在SVVM分类决决策中起决决定作用 (4)SSVM 是是一种有坚坚实理论基基础的小样样本学习方方法。它基基本上不涉涉及概率测测度及大数数定律等,因此不同同于现有的的
19、统计方法法。从本质质上看,它它避开了从从归纳到演演绎的传统统过程,实实现了高效效的从训练练样本到预预报样本的的“转导推推理”,大大简简化了通常常的分类和和回归等问问题; (5)SSVM 的的最终决策策函数只由由少数的支支持向量所所确定,计计算的复杂杂性取决于于支持向量量的数目,而不是样样本空间的的维数,这这在某种意意义上避免免了“维数数灾难”。 (6)少少数支持向向量决定了了最终结果果,这不但但可以帮助助我们抓住住关键样本本、“剔除除”大量冗冗余样本,而且注定定了该方法法不但算法法简单,而而且具有较较好的“鲁鲁棒”性。SVM不足足: (1) 训练好SSVM分类类器后,得得到的支持持向量被用用来构成决决策分类面面。对于大大规模样本本集问题,SVM训训练得到的的支持向量量数目很大大,则进行行分类决策策时的计算算代价很大大。(2) 用SVVM解决多多分类问题题存在困难难,经典的支支持向量机机算法只给给出了二类类分类的算算法,要解解决多类的的分类问题题。可以通通过多个二二类支持向向量机的组组合来解决决。要针对不同同的问题选选择不同的的核函数。标准的SSVM对噪噪声是不具具有鲁棒性性的,如何何选择合适适的目标函函数以实现现鲁棒
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程承包合同范文
- 关于软件开发合同模板锦集
- 2024年度版权许可使用合同涉及音乐制品2篇
- 画室转让合同 2篇
- 木模板木方采购合同
- 如何在2024年的中秋节作文中描绘月圆之夜
- 管道疏通合同完整版
- 通信工程施工合同范本
- 2024版钢筋混凝土工程质量检测合同2篇
- 鸡苗买卖合同
- 2024年携手共进:驾校合作经营条款
- 痔疮治疗制剂产业链招商引资的调研报告
- DB1506-T 56-2024高品质住宅小区评价标准1106
- 清水混凝土模板施工方案
- 2024年银行考试-兴业银行考试近5年真题附答案
- (四级)品酒师资格认证理论备考试题及答案
- 2023年赣州旅游投资集团社会招聘笔试真题
- 主要负责人和安全生产管理人员安全培训课件初训修订版
- 中国近代人物研究学习通超星期末考试答案章节答案2024年
- 2024年全国半导体行业职业技能竞赛(半导体分立器件和集成电路装调工赛项)理论考试题库(含答案)
- 统编版高中语文教材的“三种文化”内容及价值实现
评论
0/150
提交评论