模式识别课程报告(矿大)_第1页
模式识别课程报告(矿大)_第2页
模式识别课程报告(矿大)_第3页
模式识别课程报告(矿大)_第4页
模式识别课程报告(矿大)_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 中国矿业大学 级本科生课程报告课程名称 模式识别 报告时间 2014-6-14 学生姓名 学 号 专 业 任课教师 任课教师评语任课教师评语(对课程基础理论的掌握;对课程知识应用能力的评价;对课程报告相关实验、作品、软件等成果的评价;课程学习态度和上课纪律;课程成果和报告工作量;总体评价和成绩;存在问题等):对课程基础理论的掌握;对课程知识应用能力的评价;对课程报告相关实验、作品、软件等成果的评价;课程学习态度和上课纪律;课程成果和报告工作量;总体评价和成绩;存在问题等成 绩: 任课教师签字: 年 月 日摘要支持向量机是一种有监督学习方法,可被广泛应用于统计分类以及线性回归。vapnik等人

2、在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机。本次课题的选择来源于一次模式识别的实验,在该课题中对实验进行了扩展,从线性可分的数据样本集扩展到了线性不分的数据样本集。在本次报告中,将着重介绍使用支持向量机对线性不可分样本的分类方法。开发环境使用的是matlab。为了更直观、更清晰地支持向量机的原理和强大功能,报告中将介绍一个验证性实验,从实例中表现实验结果。通过实验,最后得出结论:支持向量机在解决线性不可分样本集的分类问题上具有超强的本领。abstractsuppo

3、rt vector machine is a kind of supervised learning method, which can be widely used in statistical classification and linear regression. vapnik et al study theory is another design criterion of optimal linear classifier is proposed in years of research and statistics. the principle from the linear s

4、eparable about, and then extended to linear inseparable case. even extended to the use of nonlinear function, this classifier called support vector machine.select a source of this subject in an experimental pattern recognition, in this topic has been extended to experiment, from linearly separable d

5、ata set is extended to the linear regardless of the data set. in this report, will focus on support vector machine classification method using the linear inseparable samples.development environment using matlab. in order to more intuitive, more clearly the principle of support vector machine and pow

6、erful functions, the report will introduce a verification experiment, performance results from the instance.through the experiment, finally draws the conclusion: support vector machine has strong ability in classification problem solving linear inseparable sample set.关键词:svm;matlab;线性不可分;高维。 目 录1.引言

7、12.原理分析13.理论说明34.实现步骤流程45.实验设计和结果分析46.结论61. 引言分类问题大体有三种类型,以我们第一次模式识别实验中的两种分类为例来说,很容易用一条直线把训练样本集正确地分开,即两类点分别在直线的两侧,没有错分点,这类问题称为线性可分问题;用一条直线也能大全上把训练样本集正确分开,仅有较少的错分点,这类问题称为近似线性可分问题;当用一条直线,无论怎么放都会产生很大误差时,这类问题称为线性不可分问题。在感知准则函数实验中,虽然实验数据是想让我们实现近似线性划分,而我们所完成的也仅仅是最简单的线性划分。对于线性不可分样本集的分类问题,感知准则函数就有些吃力了,而支持向量机

8、在处理这方面问题时有着得天独厚的优势。此外,支持向量机在解决小样本、高维模式识别问题方面,也表现出超强的本领。2. 原理分析对于线性可分问题,svm的方法与感知准则函数的方法相同,都是着重去找最优分类面。如下图所示:图1 线性可分情况下的最优分类线 为将两类完全正确分开的分类线,和分别为过两类样本中离分类线最近的点且平行于分类线的直线,也称为支撑线,和之间的距离即为两类的分类间隔。最优分类线不但能将两类样本无错误地分开,而且要能使两类的分类间隔最大。前者是保证经验风险最小,在线性可分的情况下,没有错分样本,经验风险为0,后者实际上是为了使推广性的界中的置信区间最小,从而使期望风险最小,这是结构

9、风险最小化原则的具体实现。对于线性不可分问题,经验风险不为0,因此需要从srm原则的一般性概念来构造学习机,也就是首先找能使得经验风险和置信范围的和最小的某个子集,然后在这个子集中最小化经验风险。用松弛变量来表示经验风险: ,i= 1,2,l (2.1)这样,经验风险就可表示为: (2.2)给定样本数据之后,在容许结构的某个子集下最小化经验风险。最小化泛函: (2.3)约束条件: 等价约束条件: (2.4)求解这个优化问题的技术与上面线性可分的情况相似,原问题的对偶形式为: (2.5)约束条件变为: ,i=1,2,l 这样原问题的解为: (2.6)其中c是一个变化的量,由用户在机器进行学习前指

10、定。对应于线性可分情况下的硬间隔,一般把在线性不可分情况下得到的超平面称为软间隔超平面。支持向量机的高维映射:在低维输入空间向高维特征空间映射过程中,由于空间维数迅速增长,这就使得在大多数情况下难以直接在特征空间计算最优分类面或是计算过于复杂。支持向量机通过定义核函数,巧妙地把这一问题转化到初始空间进行计算。也就是说,虽然将数据映射到了高维空间,但计算还是在低维空间,或者说计算的复杂程度还维持在低维空间没有变。在核函数的定义下,二次规划问题如下: ,i= 1,2,l相应的判别函数式: (2.7)这就是svm方法。这种非线性变换是通过定义适当的核函数来实现的,升维后只是改变了内积运算,并没有使算

11、法复杂性随着维数的增加而增加。3. 理论说明支持向量机(support vector machines,svm),又称支持矢量机,是一种基于统计学习理论的模式识别方法,主要应用于人工智能、模式识别领域。它是继经典的参数统计估计算法、人工神经网络之后的第三种基于数据的机器学习方法。svm的基本思想是:把训练数据集非线性地映射到一个高维特征空间去,通过映射,将原本线性不可分的数据集变成在高维特征空间中线性可分的数据集,随后再利用线性可分的方法进行分类,分完后再返回初始空间。svm基于结构风险最小化理论(srm),即使经验风险与置信范围的和最小化。这需要通过控制两个因素来完成,即经验风险的值和置信范

12、围的值。神经网络采用的是:保持置信范围固定并最小化经验风险。支持向量机采用的是第二种方法:保持经验风险值固定并最小化置信范围。svm的目标就是要根据结构风险最小化的原理,构造一个目标函数将两类模式尽可能地区分开来。svm的理论基础之一vc维理论:对一个指求函数集,如果存在个样本能够被函数集中的函数按所有可能的种形式分开,则称函数集能够把个样本找散,函数数集的vc维是。对于一个指示函数集,如果其生长函数是线性的,则它的vc维为无穷大;而如果生长函数以参数为的对数函数为界,则函数的vc维是有界的且等于。根据统计学习理论中关于函数集的推广性的结论,对于指示函数集,如果损失函数r 取值为0或1,则有如

13、下定理:对于指示函数集中的所有函数,经验风险和实际风险之间至少以的概率满足如下关系。 (3.1)其中,为函数集 的vc维,为训练集规模。由上式可以看出,在学习系统的vc维与训练集规模的比值很大时,即使经验风险较小,也无法保证期望风险较小,即无法保证学习系统具有较好的泛化能力。因此,要获得一个泛化性能较好的学习系统,就需要在学习系统的vc维与训练集的规模之间达成一定的均衡。该定理也被称为推广性的界。这一结论从理论上说明了学习机器的实际风险是由两部分组成的:一部分是经验风险,另一部分是置信范围。4. 实现步骤流程1、选定线性不可分的样本集;2、将数据映射到高维特征空间;3、选择合适的核函数(本实验

14、选的是高斯径向基核函数,2);4、用matlab编程实现算法并输出结果。5. 实验设计和结果分析x1x2y0.50002.000011.00001.000011.00002.500012.00004.000012.00000.500013.00000.500013.00003.500014.00001.500014.00000.500011.50001.5000-11.50002.5000-12.50001.5000-12.50002.5000-12.50003.0000-13.00003.0000-1表1 样本数据图2 初始样本图像图3 分类输出图像:support vectors : 6

15、(40.0%)对于线性不可分的样本集,用直线划分会产生很大的误差,所以必须使用非线性函数,本实验用二次函数将训练样本集分类。由输出图像可知,原本线性不可分的样本集,经svm分类后,以一个椭圆将其正确分类,虚线上的样本为支持向量,虚线为支持分界线。6. 结论svm,这一基于统计学习理论中的经验风险最小化原则的一种机器学习,解决了对非线性函数求解超平面的问题。它的主要思想有两点:1.它是针对线性可分情况进行分析的,对于线性不可分的情况,它运用一步映射,将线性不可分的情况变换为高维线性可分的,从而将复杂的问题简单化。其中核函数的运用无疑是最重要的,它的存在使得升维后计算复杂度并不增加,为升维提供了现

16、实可能性。核函数方法的优点:(1) 减少了直接变换时特征空间的运算,能极大地降低计算的代价,避免了“维灾难”;(2) 采取核函数的方法后,就不必要知道非线性变换函数的开式;(3) 特征空间的维数不受限制;(4) 核函数比较容易确定,只要满足mercer条件的函数都可。另外,svm可以有效地解决小样本、非线性及高维模式识别问题。svm用于模式分类的观点可以简单地阐述为:无论问题是不为线性,选择相应的核函数,均可将输入向量映射到一个高维空;其次,用最优化理论方法寻求最优超平面将两类分开。自20世纪90年代贝尔实验室的vapnik教授首次提出支持向量机的基本理论和概念以来,在国际范围内引起研究支持向

17、量机理论和应用的热潮,各种杂志纷纷撰文介绍svm的内容,许多学者纷纷将svm理论应用于不同领域,如模式识别、回归分析、自动控制、函数逼近等。我国对支持向量机的研究虽略晚于国外,但近年来关于支持向量机理论和应用的研究越来越受到研究者和技术开发界的关注。相信随着支持向量机基本原理、方法和应用技巧的深入研究和发展,其应用范围将越来越广泛。参考文献:1 孙即祥.现代模式识别(第二版)m.北京:高等教育出版社,2008:624650.2 李晶皎.模式识别m.北京:电子工业出版社,2010:149188.3 孙亮.模式识别原理m.北京:北京工业大学出版社,2009:149206.4 丁世飞.人工智能m.北

18、京:清华大学出版社,2011:169181.5 方瑞明.支持向量机理论及其应用分析m.北京:中国电力出版社,2007:165.6 张克.基于地震正演模拟和svm的煤与瓦斯突出危险区预测研究d.徐州:中国矿业大学.7 程凤伟.动态粒度svm学习算法j.模式识别与人工智能,2014,27(4):372376. cheng feng-wei.dynamic grannlar svm learning algorithmj.pattern recognition and artificial intelligence, 2014,27(4):372376.8 田中大.基于emd与lssvm的网络控制系

19、统时延预测方法j.电子学报,2014,42(5):868873. tian zhong-da.time-delay prediction method of networked control system based on emd and ls-svmj.acta electronica sinica, 2014,42(5):868873.9 顾嘉运.基于svm的大样本数据回归预测改进算法j.计算机工程,2014,40(1):161166. gu jia-yun.a modified regression prediction algorithm of large sample data based on svmj.computer engineering, 2014,40(1):161166.10 肖佳林.基于hmm与svm的语言活动栓测j.计算机工程,2014,40(1):203208. xiao jia-lin.voice activity detection based on hmm and svmj.computer engineering, 2014,40(1):203208.附:实验代码clearx1= 0.5000;1.0000;1.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论