哈工大模式识别课程期末总结名师优质课获奖市赛课一等奖课件_第1页
哈工大模式识别课程期末总结名师优质课获奖市赛课一等奖课件_第2页
哈工大模式识别课程期末总结名师优质课获奖市赛课一等奖课件_第3页
哈工大模式识别课程期末总结名师优质课获奖市赛课一等奖课件_第4页
哈工大模式识别课程期末总结名师优质课获奖市赛课一等奖课件_第5页
已阅读5页,还剩118页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工业大学课程总复习第1页主要内容1.关于期末考试/考查2.章节知识点整理第2页21.关于期末考试/考查第3页31.确认考试人员名单;2.考试/考查方式学位课:考试70%+汇报30%;选修课:汇报100%(不用考试)。3.汇报形式(见word文档)4.考试题目(100分)1.简答题(35分)7*5’=35分2.推导题(8分)3.证实题(8分)4.问答题(24分)3*8’=24分5.计算题(25分)9’+8’+8’=25分(记得要带尺子,铅笔,橡皮擦)【关于期末考试】第4页42.章节知识点整理第5页5哈尔滨工业大学第1章模式识别绪论第6页主要内容模式识别基本概念模式识别系统组成模式识别基本问题应用领域小结第7页模式识别系统组成

第8页【模式识别系统组成】1.信息获取:经过测量、采样、量化并用矩阵或向量表示。通常输入对象信息有三个类型:二维图像(文字、指纹、地图、照片等)、一维波形(脑电图、心电图、机械震动波形等)、物理参量和逻辑值(体检中温度、血化验结果等)2.预处理:去除噪声,加强有用信息,并对输入测量仪器或其它原因造成干扰进行处理。3.特征提取与选择:为了实现有效识别分类,要对原始数据进行变换得到最能反应分类本质特征,此过程为特征提取和选择。4.分类决议:在特征空间中用统计方法把被识别对象归为某一类。基本作法是在样本训练集基础上确定某个判决规则,使按这种判决规则对被识别对象进行分类所造成错误识别率最小或引发损失最小。5.后处理:针对决议采取对应行动。信息获取预处理特征提取与选择分类决议后处理模式识别系统组成框图第9页哈尔滨工业大学第2章贝叶斯决议理论第10页主要内容概率论基础知识贝叶斯决议基础知识基于最小错误率贝叶斯决议基于最小风险贝叶斯决议贝叶斯分类器设计正态分布时统计决议小结第11页贝叶斯决议基础知识第12页【贝叶斯决议基础知识】贝叶斯决议理论先验概率:后验概率:类条件概率:贝叶斯公式:第13页基于最小错误率贝叶斯决议第14页【基于最小错误率贝叶斯决议】

(4)第15页【基于最小错误率贝叶斯决议】

第16页【基于最小错误率贝叶斯决议】第17页【基于最小风险贝叶斯决议】概念

决议决议空间前面所讲错误率抵达最小。在一些实际应用中,最小错误率贝叶斯准则并不适合。以癌细胞识别为例,诊疗中假如把正常细胞判为癌症细胞,当然会给病人精神造成伤害,但伤害有限;相反地,若把癌症细胞误判为正常细胞,将会使早期癌症患者失去治疗最正确时机,造成验证后果。第18页【基于最小风险贝叶斯决议】数学描述

第19页【基于最小风险贝叶斯决议】期望风险:条件期望损失:目标:期望风险最小化第20页【基于最小风险贝叶斯决议】最小风险贝叶斯决议规则:

第21页【基于最小风险贝叶斯决议】算法步骤:

第22页【基于最小风险贝叶斯决议】例题2:

第23页【基于最小风险贝叶斯决议】第24页【基于最小错误率贝叶斯决议与最小风险贝叶斯决议关系】定理:0-1风险

第25页哈尔滨工业大学第3章概率密度函数预计第26页主要内容

引言参数预计正态分布参数预计非参数预计本章小结第27页参数预计

第28页【参数预计】

最大似然预计贝叶斯预计贝叶斯学习第29页【最大似然预计】基本假设第30页【最大似然预计】基本概念第31页【最大似然预计】基本原理第32页【最大似然预计】预计量预计值第33页【最大似然预计】一元参数第34页【最大似然预计】多元参数第35页【最大似然预计】例子(梯度法不适合):不成功!第36页【贝叶斯预计】采取最小风险贝叶斯决议第37页【贝叶斯预计】第38页【贝叶斯预计】第39页【贝叶斯学习】第40页【三种方法总结】第41页【三种方法总结】第42页哈尔滨工业大学第4章线性判别函数第43页主要内容线性判别函数基本概念Fisher线性判别准则函数感知准则函数最小平方误差准则函数多类问题第44页§4.1.1概念提出【线性判别函数】定义第45页§4.1.1概念提出【线性判别函数】分类决议第46页§4.1.1概念提出【线性判别函数】分析第47页§4.1.1概念提出【线性判别函数】分析说明:判别函数g(x)正比于任意一点x到超平面代数距离。第48页Fisher线性判别准则函数第49页【Fisher线性判别准则函数】概念

应用统计方法处理模式识别问题时,往往碰到维数问题(举例:图像识别),降维是有效方法。考虑到降d维空间样本投影到一条直线上,假如投影到任意一条直线上则可能造成原来有很好区分度样本在直线上线性不可分。所以,直线方向很关键。第50页【Fisher线性判别准则函数】基本思绪Fisher判别基本思想:希望投影后一维数据满足:两类之间距离尽可能远;每一类本身尽可能紧凑。第51页【Fisher线性判别准则函数】第52页【Fisher线性判别准则函数】第53页【Fisher线性判别准则函数】第54页【Fisher线性判别准则函数】第55页哈尔滨工业大学第5章非线性判别函数第56页主要内容基本概念基于距离分段线性判别函数分段线性分类器设计二次判别函数程序设计方法实际应用系统设计研究汇报第57页哈尔滨工业大学第6章特征选择与提取第58页主要内容1.引言2类别可分离性判据3特征选择4.特征提取第59页哈尔滨工业大学第7章近邻法第60页60主要内容0.引言1.近邻法原理及其决议规则2.快速搜索近邻法3.剪辑近邻法4.压缩近邻法第61页611.近邻法原理及其决议规则第62页62【基本原理】最小距离分类器是将各类训练样本划分成若干子类,并在每个子类中确定代表点,普通用子类质心或邻近质心某一样本为代表点。测试样本类别则以其与这些代表点距离最近作决议。该法缺点是所选择代表点并不一定能很好地代表各类,后果将使错误率增加。近邻法基本思想:增加代表点数量有没有可能取得性能好分类器呢?一个极端情况是以全部训练样本作为“代表点”,计算测试样本与这些“代表点”,即全部样本距离,并以最近邻者类别作为决议。此为近邻法基本思想。第63页63【最近邻法决议规则

】若则其中表示是类第

个样本。决议规则为:

定义:将与测试样本最近邻样本类别作为决议方法。对一个

类别问题,每类有个样本,,则第

类判别函数

第64页64最近邻法能够扩展成找测试样本个最近样本作决议依据方法。其基本规则是,在全部个样本中找到与测试样本

个最近邻者;其中各类别所占个数表示成则决议为:【-近邻法决议规则

】注意:

近邻普通采取为奇数,跟投票表决一样,防止因两种票数相等而难以决议。

若则第65页65【问题提出】上述讨论中能够看出,尽管近邻法有其优良品质,不过它一个严重弱点与问题是需要存放全部训练样本,以及繁重距离计算量。但以简单方式降低样本数量,只能使其性能降低,这也是不希望。为此要研究既能降低近邻法计算量与存放量,同时又不显著降低其性能一些改进算法。

改进算法大致基于两种原理。一个是对样本集进行组织与整理,分群分层,尽可能将计算压缩到在靠近测试样本邻域小范围内,防止与训练样本集中每个样本进行距离计算。另一个原理则是在原有样本集中挑选出对分类计算有效样本,使样本总数合理地降低,以同时到达既降低计算量,又降低存放量双重效果。第66页662.快速搜索近邻法第67页673.剪辑近邻法第68页684.压缩近邻法第69页69哈尔滨工业大学第8章主成份分析(PCA)第70页70主要内容1.引言2主成份分析(PCA)3基于K-L展开式特征提取4.应用举例第71页712.主成份分析第72页72依据方差最大化原理,用一组新、线性无关且相互正交向量来表征原来数据矩阵行(或列)。这组新向量(主成份)是原始数据向量线性组合。经过对原始数据平移、尺度伸缩(减均值除方差)和坐标旋转(特征分解),得到新坐标系(特征向量)后,用原始数据在新坐标系下投影(点积)来替换原始变量。一.主成份分析基本原理第73页73主成份分析优点

★它能找到表现原始数据阵最主要变量组合★

经过表示最大方差,能有效地直观反应样本之间关系★

能从最大几个主成份得分来近似反应原始数据阵信息第74页74图像预处理

【人脸识别】第75页75【人脸识别】第76页76【人脸识别】第77页77【人脸识别】第78页78基于PCA构建特征脸空间是对图像进行K-L变换,以去除样本间相关性,然后依据特征值大小选择特征向量。这种方法首先将人脸图像映射为高维空间向量,然后应用基于统计离散K-L变换方法,结构一个各分量互不相关特征空间,即特征脸空间,再将人脸图像在高维空间中向量映射到特征脸空间,得到特征系数。PCA构建特征脸空间第79页79哈尔滨工业大学第9章人工神经网络第80页主要内容1.基础知识2.前馈神经网络3.反馈神经网络4.自组织映射神经网络第81页神经网络学习方法神经网络学习:从环境中获取知识并改进本身性能,主要指调整网络参数使网络到达某种度量,又称为网络训练。学习方式:监督学习非监督学习再励学习学习规则:误差纠正学习算法竞争学习算法第82页4.自组织映射自组织映射Self-OrganizingMap亦称SOFM。Kohonen提出(1980s)第83页SOM用于非监督模式识别自组织学习过程本身就是一个非监督学习过程SOMA(自组织分析)基本思绪:用未知样本集训练SOM;计算象密度图;依据象密度图划分聚类(把结点代表小聚类合并)。特点:对数据分布形状少依赖性;可反应真实存在聚类数目,尤其适合人机合作分析(高维数据有效二维显示)数学上待研究问题多:象密度与样本分布密度之间关系?拓扑保持特征?怎样在SOM平面上聚类?第84页哈尔滨工业大学第10章无监督学习第85页主要内容1.引言2.单峰子集(类)分离方法3.类别分离间接方法4.分级聚类方法第86页监督模式识别:(已知)样本集→训练(学习)→识别(分类)非监督模式识别:(未知)样本集→非监督学习(聚类分析)→后处理【引言】经过寻找可能存在分类来了解某一对象将复杂多样对象用有限经典来代表依据:某种假设(对聚类应含有性质认识)结果:聚类(clusters)属中间结果(数学结果),需经解释赋予物理含义(后处理)应用:复杂系统未知特征分析(举例)航天、航空、航海(详细阐述)直接方法:基于概率密度函数预计

相间接聚类方法:基于样本间似性度量第87页【动态聚类】屡次迭代,逐步调整类别划分,最终使某准则到达最优。三个关键点:①选某种距离作为样本相同性度量②定义某个准则函数,用于评价聚类质量。③初始分类方法及迭代算法C-均值聚类ISODATA聚类惯用算法:第88页【动态聚类】C均值算法第89页【动态聚类】C均值算法第90页【动态聚类】C均值算法初始划分:普通可先选代表点,再进行初始分类。代表点选择方法:1.经验选择2.随机分成c类,选各类重心作为代表点3.“密度”法。计算每个样本一定球形邻域内样本数作为“密度”,选“密度”最大样本点作为第一个代表点,在离它一定距离选最大“密度”点作为第二个代表点,…,依次类推。4.用前c个样本点作为代表点。5.用c−1聚类求c个代表点:各类中心外加离它们最远样本点,从1类开始。第91页【动态聚类】C均值算法初始分类方法:1.最近距离法。离哪个代表点近就归入哪一类。2.最近距离法归类,但每次都重新计算该类代表点。3.直接划分初始分类:每一个样本自成一类,第二个样本若离它小于某距离阈值则归入这类,不然建新类,……4.将特征归一化,用样本各特征之和作为初始分类依据。说明:初始划分无一定之规,多为启发式方法。C均值方法结果受初值影响,是局部最优解。第92页【动态聚类】C均值聚类方法用于非监督模式识别问题:要求类别数已知;是最小方差划分,并不一定能反应内在分布;与初始划分相关,不确保全局最优。C均值算法第93页4.分级聚类方法(HierachicalClustering)第94页【分级聚类方法

】思想:从各类只有一个样本点开始,逐层合并,每级只合并两类,直到最终全部样本都归到一类。Hierarchicaltree--dendrogram聚类过程中逐层考查类间相同度,依此决定类别数第95页树枝长度:反应结点/树枝之间相同度或距离树枝位置:在不改变树结构情况下能够任意调整,调整方法需研究距离/相同性度量:各种选择,如欧式距离、相关、CityBlock、…【分级聚类方法

】第96页距离(相同性度量):样本之间度量聚类之间度量算法(从底向上):(1)初始化,每个样本形成一类(2)把相同性最大(距离最小)两类合并(3)重复(2),直到全部样本合并为两类。【分级聚类方法

】第97页【分级聚类方法

】第98页哈尔滨工业大学第11章含糊模式识别第99页主要内容1.引言2.含糊集基本知识3.含糊特征和含糊分类4.特征含糊评价5.含糊聚类方法6.含糊k近邻分类器第100页【含糊C均值方法(FCM)】C均值算法第101页【含糊C均值】第102页【含糊C均值】第103页【含糊C均值】含糊C均值算法:第104页【改进含糊C均值算法】含糊C均值算法一个缺点:第105页【改进含糊C均值算法】第106页【改进含糊C均值算法】特点AFC有更加好鲁棒,且对给定聚类数目不十分敏感。但有时可能会出现一个类中只包含一个样本情况,可经过在距离计算中引入非线性,使之不会小于革值来改进。

AFC、FCM与C均值一样,依赖于初值。试验效果举例例一:类别重迭及类别不显著情况+:C圴值×:FCMO:AFC第107页【改进含糊C均值算法】正确聚类(C=4)CM聚类(C=3)FCM聚类(C=3)AFC聚类(C=3)例二:给定类别数与实际类别数不一致情况第108页改进含糊C均值算法改进含糊C均值算法较前面提到含糊C均值算法含有更加好鲁棒性,它不但能够在有孤立样本存在情况下得到很好聚类效果,而且能够放松隶属度条件,而且因为放松了隶属度条件,使最终聚类结果对预先确定聚类数目不十分敏感。与确定性C均值算法和含糊C均值算法一样,改进含糊C均值算法依然对聚类中心初值十分敏感,为了得到很好结果,能够用确定性C均值算法或含糊C均值算法结果作为初值。【改进含糊C均值算法】第109页109哈尔滨工业大学第12章统计学习理论第110页主要内容1.统计学习理论2.支持向量机3.核方法第111页2.支持向量机第112页依据统计学习理论,学习机器实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则学习方法只强调了训练样本经验风险最小误差,没有最小化置信范围值,所以其推广能力较差。【基本概念】Vapnik与1995年提出支持向量机(SupportVectorMachine,SVM)以训练误差作为优化问题约束条件,以置信范围值最小化作为优化目标,即SVM是一个基于结构风险最小化准则学习方法,其推广能力显著优于一些传统学习方法。第113页【基本概念】因为SVM求解最终转化成二次规划问题求解,所以SVM解是全局唯一最优解SVM在处理小样本、非线性及高维模式识别问题中表现出许多特有优势,并能够推广应用到函数拟合等其它机器学习问题中Joachims最近采取SVM在Reuters-21578来进行文本分类,并声称它比当前发表其它方法都好第114页【基本概念】因为SVM求解最终转化成二次规划问题求解,所以SVM解是全局唯一最优解SVM在处理小样本、非线性及高维

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论