




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关于特征的选择与提取特征提取第一张,PPT共九十一页,创作于2022年6月学习指南 前面章节讨论的问题主要讨论模式识别的重要概念 贝叶斯分类器、线性分类器、非线性分类器、KNN等 设计分类器时的讨论问题在d维特征空间已经确定的前提下,讨论分类方法与分类器设计即:对要分类的样本怎样描述这个问题是已经确定的第二张,PPT共九十一页,创作于2022年6月学习指南 前面章节讨论的问题例如对苹果与梨的划分问题我们使用尺寸、重量和颜色三种度量来描述这种度量方法是已经确定好的在这种条件下研究用线性分类器好还是非线性分类器好,以及这些分类器的其它设计问题 第三张,PPT共九十一页,创作于2022年6月学习指南
2、 本章讨论的问题对已有的特征空间进行改造,着重于研究对样本究竟用什么样的度量方法更好譬如用三种度量来描述苹果与梨那么是否运用这三种度量是最有效的呢?颜色:这一个指标对区分红苹果与梨很有效区分黄苹果与梨就会困难得多即,这个指标就不很有效了 第四张,PPT共九十一页,创作于2022年6月学习指南 本章讨论的问题使用什么样的特征描述事物,也就是说使用什么样的特征空间是个很重要的问题由于对特征空间进行改造目的在于提高其某方面的性能,因此又称特征的优化问题 第五张,PPT共九十一页,创作于2022年6月学习指南 降维主要有两种途径 对特征空间的改造、优化、主要的目的是降维,即把维数高的特征空间改成维数低
3、的特征空间 ,降维主要有两种途径 特征的选择:一种是删选掉一些次要的特征问题在于如何确定特征的重要性,以及如何删选特征的提取:另一种方法是使用变换的手段,在这里主要限定在线性变换的方法上,通过变换来实现降维第六张,PPT共九十一页,创作于2022年6月本章重点 1弄清对特征空间进行优化的含义2对特征空间进行优化的两种基本方法特征选择与特征的组合优化3对特征空间进行优化的一些常用判据4利用线段变换进行特征空间优化的基本方法,第七张,PPT共九十一页,创作于2022年6月本章知识点 第八张,PPT共九十一页,创作于2022年6月8.1 基本概念已经讨论的问题是在d维特征空间已经确定的前提下进行的讨
4、论的分类器设计问题是: 选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题另一个重要问题如何确定合适的特征空间 如何描述每个样本和每个模式第九张,PPT共九十一页,创作于2022年6月基本概念第十张,PPT共九十一页,创作于2022年6月基本概念第十一张,PPT共九十一页,创作于2022年6月基本概念第十二张,PPT共九十一页,创作于2022年6月基本概念问题的重要性如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。 反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分
5、类器的准确性。 第十三张,PPT共九十一页,创作于2022年6月基本概念三个不同的层次描述1.物理量的获取与转换 指用什么样的传感器获取电信号摄取景物则要用摄像机 文字与数字识别首先要用扫描仪等设备 手写体文字所用传感器与印刷体文字也很可能不同 这些都属于物理量的获取,并且已转换成电信号,为计算机分析打下了基础 对从传感器中得到的信号,可称之为原始信息它要经过加工、处理才能得到对模式分类更加有用的信号第十四张,PPT共九十一页,创作于2022年6月基本概念三个不同的层次描述2描述事物方法的选择与设计在得到了原始信息之后,要对它进一步加工,以获取对分类最有效的信息 这部分信息必须对原始信息进行加
6、工,而设计所要信息的形式是十分关键的 例如:对阿拉伯数字的识别可以提出各种不同的想法* 分析从框架的左边框到数字之间的距离变化反映了不同数字的不同形状,这可以用来作为数字分类的依据* 强调分析不同截面的信号,如在框架的若干部位沿不同方向截取截面分析从背景到字,以及从字到背景转换的情况第十五张,PPT共九十一页,创作于2022年6月基本概念阿拉伯数字的识别可以提出各种不同的想法第十六张,PPT共九十一页,创作于2022年6月基本概念三个不同的层次描述2描述事物方法的选择与设计设计对事物的描述方法是充分发挥设计者智慧的过程 这个层次的工作往往因事物而易,与设计者本人的知识结构也有关 这是一个目前还
7、无法自动进行的过程 这个层次的工作是最关键的,但因为太缺乏共性,也不是本章讨论的内容 第十七张,PPT共九十一页,创作于2022年6月基本概念三个不同的层次描述3.特征空间的优化这个层次的工作发生在已有了特征的描述方法之后,也就是已有了一个初始的特征空间 ,如何对它进行改造与优化的问题所谓优化是要求既降低特征的维数,又能提高分类器的性能 ,这就是本章着重讨论的问题这里讨论的是一些不同模式识别系统中具有共性的问题,特征选择与特征提取 第十八张,PPT共九十一页,创作于2022年6月基本概念例 用RGB颜色空间和HSI颜色空间 RGB和HSI是两种常用的颜色空间,虽然它们描述颜色的范围是一样的,也
8、有确定的转换关系,但是用这两种不同的特征描述图像,对以后的识别工作会有很大影响 第十九张,PPT共九十一页,创作于2022年6月基本概念第二十张,PPT共九十一页,创作于2022年6月基本概念特征选择和特征提取对特征空间进行优化有两种基本方法一种为特征选择,一种为特征提取两者区别特征选择: 删掉部分特征特征提取:通过一种映射,也就是说新的每一个特征是原有特征的一个函数 第二十一张,PPT共九十一页,创作于2022年6月基本概念特征选择和特征提取两者区别假设已有D维特征向量空间,特征选择: 样本由d维的特征向量描述: dD 由于X只是Y的一个子集,因此每个分量xi必然能在原特征集中找到其对应的描
9、述量xiyj 第二十二张,PPT共九十一页,创作于2022年6月基本概念特征选择和特征提取两者区别假设已有D维特征向量空间,特征提取 : 找到一个映射关系: A:YX 使新样本特征描述维数比原维数降低。其中每个分量xi是原特征向量各分量的函数,即第二十三张,PPT共九十一页,创作于2022年6月基本概念特征选择和特征提取两者区别因此这两种降维的基本方法是不同的。在实际应用中可将两者结合起来使用,比如先进特征提取,然后再进一步选择其中一部分,或反过来。第二十四张,PPT共九十一页,创作于2022年6月8.2 类别可分离性判据为什么需要类别可分离性判据特征选择与特征提取的任务是求出一组对分类最有效
10、的特征 所谓有效是指在特征维数减少到同等水平时,其分类性能最佳 因此需要有定量分析比较的方法, 判断所得到的特征维数及所使用特征是否对分类最有利这种用以定量检验分类性能的准则称为 类别可分离性判据 第二十五张,PPT共九十一页,创作于2022年6月类别可分离性判据为什么需要类别可分离性判据一般说来分类器最基本的性能评估是其分类的错误率 如果能用反映错误率大小的准则,在理论上是最合适的 对错误率的计算是极其复杂的,以至于很难构筑直接基于错误率的判据 为此人们设法从另一些更直观的方法出发,设计出一些准则,用来检验不同的特征组合对分类性能好坏的影响,甚至用来导出特征选择与特征提取的方法这些准则就是类
11、别可分离性判据 第二十六张,PPT共九十一页,创作于2022年6月类别可分离性判据类别可分离性判据的种类基于距离度量的可分性判据 基于概率分布的可分性判据等 第二十七张,PPT共九十一页,创作于2022年6月8.2.1基于距离的可分性判据 基于距离的可分性判据 基于距离度量是人们常用来进行分类的重要依据一般情况下同类物体在特征空间呈聚类状态,即从总体上说同类物体内各样本由于具有共性因此类内样本间距离应比跨类样本间距离小Fisher准则正是以使类间距离尽可能大同时又保持类内距离较小这一种原理为基础的同样在特征选择与特征提取中也使用类似的原理,这一类被称为基于距离的可分性判据。第二十八张,PPT共
12、九十一页,创作于2022年6月基于距离的可分性判据基于距离的可分性判据在讨论Fisher准则时曾用过两个描述离散度的矩阵 一个是类间离散矩阵Sb 另一个是类内离散度矩阵SW SWS1+S2 第二十九张,PPT共九十一页,创作于2022年6月基于距离的可分性判据基于距离的可分性判据如果推广至c类别情况 其中 为所有样本的总均值向量,Pi表示各类别的先验概率,Ei表示i类的期望符号。第三十张,PPT共九十一页,创作于2022年6月基于距离的可分性判据1 计算特征向量间平均距离的判据该式可写成在欧氏距离情况下有 第三十一张,PPT共九十一页,创作于2022年6月基于距离的可分性判据1 计算特征向量间
13、平均距离的判据利用均值向量 与总均值向量 ,有第三十二张,PPT共九十一页,创作于2022年6月基于距离的可分性判据2 考虑类内类间欧氏距离的其它判据判据Jd(X)是计算特征向量的总平均距离以下一些判据则基于使类间离散度尽量大,类内离散度尽量小的考虑而提出:第三十三张,PPT共九十一页,创作于2022年6月8.2.2 基于概率分布的可分性判据 基于概率分布的可分性判据 上一节讨论的是样本在特征空间的分布距离作为特征提取的依据。 该种原理直观,计算简便。 但是这种原理没有考虑概率分布,因此当不同类样本中有部分在特征空间中交迭分布时,简单地按距离划分,无法表明与错误概率之间的联系。基于概率分布的可
14、分性判据则依据如下观察到的现象。 第三十四张,PPT共九十一页,创作于2022年6月8.2.2 基于概率分布的可分性判据 基于概率分布的可分性判据 观察现象:不考虑各类的先验概率,或假设两类样本的先验概率相等第三十五张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据基于概率分布的可分性判据 观察现象如果两类条件概率分布互不交迭,即对p(X|2)0处都有p(X|1)0,则这两类就完全可分;另一种极端情况是对所有X都有p(X|1)p(X|2),则两类就完全不可分。第三十六张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据基于概率分布的可分性判据 因此人们设计出与概率
15、分布交迭程度有关的距离度量方法,这些距离Jp有以下几个共同点:1.Jp是非负,即Jp02.当两类完全不交迭时Jp达到其最大值3.当两类分布密度相同时,Jp0这种函数的一般式可表示为: 第三十七张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量Bhattacharyya距离和Chernoff界限 Bhattacharyya距离的定义用下式表示 Chernoff界限的定义与其相似,为 因此JB是JC的一个特例 第三十八张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量散度另一种常用的基于概率距离度量的判据是利用似然比或对数
16、似然比。对两类问题,其对数似然比为 如果对某个X, ,则 , 反之若两者差异越大,则 的绝对值也大。 第三十九张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量散度以上只是对某一X值而言,为了对整个特征空间概率分布的差异程度作出评价,将对wi类及对wj 的可分性信息分别定义为第四十张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量散度而总的平均可分信息则可表示成 第四十一张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量正态分布时基于概率分布距离度量显然在一般情况下由于概率分布本身
17、的复杂形式,以上这些基于概率分布的距离相当复杂。 下面讨论两类别正态分布时散度判据的表达式 这些判据在概率分布具有某种参数形式,尤其是正态分布时可以得到进一步简化 第四十二张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量正态分布时基于概率分布距离度量设两类别分别表示为 则 第四十三张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量正态分布时基于概率分布距离度量对数似然比第四十四张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量正态分布时基于概率分布距离度量利用矩阵迹的性质ATB=
18、tr(BAT),其中A、B表示向量,上式可改写成第四十五张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量正态分布时基于概率分布距离度量将其代入Iij的计算公式,并化简得第四十六张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量正态分布时基于概率分布距离度量由散度JD的定义 ,得显然,如果两类协方差矩阵相等,则 第四十七张,PPT共九十一页,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量正态分布时基于概率分布距离度量在正态分布时Bhattacharyya距离JB可表示成:第四十八张,PPT共九十一页
19、,创作于2022年6月基于概率分布的可分性判据一些常用的概率距离度量正态分布时基于概率分布距离度量显然,如果两类协方差矩阵相等,则 第四十九张,PPT共九十一页,创作于2022年6月8.2.3基于熵函数的可分性判据我们知道一个样本不同类的后验概率是贝叶斯决策的依据因此在特征空间的任何一点,如果它对不同类别的后验概率差别很大,则为分类提供了很明确的信息 而Shannon信息论定义的熵就可以用来对可分类性作出评价 故这方面可分性判据的定义称之为基于熵函数的可分性判据第五十张,PPT共九十一页,创作于2022年6月基于熵函数的可分性判据基于熵函数的可分性判据分析如果对某些特征,各类后验概率都相等,即
20、此时 这也就是错误率最大的情况。第五十一张,PPT共九十一页,创作于2022年6月基于熵函数的可分性判据基于熵函数的可分性判据分析考虑另一极端,假设能有一组特征使得那末此时的X肯定可划分为i ,而错误率为零 由此可看出,后验概率越集中,错误概率就越小 反之后验概率分布越平缓,即接近均匀分布,则分类错误概率就越大 第五十二张,PPT共九十一页,创作于2022年6月基于熵函数的可分性判据基于熵函数的可分性判据熵 为了衡量后验概率分布的集中程度,可以借助于信息论中熵的概念,制订定量指标。 Shannon熵为 另一常用的平方熵第五十三张,PPT共九十一页,创作于2022年6月基于熵函数的可分性判据基于
21、熵函数的可分性判据两者共性 1.熵为正且对称即函数式内项的次序可以变换不影响熵的值; 2.如 3.对任意的概率分布 第五十四张,PPT共九十一页,创作于2022年6月8.3 特征提取按欧氏距离度量的特征提取方法按概率距离判据提取特征 特征提取方法小结 第五十五张,PPT共九十一页,创作于2022年6月8.3.1按欧氏距离度量的特征提取方法 按欧氏距离度量的特征提取方法 基于距离可分性判据的特征优化过程是通过一个线性变换实现特征提取在这里意味着找到一个线性变换W ,对原始特征向量Y=y1,,yDT实行映射变换W:YX,得到维数减少的向量X = x1,,xdT,即W为Dd矩阵 第五十六张,PPT共
22、九十一页,创作于2022年6月按欧氏距离度量的特征提取方法欧氏距离的判据第五十七张,PPT共九十一页,创作于2022年6月按欧氏距离度量的特征提取方法利用W(Dd矩阵)线形变换后,希望变换后的特征向量能满足使某个准则函数达到极值的要求使用J2判据进行特征提取注意 :如果对特征空间实行一个DD矩阵的非奇异线性变换, J2保持不变第五十八张,PPT共九十一页,创作于2022年6月按欧氏距离度量的特征提取方法例如对原特征空间实行一DD线性变换A 令Sw, Sb为原空间离散度矩阵S*w, S*b为映射后的离散度矩阵,则:S*b= A Sb ATS*w= A Sw AT经变换后的J2变为: J2*(A)
23、=tr(A Sw AT)-1 A Sb AT =tr(AT )-1 Sw-1Sb AT=trSw-1Sb=J2(A)第五十九张,PPT共九十一页,创作于2022年6月按欧氏距离度量的特征提取方法使用J2判据进行特征提取因而以下讨论的特征提取变换,只考虑是降维的即用Dd矩阵(dD)进行变换其目的是在维数d的条件下,使相应的判据为最大 第六十张,PPT共九十一页,创作于2022年6月按欧氏距离度量的特征提取方法使用J2判据进行特征提取将J2判据表示成变换W的函数令Sw, Sb为原空间离散度矩阵,S*w, S*b为映射后的离散度矩阵:S*b= WT Sb WS*w= WT Sw W则经变换后的J2变
24、为: J2 (W)=tr(WT Sw W)-1 WT Sb W第六十一张,PPT共九十一页,创作于2022年6月按欧氏距离度量的特征提取方法使用J2判据进行特征提取求使J2(W)最大的W解可利用特征值方法对W的各分量求偏导数,并另其为零,可以确定W值。结论: 对J2 , J2 , J5来说,使判据达到最大的变换W如下:设矩阵Sw-1Sb的本征值为1, 2 D,按大小顺序排列为: 1 2 D,第六十二张,PPT共九十一页,创作于2022年6月按欧氏距离度量的特征提取方法使用J2判据进行特征提取则选前d个本征值对应的本征向量作为W即: W =1, 2 d此时: J2 (W) = 1+ 2 + +
25、d第六十三张,PPT共九十一页,创作于2022年6月按欧氏距离度量的特征提取方法例 协方差矩阵是:给定先验概率相等的两类,其均值向量分别为:求用J2判据的最优特征提取 第六十四张,PPT共九十一页,创作于2022年6月按欧氏距离度量的特征提取方法例解: 根据前面的分析,应先求 再求此矩的特征矩阵 今有混合均值 类间离散度矩阵: 第六十五张,PPT共九十一页,创作于2022年6月按欧氏距离度量的特征提取方法例解: 则 类内离散度矩阵 第六十六张,PPT共九十一页,创作于2022年6月按欧氏距离度量的特征提取方法例解: 需求 的特征值矩阵 的秩是1 只有一个非零特征值 解方程:得到因此利用W向量对
26、原始的两维样本进行线性变换,得到新的一维分布,特征空间从两维降到一维,并满足J2判据。第六十七张,PPT共九十一页,创作于2022年6月8.3.2按概率距离判据提取特征 这一节只是在正态分布条件下的一种特殊情况进行分析,不作基本要求。 第六十八张,PPT共九十一页,创作于2022年6月8.3.3 特征提取方法小结特征提取方法从其工作原理来看可以分成两大类对样本在特征空间分布的距离度量其基本思想是通过原有特征向量线性组合而成新的特征向量做到既降维,又能尽可能体现类间分离,类内聚集的原则 第六十九张,PPT共九十一页,创作于2022年6月特征提取方法小结对样本在特征空间分布的距离度量在欧氏距离度量
27、的条件下所提出的几种判据都是从这一点出发的 第七十张,PPT共九十一页,创作于2022年6月特征提取方法小结从概率分布的差异出发,制订出反映概率分布差异的判据,以此确定特征如何提取 这类判据由于与错误率之间可能存在单调或上界关系等,因此从错误率角度考虑有一定的合理性 但是使用这种方法需要有概率分布的知识,并且只是在概率分布具有简单形式时,计算才比较简便 第七十一张,PPT共九十一页,创作于2022年6月特征提取方法小结从概率分布的差异出发,制订出反映概率分布差异的判据,以此确定特征如何提取熵概念的运用是描述概率分布另一种有用的形式 利用熵原理构造的判据,进行特征提取 第七十二张,PPT共九十一
28、页,创作于2022年6月特征提取方法小结各个方法中都有一个共同的特点 即判别函数的极值往往演变为找有关距阵的特征值与特征向量,由相应的特征向量组成坐标系统的基向量 计算有关矩阵的特征值矩阵与特征向量,选择前d个大特征值,以它们相应的特征向量构成坐标系统 这是大部分特征提取方法的基本做法。特征选择方法不相同第七十三张,PPT共九十一页,创作于2022年6月特征提取方法小结在特征提取方法中希望所使用的各种判据能够满足以下几点要求: (1) 与错误概率或其上界或下界有单调关系 (2) 判据在特征独立时有可加性 第七十四张,PPT共九十一页,创作于2022年6月特征提取方法小结在特征提取方法中希望所使
29、用的各种判据能够满足以下几点要求:(3)可分性判别应满足可分性,及对称性 第七十五张,PPT共九十一页,创作于2022年6月特征提取方法小结在特征提取方法中希望所使用的各种判据能够满足以下几点要求:(4) 单调性是指维数增多时,判据值不应减少。 第七十六张,PPT共九十一页,创作于2022年6月主成分分析PCAPrinciple Component Analysis通过k-l变换实现主成分分析第七十七张,PPT共九十一页,创作于2022年6月K-L变换特征提取思想用映射(或变换)的方法把原始特征变换为较少的新特征降维主成分分析(PCA)基本思想进行特征降维变换,不能完全地表示原有的对象,能量总会有损失。希望找到一种能量最为集中的的变换方法使损失最小第七十八张,PPT共九十一页,创作于2022年6月K-L变换原始输入: x变换后特征:y变换矩阵(线性变换):A则:y=ATx第七十九张,PPT共九十一页,创作于2022年6月K-L变换思考:希望特征之间关联性尽可能小变换后的相关矩阵:RyEyyT =EATxxTA =ATRxA我们是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 石厂合伙合同范本
- 养殖水产配送合同范本
- 加工担保合同范本
- 合同采购框架合同范本
- 合资买车合同范本
- 化妆培训教学合同范本
- 屋宇出租合同范本
- 2025年国家免疫规划用疫苗项目合作计划书
- 名宿房间预售合同范本
- 静电地板购销合同范本
- 图书馆、情报与文献学:图书馆学考点(题库版)
- 专题09:散文阅读(解析版)-2022-2023学年七年级语文下学期期中专题复习(江苏专用)
- 医美机构客户满意度调查表
- clsim100-32药敏试验标准2023中文版
- LNG加气站质量管理手册
- 2 我多想去看看(课件)-一年级下册语文
- 《肺癌课件:基本概念与临床表现》
- 产品九宫格产品卖点课件
- 政府采购汽车采购竞争性谈判文件
- 新生儿休克的早期识别
- 小班音乐教案及教学反思《小动物怎样叫》
评论
0/150
提交评论