模式分类(通俗导论)_第1页
模式分类(通俗导论)_第2页
模式分类(通俗导论)_第3页
模式分类(通俗导论)_第4页
模式分类(通俗导论)_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、之模式分类模式分类是模式识别的核心。模式分类器贝叶斯决策分类器(是其他的基础)线性分类器非线性分类器事情还没有发生,要求这件事情发生的可能性的大小,是先验概率.事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率. 后验概率是指在得到“结果”的信息后重新修正的概率,如贝叶斯公式中的。是“知果寻因”问题中的果。先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。假设一个学校里有60%男生和40%女生。女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子。一个人在远处随机看到了一个穿裤子的学生。那么这个学生是女生的概率是多少?使用贝叶斯定理,事件A是看到女

2、生,事件B是看到一个穿裤子的学生。我们所要计算的是P(A|B)。P(A)是忽略其它因素,看到女生的概率,在这里是40%P(A)是忽略其它因素,看到不是女生(即看到男生)的概率,在这里是60%P(B|A)是女生穿裤子的概率,在这里是50%P(B|A)是男生穿裤子的概率,在这里是100%P(B)是忽略其它因素,学生穿裤子的概率,P(B) = P(B|A)P(A) + P(B|A)P(A),在这里是0.50.4 + 10.6 = 0.8.根据贝叶斯定理,我们计算出后验概率P(A|B)P(A|B)=P(B|A)*P(A)/P(B)=0.25是男生的P(A|B)= P(B|A)P(A)/P(B)=0.7

3、5.可见,后验概率实际上就是条件概率。1贝叶斯分类器(又称最优分类器) 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。采用贝叶斯分类器必须满足两个先决条件:1.要决策的类别数是一定的。2.各类别总体的概率分布是已知的。综上: 应用贝叶斯规则对模式x进行分类的分类器称为贝叶斯分类器。对于c类分类问题,按照决策规则可以吧特征向量空间(或称模式空间)分成c个决策域,各个决策域的边界称为决策边界。本次不讲用途: 对于线性不可分的样本集应该采用非线性分类器。 近邻域法是一种典型的非线性分类器,也是一种非

4、参数模式识别的方法,与感知器算法一样,也不需要事先给出先验概率和先验概率密度函数等知识,而是直接对样本进行操作。 近邻法将全部样本作为标注样本,根据所使用在待识样本周围的近邻样本个数,又分为最近邻法和k-近邻法 最近邻法在应用中也被称为模板匹配法,在模板匹配法中,已知的样本被称为模板,将待识模式与模板逐一比对,最相近的模板所属的类别就是待识模式的类别。2.对最近法的一个明显的改进是k-近邻法,这个法则就是在X的K个邻域中,按出现最多的样本类别作为X的类别。换言之,就是先对X的K个近邻一一找出他们的类别做出一次表决。上节介绍的模式分类器在学习状态时所利用的样本必须都是已知类别的,因此,这种学习称

5、为有监督学习。但在一些实际的应用中,往往没有已知类别的样本可供利用,甚至将提供的样本应分成几类都不知道。下面要讨论的内容就是将未知类别的样本集划分成若干子集(类),划分的直接成果,完成了样本的分类,可能间接成果是确定了分类器的参数。由于所用样本是没有类别标志的,因此通常称为无监督学习。无监督学习是以“物以类聚”为指导思想的,对未知类别的样本集根据样本之间的相似度分类,相似的归为一类,不相似的归为另一类。故这种模式聚类叫做聚类分析。采用模式聚类,首先要解决两个问题:一是如何衡量两个样本的相似程度(即模式相似性的测度)。二是相似到什么程度归为一类(聚类准则)。坐标系变换坐标系变换旋转旋转平移平移放

6、大和缩小放大和缩小距离相似函数特性不变性不变性不具有不变性角度相似函数特性不变性不具有不变性不变性为了评价聚类结果的好坏,必须定义准则函数。聚类问题模式相似性测度和准则函数聚类就变成是准则函数取极值的优化问题了。模式聚类的三要素: 相似性测度、聚类准则、聚类算法。选定相似性测度和聚类准则后,下面的问题是用什么算法找出使准则函数取极值的最好聚类结果。现有两种聚类算法非迭代的层次聚类算法迭代的动态聚类算法本讲只讲层次聚类算法。层次聚类算法也称系统聚类法、分类聚类法。该方法的流程图:先把所有样本各自视为一类计算类与类的相似性选择相似性最大的一对类别合并成一个新类在新的类别划分下重复合并操作直到满足停

7、止条件。 显而易见层次聚类的性质:在某一级划分时归入同一类的样本,在此后的划分中,他们永远属于同一类。 由上面的讨论可发现层次聚类徐要解决两个方面的问题:一、如何衡量类别的相似性,二、聚类操作应该停留在哪一级上。以N个样本作为N个类别,计算每类间的相似度,形成相似度矩阵在相似度矩阵中寻找最相似的两个类别,将这两类别合并从新计算各类别间的相似度,获得新的相似度矩阵判断是否达到聚类终止的条件,如达到,聚类终止;否则转第二步。一、 二、三、四、C-均值聚类是动态聚类方法的一种动态聚类方法的特点 在于聚类过程中通过不断地迭代来完成,且在迭代中通常容许样本从一个聚合类中转移到另一个聚合类中,动态聚类过程

8、:聚类结果修改聚类聚类初始化文本框聚类合理待聚类的样本合理不合理 C-均值算法的指导思想是假定样本集中的全体样本可分为c类,并选定c个聚类中心,然后根据最小距离原则将每个样本分配到某一类中,之后不断迭代计算各类的聚类中心,并依新的聚类中心调整聚类情况,直到迭代收敛。初始聚类中心的选择(初始聚类中心的选择与聚类结果直接相关):1)根据问题的性质,凭经验选择。2)用前c个样本作为初始聚类中心。3)将全部样本随机分为c类,以每类均值作为初始聚类中心。4)当样本数N较大时,先随机从中选择一部分样本采用层次聚类法将其聚成c类,以每类的均值作为初始聚类中心。K-means聚类算法采用的是将N*P的矩阵X划

9、分为K个类,使得类内对象之间的距离最大,而类之间的距离最小。使用方法:使用方法:Idx = Kmeans(X,K)Idx,C = Kmeans(X,K) Idx,C,sumD = Kmeans(X,K) Idx,C,sumD,D = Kmeans(X,K) = Kmeans(,Param1,Val1,Param2,Val2,)各输入输出参数介绍:各输入输出参数介绍:X N*P的数据矩阵K 表示将X划分为几类,为整数Idx N*1的向量,存储的是每个点的聚类标号C K*P的矩阵,存储的是K个聚类质心位置sumD 1*K的和向量,存储的是类间所有点与该类质心点距离之和D N*K的矩阵,存储的是每个点与所有质心的距离=Kmeans(,Param1,Val1,Param2,Val2,)这其中的参数Param1、Param2等,主要可以设置为如下:1. Distance(距离测度)sqEuclidean 欧式距离(默认时,采用此距离方式)cityblock 绝度误差和,又称:L1cosine 针对向量correlation 针对有时序关系的值Hamming 只针对二进制数据2. Start(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论