聚类分析的基本理论及应用_第1页
聚类分析的基本理论及应用_第2页
聚类分析的基本理论及应用_第3页
聚类分析的基本理论及应用_第4页
聚类分析的基本理论及应用_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析的基本理论及应用摘要:模式识别是一门以生物体的模式识别能力为基础,以服务智能化发展为目的而建立的学科,它在不断完善、发现自身的同时,也为这些领域带来了很多便捷,奠定了更扎实的基础。本文将探究一种模式识别的理论——聚类分析,并通过聚类分析的三要素进行具体论述;以及这种方法在视觉上为图像处理带来的便捷、在听觉上对音频分解的实现、和在舞台智能控制领域中对虚拟现实的辅助作用和对舞台的智能化监督。关键词:模式识别;聚类分析;色彩保留;语音分离TheBasicTheoryandApplicationofClusterAnalysisAbstract:Patternrecognitionisanewsubjectbasedontheabilityoforganisms’patternrecognitionandaimedattheserviceofdevelopmentofintelligent.Ithasbroughtmanyconveniencesandlaidasolidfoundationforthesefieldswhileconstantlyimprovinganddiscoveringitself.Thisthesiswillexploreamethodofpatternrecognition-clusteranalysis,anddiscussthethreeelementsofclusteranalysisindetail;andthismethodbringsconveniencetoimageprocessingvisually,analysisonspeechsign,andinthefieldofstageintelligentcontrol,theassistantroleofvirtualrealityandtheintelligentsupervisionofstagearediscussed.KeyWords:patternrecognition;clusteranalysis;colorretention;speechseparation引言:在客观世界中,很多生物都具有模式识别的能力,如,海豚通过声纳系统判断距离、犬类通过嗅觉判断物品、燕子通过地形判断方向,等,生物体通过模式识别才能有效感知这个世界。在现代化科学技术不断向前发展的同时,从自动化和计算机技术中衍生出的新学科——模式识别,它是通过计算机实现类生物体的识别模式。下文将具体探讨一种模式识别的理论,聚类分析。这是当无分类限制条件时,分类器主动将样本集进行类别划分的方法。聚类分析有单独的算法,本文将进行具体的介绍,并说明它在视觉、听觉、舞台智能控制中的一些应用。模式识别(PatternRecognition)简单地说,模式识别可以理解为我们通过处理所得信息而判断事物的能力。很多生物都具有模式识别的能力,但生物体要具有模式识别的能力需要长期的学习训练,在体内存在有属于自己的模式判断标准,才能够在遇到事物时,对其基本特征进行信息获取并与自己的模式标准对比,最后判断出该事物。本文所要讲的模式识别是机器的模式识别,它是基于生物体的模式识别能力,通过计算机,即将未知事物向已知信息去靠拢的过程。“Pattern”是指从事物中抽象出的具体特征或有效信息点,而“Recognition”是“再认知”,也就是对所得到的特征点进行再次判断,通过已有的模式信息库比较判断,对新事物进行理解、分类。模式识别是信息学科与人工智能中的一个重要分支,主要用来解决信息分类的问题,尽可能的得到问题的最优解。对于具体的问题,我们可以采用相适应的方法来解决,目前已存在的主要方法有:模板匹配、统计模式识别、聚类分析、模糊模式识别、人工神经网络模式识别、支持向量机和结构模式识别等。而本文我将着重介绍聚类分析这种模式识别理论,以及它在视觉、听觉、舞台智能控制领域中的应用。聚类分析的基本原理聚类分析是在不需要原有的判断标准的情况下,通过对所研究事物的自身特征点进行对比分析,按照这些特征点的相似性去分类的方法。其实就是根据“物以类聚”的思想,具有相似特征的放在一类,不相似的放在一类。如果用散点图表示聚类分析的结果,则点的密度越大的地方,这些物体所具有的相似性就越强,越能够说明整个样本的主要特征。但在聚类分析中特征选择不一样时,得到的分类也会有很大的差异。比如要对如下的几个水果进行分类:在没有特定标准的情况下,仅对我们可以直观了解到的特征点进行罗列分析:草莓完整的暖色调个头小柠檬非完整的暖色调个头中橙子非完整的暖色调个头中菠萝非完整的暖色调个头大苹果完整的冷色调个头中图1可以清楚的看到,若仅按照一个标准去分析,那我们很难确定应该选择怎样的维度对比分类,按照不同的特征分析,所得的样本分类结果会有很大的影响,所以为了区分样本的类别,我们需要先定义模式相似性的测度。相似性的测度模式相似性的测度是用来度量同一类样本间的相似性和不同类样本间的差异性,现有的模式相似性测度大致分为距离测度、相似测度、匹配测度。1.距离测度是距离相似性测度中最常用的,将样本看作特征向量,则对应于特征空间中的一个点,计算在同一个方向上样本间的距离,距离越小,即相似性越大。具体算法有欧式距离、街坊距离、切氏距离、明氏距离、马氏距离等。下文仅具体介绍欧式距离。欧式距离是说在n维空间中两个样本的实际距离。例如:在二维空间中的两个样本X=(x1,x1),Y=(y2,y2)的欧式距离为:

D=在三维空间中的两个样本X=(x1,x2,x3),Y=(y1,y2,y3)的欧式距离为:

D=以此类推,在n维空间中的两个样本X=(x1,y1,…,xn),Y=(y1,y2,…,yn)的欧式距离为:D=在计算出两个样本间的欧式距离后,可选择一个判定标值d,当D≤d时,X和Y就可以被分配到同一类别,否则不能。由欧式距离确定的样本具有平移和旋转不变性。相似测度是以空间中的两个矢量方向的夹角大小作为度量的标准,而与它们的长度没有关系。模式相似性测度可以用角相似性函数、相关系数、指数相似性系数等具体计算公式进行检测。角相似性函数是在测量两个样本的夹角的余弦值之后,来判断他们的贴近程度。D=cos(X,Y)D绝对值始终小于等于1,但在这个范围内,它的值越大,X和Y的相似程度就越大。因该方法与适量的长度无关,所以坐标系的放大、缩小、旋转不会产生影响,但对位移和一般的线性变换不具有不变性。2.匹配测度中需要对样本进行二值特征处理,变为有和无对应于0和1两种状态。对于二值n维特征矢量,可定义其Tanimoto测度:s该方法可用来测量实向量,也可以测量离散值。在遇到具体问题时,选择合适的相似性测度方法,将两个样本量化后便可进行聚类分析。聚类准则在对样本聚类操作后,我们需判断聚类结果的好坏,将真正属于一类的样本放在一起,不同类的样本分开来,提高聚类结果的质量,这就要再声明一个聚类准则函数。使用最多的准则函数是误差平方和准则:对于给定的样本集X{X1,X2,…,Xn},选择合适的相似性测度方法划分为c类{R1,R2,…,Rc},Mi是第i类Ri中的样本的均值向量,把Ri中各样本Xi与均值间的误差平方和对所有类都进行相加即得到误差平方和准则函数:J=在该函数下,J的计算值越小,说明类与类之间的距离越大,J取到最小值时,得到最优聚类解。聚类算法聚类分析的三要素为:相似性测度、聚类准则和聚类算法。下面论述两种聚类算法:分级聚类算法和动态聚类算法。1.聚类分析是把没有类别标志的N个样本分成若干类,将问题极端化,则可将N个样本分成N类,即每个样本自成一类;或者将N个样本分为一类。在分级聚类算法中,即是将N个样本分为c类的过程,第一级划分中把N个样本划分N类,每个样本自成一类;第二级划分为(N-1)类;以此类推,直至划分为c类。下图所示即为该方法的分类树。在得到划分结果后,我们还需检查类与类的间距,以判断划分类的数目是否合理。在这种方法中只要在某一级被归于同一类的样本将在后续划分中一直属于同一类。图2在这种方法中某样本只要被归于一类后将一直伴随这类出现,而在不会再出现再其他类中,所以要求分级分类方法的准确性要很高,并且处理实际问题时有较大的局限性。因此在聚类分析中更加普遍的算法是动态聚类法。2.动态聚类法需要的第一步是要择取几个聚类中心,样本按照某特性分到各类中,分析这个首次分类的合理性,对它修改调整后得到聚类结果。在该方法中,进行首次分类之后,需检查分类是不是合理,这里便涉及到修改分类的方法,于是有了各种聚类算法。下面将介绍一种在上文介绍过的误差平方和准则基础上的算法——c-均值算法。c-均值算法是对于给定的样本集,选定c个初始聚类中心,按照最短距离原则(差平方和准则中计算类间距离的方法之一)将N个样本归至c个类别,再重新计算各类别的中心,调整类别归属,进行算法迭代,最后让各个样本到它所属类别中心的距离平方和变为最小。以下为该算法的流程图以及具体步骤:图3=1\*GB2⑴已知初始样本集X{X1,X2,…,Xn},I表示迭代运算次数,选择c个样本作为初始样本中心ZjI,j=1,2,…,c;=2\*GB2⑵计算各样本与其聚合中心的距离D(Xk,ZjI),K=1,2,…,n,j=1,2,…,c。当该距离取到最小值时,Xk=3\*GB2⑶重新计算c个新的类的中心,ZjI+1=1Nj为第I+1次迭代时归于Rj类的样本数,xkj为第I+1次迭代时归于=4\*GB2⑷当ZjI+1=ZjI该算法比较简单且易于实现,当样本分布为类团状时,聚类结果相对更好。以上就是关于聚类分析的理论基础,该方法无训练过程,训练与识别混合在一起完成,以上简述了该模式识别方法的具体实现过程,下面将谈谈它在视觉、听觉和舞台智能控制领域中的应用。聚类分析的应用聚类分析在视觉上的应用聚类分析在机器视觉上已投入很大的使用,对于图像修复,图像识别等都有很大的帮助。以下的例子用来演示聚类分析再进行图像处理时的应用之一。在很多图像处理软件中,会有一个叫做“颜色保留”的操作,我们只需点取需要保留的色块中的某个点,将会只显示该颜色的区域。在这个操作中,我们所选择保留的颜色有时并不完全相同,但十分的相近,计算机便会把他们归于一类,这里选择一张图片进行一个演示说明:首先打开如下的图片,若我们要保留橙色,在这之前我们可以通过信息查看发现,我们肉眼识别到的这片橙色区域的每个点的RGB值并不完全相同(这也是人眼模式识别中的聚类)。图4图5图6图7图8图9在任意点取一点后进行色彩保留操作,我们可以看到,整片区域都被显色了,而非一些零散的完全相同RGB值的点。图10在一些专业的图像处理软件中,进行色彩保留操作时,会有容差值的设定,也就是在该容差范围内的颜色都会被选中,但大多数的图片编辑软件中并没有此功能,便会用到聚类分析去处理图片,当然,这里不排除有的软件会在系统内部设置固定的容差值。聚类分析在听觉上的应用我们常在拥挤嘈杂的街道,也能够判断并听出哪个是同行的小伙伴的声音,这便是人类聚类分析的强大能力,除了声音的大小,音色更是我们判断的重要特性之一。在机器处理中,很多地方都需要对收集到的音频进行除噪,分离等操作,这里便用到了聚类分析。就拿语音分离来讲,我们可以将几段不同人录制的清晰的音频合为一个音频信号,在不同的信噪比下进行处理分析,尝试将他们分离。通过在每个信噪比下声音的信噪比提升度的差异来实现语音分离。聚类分析在舞台智能控制领域中的应用当前的舞台控制逐渐趋向智能化、自动化,在很多地方也会运用到模式识别。比如在虚拟现实技术的实现过程中,可对舞台上的物品先进行光影捕捉,再通过聚类分析进行定位投影,以在可控范围内达到最优效果。此外,也可通过聚类分析中的分级聚类算法检查舞台机械是否安置到位,并及时检查舞台故障问题。结束语:

本文简要论述了模式识别,并具体研究了聚类分析的三要素:相似性测度、聚类准则和聚类算法。其中相似性测度是用来度量样本与样本间的差异,从而分析样本应该聚集到哪一类中;而聚类准则是通过计算类与类间的距离,判断聚类的结果是否可靠;聚类算法提供了具体的聚类步骤和依据。聚类分析亦或是模式识别,都是在提供一个结果最优化的过程,所以我们也要关注它的结果能带来什么。所以最后提到的聚类分析的应用,论述了聚类分析可在图像处理中实现相似颜色的选定,可通过音频分析进行语音分离,可辅助虚拟现实技术更好的实现,并可对舞台机械起到实时监督作用。该理论具有广泛的使用价值。图片来源说明:图1来源于百度图片搜索;图2来源于《模式识别》(黄凤岗宋克欧编著哈尔滨工程大学出版社)图5-1;图3来源于网络链接/search/detail?ct=503316480&z=0&ipn=d&word=%E5%88%86%E7%BA%A7%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95&step_word=&hs=0&pn=33&spn=0&di=47300&pi=0&rn=1&tn=baiduimagedetail&is=0%2C0&istype=0&ie=utf-8&oe=utf-8&in=&cl=2&lm=-1&st=undefined&cs=3293496608%2C3497033594&os=3078503788%2C4193467982&simid=0%2C0&adpicid=0&lpn=0&ln=803&fr=&fmq=1561531488639_R&fm=&ic=undefined&s=undefined&hd=undefined&latest=undefined©right=undefined&se=&sme=&tab=0&width=undefined&height=undefined&face=undefined&ist=&jit=&cg=&bdtype=0&oriquery=&objurl=http%3A%2F%2F%2Fblog%2F789211%2F201605%2F789211-20160502171125982-1979291802.png&fromurl=ippr_z2C%24qAzdH3FAzdH3Fooo_z%26e3Bvgks52f_z%26e3Bv54AzdH3Fx41wpw-wgwsyftfAzdH3FrAzdH3Fc9cdmcn_z%26e3Bip4s&gsm=0&rpstart=0&rpnum=0&islist=&querylist=&force=undefined图4-图9来源于Photoshop操作颜色吸取截图;图10来源于手机某图片编辑应用软件的色彩保留操作截图。参考文献:1.《模式识别及MATLAB实现》(主编杨杰电子工业出版社)2.《模式识别》(编著黄凤岗宋克欧哈尔滨工程大学出版社)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论