


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于k-means算法的遥感图像分类
0基于密度函数的聚类分析k-mean是基于分段的聚类算法。该算法简单、快速,是一种得到最广泛使用的聚类算法,在高光谱遥感图像的非监督分类中具有较强的实用性,并表现出明显的优点。K-means以K为参数,把n个对象分为K个类别,以使类内具有较高的相似度、类间的相似度较低。根据一个类别中对象的平均值进行相似度的计算,对大数据集的处理,该算法是相对可伸缩和高效率的。但其缺点也非常明显:①对初始值非常敏感,不同的初始值可能会导致不同的聚类结果;②必须预先设定预计划分类数K。针对K-means的上述弱点,Stephen等提出采用kd-tree为K-means赋初始值。先用kd-tree估计数据在不同位置的密度,再用Katsavounidis算法修正选择K-means的中心值,这种方法采用密度函数确定均值,是通过整个密度函数确定初始中心的比较完整的算法;但这种方法计算复杂、效率不高,而且对高维数据的效果不明显。Lu等用分等级的方法为K-means选择聚类中心,该方法的核心是把聚类看成加权聚类问题,依据分等级的方法可以选择更好的初始中心值;但用该方法采样时容易受到粗差的影响,且效率不高。本文提出的改进的K-means,首先对多光谱数据进行对数变换以突显或强化类型特征;然后进行主成分变换,采用核密度估算第一主成分的概率密度函数;根据概率密度函数确定初始分类数和相应的初始分类中心,通过迭代计算得到最终的分类图。1改进的k-mean算法1.1《m》jmj,当K-means算法是MacQueen于1967年提出的,是至今运用最广泛的聚类算法之一。对于一个观测数据集X=(x1,x2,…,xn),每个观测值是d维的实向量,K-means聚类就是把n个观测值分为K个子集(K≤n),S=(s1,s2,…,sk)。具体过程如下:(1)从全部数据中随机选取K个数据作为初始中心;(2)在第m次迭代中,对任一样本X按如下的方法将其调整到K个类别中的某一类别中。对于所有的i≠j,i=1,2,…,K,如果‖X-Z(m)j(m)j‖<‖X-Z(m)i(m)i‖,则X∈S(m)j(m)j,其中,S(m)j(m)j是以Z(m)j(m)j为中心的类;(3)由过程(2)得到S(m)j(m)j类新的中心Z(m+1)j(m+1)j,即Ζ(m+1)j=1Νj∑X∈S(m)jX(1)式中,Nj为Sj类中的样本数;Z(m+1)j是按照使J最小的原则确定的,J的表达式为J=Κ∑j=1∑X∈S(m)j∥X-Ζj(m+1)∥2(2)(4)对于所有的i=1,2,…,m,如果Z(m+1)i=Z(m)i,则迭代结束,否则转到过程(2)继续进行迭代。1.2算法的效率比较多光谱数据用于分类研究和应用是当今遥感技术热点之一,庞大的数据量往往会降低分类算法的效率。对多(高)光谱数据进行主成分变换,根据各主成分的贡献率选择参与分类的主成分数,既实现了对数据的压缩,也提高了分类效率。为了增强类别差异,一种有效的方法是先对观测数据进行对数变换,然后进行主成分变换,最后再进行分类。1.3概率密度函数的密度在统计学中,核密度估计是一种非参估计随机变量概率密度函数的方法。如果“x1,x2,…xn”~f是互相独立分布的随机样本,那么它的概率密度函数的密度估计近似为ˆfh(x)=1nn∑i=1k(x-xih)(3)式中,k为某种密度核;h为平滑参数(也称为带宽)。通常采用均值为0、方差为单位阵的标准正态分布为密度核,这样密度估计只和参数h相关。有多种选择带宽h的方法,本文采用下面的带宽公式,因为它最接近带宽最优值,即h=δ(43n)15(4)式中,n为样本数;δ为样本标准偏差。1.4初始分类中心的确定改进的K-means算法的具体流程如下:(1)对数化log(xi)→xi;(2)应用1.2节原理进行主成分变换:(U1,U2,…,Uk)Txi→xi;(3)采用核密度估算第一主成分的概率密度函数;依据概率密度函数的峰态确定初始分类数和相应的分类中心;对第一主成分进行K-means分类,获得各类的标签;(4)按照主成分贡献率k∑i=1Si/Ρ∑i=1Si≥85%的要求,选择参与分类的主成分个数;根据流程(3)得到的各类标签,计算多个主成分的初始分类中心;(5)按照K-means分类法进行分类,最后进行分类精度评定。2实验与结果分析2.1遥感测量方法实验区位于亚利桑那州的Maricopa县境内,主要地类包括绿地、水体、道路、裸地和居民建筑用地等。实验采用的遥感数据是2004年3月17日获取的QuickBird多波段图像,图像大小为317像素×315像素,空间分辨率为2.44m,有4个波段(蓝光、绿光、红光和近红外波段)。图1为近红外波段(R)、红光波段(G)、绿光波段(B)组合的假彩色合成图像。2.2基于meas算法的分类方法(1)使用传统的基于均值-方差的K-means方法,对QuickBird原始数据(4个波段)多次采用K-means分类,从中选择结果最优的一个(图2);(2)采用本文提出的改进的K-means算法分类(图3)。相应的精度评价见表1。可以看出,本文提出的改进的K-means算法优于传统的基于均值-方差的K-means算法。基于均值-方差的K-means算法根据分类数据的均值μ和δ方差,将(μ-δ,μ+δ)分成K等分,获得初始分类中心。此方法要求类别之间具有明显的可分性,对于光谱特性相近的两个类别往往存在误分现象。本案例中,这种方法把水域和道路混为一个类。本文提出的改进的K-means通过对数变换强化类型特征(比较原始数据第一主成分密度函数(图4)和对数—主成分变换第一主成分直方图(图5(a)),进一步用对数-主成分变换后的第一主成分密度函数(图5(a))确定初始分类数和相应的类型几何中心,然后用一维K-means法针对第一主成分确定的初始分类标签作为多维K-means方法的初始输入。由于对数-主成分变换后第一主成分最大限度地包含了地物类型信息,峰态更明显,根据其密度函数(图5(a))确定初始分类数(6类:绿地、房屋、裸地1、裸地2、道路和水域)和类型几何中心,避开了随机选取初值,得到的初始标签也最大限度地反映了类型的真实情况。此外,根据主成分贡献率(≥85%)确定的主成分数(第一、二两个主成分),充分利用了多波段信息,压缩了噪声(可以看出图5(c)和图5(d)中第三、四主成分直方图为单峰噪声),因此所得分类结果优于传统的均值—方差K-means算法。3k-me病算法的分类结果(1)K-means分类算法是动态聚类,具有一定的自适应性;但是分类结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专题2.10 函数的综合应用(解析版)-2024年高考数学一轮复习精讲精练宝典(新高考专用)
- 车间地基施工方案
- 景观塔施工方案
- 互联网电商知识培训课件
- 印刷制作设计合同范例
- 吉首售房合同范例
- 2025年英语 英语五官标准课件
- 压手续不押车合同范例
- 脑疝的护理诊断及护理问题
- 丰富多样的幼儿园节日庆典计划
- 路虎卫士说明书
- S7-1200使用SCL语言编程实现数控G代码指令编程控制
- 教学课件:《新时代新征程》
- 交通事故授权委托书样本(通用)正规范本(通用版)
- 2022年福建省公务员录用考试《行测》题
- (新湘科版)六年级下册科学知识点
- 文言文阅读训练:苏轼《刑赏忠厚之至论》(附答案解析与译文)
- 人际关系与沟通技巧-职场中的平行沟通与同事沟通
- 教师系列高、中级职称申报人员民意测评表
- 文件定期审核记录
- 社会稳定风险评估报告-稳评报告
评论
0/150
提交评论