用于高光谱遥感图像分类的空间约束半监督高斯过程方法_第1页
用于高光谱遥感图像分类的空间约束半监督高斯过程方法_第2页
用于高光谱遥感图像分类的空间约束半监督高斯过程方法_第3页
用于高光谱遥感图像分类的空间约束半监督高斯过程方法_第4页
用于高光谱遥感图像分类的空间约束半监督高斯过程方法_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

用于高光谱遥感图像分类的空间约束半监督高斯过程方法

高光谱遥感图像具有非线性、不确定性和模糊性。因此,高光谱遥感图像的分类是遥感信息系统的难题。以往的遥感图像分类可分为无监督分类和监督分类。根据样本数在资源空间中的概率密度函数的基础上,需要大量正确的训练样本。分类精度高。然而,在森林火灾、滑坡、洪水、地震等情况下,无法获得大量用于测量图像的训练样本。因此,遥感图像的监督分类通常是一个小样本问题,导致分类的准确性。此外,可以在遥感图像中获得大量注册的训练样本,这些样本也可以用作分类。不规则分类方法,即聚类法,可以检测遥感图像中的未知类,但不能保证聚类后类别与地球类别之间的正确对应关系。半监督学习方法利用大量无标记样本加上少数带标记样本,可以有效地改善分类和预测精度,有效地克服了有监督和无监督2种分类方法的缺点.一种具有代表性的半监督学习方法是协同训练(co-training)算法.半监督学习方法已经被应用于高光谱遥感图像分类.近年来,半监督核函数方法受到了研究者们越来越多的关注.核函数方法用于高光谱遥感图像分类的优势在于:1)核函数方法将高光谱图像映射到高维空间,在高维空间更易于找到有效的线性分类器,通常可以取得较好的分类效果;2)核函数方法为非参数方法,只需要对少数几个超参数进行学习,速度较快.核函数方法包括:支持向量机(supportvectormachine,SVM),高斯过程(Gaussianprocess,GP)等.目前,Melgani等采用核函数方法来对遥感图像进行分类.在半监督学习中有聚类假设和流形假设2个常用的基本假设.流形假设是指在一个很小的局部邻域内,若样本的特征相似,则样本的类别标记相似,这一假设反映了决策函数的局部平滑性.由于高光谱图像中地物类别的分布具有局部相似的特点,可以采用流形假设.半监督高斯过程的主要优点如下:1)它是一种贝叶斯分类方法,给出了属于某一类的概率和可信度估计;2)它能够直接支持多类分类;3)它可以快速有效地选择多个模型参数.本文根据高光谱遥感图像像素点之间空间局部相关性较强的特性,基于半监督流形假设构造空间约束半监督核函数,提出一种用于高光谱图像分类的空间约束半监督高斯过程方法(spatialsemi-supervisedGaussianprocesses,SSGP).实验结果表明,在只有少量带标记训练样本的情况下,高光谱图像的分类精度和稳定性有明显的提高.1高斯过程和半监测方法1.1高斯过程材料高斯过程是将多元高斯分布推广到无限多个随机变量的形式.高斯过程是随机变量的集合,集合中任意有限个随机变量服从联合高斯分布.例如一个均值为μ、协方差矩阵为Σ的高斯分布可以表示为f=(f1,…,fn)~N(μ,Σ).(1)式中:fi为随机变量.相似地,高斯过程可以由下式表述:f(x)~GP(m(x),K(x,x′)).(2)式中:xi为随机变量;m(x)为均值函数;K(x,x′)为协方差函数,也称为核函数.高斯过程又称为正态随机过程,它是一种普遍存在和重要的随机过程.随机过程是一连串随机事件动态关系的定量描述.输入为X={x1,x2,…,xN},对应的一组随机函数变量为f={f1,f2,…,fN}.在任意时刻去观察随机过程,若随机过程中随机变量的概率分布都满足高斯分布,则该随机过程为高斯过程.1.2基于隐函数的类别预测给定数据集X={Xl,Xu},其中Xl={x1,…,xl}为带标记数据,对应类标记为Yl={y1,…,yl},Xu={xl+1,…,xl+u}为未标记数据.存在一个隐函数f(x)服从高斯过程:f(x,θ)~GP(0,K).其中高斯过程均值为零,K∈R为协方差函数(核函数),θ为协方差函数K的参数.隐函数通过在输入函数和输出函数之间引入“不存在”的中间层函数来建立数学模型.隐性函数f定义了数据集X和类标记集Y之间的映射关系,则相对于隐性函数的类概率可以由下式描述:p(y|f(x))=exp(f(x,y))∑my′=1exp(f(x,y′)).(3)p(y|f(x))=exp(f(x,y))∑my′=1exp(f(x,y′)).(3)式(3)为“Softmax”函数,也称为“Softmax”激活函数,来源于神经网络.它将符号逻辑(logistic)函数推广为多变量形式,也称为多元符号逻辑函数.由于在给定隐性函数时,观测数据是相互独立的,似然函数可以表示为p(y|f)=l+u∏i=1p(yi|fi)=l+u∏i=1g(yifi).(4)p(y|f)=∏i=1l+up(yi|fi)=∏i=1l+ug(yifi).(4)结合高斯过程先验分布p(f)及似然函数p(y|f),可得后验分布:p(f|y,X,θ)=p(y|f)p(f|X,θ)p(y|X,θ).(5)p(f|y,X,θ)=p(y|f)p(f|X,θ)p(y|X,θ).(5)给定测试点数据xt,隐函数f(xt)的值为p(ft|yt,X,θ,xt)=∫p(ft|f,X,θ,xt)×p(f|y,X,θ)df,(6)所以给定测试数据点xt的类别预测概率为p(yt|y,X,θ,xt)=∫p(yt|ft)p(ft|y,X,θ,xt)dft.(7)高斯过程分类问题的基本过程如下:首先对La隐函数f(x)加上高斯过程的先验假设,再通过选用适当的似然函数(如Softmax函数)来描述该映射关系,最终实现对测试样本的类别预测.1.3半监督学习理论标准的半监督学习过程如下:给定特征空间χ,在χ×R上存在概率分布P,每个样本点都是从概率分布中生成的.带标记样本点(x,y)从概率分布P中采样得到,而无标记样本从概率分布P的边缘分布Px中采样得到.考虑边缘分布Px也可以用来进行学习(分类或者回归),就发展出了半监督学习理论.边缘分布Px和条件概率P(y|x)的关系存在2种假设:聚类假设和流形假设.本文采用流形假设.1.4半监督学习中的问题令数据集为X={Xl,Xu},Xl为带标记样本,Xu为未标记样本.通过解决如下正则化问题,可以从标记数据的学习中得到分类器.f=argmin{1ll∑i=1C(f,xi,yi)+Ω(∥f∥Η)}.(8){1l∑i=1lC(f,xi,yi)+Ω(∥f∥H)}.(8)损失函数C反映的是函数f关于数据的匹配程度;函数f在再生核希尔伯特空间(reproducingkernelHilbertspaces,RKHS)中的范数为‖f‖H.该范数反映的是在RKHS空间中对函数f的平滑测量.由表达定理(representationtheorem)可得最优解的形式如下:f*(x)=l∑i=1αiΚ(x,xi).(9)f∗(x)=∑i=1lαiK(x,xi).(9)这意味着,最优解f*可以表示为基于数据{xi}的核函数的线性组合.通过增加正则项,可以将一个在无限维空间中寻求最优解的问题简化到在有限维空间中寻求最优解.在半监督学习中,当同时考虑标记样本{xi,yi}li=1li=1和未标记样本{xi,yi}l+ui=l+1时,最优化问题(8)可以转化为f=argminf∈˜Η{1l+ul+u∑i=1C(f,xi‚yi)+Ω(∥f∥˜Η)}.(10)f=argminf∈H˜{1l+u∑i=1l+uC(f,xi‚yi)+Ω(∥f∥H˜)}.(10)式中:˜ΗH˜为同时包含标记数据和未标记数据的新RKHS空间.Sindhwani等指出,在给定未标记样本时,可以通过将对应于标记样本的RKHS空间H进行适当弯曲,获得更能符合数据分布几何特性的新RKHS空间˜ΗH˜.假定V为满足半正定內积的线性空间,S为有界线性算子,则˜ΗH˜可以被定义为由原空间H和修改后的內积所构成的函数空间:<f,g>=<f,g>H+<Sf,Sg>V.新空间˜Η仍然为RKHS,新空间˜Η在引入未标记数据后,根据新的数据依赖范数‖f‖˜Η,相对于原空间H,新空间对于数据分布的几何特性匹配得更好,对应于新空间˜Η的新核函数˜Κ(xi,xj),由RKHS的正交特性与再生性推论可以得到K(xi,xj)=K(xi,xj)-KTx(I+MK)-1MKx.(11)式中:Kx=[K(x1,x),…,K(xl+u,x)]T,M为对称半正定矩阵.关键问题是如何选择一个能够反映数据几何特性的M矩阵.该矩阵一般来自于无标记样本的边缘分布.Belkin等采用图拉普拉斯(Graph-Laplacian)来描述数据的结构.选择的M矩阵反映了边缘分布几何结构平滑的假设.针对数据集X={Xl,Xu},可以构建一个图G={V,E},其中顶点集V代表整个数据点集,边界集E代表数据点间的边界权重,可以通过权重矩阵W={Wij}来描述各个数据点间的加权情况.若xi、xj相邻,则Wij=exp(-‖xi-xj‖2/(2σ2));否则Wij=0.M=Lp,其中p为整数,L为对潜在的几何结构建模的图拉普拉斯矩阵.L=D-W,其中D为对角矩阵,Dii=∑iWij.典型地,可以用最近邻来构造M矩阵.根据所研究问题的特点来改变数据的最近邻关系定义.2传统高斯过程方法的计算效率通过基于空间最近邻关系构造的M矩阵,可以在高光谱图像的特征空间上满足流形假设.在该假设下,大量未标记样本使数据空间变得更加稠密,从而有助于更加准确地刻画局部区域特性,使得决策函数能够更好地进行数据拟合.传统高斯过程方法的计算时间复杂度为o(n3),其中n为训练样本的个数,训练样本数量过大难以计算;而未标记训练样本通常数量很大,故直接采用高斯过程求解不可取.由于M矩阵考虑的是最近邻关系,先对未标记样本作一个最近邻选择,仅选择距离阈值内的无标记训练样本,距离过大的无标记训练样本可以认为对空间流形假设作用很小.2.1测试样本的选择和计算空间m矩阵m1)在某固定区域内选择带标记训练样本;2)随机选择若干比例的无标记训练样本,剩余的作为测试样本;3)根据无标记样本与带标记样本之间的空间距离,选择在距离阈值内的无标记训练样本;4)根据图像像素空间依赖关系,构造空间M矩阵;5)通过核函数变换˜Κ(xi,yj)=Κ(xi,yj)-KTx(I+MK)-1MKx,将新核函数用于高斯过程分类.2.2logqy采用共吾梯度法求解高斯过程中先将对数形式的边缘似然函数取拉普拉斯近似:式中:|B|=I+W1/2KW1/2.根据式(12)求取θ的最大值:θ*=argmaxθlogq(y|X,θ).(13)近似边缘似然函数对超参数θ的偏微分(∂logq(y|X,θ)/∂θj)包含2项,即对协方差矩阵K项的显式依赖和对于后验ˆf的隐式依赖.∂logq(y|X,θ)∂θj=∂logq(y|X,θ)∂θj+Ν∑i=1∂logq(y|X,θ)∂ˆfi∂ˆfi∂θj.(14)通过共轭梯度法来求解式(12),可得高斯过程的超参数,见式(13).最后,M矩阵的一些参数,如最近邻距离计算中的邻域样本个数等可以通过交叉验证方法来获得.2.3实验3.2sgp的计算复杂性采用SSGP分类方法的训练时间为O(l2n3),测试时间为O(lmn2),其中n为训练样本的个数,m为测试样本的个数,l为未标记训练样本的个数.虽然SSGP方法的训练时间和测试时间比标准GP方法多.但是当带标记训练样本较少时,SSGP的计算复杂性不高.相对于SSGP方法在分类正确率上的显著提高,SSGP方法所付出的代价,即更长的训练时间和测试时间,在实际应用中可以接受.3光谱遥感数据集的测试为了验证本文算法的有效性,在仿真数据和目前国内外广泛采用的印第安纳(IndianaPine)高光谱遥感数据集上进行测试实验.实验中,本文算法(SSGP)分别与基于监督学习的标准高斯过程、标准SVM、标准KNN和基于半监督学习的SVM协同训练进行比较.实验中,对采用的真实数据集先进行预处理操作.首先除去干扰波段,然后对每一波段上的光谱数据进行归一化操作,并记录每个像元的相对位置坐标.3.1实验结果和分析仿真数据有A、B、C、D4类.每个数据由200个波段组成,每个波段都是正态分布,标准差为2.每个波段数据的取值范围(值域)都一样,不需要归一化.将整个图像分成4个区域,如图1所示.每个区域都是25×25个像素,一共有25×25×4=2500个像素,每个像素为4个波段的向量.取80%数据作为训练样本,20%数据作为测试样本.这样共有训练样本2000个,测试样本500个.然后从训练样本中取2.5%作为带标记的训练样本,即50个带标记的训练样本.从剩下的1950个样本点中依次按比例取无标记的训练样本.M矩阵的最近邻样本个数定义为10.实验结果如图2所示.图中,τ为未标记训练样本数量在所有样本中所占的比例,pcla为分类正确率.从图2可以看出,在高光谱仿真数据上,利用了未标记训练样本的半监督学习方法,SSGP和协同训练支持向量机(SVMco-training)的分类精度普遍比标准高斯过程、标准SVM和标准KNN这些不用未标记样本的有监督学习方法都高.随着未标记样本比例的提高,分类精度随之提高.当未标记样本比例高于60%后,分类精度趋于稳定,不再升高.另外,比较2种半监督分类方法可知,SSGP算法明显比SVMCo-training算法分类效果更优.在仿真数据上,SSGP方法的分类正确率比文献中仅利用空间相关性的SGKGP方法提高了近5%.3.2真实图像对比印第安纳州西北区域高光谱遥感图像,大小为145×145像元,220个波段,AVIRIS传感器于1992年拍摄,有玉米、大豆、干草、森林和牧场等9个不同类别,如图3所示.在整幅图像中,选取横向坐标为10~50,纵向坐标为50~90作为研究方块,如图4所示.在研究区域方块内,包含6种地物类别.实验中在研究方块内选取带标记训练样本853个像元,然后分别在整幅图像中任意取若干比例的像元作为无标记训练样本,剩下的像元作为测试样本.无标记样本和测试样本只在上述6种地物类别中进行选择.在实验中,经过交叉验证可得,M矩阵的最近邻个数的最优值为10.实验结果如图5所示.从图5可以看出,在真实的高光谱遥感图像

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论