基于em+影像和gis的决策树分类技术比较研究_第1页
基于em+影像和gis的决策树分类技术比较研究_第2页
基于em+影像和gis的决策树分类技术比较研究_第3页
基于em+影像和gis的决策树分类技术比较研究_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于em+影像和gis的决策树分类技术比较研究

1决策树分类方法随着计算机和遥感技术的发展,计算机自动分类成为提取和分类遥感图像信息的主要手段。传统的基于数理统计的分类算法,特别是最大似然法在遥感影像分类中得到了广泛应用。最大似然法对于正态分布的数据,易于建立判别函数,有较好的统计特性,可以充分利用人机交互;但其分类结果因遥感图像本身的空间分辨率以及“同物异谱”和“异物同谱”现象的大量存在,出现较多的错分、漏分情况,导致分类精度降低。目前已经出现了多种新型分类方法,如神经网络分类法、模糊分类法、专家系统分类法、支撑向量机分类法、面向对象分类法等。但这些方法或者算法过于复杂、难以理解,或者对分类者有较高的遥感和地学知识要求,都未能在更大领域得到推广和应用。决策树分类作为一种基于空间数据挖掘和知识发现(SpatialDataMiningandKnowledgeDiscov-ery,SDM&KD)的监督分类方法,突破了以往分类树或分类规则的构建要利用分类者的生态学和遥感知识先验确定、其结果往往与其经验和专业知识水平密切相关的问题,而是通过决策树学习过程得到分类规则并进行分类,分类样本属于严格“非参”,不需要满足正态分布,可以充分利用GIS数据库中的地学知识辅助分类,大大提高了分类精度。目前决策树分类方法已经开始应用于各种遥感影像信息提取和土地利用/土地覆盖分类中。在美国USGS、EPA等部门联合实施的“美国土地覆盖数据库”计划(NLCD2001)中,决策树分类技术不仅被应用于土地分类,而且应用于城市密度信息提取和林冠密度信息提取,土地利用分类精度达到了73%~77%,城市密度信息提取精度达到83%~91%,树冠精度在78%~93%;制图效率较旧的方法提高了50%,完全能够满足大规模土地分类数据产品的生产要求。决策树技术应用于遥感影像的土地利用/土地覆盖分类过程有如下优点:(1)决策树方法不需要假设先验概率分布,这种非参数化的特点使其具有更好的灵活性和鲁棒性,因此,当遥感影像数据特征的空间分布很复杂,或者多源数据各维具有不同的统计分布和尺度时,用决策树分类法能获得理想的分类结果。(2)决策树技术不仅可以利用连续实数或离散数值的样本,而且可以利用“语义数据”,比如离散的语义数值:东、南、西、北、东南、东北、西南、西北。(3)决策树方法生成的决策树或产生式规则集具有结构简单直观、容易理解、以及计算效率高的特点,可以供专家分析、判断和修正,也可以输入到专家系统中,而且对于大数据量的遥感影像处理更有优势。(4)决策树方法能够有效地抑制训练样本噪音和解决属性缺失问题,因此可以解决由于训练样本存在噪声(可能由传感器噪声、漏扫描、信号混合、各种预处理误差等原因造成)使得分类精度降低的问题。2决策树学习和分类决策树(Decisiontree)是通过对训练样本进行归纳学习生成决策树或决策规则,然后使用决策树或决策规则对新数据进行分类的一种数学方法。决策树是一个树型结构,它由一个根结点(Rootnode)、一系列内部结点(Internalnodes)及叶结点(Leafnodes)组成,每一结点只有一个父结点和两个或多个子结点,结点间通过分支相连。决策树的每个内部结点对应一个非类别属性或属性的集合(也称为测试属性),每条边对应该属性的每个可能值。决策树的叶结点对应一个类别属性值,不同的叶结点可以对应相同的类别属性值。决策树除了以树的形式表示外,还可以表示为一组IF-THEN形式的产生式规则。决策树中每条由根到叶的路径对应着一条规则,规则的条件是这条路径上所有结点属性值的舍取,规则的结论是这条路径上叶结点的类别属性。与决策树相比,规则更简洁、更便于人们理解、使用和修改,可以构成专家系统的基础。因此在实际应用中更多的是使用规则。决策树方法主要是决策树学习和决策树分类两个过程。决策树学习过程是通过对训练样本进行归纳学习(Inductivelearning),生成以决策树形式表示的分类规则的机器学习(Machinelearning)过程。决策树学习的实质是从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。决策树学习算法的输入是由属性和属性值表示的训练样本集,输出是一棵决策树(也可以扩展为其它的表示形式,如规则集等)。决策树的生成通常采用自顶向下的递归方式,通过某种方法选择最优的属性作为树的结点,在结点上进行属性值的比较并根据各训练样本对应的不同属性值判断从该结点向下的分支,在每个分支子集中重复建立下层结点和分支,并在一定条件下停止树的生长,在决策树的叶结点得到结论,形成决策树。通过对训练样本进行决策树学习生成决策树,决策树可以根据属性的取值对一个未知样本集进行分类,就是决策树分类。图1表示了决策树学习和分类的基本过程与框架。基于ID3算法发展起来的C4.5/C5.0算法是当今最流行的决策树算法,不仅可以将决策树转换为等价的产生式规则,解决了连续取值的数据的学习问题,而且可以分类多个类别,增加了BOOST技术,可以更快的处理大数据库。C5.0算法要求输入数据的每一个元组由若干个条件属性和一个类别值属性组成,条件属性值可以是离散值或连续值,类别必须是离散值。限于篇幅,在此不对此作详细介绍,详细内容可以参考Quinlan、史忠植和张云涛的相关文献。3实验与分析3.1地形地貌条件研究区位于河北唐山,117°53′~118°39′E,39°40′~40°14′N之间。地形以平原和丘陵为主,全境海拔最高660m,最低2.5m。土地利用类型以旱地、林地、草地为主,城镇和农村居民点呈星形分布。3.2dem衍生数据采用LandsatETM+遥感影像作为影像数据源(12232),影像获取日期:2001年9月17日。按照美国LandsatETM+影像数据处理流程对该影像进行了反射率还原,在接下来的分类试验中比较了反射率还原影像与原始DN值影像的分类结果;然后对原始影像和反射率还原影像进行几何校正,校正精度为0.5个像元;然后利用subset命令对影像进行裁剪,获得实验区影像,像元大小为2000×2000。采用的辅助数据包括国家基础地理信息中心提供的1∶25万基础地理数据和DEM数据,国家环保总局中东部生态环境调查成果数据库中的2000年土地利用数据以及SPOTVEGETATION2002全年10d平均NDVI数。利用1∶25万DEM数据计算研究区的坡度数据、坡向数据和地形因子数据(positionindex),这些DEM衍生数据将和DEM数据一起作为分类的辅助数据,以提高分类精度。坡度和坡向数据直接利用遥感软件提供的功能可以实现,地形因子数据是通过移动一个7×7的窗口以获取每一个像元在该坡向上的相对位置,其计算公式如下:PI={(E-Emin)/(Emax-Emin)}×100%其中:PI为地形因子值,E为7×7窗口内的像元高程值,Emin和Emax分别为7×7窗口内的像元最大最小高程值。3.3土地利用类别以检验分类技术和方法对比为目的,参照土地资源遥感调查中土地利用的分类方式,针对试验区的特点,确定土地覆盖/土地利用的类别为:水体,城市/居民点,林地,耕地,草地。3.4基于成文法的算法设计与实现本文采用的决策树生成工具是由美国Rulequest公司开发的基于C5.0算法的软件工具包SEE51.9(试用版),同时利用美国国家地质调查局(USGS)开发的应用于遥感图像处理软件ERDAS的决策树插件,实现与SEE51.9的数据交换与接口功能。3.5训练样本的选择与对比对监督分类而言,训练样本的选取对分类精度是至关重要的。由于本文的研究工作主要是进行遥感影像分类方法上的探索,训练样本和测试样本的精度直接关系到对不同方法和参数进行比较研究的结果,因此本文采用非监督分类、分层随机采样和人工解译相结合的方法选取用于决策树学习的训练样本和评估分类精度的测试样本,以获得较高精度的样本数据。我们参考了同时相的SPOT全色和LANDSAT多光谱数据的融合影像,共选择训练样本点8586个。这些训练样本点同时应用于作为对比实验的最大似然法分类当中。Quinlan(1996)利用非遥感数据对Boosting技术的最佳重复次数进行研究时认为,10次左右的重复效果最佳,因此我们在SEE5中采用了BOOSTING的次数为10次,常规的交叉验证次数为8。为尽可能准确的对比不同分类方法,我们利用ERDAS的分类评估工具AccuracyAssessment,尽可能均匀的选择评估样本点82个,构建了决策树分类的误差混淆矩阵,计算了分类精度和Kappa系数(表1,表2)。4结果与讨论4.1分类结果4.2分类对比实验我们利用经典的监督分类法(最大似然法)和非监督分类法(ISODATA法)进行了分类对比实验,决策树分类精度比监督分类的分类精度提高了18.29%,Kappa系数提高了0.1878(表3)。4.3对植被分类的作用DEM数据及其衍生数据(坡度、坡向、地形因子等)对于提高山区和丘陵地区影像的分类精度有显著作用,特别是对于林地、草地和耕地等植被的区分,总分类精度提高了19.52%,Kappa系数提高了0.281。对于辅助数据的加入,必须考虑分辨率与分类影像分辨率的匹配程度,研究表明:分辨率为1km的SPOTVGTNDVI数据加入分类,反而降低了分类精度(表4,图3)。4.4ppa系数及一个系数对于原始影像进行反射率还原,提高分类精度15.86%,Kappa系数提高了0.2226。缨帽变换在压缩数据量的同时,分类精度降低了4.88%(表5,图4)。这一研究结果与CollinHomer等人(2001)的研究结果是一致的。4自动分类基于决策树的分类方法与传统自动分类方法相比,不需要数据集正态分布的假设,可以重复利用GIS数据库中的多源信息,因此具有更高的分类精度和适应能力,并易于实现计算机自动分类的流程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论