深度学习方法在遥感图像处理中的应用研究分析 教育教学专业_第1页
深度学习方法在遥感图像处理中的应用研究分析 教育教学专业_第2页
深度学习方法在遥感图像处理中的应用研究分析 教育教学专业_第3页
深度学习方法在遥感图像处理中的应用研究分析 教育教学专业_第4页
深度学习方法在遥感图像处理中的应用研究分析 教育教学专业_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、摘 要电子纸是一种超轻、超薄的显示屏,可以像报纸一样折叠起来,它的内容又像PDA那样可以根据人们需求动态更新。用电子墨水制成的电子纸将在很大程度上改变人们的生活面貌,尤其是对广告、报刊、图书等行业产生重大影响。同时,它可以节约大量的纸张和能源等工业资源,是一种“绿色”环保型的高科技产品,具有相当重要的理论研究和应用开发价值,是一项富有挑战性的技术。关键词:电子墨水;微胶囊;明胶;ABSTRACTThe electrophoretic ink, a novel flexible display material which can be called encapsulated electroph

2、oretic display, is also fabricated from a two-dimensional arrangement of discrete microcapsule containing electrophoretic composition of a dielectric fluid and particles that visually contrast with the dielectric liquid and also exhibit surface charges. Electrophoretic ink possesses the merits of fl

3、exibility, bistability, extremely low power dissipation, high contrast and reflectivity, near-lambertian viewing characteristic, etc., which result in an ink on papers appearance.Keywords: Electronic ink, Microcapsules, Gelatin, 目 录TOC o 1-3 h u HYPERLINK l _Toc24115 摘 要 PAGEREF _Toc24115 I HYPERLIN

4、K l _Toc9488 ABSTRACT PAGEREF _Toc9488 II HYPERLINK l _Toc248 1 引言 PAGEREF _Toc248 1 HYPERLINK l _Toc1396 1.1 研究背景和意义 PAGEREF _Toc1396 1 HYPERLINK l _Toc29269 1.2 国内外研究现状 PAGEREF _Toc29269 2 HYPERLINK l _Toc13285 2 遥感图像预处理和神经网络介绍 PAGEREF _Toc13285 4 HYPERLINK l _Toc12554 2.1 图像预处理 PAGEREF _Toc12554

5、4 HYPERLINK l _Toc9421 2.2 神经网络理论 PAGEREF _Toc9421 4 HYPERLINK l _Toc13789 3 基于卷积神经网络遥感图像分类算法 PAGEREF _Toc13789 6 HYPERLINK l _Toc29654 3.1 卷积神经网络结构模型 PAGEREF _Toc29654 6 HYPERLINK l _Toc991 3.2 卷积神经网络训练设置 PAGEREF _Toc991 8 HYPERLINK l _Toc23954 3.3 数据增强 PAGEREF _Toc23954 10 HYPERLINK l _Toc15360 4

6、实验设计与结果分析 PAGEREF _Toc15360 12 HYPERLINK l _Toc848 4.1 实验平台介绍 PAGEREF _Toc848 12 HYPERLINK l _Toc22020 4.2 实验数据集介绍 PAGEREF _Toc22020 13 HYPERLINK l _Toc12973 4.3 实验结果与分析 PAGEREF _Toc12973 13 HYPERLINK l _Toc29268 5 总结和展望 PAGEREF _Toc29268 151 引言1.1 研究背景和意义人类己经进入了数字时代,世界上每天都在产生着海量的数据。传统的机器学习算法聚焦在特征提取

7、和分析上,主要针对小样本训练集,泛化能力弱。面对量大、有效信息分散以及结构多样性等大数据的特点,已经不能很好地适应。目前,数据生产和消费需求之间的矛盾凸显,因此,人们不得不把目光投注在智能化学习的新型算法上来。深度学习作为机器学习的一个分支,就在这样的背景下应运而生。深度学习把客观世界表示为嵌套的分层结构,通过分层结构,简单概念关联组合能够形成复杂的概念、具体的表示逐步抽象能够生成更抽象的表示。深度学习因此而具备了强大的处理能力和灵活性。深度学习迅速发展,主要有如下促因:1、云计算、大数据等信息技术的发展,促使业界对智能化算法产生了迫切的、巨大的需求。需求的驱动,是深度学习快速发展的根本动力;

8、2、云计算、大数据等技术的发展,也为深度学习提供了扎根的土壤和应用的天然场景。与以往人工智能技术相比,深度学习从实验室到工业实践、再到实验室的迭代过程更为迅速;3、以GPU为代表的硬件技术的发展,为深度学习技术提供了理论研究和实践应用的硬件基础。硬件性能的提升和价格下降,支撑起了大规模的工业应用。同时,来自各领域的、众多的个人和团体可以廉价地参与到深度学习研究工作中,这些参与者往往极富创新和创造能力,并打着无私的分享精神。以上众多积极因素促使深度学习形成了目前迅猛发展的势头,在智能领域里独树一帜。遥感专业在数据处理过程中,对学习型智能算法非常重视。机器领域的许多经典的算法在遥感数据处理中得到了

9、广泛的应用。但总的来讲,这呰算法都具有共同的局限性:适应小样本集、对数据特征需要繁重的分析和处理、对数据有相对严格的要求、学习能力弱、泛化能力有限以及严重依赖人工等。这些局限性造成的原因,归根结底是因为每个算法都是为解决某一类问题,甚至是为某一个问题提出的,并不是完全针对遥感数据本质特征的。深度学习是能够学习到数据表示的学习型算法,能够学到数据的本质特征,可以极大地克服传统机器学习算法在遥感数据处理领域的种种局限性。遥感数据本质上具有大数据的4V特点,从原理上来看,深度学习在处理大数据、高维数据有天然的优势,适合遥感数据的处理。深度学习领域中的有一类称之为深度卷积神经网络的模型,在图像分类、目

10、标检测等方面都取得了非常好的应用效果。遥感数据主要是遥感影像数据,其处理技术与图形图像学有共通之处,因此,把图像领域的理论和实践借鉴到遥感影像处理中是极具可行性的。深度卷积神经网络应用在图像分类优势明显。图像分类问题就是判断图片属于某类目标物的概率,比如判定一个动物图片是何种动物的概率。遥感影像分类不同于图像分类,是类似于图像语义分割的技术。遥感影像分类不仅要对地物进行分类,还需要把这些地物在遥感影像中精确“分割”出来,这是难点,也是本文重点解决的问题。遥感数据作为基础支撑性数据,在国防、国民经济以及其它各领域需求量巨大,使用率高,其作用也日趋重要。目前,遥感影像分类主要靠专业人员的处理和解译

11、,根本无法满足日益增长的遥感数据消费需求,因此,研究智能化数据处理技术势在必行。DCNNs在遥感影像智能化、自动化分类方向有着可预见潜在的、巨大的应用价值。DCNNs模型逐步成熟,并在遥感领域工业化,将减少遥感影像分类对人工、尤其对专家的依赖,实现遥感数据成果的大规模工业化生产,能够最大限度地发挥遥感数据的价值,会对国防、国民经济和各行业起到不可估量的促进作用。本论文期望借鉴DCNNs在图像领域的理论和实践经验,把DCNNs应用到遥感影像分类。设计并研发出适合遥感影像分类的DCNNs模型,利用DCNNs模型的学习数据本质特征表示的能力,以减少遥感影像分类工作对人工的依赖。发挥DCNNs的强大的

12、图像分类技术优势,克服其位置坐标丢失的缺陷,达到满足遥感影像分类精度和处理速度要求的、端到端的、智能化、自动化处理效果。本论文所讨论的“端到端”是指无需人工参与,可以实现从原始输入数据到期望输出结果的直接映射。其中无需人工参与,就是要求训练学习过程智能化、预测生成结果过程自动化、智能化。1.2 国内外研究现状遥感影像分类是遥感数据处理的重要过程,是根据感兴趣目标在遥感图像上的特征差异,判断并标识其类别属性和空间分布特征(如空间位置、面积大小)等信息的过程(朱文泉等,2015)。遥感光学影像中地物的特征分为光谱特征和空间特征两大类,而空间特征又包括纹理特征、几何特征以及拓扑或邻接关系(赵忠明等,

13、2014)。微波遥感SAR数据还带有地物的极化特征。遥感影像分类首先要对地物的这些不同特征进行提取,然后使用合适的算法(比如逻辑回归)对这些特征进行处理,以得出分类结果。特征的提取是遥感影像分类数据处理过程中非常重要的步骤。比如对遥感影像的建筑物进行分割,不同分辨率下建筑物纹理、几何特征等表现足不同的。只有正确提取到这些特征,并根据这些特征的特点选择算法,才能得到比较理想的分割或分类结果。有人针对不同地物在遥感在影像中的不同特征表现展开研究,比如宋开山等(2005)研宄大豆叶面积、及地上鲜生物量与高光谱反射率的相关分析;关红等(2015)对盐渍化土壤光谱特征进行了分析和建模。也有人进行了区域性

14、遥感影像的特征研宄,如叶庆华、陈述彭等(2007)研究近、现代黄河尾闾摆动及其亚三角洲体发育的聚观信息图谱特征。还有在特征提取方法方面进行研宄的,如方敏等(2016)应用监督近邻重构分析对高光谱遥感数据特征提取;孙红岩(2016)对基于多特征融合的遥感图像特征提取方法进行了研宂;汪小钦等(2016)研宄了基于可见光波段无人机遥感的植被信息提収;HuZ等(2016)研宄了一种用于大型遥感图像分层表示的二维尺度模型;SantosJ等(2014)研宄基于分层直方图传播的遥感图像表示。特征提取得到了可被处理的特征数据。特征数据输入分类器,可以被分类算法处理出分类结果。智能化遥感影像分类技术一般分为有监

15、督的学习算法和无监督的学习算法。聚类研究方面,GovindarajanR等(2010)研究了多目标(M0)模糊聚类技术实现自动像素分类技术;ZhongY等(2013)使用基于自适应多目标(M0)差分的自动模糊聚类进行遥感影像分类;AilongMA(2014)等使用自适应双目标法进行遥感图像聚类研究。总之,这些智能化的遥感影像分类的技术,基本都是传统的机器学习算法。需要对地物提取纹理、几何等特征,对农作物等还需要进一步研宄地物与反射率的关系等;非监督的方法也是需要先提取特征,然后再进行归类学习。所以,目前的智能化遥感影像分类技术的研宄,大都是基于特征分析和特征提取之上的,虽然在很多场景,取得的效

16、果非常满意,但具有依赖特征表示,依赖人工,缺乏自动化,泛化能力弱、容易欠拟合或过拟合等缺点。2 遥感图像预处理和神经网络介绍2.1 图像预处理预处理是遥感应用的第一步,也是非常重要的一步。目前的技术也非常成熟,大多数的商业化软件都具备这方面的功能。预处理的大致流程在各个行业中有点差异,而且注重点也各有不同。数据预处理的过程包括几何精校正、配准、图像镶嵌与裁剪、去云及阴影处理和光谱归一化几个环节,具体流程图如图所示。来源:( HYPERLINK /s/blog_692920b80100ku6v.html /s/blog_692920b80100ku6v.html) - 遥感影像预处理_凯歌_新浪

17、博客图1数据预处理一般流程各个行业应用会有所不同,比如在精细农业方面,在大气校正方面要求会高点,因为它需要反演;在测绘方面,对几何校正的精度要求会很高。引起影像几何变形一般分为两大类:系统性和非系统性。系统性一般有传感器本身引起的,有规律可循和可预测性,可以用传感器模型来校正;非系统性几何变形是不规律的,它可以是传感器平台本身的高度、姿态等不稳定,也可以是地球曲率及空气折射的变化以及地形的变化等。2.2 神经网络理论人工神经网络(ANN)是一种算法结构,使得机器能够学习一切,从 HYPERLINK /s?wd=%E8%AF%AD%E9%9F%B3%E5%91%BD%E4%BB%A4&tn=24

18、004469_oem_dg&rsv_dl=gh_pl_sl_csd t /chivalrousli/article/details/_blank 语音命令、播放列表到音乐创作和图像识别。典型的 ANN 由数千个互连的人造 HYPERLINK /s?wd=%E7%A5%9E%E7%BB%8F%E5%85%83&tn=24004469_oem_dg&rsv_dl=gh_pl_sl_csd t /chivalrousli/article/details/_blank 神经元组成,它们按顺序堆叠在一起,以称为层的形式形成数百万个连接。在许多情况下,层仅通过输入和输出与它们之前和之后的神经元层互连。(这

19、与人类大脑中的神经元有很大的不同,它们的互连是全方位的。)这种分层的 ANN 是今天机器学习的主要方式之一,通过馈送其大量的标签数据,可以帮助它学习如何解读数据(有时甚至比人类做得更好)。以图像识别为例,它依赖于称为卷积神经网络(CNN)的特定类型的神经网络,因为它使用称为卷积的数学过程来以非文字的方式分析图像, 例如识别部分模糊的对象或仅从某些角度可见的对象。 在最初的卷积层中, HYPERLINK /s?wd=%E6%88%90%E5%8D%83%E4%B8%8A%E4%B8%87&tn=24004469_oem_dg&rsv_dl=gh_pl_sl_csd t /chivalrousli

20、/article/details/_blank 成千上万的神经元充当第一组过滤器,搜寻图像中的每个部分和像素,找出模式(pattern)。随着越来越多的图像被处理,每个神经元逐渐学习过滤特定的特征,这提高了准确性。比如图像是苹果,一个过滤器可能专注于发现“红色”这一颜色,而另一个过滤器可能会寻找圆形边缘,另一个过滤器则会识别细细的茎。如果你要清理混乱的地下室,准备在车库搞个大销售,你就能理解把一切按不同的主题分类是什么意思了(玩具、电子产品、艺术品、衣服等等)。 卷积层就是通过将图像分解成不同的特征来做这件事的。神经网络赖以成名的绝招与早期的 AI 方法(比如 Deep Blue 中用到的)不

21、同,这些过滤器不是人工设计的。他们纯粹是通过查看数据来学习和自我完善。卷积层创建了不同的、细分的图像版本,每个专用于不同的过滤特征显示其神经元在哪里看到了红色、茎、曲线和各种其他元素的实例(但都是部分的)。3 基于卷积神经网络遥感图像分类算法3.1 卷积神经网络结构模型卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。网络中包含一些简单元和复杂元,分别记为S-元和C-元。S-元聚合在一起组成S-面,S-面聚合在一起组成S-层,用Us表示。C-元、C-面和C-层(Us)之间存在类似的关系。网络的任一中间级由S-层与C-层串接而成,而输入级只含一层,它直接接

22、受二维视觉模式,样本特征提取步骤已嵌入到卷积神经网络模型的互联结构中。一般地,Us为特征提取层,每个神经元的输入与前一层的局部感受野相连,并提取该局部的特征,一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来;Uc是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射为一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数,降低了网络参数选择的复杂度。卷积神经网络中的每一个特征提取层(S-层)都紧跟着一个用来求局部平均与二次

23、提取的计算层(C-层),这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。网络中神经元的输出连接值符合“最大值检出假说”,即在某一小区域内存在的一个神经元集合中,只有输出最大的神经元才强化输出连接值。所以若神经元近旁存在有输出比其更强的神经元时,其输出连接值将不被强化。根据上述假说,就限定了只有一个神经元会发生强化。卷积神经网络的种元就是某S-面上最大输出的S-元,它不仅可以使其自身强化,而且还控制了邻近元的强化结果。因而,所有的S-元渐渐提取了几乎所有位置上相同的特征。在卷积神经网络早期研究中占主导的无监督学习中,训练一种模式时需花费相当长的时间去自动搜索一层上所有元中

24、具有最大输出的种元,而现在的有监督学习方式中,训练模式同它们的种元皆由教师设定。如图2的卷积神经网络的典型结构图。将原始图像直接输入到输入层(Uc1),原始图像的大小决定了输入向量的尺寸,神经元提取图像的局部特征,因此每个神经元都与前一层的局部感受野相连。文中使用了4层网络结构,隐层由S-层和C-层组成。每层均包含多个平面,输入层直接映射到Us2层包含的多个平面上。每层中各平面的神经元提取图像中特定区域的局部特征,如边缘特征,方向特征等,在训练时不断修正S-层神经元的权值。同一平面上的神经元权值相同,这样可以有相同程度的位移、旋转不变性。S-层中每个神经元局部输入窗口的大小均为5x5,由于同一

25、个平面上的神经元共享一个权值向量,所以从一个平面到下一个平面的映射可以看作是作卷积运算,S-层可看作是模糊滤波器,起到二次特征提取的作用。隐层与隐层之间空间分辨率递减,而每层所含的平面数递增,这样可用于检测更多的特征信息。 图2 卷积神经网络结构图3.2 卷积神经网络训练设置在卷积神经网络中,只有S-元间的输入连接是可变的,而其他元的输入连接是固定的。用Usl(kl,n)表示第l级,第kl个S-面上,一个S-元的输出,用Ucl(kl,n)表示在该级第kl个C-面上一个C-元的输出。其中,n是一个二维坐标,代表输入层中神经元的感受野所在位置,在第一级,感受野的面积较小,随后随着l的增大而增加。

26、(3.1)式(3.1)中al(v,kl-1,k)和bl(k)分别表示兴奋性输入和抑制性输入的连接系数;rl(k)控制特征提取的选择性,其值越大,对噪音和特征畸变的容错性越差,它是一常量,它控制着位于每一S-层处的单个抑制子平面中每个神经元的输入: rl(k)的值越大,与抑制性成比例的兴奋性就得越大,以便能产生一个非零输出,换句话说就是相当好的匹配才一能激活神经元,然而因为rl(k)还需乘以(),所以rl值越大就能产生越大的输出,相反,小的rl(k)值允许不太匹配的神经元兴奋,但它只能产生一个比较小的输出;(x)为非线性函数。v是一个矢量,表示处于n感受野中的前层神经元n的相对位置,Al确定S神

27、经元要提取特征的大小,代表n的感受野。所以式中对v的求和也就包含了指定区域当中所有的神经元;外面对于勺kl-1的求和,也就包含了前一级的所有子平面,因此在分子中的求和项有时也被称作兴奋项,实际上为乘积的和,输入到n的神经元的输出都乘上它们相应的权值然后再输出到nc。 (3.2)式(3.2)表示的是指定某级(第l级)、某层(S-层)、某面(第kl个S-面)、某元(向量为n处)的一个输出。对于一个S-元的作用函数可分为两部分,即兴奋性作用函数和抑制性作用函数。兴奋性作用使得膜电位上升,而抑制性作用起分流作用。兴奋性作用为: (3.3) S-元与其前一级C-层的所有C-面均有连接,所连接的C-元个数

28、由该S-级的参数感受野Al唯一确定。网络中另一个重要的神经元是假设存在的抑制性神经元V-元Uvl (n),它位于S-面上满足以下三个条件:环元的抑制作用影响整个网络的运作;C-元与V-元间存在着固定的连接;V-元的输出事先设为多个C-元输出的平均值。可以用它来表示网络的抑制性作用,发送一个抑制信号给Usl(kl,n)神经元,从与Usl(kl,n)类似的元接收它的输入连接值,并输出: (3.4) 权cl(v)是位于V元感受野中的v处的神经元相连的权值,不需要训练这些值,但它们应随着v的增加而单调减小。因此,选择式3.5的归一化权值。 (3.5) 式3.5中的归一化常量C由式3.6给出,其中:r(

29、v)是从v处到感受野中心的归一化距离: (3.6) C神经元的输出由式3.7给出: (2.7)上式中(x)为: (3.8)式中为一常量。kl是第l级中的S子平面的数量。Dl是C元的感受野。因此,它和特征的大小相对应。dl(v)是固定兴奋连接权的权值,它是v的单调递减函数。如果第kl个S神经元子平面从第kl-1子平面处收到信号,那么jl(kl,kl-1)的值为,1否则为0。最后,S_层的Vs神经元的输出为 (3.9)3.3 数据增强 卷积神经网络CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式

30、地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。流的分类方式几乎都是基于统计特征的,这就意味着在进行分辨前必须提取某些特征。然而,显式的特征提取并不容易,在一些应用问题中也并非总是可靠的。卷积神经网络,它避免了显式的特征取样,隐式地从训练数据中进行学习。这使得卷积神经网络明显

31、有别于其他基于神经网络的分类器,通过结构重组和减少权值将特征提取功能融合进多层感知器。它可以直接处理灰度图片,能够直接用于处理基于图像的分类。卷积网络较一般神经网络在图像处理方面有如下优点: a) 输入图像和网络的拓扑结构能很好的吻合;b) 特征提取和模式分类同时进行,并同时在训练中产生;c)权重共享可以减少网络的训练参数,使神经网络结构变得更简单, 适应性更强。4 实验设计与结果分析4.1 实验平台介绍为了在解决各种实际问题中有效地利用深度学习模型,特别是卷积神经网络,现在已经有很多开发平台和工具可以选择。比较常用的有Theano、TensorFlow、Caffe、Caffe2、CNTK、M

32、XNet、Torch、Deeplearning4J和Keras等,其中TensorFlow、Caffe2和MXNet之间的竞争可能会比较激烈。目前,这些平台和工具还没有任何一种完善到足以解决“所有”的业务问题,大多通过专有解决方案提供先进的机器学习和人工智能的功能,包括手写字符识别、图像识别、视频识别、语音识别、自然语言处理和对象识别等高级功能。下面分别对主要几个进行简要的说明。【1】TensorFlow支持广泛的功能,如图像识别、手写字符识别、语音识别、预测以及自然语言处理,所以在2015年11月9日以Apache2.0许可开源后,谷歌立即获得了大量的关注。TensorFlow在2017年2

33、月15日发布了1.0版本,是8个先前版本的累积,解决了很多不完整的核心功能和性能问题。TensorFlow的编程接口包括Python和C+,并支持Java、Go、R和HaskellAPI的alpha版本接口。另外,TensorFlow支持精细的网格层,允许用户构建新的复杂层类型,允许模型的不同部分在不同的设备上并行训练,还可以使用C+Eigen库在ARM架构上编译和优化。经过训练的TensorFlow模型可以部署在各种服务器或移动设备上,无须实现单独的解码器或加载Python解释器。【2】MXNet(发音为“mix-net”)是一个功能齐全、可编程和可扩展的深度学习框架,支持各种深度学习模型(

34、比如卷积神经网络、循环神经网络和长短期记忆网络),也是目前唯一支持生成对抗网络模型的深度学习框架。而且,MXNet提供了混合编程模型(命令式和声明式)的功能、大量编程语言的代码(包括Python、C+、R、Scala、Julia、Matlab和JavaScript),以及强大的扩展能力(如GPU并行性和内存镜像、编程器开发速度和可移植性),甚至被有些人称为世界上最好的图像分类器。此外,MXNet与ApacheHadoopYARN(一种通用的、分布式的应用程序管理框架)集成,使其成为TensorFlow的竞争对手。特别是,亚马逊首席技术官WernerVogels选择公开支持MXNet,苹果公司在

35、2016年收购Graphlab/Dato/Turi之后也传闻使用它。4.2 实验数据集介绍MNIST是一个著名的手写数字数据集,包括60000个训练样本,10000个测试样本。其中,每个样本图像的大小为2828像素,仅包含一个单一的手写数字字符。像素的取值范围是0,255,其中0表示黑,255表示白,中间值表示灰度级。ImageNet是一个拥有超过1500万幅图像、约22000个类别的数据集,可用于大规模图像识别、定位和检测的研究。ImageNet2012包含1281167幅训练图像和50000幅测试图像,共有1000个类别。训练集中各类图像的数目可能不同,最少为732幅,最多为1300幅。而

36、测试集中各类图像的数目都是50幅。VOC2007(即PascalVoc2007)是一个关于物体和场景的图像数据集,可以用于目标检测和语义分割任务。PascalVOC的全名是“PatternAnalysis,StatisticalModellingandComputationalLearningVisualObjectClasses”,指的是模式分析、统计建模、计算学习视觉物体分类。该数据集包含训练验证集文件夹trainval和测试集文件夹test,分别包含5011幅和4952幅大小不同的图像。而且,这两个文件夹各自又都包含5个子文件夹:JPEGImages、Annotations、ImageSets、SegmentationClass和SegmentationObject。其中,JPEGImages存放的是所有图像,包含20个类别。Annotations存放的是xml格式的标签文件,每一个xml文件都对应于JPEGImages下的一幅图像。ImageSets存放的是具体的图像信息,下设3个子文件夹Layout、Main和Segmentation,分别存放人体部位数据(比如head、hand、feet等)、20类图像物体识别数据,以及可用于分割的数据。SegmentationClass和SegmentationObject用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论