




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章语义分割章节介绍Introduction在前面我们介绍了图像分类、目标检测的基础知识,语义分割作为计算机视觉领域中的另一个基础任务在近些年来受到了广泛的关注并且也取得了巨大的进步,目前广泛应用于医学图像和自动驾驶等领域。相比于分类和检测两种任务,语义分割的要求更高、难度更大,在未来的计算机视觉领域仍然存在很多问题亟待解决。本章旨在对语义分割的原理、评价指标等知识进行介绍,并帮助读者了解现有的经典分割网络。学习目标Learningaims(1)理解语义分割的基本原理;(2)掌握语义分割评价指标的计算方法;(3)掌握经典的语义分割网络结构和各自的创新之处。学习内容Learningcontent1语义分割介绍Introductiontosemanticsegmentation基本原理我们已经在前面介绍了图像分类和目标检测的相关知识,我们再来认识一下语义分割。相比于前两种任务它的要求更高,要求按照“语义”给图像中的每一个像素点打上标签,使得不同种类的物体在图像上被区分出来,简单来说,就是为每一个像素点进行分类。以下图为例,图像中存在人、背包、草地、人行道、建筑物5种类别的实物,分别用号码1、2、3、4、5表示,图像经过分割网络的预测,最终得到的图像分辨率与原图像相同,并且相应的像素点都被分类,即在原图像中人所占的像素点标记为1,草地所占的像素点标记为3,以此类推。基本原理具体的实现方法为:为每个类别创建One-Hot编码,输入图像经过网络预测得到的结果通道数等于类别数,如下图所示。在每个通道上只存在0和1,这时我们可以通过argmax得到每个像素点在通道方向上的索引值,即最终得到的分类标签。常用数据集目前常见的语义分割模型都属于监督学习的范畴,因此用于指导训练的数据集是必不可少的。公开的数据集有很多,最常见的有PascalVOC2012、Cityspaces和ADE20K,下面将分别对这几种数据集进行介绍。PascalVOC2012:PascalVOC数据集可以同时用于分类、检测和分割任务。对于分割任务,PascalVOC2012中训练集包含1464张图片,验证集中包含1449张图片,测试集包含1456张图片。整个数据集共分为21个类别(包含背景)。常用数据集Cityspaces:Cityspaces数据集,即城市景观数据集,包含了5000张(2975张用于训练,500张用于验证,1525张用于测试)城市环境驾驶场景的图像,记录了在不同季节、天气等条件下的50个城市的街道场景。ADE20K:ADE20K数据集包含了在室内、室外、自然场景等的图像,共包含150个类别,包含20000多张(25574张用于训练,2000张用于测试)图像,语义信息标注在灰度图上,每个点的取值范围为0-150,其中0代表背景。评价指标语义分割的评价指标会用到混淆矩阵,但是常见的混淆矩阵只适用于最简单的二分类任务,即类别只分为正例和反例,现在我们将混淆矩阵扩展到K类,如下表所示。评价指标为了方便表示,我们做出如下假设:共有K+1类,Pij表示属于第i类但被预测为第j类的像素数量,则Pii表示预测正确的像素数量。PA(像素精度):标记正确的像素数量占总像素数量的比例,计算公式如下:MPA(均像素精度):首先对每个类计算标记正确的像素占比,之后对多个类别求平均值。计算公式如下:评价指标IoU(交并比):某个类别的预测结果与真实标签之间交集与并集的比值,计算公式如下:MIoU(均交并比):首先对每个类别计算IoU,之后对每个类别计算平均值,计算公式如下:2经典语义分割网络ClassicalsemanticsegmentationnetworksFCN2015年JonathanLong在CVPR发表《FullyConvolutionalNetworksforSemanticSegmentation》,成为了语义分割领域的开山之作。传统的CNN由于其出色特征提取能力广泛应用于图像分类、目标检测等领域,但是在CNN当中,通常会在卷积层后接上若干个全连接层,最终得到一个一维向量用于表示属于某一类的概率,这种分类是属于图像级的分类,而语义分割需要像素级分类,所以这种全连接的方式不适用于语义分割。FCN在全卷积网络中,作者利用卷积层替换了全连接层,输出不再是一维的类别概率向量。此外,一般的卷积操作之后都会进行下采样等,即进行一系列操作之后图像相比于原图像会缩小,分辨率降低,所以为了实现对原图像每个像素都进行分类的功能,则需要进行上采样操作,将图像恢复至原图像大小并进行分类。FCN但是通常来说直接对特征图进行上采样得到的预测结果是比较粗糙的,所以在FCN网络当中作者使用了跳跃结构来优化预测结果。具体来说,就是将网络当中不同池化层得到的下采样特征图进行上采样然后再进行特征图之间的融合最后得到预测结果,基于不同的融合方式FCN又可以被分为FCN-32s、FCN-16s、FCN-8s等。U-NetU-Net是FCN网络的升级版,最早出自于2015年MICCAI医学图像顶级会议中,最初是用来解决医学图像分割问题,在2015年获得了细胞追踪挑战赛和龋齿检测挑战赛冠军,在此后的很多图像分割网络中都将U-Net网络作为主干网络进行改进,并且应用在各个方面,例如卫星图像分割、人像分割等。U-Net从结构图中可以看到U-Net网络呈U型的对称结构,并且没有全连接层,所以它也是一种经典的全卷积网络。U-Net网络也是一种编码器-解码器结构,其输入为一张572*572大小的经过原图像(512*512)镜像操作的图片。网络的左侧称为压缩路径,包括4个子模块,每个子模块包含两个卷积层和一个最大池化层,最终得到32*32大小的特征图。网络右侧称为拓展路径,四个子模块通过上采样的方式逐渐恢复分辨率,并且在每一次进行上采样结束时会与编码器同分辨率的特征图进行拼接作为下一个解码器的输入。由于图中所示结构是一个二分类任务,所以最终该网络的输出为二通道的特征图。SegNetSegNet是由剑桥大学团队开发的图像分割的开源项目。与FCN、U-Net一样,SegNet同样采用了编码器-解码器结构。在编码器方面,它采用的是VGG16网络进行特征提取,在解码器方面,它使用了在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样,这种方式可以避免对上采样过程的学习。经过上采样后得到稀疏的特征图,再经过卷积操作来得到密集的特征图。PSPNetPSPNet全名为PyramidSceneParsingNetwork,即金字塔场景解析网络,其核心模块为金字塔模块(PyramidPoolingModule)。金字塔模块的主要作用就是融合不同尺度的特征和不同区域的上下文信息,从而提高获取全局上下文信息的能力。此外PSPNet还在ResNet101网络当中加入了辅助损失函数,将它和最后的sofmax损失函数一起进行反向播并优化网络。DeepLabDeepLab是谷歌提出的一系列语义分割算法,到目前为止DeepLab系列已经有DeepLabV1、DeepLabV2、DeepLabV3和DeepLabV3+四个版本。其中DeepLabV1是深度卷积神经网络(DCNNs)的改进版本,它主要是为了解决两个问题:(1)池化和下采样等操作导致的分辨率降低而丢失细节。(2)由于空间不变性导致的精度不够。针对上面两种问题,DeepLabV1分别采用了空洞卷积和全连接CRF来提高模型的分割精度。它不仅可以增大感受野,还能捕获多尺度的上下文信息。全连接CRF是用来对分割边界进行优化。DeepLabDeepLabV2在V1的基础上进行了改进,包括利用空洞卷积代替原来的上采样、使用空间金字塔池化ASPP来解决图像中存在多尺度物体的问题、结合DCNN和概率图模型来改善定位的性能。DeepLabV3主要是对以前的模块进行了升级和改进,并且不再使用全连接CRF。DeepLabV3+在V3的基础上提出了深度可分离卷积,将DeepLabV3当做编码器并扩展一个解码器构成了DeepLabV3+模型。5小结Summary本章
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025电梯租赁合同详解
- 2025劳动合同大全范文
- 电影项目股权合同协议
- 皮具合作合同协议书范本
- 畜牧人养殖服务合同协议
- 电瓶车店铺转让合同协议
- 环卫补充合同协议书范本
- 甲乙丙方担保合同协议
- 特斯拉二手车协议合同
- 电缆废品收购合同协议
- 安置房收楼合同协议
- 2025-2030中国煤化工行业发展分析及投资风险与战略研究报告
- 病历书写规范2025版
- 2025-2030中国养老服务行业市场深度调研及前景趋势与投资研究报告
- 2024年吉林省高职高专单招考试数学卷试题真题(含答案)
- 洗涤机械生产过程质量控制考核试卷
- 画龙点睛成语故事
- (一模)2025年广东省高三高考模拟测试 (一) 历史试卷(含官方答案及详解)
- (3月省质检)福建省2025届高三毕业班适应性练习卷语文试卷(含答案)
- 湖北省武汉市七一华源中学2024-2025学年九年级下学期第二次月考化学试题(含答案)
- TSSITS 2006-2024 面向特定场景低速自动驾驶产品准入及运营规范
评论
0/150
提交评论