




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章图像分类4.1概述4.2图像分类常用数据集介绍4.3图像分类常用方法介绍4.4图像分类实战4.1概述4.1概述图像分类的定义:即给定一幅输入图像,通过某种分类算法来判断该图像所属的类别。图像分类的划分方式十分多样,划分依据不同,分类结果就不同。根据图像应用场景的不同,可以将图像分类任务为:对象分类、场景分类、事件分类和情感分类。传统与深度学习图像分类方法对比:传统方法按流程处理,性能依赖特征提取和分类器选择,人工选取特征虽有普适性但针对性不强且面对复杂场景难度大,常用分类器对复杂图像分类精度低;深度学习是新兴算法,无需人工提取特征,能自主从训练样本中学习更高维、抽象特征,解决了人工提取特征和分类器选择难题。4.1概述
图像分类处理为什么出现?人类日常生活中图像承载超80%的信息量,随着互联网发展图像和视频数量大增,对其准确归类管理很重要,早期人工标注图像分类效率低、耗费大,于是图像分类处理技术应运而生。应用场景:它利用相关技术模拟人类视觉与认知能力来判别分类图像,该技术在诸多领域应用广泛,包括百度识图、生物特征识别、安全预防、医学影像检测等。4.1概述图像分类的主要流程:主要流程含图像预处理(滤波、尺寸归一化等)、特征描述与提取(颜色、形状等)、分类器设计(选择合适的算法、判断图像类别)。传统方法性能依赖特征提取与分类器选择,存在一定局限,而深度学习作为新兴算法,可自主学习特征,解决了传统方法面临的部分难题。图像预处理特征描述与提取分类器设计4.1概述图像分类处理-图像预处理:包括图像滤波(例如中值滤波、均值滤波、高斯滤波等)和尺寸的归一化等操作;其主要作用是过滤图像中的一些无关信息,在简化数据的前提下最大限度地保留有用信息,增强特征提取的可靠性。4.1概述图像分类处理-特征提取:图像分类任务中最为关键的一部分,其将输入图像按照一定的规则变换生成另一种具有某些特性的特征表示,新的特征往往具有低维度、低冗余、低噪声、结构化等优点。从而降低了对分类器复杂度的要求,提高了模型性能。通过训练分类器对提取的特征进行分类,从而实现图像的分类。4.1概述图像分类处理-分类器:主要包括K-近邻(KNN)、支持向量机(SVM)、决策树、逻辑回归、人工神经网络等方法,对于一些简单图像分类任务,这些分类器实现简单,效果良好,但对于一些类别之间差异细微、图像干扰严重等问题,其分类精度大打折扣,即传统分类器非常不适合复杂图像的分类。4.2图像分类常用数据库4.2图像分类常用数据集介绍常用的图像分类数据集:MNIST:70000张28像素x28像素的手写数字图像,共10个类别。Fashion-MNIST:70000张28像素x28像素的时尚服装图像,共10个类别。CIFAR-10:60000张32像素x32像素的彩色图像,由飞机、马、狗等十个类别。CIFAR-100:60000张32像素x32像素的彩色图像,共100个类别。ImageNet:1400万张图像,涵盖2万多个类别。
从1-5数据集在数据体量上及复杂程度上依次递增。4.3图像分类的常用方法介绍4.3图像分类常用方法介绍4.3.1决策树4.3.2K—邻近算法4.3.3逻辑回归4.3.4基于卷积神经网络的图像分类4.3.1决策树决策树的原理:决策树:决策树是通过一系列规则对数据进行分类的过程。基于一定的判别条件,确定某一样东西属于一类还是另一类。实际上,样本所有特征中有一些特征在分类时起到决定性作用,决策树的构造本质是找出样本特征中起决定性作用的部分,依其决定性程度构建倒立的“树”,以决定性作用最大的特征为根节点,递归找出各分支下子数据集的决定性特征,直至子数据集中数据都属同一类,该过程实际是按数据特征对数据集分类的递归过程。决策树的构建过程可以分为:特征选择决策树生成剪枝4.3.1决策树基于信息论的三种决策树算法:划分数据集的最大原则是:使无序的数据变的有序。
如果一个训练数据中有20个特征,那么选取哪个做划分依据?这就必须采用量化的方法来判断,量化其中一项就是“信息论度量信息分类”。基于信息论的决策树算法有ID3、CART和C4.5等算法,其中C4.5和CART两种算法从ID3算法中衍生而来。4.3.1决策树基于信息论的决策树三种算法:ID3算法:由RossQuinlan发明,基于“奥卡姆剃刀”原则,通过信息增益选择特征,适用于标称型数据集,无内置剪枝过程,缺点是偏向取值较多的属性且无法处理连续数据。C4.5算法:是ID3的改进算法,用信息增益率选择属性,解决了信息增益偏向问题,可处理连续数据、不完整数据并剪枝提高性能,分类规则易理解但效率低且只适用于内存中的数据集。CART算法:采用Gini指数作为分裂标准且有后剪枝操作,可处理连续数据,适用于分类和回归任务,出现目的是简化决策树规模和提高效率。4.3.1决策树
什么数据适用决策树?决策树的适用数据类型:决策树适用于数值型和标称型数据,能够读取数据集合并提取其中蕴含的规则。决策树的优缺点:决策树的优点:计算复杂度不高,便于使用且高效;可处理具有不相关特征的数据;能构造出易于理解和解释的规则。决策树的缺点:处理缺失数据时存在困难;容易过度拟合;忽略数据集中属性之间的相关性。4.3.2K-邻近算法(KNN)K-邻近算法的工作原理:它依靠一个有标签的样本数据集合即训练样本集,其中每个数据都对应所属分类。对于无标签的新数据,算法会将新数据的每个特征与样本集中数据特征进行比较,选取前k个最相似的数据,这里的K
决定了参考数据的数量。最后,以K个最相似数据中出现次数最多的分类作为新数据的分类。算法特点:无参数学习,不对底层数据分布做假设;基于实例,记忆训练实例并在有监督学习环境中使用。4.3.2K-邻近算法(KNN)
4.3.2K-邻近算法(KNN)(2)k值选取:在计算测试数据与各个训练数据之间的距离之后,首先按照距离递增次序进行排序,选取距离最小的k个点,一般会先选择较小的k值,然后进行交叉验证选取最优的k值。k值较小时,整体模型会变得复杂,且对近邻的训练数据较为敏感,容易出现过拟合。k值较大时,模型则会趋于简单,此时较远的训练数据点也会起到预测作用,容易出现过拟合。4.3.2K-邻近算法(KNN)(3)分类的决策规则:常用的分类决策规则是取k个近邻训练数据中类别出现次数最多者作为输入新实例的类别。即首先确定前k个点所在类别出现频率。对于离散分类,返回前k个点出现频率最多的类别作预测分类;对于回归则返回前k个点的加权值作为预测值。4.3.2K-邻近算法(KNN)K-近邻算法的优缺点:K-近邻算法的优点:KNN算法主要依靠周围有限的邻近样本确定所属类别,对于类域交叉或重叠较多的样本集非常适用。它具有简单、易于实现、易于理解、无需训练、理论成熟、思想简单等特点,既可以做分类也可以做回归。K-近邻算法的缺点:当训练数据集很大时,由于要对每个数据计算距离值,实际使用可能非常耗时。最核心的缺陷是无法给出任何数据的基础结构信息,所以无法知晓平均实例样本和典型实例样本具有什么特征。4.3.3逻辑回归
4.3.3逻辑回归图4-1Logistic函数在整个逻辑回归模型学习过程中求得最优的决策边界使得模型有一个好的分类效果,实际上是一个求解参数w使得交叉熵损失函数L最小的过程。4.3.3逻辑回归逻辑回归的优缺点:逻辑回归的优点:使用逻辑回归模型对图像进行分类的优点有:其训练速度快,因为计算量仅仅只和特征的数目相关;其简单易理解,模型的可解释性非常好;从特征的权重可以看到不同的特征对最后结果的影响。逻辑回归的优缺点:只能处理线性问题,对于非线性问题无法处理;准确率不是很高;很难处理数据不平衡问题。4.3.4基于卷积神经网络的图像分类卷积神经网络进行图像分类:通过卷积神经网络进行图像分类较之传统的图像分类方法最大的优势在于不需要针对特定的图像数据集或分类方式提取具体的人工特征,而是模拟大脑的视觉处理机制对图像层次化的抽象,自动筛选特征,从而实现对图像个性化的分类任务。这很好的解决了传统图像分类方法中人工提取特征这一难题,真正的实现了智能化。常用于图像分类的经典
CNN网络结构模型有:LeNet、AleXNet、GoogLeNet、VGGNet等。4.3.4基于卷积神经网络的图像分类下面仅对CNN最初的模型和计算机视觉竞赛代表性分类模型做分析:LeNet模型LeNet
模型于1994
年诞生,是最早的卷积神经网络之一及深度学习奠基之作。它有大约60k
个参数,基本结构包括卷积层、池化层和全连接层等,各层有不同作用,如卷积层提取空间特征,池化层进行下采样等。输出层采用soft--max分类器,通过输出向量确定测试图像所属类别。该模型最早应用于MNIST
手写数字识别且效果不错,但因当时计算效率低,存在深度浅、参数少、结构单一的问题,不适用于复杂图像分类任务。4.3.4基于卷积神经网络的图像分类AlexNet模型:该网络共涉及约6,000万个可训练的参数,是ILSVRC2012计算机视觉竞赛冠军网络。AlexNet模型有着和LeNet相似的网络结构,但网络层数更深,有更多的参数。该模型相较于LeNet模型其深度仅仅增加了3层,其对图像的特征描述及提取能力仍然十分有限。4.3.4基于卷积神经网络的图像分类GoogLeNet模型:是ILSVRC2014计算机视觉竞赛冠军网络,拥有超过2300万个参数。其最大特点是引入Inception
模块,该模块有四个分支,分别进行不同的操作,提高了参数利用效率。原因在于允许输出通道间信息组合且用1×1
卷积核降维减少参数量。GoogLeNet
深度达22
层,参数量仅为Alexnet的1/12,计算量减小且图像分类精度提升。但进一步加深层次困难,因模型层次加深会使梯度弥散问题严重,网络难以训练。图4-2Inception模块4.3.4基于卷积神经网络的图像分类VGGNet模型:它是ILSVRC2014的亚军网络,由AlexNet模型发展而来。主要有两方面修改:一是用多个小滤波器卷积层替代大滤波器卷积层,增加了模型深度且卷积核较小;二是采用多尺度训练策略,对原始图像等比例缩放后随机选取224×224窗口,能更好地识别物体。虽未夺冠但与冠军成绩相近,原因是这两点改进提升了学习能力。不过该网络参数过多,训练速度慢,后续可在这方面继续优化。4.3.4基于卷积神经网络的图像分类ResNet模型:该模型是ILSVRC2015计算机视觉竞赛的冠军网络。该模型旨在解决“退化”问题,即当模型的层次加深后错误率却提高了。当模型变复杂时,随机梯度下降的优化变得更加困难,导致模型达不到好的学习效果。因此作者提出了Residual结构,如图4-3所示,即增加一个恒等映射,将原始输入X(恒等映射)添加到中间表示F(X)上,得到F(X)+X。这个操作允许网络学习如何调整输入数据,而不是学习如何从头开始表示整个函数H(X)。该模型的出现,使得网络模型深度在很大范围内不受限制(目前可达到1000层以上),对后续卷积神经网络的发展产生了深远的意义。图4-3Residual结构4.4图像分类实战4.4图像分类实战4.4.1数据准备4.4.2分类网络搭建4.4.3分类网络训练4.4.4测试与可视化4.4.1数据准备教程内容:本次教程采用的是CIFAR-10数据集。此数据集包含60000张32像素×32像素的图像,每张图像都有一个类别标注,共有10类,分成了50000张的训练集和10000张的测试集。图4-4展示了10个类别和对应的示例图片。4.4.1数据准备示例图片:图4-4CIFAR-10数据集4.4.1数据准备数据准备阶段一般需要完成数据下载、数据集划分和数据加载这3个步骤。数据下载首先数据下载可以通过datasets.CIFAR10()函数加载数据库;因为PyTorch的子库torchvision中包含有CIFAR-10数据,所以只需调用库datasets.CIFAR10()即可自动下载数据集,由于数据集较大,数据下载可能比较缓慢。其中datasets.CIFAR10()有四个参数分别是root、train、download、transform。4.4.1数据准备参数:root,表示cifar10数据的加载的相对目录;train,表示是否加载数据库的训练集,false的时候加载测试集;download,表示是否自动下载cifar数据集;transform,表示是否需要对数据进行预处理,none为不进行预处理。4.4.1数据准备数据集划分下载完数据的训练集和测试集后,还需将训练数据随机打乱分为训练集和验证集,以保证在训练时可以进行反向传播,得到最优模型参数。pytorch提供了随机采样的方法SubsetRandomSampler(),这个函数能够无放回地按照给定的索引列表采样样本元素。数据加载后为每个数据集创建DataLoader加载,这样完成了数据集的构建。Pytorch提供了生成batch数据的类,Pytorch用类torch.utils.data.DataLoader加载数据,并对数据进行采样,生成batch迭代器。其中DataLoader的参数如4-1表:4.4.1数据准备参数名称含义dataset要加载的数据集类型batch_set每个batch包含的样本数,默认为1shuffle是否在每个epoch中将数据进行打乱sampler从数据集中采样的策略batch_sampler与sampler类似,但一次返回一批样本的指标num_worker加载数据时使用多少个子进程collate_fn定义如何合并样本列表以形成一个mini-batchpin_memory如果为true,则数据加载器会将张量复制到CUDA固定内存中,然后返回它们drop_last如果设定为true,则最后一个不完整的batch将被丢弃,确保每个batch都包含完整的样本表4-1DataLoader的参数4.4.1数据准备输出结果:图4-5训练集样本图像4.4.2分类网络搭建在第3章我们知道了PyTorch中已有封装好的库可以调用,我们仅需设计结构即可搭建出我们所需要的网络。本教程用了3层卷积层,3层池化层,两层全连接层,一层dropout层搭建卷积神经分类网络。搭建网络过程中使用的函数如表4-2所示。
表4-2分类网络搭建使用的函数4.4.2分类网络搭建可视化网络结构比直接输出可用更加高效的展现网络结构,这里介绍一种可视化工具PyTorchViz库。通过该库可以轻松地可视化PyTorch深度学习模型的结构,包括层、连接和数据流。首先通过pip安装PyTorchViz库,输入pipinstalltorchviz,安装成功后即可使用,代码如下:4.4.2分类网络搭建可视化运行效果:图4-6可视化网络效果4.4.3分类网络训练分类网络训练首先确定损失函数和优化函数,在此选择了交叉熵损失函数和随机梯度下降法优化函数。可以通过在PyTorch中直接调用Optim库进行反向传播实现。损失函数和梯度下降法优化函数初始化代码如下:注意:在模型开始训练前,还需要选择合适的训练次数,而训练次数的选择需要不断地尝试,一个合格的训练次数,训练集和验证集的损失是随着训练次数增加而减少的,如果验证损失不减少反而增加,则表明可能出现过拟合现象,也说明选择的训练次数不合格。importmatplotlibaspltfromtorchrision.utilsimportmake-gradimporttorch.optimasoptimcriterion=nn.CrossEntropyLoss()optimizer=optim.SGD(model.parameters(),Ir=0.01)4.4.4测试与可视化在测试集上测试训练好的模型,一个“合格”的CNN网络模型准确度大约70%。测试输出结果如下:从结果图可以看到大部分图像分类是正确的,仅红框处图像分类错误。图4-7可视化输出图像分类结果4本章总结本章对基于卷积神经网络的图像分类进行了介绍,首先介绍了图像分类常用的几种数据集,回顾了传统图像分类方法及其存在的问题,主要介绍了几种常用的图像分类方法。由于本章节主要针对的是使用卷积神经网络对图像进行分类,在介绍方法时着重阐述了深度学习方法在图像分类领域的发展现状。在未来的图像分类问题中,由于图像所包含的场景越来越多,对于所需求精度也越高,基于神经网络的图像分类技术会成为主流。第5章图像分割5.1概述5.2图像分割常用数据集5.3图像分割的常用方法5.4图像分割实战5.1概述5.1概述随着通信技术和硬件设备发展,图像在生活和生产中愈发重要,图像处理需求增加。人工智能兴起让机器拥有人类感知、理解和决断能力成研究热点,计算机视觉就是对生物视觉进行模拟。计算机视觉有三大分类任务:包括图像分类、目标检测和图像分割。图像分类为图像分配类别标签;目标检测需更强理解能力,识别类别并标记对象位置;图像分割主要有语义分割、实例分割和全景分割。图像语义分割将目标分类并标记像素,形成不同区域;实例分割更复杂,完成分割和目标检测,对同类不同目标分配不同语义标签;全景分割在实例分割基础上还对背景分割。图5-1计算机视觉三大分类5.1概述图5-23种分割的效果5.1概述由于语义分割能够对像素级别的信息进行理解分析,使得计算机不仅能够预测出图像中存在的物体类别,而且还能够预测到每个类别的具体位置,这就为计算机的决策提供了重要的先决条件。语义分割在现实生活中对需要用到图像理解的领域有着重要作用,例如在无人驾驶汽车、地理信息系统、医疗图像分析、农业等领域有很多实用价值,如图5-3所示。图5-3语义分割在不同场景中的应用5.1概述图像分割方法计算机视觉领域中,图像分割方法经过长时间的发展后可以归纳为两大类:一类是基于人工提取特征的传统图像分割方法;一类是基于深度卷积神经网络提取特征的图像语义分割方法。5.1概述传统的图像分割方法:基于阈值、边缘检测、区域和图论等四类方法。基于阈值的图像分割方法:选取一个或多个合适的阈值,通过比较阈值和像素灰度值将图像分类,常用方法有基于均衡直方图方法、基于最大熵方法、自适应阈值法。基于边缘检测的图像分割方法:利用图像中不同区域边缘像素灰度值突变分割图像,常用方法有基于梯度算子和Hough变换的方法。基于区域的图像分割方法:一种是相似相邻像素逐步合并为一个区域,代表方法是区域生长法;另一种是将大区域或整张图像逐步切割至所需分割区域,代表方法是区域分裂法。5.1概述基于图论的图像分割方法:为图像建立有权重的无向图,根据边的权值切割为若干子集,同一子集中的点相似度高,不同子集的点相似度低。
传统方法有什么缺点和局限?对图像要求高,只能针对特定要求的图像,对复杂场景的图像处理效果差,存在一定局限性。5.1概述卷积神经网络:随着深度学习的兴起,卷积神经网络(CNN)的出现极大地改变了图像分割的方法。2014年JonathanLong等人在VGG(VisualGeometryGroupNet)网络的基础上提出了全卷积神经网络(FullyConvolutionalNetwork,FCN),FCN将VGG网络的全连接层替换为卷积层,使得FCN能够处理任意分辨率的输入图像,然后采用反卷积将低分辨率的特征图恢复为输入图像大小,实现了端到端的语义分割,同时为了解决下采样过程中分辨率由高到低这个过程中空间信息的丢失,在上采样时使用跳跃连接恢复在下采样过程中丢失的空间特征信息。FCN作为首个使用卷积神经网络实现图像语义分割的方法,在图像语义分割方法研究上占有极其重要的地位。5.1概述FCN的缺点:没有利用全局上下文信息,小卷积核在复杂场景下提取局部特征易造成对全局理解偏差;随着不断卷积和池化,空间信息丢失严重,虽有长跳跃连接在上采样阶段恢复空间特征信息,但上采样跨度大且对下采样路径中的高分辨率特征利用不够,导致恢复的空间信息不充分。5.1概述感受野:感受野是卷积神经网络每一层输出的特征图上的像素点在原始输入图像上的映射的区域大小。感受野大小粗略地表明使用上下文信息的程度,大卷积核虽感受野大但有缺点。Google团队提出DeepLab系列模型,其中DeepLab--v1采用膨胀卷积扩大感受野,提升计算速度和准确率;DeepLab--v2提出ASPP模型,用不同膨胀率卷积核捕获多感受野信息并融合特征,还更换了特征提取网络;DeepLabV3++对ASPP进行改进,应用深度可分离卷积降低计算量。此外,为提高分割效果,PSPNet按金字塔结构融合多尺度特征图获取全局信息,RefineNet用级联反卷积网络获得多尺度上下文信息。5.1概述注意力机制计算机视觉中使用注意力机制来分配计算资源,以获得更有价值的上下文信息。SENet和CBAM是使用注意力机制的代表网络。SENet采用挤压激励模块计算通道权重增强网络表达能力CBAM在通道和空间维度设计注意力模块推断像素信息。
存在的问题?卷积运算存在局限,不能获得远距离像素关系且会增加计算量、降低效率,还会弱化与远距离像素建立的关系。下面提出一种优化网络:5.1概述NLNet是可捕获远距离依赖的自注意力模型,能得到更多全局信息提升计算机视觉任务效果。GCNet能获得与NLNet相近效果且减少大量计算。NLNet的优势:NLNet是自注意力模型,通过计算特定查询位置与其他所有位置依赖关系获得全局信息,提升图像分类、目标识别和语义分割等任务效果。GCNet的特点:GCNet能获得与NLNet相近效果同时减少大量计算。5.1概述编码器-解码器结构在深度学习图像分割中,编码器部分逐步提取和压缩图像特征,解码器部分恢复图像空间分辨率以获得精细分割结果。早期的网络结构:2015年,DeconvNet、SegNet和U-Net都是基于编码器解码器结构恢复特征图分辨率。DeconvNet由卷积和反卷积组成,使用VGG16网络和反池化上采样;SegNet与DeconvNet相似,用池化索引恢复特征值。但两者因未用长跳跃连接,分割效率不高。5.1概述U-Net及其优势:U-Net将解码器端低分辨率特征图上采样后与编码器端高分辨率特征图结合恢复空间信息,在医学图像上性能优异,被广泛应用。U-Net的改进:有学者堆叠多个U-Net成StackedU-Nets;MichalDrozdzal研究长跳跃连接和短连接,证明其有利于融合网络和加快收敛;U-Net++用嵌套密集跳跃连接,可恢复细粒度细节但计算复杂度大;MCAU-Net简化连接,用多尺度跳跃连接提高分割效果;PANet在解码器端提出GAU模块,利用高级语义特征指导低层特征。5.1概述U-Nets:有学者以U-Net堆叠的方式将多个U-Net堆叠成新的结构StackedU-Nets。U-Net++:它使用嵌套的、密集的跳跃连接取代U-Net中单一的跳跃连接,使解码器端相对丰富的语义特征能够融合来自编码器端的多个高分辨率特征中的细粒度信息特征。虽然嵌套的密集跳跃连接增强了网络的表达能力,但计算复杂度也增大了很多。MCAU-Net:简化了U-Net++中嵌套的、密集跳跃连接并使用了一种多尺度跳跃连接,在能充分利用编码器端不同分辨率的细粒度信息的同时,还能够利用解码器端高层、粗粒度的语义信息,在减少计算量的同时提高分割效果。PANet:在解码器端提出了全局注意力上采样模块(GlobalAttentionUpsampling,GAU),GAU提取高级语义特征的全局上下文的通道权重指导来低层特征。
5.2图像分割的常用数据集5.2图像分割常用数据集图像分割的常用数据集: PascalVOC系列数据集 MSCOCO数据集 Cityscapes数据集 SUN-RGB-D数据集5.2图像分割常用数据集1.PascalVOC系列数据集PascalVOC系列数据集中目前比较流行的是VOC2012和PascalContext。VOC2012数据集总计有21个类别(包括背景)。VOC2012分割数据集被分为训练和测试两个子集,分别有1464与1449张图像;PascalContext是PascalVOC2010数据集的扩展,包含10103张基于像素级别标注的训练图像,包含540个类别,其中59个类别是常见类别。2.MSCOCO数据集MSCOCO数据集是微软发布的包括图像分类、目标检测、实例分割、图像语义分割的大规模数据集。其中图像语义分割部分由80个类组成,包括训练集82783张图像、验证集40504张图像,测试集80000张图像。5.2图像分割常用数据集3.Cityscapes数据集Cityscapes数据集是一个大规模的城市道路和交通语义分割数据集,包含50个欧洲城市的不同场景、不同背景、不同季节的街景的33类标注物体。4.SUN-RGBD数据集SUN-RGBD数据集由四个RGB-D传感器得来,包含10000张RGB-D图像,图像尺寸与PascalVOC中的一致。5.3图像分割常用方法介绍5.3图像分割的常用方法介绍5.3.1传统的图像分割方法5.3.2基于深度学习的图像分割方法5.3图像分割的常用方法介绍图像分割常用方法可分为基于传统方法和基于深度学习方法。基于阈值的图像分割方法基于阈值的图像分割方法实质是通过设定不同的灰度阈值,对图像灰度直方图进行分类,灰度值在同一个灰度范围内的像素认为属于同一类并具有一定相似性,该类方法是一种常用的灰度图像分割方法。基于阈值的图像分割方法的关键是选取合适的灰度阈值,以准确地将图像分割开。5.3.1传统的图像分割方法
阈值T越大,分为目标类别的像素点就越多,图像逐渐由浅变深。图5-4不同阈值情况下的图像分割效果5.3.1传统的图像分割方法对于基于阈值的图像分割方法,根据不同的准则有不同的分类,常见的分类为:基于点的全局阈值分割方法、基于区域的全局阈值分割方法、局部阈值分割方法等。基于阈值的图像分割方法适用于目标灰度分布均匀、变化小,目标和背景灰度差异较明显的图像,简单易实现且效率高。然而该类法通常只考虑像素自身的灰度值,未考虑图像的语义、空间等特征信息,且易受噪声影响。对于复杂的图像,阈值分割的效果并不理想。因此,在实际的分割操作中,基于阈值的分割方法通常作为预处理方法或与其他分割方法结合使用。
5.3.1传统的图像分割方法基于边缘的图像分割方法在图像中若某个像素点与相邻像素点的灰度值差异较大,则认为该像素点可能处于边界处。若能检测出这些边界处的像素点,并将它们连接起来,就可形成边缘轮廓,从而将图像划分成不同的区域。根据处理策略的不同,基于边缘的图像分割方法,可分为串行边缘检测法和并行边缘检测法。串行边缘检测法:串行边缘检测法需先检测出边缘起始点,从起始点出发通过相似性准则搜索并连接相邻边缘点,完成图像边缘的检测。并行边缘检测法:并行边缘检测法则借助空域微分算子,用其模板与图像进行卷积,实现分割。5.3.1传统的图像分割方法在实际应用中,并行边缘检测法直接借助微分算子进行卷积实现分割,过程简单快捷,性能相对优良,是最常用的边缘检测法。根据任务的不同,可灵活选择边缘检测算子,实现边缘检测完成分割。常用的边缘检测微分算子有:Roberts、Sobel、Prewitt、LoG、Canny等。如图5-5所示,分别使用不同的微分算子对相同的图像进行处理,从图5-5可看出,相较于图像背景,经边缘检测算子处理后,水果的边缘轮廓相对清晰,实现了图像分割的目的。
5.3.1传统的图像分割方法图5-5采用不同微分算子时并行边缘检测法的图像分割效果5.3.1传统的图像分割方法基于区域的图像分割方法(1)基于区域的图像分割方法是:
根据图像的空间信息进行分割,通过像素的相似性特征对像素点进行分类并构成区域。根据区域思想进行分割的方法有很多,其中较常用的有区域生长法和分裂合并法。(2)区域生长法:
指的是通过将具有相似性质的像素点集合起来,构成独立的区域,以实现分割。具体过程:先选择一组种子点(单个像素或小区域)作为生长起点,然后根据生长准则,将种子点附近与其具有相似特征的像素点归并到种子点所在的像素区域内,再将新像素作为种子点,反复迭代至所有区域停止生长。区域生长法中种子点和生长准则的选取至关重要,直接影响分割效果。种子点的选取除了人工选取法外,还可以用算法自动选取;生长准则可根据图像的颜色、纹理、空间等特征信息设定。分裂合并法的实质是通过不断地分裂合并,得到图像各子区域。5.3.1传统的图像分割方法具体步骤为:先将图像划分为规则的区域然后根据相似性准则,分裂特性不同的区域,合并特性相同的邻近区域,直至没有分裂合并发生。该方法的难点在于初始划分和分裂合并相似性准则的设定。5.3.1传统的图像分割方法图5-6基于区域的图像分割方法分割效果5.3.1传统的图像分割方法基于聚类的图像分割方法基于聚类的图像分割方法原理:将具有特征相似性的像素点聚集到同一区域,反复迭代至收敛,划分图像区域实现分割。SLIC算法步骤:(1)将RGB图像转化到Lab颜色空间;(2)将像素点颜色特征和坐标组合成向量进行距离度量;(3)根据距离度量公式计算像素点之间的距离;(4)依据相似性准则对像素点进行聚类实现超像素分割。SLIC算法优势:基于聚类思想划分为超像素块,适用于多种计算机视觉应用,是经典图像处理手段;利用图像特征信息作为聚类准则,性能稳定且鲁棒性好。5.3.1传统的图像分割方法图5-7超像素SLIC算法图像分割效果5.3.1传统的图像分割方法基于图论的图像分割方法
基于图论的图像分割方法将分割问题转换成图的划分,通过对目标函数的最优化求解,完成分割过程,包括:GraphCut、GrabCut、OneCut等常用算法。其中,GraphCut算法基于图论的思想,将最小割(mincut)问题应用到图像分割问题中,可以将图像分割为前景和背景,是经典的基于图论的图像分割方法。下面以GraphCut算法为例:图5-8S-T图5.3.1传统的图像分割方法GraphCut算法的原理:寻找MinCut过程中不断迭代,求得能量损失函数的最小值,就可以实现目标与背景的分离,从而实现图像分割。其中:将图像映射为带有权重的无向图G=(V,E)(V是顶点集合,E是边集合)每个节点与终端节点S(Rp(1))和T进行连接形成边(Rp(0)),无向图就会形成两种顶点和边。Cut:边集合E中的所有边都断开;MinCut:Cut过程中其对应的边权值之和最小;5.3.1传统的图像分割方法GraphCut算法的图像分割效果:图5-9
GraphCut算法的图像分割效果5.3.2基于深度学习的图像分割方法本小节将重点介绍四种基于深度学习的经典分割方法:FCN、PSPNet、DeepLab和MaskR-CNN。FCN全卷积神经网络(FCN)是深度学习用于语义分割的开山之作,确立了图像语义分割(即对目标进行像素级的分类)通用网络模型框架。通常,卷积神经网络(CNN)经过多层卷积之后接入若干个全连接层,将卷积层产生的特征图映射成固定长度的特征向量进行分类。但FCN和CNN不同,如图5-10所示,FCN采用“全卷积”方式,在经过8层卷积处理后,对特征图进行上采样实现反卷积操作,然后通过SoftMax层进行分类,最后输出分割结果。图5-10语义分割模型FCN5.3.2基于深度学习的图像分割方法经过多次卷积、池化得到不同层级的特征图:图5-11FCN结构图5.3.2基于深度学习的图像分割方法通过把深层数据与浅层信息相结合,再恢复到原图的输出,得到更准确的分割结果,根据所利用的池化层的不同,分为FCN-32s、FCN-16s、FCN-8s。图5-12不同FCN模型分割效果FCN-8s
模型由于整合了更多层的特征信息,相比于FCN-32s和FCN-16s可以分割得到更加清晰的轮廓信息,分割效果相对较好。
5.3.2基于深度学习的图像分割方法
FCN模型存在哪些问题?FCN模型在图像分割中存在因多次卷积操作导致特征图尺寸远小于输入图且丢失底层图像信息从而影响分割精度的问题。为此采用Skip策略,将不同层级的特征图进行融合后上采样分类,得到FCN--32s、FCN--16s、FCN--8s模型。通过深层数据与浅层信息结合恢复原图输出可得到更准确分割结果,其中FCN--8s整合更多层特征信息分割效果相对较好。FCN能进行像素级分类,是首个端到端分割网络模型,在分割领域有重要意义,但也存在网络较大对图像细节不敏感、像素点关联性低导致目标边界模糊等问题。
FCN-8s模型图像分割效果5.3.2基于深度学习的图像分割方法图5-13FCN-8s模型图像分割效果5.3.2基于深度学习的图像分割方法PSPNet金字塔场景解析网络(PSPNet)整合上下文信息,充分利用全局特征先验知识,对不同场景进行解析,实现对场景目标的语义分割。如图5-14所示,给定输入图像,首先使用CNN得到最后一个卷积层的特征图,再用金字塔池化模块(pyramidpoolingmodule)收集不同的子区域特征,并进行上采样,然后串联(concat)融合各子区域特征以形成包含局部和全局上下文信息的特征表征,最后将得到的特征表征进行卷积和SoftMax分类,获得最终的对每个像素的预测结果。(a)原始图像
(b)标注图
(c)PSPNet模块5.3.2基于深度学习的图像分割方法PSPNet针对场景解析和语义分割任务,能够提取合适的全局特征,利用金字塔池化模块将局部和全局信息融合在一起,并提出了一个适度监督损失的优化策略,在多个数据集上的分割精度都超越了FCN、DeepLab-v2、DPN、CRF-RNN等模型,性能良好。图为PSPNet模型对不同目标(牛、飞机、人等)的分割效果。前景目标分割精细,但对目标间有遮挡的情况处理得不够理想,如图中(第3行)桌子受遮挡影响,边缘分割得不够精准。图5-15PSPNet模型图像分割效果5.3.2基于深度学习的图像分割方法DeepLab系列模型DeepLab系列模型是LiweiWang、ChenLiang、ChenxiLiu和AlanYuille等提出的深度卷积神经网络(deepconvolutionalneuralnetwork,DCNN)模型,其核心是使用空洞卷积,即采用在卷积核里插孔的方式,不仅能在计算特征响应时明确地控制响应的分辨率,而且还能扩大卷积核的感受野,在不增加参数量和计算量的同时,能够整合更多的特征信息。最早的DeepLab模型如图所示,输入图像经过带有空洞卷积层的DCNN处理后,得到粗略的评分图,双线性内插值(Bi-linear)上采样后引入全连接条件随机场(conditionalrandomfields,CRF)作为后处理,充分考虑全局信息,对目标边缘像素点进行更准确地分类,排除噪声干扰,从而提升分割精度。5.3.2基于深度学习的图像分割方法图5-16原始DeepLab模型5.3.2基于深度学习的图像分割方法DeepLab-v2在DeepLab模型基础上将空洞卷积层扩展为空洞空间金字塔池化(atrousspatialpyramidpooling,ASPP)模块,级联多尺度空洞卷积层并进行特征图融合,保留全连接CRF作为后处理。图5-17DeepLab-v2模型结构5.3.2基于深度学习的图像分割方法DeepLab-v3+模型采取编解码结构:图5-19DeepLab-v3+模型结构图5.3.2基于深度学习的图像分割方法DeepLab-v3+模型对不同目标(人、马、狗等)的分割效果如图:图5-20DeepLab-v3+模型分割效果图5.3.2基于深度学习的图像分割方法从图中观察,分割后的图像中能够明显区分出前景目标和背景,目标边缘轮廓清晰,说明该模型能够实现细粒度的分割。5.3.2基于深度学习的图像分割方法
5.3.2基于深度学习的图像分割方法图5-21MaskRCNN框架5.3.2基于深度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 八年级地理下册 6.3欧洲西部教学设计 中图版
- 未来项目管理考试能力试题及答案
- 本科论文课题申报书
- 项目管理新纲要试题及答案
- 准备项目管理专业人士考试需知试题及答案
- 2021年国家公务员考试银保监会财经岗考试真题及答案
- 2024-2025学年辽源市重点中学高三压轴卷语文试卷含解析
- 项目实施过程中的关键节点管理试题及答案
- 掌握注册会计师考试的关键思维方式与试题及答案
- 财务管理案例研究试题及答案2025
- 2024北京一零一中初二(下)期中数学试题及答案
- 2025-2030中国考试系统行业市场发展现状分析及发展趋势与投资前景研究报告
- GB/T 45456-2025包装折叠纸盒折痕挺度的测定
- 国企薪酬福利体系与市场化改革
- 2025届江苏省江阴市四校高三下-第四次月考数学试题试卷
- 2025年04月国家税务总局税务干部学院公开招聘事业单位工作人员36人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年郑州理工职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- Unit 4 Healthy food B Lets learn(教学设计)-2024-2025学年人教PEP版(2024)英语三年级下册
- 《自由飞翔之鸟》教学课件-2024-2025学年岭南美版(2024)初中美术七年级下册
- 腰椎间盘突出症试讲教案
- 2024-2024年上海市高考英语试题及答案
评论
0/150
提交评论