图像处理与机器视觉 课件 第12章 目标分类、检测与分割_第1页
图像处理与机器视觉 课件 第12章 目标分类、检测与分割_第2页
图像处理与机器视觉 课件 第12章 目标分类、检测与分割_第3页
图像处理与机器视觉 课件 第12章 目标分类、检测与分割_第4页
图像处理与机器视觉 课件 第12章 目标分类、检测与分割_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二章图像分类、检测与分割

1、图像分类2ILSVRC的历届冠军

数据集:MNIST是手写数字的分类标准,包含60000个训练数据,10000个测试数据,图像均为灰度图;MNIST和CIFAR数据集都只有60000张图,对于10分类这样的简单的任务来说足够;ImageNet数据集在2009年发布,并且从2010年开始每年举办一次ImageNet大规模视觉识别挑战赛,即ILSVRC。ImageNet数据集总共有1400多万幅图片,涵盖2万多个类别,在论文方法的比较中常用的是1000类的基准。

1.1、卷积神经网络3CNN结构:卷积神经网络主要由输入层、池化层、全连接层、输出层等结构组成

1.1、卷积神经网络4卷积层是卷积神经网络中最重要的层之一,它使用卷积操作来提取输入图像的特征

1.1、卷积神经网络5激活函数是神经网络中的一个重要组成部分,在每一层神经网络的后面都会跟有一个激活函数,其作用是帮助网络学习数据中的复杂模式,使神经网络可以逼近更复杂的函数常见的激活函数有ReLU函数、Sigmoid函数、Tanh函数

1.1、卷积神经网络6池化层是卷积神经网络中的一种基本层级,它通过将卷积层的特征图进行下采样,减小特征图的维度,从而降低模型的复杂度,减少参数数量和计算量,同时池化层还可以增强特征的鲁棒性,提高模型的泛化能力池化层一般分为最大池化和平均池化两种类型

1.1、卷积神经网络7全连接层是神经网络的一种基本层,也称为密集连接层(Denselayer)。该层中的每个神经元都与前一层的每个神经元相连,因此也被称为“全连接”。

1.2、AlexNet8AlexNet是一种经典的深度卷积神经网络,由五个卷积层和三个全连接层组成,它在图像分类任务中具有重要地位AlexNet使用ReLU激活函数来引入非线性特性有助于网络更好地拟合复杂的数据模式。AlexNet在卷积层之间使用LRN进行局部响应归一化有助于抑制特征图的竞争,提高网络的鲁棒性。AlexNet在全连接层中引入了Dropout正则化,以减少过拟合。Dropout在训练时随机关闭一部分神经元,有助于提高模型的泛化能力。AlexNet在训练时使用两个GPU,这是当时的一项创新,加速了训练过程

1.3、ResNet9ResNet是一种深度卷积神经网络架构,其关键创新是引入了残差块(ResidualBlock)或残差连接(ResidualConnection),以有效地解决深度神经网络中的梯度消失问题ResNet-34网络结构ResNet残差块

1.4、案例:基于CNN的手写数字识别10MNIST数据集(MixedNationalInstituteofStandardsandTechnologydatabase)是一个用来训练各种图像处理系统的二进制图像数据集,广泛应用于机器学习中的训练和测试。共有70000张图像,其中训练集60000张,测试集10000张

1.4、案例:基于CNN的手写数字识别11步骤:(1)数据准备通过torchvision.datasets.MNIST加载了MNIST数据集,包括训练数据和测试数据(2)模型定义CNN的自定义卷积神经网络模型。模型包括两个卷积层(conv1和conv2),两个全连接层(out1和out2),以及一个dropout层。在每个卷积层之后都使用了ReLU激活函数,而在全连接层之间也使用了ReLU激活函数。模型的最后一层是一个具有10个输出的全连接层,对应于0到9的数字类别。(3)模型训练train函数用于训练模型(4)模型评估test函数用于评估模型性能AccuracyPrecisionRecall97.40%97.32%97.33%

2、目标检测12目标检测旨在图像中检测并定位一个或多个感兴趣的物体,然后为每个检测到的物体分配一个类别标签深度学习目标检测包括一阶段和二阶段检测算法PascalVOC,ILSVRC,MS-COCO,KITTI数据集是目标检测使用最多的四大公共数据

2.1、两阶段目标检测算法-R-CNN13R-CNN结构是典型的两阶段目标检测框架,由RossGirshick等人在2014年提出R-CNN的提出标志着深度学习方法开始在目标检测领域取得成功包括候选区域生成(第一阶段)和目标分类与边界框回归(第二阶段)。

2.2、两阶段目标检测算法-Faster-RCNN14Faster-RCNN算法是R-CNN系列的目标检测算法,它是在Fast-RCNN算法的基础上对其进行了改进后得到的,用区域生成网络取代了原先的selectivesearch方法,从而将候选框的数目从最初的大约2000个降低到300个,并且候选框的质量也有了显著的改善,可以有效地提升训练和测试时的速度。Faster-RCNN的模型结构可以分成四个模块:卷积层(ConvLayers)、RPN网络(RegionProposalNetwork)、池化层ROIPooling、分类回归层(Classificationandregression)

2.3、单阶段目标检测算法-SSD15SSD是一种单阶多层的目标检测模型,网络结构最早由WeiLiu提出,由深度卷积神经网络(DCNN)和特定的检测层组成。SSD采用预训练的深度卷积神经网络作为基础网络,如VGGNet或ResNet,以便从图像中提取高级语义特征。然后,SSD添加了一系列的特征提取层,通过逐渐减小特征图的尺寸,使网络能够检测不同尺度的目标。

2.4、单阶段目标检测算法-YOLO系列16YOLO系列是单阶段检测中较为主流的算法,目前YOLO系列仍在迭代YOLOv8是Ultralytics公司在YOLOv5基础上推出的更新版本,其在Backbone、Neck、Head等部分均有改动和创新,提高了其检测速度和精度。YOLOv8的发布版本有五种,其模型从小到大分别为YOLOv8-n、YOLOv8-s、YOLOv8-m、YOLOv8-l、YOLOv8-x

2.3、单阶段目标检测算法-YOLO系列17

2.5、案例:基于FasterR-CNN算法的目标检测18VOC07+12数据集(训练数据:16551张图像,共40058个目标。测试数据:4952张图像,共12032个目标)PASCALVOC挑战赛(ThePASCALVisualObjectClasses)是一个世界级的计算机视觉挑战赛19(1)数据准备VOC数据集下载地址如下:链接:/s/1STBDRK2MpZfJJ-jRzL6iuA提取码:vh7m修改voc_annotation.py里面的annotation_mode=2,运行voc_annotation.py生成根目录下的2007_train.txt和2007_val.txt。(2)参数文件下载权重包括voc_weights_resnet.pth或者voc_weights_vgg.pth以及主干的网络权重。链接:/s/1IiBMIyw8bF132FQGz79Q6Q提取码:dpje(3)模型训练rain.py的默认参数用于训练VOC数据集,直接运行train.py即可开始训练(4)模型评估运行get_map.py即可获得评估结果,评估结果会保存在map_out文件夹中

2.5、案例:基于FasterR-CNN算法的目标检测20

2.5、案例:基于FasterR-CNN算法的目标检测APscore_threholdF1RecallPrecisionaeroplane81.47%0.50.6982.46%58.60%bicycle88.13%0.50.7688.43%67.27%bus86.95%0.50.7189.20%59.19%car88.58%0.50.7089.51%56.97%dog89.70%0.50.7690.39%65.87%horse90.23%0.50.7689.94%65.76%...

mAP80.27%

2.6、案例:基于YOLOv8的目标检测21数据集:COCO128数据集,该数据集包含2017年COCO的前128张图像,该数据集使用相同的128张图像进行训练和测试。22(1)下载预训练模型在YOLOv8的GitHub开源网址上下载对应版本的模型/ultralytics/assets/releases(2)训练训练模型命令如下:yolotask=detectmode=trainmodel=yolov8x.yamldata=mydata.yamlepochs=300batch=1(3)验证输入下面的命令进行模型的验证,这里的models为训练的最好的那一组权重;Yolodetectvaldata=datasets/Apple/apple.yamlmodel=runs/detect/train/weights/best.ptbatch=4

2.6、案例:基于YOLOv8的目标检测

2.6、案例:基于YOLOv8的目标检测23(1)真实值

(2)预测值

3、图像分割24图像分割是计算机视觉领域的一个重要任务,其目标是将图像分成多个子区域,每个子区域通常具有相似的语义或特征。基于深度学习的图像分割技术主要分为:语义分割、实例分割、全景分割。1.语义分割FCN网络是基于深学习度的语义分割技术的开山之作。2017年PSPNet对FCN网络存在的分割问题进行了改进,PSPNet将图像感受野增大,包含了图像的浅层深层特征。U-Net网络是2015年发表在MICCAI上的文章,是基于FCN架构的改进,结合了图像的底层和高层信息,广泛应用在解决医学领域的图像处理问题中。DeepLab是谷歌团队基于CNN开发的语义分割模型,目前有四个算法,最新算法是DeepLabv3+。

3、图像分割252.实例分割实例分割的研究长期以来都有着两条线,分别是自下而上的基于语义分割的方法和自上而下的基于检测的方法,这两种方法都属于两阶段的方法。3.全景分割全景分割任务,全景分割方法通常包含三个独立的部分:objectinstancesegmentation部分,stuffsegmentation部分,两子分支结果融合部分。

3、图像分割263.全景分割全景分割任务,全景分割方法通常包含三个独立的部分:objectinstancesegmentation部分,stuffsegmentation部分,两子分支结果融合部分。

3.1、U-Net系列27U-Net网络结构最早由Ronneberger提出,是一个用于医学图像分割的全卷积神经网络,形似英文字母U所以被称为U-Net

3.1、U-Net系列28Oktay等人[38]设计了一种新的注意力门模型(Attentiongate,AG),用于自动聚焦于不同形状和大小的目标特征。将U-Net改进为AttentionU-Net,增加了模型对病灶特征的敏感度

3.2、案例:基于U-Net的新冠肺炎CT影像病灶分割29数据集:COVID-19segmentation数据集如图12-25所示,包含由意大利医学和介入放射学协会收集的100张来自不同新冠肺炎患者的轴向二维CT图像30(1)配置参数的解析:定义defparse_args()函数,通过解析命令行参数,获取模型训练所需的配置参数,包括模型名称、数据集、损失函数、优化器、学习率、批量大小、训练轮数等。(2)构建U-Net模型,载入模型(3)数据加载:使用数据加载器加载训练集和验证集数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论