人工智能应用基础课件项目4 计算机视觉

上传人：h*** IP属地：山东上传时间：2025-04-08 格式：PPTX 页数：45 大小：10.14MB 积分：12 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人工智能应用基础授课人：周老师

技术篇项目4 计算机视觉01项目描述05项目拓展02项目分析06项目小结03相关知识07项目练习04项目实施目录项目描述01小明的手机相册中不仅有许多小猫、小狗的照片，也有大量人物、汽车、飞机等照片，它们有些同时出现在一张照片里面。虽然小明已经知道，识别照片是什么类别属于一个图像分类任务，但是当照片里面有多个物体时，比如即有小猫又有小狗，那么神经网络要怎么对这张照片进行分类呢？小明非常想了解这背后的技术。4.1项目描述02项目分析我们经常拍摄或者看到的图像往往都是具有多个类别的物体，当一张图像中包含多个类别的很多物体时问题就变得复杂了，小明的任务可以看作是目标检测，找出图像中不同物体的位置并判断其类别。要掌握以上各种图像识别的知识，需要学习以下内容：1.

卷积神经网络2.

图像分类3.目标检测4.2项目分析03相关知识识别动物类别假设有一个做好标记的动物图像数据集，目的是要训练一个神经网络来识别出不同动物的类别。经过前面的学习，我们可以设计一个深层神经网络。数据集中图片的像素是100×100，为了能输入到神经网络中，将图片中的每列像素依次头尾拼接成一个1×10000的一维数组，刚好对应输入层的10000个神经元。4.3相关知识模式检测对于这个模型中的神经元而言，它要做的就是检测图像里面有没有出现一些特别重要的模式（特征），这些模式代表了某种动物的特征。4.3相关知识特征提取人类在判断一个物体的时候，往往也是抓最重要的特征，看到这些特征以后，就会直觉地看到了某种物体。对于机器而言，这是一个有效的判断图像中物体的方法，这个过程就是前面章节所说的特征提取。4.3相关知识深层特征提取各个层检测的特征并不是一次就能识别出鸟嘴这样具有抽象意义的高级特征的，而是随着网络的深度逐渐从简单的边缘和颜色信息过渡到更复杂的形状和物体特征。4.3相关知识人工神经网络的缺陷在神经网络中，我们用每一层的一个神经元来判断某种特定模式是否出现，也许并不需要每个神经元都去看一张完整的图像。4.3相关知识人工神经网络的缺陷神经元接受的输入是整个图像，但它自己的感受范围是有限的，只能检测出一定区域的鸟嘴。因此，出现在不同区域的同一个模式，可能需要多个神经元。而且，图像输入到神经网络中却需要被拉成一条直线，这也破坏了图像本身的平面结构，可能会造成信息损失。4.3相关知识卷积神经网络一个新的神经网络结构，叫做卷积神经网络（ConvolutionalNeuralNetwork，CNN），是一种现在非常典型的网络架构，常用于图像识别任务中。4.3相关知识卷积神经网络整个网络分为两部分，前面由多个卷积层组成，用于接收输入的图像，并对图像中的特征进行提取与转换，后面一部分是由全连接层组成，跟我们前文介绍的神经网络结构相同，用于接收卷积层提取的特征，并输出分类的结果4.3相关知识卷积神经网络内部组成在输入层，神经元组成的平面必须与输入的图像大小保持一致才能完整的接收图像的每个像素。在层与层的连接部分，神经元没有与上一层的所有神经元保持连接，而是采用了部分连接，这就是我们分析的，图像中并不是所有区域都存在我们要提取的特征，不需要将所有神经元都进行连接，这样可以减少模型的参数。4.3相关知识卷积操作输入一张彩色图片，在卷积层，由于只有部分连接，因此该层上的一个神经元只能检测到输入图片的一个有限区域，并通过一个叫做卷积的操作来计算这个区域有没有相关的特征，如果有的话这个神经元就会被激活，并传递到下一层的神经元继续检测4.3相关知识滑动扫描神经元会按从左到右、从上到下的顺序依次检测对应的区域，直到图片中所有区域都检测完毕，这种检测的方式叫做滑动扫描。扫描过程中，如果某个神经元的扫描区域内存在待检测的特征，该神经元就会被激活。4.3相关知识垃圾分类我们的生活垃圾种类繁多，自己在分类时经常遇到不易分类的垃圾，很多人会产生选择困难，于是可以让卷积神经网络来对垃圾图片自动分类。数据集总共5万张图片的垃圾分类数据集，给这些图片标记出5个类别，分别是硬纸、玻璃、金属、报纸和塑料，每个类别有1万张图片。4.3相关知识垃圾分类模型首先用训练集进行训练，训练完成后利用测试集评价模型效果。整体结构依然是先用卷积层提取特征，然后将提取的特征输入到全连接神经网络进行分类，最后的输出层有5个神经元，分别对应垃圾的5个类别。4.3相关知识螺母对比除了对单张图片分类，我们还可以使用孪生网络，同时对两张图片进行对比。孪生网络包含了两个在结构上一模一样的卷积模块，它们是卷积神经网络去掉最后的全连接层后留下的卷积层4.3相关知识目标检测利用卷积神经网络的分类能力，将输入的图像划分出多个窗口，针对每个窗口进行特征提取，识别出窗口中内容的类别。在输出端增加一个全连接层分类器，用于输出目标的位置信息，位置可以表示为框住物体的矩形窗口的坐标，这样我们的模型就能同时找出图像中某一区域物体的类别和位置了。4.3相关知识目标检测我们不知道图像中哪些位置会有物体，也不知道物体的大小，所以必须在图像中用不同大小、不同长宽比的候选框在整幅图像上进行穷尽式的扫描，有时候多个窗口会重叠找出同一个物体，每个窗口都会被卷积神经网络进行分类并输出坐标，这种情况需要将输出的多个窗口根据坐标合并成一个窗口。4.3相关知识缺陷检测在工业自动化和质量控制领域，物体表面缺陷检测技术扮演着至关重要的角色。我们可以利用卷积神经网络分类和定位各种器件的表面缺陷，如划痕、凹陷、裂纹等。4.3相关知识缺陷检测先是收集数据并做标记，目标检测的数据需要做两个标记，一个是将图像中待检测的物体用矩形窗口框出来，并记录坐标值。另一个是要标记该窗口内的物体类别，图中共标记了缺色、凹陷、污渍、划痕、裂纹5个类别。4.3相关知识缺陷检测训练模型时，输入层接收标记好的表面缺陷数据，卷积层通过滑动窗口在数上扫描各种大小长宽不同的区域，对其进行特征提取，然后在全连接层预测类别与位置坐标，并与标记值进行比较，根据误差修正模型参数，直到训练完成。4.3相关知识车牌识别用神经网络来进行车牌识别，需要将这个任务看作两个阶段的目标检测，第一个阶段检测出车牌，第二阶段在已检测出的车牌上，再次检测出车牌号。4.3相关知识具体有以下几个步骤：1）收集车辆照片并标记出其中的车牌和车牌号信息；2）利用标记的数据训练两个神经网络，分别用来检测车牌与车牌上的号码；3）将训练好的模型进行车牌识别任务。车牌识别因为有两个目标检测任务，所以数据的标记也有两类，首先要在汽车图片中标记出车牌，包括类别和定位信息，这类数据只针对整个车牌，不包括车牌上的字符。然后对车牌图片中的字符进行标记，同样包括字符的类别和定位信息。4.3相关知识车牌识别得到标记数据后，先用车牌数据训练第一个模型A，使其学会从汽车图像中检测出车牌，然后用车牌号数据训练第二个模型B，使其学会从车牌图像中检测出车牌号码。4.3相关知识车牌识别训练完成后即可用测试样本对其进行测试，将汽车图片输入第一个模型检测出车牌，根据预测车牌位置坐标从原始输入图片中截取出车牌部分，输入到第二个模型进行车牌号的检测。4.3相关知识04项目实施打开EasyDL平台进入百度智能云平台的动物识别页面：/product/imagerecognition/animal，里面有一个动物识别的体验功能。——“动物识别”4.4项目实施上传图片数据准备一些动物图片进行识别，测试一下能不能正确识别。——“动物识别”4.4项目实施查看结果可以看到各个图片的识别效果，无论是一张图里有多个动物还是有人类，模型都能准备的预测出正确的类别，但对于卡通类型的动物图片却不能很好的识别，大家想一想这是为什么呢？——“动物识别”4.4项目实施进入百度智能云平台进入百度智能云平台的人体关键点检测页面：/product/body/pose，里面同样有一个人体关键点检测的体验功能。不仅能检测出图像中的所有人体，还能精准定位人体的21个主要关键点，包含头顶、五官、颈部、四肢主要关节部位等。可以进入这个页面，点击本地上传按钮，试着上传一张自己和朋友的照片，查看一下能否检测出人体的各个关键部位。——“人脸关键点检测”4.4项目实施05项目拓展目标检测任务中，在寻找图像中的目标是，采用的是滑动窗口的方法，滑动窗口是一个个大小不一的矩形框，用这个框去遍历所有的位置以及所有可能的大小。遍历得越精确，检测器的精度就越高。但这也就带来一个问题就是：检测的耗时非常大。比如输入图片大小是800×1000，也就意味着有800000个位置。窗口大小最小是1×1,最大800×1000，所以这个遍历的次数几乎是无限次的。我们还有一种方法就是，将输入图像分为S×S个网格，每个网格检测自己范围内的一个物体和他们的边界框，这样可以节省很扫描时间。你还能想出其它检测扫描时间的方法吗？4.5项目拓展06项目小结在卷积神经网络中，卷积操作是指将一个可移动的小窗口在图像上进行滑动寻找特征，然后一层层传递下去，直到全连接层进行分类。利用卷积神经网络，我们最终完成了目标检测任务，可以在一张图像中找出多个物体并预测该物体的坐标。在进行目标检测任务之前，我们首先得学会图像分类任务，这个任务的特点是输入一张图片，输出是它的类别。因为目标检测本质上就是对多个物体的分类，另外多了一个预测边界框的任务。最后我们了解了利用卷积神经网络进行车牌识别的案例。4.6项目小结07项目练习一、选择题

1. 在图像识别任务中，卷积神经网络的哪一层主要负责特征提取？（

）

A. 输入层B. 卷积层C. 输出层D. 全连接层

2. 图像识别任务中，哪个步骤通常涉及将图像调整为固定大小？（

）A. 数据预处理B. 特征提取C. 分类D. 测试3. 哪种神经网络结构特别适用于处理具有矩形结构的图像数据？（

）A. 感知机B. 全连接神经网络C. 卷积神经网络D. 神经元4.7项目练习一、选择题

4. 识别一张图像中有多少个物体及其所处位置，称为什么任务？（

）

A. 图像识别B. 图像分类

C. 目标定位D. 目标检测

5. 在用CNN进行图像分类时，全连接层的主要作用是什么？（

）A. 特征提取

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能应用基础课件项目4 计算机视觉

文档简介

温馨提示

最新文档

评论

人工智能应用基础 课件 项目4 计算机视觉

文档简介

温馨提示

最新文档

评论

相关文档

人工智能应用基础课件项目4 计算机视觉