人工智能应用概论(第2版) 课件 第八章:计算机视觉应用_第1页
人工智能应用概论(第2版) 课件 第八章:计算机视觉应用_第2页
人工智能应用概论(第2版) 课件 第八章:计算机视觉应用_第3页
人工智能应用概论(第2版) 课件 第八章:计算机视觉应用_第4页
人工智能应用概论(第2版) 课件 第八章:计算机视觉应用_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章

计算机视觉

《人工智能应用概论(第2版)》RengongZhinengYingyongGailun“十四五”广西壮族自治区职业教育规划教材

新编21世纪高等职业教育精品教材·通识课系列Part0101计算机视觉技术概述Part0202计算机视觉的工作原理Part0303计算机视觉的典型实践案例目

录contentPart01计算机视觉技术概述尝试过大型超市刷脸支付吗?你有关注/体验现在智能汽车的自动驾驶么?【课程导入】【生活案例】微信公众号,搜索“讯飞Ai体验栈”,身份证识别、银行卡识别、颜值分析、速算题批改【课程导入】1.1计算机视觉的概念计算机视觉是人工智能的一个分支,是使用计算机模仿人类视觉系统的一门科学。它是用计算机代替人眼,使用图像处理技术、深度学习算法进一步对目标进行识别、跟踪和测量等。这涉及开发能够处理和理解图像和视频的算法、模型和系统,使机器能够从视觉数据中“看到”和提取有用的信息,并应用于从简单的图像识别(计算机视觉领域最为经典的研究问题,莫过于猫狗分类了)到复杂的场景理解(如自动驾驶汽车识别路上的行人和障碍物)的各种任务。1.2计算机视觉的发展计算机视觉的概念可以追溯到20世纪60年代,主要集中在基本的图像处理和模式识别。近十年来,深度学习的兴起极大地推动了计算机视觉技术的发展,特别是卷积神经网络(CNNs),在图像识别和分类等任务中取得了革命性的进展,这使得计算机视觉应用变得更加广泛和强大。1.2计算机视觉的发展随着GPT-4V、Gemini等大模型的惊艳亮相,更是使得计算机视觉的能力表现跃上了新台阶。1.2计算机视觉的发展随着GPT-4V、Gemini等大模型的惊艳亮相,更是使得计算机视觉的能力表现跃上了新台阶。1.2计算机视觉主要技术步骤计算机视觉技术的主要步骤包括图像预处理、特征提取、特征选择、(图像识别、目标检测和图像分割)等。这些步骤共同构成了计算机视觉处理流程的核心,使得机器能够理解并解释视觉信息,从而实现各种复杂的任务。图像预处理特征提取特征选择图像识别目标检测图像分割1.3计算机视觉主要技术步骤图像预处理是计算机视觉技术的第一步,旨在提高图像质量和可处理性。常见的预处理操作包括灰度化、二值化和滤波等。例如,灰度化是将彩色图像转换为灰度图像的过程。特征提取是从经过预处理的图像中提取有用信息的过程,用于后续的图像识别或分类任务。例如,HOG(HistogramofOrientedGradients)特征提取方法可以有效检测图像中的边缘和纹理信息。特征选择则从提取的特征中筛选出最具有区分性和代表性的特征,以提高最终任务的性能。从车图片选择出车牌。1.3计算机视觉主要技术步骤图像识别是计算机视觉的核心任务之一,目的是识别图像中的对象或场景。例如,通过训练卷积神经网络(CNN),可以有效地对图像进行分类。在图像识别过程中,算法需要面临视点变化、尺度变化、类内变化、图像变形、遮挡、照明条件和背景杂斑等多个挑战。如左图使用图像识别来识别车牌图片中的文字。1.4计算机视觉关键技术-卷积神经网络(CNN)目前较为流行的图像分类架构是卷积神经网络(CNN)-一将图像送入网络,然后网络对图像数据进行分类。卷积神经网络从输入“扫描仪"开始,该输入“扫描仪”也不会一次性解析所有的训练数据。比如输入一个大小为100*100的图像,你也不需要一个有10,000个节点的网络层。相反,你只需要创建一个大小为10*10的扫描输入层,扫描图像的前10*10个像素。然后,扫描仪向右移动一个像素,再扫描下一个10*10的像素,这就是滑动窗口。Part02计算机视觉的工作原理2.2卷积神经网络计算机视觉的相关技术在近年来取得了显著进步,这主要依靠以卷积神经网络(CNN)为代表的深度学习技术。CNN的组成要素并不复杂。例如:一个典型的用于图片分类的CNN网络主要包含输入层、卷积层、激活函数、池化层、全连接层,即INPUT、CONV、RELU、POOL、FC,如图8-6所示。2.1数字图像(1)图像获取:根据实际需要,获取数字图像或视频,它们可能来自不同的采集设备,例如相机、手机、无人机、卫星、传感器、在线网站等。2.2卷积神经网络-(2)卷积层是卷积网络的核心,使用卷积核对图片特征选取。由一系列可以学习的滤波器(也称卷积核)集合构成,大多数计算都是在卷积层中进行的。每个滤波器在宽度和高度上都比较小,但是深度输入和数据保持一致。当滤波器沿着图像的宽和高滑动时,会生成一个二维的激活图。2.2卷积神经网络(2)卷积核运算的结果就是特征,网络中不同层次的卷积核得到的特征粒度不同。一般而言,网络前端获取的主要是低层特征(如图像中的文理、边缘等),后端获取的主要是高层特征(如物体的形状轮廓)。卷积神经网络特征提取效果如图8-8所示。2.2卷积神经网络(3)池化层的最主要作用就是下采样(压缩图像),两种池化法(最大池化、平均池化)。4*42*2池化层2.2卷积神经网络(4)连接层会把以前的局部特征重新通过权值矩阵组装成完整的图(见图8-11)。因为最后进行预测时用到了所有的局部特征,所以叫全连接(神经网络层)。2.2卷积神经网络最后我们把输入层、卷积层、激活函数、池化层以及全连接层连接一起,即可得到一个例如图8-12所示的卷积神经网络模型2.3常见卷积神经网络卷积神经网络(CNN):是处理图像分类问题最常用的技术之一,通过卷积层自动从图像中提取特征,能够识别图像中的轮廓、形状、颜色和纹理,适用于图像识别、面部识别等场景。2.3常见卷积神经网络循环神经网络(RNN):RNN是和CNN并驾齐驱的另一种深度学习模型,特别设计用来处理序列数据,如时间序列数据或连续的图像帧(视频)。它能够处理变长的输入序列,记住先前的信息,并利用这些信息对当前任务做出决策,适用于视频分析、时间序列预测、语音识别。2.3常见卷积神经网络区域卷积神经网络(R-CNN):通过先生成候选区域(regionproposals),然后对每个区域使用CNN提取特征进行分类,适用于需要精确定位物体的场景。如:单次多框检测(SSD):在不同尺度的特征图上直接预测物体的边界框和类别,实现快速且准确的物体检测,适合实时应用。如:YouOnlyLookOnce(YOLO):将物体检测视为单个回归问题,直接从图像像素到边界框坐标和类别概率的预测,特点是快速且效率高。2.3常见卷积神经网络区域卷积神经网络(R-CNN):通过先生成候选区域(regionproposals),然后对每个区域使用CNN提取特征进行分类,适用于需要精确定位物体的场景。如:单次多框检测(SSD):在不同尺度的特征图上直接预测物体的边界框和类别,实现快速且准确的物体检测,适合实时应用。如:YouOnlyLookOnce(YOLO):将物体检测视为单个回归问题,直接从图像像素到边界框坐标和类别概率的预测,特点是快速且效率高。2.3常见卷积神经网络全卷积网络(FCN):用于语义分割,能够将图像中的每个像素分类到一个特定类别,适用于场景理解、医疗图像分析等。目标跟踪:通过比较目标对象与其他对象的相似度来实现跟踪,适用于视频监控、运动分析等场景。2.3常见卷积神经网络姿态估计。OpenPose:能够从图像中实时检测人体的姿态,包括身体、手和脸部的关键点,适用于交互设计、运动分析等图像生成。生成对抗网络(GANs):由生成器和判别器组成,能够生成新的、看起来与真实图像相似的图像,适用于图像合成、风格转换等。Part03计算机视觉的典型实践案例3.1典型案例-车牌号码被自动识别1.应用场景

自驾游客在景区需要停放车辆。为方便管理,提升服务效率和顾客体验,景区停车场需要引入车牌识别技术。游客在购票时提交自家车牌号码,录入系统,在约定时间,开车到达景区停车场后,车牌号码被自动识别,车辆可立即放行进入停车场。3.1典型案例-车牌号码被自动识别2.实现方案第一步,通过监控摄像获取包含车牌的当前试图进入停车场的车辆图片。第二步,车牌检测(PlateDetection)。对第一步获取的图像进行分析,最终截取出只包含车牌的一个图块。这个步骤的主要目的是降低在车牌识别过程中的计算量。如果直接对原始的图像进行车牌识别,会非常慢,因此需要专门的检测过程。本系统使用SVM(支持向量机)这个机器学习算法去判别截取的图块是否是真的车牌。第三步,字符识别(CharsRecognition)。这个步骤的主要目的就是对第二步车牌检测中获取到的车牌图像进行光学字符识别(OCR),其中用到的机器学习算法是著名的人工神经网络(ANN)模型。3.2典型案例-人脸识别识别第一步,通过监控摄像获取游客头像。第二步,人脸检测(FaceDetection),用于确定人脸在图像中的大小和位置,即解决“人脸在哪里”的问题,把真正的人脸区域从图像中裁剪出来,便于后续的人脸特征分析和识别。第三步,人脸对齐(FaceAlignment)。同一个人在不同的图像序列中可能呈现不同的姿态和表情,这种情况是不利于人脸识别的,所以有必要将人脸图像都变换到一个统一的角度和姿态。其原理是找到人脸的若干个关键点(即基准点,如眼角、鼻尖、嘴角等),然后利用这些对应的关键点通过相似变换(SimilarityTransform,如旋转、缩放和平移)将人脸尽可能变换到标准状态。第四步,特征表示(FeatureRepresentation),即接收标准化的人脸图像,然后通过特征建模得到向量化的人脸特征,最后通过分类器识别得到的结果。人脸识别系统要通过练习(训练)得到类似这样的有区分度的特征。目前效果最好的人脸识别都是由深度学习算法实现的,3.3典型案例-人群计数算法MCNN1.应用场景游客在景区游玩时,景区负有保障游客安全的义务。除了对于危险区域的警示之外,一个隐藏的风险也值得景区重视,即过度的人群聚集容易导致踩踏事件。因此,景区需要通过人群计数模型预知风险,提前采取措施进行疏导。2.实现方案第一步,通过监控摄像获取某一区域人群图像。第二步,提取特征,例如前景特征、边缘特征、纹理、梯度特征。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论