人工智能技术导论 课件03 计算机视觉技术及应用、04 智能语音技术及应用、05 自然语言处理与AIGC_第1页
人工智能技术导论 课件03 计算机视觉技术及应用、04 智能语音技术及应用、05 自然语言处理与AIGC_第2页
人工智能技术导论 课件03 计算机视觉技术及应用、04 智能语音技术及应用、05 自然语言处理与AIGC_第3页
人工智能技术导论 课件03 计算机视觉技术及应用、04 智能语音技术及应用、05 自然语言处理与AIGC_第4页
人工智能技术导论 课件03 计算机视觉技术及应用、04 智能语音技术及应用、05 自然语言处理与AIGC_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章计算机视觉技术及应用本章目标了解计算机视觉技术的发展历程及应用领域熟悉基于深度学习的视觉技术掌握OpenCV框架的基本使用掌握人脸识别和车牌识别项目的开发流程3.1计算机视觉简介人脸识别自动驾驶医学影像分析工业质检ComputerVision-->CV视觉是人类获取信息最主要的方式,而计算机视觉就是一门研究如何使计算机系统具备视觉感知能力的学科。通过模仿人类视觉系统的工作方式,计算机视觉技术旨在使计算机能够理解、解释和处理图像或视频数据。3.1.1计算机视觉发展概述

计算机视觉的发展经历了从早期的模式识别到深度学习的飞跃,为人工智能的发展提供了强有力的支持。随着计算机视觉技术的不断进步,其在实际应用中取得了巨大成功。起步阶段20世纪50年代-70年代)模式识别的初步探索感知器模型被提出硬件和算法的限制使得计算机无法有效地处理大规模的图像数据图像处理的崛起20世纪80年代-90年代数字图像处理边缘检测、图像增强为后续的模式识别和目标检测打下了基础机器学习与深度学习2000年代初-2010年代支持向量机(SVM)卷积神经网络(CNN)随着机器学习和深度学习的兴起,计算机视觉取得了巨大的突破。图像生成与迁移学习2010年代-至今生成对抗网络(GAN)迁移学习计算机视觉逐渐向图像生成和迁移学习等方向发展。3.1.1计算机视觉发展概述思政小课堂:《新一代人工智能伦理规范》发布3.1.2计算机视觉实现原理通过摄像头、传感器或者其他图像采集设备捕捉到现实世界中的图像,将其转化为数字信号。1、图像获取3.1.2计算机视觉实现原理转换为数字信号后的图像,由一个个像素点组成,可以用像素矩阵来表示。每一个像素点都有一个对应的像素值。1、图像获取3.1.2计算机视觉实现原理转换为数字信号后的图像,由一个个像素点组成,可以用像素矩阵来表示。每一个像素点都有一个对应的像素值。1、图像获取3.1.2计算机视觉实现原理灰度图像只有一个通道,而彩色图像则由红绿蓝(RGB)三个通道组成(或者采用其他颜色模式,如CMYK等)。1、图像获取3.1.2计算机视觉实现原理彩色图像可以很容易转换为灰度图像,例如使用公式Y=0.3*R+0.59*G+0.11*B而给灰度图像“上色”则较为复杂。1、图像获取?3.1.2计算机视觉实现原理而给灰度图像“上色”则需要更加智能的技术。1、图像获取彩色4K修复版开国大典首现大荧幕:这清晰度绝了3.1.2计算机视觉实现原理获取到图像后,计算机会进行一系列的图像处理操作,以提取有用的信息。比如,在图像的预处理阶段,进行去噪、增强对比度等操作。在特征提取阶段,会突出图像中的关键特征,比如边缘、颜色等。这些处理有助于减小数据量并突显重要信息,以便后续的模式识别。2、图像处理3.1.2计算机视觉实现原理在图像处理的基础上,计算机进行模式识别,也就是理解图像中的内容。深度学习中的卷积神经网络(CNN)等模型在这一步骤中发挥了关键作用。它能够自动从图像中提取特征,并通过训练过程学习如何分类或识别图像中的目标。3、模式识别3.1.3计算机视觉典型应用人脸识别技术被广泛应用于交通、金融、安防、社交媒体等领域。通过定位人脸和分析面部特征,计算机能够准确辨识个体身份。1、人脸识别3.1.3计算机视觉典型应用计算机视觉在自动驾驶汽车中扮演着关键角色。通过摄像头获取车辆周围环境图像,计算机视觉算法系统能够实时识别道路、障碍物、交通标志等,从而智能地操控车辆。2、自动驾驶3.1.3计算机视觉典型应用在医学领域,计算机视觉用于分析医学影像,如CT扫描、MRI等。这有助于自动检测疾病迹象、辅助诊断,提高医疗水平和效率。3、医学影像分析3.1.3计算机视觉典型应用计算机视觉系统被广泛应用于工业生产中的质量控制。通过检测产品表面的缺陷、尺寸偏差等,保证产品质量并提高生产效率。4、工业质检3.1.3计算机视觉典型应用计算机视觉系统被广泛应用于工业生产中的质量控制。通过检测产品表面的缺陷、尺寸偏差等,保证产品质量并提高生产效率。4、工业质检3.1.3计算机视觉典型应用在视频监控和安防系统中,计算机视觉可用于检测和跟踪目标,帮助监测场景中的异常情况,极大地提升了安保效率,为维护社会治安做出了贡献。5、目标检测与跟踪3.1.3计算机视觉典型应用计算机视觉技术为增强现实技术提供支持,通过识别和追踪现实世界中的物体,将虚拟信息叠加到用户的视野中,拓展了交互和娱乐的可能性。6、增强现实(AR)3.1.3计算机视觉典型应用通过分析人体手部动作,计算机视觉能够识别手势并将其转化为控制命令,这在虚拟现实、智能家居等领域有广泛应用。7、手势识别3.1.3计算机视觉典型应用计算机视觉可以用于识别、提取文档中的文字信息,实现自动化的文档管理和信息检索。光学字符识别(OCR)技术是其中的关键组成部分。8、文档识别OCR3.1.3计算机视觉典型应用计算机视觉可以用于识别、提取文档中的文字信息,实现自动化的文档管理和信息检索。光学字符识别(OCR)技术是其中的关键组成部分。8、文档识别OCR3.1.3计算机视觉典型应用在零售业,计算机视觉被用于人流分析、货架管理、商品识别等,可以提升购物体验、减少盗窃,并优化库存管理。9、智慧零售3.2基于深度学习的视觉技术图像分类目标检测图像分割轨迹跟踪deeplearning深度学习的核心思想是通过模仿人脑神经网络结构,建立多层次的神经网络,使计算机能够模拟人类学习的方式,从而自动学习和提取复杂的特征。这种模型的引入为视觉任务带来了翻天覆地的变化,让计算机能够更深入、更准确地理解和处理图像数据。3.2.1图像分类1、图像分类的概念?

图像分类旨在将输入的图像划分为不同的预定义类别。这是一种将图像与事先训练好的分类模型相匹配的过程。3.2.1图像分类2、机器学习中图像分类的基本原理特征提取在传统方法中,图像分类的首要步骤是从图像中提取特征。这些特征可以包括颜色直方图、纹理、形状等,这些特征帮助模型捕捉图像中的关键信息。特征表示提取的特征需要被适当表示,以便计算机能够理解和处理。常用的表示方法包括向量或矩阵形式,以便输入到分类器中。分类器分类器是一个数学模型,用于根据输入的特征将图像分配到不同的类别。常见的分类器包括支持向量机(SVM)、决策树、随机森林等,这些分类器经过训练,能够学习如何将特征与类别关联起来训练和测试训练阶段使用已标记的图像数据集,通过训练分类器调整其参数,使其能够正确地将图像分到相应的类别。测试阶段则通过未标记的图像验证模型的性能,评估其在新数据上的泛化能力。3.2.1图像分类3、基于深度学习的图像分类技术卷积神经网络(CNN)CNN通过卷积层和池化层来逐层提取图像的局部和全局特征。这些特征在全连接层中被用于进行分类决策。CNN的层次结构使其能够逐渐抽象出更高级别的特征,从而提高模型对图像语义的理解能力。迁移学习利用在大规模数据集上预训练的深度学习模型,如在ImageNet上训练的模型,进行迁移学习。将预训练的模型的权重用于新的图像分类任务,使得模型能够更快速地收敛和获得更好的性能。激活函数和正则化深度学习中的图像分类网络通常使用非线性激活函数,如ReLU,以帮助网络学习更复杂的特征。正则化技术如Dropout也被广泛应用,以防止过拟合。3.2.1图像分类3、基于深度学习的图像分类技术LeNet-5于1998年被提出是卷积神经网络的先驱之一主要应用于手写数字的识别包含卷积层、池化层和全连接层虽然在当时并未引起广泛关注,但为后来更先进的网络奠定了基础作为经典的入门级神经网络,对于简单字符的识别效果尚可,然而,对于更加复杂的项目,如人脸、车牌识别等,LeNet的结构则过于简单了,可能无法得到较高的准确率目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术AlexNet于2012年被提出是深度学习在图像分类中的重要突破在ILSVRC2012图像分类竞赛中取得了显著的胜利AlexNet采用了更深的网络结构,使用ReLU激活函数,引入了Dropout正则化利用GPU进行高效训练目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术VGGNet于2014年被提出采用了非常深的网络结构包含16或19层卷积层,全部使用3x3的小卷积核,使得网络结构更加简洁而深入VGGNet的设计理念影响了后续深度学习模型的构建目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术GoogLeNet(Inception)于2014年被提出引入了Inception模块通过并联多个不同大小的卷积核和池化层,提高了网络的宽度和深度该模型在参数数量相对较少的情况下取得了较好的性能目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术ResNet(ResidualNetwork)于2015年被提出引入残差块(Residual),解决了深度网络训练中的梯度消失和梯度爆炸问题该结构允许网络层跳过连接,使得训练更加容易允许构建超深的网络目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术MobileNet于2017年被提出设计用于移动设备上的实时图像处理采用深度可分离卷积,减少了参数数量和计算量在资源受限的设备上也能实现高效的图像分类目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术EfficientNet于2019年被提出通过使用复合缩放方法,同时增加网络的深度、宽度和分辨率,达到更好的性能在参数相对较少的情况下,取得了与更大更深的模型相媲美的效果目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.2目标检测1、目标检测的概念

目标检测旨在从图像或视频中识别和定位图像中的多个目标,并为每个目标分配相应的类别标签。与图像分类不同,目标检测不仅需要确定图像中是否存在目标,还需要准确地标定目标的位置3.2.2目标检测2、传统的目标检测算法HOG全称HistogramofOrientedGradients,使用图像中的梯度信息来描述图像的局部结构,尤其适用于描述物体的边缘和纹理。将图像划分为小的局部区域,计算每个区域内梯度的方向直方图,最终将这些直方图串联起来形成特征向量。SIFT全称Scale-InvariantFeatureTransform,具有尺度不变性和旋转不变性,对于图像中的局部特征点具有很好的描述能力。在图像中检测关键点,然后提取这些关键点周围的局部特征,通过描述子来表示这些特征。GLOH全称GradientLocation-OrientationHistogra,是SIFT的改进版本,增加了对光照和旋转的鲁棒性。在关键点周围计算梯度直方图,并使用多尺度的描述子来提高对尺度变化的适应性。DPM全称DeformablePartsModel,引入了“变形部分模型”来处理目标的非刚性形变。将目标分解为多个部分,每个部分用HOG描述,通过学习部分之间的相对位置关系来构建目标模型。SelectiveSearch是一种基于贪心策略的区域生成算法,用于生成候选区域。通过对图像进行分割、合并和其他操作,生成具有多样性的候选区域,然后使用分类器对这些区域进行检测。ICF全称IntegralChannelFeatures,使用积分图像进行快速特征计算,提高了算法的计算效率。利用图像的积分图像计算各种特征,如梯度特征、颜色特征等,用于目标检测。3.2.2目标检测3、基于深度学习的目标检测算法FasterR-CNN全称Region-basedConvolutionalNeuralNetwork,引入了区域提议网络和ROI池化层,实现了端到端的目标检测。RPN用于生成候选目标区域,然后通过ROI池化将这些区域转换为固定大小的特征图,最后通过全连接层进行分类和定位。YOLO全称YouOnlyLookOnce,通过将图像划分为网格,每个网格负责检测特定区域内的目标,实现实时目标检测。将目标检测任务视为回归问题,直接预测目标的坐标和类别,并在整个图像上进行端到端的训练和预测。SSD全称SingleShotMultiboxDetector,通过在不同层次的特征图上使用多个锚框进行检测,实现了对多尺度目标的有效检测。利用多个卷积层产生的特征图来进行目标检测,通过预测每个锚框的类别和边界框偏移来完成任务。MaskR-CNN在FasterR-CNN的基础上进一步增加了对实例分割的支持,同时能够输出每个检测到的目标的精确边界。在FasterR-CNN的基础上引入了额外的分割网络,用于生成每个目标的二进制掩码。RetinaNet采用了一种称为“FocalLoss”的损失函数,有效解决了类别不平衡问题,提高了对稀有目标的检测能力。在FasterR-CNN的基础上引入了特殊设计的损失函数,使得模型更关注难以分类的目标。EfficientDet结合了EfficientNet的轻量级设计和目标检测任务的需求,实现了高效而准确的目标检测。通过改进网络结构、特征金字塔网络(FeaturePyramidNetwork,FPN)等技术来提高模型的效率。3.2.3图像分割1、图像分割的概念

图像分割旨在将图像划分为若干个具有相似特征的区域。图像分割与目标检测不同,图像分割是一个像素级别的任务,目标是将图像分割成区域,每个像素都有一个标签;而目标检测是在物体级别上操作,关注点在于识别图像中存在的物体及其位置。3.2.3图像分割2、传统的图像分割算法阈值分割英文Thresholding,是一种简单而常用的方法,基于图像中像素的灰度值。通过设定一个阈值,将图像分为两个区域,其中像素值小于阈值的属于一个区域,大于等于阈值的属于另一个区域。阈值分割一般只适用于对比度较明显的图像。区域生长英文RegionGrowing,是一种基于像素相似性的分割方法,从种子像素开始,逐渐将相邻像素加入同一区域,直到不再满足相似性条件。区域生长算法适用于具有相对均匀区域的图像。区域分割英文RegionSplitandMerge,是一种自顶向下的分割方法,首先将整个图像视为一个区域,然后递归地分裂和合并区域,直到满足某些准则。该算法适用于具有不同纹理和结构的图像。边缘检测英文EdgeDetection,寻找图像中的边缘,通常使用梯度信息来定位图像中亮度变化较大的区域。边缘检测适用于强调图像中物体边界的分割。水平集方法英文LevelSetMethods,基于曲线演化理论,通过表示图像中的区域边界的曲线来进行分割。适用于复杂形状和拓扑结构的分割。3.2.3图像分割3、基于深度学习的图像分割算法U-Net是一种全卷积网络,设计用于生物医学图像分割。它包含一个编码器和一个解码器,并通过跳跃连接来保留高层次和低层次的特征。主要应用于医学图像分割,如细胞图像和医学影像。SegNet是一个基于CNN的图像分割网络,通过对图像中的每个像素进行分类来实现分割。它使用反卷积进行上采样,恢复图像的空间分辨率。适用于语义分割任务,如道路和场景理解。DeepLab系列是一系列图像分割算法,采用空洞卷积来扩大感受野,以更好地捕捉上下文信息。DeepLabv3+还引入了全局平均池化。广泛应用于语义分割任务,包括实例分割和物体检测MaskR-CNN是一种实例分割框架,基于FasterR-CNN,通过在目标检测的基础上增加分割分支,实现同时检测和分割物体实例。主要用于需要识别和分割多个对象实例的任务。FCNFullyConvolutionalNetwork,是一种将传统卷积神经网络转化为全卷积网络的方法,允许对输入图像进行像素级别的分类和分割。适用于语义分割任务,如将图像中的每个像素标记为不同的类别。。PSPNetPyramidSceneParsingNetwork,使用金字塔池化模块来捕捉不同尺度上的语境信息,从而提高分割性能。适用于需要全局上下文信息的场景,如城市场景分割。3.2.4轨迹跟踪1、轨迹跟踪的概念

轨迹跟踪目的是在视频序列中准确地追踪目标对象的运动轨迹。轨迹跟踪算法需要在连续的图像帧中检测目标,并将它们关联起来形成时间上的轨迹。轨迹跟踪的关键步骤包括目标检测、目标关联、轨迹生成、轨迹更新、处理遮挡和消失以及多目标跟踪。3.2.4轨迹跟踪2、传统的轨迹跟踪算法卡尔曼滤波KalmanFilter,卡尔曼滤波是一种递归的估计算法,通过对目标的当前状态和运动进行建模,结合观测数据,不断更新目标的状态估计。在轨迹跟踪中,卡尔曼滤波可用于预测目标的下一帧位置。最邻近跟踪NearestNeighborTracking,在每一帧中,使用距离度量(如欧氏距离)找到当前帧检测结果与上一帧跟踪目标的最邻近匹配。这种方法简单直观,但对于遮挡等情况可能不鲁棒。KLT跟踪器KLTTracker,基于光流的KLT(Kanade-Lucas-Tomasi)跟踪器使用局部图像区域的特征点,通过追踪这些特征点的运动来实现目标跟踪。适用于一定程度的目标运动和变形。中值流MedianFlow,算法利用检测框中的像素强度信息计算光流,并通过中值流场的方向和大小来更新目标的位置。适用于低速运动的目标。连通区域跟踪ConnectedComponentTracking,在二值化的图像中,通过检测连通区域(二值图像中相邻的白色像素)来跟踪目标。适用于目标边界清晰的情况。CAMShiftCAMShift算法基于MeanShift算法,通过不断调整搜索窗口的大小和方向,实现目标的跟踪。适用于目标尺寸和颜色较为一致的情况。3.2.4轨迹跟踪3、基于深度学习的轨迹跟踪算法DeepSORTDeepSimpleOnlineandRealtimeTracking,结合了目标检测和深度学习特征提取,使用卷积神经网络提取特征,并通过外观特征和运动信息来关联和跟踪目标。利用深度学习目标检测器检测目标,然后使用深度学习特征提取器提取目标外观特征,最后使用卡尔曼滤波进行轨迹预测和关联。MOTDTMultipleObjectTrackingwithDeepLearning,采用了深度学习的目标检测器和在线学习的轨迹跟踪器,通过CNN提取特征,使用卡尔曼滤波进行轨迹预测,并采用在线学习策略不断更新模型。在目标检测结果上应用CNN提取特征,然后使用在线学习策略不断更新外观模型,通过卡尔曼滤波来实现目标的轨迹跟踪DeepMOT基于深度卷积神经网络,将目标检测、特征提取和轨迹跟踪整合到一个统一的深度学习框架中,以提高端到端的性能。使用卷积神经网络提取图像特征,通过LSTM或Transformer等结构对序列信息建模,最终输出目标的轨迹。FairMOT采用了多任务学习的方法,同时预测目标的类别、位置和运动状态,提高了多目标跟踪的准确性。使用深度卷积神经网络同时处理目标检测和轨迹跟踪任务,通过多任务学习框架进行联合训练。SORTSimpleOnlineandRealtimeTracking,结合了目标检测和卡尔曼滤波,通过简单有效的方法实现实时目标跟踪。使用目标检测器(获取目标位置,然后使用卡尔曼滤波进行轨迹的预测和更新3.2.4轨迹跟踪思政小课堂:坚守高尚的道德情操,向非法技术滥用说不计算机视觉技术的快速发展给我们带来了很多益处,然而,一部分人却将这项技术用于非法或非道德用途。在数字图像处理技术发展之初,就有人使用PS技术炮制虚假照片,从而制造虚假新闻误导公众认知,或者用来诽谤、侮辱他人。在深度学习的加持下,计算机视觉技术更加强大,AI换脸、视频合成的效果有时甚至可以达到以假乱真的程度。这给一些不良团体或个人炮制虚假、低俗信息提供了便利。在社交媒体发达的今天,这些虚假的不良信息能够轻易被传播。一些不法分子甚至利用相关的技术,仿冒他人身份进行电信诈骗。作为一名人工智能技术的学习者,我们在增强自身技术能力的同时,也要不断提升自己的道德操守,拒绝技术滥用,抵制不良信息。3.3OpenCV基础图像处理实时视频处理计算机视觉工具包机器学习深度学习图像和视频的特征提取图像分割和轮廓检测OpenCVOpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉库,旨在提供一套通用的计算机视觉和机器学习工具。OpenCV支持多个操作系统,包括Windows、Linux、macOS等,它由一系列高效且优化的C/C++函数组成,同时提供了Python、Java和其他语言的接口,使得开发者能够轻松使用这些功能。3.3.1OpenCV的安装60年代,星际迷航80年代,终结者21世纪,人工智能1、pip命令安装pipinstallopencv-pythonpipinstallopencv-python-i/simple请先确保python已安装并且配置了pip工具。打开一个终端命令窗口,输入以下命令:如果安装时网络异常或者安装包拉取速度较慢,可以输入以下命令:3.3.1OpenCV的安装21世纪,人工智能2、conda命令安装condainstallopencvcondainstall-c/menpoopencv如果您使用anaconda环境进行Python代码开发,那么可以使用conda命令安装OpenCV。打开anacondaprompt工具的终端界面,输入以下命令:或者:3.3.1OpenCV的安装80年代,终结者3、通过源代码构建cmakepath/to/opencv/sourcemakeinstall访问OpenCV官方GitHub仓库下载最新的源代码压缩包(源代码也可以从本书配套资源获取)。将下载的源代码解压到您选择的目录。在解压后的目录中创建一个新目录,用于存放构建文件。使用CMake配置构建。在终端或命令提示符中,导航到构建目录并运行以下命令:如果您需要配置额外的选项,可以使用ccmake或cmake-gui打开CMake配置界面。运行构建命令,确保您已经安装了合适的编译工具(如GCC)。运行安装命令,通常需要管理员权限。3.3.2OpenCV图像处理80年代,终结者importcv2cv2.imreadimshowimwriteresizecvtColorthresholdCannyblurfilter2DfindContoursdrawContoursdilateerode3.3.3OpenCV视频处理80年代,终结者cv2.VideoWriterVideoCapture3.4计算机视觉应用体验人脸识别车牌识别3.4.1基于OpenCV的人脸识别80年代,终结者【案例描述】开发一个人脸识别项目,能够用摄像头实时检测到人脸,并与人脸库中的人脸对比,判断当前检测到的人脸的身份。3.4.2基于百度EasyDL的车牌识别80年代,终结者【案例描述】本案例使用EasyDLOCR平台,训练一个车牌识别模型,训练完成后,调用模型的接口,输入一张包含车和车牌的图片,模型可以自动识别出该车辆的车牌号。计算机视觉就是一门研究如何使计算机系统具备视觉感知能力的学科。图像分类旨在将输入的图像划分为不同的预定义类别。目标检测旨在从图像或视频中识别和定位图像中的多个目标,并为每个目标分配相应的类别标签。轨迹跟踪的目标是在视频序列中准确地追踪目标对象的运动轨迹。OpenCV是一个开源的计算机视觉库,使用pipinstallopencv-python命令,可以安装OpenCV的Python接口。车牌识别项目的核心任务是字符识别,使用EasyDLOCR平台可以快速完成模型训练。本章总结小组练习主题:使用OCR技术,完成一个快递单关键信息自动识别的项目。要求:识别代码可以运行,抽2-3组下节课演示时间5-10分钟感谢聆听智能语音技术及应用第4章

4.1智能语音技术简介智能语音技术是实现人机语言通信的一种技术,包括语音识别和语音合成。语音识别技术是将声音转化成文字的一种技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR)。语音合成(TexttoSpeech,TTS)技术让计算机像人类一样说话,将文本序列转换为语音信号的技术。

4.2.1语音识别技术分类以说话方式为标准,分为孤立词语音识别、连接字语音识别、连续语音识别三类。根据对特定说话人的依赖程度,分为特定说话人语音识别、非

特定说话人语音识别两类。根据模型所使用的词汇量大小,语音识别可分为有限词汇语音识别和无限词汇量语音识别两类。

4.2.2语音识别发展历程第一阶段,起步阶段,以识别孤立词的发音为主要研究内容。第二阶段,快速发展期,语音识别系统的功能从简单的特定人识别发展到非特定人的识别,从小词汇量孤立词识別发展到大词汇量连续词识别,识别准确率显著提升,性能日趋走向成熟。第三阶段,成熟及广泛应用阶段。伴随着大数据时代的到来以及深度学习的快速发展,大词汇语音识别的性能快速发展。IBM的Shoebox系统

4.2.3语音识别系统构成(1)左边自上而下代表语音的生成过程,右边自下而上显示了语音的识别过程。说话人和收听人的沟通要基于共同的词汇语义库和语音发音规则,而语音识别等效为将语义的相关信息从语音信号中“解调”的过程。语音通信流程

4.2.3语音识别系统构成(2)语音系统的层次模型

4.2.3语音识别系统构成(3)语音识别系统框图

4.2.3语音识别预处理技术采样和滤波

自然采集的语音信号往往存在多种噪声和干扰信号,会影响识别的结果,所以在语音识别的开始阶段必须进行滤波。分帧和加窗

语音信号的研究过程中,往往是建立在“短时”分析的基础上,即把语音信号分成很小的时间段(一般为10~30ms),每一小段称为一帧,把语音信号分成若干帧的过程就称为分帧。梅尔图谱声谱图可以更直观地不同声音事件的能量的时频域分布明显不同,所以可以通过声谱图特征进行语音识别。

4.2.5语音识别方法隐马尔科夫模型BP神经网络BRNN模型

4.3.1语音合成技术分类根据声音产生的不同层次,可以分为:从文本序列转换到语音、从概念转换到语音、从意向转换到语音三类。以数字信号处理的方法不同,可成分为基于规则、基于数据、基于统计、基于深度学习的方法。

4.3.2语音合成发展历程语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。谷歌公司于2017年提出的Tacotron模型

4.3.3语音合成系统构成传统的语音合成系统由文本分析和波形生成两大模块组成,也称为前端模块和后端模块。语音合成系统框图

4.3.4语音合成方法波形拼接的语音合成方法

4.4智能语音编程案例pyttsx3是一个Python文本到语音转换库,它可以将文字转换为语音并播放出来。它支持多种平台和多种合成引擎。pyttsx3库简单易用,是小白的好选择。通过调用此库,很容易就可以让程序”开口说话”。本案例是使用ppttsx3库实现以下功能:播报指定文本,并输出语速和音量;调整语速和语音,完成趣味问答。第五章

自然语言处理与AIGC本章目标了解自然语言处理的基本概念和典型应用

了解AIGC的定义和关键技术熟悉AIGC的典型应用熟悉国内外主流AI大模型了解AIGC伦理与安全问题能使用提示词工程技巧进行创作5.1自然语言处理简介自然语言处理被誉为“人工智能技术皇冠上的明珠”,一方面表明了它的重要性,另一方面也显现出了它的技术难度。自然语言处理就是让计算机理解人类语言,并进行相应的分析。我们所熟知的苹果Siri、微软小冰,就是自然语言处理的典型的应用,他们不仅能够理解我们所说的话,还能够针对性地做出反馈。5.1.1自然语言处理定义

自然语言处理(NaturalLanguageProcessing,NLP)研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,让计算机能够理解、处理和生成自然语言,使计算机具有类似人类的语言交互和文本理解能力。它是计算机科学、人工智能和语言学等学科交叉的前沿领域。NLP与前面章节学习的语音识别、语音合成都是人工智能中与语音相关的重要领域,目标都是让计算机能够理解并以与人类几乎无异的方式生成语言。5.1.2自然语言处理发展

自然语言处理发展到现在,主要经历了三个阶段:

第一阶段是基于规则的方法,由于其过度依赖人力,发展缓慢。第二阶段是基于统计的方法,放弃让机器模仿人类智能的思路,这一阶段在自然语言处理领域的很多任务上都有不小的突破。第三个阶段则是基于深度学习的方法,受益于越来越强大的图形处理器(GPU)的应用以及互联网数据的爆炸式增长,深度学习方法迅速席卷了自然语言处理领域,并持续高速发展。5.1.3自然语言处理基本任务

自然语言处理要解决的是人类和机器的沟通障碍,那它就需要达成两个目标:其一,让计算机听得懂“人话”——即NLU自然语言理解,让计算机具备人类的语言理解能力;其二,让计算机能够“讲人话”——即NLG自然语言生成,让计算机能够生成人类理解的语言和文本,比如文章、报告、图表等等。5.1.3自然语言处理基本任务把人类的文本拆解来看,可以理解为词、句、关系的组合,要让机器理解人类语言和文本,首先要让机器对文本进行拆解分析。自然语言处理基本任务包括:1.词法分析2.自动分词3.文本组块分析4.句法及语义结构分析5.语义分析5.1.4自然语言处理流程逻辑与实现方法自然语言处理的流程逻辑通常包括以下几个步骤:1.数据收集和预处理:获取和清洗原始语言数据,包括文本、语料库或语音数据;2.分词和词法分析:将原始文本数据转换为适合模型输入的格式,如分词、去除停用词、词干提取等。3.特征提取:将文本转换为计算机可以处理的向量形式,如词向量表示、句子向量表示等。常用的特征提取方法包括词袋模型、TF-IDF、词嵌入等。4.模型训练:利用训练数据集,采用机器学习或深度学习方法训练自然语言处理模型。5.模型评估:使用验证数据集评估模型的性能,如准确率、召回率、F1值等指标。6.模型应用:将训练好的模型应用于实际问题,如文本分类、情感分析、机器翻译等任务。5.1.4自然语言处理流程逻辑与实现方法

在实现自然语言处理时,首先需要考虑数据集的选择和预处理。数据集的选择和质量对于自然语言处理的效果有着很大的影响,因此需要选择合适的数据集,并进行数据清洗和预处理。其次还需要采用一些自然语言处理工具和技术。常用的自然语言处理工具包括NLTK、spaCy、StanfordCoreNLP等。这些工具包提供了很多自然语言处理的功能,如分词、词性标注、命名实体识别、句法分析等。最后,还需要选择合适的算法和模型。常用的算法包括朴素贝叶斯、支持向量机、决策树、随机森林等。同时,深度学习也成为自然语言处理中的主流技术,常用的模型包括卷积神经网络(ConvolutionalNeuralNetwork,CNN)、循环神经网络(RecurrentNeuralNetwork,RNN)和Transformer等。5.1.5自然语言处理应用领域

当NLP技术对文本的处理应用综合在一起,就能帮助解决人们在工作和生活场景中的实际问题,现阶段主要的应用领域包括:机器翻译文本摘要问答系统文本分类等。5.2AIGC简介2022年11月,OpenAI推出大语言模型ChatGPT,掀起了生成式人工智能的热潮。短短4天时间,其用户量到达百万级,注册用户之多导致服务器一度爆满。ChatGPT的功能是如此强大,以此连马斯克都认为“我们离强大到危险的AI不远了”。生成式人工智能AIGC(ArtificialIntelligenceGeneratedContent)是人工智能1.0时代进入2.0时代的重要标志。奥尔特曼做客盖茨节目奥尔特曼被誉为“ChatGPT之父”。5.2.1AIGC的定义

生成式人工智能(AIGC),全称ArtificialIntelligenceGeneratedContent,是一种人工智能技术,用于自动生成内容,该内容在很大程度上类似于通过训练数据学到的内容分布。与传统的人工智能主要关注数据模式的识别和预测不同,AIGC专注于创造新的、富有创意的数据。其核心原理在于通过学习和理解数据分布,进而生成具有相似特征的新数据。5.2.2AIGC的奥秘AIGC的关键技术生成算法的不断创新使得AI能够生成多种类型的内容,如文本、代码、图像、语音、视频等。预训练模型,即大型模型,极大地提高了AIGC技术的通用性和工业化水平。多模态技术使AIGC模型能够融合处理多种数据类型,将文本转化为图像、视频等,从而进一步增强了AIGC模型的通用性。AIGC的迅速发展得益于三个关键领域的人工智能技术:5.2.2AIGC的奥秘

大语言模型大型语言模型(LargeLanguageModels,LLMs),是一种基于机器学习和自然语言处理技术的模型,它通过对大量的文本数据进行训练,来学习服务人类语言理解和生成的能力。LLM的核心思想是通过大规模的无监督训练来学习自然语言的模式和语言结构,这在一定程度上能够模拟人类的语言认知和生成过程。与传统的自然语言处理模型(NLP模型)相比,LLM能够更好地理解和生成自然文本,同时还能够表现出一定的逻辑思维和推理能力。5.2.2AIGC的奥秘

提示词工程提示词(prompt)是指在人工智能场景下给模型的一个初始输入或提示,用于引导模型生成特定的输出。提示词工程(PromptEngineering,PE)是一种人工智能技术,它通过设计和改进AI的prompt来提高AI的表现。PE的目标是创建高度有效和可控的AI系统,使其能够准确、可靠地执行特定任务。5.2.3AIGC产业生态体系5.2.4AIGC典型应用现阶段国内AIGC多以单模型应用的形式出现,主要分为文本生成、图像生成、视频生成、音频生成,其中文本生成成为其他内容生成的基础。5.2.4AIGC典型应用文本生成人工智能文本生成是使用人工智能(AI)算法和模型文本生成(AITextGeneration)来生成模仿人类书写内容的文本。它涉及在现有文本的大型数据集上训练机器学习模型,以生成在风格、语气和内容上与输入数据相似的新文本。

文本生成5.2.4AIGC典型应用图像生成(AlImageGeneration),人工智能(Al)可用于生成非人类艺术家作品的图像。这种类型的图像被称为“人工智能生成的图像”。人工智能图像可以是现实的或抽象的,也可以传达特定的主题或信息。

图像生成这里区别于搜索(搜索是别人传上来,检索图片,这里是咒语生成,即使相同咒语生成的也不一样,是独一无二的)文生图图生图5.2.4AIGC典型应用语音生成(AIAudioGeneration),AIGC的音频生成技术可以分为两类,分别是文本到语音合成和语音克隆。

语音生成5.2.4AIGC典型应用视频生成(AIVideoGeneration),AIGC已被用于视频剪辑处理以生成预告片和宣传视频。工作流程类似于图像生成,视频的每一帧都在帧级别进行处理,然后利用AI算法检测视频片段。AIGC生成引人入胜且高效的宣传视频的能力是通过结合不同的AI算法实现的。凭借其先进的功能和日益普及,AIGC可能会继续革新视频内容的创建和营销方式。

视频生成Meta公司在2022年9月推出的Make-A-Video,网页地址:https://makeavideo.studio一只穿着红色斗篷超级英雄服装的狗,在天空中飞翔。5.2.4AIGC典型应用行业及应用场景5.2.4AIGC典型应用行业及应用场景5.3国内外主流AI大模型5.3.1OpenAI的GPT大模型ChatGPT(全名:ChatGenerativePre-trainedTransformer),美国OpenAI研发的聊天机器人程序,于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。GPT大模型主要产品包括GPT-1、GPT-2、GPT-3和GPT-4。这些产品都是OpenAI公司研发的大型预训练语言模型,被广泛应用于自然语言处理领域。GPT-1和GPT-2主要用于文本生成和对话系统,而GPT-3和GPT-4则可以应用于更加广泛的领域,包括医疗、金融、法律等。5.3.2百度的文心大模型百度文心大模型源于产业、服务于产业,是产业级知识增强大模型。文心大模型的一大特色是“知识增强”,即引入知识图谱,将数据与知识融合,提升了学习效率及可解释性。文心ERNIE自2019年诞生至今,在语言理解、文本生成、跨模态语义理解等领域取得多项技术突破文心一言(英文名:ERNIEBot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。5.3.3科大讯飞的讯飞星⽕认知大模型科⼤讯⻜的星⽕是新一代认知智能大模型,拥有跨领域知识和语言理解能力,能够基于自然对话方式理解与执行任务。5.3.4阿⾥云的通义大模型阿里通义大模型是阿里云推出的一个超大规模的语言模型,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论