《深度学习 》课件全套 李侃 第1-11章-绪论 -无监督深度学习_第1页
《深度学习 》课件全套 李侃 第1-11章-绪论 -无监督深度学习_第2页
《深度学习 》课件全套 李侃 第1-11章-绪论 -无监督深度学习_第3页
《深度学习 》课件全套 李侃 第1-11章-绪论 -无监督深度学习_第4页
《深度学习 》课件全套 李侃 第1-11章-绪论 -无监督深度学习_第5页
已阅读5页,还剩452页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单击此处添加文本单击此处添加文本第一章

绪论1目录

|

CONTENTS深度学习简介1深度学习发展历史2深度学习分类3度量指标42深度学习简介13深度学习定义深度学习是机器学习的重要分支,通过模拟神经元和复杂网络结构实现信息处理和学习。深度学习目标让机器像人类一样具备分析和学习能力,更接近人工智能的最初目标。1.1深度学习简介深度学习概览4经典深度学习架构包括AlexNet、RNN、LSTM、GAN和Transformer,它们各自在图像、序列数据和生成模型等领域做出了重要贡献近二十年,深度学习因大数据、优化策略(如随机梯度下降、dropout)及GPU并行计算的突破,实现了快速发展深度学习的突破与进展20世纪50年代至80年代,深度学习逐步发展,从感知机到反向传播算法,为解决非线性分类铺平道路,但受限于计算能力深度学习早期探索51.1深度学习简介经典深度学习架构的诞生发展历程与突破深度学习技术广泛应用于计算机视觉、自然语言处理和语音识别等领域,实现图像识别、机器翻译和声纹识别等功能深度学习的广泛应用深度学习迅猛发展,广泛应用于生物医学、无人驾驶等领域,未来将更成熟,赋能更多场景深度学习的跨领域应用1.1深度学习简介6深度学习的应用1.1深度学习简介应用领域与价值7自然语言处理机器翻译、文本分类、命名实体识别、语义分析、文本生成语音识别声纹识别、语音转文本、语音合成其他领域生物医学、无人驾驶、工业自动化、智能家居计算机视觉图像分类、对象检测、语义分割、姿态估计、3D重建深度学习正在改变我们的生活方式深度学习发展历史28深度学习技术历程涵盖关键阶段,如神经网络早期发展、反向传播算法的提出、大数据时代的到来对深度学习的推动产业化应用进程从学术到产业,包括深度学习在图像识别、自然语言处理等领域的应用,以及在人工智能产品中的商业化进程1.2深度学习发展历史91943年,麦卡洛克和皮兹提出人工神经元模型,1958年Rosenblatt推出感知机算法,开启计算机模拟人脑的先河深度学习起源011982年,GeoffreyHinton提出反向传播算法,解决了非线性数据分类,引发第二次神经网络学习狂潮反向传播算法021982-1986年,RNN出现,但受限于记忆力短和梯度不稳定问题,未引起广泛关注循环神经网络031998年LSTM解决RNN的长序列问题,2014年GRU提出,参数更少,计算效率更高LSTM与GRU042006年,Hinton等人提出深度学习新方案,解决梯度消失,再次引发深度学习热潮深度学习复兴052012年AlexNet开启深度卷积网络新时代,后续各种CNN架构不断优化,2014年GAN创新生成式模型深度学习突破061.2.1深度学习技术的发展历史102017年,Transformer的出现彻底改变了NLP。Transformer是一类纯粹基于注意力机制的神经网络算法,其不使用循环网络或卷积。它由多头自注意力、残差连接、层归一化、全连接层和位置编码组成。在NLP各个下游任务上表现出非常优越的性能。目前,它也在改变着计算机视觉领域,并被用在机器翻译、文本摘要、语音识别、文本补全、文档搜索等多个下游任务上。1.2.1深度学习技术的发展历史111.2.1深度学习技术的发展历史12谷歌研究者将Transformer应用于图像识别,提出VisionTransformer(ViT),在计算机视觉基准测试中表现出色。VisionTransformers概述01大规模语言模型如GPT系列由OpenAI和DeepMind等开发,参数量庞大,性能持续提升,目前GPT-4在创造力和协作性上更进一步。大规模语言模型(LLM)03OpenAI的DALL·E2模型能根据文本生成高分辨率、逼真图像,引领视觉语言模型发展。视觉和语言模型02代码生成模型如OpenAICodex、DeepMindAlphaCode和MetaCodeLlama,是人工智能在编程领域的应用,能理解和生成代码,助力建设智能系统。代码生成模型04重要技术突破01Transformer在图像领域应用谷歌研究者在2020年提出VisionTransformer,对图像块序列运行Transformer,实现在图像分类任务上的显著成果,展现出强大的并行性和缩放行为02VisionTransformer架构特点使用图像patch作为输入,结合Transformer的超强并行性和缩放能力,使VisionTransformer在多个计算机视觉基准测试中表现优异,成为Cifar-10上最先进的分类模型1.2.1深度学习技术的发展历史13(1)VisionTransformers1.2.1深度学习技术的发展历史多模态模型发展视觉与语言模型结合,如文本转图像、图像字幕及视觉问答,Transformer推动统一网络,实现多任务处理DALL·E2模型OpenAI发布,显著提升图像生成质量,分辨率、匹配度与真实感优秀,代表文本转图像模型新高度图1-1

DALL·E2生成的图像14(2)视觉和语言模型01语言模型用途预测文本、文档摘要、翻译、语音识别与合成,多功能应用02GPT系列发展从GPT到GPT-3,参数量与训练数据激增,GPT-3参数达1750亿,需366年及460万美元训练03模型规模扩张NVIDIAMegatron-LM、DeepMindGopher、GooglePaLM等模型参数量超越GPT-3,规模持续扩大1.2.1深度学习技术的发展历史15(3)大规模语言模型(LLM)始于2021年,OpenAI发布Codex,微调自GPT-3,能编写、解释代码;DeepMind随后发布AlphaCode,解决编程竞赛问题,排名前54%;2023年,Meta开源CodeLlama,免费商用,自然语言生成代码AI系统如Codex、AlphaCode和CodeLlama,能根据自然语言或文本生成代码,补全代码,适用于多种编程任务,展现批判性思维与自然语言理解能力深度学习技术历史代码生成技术1.2.1深度学习技术的发展历史16(4)代码生成模型第二次发展浪潮第一次发展浪潮1956至1980年,聚焦逻辑推理,成果实用性有限,未解决实际问题1980至2006年,专家系统兴起,解决特定领域问题,如医学专家系统MYCIN,准确率媲美初级医师,但仍有限制,高昂维护成本致AI发展再次低谷第三次发展浪潮1980至2006年,第三次AI浪潮,深度学习由Hinton提出,实现技术突破,跨越理论到应用的鸿沟1.2.2深度学习产业应用的变迁史17人工智能三次发展浪潮1.2.2深度学习产业应用的变迁史2006年:Hinton提出深度学习神经网络,标志着第三次发展浪潮的开启。2012年:AlexNet在图像识别领域的突破,推动深度学习技术的普及。2024年:大模型技术的崛起,推动AI在多领域的深度应用。18深度学习技术的突破智慧交通通过大数据和AI技术优化资源配置,自动驾驶、智能交通管理成为主流AI在辅助诊断、药物研发、医疗影像等领域取得突破;联影医疗的uAI影智大模型AI+安防引领安全监控新纪元,实现高效预警和精准识别。华泰证券的智能投顾、中信证券的做市系统交通领域医疗领域安防领域金融领域AI赋能工业软件,推动制造业智能化转型;大模型技术加速工业场景需求探索工业领域1.2.2深度学习产业应用的变迁史19产业应用的变迁01市场规模2021年全球AI市场达850亿美元,中国占9.6%,仅次于美欧,预计2022年中国市场规模2729亿元02发展趋势计算机视觉与自然语言处理商业化快,2020年计算机视觉市场规模近千亿,自然语言处理产品规模219亿,年增20%1.2.2深度学习产业应用的变迁史20市场规模与发展趋势深度学习分类321有监督学习(SupervisedLearning)使用带标签的训练数据,模型学习输入与输出间的关系,适用于分类和回归问题无监督学习(UnsupervisedLearning)在无标签数据上学习,发现数据的内在结构或模式,常用于聚类和降维半监督学习(Semi-supervisedLearning)利用少量标记数据和大量未标记数据进行学习,适用于标记数据稀缺的场景自监督学习(Self-supervisedLearning)通过自我生成的标签进行学习,利用输入数据的结构信息,常用于预训练弱监督学习(Weakly-supervisedLearning)使用标注质量较低或部分缺失的训练数据,模型学习弱标签与真实标签的潜在关系1.3.1任务类型22有监督学习是指在训练过程中,数据集中的每个样本都有明确的目标输出值,模型通过学习这些样本的输入和输出关系来预测新的输出值。应用场景:分类和回归的场景,如图像分类、心脏病预测等。23

有监督学习无监督学习的原理无监督学习通过学习输入数据间的关系,来发现数据的内在结构和规律,不依赖明确的目标输出值。24

无监督学习自动编码器是常见的降维工具,通过编码和解码过程,将高维数据压缩为低维表示,用于数据压缩和异常检测等。降维技术01生成模型如GAN和VAE学习数据分布,生成与训练数据相似的新样本,应用于图像生成、语言建模等任务。生成模型02

无监督学习25降维与生成模型半监督学习的定义半监督学习介于有监督学习和无监督学习之间,部分数据集中的样本有明确的目标输出值,而其他样本没有目标输出值。其目标是利用未标注的数据来提高模型在有标注数据上的性能。26

半监督学习01半监督学习定义结合有监督和无监督学习,利用未标注数据提升模型性能03半监督学习算法包括自训练、协同训练、半监督字典学习、标签传播算法等02半监督学习分类分为纯半监督学习和直推学习,基于不同假设处理未标记数据04半监督学习挑战性能依赖于对数据的特定假设,限制了实际应用范围

半监督学习27图1-2主动学习、半监督学习、直推学习

半监督学习在许多实际应用中,获取无类标签的样例容易,但获取有类标签的样本需要特殊设备或经过昂贵且耗时的实验过程。因此,半监督学习应运而生,旨在通过结合少量有标签数据和大量无标签数据来提升学习性能。背景半监督学习避免了数据和资源的浪费,同时解决了监督学习的模型泛化能力不强和无监督学习的模型不精确等问题。优势28假定训练数据中的未标记样本并非待预测的数据,而是基于“开放世界”假设,希望学得的模型能适用于训练过程中未观察到的数据。纯半监督学习假定学习过程中所考虑的未标记样本恰是待预测数据,基于“封闭世界”假设,仅试图对学习过程中观察到的未标记数据进行预测。直推学习半监督学习类型

半监督学习29用有标签数据训练一个分类器,然后用这个分类器对无标签数据进行分类,产生伪标签(pseudolabel)或软标签(softlabel)。基于一定的准则挑选认为分类正确的无标签样本,将其加入训练集中。简单自训练(SimpleSelf-training)属于自训练的一种技术,假设每个数据可以从不同的角度进行分类,不同角度可以训练出不同的分类器。这些分类器对无标签样本进行分类,并选出认为可信的无标签样本加入训练集。由于分类器从不同角度训练,可以形成互补,提高分类精度。协同训练(Co-training)(1)自训练算法(Self-training)

半监督学习——主要方法30(2)基于图的半监督学习(Graph-basedSemi-supervisedLearning)标签传播算法(LabelPropagationAlgorithm)通过构造图结构(数据点为顶点,点之间的相似性为边),寻找训练数据中有标签数据和无标签数

据的关系,从而将标签信息传播到未标记的样本上。(3)半监督支持向量机(Semi-supervisedSVM,S3VM)监督支持向量机是利用结构风险最小化来分类的。半监督支持向量机则进一步利用了无标签数据的

空间分布信息,即决策超平面应该与无标签数据的分布一致(经过无标签数据密度低的地方)。(4)半监督字典学习先将有标签数据构建为字典,对无标签数据进行分类,挑选出认为分类正确的无标签样本,加入字典中(此时的字典就变成了半监督字典)。

半监督学习——主要方法31半监督学习方法大多建立在对数据的某种假设上,例如聚类假设(同一簇内的数据属于同一类别)和流形假设(数据在低维流形上分布)。只有满足这些假设时,半监督算法才能有性能保证。这也是限制半监督学习应用的一大障碍。假设:限制:

半监督学习32半监督学习的假设与限制定义:自监督学习通过利用数据本身的内在结构来预测数据中的特定关系或特征,从而使用有监督的学习算法进行训练。关键:设计合适的“伪标签”以捕获数据的结构信息。应用领域:预训练语言模型(如Word2vec)、图像分割等。

自监督学习33(1)基于上下文的方法原理:利用数据本身的上下文信息构造任务。CBOW:通过周围词预测中心词。Skip-Gram:通过中心词预测周围词。Word2vec:Jigsaw(拼图)任务:通过预测图像块的相对位置学习语义信息。图像领域:

自监督学习——主要方法34(2)基于时序的方法利用帧的相似性:相邻帧特征相似,相隔较远的帧特征相似度低。构建正样本(相似)和负样本(不相似)进行自监督约束。视频领域:图1-5时序帧相似性示意图

自监督学习——主要方法35原理:利用样本间的时序约束关系进行自监督学习。(3)基于对比的方法关注正负样例的构建方式。探究非线性层在对比学习中的作用。提取更好的文本序列表征。SimCLR:通过对比学习提升无监督学习性能。关注样本数量对学习质量的影响。正样本:同一张图片的两个区域;负样本:不同图片的区域。MoCo:

自监督学习——主要方法36原理:学习对两个事物的相似或不相似进行编码,通过对比约束构建表征。01弱监督学习定义在噪声或不准确标签数据集进行学习,从低质量标签中提取信息提升模型性能03不确切监督仅知包级标签,不知包内每个示例标签,进行粗粒度学习02不完全监督部分数据有标签,部分无标签,利用有标签数据指导无标签数据学习04不精确监督标签存在错误,模型需识别并纠正错误标签以提升准确性

弱监督学习37生成式模型生成式模型通过学习数据分布生成新样本,如GAN、VAE、DBN和扩散模型。它们在深度学习中用于创造新内容或辅助优化。判别式模型判别式模型是学习输入数据与输出标签间条件概率分布的非概率模型,如CNN、RNN、LSTM等。根据深度学习的目标和方式,可以将深度学习模型划分为生成式模型和判别式模型两类1.3.2模型类型38生成式模型定义与应用学习输入数据联合概率分布P(X,Y),生成新样本,如GAN、VAE、DBN、扩散模型391.3.2模型类型——生成式模型GAN架构与功能基于深度学习,由生成器与鉴别器组成,生成新内容,2014年由IanGoodfellow等人提出图1-9生成式对抗网络(GAN)VAE原理与特点通过概率建模隐含变量,结合深度神经网络与贝叶斯推理,生成类似训练数据的新数据图1-10变分自编码器(VAE)1.3.2模型类型——生成式模型40DBN结构与优势由RBMs堆叠而成,预训练生成式模型优化权重,解决深度网络局部最优与欠拟合问题1.3.2模型类型——生成式模型41扩散模型机制通过连续添加高斯噪声破坏训练数据,学习逆向去噪过程恢复数据,生成与训练数据相似样本判别式模型,又称非概率模型,是指通过学习数据集中的统计规律,对输入数据进行分类或回归。判别式模型试图学习输入数据和输出标签之间的条件概率分布P(Y|X)。判别式模型关注于“给定数据属于哪个类别”的问题,直接对输入数据进行分类或回归。常见的判别式模型有卷积神经网络(CNNS)、循环神经网络(RNNs)、长短时记忆网络(LSTM)等。1.3.2模型类型——判别式模型42度量指标443

在深度学习中,如何评估模型解决当前问题的“可用”程度,需要根据对应需求选择合适的评估指标对模型的表现进行评定。深度学习的度量指标可按任务类型大致分为三类:回归任务指标、分类任务指标、生成任务指标。1.4度量指标44分类任务指标回归任务指标使用均方误差、R2分数,衡量模型预测值与真实值接近程度,较小误差体现高可用性准确率、查准率、查全率、F1分数,分析模型分类正确率,高指标表示分类效果好生成任务困惑度、人类可读性评估等,用于判断生成内容的多样性与真实性,低困惑度表示生成能力强1.4度量指标451、偏差偏差是实际值与预测值的差,残差之和常被用来度量偏差,低偏差可能仅意味着模型不准确,因为相反符号的残差会抵消1.4.1回归任务指标46特点:衡量模型解释的方差比例,值越高拟合效果越好,但增加特征不一定会提升模型性能,可用于比较模型1)相对度量,用于模型比较。2)值越高,拟合效果越好。3)对特征数量敏感,可能随特征增加而增加。4)用于粗略估计模型性能。2、决定系数R²其中:RSS(残差平方和):预测误差的平方和。TSS(总平方和):实际值与均值的平方和。1.4.1回归任务指标47MSE的定义MSE代表平均误差,通过计算残差平方和的平均值,对大误差惩罚更重。MSE的特点MSE是尺度相关的,对异常值敏感,且误差以目标变量单位表示。3、均方误差MSE1.4.1回归任务指标48MAE是平均绝对误差,它衡量预测与目标间的平均差异,对异常值不敏感5、平均绝对误差(MAE)RMSE是MSE的平方根,它与目标变量的尺度相同,方便解释4、均方根误差(RMSE)1.4.1回归任务指标4901度量指标混淆矩阵评估分类模型,TP、FP、TN、FN区分预测正误,对角线密集表示性能好02核酸检测示例阳性为P,阴性为N,TP正确阳性,FP错误阳性,TN正确阴性,FN错误阴性,总样本=TP+FP+TN+FN03指标计算精确率、召回率、特异度反映分类效果,精确率不同于准确率Accuracy1.4.2分类任务指标50混淆矩阵准确率是正确预测数量占总预测数量的比例,在样本不平衡时可能无法准确反映模型性能准确率(Accuracy)01精确率是预测为正类的样本中,实际为正类的比例,计算公式为:Precision=(真正正类数量)/(预测为正类的总数)精确率(Precision)02召回率是实际为正的样本被预测为正的概率,它与精确率呈反比,召回率高意味着预测正的能力强召回率(Recall)03F1-Score是精确率和召回率的调和平均值,衡量二分类模型的准确性。值越大,模型越好F1-Score041.4.2分类任务指标51评估生成任务,通过比较候选译文与参考译文n-gram重合度,重合度高表示质量高。BLEU概念01计算unigram到4-gram的精确率,加权平均后乘以长度惩罚因子BP,衡量译文与参考译文的相似度。BLEU计算方法02通常取N=1到4,关注单词准确性和句子流畅性,用于评价机器翻译的性能。BLEU应用03BP惩罚因子确保译文长度不过短,1-gram精确率体现忠实原文,高阶n-gram体现流畅翻译。BLEU分数解析041.4.3生成任务指标52(1)BLEU03关注召回率,衡量n元词组在参考译句与输出间的重合,旨在评估NMT的漏翻问题。ROUGE概念解析主要应用于NMT系统,评估翻译结果是否包含足够多的原文信息,防止过度流畅导致的误译。ROUGE应用领域作为BLEU的升级,ROUGE更重视翻译内容的覆盖,而非翻译的精确匹配。ROUGE与BLEU对比011.4.3生成任务指标5302(2)ROUGEMETEOR评估指标METEOR计算流程METEOR考虑语序一致METEOR同义词处理综合准确率和召回率,考虑整个语料库表现,包含同义词匹配功能。利用WordNet扩展同义词库,对词形变化的词进行部分匹配。通过chunk分析,比较候选译文和参考译文的语序一致程度。计算最佳匹配的准确率和召回率的调和平均,评估句子流畅性。1.4.3生成任务指标54(3)METEOR衡量文本多样性指标,计算不重复ngram与总词数比例,体现回复的独特性。DISTINCT定义DISTINCT-n越大,生成的多样性越高。适用于对话系统、广告文案等任务。DISTINCT特点1.4.3生成任务指标55(4)DISTINCTGreedyMatching是计算两句话中相似度最高词的平均余弦相似度,关注点在于找出关键词。GreedyMatching算法采用向量极值法计算句向量,通过余弦相似度衡量句子间的相似度。VectorExtremaEmbeddingAverage是计算语句相似度的方法,它通过加权平均词向量得到句向量,再用余弦相似度衡量两者间的相似度。EmbeddingAverage1.4.3生成任务指标56(5)词向量评价指标用于比较语言模型预测能力,低PPL表示模型预测效果更优。PPL概念解释01通过比较模型对测试集句子的概率,PPL值越低,建模能力越强。PPL计算方式02给定文本,RNN和GPT-2的PPL分数可体现哪个模型对文本预测更准确。PPL应用示例03测试集上概率高的模型更好,低PPL意味着语言模型对正常句子理解更佳。理解PPL指标041.4.3生成任务指标57(6)困惑度PPLN-gram重叠方法无法捕捉语义和语法变化,与人工评估一致性低。传统度量标准局限性在训练数据稀缺的环境中,BERTSCORE展示出更好的性能,更接近人工评估。新指标优势基于BERT表征,利用上下文信息和特殊设计的逻辑计算句子相似度,具有更强的鲁棒性。BERTSCORE介绍1.4.3生成任务指标58(7)BERTSCORE构建评估框架,替代人工测评,针对文本理解、生成任务,体现更优一致性。GPT-4模型能力评估01对比传统指标,大量实验显示GPT-4在摘要、对话等任务中与人类判断更接近。应用实例分析0259(8)GPT-Eval1.4.3生成任务指标6060本章小结本章首先从基本概念、历史发展和应用价值对深度学习进行了简要介绍,继而讨论了技术发展、产业变迁对深度学习的发展历程进行具体阐述,再分别从任务类型和模型类型的角度对深度学习进行了分类和介绍,以便于读者能够快速且较为全面的对深度学习进行了解。1-1当前大模型的规模已经达到千亿级别,你认为未来大模型能力的进化需要更大的参数规模吗?1-2将大模型的思维链能力蒸馏到小模型时,属于有监督、无监督、半监督、自监督和弱监督中的哪种训练范式?1-3目前大模型竞赛中,欧美等国的科技公司处在前列,你认为应该采取什么措施拉近与欧美等国的差距?1-4随着大模型的能力不断增强,你认为在不久的将来它能够完全代替人工标注吗?可能会存在什么潜在的瓶颈或风险?思考题与习题61612深度学习基础目录

|

CONTENTS线性代数1微积分2概率论3距离与相似度计算4激活函数567感知机与多重感知机反向传播算法线性代数12.1.1标量与向量标量是一个单独的数,它没有大小和方向之分。标量通常用一个数或者小写斜体字母表示。标量01向量由一列数有序排列组成,是一个既有大小也有方向的量。可以把向量看作空间中的点,每个元素对应不同坐标轴上的坐标。向量通常由粗体小写字母表示。向量022.1.2矩阵和张量矩阵是一个二维数组,由m行n列元素排列而成,每个元素须由两个索引确定。矩阵也可视为由m个长度相等的行向量或n个长度相等的列向量组成。矩阵通常用粗体大写字母来表示。矩阵01张量是一个多维数组,可以看作是向量的推广,向量可以视为一维张量,同时矩阵也可视为二维张量。张量中每个元素须由各个维度对应索引共同确定。张量022.1.3矩阵计算给定两个向量,它们的点积是指二者相同位置元素乘积的和,计算公式如下:点积01

矩阵乘法022.1.4范数如果我们按常数因子缩放向量的所有元素,其范数也会按相同常数因子的绝对值缩放:01满足三角不等式:02范数是具有“长度”概念的函数,它常常被用来度量某个向量空间(或矩阵)中的向量的长度或大小。向量范数是将向量映射到标量的函数,对给定的任意向量,具有以下性质:范数是非负的:03当且仅当向量为零向量时范数为0,即:2.1.4范数范数有很多名字,例如我们熟悉的曼哈顿距离、最小绝对误差等,其可以度量两个向量间的差异,如绝对误差和,计算方式如下:L1范数01范数一样,范数也可以度量两个向量间的差异,如平方差和。欧氏距离就是一种范数,计算方式如下:L2范数02微积分22.2.1导数与微分

2.2.1导数与微分在实际应用时,常常需要微分一个由一些常见函数组成的函数,这时可以使用以下法则。假设函数和都是可微的,是一个常数,有:2.2.2偏导数和梯度

偏导数012.2.2偏导数和梯度

梯度022.2.2偏导数和梯度偏导数与梯度并不是相等的概念,二者有区别也有联系,具体而言:是一个多元函数针对其某一个变量的导数,而保持其他变量恒定。偏导数01是一个向量,它指向函数在给定点处变化率最大的方向,它是一个由偏导数组成的向量。梯度022.2.3链式法则

概率论32.3.1概率分布概率分布用于描述随机变量每个取值或状态的可能性大小。针对离散型随机变量和连续型随机变量有不同的描述方式。

离散型随机变量01连续型随机变量的概率分布通常用概率密度函数来表示,但其并没有直接给出特定取值或状态对应的概率值,需要对概率密度函数求积分来获得随机变量取值落在某一范围内的概率。连续型随机变量022.3.2期望与方差期望是最基本的数学特征之一,反映了随机变量平均取值的大小。若随机变量为离散型,其期望可表示为:若随机变量为连续型,概率密度函数为,其期望可表示为:期望01方差是对随机变量离散程度的度量,其描述了随机变量与其数学期望之间的偏离程度。若随机变量为离散型,其方差可表示为:若随机变量为连续型,概率密度函数为,其方差可表示为:方差022.3.3条件概率和联合概率

条件概率01

方差022.3.4全概率公式与贝叶斯定理

全概率公式01

贝叶斯定理022.3.5边缘概率分布

距离与相似度计算42.4.1常见的距离计算假设当前有两个𝑛维向量𝑥和𝑦,可以通过两个向量之间的距离或者相似度来判定这两个向量的相近程度,两个向量之间距离越小,相似度越高;两个向量之间距离越大,相似度越低。MinkowskiDistance是对多个距离度量公式概括性的表述,当时,MinkowskiDistance便是曼哈顿距离;当时,MinkowskiDistance便是欧式距离;MinkowskiDistance取极限的形式便是切比雪夫距离。闵可夫斯基距离(MinkowskiDistance)01曼哈顿距离(ManhattanDistance)02欧式距离/欧几里得距离(Euclideandistance)032.4.1常见的距离计算切比雪夫距离(ChebyshevDistance)04海明距离(HammingDistance)05欧式距离/欧几里得距离(Euclideandistance)06

给定随机变量𝑋和两个概率分布𝑃和𝑄,KL散度可以用来衡量两个分布之间的差异性,其公式如下。2.4.2常见的相似度计算余弦相似度(CosineSimilarity)01皮尔逊相关系数(PearsonCorrelationCoefficient)02给定两个随机变量𝑋和𝑌,皮尔逊相关系数可以用来衡量两者的相关程度,公式如下:式中和分别表示向量𝑋和𝑌的均值,和分别表示向量𝑋和𝑌的标准差。2.4.2常见的相似度计算Jaccard相似系数(JaccardCoefficient)03假设有两个集合𝑋和𝑌,则其计算公式为:激活函数52.5激活函数激活函数是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。在神经元中,输入经过一系列加权求和后作用于另一个函数,这个函数就是这里的激活函数。类似于人类大脑中基于神经元的模型,激活函数最终决定了是否传递信号以及要发射给下一个神经元的内容。在人工神经网络中,一个节点的激活函数定义了该节点在给定的输入或输入集合下的输出。标准的计算机芯片电路可以看作是根据输入得到开(1)或关(0)输出的数字电路激活函数。如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,最终的输出都是输入的线性组合。激活函数给神经元引入了非线性因素,使得神经网络可以逼近任何非线性函数。2.5激活函数

sigmoid01函数定义:导数:优点:①

sigmoid函数的输出映射在(0,1)之间,单调连续,输出范围有限,优化稳定,可以用作输出层;②

求导容易。缺点:①

由于其软饱和性,一旦落入饱和区梯度就会接近于0,根据反向传播的链式法则,容易产生梯度消失,导致训练出现问题;②

sigmoid函数的输出恒大于0。非零中心化的输出会使得其后一层的神经元的输入发生偏置偏移,并进一步使得梯度下降的收敛速度变慢;③

计算时,由于具有幂运算,计算复杂度较高,运算速度较慢。2.5激活函数

tanh02函数定义:导数:优点:①tanh比sigmoid函数收敛速度更快;②相比sigmoid函数,tanh是以0为中心的。缺点:①与sigmoid函数相同,由于饱和性容易产生的梯度消失;②与sigmoid函数相同,由于具有幂运算,计算复杂度较高,运算速度较慢。2.5激活函数

ReLU03函数定义:导数:优点:①收敛速度快;②相较于sigmoid和tanh中涉及了幂运算,导致计算复杂度高,ReLU可以更加简单地实现;③当输入时,ReLU的导数为常数,这样可有效缓解梯度消失问题;④当时,ReLU的梯度总是0,提供了神经网络的稀疏表达能力。缺点:①ReLU的输出不是以0为中心的;②神经元坏死现象,某些神经元可能永远不会被激活,导致相应参数永远不会被更新;③不能避免梯度爆炸问题。2.5激活函数

LReLU04函数定义:导数:优点:①避免梯度消失;②由于导数总是不为零,因此可减少坏死神经元的出现。缺点:①LReLU表现并不一定比ReLU好;②不能避免梯度爆炸问题。

2.5激活函数

PReLU05函数定义:导数:优点:①PReLU是LReLU的改进,可以自适应地从数据中学习参数;②收敛速度快、错误率低;③PReLU可以用于反向传播的训练,可以与其他层同时优化。

2.5激活函数

ELU06函数定义:导数:优点:①导数收敛为零,从而提高学习效率;②能得到负值输出,这能帮助网络向正确的方向推动权重和偏置变化;③防止坏死神经元出现。缺点:①计算量大,表现并不一定比ReLU好;②不能避免梯度爆炸问题。

2.5激活函数

SELU07函数定义:导数:优点:①SELU是ELU的一个变种。其中和是固定数值(分别为1.0507和1.6732);②经过该激活函数后使得样本分布自动归一化到0均值和单位方差;③不会出现梯度消失或爆炸问题。

2.5激活函数

softsign08函数定义:导数:优点:①softsign是tanh激活函数的另一个替代选择;②softsign是反对称、去中心、可微分,并返回−1和1之间的值;③softsign更平坦的曲线与更慢的下降导数表明它可以更高效地学习。缺点:导数的计算比tanh更麻烦2.5激活函数

softplus08函数定义:导数:优点:①作为ReLU的一个不错的替代选择,softplus能够返回任何大于0的值;②与ReLU不同,softplus导数是连续的、非零的,无处不在,从而防止出现坏死神经元。缺点:①导数常常小于1,也可能出现梯度消失的问题;②softplus另一个不同于ReLU的地方在于其不对称性,不以零为中心,可能会妨碍学习。2.5激活函数

softmax09

感知机与多层感知机62.6.1感知机

2.6.1感知机

2.6.1感知机

感知机学习算法算法2-12.6.2多层感知机

感知机能够解决线性可分的情况,但真实世界中,大量分类问题是非线性可分问题。一种解决的有效方法是,在输入层和输出层之间引入隐含层,在每个隐含层通过激活函数来处理非线性情况,从而将感知机转化为多层感知机来解决非线性可分问题。多层感知机是目前应用广泛的神经网络之一,这主要源于基于BP算法的多层感知机具有以下重要能力。①非线性映射能力。多层感知机能学习和存储大量输入-输出模式映射关系,它能完成由n维输入空间到m维输出空间的非线性映射。②泛化能力。多层感知机训练后将所提取的样本对中的非线性映射关系存储在权值矩阵中。在测试阶段,当输入新数据时,网络也能完成由输入空间向输出空间的正确映射。这种能力称为多层感知机的泛化能力,它是衡量多层感知机性能优劣的一个重要方面。③容错能力。多层感知机的优势还在于允许输入样本中带有较大的误差甚至个别错误。因为对权矩阵的调整过程也是从大量的样本对中提取统计特性的过程,反映正确规律的知识来自全体样本,个别样本中的误差不能左右对权矩阵的调整。反向传播算法72.7反向传播算法

2.7反向传播算法

前向传递过程012.7反向传播算法

误差反向传递过程022.7反向传播算法

误差反向传递过程022.7反向传播算法

误差反向传递过程022.7反向传播算法

误差反向传递过程022.7反向传播算法

误差反向传递过程02本章小结本章主要讨论了深度学习所需要的数学基础知识,包括线性代数、微积分、概率论相关基础概念和运算,以及深度学习中常用的距离与相似度计算方式。进一步,介绍了人工神经网络中的几个重要概念,包括激活函数、感知机,和多层感知机等。最后,对神经网络训练过程涉及的反向传播算法进行了介绍。希望通过本章的介绍,能够让读者对后续章节有更好的理解。思考题与习题单击此处添加文本单击此处添加文本3卷积神经网络目录

|

CONTENTS简介1基础模块2典型卷积神经网络3各种卷积4116简介1117卷积神经网络(CNN)是一种在深度学习领域具有重要地位的人工神经网络。其核心特点是卷积运算,这使得CNN在图像分类、语义分割、检索和物体检测等计算机视觉任务中表现出色。此外,CNN还被应用于自然语言处理、软件工程和数据挖掘等领域,展现出优越的预测效果。3.1简介1181193.1.1基本概念卷积神经网络是一种层次模型,输入为原始数据(如RGB图像、音频等)。通过卷积、池化和非线性激活等操作,逐层抽取高层语义信息。这一过程称为“前馈运算”。1、卷积神经网络(CNN)概述2、CNN的层次结构1203.1.1基本概念不同类型的操作称为“层”,例如卷积层、池化层等。每一层的输出是一个三维张量(如图像的H×W×C)。数据逐层传递,每一层可以是单一操作或操作组合。3、前馈运算与损失函数1213.1.1基本概念

反向传播与模型训练利用反向传播算法,将误差从最后一层逐层向前反馈,更新每一层的参数。重复前馈运算和反向传播,直到网络收敛,完成模型训练。CNN的类比解释CNN可以类比为搭积木的过程:卷积等操作作为“基本单元”,逐层堆叠在原始数据上。每一层的输出作为下一层的输入,最终计算损失函数。3.1.1基本概念122卷积神经网络起源AlexNet的突破LeNet的诞生神经认知模型猫的视觉神经元研究,1962年发现大脑视觉中枢结构,启发神经网络设计。福岛邦彦提出"神经认知",模拟生物视觉系统,S型和C型细胞对应现代CNN的卷积层和池化层。1998年YannLeCun的LeNet,基于梯度学习的卷积网络,应用于手写数字识别,开启了商业应用。2012年GeoffreyE.Hinton等人在ImageNet竞赛中使用AlexNet,卷积神经网络开始主导计算机视觉领域。3.1.2发展历程123基础模块2124本节将在掌握深度卷积神经网络的基本框架后,重点探讨卷积神经网络中的关键组成部分及模块。这些组成部分的逐层堆叠,使得卷积神经网络能够直接从原始数据中学习特征表示,并成功地完成最终任务。3.2基础模块125深度学习核心思想深度学习模型结构端到端学习优势传统机器学习对比端到端学习,自动特征表示,无需人工特征工程,解决复杂问题时可能达到全局最优。依赖预处理特征,人工特征质量影响最终精度,多步骤方法可能无法实现全局最优。整体优化,不人为划分子问题,直接从原始输入到期望输出,协同效果可能更优。全连接神经网络,原始输入层上堆叠操作层,通过损失函数反向传播优化参数。3.2.1端到端架构12601输入层功能接收原始图像数据,调整大小、归一化、处理通道,适应网络需求,为后续层提供处理后的数据流。03数据增强目的通过随机变换增加训练数据多样性,防止过拟合,提升卷积神经网络在实际任务中的泛化性能。02预处理步骤包括图像大小调整确保输入一致,归一化使数值范围可控,增强数据多样性和泛化能力,以及按批次组织数据以优化计算效率。04通道与批量处理处理图像的多个通道,适应网络结构,同时将数据组织成批次进行高效训练,为特征提取和学习做好准备。3.2.2输入层127卷积层是深度卷积神经网络中的基本操作,它在网络中发挥着重要作用。实际上,甚至在网络的最后起分类作用的全连接层在工程实现时也可以通过卷积操作进行替代。这种替代方式的使用在实际应用中相当常见。3.2.3卷积层128卷积运算在神经网络中用于分析图像,通过卷积核与输入数据相乘累加,得到特征图,用于后续层的处理。

基本思想图

3-1二维场景下,卷积核和输入数据的可视化。图左展示了一个3x3的卷积核,而图右展示了一个5x5的输入数据。129

基本思想(a)

第一次卷积操作后的结果 (b)第三次卷积操作后的结果图

3-2卷积中间结果示意图在第一次卷积操作中,从图像的像素位置(0,0)开始,卷积核的参数与对应位置的图像像素逐个相乘,并将它们累加起来作为卷积操作的结果。具体计算为:1x1+2x0+3x1+6x0+7x1+8x0+9x1+8x0+7x1=1+3+7+9+7=27,如图3-2(a)所示。130卷积操作:一种局部操作,通过特定大小的卷积核对局部图像区域进行处理,获取图像的局部信息。边缘检测示例:使用三种边缘卷积核(滤波器)说明卷积操作的作用:整体边缘滤波器:检测图像中的整体边缘信息。横向边缘滤波器:检测图像中的横向边缘信息。纵向边缘滤波器:检测图像中的纵向边缘信息。边缘检测原理:假设像素点(x,y)可能存在物体边缘,其周围像素值与(x,y)有显著差异。应用边缘滤波器可以保留这些显著差异的区域,从而检测出物体的边缘信息。131

卷积层基本作用1、卷积操作的基本原理卷积核的参数学习:在卷积神经网络中,卷积核的参数是通过网络训练学习得到的。多样的边缘滤波器:网络可以学习到各种边缘滤波器,包括横向、纵向和任意角度的边缘滤波器。复杂的深层卷积神经网络还可以学习到检测颜色、形状、纹理等基本模式的滤波器。高层语义表示:随着网络的后续操作,基本模式被组合并逐渐抽象为具有高层语义的“概念”表示。网络能够将输入样本映射到具体的样本类别,并对不同的概念进行表示和分类。类比:类似于盲人摸象,网络逐渐将各个部分的结果整合起来,最终形成对整体样本的理解和分类。132

卷积层基本作用2、卷积核的学习与高级特征检测在卷积神经网络中,当涉及到池化层时,通常使用的操作有平均值池化和最大值池化。这些操作与卷积层不同,它们不包含需要学习的参数。在使用池化层时,只需要指定池化类型(如平均值或最大值)、池化操作的核大小(池化核的大小)以及池化操作的步长等超参数即可。这些超参数决定了在池化操作中如何对输入数据进行下采样。3.2.4池化层133

池化的基本概念1341、池化操作随机池化是一种介于平均值池化和最大值池化之间的操作。它按概率随机选择输入数据中的元素,而不是仅选择最大值或计算均值。元素值越大,被选中的概率越高,因此它结合了平均值池化(考虑所有元素)和最大值池化(选择大响应)的特点。随机池化的目的是通过引入随机性来增强模型的鲁棒性和抗过拟合能力,但其使用不如平均值池化和最大值池化广泛。

池化的基本概念1352、随机池化池化操作实质上是一种“下采样”(down-sampling)的技术。同时,可以将池化操作视为一种使用p-范数(p-norm)作为非线性映射的“卷积”技巧。特别地,当p逼近无穷大时,它就等同于常见的最大值池化。

池化层意义136

引入池化层旨在模拟人类视觉系统对输入对象的降维和抽象。池化层在卷积神经网络中具有以下功能:特征不变性:池化使模型关注特征的存在而非具体位置,容忍微小位移。特征降维:池化通过降采样减少输入大小,提取更广泛的特征,降低计算量和参数数量。防止过拟合,优化训练:池化层虽非必需,但可防止过拟合,便于优化。有研究用特殊卷积操作替代池化层实现降采样,实验表明其性能可与传统卷积神经网络相当137

池化层意义激活层(activationlayer)是卷积神经网络另外一个重要的组成部分。激活层将卷积层或者全连接层线性运算的输出做非线性映射,为神经网络提供非线性能力。激活层通过激活函数来实现。激活函数模拟了生物神经元的特性,接受一组输入信号产生输出,并通过一个阈值模拟生物神经元的激活和兴奋状态。常见的激活函数包括:Sigmoid、Tanh、ReLU等,具体可参考第二章。3.2.5激活层138全连接层在卷积神经网络中作为“分类器”,将特征表示映射到标签空间。在实际应用中,可以通过卷积操作实现全连接层的功能:对于前一层是全连接层的情况,可转化为1×1卷积核;对于前一层是卷积层的情况,可转化为全局卷积核(尺寸为h×w,其中h和w是前一层输出的高度和宽度)。3.2.6全连接层139

以VGG网络为例:输入为224×224×3的图像,经过卷积和池化层后,最后一层卷积输出为7×7×512的特征张量。若后续接4096个神经元的全连接层,可使用7×7×512×4096的全局卷积来实现全连接计算。具体操作:将7×7×512的特征张量展平为长度为25088的向量,通过全局卷积运算,将每个7×7的局部特征图与权重逐元素相乘并求和,最终得到4096维的向量,完成从特征到标签的映射。这种将全连接层转化为全局卷积的方法在VGG网络中是一种特殊设计,旨在减少参数量,简化网络结构,提高计算效率,并已被证明是有效的。1403.2.6全连接层

全连接层将特征映射到样本标记空间进行预测,而目标函数衡量预测值与真实标记之间的误差。对于分类问题,交叉熵损失函数是最常用的目标函数之一,它基于预测类别和真实类别之间的差异来衡量分类错误,并在训练过程中促使网络更好地拟合数据,尤其适用于多类别分类任务。对于回归问题,L2损失函数(均方误差)是常用的目标函数,衡量预测值与真实值之间的平方差,对异常值较敏感,但在许多情况下仍有效。此外,针对不同任务特性,研究人员还提出了其他目标函数,如序列生成任务中的序列交叉熵损失函数和强化学习中的策略梯度目标函数等。这些目标函数为不同任务和数据特点提供了更大的灵活性和选择性,使得卷积神经网络能够更好地训练和优化性能。1413.2.7目标函数典型卷积神经网络3142LeNet-5是由YannLeCun等人于1998年提出的早期卷积神经网络模型,广泛用于手写数字识别任务(如MNIST数据集)。它引入了卷积层和池化层,通过卷积核提取局部特征,并利用池化层降低特征图尺寸以增强模型鲁棒性。LeNet-5使用Sigmoid激活函数引入非线性,能够学习复杂的图像特征。它在MNIST数据集上取得了优异性能,为深度学习在计算机视觉领域的发展奠定了基础,并激励了后续更复杂CNN模型的出现。3.3.1LeNet-5图

3-6LeNet-5

架构图1432012年,GeoffHinton及其学生AlexKrizhevsky和IlyaSutskever在多伦多大学设计了AlexNet,这是一个深层卷积神经网络。它在2012年ImageNetLSVRC竞赛中夺冠,top5错误率仅为15.3%,远低于第二名的26.2%。AlexNet的网络结构包含五个卷积层和三个全连接层,分为上下两个相同的分支,分别在两个GPU上并行训练,并在第三卷积层和全连接层交互信息。它解决了图像分类问题,输入为1000类图像中的一个,输出为1000维向量,表示输入图像属于各分类的概率。AlexNet的成功奠定了CNN在图像识别领域的核心地位,推动了深度学习的发展。3.3.2AlexNet144

与之前的CNN结构相比,AlexNet的设计和训练具有以下特点:ReLU激活函数:使用ReLU代替传统的sigmoid或tanh,加快训练速度,减少梯度弥散和爆炸。数据扩充:通过随机裁剪、平移和翻转扩充数据量。从256×256图像中截取224×224区域及水平翻转镜像,增加数据量。Dropout:在训练中随机丢弃神经元,防止过拟合。主要应用于最后三个全连接层。多GPU训练:使用多块GPU并行计算,突破单GPU显存限制,加快训练速度。局部响应归一化(LRN):借鉴“侧抑制”思想,对ReLU输出进行局部归一化,增强泛化能力。1453.3.2AlexNetVGG是由牛津大学VGG组提出的CNN网络,基于AlexNet加深了网络层次,采用多个3×3卷积核代替AlexNet中的大卷积核(11×11、5×5),在ImageNet上Top-5准确率达到92.3%,是2014年竞赛中定位任务的第一名和分类任务的第二名基础网络。VGG使用更小的卷积核和池化核,使网络更深更宽,计算量增加放缓。测试阶段,VGG将全连接层替换为卷积层,可接收任意尺寸输入。VGG的预训练模型广泛应用于特征提取、物体候选框生成、细粒度图像定位与检索及图像协同定位等任务。3.3.3VGGNet图

3-7VGG网络结构146GoogleNet和VGG是2014年ImageNet竞赛中的两个著名网络,都具有较深的层次。与VGG不同,GoogleNet大胆创新,未继承AlexNet框架。GoogleNet通过结构设计增加深度和宽度,同时避免了过拟合、梯度消失等问题,且模型大小远小于AlexNet和VGG。GoogleNet采用22层网络,通过在不同深度处增加两个辅助损失(loss)来避免梯度消失。其创新点在于Inception模块,这是一种“网中网”结构,既增加了网络宽度,又提升了对不同尺度的适应性。为了避免特征图(featuremap)过厚,Inception模块在3×3卷积、5×5卷积和最大池化层后分别加入1×1卷积核以降低特征图厚度。这使得GoogleNet在拥有22层的同时,参数量少于AlexNet和VGG。3.3.4GoogLeNet图

3-8Inception模块结构147在早期研究中,CNN网络从AlexNet的7层发展到VGG的16或19层,再到GoogleNet的22层,深度不断增加以提升表达能力。然而,后续研究发现,当网络深度达到一定程度后,继续增加层数不仅无法提升性能,反而会导致网络收敛变慢、准确率下降,例如VGG网络在19层以上时性能开始下降。在此背景下,华人学者何恺明等人提出了ResNet网络,引入残差学习的概念,解决了深层网络中的信息丢失和梯度问题,并在ILSVRC2015竞赛中夺冠,top5错误率仅为3.57%,且参数量少于VGG。ResNet的核心思想是增加直连通道,允许原始输入信息直接传递到后面的层中,简化了学习目标,提升了训练速度和准确率,且具有良好的推广性,可应用于InceptionNet等网络。3.3.5ResNet图

3-9ResNet模块结构1481、R-CNN系列模型工作原理149候选区域提取:使用SelectiveSearch等传统图像分割方法生成可能包含目标的候选区域,这些区域数量多且形状、大小各异。特征提取:将每个候选区域调整为固定大小,通过预训练的CNN(如AlexNet、VGG)提取特征,这些网络在大规模图像分类任务上训练,能有效捕获图像特征。目标分类:将提取的特征输入SVM分类器,将候选区域分为不同目标类别(如汽车、行人、动物等),每个类别对应一个SVM。目标定位:使用回归器微调候选区域的边界框,以更准确地匹配目标的实际位置。非极大值抑制(NMS):排除重叠的候选区域,保留最佳检测结果,确保每个目标只被保留一次。训练过程:两阶段训练,先预训练CNN,再训练SVM分类器和回归器以适应目标检测任务。3.3.6R-CNN系列2、FastR-CNN网络的工作原理150候选区域提取:引入RegionProposalNetworks(RPNs)生成候选区域,与特征提取共享卷积计算,提高速度。特征提取:对整张图像进行卷积计算,得到特征图。使用RoIPooling层从特征图中提取每个候选区域的固定大小特征向量,确保特征表示维度一致。目标分类与边界框回归:将特征向量输入两个全连接层:一个用于目标分类,通过Softmax输出类别概率。一个用于边界框回归,预测目标的精确位置。3.3.6R-CNN系列2、FastR-CNN网络的工作原理151多任务损失函数:同时优化分类和边界框回归:分类损失使用交叉熵。边界框回归损失使用SmoothL1Loss。训练过程:端到端训练:微调预训练的卷积神经网络。在目标检测数据集上优化网络参数。测试过程:前向传播生成候选区域并提取特征。使用分类器进行目标分类,应用边界框回归优化目标位置。3.3.6R-CNN系列定义:“YOLO”代表“YouOnlyLookOnce”,是一系列用于实时目标检测的深度学习模型。特点:通过单次前向传递同时预测图像中的多个物体边界框和类别,兼顾速度和准确性。3.3.7Yolo系列152YOLO简介YOLOv1YOLOv10YOLOv3YOLOv2发布时间:2015年,由JosephRedmon等人提出。架构:将输入图像划分为S×S网格,每个网格预测B个边界框、置信度和类别概率。输出:网络输出为S×S×(B×5+C)的张量,其中C为类别数量。训练:使用均方误差和交叉熵损失函数,结合非极大值抑制(NMS)去除重复检测。发布时间:2016年。改进:引入Darknet-19和Darknet-53网络结构。

使用锚点框(anchorboxes)提高边界框预测准确性。

实现多尺度训练和预测,联合训练目标检测和分类任务。发布时间:2018年。改进:使用Darknet-53网络结构。引入多尺度预测和特征融合,使用三种不同尺度的边界框预测不同大小的目标。使用1×1卷积层进行类别预测,提升速度和准确性。发布时间:2024年,由清华大学发布。改进:取消非最大抑制(NMS),引入一致双重赋值策略。

优化模型架构,降低计算成本。

在各种模型规模上表现出色,如YOLOv10-S在COCO数据集上实现快速高效的目标检测。1533.3.7Yolo系列MobileNet是一种轻量级CNN架构,专为移动设备和嵌入式系统设计,以实现高效的图像识别任务。它由谷歌研究人员于2017年提出,成为深度学习领域中受欢迎的轻量级模型之一。MobileNet的核心是深度可分离卷积,它将传统卷积分解为两个独立步骤:深度卷积和逐点卷积。深度卷积对每个输入通道单独进行卷积操作,而逐点卷积使用1×1卷积核将深度卷积的结果映射到最终输出通道数上,实现通道间的信息交互和混合。此外,MobileNet引入了宽度乘法参数(WidthMultiplier),用于控制网络宽度,减少通道数和模型计算量。该参数介于0和1之间,例如0.5表示将通道数减少为原来的一半。通过深度可分离卷积和宽度乘法参数的结合,MobileNet在资源受限的设备上实现了高效的图像识别任务,成为移动端和嵌入式设备上广泛使用的轻量级深度学习模型。3.3.8MobileNet图

3-12深度卷积(左)逐点卷积(右)Conformer是一种结合卷积神经网络(CNN)和Transformer架构的混合网络,融合了卷积操作和自注意力机制,以提升表示学习能力。它采用并行结构,同时保留局部特征和全局信息。实验表明,Conformer在ImageNet上的性能比视觉Transformer高出2.3%,在MSCOCO上的目标检测和实例分割任务中,分别比ResNet-101高出3.7%和3.6%的mAP,展现出作为通用骨干网络的强大潜力。3.3.9Conformer图

3-13

Conformer效果对比各种卷积4156如图3-14所示,单通道图像的2D卷积通过滤波器与输入数据逐元素相乘并累加,得到卷积值。例如,使用一个3×3的滤波器(元素为[[0,1,2],[2,2,0],[0,1,2]]),在输入数据上滑动,每次计算对应位置的乘法和加法,最终输出一个3×3的矩阵。在多通道输入(如RGB图像)中,2D卷积广泛应用。例如,对于一个5×5×3的输入矩阵和一个3×3×3的滤波器,每个3×3的滤波器核分别对输入的三个通道进行卷积,得到三个3×3的输出通道。3.4.12D卷积图

3-14

2D卷积,单通道(上)多通道(下)157在多通道情况下,2D卷积实际上是一个3D卷积过程,因为滤波器的深度与输入层深度匹配,滤波器仅在图像的二维空间(高度和宽度)上滑动,输出单通道结果。而3D卷积中,滤波器深度小于输入层深度,需要在三个维度(长、宽、高)上滑动,输出结果为3D结构。3D卷积的优势在于能更好地描述3D空间中的对象关系,适用于3D对象分割和医学图像重构等场景。3.4.23D卷积图

3-15

3D卷积示意图1581×1卷积不仅对特征图中的每个值进行缩放,还通过激活层实现非线性映射,并能灵活改变特征图的通道数。例如,对一个H×W×D的输入层应用D维的1×1卷积核,输出通道维度变为H×W×1。多次执行1×1卷积并将结果合并,最终可得到H×W×N的输出层。3.4.31×1卷积图

3-16

1×1卷积示意图159在可分离卷积中,卷积核操作可以分解为多个步骤。卷积过程用表达式y=conv(x,k)表示,其中y是输出图像,x是输入图像,k是卷积核。如果卷积核k可以表示为k=k1∙k2,那么卷积操作就可以分解为两个一维卷积,从而实现可分离卷积,得到与二维卷积相同的结果。例如,Sobel卷积核可以通过向量[1,0,−1]和[1,2,1]T的乘积来实现,参数数量从9个减少到6个。3.4.4空间可分离卷积图

3-17

空间可分离卷积运算示意图160使用32个3×3的卷积核遍历16个输入通道,产生512个特征映射(16×32),然后将每个输入通道的特征映射相加,形成32个输出通道。参数总量为4608(16×32×3×3)。传统卷积:深度卷积:对每个输入通道分别应用3×3卷积核,得到16个特征映射。逐通道卷积:对这16个特征映射分别应用32个1×1卷积核,最终合并结果。参数总量减少为656(16×3×3+16×32×1×1)。深度可分离卷积:1613.4.5深度可分离卷积深度可分离卷积将标准卷积分解为空间卷积和逐通道卷积两步,显著减少参数数量。以一个3×3卷积层为例,输入通道为16,输出通道为32:假设输入层大小为7×7×3,使用3×3×3的卷积核进行2D卷积,输出层大小为5×5×1。若使用128个卷积核,则得到128个5×5×1的输出映射,堆叠后形成5×5×128的输出层。标准2D卷积回顾:深度卷积:使用3个3×3×1的卷积核分别对每个输入通道进行卷积,得到5×5×3的中间输出。逐通道卷积:对中间输出应用1×1卷积核,增加通道数至32,最终输出5×5×32的特征图。深度可分离卷积实现:1623.4.5深度可分离卷积图

3-18

深度可分离卷积示意图分组卷积是一种在人工智能领域广泛应用的技术,最早应用于AlexNet模型。由于当时硬件资源有限,无法将所有卷积操作集中在一块GPU上,因此作者采用分组卷积的方法,将特征图分成多个部分,分别在多个GPU上处理,最后合并结果。其原理如下:传统2D卷积中,使用多个卷积核(如128个3×3×3的卷积核)将输入层(如7×7×3)转换为输出层(如5×5×128)。在分组卷积中,将卷积核分成若干组,每组独立执行卷积操作,最终将各组结果合并。3.4.6分组卷积图3-19分组卷积示意图163扩张卷积通过增加卷积核内值之间的间隔来扩展感受野。例如,扩张率为2的3×3卷积核具有与5×5卷积核相同的视野,但仅需9个参数。它类似于在5×5卷积核中删除间隔行和列,从而在保持计算成本不变的情况下获得更大的感受野。这种技术因在实时分割领域的应用而受到关注,尤其适用于需要更大感受野但无法承受更高计算成本的场景。3.4.7扩张卷积图3-20扩张卷积示意图空洞卷积通过在卷积核的部分之间插入空间来实现"膨胀"的效果。参数l(空洞率)表示希望将卷积核扩展多大。图3-20示了当l=1,2,4时,卷积核的大小。(当l=1时,空洞卷积就等同于标准卷积操作。)16451本章小结本章系统介绍了卷积神经网络的基本概念、发展历程、基本结构与部件以及代表性模型。卷积神经网络发源于人们对于视觉系统工作原理的研究,以类比的思想用卷积核对图像的处理模拟人类感受野读取、理解图片的过程。卷积神经网络的出现大大推动了计算机视觉领域的进步,特别是近些年来,以卷积神经网络为基本架构的模型在部分任务上达到了和人类持平甚至超过人类的表现。3-1卷积层在CNN中起到什么作用?3-2什么是池化层,它的主要功能是什么?3-3激活函数在CNN中的作用是什么?常见的激活函数有哪些?3-4什么是全连接层,它在CNN中起到什么作用?3-5什么是端到端学习,它相比传统机器学习方法的优势是什么?3-6AlexNet在设计和训练上有哪些特点?3-7VGG网络的主要创新点是什么?3-8什么是深度可分离卷积,它的主要优势是什么?3-9什么是感受野,为什么在卷积神经网络中重要?3-10什么是YOLO网络,它的主要特点是什么?思考题与习题1664循环神经网络目录

|

CONTENTS循环神经网络结构1循环神经网络的训练2双向循环神经网络与深度循环神经网络3长短期记忆网络4门控循环单元567递归神经网络双向长短期记忆网络与双向门控循环单元循环神经网络(recurrentneuralnetworks,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论