




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2深度学习基础目录
|
CONTENTS线性代数1微积分2概率论3距离与相似度计算4激活函数567感知机与多重感知机反向传播算法线性代数12.1.1标量与向量标量是一个单独的数,它没有大小和方向之分。标量通常用一个数或者小写斜体字母表示。标量01向量由一列数有序排列组成,是一个既有大小也有方向的量。可以把向量看作空间中的点,每个元素对应不同坐标轴上的坐标。向量通常由粗体小写字母表示。向量022.1.2矩阵和张量矩阵是一个二维数组,由m行n列元素排列而成,每个元素须由两个索引确定。矩阵也可视为由m个长度相等的行向量或n个长度相等的列向量组成。矩阵通常用粗体大写字母来表示。矩阵01张量是一个多维数组,可以看作是向量的推广,向量可以视为一维张量,同时矩阵也可视为二维张量。张量中每个元素须由各个维度对应索引共同确定。张量022.1.3矩阵计算给定两个向量,它们的点积是指二者相同位置元素乘积的和,计算公式如下:点积01
矩阵乘法022.1.4范数如果我们按常数因子缩放向量的所有元素,其范数也会按相同常数因子的绝对值缩放:01满足三角不等式:02范数是具有“长度”概念的函数,它常常被用来度量某个向量空间(或矩阵)中的向量的长度或大小。向量范数是将向量映射到标量的函数,对给定的任意向量,具有以下性质:范数是非负的:03当且仅当向量为零向量时范数为0,即:2.1.4范数范数有很多名字,例如我们熟悉的曼哈顿距离、最小绝对误差等,其可以度量两个向量间的差异,如绝对误差和,计算方式如下:L1范数01范数一样,范数也可以度量两个向量间的差异,如平方差和。欧氏距离就是一种范数,计算方式如下:L2范数02微积分22.2.1导数与微分
2.2.1导数与微分在实际应用时,常常需要微分一个由一些常见函数组成的函数,这时可以使用以下法则。假设函数和都是可微的,是一个常数,有:2.2.2偏导数和梯度
偏导数012.2.2偏导数和梯度
梯度022.2.2偏导数和梯度偏导数与梯度并不是相等的概念,二者有区别也有联系,具体而言:是一个多元函数针对其某一个变量的导数,而保持其他变量恒定。偏导数01是一个向量,它指向函数在给定点处变化率最大的方向,它是一个由偏导数组成的向量。梯度022.2.3链式法则
概率论32.3.1概率分布概率分布用于描述随机变量每个取值或状态的可能性大小。针对离散型随机变量和连续型随机变量有不同的描述方式。
离散型随机变量01连续型随机变量的概率分布通常用概率密度函数来表示,但其并没有直接给出特定取值或状态对应的概率值,需要对概率密度函数求积分来获得随机变量取值落在某一范围内的概率。连续型随机变量022.3.2期望与方差期望是最基本的数学特征之一,反映了随机变量平均取值的大小。若随机变量为离散型,其期望可表示为:若随机变量为连续型,概率密度函数为,其期望可表示为:期望01方差是对随机变量离散程度的度量,其描述了随机变量与其数学期望之间的偏离程度。若随机变量为离散型,其方差可表示为:若随机变量为连续型,概率密度函数为,其方差可表示为:方差022.3.3条件概率和联合概率
条件概率01
方差022.3.4全概率公式与贝叶斯定理
全概率公式01
贝叶斯定理022.3.5边缘概率分布
距离与相似度计算42.4.1常见的距离计算假设当前有两个𝑛维向量𝑥和𝑦,可以通过两个向量之间的距离或者相似度来判定这两个向量的相近程度,两个向量之间距离越小,相似度越高;两个向量之间距离越大,相似度越低。MinkowskiDistance是对多个距离度量公式概括性的表述,当时,MinkowskiDistance便是曼哈顿距离;当时,MinkowskiDistance便是欧式距离;MinkowskiDistance取极限的形式便是切比雪夫距离。闵可夫斯基距离(MinkowskiDistance)01曼哈顿距离(ManhattanDistance)02欧式距离/欧几里得距离(Euclideandistance)032.4.1常见的距离计算切比雪夫距离(ChebyshevDistance)04海明距离(HammingDistance)05欧式距离/欧几里得距离(Euclideandistance)06
给定随机变量𝑋和两个概率分布𝑃和𝑄,KL散度可以用来衡量两个分布之间的差异性,其公式如下。2.4.2常见的相似度计算余弦相似度(CosineSimilarity)01皮尔逊相关系数(PearsonCorrelationCoefficient)02给定两个随机变量𝑋和𝑌,皮尔逊相关系数可以用来衡量两者的相关程度,公式如下:式中和分别表示向量𝑋和𝑌的均值,和分别表示向量𝑋和𝑌的标准差。2.4.2常见的相似度计算Jaccard相似系数(JaccardCoefficient)03假设有两个集合𝑋和𝑌,则其计算公式为:激活函数52.5激活函数激活函数是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。在神经元中,输入经过一系列加权求和后作用于另一个函数,这个函数就是这里的激活函数。类似于人类大脑中基于神经元的模型,激活函数最终决定了是否传递信号以及要发射给下一个神经元的内容。在人工神经网络中,一个节点的激活函数定义了该节点在给定的输入或输入集合下的输出。标准的计算机芯片电路可以看作是根据输入得到开(1)或关(0)输出的数字电路激活函数。如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,最终的输出都是输入的线性组合。激活函数给神经元引入了非线性因素,使得神经网络可以逼近任何非线性函数。2.5激活函数
sigmoid01函数定义:导数:优点:①
sigmoid函数的输出映射在(0,1)之间,单调连续,输出范围有限,优化稳定,可以用作输出层;②
求导容易。缺点:①
由于其软饱和性,一旦落入饱和区梯度就会接近于0,根据反向传播的链式法则,容易产生梯度消失,导致训练出现问题;②
sigmoid函数的输出恒大于0。非零中心化的输出会使得其后一层的神经元的输入发生偏置偏移,并进一步使得梯度下降的收敛速度变慢;③
计算时,由于具有幂运算,计算复杂度较高,运算速度较慢。2.5激活函数
tanh02函数定义:导数:优点:①tanh比sigmoid函数收敛速度更快;②相比sigmoid函数,tanh是以0为中心的。缺点:①与sigmoid函数相同,由于饱和性容易产生的梯度消失;②与sigmoid函数相同,由于具有幂运算,计算复杂度较高,运算速度较慢。2.5激活函数
ReLU03函数定义:导数:优点:①收敛速度快;②相较于sigmoid和tanh中涉及了幂运算,导致计算复杂度高,ReLU可以更加简单地实现;③当输入时,ReLU的导数为常数,这样可有效缓解梯度消失问题;④当时,ReLU的梯度总是0,提供了神经网络的稀疏表达能力。缺点:①ReLU的输出不是以0为中心的;②神经元坏死现象,某些神经元可能永远不会被激活,导致相应参数永远不会被更新;③不能避免梯度爆炸问题。2.5激活函数
LReLU04函数定义:导数:优点:①避免梯度消失;②由于导数总是不为零,因此可减少坏死神经元的出现。缺点:①LReLU表现并不一定比ReLU好;②不能避免梯度爆炸问题。
2.5激活函数
PReLU05函数定义:导数:优点:①PReLU是LReLU的改进,可以自适应地从数据中学习参数;②收敛速度快、错误率低;③PReLU可以用于反向传播的训练,可以与其他层同时优化。
2.5激活函数
ELU06函数定义:导数:优点:①导数收敛为零,从而提高学习效率;②能得到负值输出,这能帮助网络向正确的方向推动权重和偏置变化;③防止坏死神经元出现。缺点:①计算量大,表现并不一定比ReLU好;②不能避免梯度爆炸问题。
2.5激活函数
SELU07函数定义:导数:优点:①SELU是ELU的一个变种。其中和是固定数值(分别为1.0507和1.6732);②经过该激活函数后使得样本分布自动归一化到0均值和单位方差;③不会出现梯度消失或爆炸问题。
2.5激活函数
softsign08函数定义:导数:优点:①softsign是tanh激活函数的另一个替代选择;②softsign是反对称、去中心、可微分,并返回−1和1之间的值;③softsign更平坦的曲线与更慢的下降导数表明它可以更高效地学习。缺点:导数的计算比tanh更麻烦2.5激活函数
softplus08函数定义:导数:优点:①作为ReLU的一个不错的替代选择,softplus能够返回任何大于0的值;②与ReLU不同,softplus导数是连续的、非零的,无处不在,从而防止出现坏死神经元。缺点:①导数常常小于1,也可能出现梯度消失的问题;②softplus另一个不同于ReLU的地方在于其不对称性,不以零为中心,可能会妨碍学习。2.5激活函数
softmax09
感知机与多层感知机62.6.1感知机
2.6.1感知机
2.6.1感知机
感知机学习算法算法2-12.6.2多层感知机
感知机能够解决线性可分的情况,但真实世界中,大量分类问题是非线性可分问题。一种解决的有效方法是,在输入层和输出层之间引入隐含层,在每个隐含层通过激活函数来处理非线性情况,从而将感知机转化为多层感知机来解决非线性可分问题。多层感知机是目前应用广泛的神经网络之一,这主要源于基于BP算法的多层感知机具有以下重要能力。①非线性映射能力。多层感知机能学习和存储大量输入-输出模式映射关系,它能完成由n维输入空间到m维输出空间的非线性映射。②泛化能力。多层感知机训练后将所提取的样本对中的非线性映射关系存储在权值矩阵中。在测试阶段,当输入新数据时,网络也能完成由输入空间向输出空间的正确映射。这种能力称为多层感知机的泛化能力,它是衡量多层感知机性能优劣的一个重要方面。③容错能力。多层感知机的优势还在于允许输入样本中带有较大的误差甚至个别错误。因为对权矩阵的调整过程也是从大量的样本对中提取统计特性的过程,反映正确规律的知识来自全体样本,个别样本中的误差不能左右对权矩阵的调整。反向传播算法72.7反向传播算法
2.7反向传播算法
前向传递过程012.7反向传播算法
误差反向传递过程022.7反向传播算法
误差反向传递过程022.7反向传播算法
误差反向传递过程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 正骨技术考试题及答案
- 湖南高考三模试题及答案
- 药学职业生涯的提升策略试题及答案
- 药物代谢动力学考试试题及答案
- 绩效考核指标设置试题及答案
- 药学专业考试题及答案
- 营地礼仪考试题目及答案
- 教师资格笔试学习心态试题及答案
- 激光技术工程师考试深度复习试题及答案
- 建立有效学习方法网络规划设计师考试试题及答案
- 酒精戒断患者的护理查房课件
- 人工智能导论-课件 第1章 人工智能的前世今生
- 2024年中国人寿招聘笔试参考题库含答案解析
- 票据业务承诺函
- 沥青混凝土配合比报告
- 普通话-朗读教学ppt
- 欧盟食品添加剂编码系统
- 《爱我中华》教学设计(江苏省市级优课)-八年级音乐教案
- 劳动争议调解仲裁法专题讲座
- 第4课第1课时导学案 初中日语人教版第二册
- 宁夏三支一扶考试试题及答案
评论
0/150
提交评论