




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、深度学习准备稿监督学习与无监督学习机器学习有一类学习方法叫做监督学习,它是说为了训练一个模型,我们要提供这样一堆训练样本:每个训练样本既包括输入特征x,也包括对应的输出y(y也叫做标记,label)。也就是说,我们要找到很多人,我们既知道他们的特征(工作年限,行业.),也知道他们的收入。另外一类学习方法叫做无监督学习,这种方法的训练样本中只有x而没有y。模型可以总结出特征x的一些规律,但是无法知道其对应的答案y。机器学习机器学习是给定一些训练样本,让计算机自动寻找一个决策函数f()来建立x和丫之间的关系。损失函数我们还要建立一些准则来衡量决策函数的好坏。在很多机器学习算法中,一般是定义一个损失
2、函数,然后在所有的训练样本上来评价决策函数的风险。用对参数求经验风险来逐渐逼近理想的期望风险的最小值,就是我们常说的经验风险最小化原则。我们的目标就是变成了找到一个参数使得经验风险最小。过拟合经验风险最小化原则很容易导致模型在训练集上错误率很低,但是在未知数据上错误率很高。这就是所谓的过拟合。过拟合问题往往是由于训练数据少和噪声等原因造成的。解决过拟合问题为了解决过拟合问题,一般在经验风险最小化的原则上加上参数的正则化,也叫结构风险最小化原则。常见的损失函数0-1损失函数平方损失函数交叉熵损失函数(负对数似然损失函数)Hinge损失函数批量梯度下降法与随机梯度下降法的区别区别在于每次迭代的风险
3、是对所有样本汇总的风险还是单个样本的风险。随机梯度下降法因为实现简单,收敛速度也非常快,因此使用非常广泛。学习率设置在梯度下降中,学习率的取值非常关键,如果过大就不会收敛,如果过小则收敛速度太慢。一般步长可以由线性搜索算法来确定。在机器学习中,经常使用自适应调整学习率的方法。线性回归如果输入乂是列向量,目标丫是连续值(实数或连续整数),预测函数f(x)的输出也是连续值。这种机器学习问题是回归问题。线性回归的损失函数通常定义为平方损失函数。模型的经验风险为。最小化经验风险。线性分类Logistic回归给定N个样本,我们使用交叉熵损失函数。模型在训练集的风险函数为。采用批量梯度下降法进行权值更新。
4、多类线性分类SoftMax回归是Logistic回归的多类推广给定N个样本我们使用交叉熵损失函数。模型在训练集的风险函数为。采用批量梯度下降法进行权值更新。评价方法正确率错误率准确率召回率F1值一综合的评价指标感知器生物神经细胞细胞体树突轴突突触感知器模型两类感知器算法人工神经网络:前馈神经网络、反馈神经网络。神经元及其模型前馈神经网络及其模型前馈网络应用于机器学习前馈神经网络的目标函数。采用批量梯度下降法更新权值。用反向传播算法计算bxy)和mw,b;x,y)。dW(i)db(i)反向传播算法第l层的误差项可以通过第l+1层的误差项计算得到。这就是误差的反向传播(Backpropagatio
5、n,BP)。反向传播算法的含义是:第l层的一个神经元的误差项(或敏感性)是所有与该神经元相连的第l+1层的神经元的误差项的权重和。然后,在乘上该神经元激活函数的梯度。前馈神经网络的训练过程可以分为以下三步:(1)先前馈计算每一层的状态和激活值,直到最后一层;(2)反向传播计算每一层的误差;(3)计算每一层参数的偏导数,并更新参数。梯度消失问题sigmoid型函数的值域都小于1。这样误差经过每一层传递都会不断衰减。当网络层数很深时,梯度就会不停的衰减,甚至消失,使得整个网络很难训练。这就是所谓的梯度消失问题(VanishingGradientProblem),也叫梯度弥散。减轻梯度消失问题的一个
6、方法是使用线性激活函数(比如rectifier函数)或近似线性函数(比如softplus函数)。这样,激活函数的导数为,误差可以很好地传播,训练速度得到了很大的提高。卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一种前馈神经网络。感受野主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。比如在视觉神经系统中,一个神经元的感受野是指视网膜上的特定区域,只有这个区域内的刺激才能够激活该神经元。卷积神经网络有三个结构上的特性:局部连接、权重共享以及空间或时间上的次采样。卷积神经网络具有一定程度上的平移、缩放和扭曲不变性。卷积神经网络由卷积层和下采
7、样层交替层叠而成。卷积层采用权重共享,使得网络的参数减少;下采样层由于采用最大值或均值下采样的方式,使得图像维度降低。卷积层:用卷积来代替全连接在全连接前馈神经网络中,当m和n都很大时,权重矩阵的参数非常多,训练的效率会非常低。如果采用卷积来代替全连接,第l层的每一个神经元都只和第l-1层的一个局部窗口内的神经元相连,构成一个局部连接网络。权值共享子采样层卷积层虽然可以显著减少连接的个数,但是每一个特征映射的神经元个数并没有显著减少。这样,如果后面接一个分类器,分类器的输入维数依然很高,很容易出现过拟合。为了解决这个问题,在卷积神经网络一般会在卷积层之后再加上一个池化(Pooling)操作,也
8、就是子采样(Subsampling),构成一个子采样层。子采样层可以用来大大降低特征映射的维数,避免过拟合。子采样的作用还在于可以使得下一层的神经元对一些小的形态改变保持不变性,并拥有更大的感受野。循环神经网络前馈神经网络的输入和输出的维数都是固定的,不能任意改变。当处理序列数据时,前馈神经网络就无能力为了。因为序列数据是变长的。循环神经网络通过使用带自反馈的神经元,能够处理任意长度的序列。循环神经网络比前馈神经网络更加符合生物神经网络的结构。循环神经网络已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。循环神经网络的一个最大问题是训练时梯度需要随着时间进行反向传播。当输入序列比较长
9、时,会存在梯度爆炸和消失问题。循环神经网络又称递归神经网络。递归神经网络会对前面的信息进行记忆,并应用于当前层计算输出,即隐层之间的节点有连接。递归神经网络一次处理一个输入序列元素,每个节点同时包含过去时刻序列元素的历史信息。长期依赖问题虽然简单循环网络从理论上可以建立长时间间隔的状态之间的依赖关系(Long-TermDependencies),但是由于梯度爆炸或消失问题,实际上只能学习到短周期的依赖关系。这就是所谓的长期依赖问题。长短时记忆神经网络(LongShort-TermMemoryNeuralNetwork,LSTM)LSTM是循环神经网络的一个变体,可以有效地解决简单循环神经网络的
10、梯度爆炸或消失问题。LSTM模型的关键是引入了一组记忆单元(MemoryUnits),允许网络可以学习何时遗忘历史信息,何时用新信息更新记忆单元。LSTM可以学习到长周期的历史信息。AlphaGo线下学习过程分为三个训练阶段。第1阶段:利用16万多幅专业棋手对局的棋谱来训练两个网络。一个是基于全局特征和深度卷积网络(CNN)训练出来的策略网络(PolicyNetwork)。其主要作用是给定当前盘面状态作为输入,输出下一步棋在棋盘其它空地上的落子概率。另一个是利用局部特征和线性模型训练出来的快速走棋策略(RolloutPolicy)。策略网络速度较慢,但精度较高;快速走棋策略反之。第2阶段:利用
11、第l轮的策略网络与先前训练好的策略网络互相对弈,利用增强式学习来修正第l轮的策略网络的参数,最终得到增强的策略网络。这部分被很多“砖”家极大的鼓吹,但实际上应该存在理论上的瓶颈(提升能力有限)。这就好比2个6岁的小孩不断对弈,其水平就会达到职业9段?第3阶段:先利用普通的策略网络来生成棋局的前U-1步(U是一个属于1,450的随机变量),然后利用随机采样来决定第U步的位置(这是为了增加棋的多样性,防止过拟合)。随后,利用增强的策略网络来完成后面的自我对弈过程,直至棋局结束分出胜负。此后,第U步的盘面作为特征输入,胜负作为label,学习一个价值网络(ValueNetwork),用于判断结果的输
12、赢概率。价值网络其实是AlphaGo的一大创新,围棋最为困难的地方在于很难根据当前的局势来判断最后的结果,这点职业棋手也很难掌握。通过大量的自我对弈,AlphaGo产生了3000万盘棋局,用来训练价值网络。但由于围棋的搜索空间太大,3000万盘棋局也不能帮AlphaGo完全攻克这个问题。在线对弈过程包括以下5个关键步骤:其核心思想是在蒙特卡罗搜索树(MCTS)中嵌入了深度神经网络来减少搜索空间。AlphaGo并没有具备真正的思维能力。1.根据当前盘面已经落子的情况提取相应特征。.利用策略网络估计出棋盘其他空地的落子概率。.根据落子概率来计算此处往下发展的权重,初始值为落子概率本身(如0.18)
13、。实际情况可能是一个以概率值为输入的函数,此处为了理解简便。.利用价值网络和快速走棋网络分别判断局势,两个局势得分相加为此处最后走棋获胜的得分。这里使用快速走棋策略是一个用速度来换取量的方法,从被判断的位置出发,快速行棋至最后,每一次行棋结束后都会有个输赢结果,然后综合统计这个节点对应的胜率。而价值网络只要根据当前的状态便可直接评估出最后的结果。两者各有优缺点、互补。.利用第4步计算的得分来更新之前那个走棋位置的权重(如从0.18变成了0.12);此后,从权重最大的0.15那条边开始继续搜索和更新。这些权重的更新过程应该是可以并行的。当某个节点的被访问次数超过了一定的门限值,则在蒙特卡罗树上进
14、一步展开下一级别的搜索(如图2所示)。AlphaGo的弱点1.攻其策略网络,加大搜索空间。进入中盘后,职业选手如能建立起比较复杂的局面,每一步棋都牵连很多个局部棋的命运(避免单块、局部作战),则AlphaGo需要搜索空间则急剧加大,短时间内得到的解的精度就会大打折扣。通俗地说,非常复杂的变化,人算不清楚,现阶段计算机的计算力更没办法。为了在一定的时间内有结果,只能放弃搜索精度。2.攻其价值网络,万劫不复。AlphaGo的价值网络极大地提高了之前单纯依靠MCTS来做局势判断的精度,但离准确判断围棋局势还有不小的差距。神经网络还不能完全避免在某些时候出现一些怪异(甚至错误)的判断,更何况其训练样本
15、还远远不足。这也是为什么有了价值网络还仍然需要依靠快速走棋来判断局势。大家都曾经怀疑过AlphaGo的打劫能力,也感觉到了AlphaGo有躲避打劫的迹象。不能说AlphaGo不会打劫,而是害怕在棋局早期的多劫并存。打劫要乘早,太晚了搜索空间变小,即便价值网络失效,还可以靠快速走棋网络来弥补。开劫应该以在刚刚进入中盘时期为好(太早劫财还不够),并且保持长时间不消劫,最好在盘面上能同时有两处以上打劫。没有了价值网络的AlphaGo其实水平也就职业3-5段左右。AlphaGoZeroAlphaGoZero的深度神经网络结构AlphaGoZerc的深度神经网络结构包含卷积层、批归一化层、全连接层。批归一化层:残差函数引入批归一化(batchnormalization,BN)作优化,使神经网络输出分布白化,从而使数据归一化来抑制梯度弥散或是爆炸现象卷积层:在全连接前馈神经网络中,当m和n都很大时,权重矩阵的参数非常多,训练的效率会非常低。如果采用卷积来代替全连接,第l层的每一个神经元都只和第l-1层的一个局部
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030全球及中国移动交战行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030全球及中国格斗手机游戏行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030全球及中国探索性测试服务行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030全球及中国大数据基础设施行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 2025-2030全球及中国企业内容管理(ECM)行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030全球及中国4K机顶盒(STB)行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030全球与中国洞洞鞋行业发展趋势预测及投资风险剖析研究报告
- 2025-2030儿童公园产业市场深度调研及发展趋势与投资战略研究报告
- 2025-2030保险柜产业规划行业深度调研及投资前景预测研究报告
- 分体空调清洗合同标准文本
- 《现代设计史》复习资料大全
- 重大疾病证明书样本
- 九年级化学上册(沪教版2024)新教材解读课件
- 辽宁省协作校2024-2025学年高二化学下学期期中试题
- 2024年郑州轨道工程职业学院单招职业适应性测试题库附答案
- 2023年1月自考00808商法试题及答案含解析
- 智慧工厂驾驶舱系统建设方案
- 仓库货架的选择与布局
- 汽车静态感知质量培训课件
- 网络舆情引导培训课件
- PET-CT在鉴别诊断中的应用
评论
0/150
提交评论