机器学习 课件全套 胡晓 第1-11章 基础知识、表征学习- 强化学习_第1页
机器学习 课件全套 胡晓 第1-11章 基础知识、表征学习- 强化学习_第2页
机器学习 课件全套 胡晓 第1-11章 基础知识、表征学习- 强化学习_第3页
机器学习 课件全套 胡晓 第1-11章 基础知识、表征学习- 强化学习_第4页
机器学习 课件全套 胡晓 第1-11章 基础知识、表征学习- 强化学习_第5页
已阅读5页,还剩201页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章基础知识《论语·述而》:三人行,必有我师焉。择其善者而从之,其不善者而改之。1.1什么是机器学习

学习算法

1.1什么是机器学习

属性(Attribute),也成为特征。构成的向量为特征向量或属性向量

属性值都是随机的,通常假设样本集获得属性向量是独立同分布

标签(label)

1.2机器学习分类

分类回归

1.3模型评估

学习算法

2.准确率和错误率

三角形区

三角形区

4.均方差和峰值信噪比

1.4优化

学习算法

通过训练样本,获得模型参数的过程称为参数学习

1.损失函数

2.目标函数

3.最小二乘法

《机器学习》学习时长与考试成绩的关系学习天数1012015818考试成绩8210989365904.梯度下降法

4.梯度下降法

每次迭代,从训练集中随机抽取一小部分样本计算目标函数,计算梯度、更新参数。5.梯度修正梯度修正动量法Nesterov加速梯度法

目标函数曲面沿不同方向变化快慢不一致。在随机(小批量)梯度下降法中,如果每次选取样本数量比较少,迭代步长则具有随机性。如果梯度方向处于急变区,则变化快;如果处于平坦区,则变化慢,导致损失函数以振荡方式下降。此外,一旦进入损失函数的局部最小点或鞍点,也可能难以跳出。动量法为解决或缓解上述问题提供可能:通过使用最近一段时间内的平均梯度来代替当前的随机梯度。动量法

动量法Nesterov加速梯度法,NAG

5.学习率调整学习率调整学习率衰减,学习率退火Adagrad算法Adadelta算法Adam算法

Adagrad算法是由JohnDuchi等人提出的一种自适应学习率的梯度下降法:对不同的参数采用不同学习率,低频出现参数采用大学习率,高频出现参数采用小学习率。

5.学习率调整学习率调整学习率衰减,学习率退火Adagrad算法Adadelta算法Adam算法

由MatthewD.Zeiler提出的旨在解决Adagrad学习率不断下降问题的一种改进算法,该算法仅计算在近期梯度值的累积和

5.学习率调整学习率调整学习率衰减,学习率退火Adagrad算法Adadelta算法Adam算法

DiederikP.Kingma等人提出适应性动量估计法(AdaptiveMomentEstimation)

谢谢!第2章表征学习主讲:胡晓2.1表征学习的目的

2.2数据预处理

2.3.2学习模型

混合散布矩阵

2.4.2类可判别测度

在样本表征值的空间分布,类内距离越小和类间距离越大,越有利于实现模式分类。

目标函数

多维缩放的目标是,

2.6流形学习(ManifoldLearning)

2.6流形学习(ManifoldLearning)2.6.2等度量映射

2.6流形学习(ManifoldLearning)

(1)构建邻接图2.6.2等度量映射2.6流形学习(ManifoldLearning)(1)构建邻接图(2)任意两点间最短测地距离重构不相似度矩阵

2.6流形学习(ManifoldLearning)

2.6.3局部线性嵌入2.6流形学习(ManifoldLearning)

由GeoffreyHinton等人于2002年提出,基本思路:首先,在高维空间构建一个反映样本点间相对位置(相似度)的概率分布;然后,通过学习,调整低维空间样本分布,致使低维空间样本相对位置的概率分布能拟合高维空间样本相对位置的概率分布。基本随机近邻嵌入

理论上要求条件概率相等

2.8稀疏表征2.8.1压缩感知

又称为压缩采样(CompressingSampling),顾名思义,是用少于奈奎斯特定理(Nyquist)要求的最低采样频率对信号进行采样,达到“压缩”观测数据的目的。

2.8稀疏表征

(SparseRepresentations)2.8.1压缩感知

2.8稀疏表征

一般化,我们将这两情况合并成,

感知矩阵(SensingMatrices)

2.8稀疏表征

2.8稀疏表征

2.8稀疏表征

谢谢!第3章贝叶斯分类器主讲胡晓目录3.1基本概念3.2决策准则3.3高斯混合模型3.4未知概率密度函数估计3.5朴素贝叶斯3.6拉普拉斯平滑3.1基本概念

3.1基本概念

3.1基本概念

根据贝叶斯准则和全概率公式3.2贝叶斯决策准则

3.2贝叶斯决策准则

3.3高斯混合模型

高斯混合模型,其凸性组合形式为

3.4未知概率密度函数估计

对数似然函数

最大化自然函数转化为最小化代价函数

3.4未知概率密度函数估计

3.4未知概率密度函数估计

每次迭代有两步:

3.5朴素贝叶斯

朴素贝叶斯(NaïveBayes)采用属性条件独立性假设减少需估计的参数数量:

3.6拉普拉斯平滑

谢谢!第4章最近邻分类器《机器学习》胡晓4.1最近邻规则

4.2加权最近邻分类器

4.2加权最近邻分类器

4.3加速策略

4.3加速策略

4.3加速策略

谢谢!第5章线性模型《机器学习》胡晓目录5.1二类线性模型5.2Lasso回归5.3逻辑回归5.4支持向量机5.5多类线性分类器5.6类不平衡问题5.1二类线性模型

二分类超平面的数学表达式

5.1二类线性模型

5.1线性回归

5.2Lasso回归

岭回归(Ridgeregression)的目标函数

5.1线性回归

5.3逻辑回归

取对数调整成目标函数

平均梯度为5.4支持向量机

5.4支持向量机

5.4支持向量机

5.5多类线性模型5.5.1基本策略“一对一”“一对余”“多对多”

5.5.2Softmax回归

5.6类不平衡问题类别不均衡(class-imbalance),有些场合也称为长尾问题(Long-tail),指分类任务中不同类别样本的比例相差悬殊,如有2000个样本的样本集中仅有20个正样本,其余全是负样本。阈值移动数据再平衡过采样:SMOTE(syntheticminorityoversamplingtechnique)算法欠采样:EasyEnsemble和balanceCascade谢谢!第6章非线性模型《机器学习》胡晓目录6.1分段线性判别6.2二次判别分析6.3核方法6.1分段线性判别如图所示,我们可以用两条线性分界线(两条黑色直线)完成线性不可分的分类问题。此策略分成两步:子类划分和合并同类。子类划分,将某些类别划分成可与其它类线性可分的子类。合并同类即将分类后相同类合并成一类。6.2二次判别分析

因此,实际上采用参数估计获得二次判别函数。6.2二次判别分析

6.3核方法核方法基本思路:不增加模型参数,将训练样本属性向量从低维空间非线性映射到高维空间,然后在高维空间学习线性模型。6.3核方法

6.3核方法

6.3核方法

6.3核方法6.3.2核函数

6.3核方法

1、线性核函数

3、双正切核函数

5、指数核函数

6、拉普拉斯核函数

6.3核方法

6.3核方法

谢谢!第7章集成学习《机器学习》胡晓目录7.1集成学习理论依据7.2集成学习机制7.3决策树7.4随机森林7.5自适应助推7.1集成学习理论依据

7.2集成学习机制装袋法(Bagging)

:每次被选取的样本赋予相同权重,所有模型有相同投票权;采用某种组合策略确定最终结果。助推法(Boosting)采用级联方式,前级基学习指导后级基学习,后级基学习重视前级的错分样本,并给予错分样本

7.3决策树

在树形结构图中,只有输出没有输入的节点称为是根结点,位于树的顶端;既有输入又有输出的结点称为中间结点;只有输入没有输出的结点称为叶结点,叶结点代表了对样本数据的决策类别,即决策结果。7.3决策树7.3.2ID3和C4.5第3代迭代二叉树(IterativeDichotomiser3,ID3)C4.5算法与ID3整体结构基本一样,都采用自顶向下的贪婪搜索遍历所有可能的决策树空间;不同的是:在划分分支选择最优属性时,ID3选择信息增益最高的属性,而C4.5采用信息增益比最高的属性。

信息增益比,

7.3决策树7.3.2ID3和C4.5

7.3决策树

7.3决策树7.3.3分类回归树

从表7.1中有放回的随机抽取15个样本构成数据集

7.3决策树

7.3决策树7.3.4剪枝理想情况下,所有样本都能被决策树精确预测,即生成决策树叶结点都有确定类型。但实际上决策树可能存在过多结点,导致过度拟合。常见原因:样本中存在噪声和样本不具代表性。因此,实际中常常进行枝叶裁剪。预剪枝后剪枝7.4随机森林随机森林是(RadomForest)装袋学习机制的一种进阶。在随机森林中,每个基映射函数都是一棵决策树,然后将多棵决策树集成一个强映射函数,可实现分类也可实现回归。

7.5自适应助推

7.5自适应助推

谢谢!第8章聚类《机器学习》胡晓8.1聚类基本理论

8.1聚类基本理论

相似性测度在聚类算法,样本间相似度通常需要采用两个样本之间的“距离测度(DistanceMetric,DM)”进行衡量。

常见距离:欧氏距离、曼哈顿距离、闵可夫斯基距离、值差异值测度8.1聚类基本理论类簇中心类簇中心,又称为簇质心,定义为簇内样本分布中心,如图8.1中每簇的中心点。然而,不同聚类算法定义各有差别,简单分为两种:K均值聚类簇中心

基于密度的类簇中心AlexRodriguez和AlessandroLaio在Science期刊文章中提出:类簇中心周围都是密度比其低的点,同时这些点距离该簇中心的距离相比于其他聚类中心最近。8.1聚类基本理论聚类算法评价指标

纯度(Purity)将每个簇内频数最高的样本类别作为正确的类簇,聚类熵

8.1聚类基本理论聚类算法评价指标同质性也叫均一性,一个类簇中仅有一个类别的样本,均一性最高同质性(Homogeneity)

相当于精确率,即被聚类的类簇中正确分类的样本数占该类簇中的样本数的比例,

8.1聚类基本理论聚类算法评价指标完整性(Completeness)同类别的样本被归类到同一聚类簇中,则满足完整性。相当于召回率,即每个聚类中正确分类的样本数占该类别样本的数量,

8.1聚类基本理论聚类算法评价指标兰德指数和调整兰德指数

8.2K均值聚类

8.3层次聚类层次聚类(hierarchicalclustering)是基于簇间的相似度的树形聚类算法。一般有两种划分策略:自底向上的凝聚策略和自顶向下的分拆策略。凝聚策略

分拆策略

初始时将每个样本点当做一个类簇,然后依据相似度准则合并相似度最大的类簇,直到达到终止条件。

8.4密度聚类

密度聚类(Density-BasedSpatialClustering)是一种基于密度的聚类算法。8.4密度聚类2、密度聚类基本过程8.4密度聚类

8.4.2高斯混合聚类谢谢!第9章概率图模型《机器学习》胡晓目录9.1联合概率9.2概率有向图9.3概率图向图9.4因子图与和积算法9.1联合概率

9.2概率有向图

9.2概率有向图

9.2概率有向图

9.2概率有向图定理9.1:父结点给定下,该结点与其所有非后代结点(non-descendants)条件独立。

9.2概率有向图

贝叶斯网络表示通常由领域专家根据研究对象先验知识进行建立模贝叶斯网络图。一般分为三个步骤:确定变量集和变量域设计结点设计网络结构定义变量之间的依赖关系参数学习表示联合概率分布(包括局部概率分布或局部密度函数)。

9.2概率有向图

(2)依据变量之间的依赖关系设计网络拓扑结构

(3)

采用概率理论进行参数学习

9.2概率有向图

(3)

采用概率理论进行参数学习

假设根据训练数据已经获得,

概率分布形式

9.2概率有向图

变量消除法9.2概率有向图

9.2概率有向图

9.2概率有向图

9.2概率有向图

9.2概率有向图

9.2概率有向图

9.3概率无向图

9.3概率无向图

9.3概率无向图

9.3概率无向图

9.3概率无向图

9.3概率无向图

9.3概率无向图

转移特征函数状态特征函数

9.4因子图与和积算法

9.4因子图与和积算法

9.4因子图与和积算法

9.4因子图与和积算法

9.4因子图与和积算法

(2)变量结点则演化为边缘

9.4因子图与和积算法

如果

先求和再乘积谢谢!第10章人工神经网络《机器学习》胡晓10.1神经元及基本模型

神经元(Neuron)是人脑神经系统的基本单元,负责接收和传递神经信号

通过突触(Synapse)与下一层神经元的树突连接起来,从而构成基本神经通路。美国心理学家FrankRosenblatt提出的感知机模拟了神经元的细胞膜电位累加和激活过程,建立了神经元的基本模型:线性变换和激活。

10.1神经元及基本模型

10.2激活函数

10.2激活函数

校正线性单元泄露校正线性单元指数线性单元软加函数softplus

10.2激活函数Swish激活函数2017年,GoogleBrain研究人员经过大规模搜索发现一种在许多任务上比ReLU性能更好的非线性激活函数,称为Swish,

10.3感知机感知机是1957年FrankRosenblatt在MP模型基础之上建立一个线性分类器。仅有一个神经元,并用符号函数作为激活函数,感知机学习算法是一种错误驱动学习算法感知机的异或难题

10.4前馈神经网络10.4.1前馈神经网络模型前馈神经网络的输入层和输出层之间有多个隐含层,各神经元分属于不同层。相邻两层神经元采用全连接,即每个神经元与相邻层的所有神经元相连接。每层神经元可以接收前一层神经元信号,并形成新信号,然后输出到下一层。整个神经网络没有反馈,信号从输入层向输出层单向传播。

10.4前馈神经网络单个神经元与前一层神经元的信息传递关系当前层所有神经元与前一层神经元的信息传递

10.4前馈神经网络

10.4前馈神经网络

10.4前馈神经网络10.4.3反向传播算法

结合梯度下降法可以训练神经网络参数10.5卷积神经网络

互相关和卷积

10.5卷积神经网络卷积层之所以称该层为卷积层,因为这一层的基本操作是卷积,即一张或一组特征图与滤波器核卷积。在神经网络中,把滤波器核在输入特征图覆盖区域称为感受野(ReceptiveField),10.5.2卷积神经网络架构图像卷积层中线性变换用矩阵表示为,

池化层在池化层主要完成特征图的不重叠下采样。池化函数主要有平局池化、最大池化、随机池化和全局平均池化。10.5卷积神经网络10.5卷积神经网络10.5卷积神经网络10.5.3卷积神经网络残差反向传播解决如何把残差往前级传送。

10.6简单卷积神经网络10.6.1LeNet-51998年,LeCun等人提出LeNet-5是经典的卷积神经网络。虽然LeNet简单,但模块齐全。20世纪90年代被美国很多银行使用,用来识别支票上面手写数字。网络架构由输入层、3个卷积层、2个池化层、1个全连接层和输出层组成。其中,每个卷积层包括卷积和激活2个子层组成。10.6简单卷积神经网络10.6.2AlexNet

10.6简单卷积神经网络10.6.3VGG2014年,由牛津大学视觉几何组(VisualGeometryGroup)提出VGGNet在ILSVRC中获得了定位任务第1名和分类任务第2名,设计了A、A-LRN、B、C、D和E共6种网络结构,其中D和E分别是著名的VGG16和VGG19:(1)VGG16包含

13个卷积层和3个全连接层共16个隐藏层;(2)VGG19包含16个卷积层个3个全连接层共19个隐藏层。10.6简单卷积神经网络10.6.4Inception2014年至2016年,Google团队发表了多篇关于Inception的经典论文详细介绍了Inception演进版本[15-18]:Inception-V1、-V2、-V3、-V4和Inception-ResNet等,10.6简单卷积神经网络10.6.5ResNet由微软实验室的KaimingHe等人于2015年提出的残差网络(ResidualNetwork,ResNet),较好地解决了上述问题,并斩获了当年ImageNet竞赛中分类任务第一名。此后,在分类、检测、分割等任务大规模使用残差网络(ResNet50/ResNet101)作为网络骨架。谢谢!第11章强化学习《机器学习》胡晓强化学习与监督学习、无监督学习在强化学习中,没有可学习的(标注)数据;在一个不断变化的状态空间,解决一个决策链问题。有一个明确目标,通过尝试达到目的。而规划学习则是通过计算达到目的监督学习无监督学习强化学习训练样本智能体与环境交互轨迹和累积奖励优化目标期望总回报学习准则期望风险最小最大似然估计最大似然估计最小重构错误策略评估策略改进11.1强化学习概述11.1.1基本概念

强化学习涉及到一个过程、两个主体(智能体和环境),三个要素(状态、动作和奖励)

智能体(Agent)可感知外界环境的状态(State)和接受反馈奖励(Reward),并具备学习能力(learning)和决策功能(policy)的实体环境(Environment)智能体从外部感知的所有事物和信息,称为环境,用状态描述11.1强化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论