版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、贝叶斯统计机器学习(2),北京邮电大学: 龚萍,主要内容,贝叶斯决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要模型 线性回归模型 逻辑回归模型 神经网络模型 支持向量机模型,参考讲义,模式识别与机器学习 第1章, 1.2 概率论 1.5 决策论 第3章 3.1 第4章 4.3(4.3.1,4.3.2) 第5章, 5.1,5.2,5.3,相关的基本概念,训练集合x1,,xN 目标向量 t 映射函数: y(x) 推广性(举一反三) 模型评估与模型选择 正则化与交叉验证 分类 回归(regression) reinforcement learning,模式识别与机器学习的基本问题,监
2、督学习: 分类,回归(regression) 输入变量: x,目标变量: t 给定训练样本: x,t 目标:(学习出x 和t的函数关系)给定x 预测t,模式识别与机器学习的基本问题,学习数据,算法:解释数据,结果:预测数据,衡量算法:推广能力,理论原则:拟合训练数据+最简模型,用函数或其它模型表示数据,Polynomial Curve Fitting,多项式曲线拟合-问题描述 输入变量: x 目标变量: t 生成过程: 给定训练样本: x,t,实际问题中是未知的,Polynomial Curve Fitting,Polynomial Curve Fitting,目标: 给定新的 ,预测的 值
3、线性模型: 利用训练样本,估计模型的参数 方法:误差平方和最小:,Sum-of-Squares Error Function,0th Order Polynomial,1st Order Polynomial,3rd Order Polynomial,9th Order Polynomial,模型评估与模型选择,Polynomial Curve Fitting 哪一个最好? 训练误差 测试误差 过训练 均方误差(root-mean-square),Over-fitting,Root-Mean-Square (RMS) Error:,Polynomial Curve Fitting,过训练的相关
4、因素 模型复杂度,Polynomial Coefficients,Polynomial Curve Fitting,过训练的相关因素 模型复杂度 训练样本数,Data Set Size:,9th Order Polynomial,Data Set Size:,9th Order Polynomial,模型评估与模型选择,过训练的相关因素 模型复杂度 训练样本数 学习方法 最大似然 贝叶斯方法,正则化与交叉验证,Regularization: Penalize large coefficient values,Regularization:,Regularization:,Regularizat
5、ion: vs.,Polynomial Coefficients,正则化与交叉验证,交叉验证: 训练集 training set: 用于训练模型 验证集 validation set: 用于模型选择 测试集 test set: 用于最终对学习方法的评估 简单交叉验证 S折交叉验证 留一交叉验证,分类问题,分类问题,二分类评价指标 TP true positive FN false negative FP false positive TN true negative 精确率 召回率 F1值,回归问题,回归模型是表示从输入变量到输出变量之间映射的函数. 回归问题的学习等价于函数拟合。 学习和预测
6、两个阶段 训练集:,回归问题,例子: 标记表示名词短语的“开始”、“结束”或“其他” (分别以B, E, O表示) 输入:At Microsoft Research, we have an insatiable curiosity and the desire to create new technology that will help define the computing experience. 输出:At/O Microsoft/B Research/E, we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE
7、to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.,主要内容,贝叶斯决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要模型 线性回归模型 逻辑回归模型 神经网络模型 支持向量机模型,Linear Basis Function Models (1),Example: Polynomial Curve Fitting,Linear Basis Function Models (2),Generally where j(x) are known as
8、basis functions. Typically, 0(x) = 1, so that w0 acts as a bias. In the simplest case, we use linear basis functions : d(x) = xd.,Linear Basis Function Models (3),Polynomial basis functions: These are global; a small change in x affect all basis functions.,Linear Basis Function Models (4),Gaussian b
9、asis functions: These are local; a small change in x only affect nearby basis functions. j and s control location and scale (width).,Linear Basis Function Models (5),Sigmoidal basis functions: where Also these are local; a small change in x only affect nearby basis functions. j and s control locatio
10、n and scale (slope).,主要内容,贝叶斯决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要模型 线性回归模型 逻辑回归模型 神经网络模型 支持向量机模型,固定基函数 1,Two Gaussian basis functions 1(x) and 2(x),固定基函数2,Two Gaussian basis functions 1(x) and 2(x),逻辑斯谛回归,logistic regression adjustable parameters Gaussian: M(M+5)/2+1 logistic regression: M,logistic sigmo
11、id,logistic sigmoid,normalized exponential (softmax function),补充:交叉熵损失函数,相对平方损失过于严格,可使用更适合衡量两个概率分布差异的测量函数。其中, 交叉熵( cross- entropy)是个常用的衡量方法: 由于向量 中只有第 个元素 为 1,其余全为 0,于 是 假设训练数据集的样本数为 n,交叉熵损失函数定义为 其中 代表模型参数。,同样地,如果每个样本只有个标签,那么交叉熵损失可以简写 。 从另个角度来看,我们知道最小化 等价于最大化 即最小化交叉熵损失函数等价于最化训练数据集所有标签类别的联合预测概率,KL散度(
12、Kullback-Leibler (KL) divergence) 如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),可以使用 KL 散度来衡量这两个分布的差异: 和 KL 散度密切联系的量是 交叉熵 它和 KL 散度很像但是缺少左边一项:,补充:决策树中的信息增益,例,,信息增益比,主要内容,贝叶斯决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要模型 线性回归模型 逻辑回归模型 神经网络模型 支持向量机模型,神经元,人工神经元,结点,这种模型所实现的功能正是前面提到的线性分类器。,非线性的映射单元,Feed-forward Network Funct
13、ions 1,training the basis functions,人工神经元网络工作原理,复杂一些的判别函数 将特征空间划分成两个区域,两条射线组成的折线来划分,在折线的一边为y=1,在折线的另一边y=0,显然用一个神经元是不行,人工神经元网络工作原理,复杂一些的判别函数,整个空间将因这两个函数值的极性不同分成四个区域,y=0这个区域所具有的特点是 与 都小于零,需要增加一个逻辑运算才能解决问题,三个运算可以通过三个神经元结点,人工神经元网络工作原理,复杂一些的判别函数,Whereas a two-layer network classifier can only implement a
14、 linear decision boundary, given an adequate number of hidden units, three-, four- and higher-layer networks can implement arbitrary decision boundaries. The decision regions need not be convex or simply connected.,From: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Cop
15、yright c 2001 by John Wiley & Sons, Inc.,Parameter optimization参数最优化,Local quadratic approximation 局部二次近似,Use of gradient information 使用梯度信息,所有独立元素: W(W + 3)/2 O(W2) 非利用梯度信息: O(W2) function O(W) steps O(W3) 利用梯度信息: O(W) gradient evaluations O(W) steps O(W2),Gradient descent optimization梯度下降最优化,batch
16、 methods批量优化 gradient descent , steepest descent conjugate gradients quasi-Newton methods 在线优化 sequential gradient descent or stochastic gradient descent,Error Backpropagation误差反向传播,Error Backpropagation In the first stage 计算权值导数 使用于其他网络 In the second stage 计算权值调整量,Evaluation of error-function deriv
17、atives 1,error function forward propagation,each unit computes a weighted sum of its inputs,nonlinear activation function,Evaluation of error-function derivatives 2,the derivative of Enwith respect to a weight wji for the output units,Evaluation of error-function derivatives 3,for hidden units,Evalu
18、ation of error-function derivatives 4,Error Backpropagation,主要内容,贝叶斯决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要模型 线性回归模型 逻辑回归模型 神经网络模型 支持向量机模型,Maximum Margin Classifiers 1,the two-class classification problem y(x) = wT(x) + b training data set N input vectors x1, . . . , xN target values t1, . . . , tN tn 1, 1 new data points x are classified according to the sign of y(x) assume linearly separable tn y(xn) 0,Maximum Margin Classifiers 2,many such solutions exist the perceptron algorithm find a solution
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个性化借贷协议范本:2024年民间贷款与还款细则版B版
- 2024年餐饮行业食堂承包经营合作协议书
- 二零二五年度自愿不上学协议书-特殊教育学校与家长合作教育协议
- 二零二五年度电动摩托车租赁与售后服务保障协议
- 二零二五年度电视剧主演聘用合同模板
- 二零二五年度企业高管绩效考核与激励合同范本
- 二零二五年度物流运输解除合同协议范本
- 云电脑行业市场发展机会分析
- 二零二五年度健康轻食餐饮加盟合同
- 二零二五年度离职员工离职原因及离职时间确认合同书
- 神经外科进修汇报课件
- 2024老年人静脉血栓栓塞症防治中国专家共识(完整版)
- 腾讯营销师认证考试题库(附答案)
- 邻近铁路营业线施工安全监测技术规程 (TB 10314-2021)
- 四年级上册脱式计算100题及答案
- 资本市场与财务管理
- 河南近10年中考真题数学含答案(2023-2014)
- 八年级上学期期末家长会课件
- 2024年大学试题(宗教学)-佛教文化历年考试高频考点试题附带答案
- HGE系列电梯安装调试手册(ELS05系统SW00004269,A.4 )
- 尤文肉瘤的护理查房
评论
0/150
提交评论