贝叶斯网贝叶斯分类器(课堂PPT)_第1页
贝叶斯网贝叶斯分类器(课堂PPT)_第2页
贝叶斯网贝叶斯分类器(课堂PPT)_第3页
贝叶斯网贝叶斯分类器(课堂PPT)_第4页
贝叶斯网贝叶斯分类器(课堂PPT)_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、北京 第七章 贝叶斯分类器机器学习机器学习2018.09.02图形绘制图片处理图表设计典型案例* 贝叶斯贝叶斯决策论决策论1346Contents目目 录录* 25极大似极大似然估计然估计朴素贝朴素贝叶斯分叶斯分类器类器半朴素半朴素贝叶斯贝叶斯分类器分类器贝叶斯贝叶斯网网EM算算法法机器学习机器学习 贝叶斯分类器贝叶斯分类器图形绘制图片处理图表设计典型案例* 贝叶斯贝叶斯决策论决策论1346Chapter 7* 25极大似极大似然估计然估计朴素贝朴素贝叶斯分叶斯分类器类器半朴素半朴素贝叶斯贝叶斯分类器分类器贝叶斯贝叶斯网网EM算算法法机器学习机器学习 贝叶斯分类器贝叶斯分类器图形绘制判别式 v

2、s.生成式 贝叶斯定理* 贝叶斯准则7.1 贝叶斯决策论贝叶斯决策论(Bayesian decision theory) 概率框架下实施决策的基本理论。对于分类任务:基于已知相关概率和误判损失选择最优类别标记 后验概率 寻找一个判定准则 h 以最小化总体风险: 图形绘制判别式 vs.生成式 贝叶斯定理* 贝叶斯准则7.1 贝叶斯决策论贝叶斯判定准则(Bayes decision rule)h* 称为贝叶斯最优分类器(Bayes optimal classifier),其总体风险称为贝叶斯风险 (Bayes risk)反映了学习性能的理论上限 判别式 vs.生成式 贝叶斯定理* 贝叶斯准则7.1

3、 贝叶斯决策论判别式 vs. 生成式 生成式 (generative) 模型 决策树 BP 神经网络SVM代表:贝叶斯分类器 判别式 vs.生成式 贝叶斯定理* 贝叶斯准则7.1 贝叶斯决策论贝叶斯定理Thomas Bayes (1701?-1761)根据贝叶斯定理,有证据 (evidence)因子,与类别无关主要困难在于估计似然样本相对于类标记的类条 件概率 (class-conditional probability), 亦称 似然 (likelihood)类先验概率(prior) 样本空间中各类样本所占的 比例,可通过各类样本出现 的频率估计(大数定律) 图形绘制图片处理图表设计典型案例

4、* 贝叶斯贝叶斯决策论决策论1346Chapter 7* 25极大似极大似然估计然估计朴素贝朴素贝叶斯分叶斯分类器类器半朴素半朴素贝叶斯贝叶斯分类器分类器贝叶斯贝叶斯网网EM算算法法机器学习机器学习先假设类条件概率某种概率分布形式,再基于训练样样本对参数进行估计* 7.2 极大似然估计极大似然估计(Maximum Likelihood Estimation, MLE)使用对数似然 (log-likelihood) 估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实分布 * 7.2 极大似然估计 极大似然估计(Maximum Likelihood Estimation, MLE)图

5、形绘制图片处理图表设计典型案例* 贝叶斯贝叶斯决策论决策论1346Chapter 7* 25极大似极大似然估计然估计朴素贝朴素贝叶斯分叶斯分类器类器半朴素半朴素贝叶斯贝叶斯分类器分类器贝叶斯贝叶斯网网EM算算法法机器学习机器学习拉普拉斯修正 * 朴素贝叶斯分类器7.3 朴素贝叶斯分类器朴素贝叶斯分类器(nave Bayes classifiers)基本思路:假定属性相互独立d 为属性数,xi 为 x 在第 i 个属性上的取值对所有类别相同,于是分类器使用 对离散属性,令 表示 Dc 中在第 i 个属性上取值为xi 的样本组成的集合,则拉普拉斯修正 * 朴素贝叶斯分类器7.3 朴素贝叶斯分类器分

6、类器使用 估计 P(c): 估计 P(x|c):对连续属性,考虑概率密度函数,假定 朴素贝叶斯分类器(nave Bayes classifiers)拉普拉斯修正 * 朴素贝叶斯分类器7.3 朴素贝叶斯分类器分类器使用 例如:朴素贝叶斯分类器(nave Bayes classifiers)首先估计类先验概率 P(c):拉普拉斯修正 * 朴素贝叶斯分类器7.3 朴素贝叶斯分类器分类器使用 例如:朴素贝叶斯分类器(nave Bayes classifiers)拉普拉斯修正 * 朴素贝叶斯分类器7.3 朴素贝叶斯分类器分类器使用 例如: 朴素贝叶斯分类器(nave Bayes classifiers)

7、拉普拉斯修正 * 朴素贝叶斯分类器7.3 朴素贝叶斯分类器分类器使用 例如: 朴素贝叶斯分类器(nave Bayes classifiers)拉普拉斯修正 * 朴素贝叶斯分类器7.3 朴素贝叶斯分类器分类器使用 拉普拉斯修正(Laplacian correction)若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出现 问题,因为概率连乘将“抹去”其他属性提供的信息例如,若训练集中未出现“敲声=清脆”的好瓜, 则模型在遇到“敲声=清脆”的测试样本时 令 N 表示训练集 D 中可能的类别数,Ni 表示第 i 个属性可能的取值数拉普拉斯修正 * 朴素贝叶斯分类器7.3 朴素贝叶斯分类器分

8、类器使用 朴素贝叶斯分类器的使用 若对预测速度要求高,则对给定的数据集, 预计算所有概率估值,使用时“查表” 若数据更替频繁 不进行任何训练,收到预测请求时再根据当前数据集进行估值(懒惰学习, lazy learning) 若数据不断增加 基于现有估值,对新样本的属性值涉及的概率估值进行修正(增量学习, incremental learning)图形绘制图片处理图表设计典型案例* 贝叶斯贝叶斯决策论决策论1346Chapter 7* 25极大似极大似然估计然估计朴素贝朴素贝叶斯分叶斯分类器类器半朴素半朴素贝叶斯贝叶斯分类器分类器贝叶斯贝叶斯网网EM算算法法机器学习机器学习SPODE &

9、 TAN * 半朴素贝叶斯分类器7.4 半朴素贝叶斯分类器AODE 半朴素贝叶斯分类器(semi-nave Bayes classifiers) 朴素贝叶斯分类器的“属性独立性假设”在现实中往往难以成立 半朴素贝叶斯分类器 (semi-nave Bayes classifier)基本思路:适当考虑一部分属性间的相互依赖信息 最常用策略:独依赖估计 (One-Dependent Estimator, ODE) 假设每个属性在类别之外最多仅依赖一个其他属性 如果确定了父属性,那么 关键是如何确定每个节点的父属性?SPODE & TAN * 半朴素贝叶斯分类器7.4 半朴素贝叶斯分类器AOD

10、E 两种常用方法 SPODE (Super-Parent ODE): 假设所有属性都依赖于同一属性,称为“超父” (Super-Parent),然后通过交叉验证等模型选择方法来确定超父属性 TAN (Tree Augmented nave Bayes): 以属性间的条件”互信息”(mutual information)为边的权重,构建完全图,再利用最大带权生成树算法,仅保留强相关属性间的依赖性SPODE & TAN * 半朴素贝叶斯分类器7.4 半朴素贝叶斯分类器AODE AODE (Averaged One-Dependent Estimator)尝试将每个属性作为超父构建 SPOD

11、E将拥有足够训练数据支撑的 SPODE 集成起来作为最终结果其中是在第 i 个属性上取值为 xi 的样本的集合,m 为阈值常数(默认为30)表示类别为 c 且在第 i 和第 j 个属性上取值分别为 xi 和 xj 的样本集合 Geoff Webb 澳大利亚 Monash大学SPODE & TAN * 半朴素贝叶斯分类器7.4 半朴素贝叶斯分类器AODE 高阶依赖 训练样本非常充分 性能可能提升 有限训练样本 高阶联合概率估计困难 考虑属性间的高阶依赖,需要其他办法能否通过考虑属性间的高阶依赖来进一步提升泛化性能?例如最简单的做法:ODE kDE将父属性 pai 替换为包含 k 个属性的

12、集合障碍:随着 k 的增加,准确估计 所需的样本数量将以指数增加 图形绘制图片处理图表设计典型案例* 贝叶斯贝叶斯决策论决策论1346Chapter 7* 25极大似极大似然估计然估计朴素贝朴素贝叶斯分叶斯分类器类器半朴素半朴素贝叶斯贝叶斯分类器分类器贝叶斯贝叶斯网网EM算算法法机器学习机器学习学习 * 结构7.5 贝叶斯网推断 贝叶斯网(Bayesian network)贝叶斯网 亦称“信念网”(belief network) 有向无环图(Directed Acyclic Graph) &条件概率表(CPT, Conditional Probability Table)Judea P

13、earl (1936 - )2011 图灵奖贝叶斯网结构参数 西瓜问题的一种贝叶斯网结构以及属性“根蒂”的条件概率表1985年 J. Pearl 命名为贝叶斯网, 为了强调:输入信息的主观本质对贝叶斯条件的依赖性因果与证据推理的区别学习 * 结构7.5 贝叶斯网推断 结构贝叶斯网 例如:学习 * 结构7.5 贝叶斯网推断 结构贝叶斯网 学习 * 结构7.5 贝叶斯网推断 结构贝叶斯网条件独立性条件独立性边际独立性给定 x4, x1 与 x2 必不独立若 x4 未知,则 x1 与 x2 独立 贝叶斯网中三变量间的典型依赖关系对于三个随机变量a,b,c若a的值完全未知,而b,c此时独立,则称之为边

14、际独立 学习 * 结构7.5 贝叶斯网推断 结构贝叶斯网分析条件独立性“有向分离”(D-separation)先将有向图转变为无向图V 型结构父结点相连有向边变成无向边道德图(moral graph)由图可得:若 x 和 y 能在图上被 z 分入 两个连通分支,则有得到条件独立性关系之后,估计出条件 概率表,就得到了最终网络 例如 最小描述长度 (MDL, Minimal Description Length)给定数据集 D,贝叶斯网 在 D 上的评分函数:越小越好学习 * 结构7.5 贝叶斯网推断 学习贝叶斯网评分函数(score function)评估贝叶斯网与训练数据的契合程度常用评分函

15、数通常基于信息论准则 学习 * 结构7.5 贝叶斯网推断 学习贝叶斯网AIC:BIC:搜索最优贝叶斯网络结构是NP难问题 学习 * 结构7.5 贝叶斯网推断 推断贝叶斯网推断(inference):基于已知属性变量的观测值,推测其他属性变量的取值已知属性变量的观测值称为“证据”(evidence) 精确推断:直接根据贝叶斯网定义的联合概率分 布来精确计算后验概率NP难 近似推断:降低精度要求,在有限时间内求得近似解常见做法:吉布斯采样 (Gibbs sampling)变分推断 (variational inference)学习 * 结构7.5 贝叶斯网推断 推断 吉布斯采样思想贝叶斯网随机产生

16、一个与证据 E = e 一致的样本 q0 作为初始点例如:例如: 证据 E = e:(色泽; 敲声;根蒂) = (青绿; 浊响; 蜷缩) 查询目标 Q = q: (好瓜;甜度)= (是;高) 随机产生 q0: (否; 高)进行 T 次采样,每次采样中逐个考察每个非证据变量:假定所有其他属性取当前值,推断出采样概率,然后根据该概率采样取值假定经过 T 次采样的得到与“查询目标”q 一致的样本共有 nq 个,则可近似估算出后验概率 学习 * 结构7.5 贝叶斯网推断 贝叶斯网推断 吉布斯采样算法例如例如:先假定 色泽=青绿; 敲声=浊响; 根蒂=蜷缩; 甜度=高,推断出“好瓜”的采样概率,然后采样;假设采样结果为“好瓜=是”;然后根据 色泽=青绿; 敲声=浊响; 根蒂=蜷缩;好瓜=是,推断出 “甜度” 的采样概率,然后采样;假设采样结果为“甜度=高”; 证据 E = e:(色泽; 敲声;根蒂) = (青绿; 浊响; 蜷缩) 查询目标 Q = q: (好瓜;甜度)= (是;高)图形绘制图片处理图表设计典型案例* 贝叶斯贝叶斯决策论决策论1346Chapter 7* 25极大似极大似然估计然估计朴素贝朴素贝叶斯分叶斯分类器类器半朴素半朴素贝叶斯贝叶斯分类器分类器贝叶斯贝叶斯网网EM算算法法机器学习机器学习* 7.6 E

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论