贝叶斯统计读书笔记_第1页
贝叶斯统计读书笔记_第2页
贝叶斯统计读书笔记_第3页
贝叶斯统计读书笔记_第4页
贝叶斯统计读书笔记_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第5章 贝叶斯统计 葛鹏飞1、贝叶斯统计学回顾定理1:贝叶斯定理的形式如下:它让我们能够通过后验概率,在观测到D之后估计w的不确定性。 贝叶斯定理右侧的量由观测数据集D来估计,可以被看成参数向量w的函数,被称为似然函数(likelihood function)。它表达了在不同的参数向量w下,观测数据出现的可能性的大小。在观察到数据之前,我们对参数的一些假设,通过先验分布体现。 给定似然函数的定义,贝叶斯定理按照自然语言如下:2、 几个问题的引入 观察贝叶斯定理,在将贝叶斯方法用到统计问题以及更进一步的机器学习问题中,很直观的我们有以下问题需要考虑:(1)似然函数的选择;(2)先验分布的选择;(

2、3)在确定似然函数和先验分布之后,得到后验分布,如何根据后验分布做出统计推断以及决策;(4)如何评价我们的前三步的选择。之后我们将逐步解决以上四个问题。3、 似然函数的选择前面的章节中,已经介绍过过拟合和欠拟合的概念:复杂的模型会导致过拟合,而简单的模型又会有欠拟合的忧虑。在贝叶斯方法中同样如此,似然函数包含着我们对数据D所了解的全部信息,合理的选择似然函数的形式,将直接影响模型的好坏,将这个问题称作贝叶斯模型选择。假设我们想比较L个模型,其中i=1,.,L。给定一训数据集D,由贝叶斯定理,我们有模型的后验分布: 先验分布让我们能够表达不同模型之间的优先级,假设我们对任意一个模型都没有偏爱,我

3、们发现关于模型分布正比于模型的似然函数,因此最大化后验分布等价于最大化似然函数。由此,我们引入模型证据的概念,或者称作边缘似然函数。下面给出相应定义: 定义2:(模型证据的定义) 使用模型证据的概念,我们就可以进行贝叶斯模型选择,其中的合理性,有以下的近似结论:最大化模型证据的结果将使得我们选择一个复杂度适中的模型。关于这点将给出近似的证明,为便于理解,我们使用到如下两图:证明: 在w为m维的情况下,上式可写作:取对数可得:当m逐渐变大时,第一项似然函数会逐渐变小,但是第二项会逐渐变大,以此最大化模型证据涉及到第一项与第二项的权衡。最大化模型证据的结果将使得我们选择一个复杂度适中的模型。 基于

4、最小化模型证据,我们能选取到复杂度合适的模型,避免了交叉验证使得数据未被全部利用以及重复运算所带来的计算消耗。 4、 先验分布的选择先验分布代表我们主观对参数的知识以及偏好,先验分布的选取方法主要分为以下几种:(1) 主观的概率:主要依靠历史数据、专家意见得到先验分布;(2) 无信息先验分布:假设我们对任意一个参数都没有偏爱,使先验分布对后验分布的影响尽可能的小;(3) 共轭先验分布:使得参数的先验分布与后验分布有相同的内核;(4) 多层先验:寻找影响参数先验分布的参数。我们对后三种先验分布做简单的介绍:4.1无信息先验分布在某些概率推断的应用中,我们可能有一些先验知识,可以方便地通过先验概率

5、分布表达出来。例如,如果先验分布令变量的某些值的概率为零,那么后验分布也将会使那些值的概率为零,与后续的数据观测无关。但是,在许多情形下,我们可能对分布应该具有的形式几乎完全不知道。这时,我们可以寻找一种形式的先验分布,被称为无信息先验(noninformative prior)。这种先验分布的目的是尽量对后验分布产生尽可能小的影响(Jeffreys, 1946; Box and Tiao, 1973; Bernardo and Smith, 1994)。这有时被称为“让数据自己说话”。无信息先验主要有以下几种组成:(1) 位置参数的无信息先验为1;(2) 尺度参数的无信息先验为参数的倒数;(

6、3) Jeffreys先验分布:利用参数中的信息量确定无信息先验。 4.2共轭先验分布在第三章的介绍中,我们已经接触到了共轭先验分布,故此处不展开。4.3 多层先验分布 当我们给先验分布一个先验分布时,就得到我们的多层先验分布,相应的贝叶斯模型称作多层贝叶斯模型:假设我们的多层贝叶斯有如上结构,由贝叶斯定理得如下公式:由这两个分布我们可以计算出任意的边缘分布与条件分布。 5、 贝叶斯推断与贝叶斯决策5.1贝叶斯推断 在之前的章节中,我们遇到了很多种不同的点估计,现在总结如下:5.2贝叶斯决策在一个统计问题中,我们不仅要对其中的不确定性进行度量,还需要对相应的问题做出决策。我们假设一个问题中,有

7、一个输入向量x和其输出y,y可以是回归问题中的目标也可以是分类问题中的标签。通过模型我们做出的决策为a,在决策论中,我们定义度量a与y距离的损失函数,通过最小化期望损失函数做出相应的决策,常用的度量函数有0-1损失、L1损失和L2损失。具体流程如下:(1) 首先定义损失函数L(y,a); (2)最小化期望损失: 在贝叶斯决策中,我们需要考虑的是后验期望损失,定义如下: 进一步以0-1损失、L1损失和L2损失,有以下结论:(1) 后验众数最小化0-1损失;(2) 后验期望最小化L2损失;(3) 后验中位数最小化L1损失。 最后,稍微提及拒绝选择的思想,在每个类别的后验概率相差不多的时候,我们允许

8、模型不做选择,在给定拒绝选择的损失时,我们可以确定拒绝选择的边界(课后题5.3)。6、 ROC曲线 如何评价一个模型的好坏?我们建立模型之后,接下来就要去评估模型,确定这个模型是否有用。度量一个模型好坏的标准有很多,而度量的选择,取决于模型的类型和模型要解决的问题。这里,我们先介绍ROC曲线与AUC值。ROC曲线广泛使用于2分类问题的模型评价,是很多不平衡数据的模型最重要的评判标准,使用但不限于贝叶斯统计中:ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。在二分类问题中,分类结果有如下四种结果:预测10合计实际1

9、True Positive(TP)False Negative(FN)Actual Positive(TP+FN)0False Positive(FP)True Negative(TN)Actual Negative(FP+TN)合计Predicted Positive(TP+FP)Predicted Negative(FN+TN)TP+FP+FN+TN记TP为真阳、FN为假负、FP为假阳、TN为真负。有以下的概念:精确度(Precision):P = TP/(TP+FP)反映了被分类器判定的正例中真正的正例样本的比重。 准确率(Accuracy):A = (TP + TN)/(P+N) =

10、(TP + TN)/(TP + FN + FP + TN),反映了分类器统对整个样本的判定能力能将正的判定为正,负的判定为负。   召回率(Recall),也称为 True Positive Rate:R = TP/(TP+FN) = 1 - FN/T,反映了被正确判定的正例占总的正例的比重。  ROC关注两个指标:True Positive Rate ( TPR )=TP/ TP + FN,TPR代表将正例分对的概率;False Positive Rate( FPR )=FP/ FP + TN,FPR代表将负例分错的概率。在ROC 空间中,每个点的横坐标是FPR,纵坐标是T

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论