




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
先验分布的先验分布与计算学习机制
由于数据收集和知识发现的搜索,巴巴斯网络的发展促使计算机科学家注重学习和统计推断方法。Bayesian方法的特点是使用概率去表示所有形式的不确定性,学习或其他形式的推理都用概率规则来实现。贝叶斯学习的结果表示为随机变量的概率分布,它可以解释为我们对不同可能性的信任程度。Bayesian定理和Bayesian假设是贝叶斯学习的两大支柱。贝叶斯方法使用主观概率和先验分布,用于学习和建造贝叶斯网络,特别适用于样本难得的情况。本文分析Bayesian方法的计算学习机制和问题求解的基本步骤,导出在没有先验分布的任何信息时,使用贝叶斯假设符合最大熵原则,而提高先验指派的精确度对提高贝叶斯方法学习的质量和效率有重要的作用。1随机变量px—连续随机变量的Bayesian定理变量X取值为x的概率表示为p(X=x|ξ)或p(x|ξ),它是个人带有先验信息ξ所得到的。为了简便起见,本文以下省去ξ而记为p(X=x)或p(x)。同时,p(X=x)或p(x)也表示密度函数或概率分布。其实际意义可在上下文中加以判别。如果变量的密度函数依赖于未知参数θ,则密度函数是θ在给定某个值时X的条件密度函数,记为p(x|θ)。假定根据参数θ的先验信息确定其先验分布密度为π(θ)。现得到X的一个样本X=(X1,X2,…,Xn),样本观测值为x=(x1,x2,…,xn)。于是p(x|θ)又可看作X1,X2,…,Xn作为相互独立的随机变量的联合条件分布密度函数:p(x|θ)=n∏i=1p(xi|θ)‚(i=1,2,⋯,n).(1)p(x|θ)=∏i=1np(xi|θ)‚(i=1,2,⋯,n).(1)这个函数即样本的似然函数。设样本X与参数θ的联合分布密度记为h(x,θ),将其按乘法公式展开:h(x‚θ)=π(θ|x)m(x)‚(2)h(x‚θ)=π(θ|x)m(x)‚(2)其中m(x)为x的边缘密度函数。π(θ|x)是在给定样本观测值x的条件下,θ的条件分布密度函数,称为θ的后验分布密度函数。根据乘法公式和边缘密度函数的定义,由(2)式得:π(θ|x)=h(x,θ)m(x)=p(x|θ)π(θ)∫Θp(x|θ)π(θ)dθ.(3)式(3)就是连续随机变量形式(或密度函数形式)的Bayesian公式(Bayesian定理)。2贝叶斯假设无信息先验中的熵值如何合理地确定先验分布,是Bayesian方法的一个重要问题。在没有任何信息可以帮助我们去确定先验分布的情况下,则认为参数θ具有无信息先验分布π(θ)。当θ∈D时π(θ)=C,当θ∈/D时π(θ)=0。这就是贝叶斯假设。最大熵原则:无信息先验分布应取参数θ的变化范围内熵最大的分布。可以证明,随机变量(或随机向量)的熵为最大的充分必要条件是随机变量(或随机向量)为均匀分布。因此,贝叶斯假设取无信息先验分布为“均匀分布”,符合信息论的最大熵原则。现就随机变量取有限个值的情况加以证明。定理:设随机变量x只取有限个值a1,a2,…,an,相应的概率记为p1,p2,…,pn,则x的熵G(x)最大的充分必要条件是:p1=p2=⋯=pn=1n。0=οGοpi=-lnpi-1+λ‚(i=1,2,⋯,n)‚求得p1=p2=…=pn。又因为n∑i=1pi=1,所以p1=p2=⋯=pn=1n。此时相应的熵是-n∑i=11nln1n=lnn。反之,当p1=p2=…=pn时,G(p1,p2,…,pn)取得最大值。对于连续的随机变量也有同样的结果。由此可见,在没有任何信息确定先验分布时,采用贝叶斯假设是合理的。3共越界分布的定义就机器学习而言所关心的问题是:贝叶斯方法得到的后验分布是否与先验分布同属于相同的分布?如果是这样的话,就可以利用后验分布作为进一步试验的先验分布,多次继续这个过程,使用多个样本的数据来计算θ。关于这个问题有如下结果:定义1设样本X1,X2,…,Xn对参数θ的条件分布为p(x1,x2,…,xn|θ),如果先验分布密度函数π(θ)决定的后验密度π(θ|x)与π(θ)同属于一种类型,则称为p(x|θ)的共轭分布。定义2设P={p(x|θ):θ∈Θ}是以θ为参数的密度函数族,H={π(θ)}是θ的先验分布族,假设对任何p∈P和π∈H,得到的后验分布π(θ|x)仍然在H族中,则称H为P的共轭分布族。如果选定的先验分布属于共轭分布族,则得到的后验分布与先验分布属于同一种分布。定义3如果随机变量Z服从分布f(x),而f(x)=c·g(x)(其中c是常数因子),则可记为Z∝g(x),并称g(x)为分布密度函数f(x)的核。因为当样本分布与先验分布的密度函数都是θ的指数函数时,它们相乘后指数相加,结果仍是同一类型的指数函数,只相差一个常数比例因子。所以有如下定理:定理如果随机变量Z的分布密度函数f(x)的核为指数函数,则该分布属于共轭分布族。用共轭分布作先验可以将历史上做过的各次试验进行合理综合,也可以为今后的试验结果分析提供一个合理的前提。由于非共轭分布的计算实际上是相当困难的,相比之下,共轭分布计算后验只需要利用先验做乘法,其计算特别简单。可以说共轭分布族为Bayesian学习的实际使用铺平了道路。4共吾先验分布的估计结果到底Bayesian公式求得的后验是否比原来信息有所改善呢?其学习的机制是什么?现以正态分布为例进行分析,从参数的变化看先验信息和样本数据在学习中所起的作用。设X1,X2,…,Xn是来自正态分布N(θ,σ21)的一个样本,其中σ21已知,θ未知。为了求θ的估计量˜θ,取另一个正态分布N(μ0,σ20)作为该正态均值θ的先验分布,即取先验为:π(θ)=N(μ0,σ20)。用贝叶斯公式可以计算出后验仍为正态分布:h(θ|ˉx1)=Ν(α1‚d21),其中:ˉx1=n∑i=1xin,α1=(1σ20μ0+nσ20ˉx1)/(1σ20+nσ21)‚d21=(1σ20+nσ21)-1.用后验h(θ|ˉx)的数学期望α1作为θ的估计值,有:˜θ=E(θ|ˉx1)=(1σ20μ0+nσ21ˉx1)⋅d21.(4)由此可见,这样得到的θ的估计值˜θ是先验分布中的期望μ0与样本均值ˉx1的加权平均。样本的容量n越大则样本均值ˉx1在后验均值中所占的比重越大。当n相当大时,先验均值在后验中的影响将变得很小。这说明Bayesian公式求出的后验确实对先验信息和样本数据进行了合理的综合,其得到的结果比单独使用先验信息或样本数据都更完善,其学习机制确实是有效的。在采用其他共轭先验分布的情况下,也有类似的结果。从前面的讨论可知,在共轭先验的前提下,可以将得到的后验信息作为新一轮计算的先验,与进一步获得的样本信息综合,求得下一个后验信息。如果多次重复这个过程,得到的后验信息是否越来越接近于实际结果?对这个问题可作如下分析:用计算得到的后验分布h(θ|ˉx1)=Ν(α1,d21)作为新一轮计算的先验时,设新的样本X1,X2,…,Xn来自正态分布N(θ,σ22),其中σ22已知,θ待估计。则新的后验分布为:h1(θ|ˉx2)=Ν(α2,d22),其中:ˉx2=n∑i=1xin,α2=(1d21α1+nσ22ˉx2)/(1d21+nσ22),d22=(1d21+nσ22)-1.用后验h1(θ|ˉx2)的数学期望α2=(1σ20μ0+nσ21ˉx)(1σ20+nσ21)作为θ的估计值,由于α1=(1σ20μ0+nσ21ˉx1)⋅d21,计算可得α2=(1d21α1+nσ22ˉx2)⋅d22=(1σ20μ0+nσ21ˉx1+nσ22ˉx2)⋅d22=(1σ20μ0+nσ21ˉx1)⋅d22+nσ22ˉx2⋅d22.(5)又由于nσ22>0,故d22=(1d21+nσ22)-1=(1σ20+nσ21+nσ22)-1<d21=(1σ20+nσ21)-1.可知在α2中,(1σ20μ0+nσ21ˉx1)⋅d22<α1,也就是说,由于新样本的加入,先验和旧样本所占的比重降低。由式(6)容易看出,当新的样本(不失一般性,假定容量相同)继续增加,将有αm=(1σ20μ0+nσ21ˉx1+nσ22ˉx2+⋯+nσ2mˉxm)⋅d2m=(1σ20μ0+m∑k=1nσ2kˉxk)⋅d2m‚(k=1‚2‚⋯‚m).(6)由(6)式可知,如果所有新的样本的方差相同,则等同于一个容量为m×n的样本。以上过程将先验和各样本均值按各自的精度加权平均,精度越高者其权值越大。由此可见,在采用贝叶斯假设时,随着使用的样本增多,样本信息的影响越来越显著。在样本的噪音很小的前提下,得到的后验信息也将越来越接近于实际,只不过需要大量的计算而已。5抛图钉出现头的概率的确定Bayesian方法学习和问题求解的基本步骤概括为:1)定义随机变量。将未知参数看成随机变量(或随机向量),记为θ。将样本观测值x1,x2,…,xn的联合分布密度p(x1,x2,…,xn;θ)看成是x1,x2,…,xn对θ的条件分布密度,记为p(x1,x2,…,xn|θ)或p(D|θ)。2)确定先验分布密度p(θ)。采用共轭先验分布。如果对先验分布没有任何信息,就采用无信息先验分布的贝叶斯假设。3)利用贝叶斯定理计算后验分布密度。4)利用计算得到的后验分布密度对所求问题作出推断。以单变量单个参数情形为例,考虑“抛掷图钉问题”:将图钉抛到空中,图钉落下静止后将取以下两种状态之一:头(head)着地或尾(tail)着地。假设我们抛图钉N次,问从前N次的结果如何决定第N+1次出现头的概率。第一步,定义随机变量Θ,其值θ对应于抛图钉头着地的物理概率可能的真值。密度函数p(θ)表示我们对Θ的不确定性。第l次抛掷结果的变量为Xl(l=1,2,…,N+1),观测值的集合为D={X1=x1,…,Xn=xn}。于是将问题表示为由p(θ)计算p(xN+1|D)。第二步,用贝叶斯定理获得给定D时Θ的概率分布:p(θ|D)=p(θ)p(D|θ)p(D),其中,p(D)=∫p(D|θ)p(θ)dθ,p(D|θ)是二项分布样本的似然函数。如果已知Θ的值(即参数θ),则D中的观测值是相互独立的,并且任何一次观测出现头的概率是θ,出现尾的概率为(1-θ)。于是有p(θ|D)=p(θ)θh(1-θ)tp(D)‚(7)其中h和t分别是在D中观测到的头和尾的次数,称为二项分布样本的充分统计量。第三步,求Θ的所有可能的值的平均值,作为第N+1次抛掷图钉出现头的概率p(XΝ+1=heads|D)=∫p(XΝ+1=heads|θ)p(θ|D)dθ=∫θ⋅p(θ|D)dθ≡Ep(θ|D)(θ)‚(8)其中Ep(θ|D)(θ)表示θ对于分布p(θ|D)的数学期望。第四步,为Θ指派先验分布和超参数。指派先验通常采用的方法是先假定先验的分布,再确定分布的参数。假定先验是Beta分布:p(θ)=Beta(θ|αh,αt)≡Γ(α)Γ(αh)Γ(αt)θαh-1(1-θ)αt-1‚(9)其中αh>0和αt>0是Beta分布的参数,α=αh+αt,Γ(·)是Gamma函数。为了和参数θ相区别,将αh和αt称为“超参数”。因为Beta分布属于共轭分布族,得到的后验也是Beta分布:p(θ|D)=Γ(α+Ν)Γ(αh+h)Γ(αt+t)θαh+h-1(1-θ)αt+t-1=Beta(θ|αh+h,αt+t).(10)对于这个分布,θ的数学期望有一个简单的形式:∫θ⋅Beta(θ|αh,αt)dθ=αhα.(11)于是,给定一个Beta先验,得到第N+1次抛掷出现头的概率的简单表达式:p(XΝ+1=heads|D)=αh+hα+Ν.(12)6贝叶斯定理综合Bayesian定理的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 如何利用自我评估制定计划
- 新技术应用策略计划
- 学校体育活动中的生民教育价值体现
- 学生科技创新能力培养与实践
- 个人理财的心理学分析计划
- 体育行业会计个人工作计划
- 设计班级社会实践活动计划
- 制作中的色彩搭配技巧探讨
- 探索智能化办公设备的使用计划
- 社会实践与社区服务活动计划
- 公园物业服务投标方案(2023修订版)(技术方案)
- 2025年上海工艺美术职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 《合同法的基本原则与履行要点》课件
- 2025年临床医师定期考核必考复习题库及答案(620题)
- DB32∕T 3724-2020 高标准农田建设项目初步设计报告编制规程
- 光学材料销售实习报告
- 浙江省温州市2025届高三第二次调研英语试卷含解析
- 2025年辐射工作人员培训计划
- 干细胞与干细胞治疗
- 春季常见传染病预防知识培训
- 中建履带吊安拆安全专项施工方案
评论
0/150
提交评论