模式识别与机器学习 习题及答案 孙仕亮 第2-4章 贝叶斯学习基础-概率图模型基础_第1页
模式识别与机器学习 习题及答案 孙仕亮 第2-4章 贝叶斯学习基础-概率图模型基础_第2页
模式识别与机器学习 习题及答案 孙仕亮 第2-4章 贝叶斯学习基础-概率图模型基础_第3页
模式识别与机器学习 习题及答案 孙仕亮 第2-4章 贝叶斯学习基础-概率图模型基础_第4页
模式识别与机器学习 习题及答案 孙仕亮 第2-4章 贝叶斯学习基础-概率图模型基础_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章贝叶斯学习基础思考与计算1. 对于2.1节给出的示例“假设某个动物园里的雌性和雄性熊猫的比例是4:6,雌性熊猫中90%的熊猫是干净整洁的,雄性熊猫中计算在该动物园中看到一只干净整洁的雄性熊猫的概率是多少?如果看到一只熊猫是干净整洁的,它是雄性的概率是多少?答:已知p(F),

p(M)0.6,

p(C|F),

p(C|M)0.2p(C,M)p(C|M)p(M)0.2p(M|C) p(C|M)p(M) p(C|M)p(M)p(C|F)p(F) 0.120.36

(2-2)2. 举例说明最小风险贝叶斯决策与最小错误率贝叶斯决策的不同。斯决策和最小风险贝叶斯决策的决策过程。假设患病白细胞浓度服从均值为2000,标准差为1000的正态分布,未患病白细胞浓度服从均值为7000,标准差为3000的正态分布,患病的人数比例为0.5%,问当白细胞浓度为3000时,应该做出什么决策?设w表示是否患病,x表示白细胞浓度,根据题意可以得到p(w0.5%p(w2)p(x|w

(2000,10002)p(x|w2)

(7000,30002)w的后验分布,计算结果如下:p(w1|x)p(x|wp(w=1.9%p(x)

p(w2|x)p(x|w2)p(w2)=98.1%p(x)

其中p(x)p(x|wp(wp(x|wp(w

(2-9)贝叶斯最小错误率决策会选择后验概率最大的类别,即h(x)2。阵为(只是假设,合理的数值应该视真实情况而定)0100

1 0其中表示将第i类数据判别为第j类的损失,也可以用(h(x)j|wi)表示。在该例子中,12表示将患病判别为正常的损失,21表示将正常判别为患病的损件风险的计算如下:R(h(x)|x)(h(x)|wi)p(wi|x)i

(2-11)可以得到将x判别为不同类别的条件风险为R(h(x)1|x)(h(x)1|wp(w1|x)(h(x)1|w2)p(w2|x)

(2-12)R(h(x)2|x)(h(x)2|wp(w1|x)(h(x)2|w2)p(w2|x)

(2-13)最小风险贝叶斯决策会选择条件风险最小的类别,即h(x)1。3. 给出在两类类别先验概率相等情况下,类条件概率分布是相等对角协方差矩阵的高斯分布的贝叶斯决策规则,并进行错误率分析。得到p(x|wi)

(μi,i),iC.贝叶斯决策得到的判别函数为gi(x)p(x|wi)p(wi)d1|

|lnp(wi)1(xμ)

1(xμ).

(2-15)2 2 i

2 i i i通过判别函数可以得到决策面gi(x)gj(x),具体形式为1(xμ)

1(xμ)(xμ)

1(xμ

)p(wi)1|i|

(2-16)2 i i i j j j

p(wj) 2 |j|假设两类类别先验概率相等,即

p(wp(w2)

,那么p(wi)

p(wj)0gi(x)中的p(wi)类别的协方差矩阵都相等且为对角阵时,假设2...C,判别函数(2-15)可简化为g(x)1(xμ)

1(xμ).

i 2 i i将上式展开,忽略与i无关的项x

1x,判别函数进一步简化为i ig(x)(1μi i

x1μi ii i

1μ.

此时判别函数是xRi与Rj相邻时,决策面满足方程gi(x)gj(x)即

(μiμj

(xx0)其中x1(μ

μ).

(2-21)0 2 i j即x0为μi与μj连线的中点。在两分类问题下,决策面方程为1(μ

μ)

x1(μ

μ)

1(μ

μ)0.

(2-22) 1 2

2 1 2 1 2(2)为了计算错误率,这里引入最小错误率决策的负对数似然比,r(x)lnp(x|wp(x|w

(2-23)最小错误率贝叶斯决策可以表示为:如果r(x)lnp(x|wp(x|w2)如果r(x)lnp(x|wp(x|w2)

(2-24)由于r(x)是随机变量xr(x)也是随机变量。记其条件概率密度函数为p(r|,贝叶斯平均错误率的计算可以转变为关于r(x)的积分。令(error)表示将第一类样本判定为第二类的错误率,p2(error)表示将第二类样本判定为第一类的错误率,则通过先验概率加权可得(平均)错误率,即p(error)(error)0.5p2(error),其中每一类错误率可以表示为(error)

p(x|w

p(h|w12(or)R1p(x|w2dx

p(h|w2)dh.

(2-26)其中r(x)的决策边界为因此,如果知道r(x)的条件概率密度函数,即可算出错误率(error)和p2(error)。根据p(x|wi)

(μi,i),

i2,可得r(x)lnp(x|wlnp(x|w2)1(xμ)

1(xμ)dln1ln||2

1 1 2 2 1(xμ)

1(xμ

)dln1ln||2

2 2 2 2

(2-28)1(xμ)

1(xμ)1(xμ)

1(xμ

)1ln||2 1 1 2

2 2 2 ||(μ

μ)

1x1(μ

1μμ

1μ).2 1 2

1 1 2 2x虽是d维高斯分布的随机变量,r(x)却是一维的随机变量,并且是关于x的线性函数。上式可以看作对x的各分量进行线性组合,然后平移,所以r(x)服从一维高斯分布。下面计算一维高斯分布p(r(x)|w的期望和方差1:

[r(x)|w(μ

μ)

1(μ

1μμ

1μ)

(2-29)2 1 1 2

1 1 2 21(μ

μ)

1(μ

μ).2 1 2 1 2令m1(μ

μ)

1(μ

μ),则

,并且2 1 2 1 2m2 2 11)|wμ2)μ2)

(2-30)同理可得p(r|w2)的期望m2和方差2为m1(μ

μ)

1(μ

μ)2 2 1 2 1 22(μ

μ)

1(μ

μ)2 1 2 1 2现根据式(2-26)计算(error)和p2(error),得到(error)

p(r|w 1

exp{1(rm)2}dh1 2 )21

1rm rm)2exp{ ( )2}d( )2 1m

1)2exp( 2)d,2p2(error)

p(r|w2)dh1 1rm rm)2( )2}d( )

(2-33)m 1

2 )

2exp(12)d.其中,

2

(2-34)因此,(error)和p2(error)表示为标准高斯分布 在对应区域上的概率值。4. 推导高斯分布的均值与协方差的最大似然估计。 答:最大似然估计的求解目标为NlnN(xi|)μ,

i1下面分别求解均值和协方差。(1)对对数似然函数关于均值求导并设置为零可以得到如下方程: Nd lnN(x

|μ,)

N 1 1nd (n

μ)

1(x

i

1/2 i iidμ

i1|| 2dμN1 d(xN

μ)

1(x

μ)2 i i2 i1dμN1 (d(x

μ))1(x

μ)+(x

μ)

d(1(x

μ))22 i1N

i i i idμ

(2-35)1 (x

μ)1(d(x

μ))+(x

μ)

d(1(x

μ))22 i1N

i i i idμi12(xi2i1

μ)dμ

1dμ

Ni1

(xi

μ)

10

1N1μm iNi1(2)对对数似然函数关于协方差求导并设置为零可以得到如下方程:NarglnN(xi|μ,)μ,N

i1Nd lnN(x

|μ,) d

1 1n(n

μ)

1(x

i

1/2 i iidN

i1

2| 2d2 2Ndln|2 2

d((x

μ)

1(x

μ)) i i i1dN

(2-36)NTr[1d]1

dTr[(x

iμ)(xi

μ)

1(d)1] 2 2i12 2N 2 2 Tr[d] i1N

ddTr[1(xd

iμ)(xi

μ)

1(d)]N11(xi1

iμ)(xi

μ)

10

1N (xμ

)(xμ)Nm N

i m i m5. 推导高斯分布的均值的最大后验估计。答:均值μ的对数后验分布可以表示为Nlnp(μ| )lnp(xi|μ)lnp(μ)consti1Nln (xi|μ,)+ln (μ|0,μ)const,i1

(2-37)其中const表示与均值μ无关的项。对对数后验关于均值求导并设置为零,可以得到如下方程:(x(xi|μ,)n μ|,μ)dlnidμnN 1 nd (x

μ)

1(x

dln 1 xp{1μ

e 1/2 i ie

1/2 μ i1N|| 2 |μ| 2dμ1 d(x

μ)

1(x

μ)1dμ

2 i i 2 μ2 i1dμN21 (d(x2

μ))1(x

μ)+(x

μ)

d(1(x

μ))1(dμ

d1μ) i1N

i i i i 2 μ μdμ1 (x

μ)

1(d(x

μ))+(x

μ)

d(1(x

μ))1(μ

1dμ+μ

1dμ)22 i1N

i i i i

2 μ μμiN1(2(xμiN

μ)

12μ

1)dμ2i1

i1

(xi

μ)

10

μ(2-38)μ

.mN(N11)1.m

(N)1m6. 推导高斯分布的均值的贝叶斯参数估计。m答:假设均值服从高斯分布)p)p(|)p).p( )

(0,),根据如下贝叶斯公式,

(2-39)可以得到均值的后验分布表达式为p(μ|

N)N)pμp(xi|μ)/p( )

NμNμ|,μ (xi|μ,)/p( )N 1 1= μ

1 1(x

μ)

1(x

μ)}/p( )1/2

μ 1/2 i i|μ| 2N

i1|| 2N 1 1

exp{1μ

1(x

μ)

1(x

μ)/p( )|2|2

2 μ 2 i iμ

i1N N 1 1

exp1μ

1

x1x

1xμ

1μ/p( )1/2

1/2

μ i i i |μ|

||

2 2i1 N N 1 1

1exp μ

(1+N1)μ2Nμ

x1x/p( )1/2

1/2

μ

m i i|μ|

||

2

i1 1exp μ

(1+N

1)μ

2Nμ

Nx

1x

const2 μ

m i i i1 =exp1μN(1+N1)1μ

(1+N1)1μN(1+N1)1μ

const2

m mm m= N

(N

)1

,(1N1)1.第3章逻辑回归思考与计算1. 选择一个UCI数据集,比较线性回归和岭回归的错误率。2. 请编程实现二类分类的逻辑回归,要求采用牛顿法进行优化求解。3. 证明一元高斯似然关于方差的共轭先验是逆伽马分布。设前提下,方差的后验分布是逆伽马分布。假设似然函数为如下高斯分布:N 1 p(y|X,β,2)2)2 (y(y,

(3-1) 2 假设方差的先验分布为逆伽马分布Inv-Gamma(a0,),即p2)2)01(0,2

(3-2)根据贝叶斯公式可以得到方差的后验分布表达式如下2|y,X,β)2)p(y|X,β,2)/p(y|β)N(2)a0exp(2)(

2exp1yXβ)(yXβ)const2 2 a1N2)0 2exp

12(y

Xβ)(y

Xβ) 2 N 1 a0 (yXβ)(yXβ)2 2 4. 思考如何优化使用范数进行正则化的最小二乘。答:对于目标函数不是连续可微的情况,可以用次梯度来进行优化,范数的次梯度表示为

1

d0 1=sign(β) 1

0

dd0但次梯度存在两个问题:求解慢,通常不会产生稀疏解。此时可以用ProximalGradientDescent对范数正则化问题进行求解。求解过程如下。使用范数进行正则化的最小二乘的优化目标表达式如下:S

Nyf(x,)2|

i i N其中 y

f(x,)2

是可导函数,记为g(β),且

不可导。 i i i1根据泰勒展开式g(β)可以表示为g(β)g(β

)(g(β

))(ββ

)1(ββ)

H(g(β

))(ββ

)o(||β

||2)(3-5)k k k 2

k k k k2假设g(β)满足L-Lipschitz条件,即存在常数a0使得||g(β)令H(g(βk))aI,公式(3-5)可以使用如下表达式近似ag(β)g(βk)(g(βk))(ββk)2

(ββk)(ββk)2

(3-7)aββ2

1g(β )ak k)ak k

const其中const是与变量β无关的常数。公式(3-7)中的g(β)在β=βk最小值。

1g(βa k

)时取得如果使用梯度下降来求得g(β)的最小值,在第k1步,更新公式为βk+1

=βk

1g(β)a k使用类似的思想来求解公式(3-4)的最小值,在第k1步,更新公式可以表示为βk+1

arga2

ββ

1g(β )a k)

2L||β||L1

kβ 2k公式中的优化目标中可以分别计算β的每一维βd表示为βd argmaxaβdβ

1g(β

d2)2

|βd|2k+12

βd

k a kd 2argmaxaβdβ

1g(β)

constaa aa2βd 2

k k d d βdβ

1g(β)

,

β1g(β)

0 k a

k a

k a

k a dβ)d β)dβdβ

1g(β

),

1g(β k a k

0a k a

k a dβd

β

1g(β) a k a

k a 第4章概率图模型基础思考与计算1. 设计一个贝叶斯网络的图模型,并写出所有变量的联合分布。4-1所示的一种生成式混合高斯过程图模型,其中最左侧的节点以及中间方框中的θk和Ik表示模型的超参数,其余中间与右侧方框中的节点表示模型的随机变量。图4-1混合高斯过程的图模型观察图4-1所示的贝叶斯网络的图模型,为了方便表示,使用表示12,...,z表示,z2,...,zN,使用X表示,x2,...,xN,使用y表示,y2,...,yN,可以得到如下联合分布:,μ,R,W,r,z,X,y)k|0)p(μk|μ0,R0)p(Rk|0,)p(Wk|θk,Ik)|a0,)kNp(zi|)p(xi|zi,μ,R)p(yi|zi,xi,W,r)i1

(4-1)2. 分析图4-7所示的贝叶斯网络中的其他变量之间的条件独立性。图4-7使用d-分隔判断条件独立性示例答:下面分别分析图a与其他所有变量的关系。在图4-7(a)中,节点a到节点c,d,f,g,b均只有一条路径。路径中,a到cc,d是顺序结构且ca到da,c,f是汇总结构且c的后代节点e被观测,因此a到f不被阻隔;节点c,f,g是发散结构且f未观测,因此c到g不被阻隔;节点f,g,b是顺序结构且g是未观测,因此f到b不被阻隔。总的来说,节点a到节点c,d,f,g,b均不是d-分隔的,因此在给定节点e后,节点a和节点c,d,f,g,b均不是条件独立。在图4-7(b)中,节点a到节点c,d,e,f,b均只有一条路径。路径中,a到cc,d是顺序结构且ca到dd,e是顺序结构且dc到ea,c,f是汇总结构且c的后代节点不被观测,因此a到f被阻隔;节点f,g,b是顺序结构且g被观测,因此f到ba到b是ga和b条件独立,即有af|g和ab|g。3. 写出图4-13所示的无向图的联合概率表示。图4-13满足条件独立性AB|C的无向图模型示例答:根据无向图模型的条件独立性,可以得到图4-13中的所有变量的联合分布表示为:p(x1,,,,,,,)p(x4,)p(x1,,,,,|,)p(x4,)p(x1,,|,)p(x6,,|,)

(4-2)若将概率分布根据最大团进行分解,则可以得到如下表示:p(x4,)p(x1,x2,|x4,)p(x6,x7,|x4,)1 1 1

(4-3) (x4,)Z2

21,2|4,532,3|4,5,,|,Z3图4-23因子图示例答:如图4-23所示,若只需计算节点,x2,,x4,中某一个变量的边缘分传递既可以得出所有随机变量的边缘分布。这里将图4-23中的x3作为根节点进行两次消息传递,两次消息传递示意图如图4-24(a)和图4-24(b)所示、x4和x5向根节点x3传递x3向叶子节点和x5传递图4-24对应图4-23的和积算法的消息流示意图从叶子节点向根节点的消息传递如下:1axf1a

1fx

x2fa,x2a 24cxf4cfxx41x2fcx2,x4c 25dxf5d1fx

x2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论