参考课件-网导论_第1页
参考课件-网导论_第2页
参考课件-网导论_第3页
参考课件-网导论_第4页
参考课件-网导论_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贝叶斯网络导论授课教师:王成:邮箱:cheng.wan日期:2011.11.22华侨大学计算机学院试讲先修课程和参考书目先修课程必修:概率论、数理统计、图论选修:随机过程、信息论、人工智能、数据挖掘、信息融合其它有用课程:数学建模、专业领域知识参考书目张连文、郭海鹏著《贝叶斯网引论》科学2006.11(算法、应用实例)贝叶斯网络课程定位人工智能的实质进展有赖于不断针对人类的某种智能行为,运用数学理论和方法,结合计算机技术来建立适当的数学计算模型。只有智能的目标和计算机技术而没有数学的次介入是不可能有显著进展的。贝叶斯网络课程定位(续)贝叶斯网用于解决不确定理和数据分析。这是一门理论与实践相结合的数学应用课,将概率论、数理统计、信息论、图论知识用于具体问题、日常生活和工程实践。与贝叶斯网络关联的课程信息融合故障信号处理人工智能生物信息学编码学贝叶斯网络本讲主要内容讲课思路应用范围简介基本概念复习参数学习结构学习贝叶斯网络实例朴素贝存在问题

叶斯分与

类器改进方案1.1贝叶斯定理P(H)是先验概率(PriorProbability),或称H的先验概率。P(X|H)代表假设H成立的情况下,观察到X的概率。P(H|X)是后验概率(PosteriorProbability),或者称条件X下H的后验概率。P(

X

)设X

是类标号未知的数据样本。设H

为某种假定,如数据样本X

属于某特定的类C。对于分类问题,X,假定H

成立的概率。贝叶斯定理给出了计算P(H|X)的简单有效的方法:P(H

|

X

)

P(

X

|

H

)P(H

)1.1贝叶斯定理应用实例例:设有一,生知道的人患有,有:P(D

t

|

C

y)P(D

t)P(C

y

|

D

t) 0.005

0.8

0.04P(C

y)

0.1即1.1贝叶斯定理应用实例相对于E

e

,可以谈论一个事件的先验和后验概率,同时也可以谈论一个变量的先验和后验概率分布。设X

是一个所关心的变量,则有P(X

|E

e)P(

X

)P(E

e

|

X

)P(E

e)P(X

)是X

的先验分布,P(X

|

E

e)是X

的后验分布,P(E

e

|

X

)称为X

的似然函数。P(E

e)是一个归一化常数后验分布正比于先验分布和似然函数的乘积。1.2概率的解释古典解释频率解释(频率学派)一般的地讲,对于一个可在同样条件下重复进行的实验,如果事件A在所有N次试验 发生了M次,则它的概率可以用其发生的频率来近似:P(A)=M/N.解释(贝叶斯解释,贝叶斯学派)认为概率即合理信度,反映的是

的知识状态和

信念。在这种意义下的概率称为

概率。特性解释(Popper,1957)逻辑解释(Carnap,1950)2.贝叶斯分类贝叶斯分类是统计分类方法。理论上讲,与其它所有分类算法相比,贝叶斯分类具有最小的出错率。然而,实践中并非如此。这是由于对其应用的假设(如类条件独立假设)的确性,以及缺乏可用的概率数据造成的。研究结果表明,贝叶斯分类器对两种数据具有较好的分类效果:一种是完全独立(Comple

yIndependent)的数据,另一种是函数依赖(FunctionallyDependent)的数据。2.贝叶斯分类在贝叶斯学习方法中实用性很高的一种称为朴素贝叶斯分类器(naiveBayesclassifier)的方法。在某些领域,其性能与神经网络和决策树相当。2.1朴素贝叶斯分类器其中叶结点

12,,,别。AAn

是属性变量,描述待分类对象的属性,根结点C

是类别变量,描述对象的类NBC

模型……类别C1属性A2属性An属性A朴素贝叶斯模型(naïve

Bayses

model),又称朴素贝叶斯分类器(naïveBayses

classifier)一个包含一个根结点、多个叶子结点的树状贝叶斯网。用朴素贝叶斯模型进行分类就是给定一个数据点,即各属性变量的取值A1a1Aa

,,,概率分布

),然后选择概率最大的那个C

值作为这个数据点所属的类别。NBC

包含了一个局部独立(local

independence)假设,即给定类别变量C,各属性变量Ai

相互条件独立。n这就意味着:

P(C,

A1, ,

An

)

P(C)

P(

Ai

|

C)i12.1朴素贝叶斯分类器实例

30

3031

~

4031

~

40

30

30

3031

~

4031

~

4014据样 用属{yes,no})。设C1C2知样 为:

X

{age"

30",income

2.1朴素贝叶斯分类器实例P(X

|

Ci

)P(Ci

),i

1,2

P(Ci

)P(buys

_

computer

"

yes")

9

/14

0.643

P(buys

_

computer

"no")

5

/14P(

X

|

Ci

),

i

1,2P(age

30

|

buys

_

computer

"

yes")

2P(age

30

|

buys

_

computer

"no")

3

/

5P(income

"medium"|

buys

_

compP(income

"medium"|

buys

_

compuP(s dent

"

yes"|

buys

_

computer

"P(income

"

yes"|

buys

_

computer

"nP(credit

_

rating

"

fair"|

buys

_P(credit

_

rating

"

fair"|

buys

_

c2.1朴素贝叶斯分类器实例P(

X

{age"

30",

i

P(age

30

|

buys

_P(st

dent

"

yes

"

|

b

0.222 0.444

0.6P(

X

{age"

30",

i

P(age

30

|

buysP(student

"

yes

"

|

b

0.600

*

0.400

*

0.20P(

X

|

buys

_

computer

"

yP(

X

|

buys

_

computer

"nbuys

_

computer

"

yes"P(age

30

|

buys

_

computer

"

yes")

2的是比值

nC

/

n

buys

_

computer

"

yes"nCage

302.1朴素贝叶斯分类器工作过程(1)每个数据样本用一个n

维特征向量X

{x1

,x2

,,xn

}表示,分别描述对n

个属性A1

,A2

,,An

样本的n

个度量。(2)假定有

m

个类

12,,,

CCCm

。给定一个未知的数据样本X(即没有类标号),分类法将验概率(条件

X

下)的类。即,朴素贝叶斯分类将未知的样本分配给类Ci

,当且仅当属于具有最高后P(Ci

|

X

)

P(C

j

|

X

)

,1

j

m

j

i这样,最大化

PC(|)Xi

。其

PC(|)Xi

最大的类

Ci

称为最大后验假定。根据贝叶斯定理可知:PX()

PX(|)C()PCiiPC(|)Xi(3)由于P(X)对于所有类为常数,只需要P(X

|

Ci

)P(Ci

)最大即可。如果类的先验概率未知,则通常假设这些类是等概率的,即P(C1

)

P(C2

)

P(Cm

)。并据此,只对P(X

|

Ci

)最大化。否则,最大化P(X

|

Ci

)P(Ci

)。注意,类的先验概率可以用P(Ci

)

si

/s

计算,其中si

是类Ci中的训练样本数,而s

是训练样本总数。2.1朴素贝叶斯分类器工作过程(续)(4)给定具有许多属性的数据集,计算P(X

|

Ci

)的开销可能非常大。为了降低计算P(X

|

Ci

)的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值之间相互条件独立,即属性间,不存n在依赖关系。这样:P(X

|

Ci

)

p(xk

|

Ci

)k

1其中概率

P(x1

|

Ci

)

1

|(

)p|可(C,

x以P由Cx训P练样本估值。如果Ak

是离散属性,则P(xk

|

Ci

)

sik

|

si

,其中sik

是在属性Ak

上具有值xk

的类Ci

的训练样本数,而si

是Ci

中的训练样本数。如果Ak

是连续值属性,则通常假定该属性服从高斯分布。因而1i2CiCiik

Ck

i2

Ci2xukC

)(2u

),,()|(

eP

x

C

g

xg

(xk

,

uC

,

)

是高斯分布函数,而u

,

分别为平均值和标准差。i

Ci

Ci

Ci(5)对未知样本X

分类,也就是对每个类Ci

,计算P(X

|

Ci

)P(Ci

)。样本X

被指派到类Ci

,当且仅当P(Ci

|

X

)

P(C

j

|

X

),1

j

m

,j

i

,换言之,X

被指派到其P(X

|

Ci

)P(Ci

)最大的类。2.2NBC的改进-使用m-估计显然,在多数情况下,观察到的比例是对概率的一个良好估计,但当nC

很小时估计较差。设想P(age30

|

buys

_

cmputer

"yes")的值为0.08,而样本中只有9

个样本为buys

_

computer

"yes",那么对于nC

最有可能的值只有0.这产生了两个难题:nC

/n

产生了一个有偏的过低估计(Underestimate)概率。当此概率估计为0时,如果将来的查询包括age30

,此概率项会在贝叶斯分类器中占有原因在于,其他概率项乘以此0

值后得到的最终结果为0.2.2NBC的改进-使用m-估计显然,在多数情况下,观察到的比例是对概率的一个良好估计,但当nC

很小时估计较差。设想P(age30

|

buys

_

cmputer

"yes")的值为0.08,而样本中只有9

个样本为buys

_

computer

"yes",那么对于nC

最有可能的值只有0.这产生了两个难题:nC

/n

产生了一个有偏的过低估计(Underestimate)概率。当此概率估计为0

时,如果将来的查询包括age30

,此概率项会在贝叶斯分类器中占有因在于,其他概率项乘以此0

值后得到的最终结果为0.为了避免这些难题,可以采用一种评估概率的贝叶斯方法,即如下定义的m-估计:n

mm

估计

nC

m

*

p这里,nC

和n

与前面定义相同,p

是将要确定的概率的先验估计,而m

是一个称为等效样本大小的常数,它起到对于观察到的数据如何衡量p

的作用。2.3NBC的改进-NBC根据条件属性对决策所起的作用赋给它们不同的权重,相比于贝叶斯网络,该方法更加简单可行。采用信息增益、爬山算法以及MonteCarlo技术确定属性权值的方法。基于粗糙集的属性权重求解方法。相关系数是用来测定变量间相关关系程度及方向的统计指标。2.4NBC的改进-选择性NBC朴素贝叶斯分类器要以一个很强的条件独立性假设为前提,即假设在各个类中,每个属性变量(也称作特征)的概率分布独立于其它属性变量的概率分布。弥补这一不足的一种有效的方法是利用属性选择去除数据集中的冗余属性,使选择出的属性尽可能地满足条件独立性假设。然后,在选择出的属性子集上构建贝叶斯分类器,即选择性贝叶斯分类器。2.5NBC的改进-TANTAN

模型朴素贝叶斯模型中的局部独立假设在实际中往往不成立。为使模型更符合实际,可以在其中的各叶结点之间增加一些必要的边,以表示各属性变量之间的依赖关系,如果规定属性变量之间的关系成树状结构,那么模型就称为加树朴素贝叶斯模型(tree

augmented

naïve

Bayes

model),简称nTAN

模型。在TAN

模型中,联合概率分布为:P(C,A1

,A2

,An

)

P(C)

P(Ai

|

(Ai

))i1注意这里的属性变量Ai

的父节点

(Ai

)不仅包括类别变量C,也可能包括其它属性变量。相比之下,在朴素贝叶斯模型中

(Ai

)只包括C。这说明,TAN

模型不再要求局部独立假设成立有研究表明,TAN模型的分类效果往往比朴素贝叶斯要好(Friedman

et

al.,1997;Cheng

andGreiner,1999

)……类别C1属性A2属性An属性A3.贝叶斯网例:(Alarm问题)Pearl教授家住在洛杉矶,那里和盗窃时有发生。教授的家里装有警铃,和都有可能触发警铃,听到警铃后,两个邻居Mary和John可能会打电话给他。一天,Pearl教授接到Mary的,说听到他家警的概率多大?铃响,Pearl教授想知道他家遭问题分析:这个问题包含5个随量: (B)、(E)、警铃响(A)、接到John的(J)和接到Mary的(M);所有变量的取值均是“y”或“n”。这里各变量间的关系存在不确定性:和以一定的概率随机发生;它们发生之后,并不一定会触发警铃;而警铃响后,Mary

和John可能会因为某些原因,如在听摇滚乐或

问题,而没有听到警铃;有时候,两人也会将其它声音误听为警铃声。假设Pearl教授对这5个变量的联合概率分布P(B,E,A,J,M)的评估如表所示。要计算的是接到Mary的(M=y)后,Pearl教授对家里遭盗(B=y)的信度,即P(B=y|M=y)。BEAMJ概率BEAMJ概率yyyyy1.2E-4nyyyy3.6E-3yyyyn5.1E-5nyyyn1.6E-3yyyny1.3E-5nyyny4.0E-4yyynn5.7E-6nyynn1.7E-4yynyy5.0E-9nynyy7.0E-6yynyn4.9E-7nynyn6.9E-4yynny9.5E-8nynny1.3E-4yynnn9.4E-6nynnn1.3E-2ynyyy5.8E-3nnyyy6.1E-4ynyyn2.5E-3nnyyn2.6E-4ynyny6.5E-4nnyny6.8E-5ynynn2.8E-4nnynn2.9E-5ynnyy2.9E-7nnnyy4.8E-4ynnyn2.9E-5nnnyn4.8E-2ynnny5.6E-6nnnny9.2E-3ynnnn5.5E-4nnnnn9.1E-1Alarm

问题的联合概率分布P(B,E,A,J,M)3.1不确定理与联合概率分布从联合概率分布

P(B,E,A,J,M)出发,先计算边缘分布P(B,

M

)

P(B,

E,

A,

J

,

M

)E

,

A,J得到下表:BMP(B,M)yy0.000115yn0.000075ny0.00015nn0.99966再按照条件概率定义,得

0.610.000115

0.000075P(M

y)0.000115P(B

y,

M

y)

P(B

n,

M

y)P(B

y,

M

y)P(B

y

|

M

y)

P(B

y,

M

y)

3.1不确定

理与联合概率分布3.2存在的问题直接使用联合分布进行不确定 理的 很明显,即它的复杂度极高。上图中有5

个二值随量,整个联合分布包含25

1

31

个独立参数。当变量很多时,联合概率的获取、 和运算都变得十分在上述(Alarm

问题)的例子中,运用链规则,可以把联合概率分布

P(B,E,A,J,M)表示为:B,E,A,J,M)=P(B)P(

B,E)P(J|B,E,A)P(M|B,E,A,J)。一步并没有降低模型的复杂度,因为等式右端的5

个概率分布仍然包含同联合分布相同个数的独立参数:1+2+4+8+16=31.3.3解决方案但是,它使得可以根据问题的背景知识做一些合理的独立假设以降低复杂度。例如,

(E)应该与 (B)无关,于是假设E与B相互独立,即P(E|B)=P(E),这样就把P(E|B)简化成了P(E)。直接取决于他们是否另外,John(J)和Mary(M)是否打听到警铃(A)。所以可以假设给定A时,J与B和E,以及M与J、B和E都相互独立,即P(J|B,E,A)=P(J|A)和P(M|B,E,A,J)=P(M|A),将这些独立假设放在一起,得:P(B,E,A,J,M)=P(B)P(E)P(A|B,E)P(J|A)P(M|A)这样就把联合分布P(B,E,A,J,M)分解成了若干个复杂度较低的概率分布的乘积。上式右端的5个概率分布仅包含

1+1+4+2+2=10个独立参数,相对于联合分布所需要的31个独立参数来说,模型的复杂度得到了降低。3.3解决方案n更一般地,考虑一个包含

n

个变量的联合分布P(X1

,X

2

,,Xn

)。利用链规则,可以把它写为:P(

X

1

,

X

2,,

X

n

)

P(

X

1

)P(

X

2

|

X

1

)

P(

X

n

|

X

1

,

X

2

,,

X

n1

)

P(

X

i

|

X

1

,

X

2,,

X

i1

)i1对于任意

Xi

,如果存在

(Xi

){X1

,X

2

,,Xi1},使得给定

(Xi

),X

i

与{X1,X

2

,,Xi1}中其它变量条件独立,即

P(Xi

|

X1

,X

2

,,Xi1

)

P(Xi

|

(Xi

))n那么有

P(X1

,X

2

,,Xn

)

P(Xi

|

(Xi

))i1这样,就得到了联合分布的一个分解。其中当

(Xi

)

时,P(Xi

|

(Xi

)为边缘分布P(Xi

).3.3解决方案M

A

P(M|A)yy0.9ny0.1yn0.05nn0.95B

P(

B)

y

0.01n

0.99E

P(E)

y

0.02n

0.98J

A

P(J|A)y

y

0.7n

y

0.3y

n

0.01n

n

0.99BEAMJA

B

E

P(J|A)y

y y

0.95n

y y

0.05y

y n

0.94n

y n

0.06yny0.29nny0.71ynn0.001nnn0.999量,节点间的边代表变量Alarm

贝叶斯网:联合分布分解的有向图表达贝叶斯网是一个有向无圈,其 点代表随之间的直接依赖关系。每个节点都附有一个概率分布,根节点X

所附有的是它的边缘分布P(X

),而非根节点X

所附的是条件概率分布P(X

|

(X

))。贝叶斯网的引入为概率推理提供了很大的方便。一方面贝叶斯网是严格的数学语言,适合计算机处理;另一方面,它又直观易懂,方便人们交流和建立模型。3.4贝叶斯网与概率推理推理(inference)是通过计算回答查询(query)的过程。贝叶斯网中的推理问题有三大类:后验概率问题最大后验假设问题(MAP)最大可能解释问题(MPE)3.4贝叶斯网与概率推理后验概率问题后验概率问题指的是已知贝叶斯网中某些变量的取值,计算另外一些变量的后验概率分布问题。从结果到原因的

推理(diagnosticinference)从原因到结果的

推理(predictive

inference)在同一结果的不同原因之间的原因关联推理(intercausal

inference)混合推理(mixed

inference)4.贝叶斯网络涉及到的问题问题与如何获得贝叶斯网络中的参数?如何构造贝叶斯网络?4.3图分隔与变量独立贝叶斯网是概率论与图论相结合的产物。在一个贝叶斯网中,一方面可以从概率论的角度谈论变量之间的依赖与独立,另一方面也可以从图论的角度谈论节点之间的连通与分隔。4.3图分隔与变量独立BEAMJ两变量X和Y如果直接相连,则表示它们之间有直接依赖关系,对X的了解会影响关于Y的信度,反之亦然。如果X和Y不直接相连,那么信息需要通过其它变量才能在两者之间传递。4.3图分隔与变量独立考虑两个变量X

和Y

通过第3

个变量Z

间接相连这一基本情况。它又分为3

个子情况:顺连、分连、及汇连。顺连(serial

connection)如下图(a)所示,这里若Z

未知,则对X

的了解会影响关于Z

的信度,进而影响关于Y

的信度;反之亦然。另一方面,若Z的取值已知,则对X

的了解就不会影响关于Z

的信度,从而也不会影响关于Y

的信度;反之亦然。所以,此时X

和Y

之间的信息通道被阻塞,信息无法在两者之间传递,X

和Y

相互条件独立。分连(diverging

connection)如下图(b)所示。它与顺连的情况相似:当未知Z时,信息可以在X

和Y

之间传递,它们相互关联;而当Z

已知时,信息不能在X

和Y

之间传递,因而它们相互独立。汇连(converging

connection)结构如下图(c)所示。在未知Z

时,X

和Y

相互独立;而在已知Z

时,X和Y

却相互关联。两个变量X

和Y

通过第3

个变量Z

间接相连的3

种情况(a)顺连X

XZZYYXZYXZY(b)分连(c)汇连4.3图分隔与变量独立考虑两个变量X

和Y

通过第3

个变量Z

间接相连这一基本情况。它又分为3

个子情况:顺连、分连、及汇连。顺连(serial

connection)如下图(a)所示,这里若Z

未知,则对X

的了解会影响关于Z

的信度,进而影响关于Y

的信度;反之亦然。另一方面,若Z的取值已知,则对X

的了解就不会影响关于Z

的信度,从而也不会影响关于Y

的信度;反之亦然。所以,此时X

和Y

之间的信息通道被阻塞,信息无法在两者之间传递,X

和Y

相互条件独立。分连(diverging

connection)如下图(b)所示。它与顺连的情况相似:当未知Z时,信息可以在X

和Y

之间传递,它们相互关联;而当Z

已知时,信息不能在X

和Y

之间传递,因而它们相互独立。汇连(converging

connection)结构如下图(c)所示。在未知Z

时,X

和Y

相互独立;而在已知Z

时,X和Y

却相互关联。两个变量X

和Y

通过第3

个变量Z

间接相连的3

种情况(a)顺连X

XZZYYXZYXZY(b)分连(c)汇连设Z为一节点集合,X

和Y

是不在

Z中的两个节点。考虑X和Y

之间的一条通路

。如果满足下面条件之一,则称

被Z

所阻塞:

上有一个在

Z

中的顺连节点;

上有一个在

Z

中的分连节点;

上有一个汇连节点

W,它和它的后代节点均不在

Z

中;X

和Y

之间的通路被

Z阻塞的

3

种情况如果

X

Y

之间的所有通路都被

Z

阻塞,那么

就说

Z有向分隔(directed

separate)X

Y,简称

d-分隔(d-separate)X

和Y。如果

Z

d-分隔

X

和Y,那么

X

和Y

在给定

Z

时条件独立。ZZ(a)顺连节点

z

ZXZYXZYXWY(b)分连节点z

Z(c)汇连节点W

及其后代均不在Z

内ZAB4.3图分隔与变量独立4.4因果关系与贝叶斯网络在实际应用中,人们往往利用因果关系来确定贝叶斯网络的结构。在利用因果关系建立起来的贝叶斯网中,变量间的边表示的是因果关系,而非简单的概率依赖关联。这样的贝叶斯网称为贝叶斯因果网(Bayesian

causal

networks),简称因果网(causal

networks)。在贝叶斯因果网上除了可以进行概率推理外,还可以进行关于干预

(effects

ofintervention)的推理以及虚设(counter

factual)推理(Pearl,2000)如果假设制造一次 ,则会认为警铃可能会响;反过来,如果知道有人弄响警铃,则不会认为将发生

。因此,是警铃响的原因,反之不然。5.贝叶斯网的应用贝叶斯网成为许多研究领域的常用工具。机器学习、统计学、系统工程以及模式识别中的许多模型都是贝叶斯网的特例。与专业相关的医疗

、生物信息学、金融分析、生态学、农牧业、编码学等等。5.1贝叶斯网应用于计算机程序理解(program

understading)(Breese

andBlake,1995;Burnell

and

Horvitz,1995)测试(software

testing)(Ziv

and

Richardson,1997)•邮件过滤(junk filtering)(Sahami

et

al.,1998)计算机系统故障

(trouble

shooting)(Heckermanetal.,1995;

Jensen

etal.,2001)决策系统信息显示(information

display)(Horvitz

andBarry,1995)信息提取(information

retrieval)(Fung

andFavero,1995;

Wong

and

Butz,2000;Ruokangas

andMengshoel,2003;Blei

et

al.

,2003)用户特征提取(user

profiling)(Hovitzetal.,1998;Schiaffino

and

Amandi,2000)5.1贝叶斯网应用于计算机微软

在这方面投入了相当大的力量,开发了一系列嵌入Windows和Office等系统的贝叶斯

网,如Windows中的 故障程序,Office中的用户帮手,以及Outlook中的

邮件过滤器等。5.1贝叶斯网应用于计算机用于故障的贝叶斯网局部打印颜色过浅问题F3AQ1A2A1打印驱动故障4F数据出错墨盒故障措施墨粉不匀故障F12FF3摇晃、重置墨盒换墨盒重启电源用户反馈测试页颜色太浅?5.2贝叶斯网用于故障燃油指示失灵启动器失灵电池没电电池使用时间电池报废发电机报废皮带断开没有充电无润滑油照明大灯无燃油润滑油指示灯燃油指示灯用于汽车启动故障 的贝叶斯网引机无法启动故障的目的是找出导致一个控制系统失灵的故障部件。从图中可以看到,可能导致汽车无法启动的原因有多个,故障就是根据观测到的进行概率推理,找出后验概率最大的那个原因。5.3动态贝叶斯网络一个动态贝叶斯网可以定义为(0,

),其中

0是一个标准贝叶斯网,定义了初始时刻的概率分布

P(Z0

),

是一个包含两个时间片的贝叶斯网,定义了两个相邻时间片的各变量之间Nt t

1

i1的条件分布,即

P(Z

|

Z

)

ititP(Z

|

(Z

))。it其中

Z

是位于时间

t

时的节点iti

(Z

)it是

Z

的父节点。

中前一个时间片中的结点可以不ititit给出参数,第二个时间片中每个节点都有一个条件概率分布

P(Z

|

(Z

)),

t

0

。节点

Z

的父it节点

(Z

)可以在同一时间片内,也可以 一时间片内。位于同一时间片内的边可以理解为瞬时作用,而 时间片的边可以理解为时变作用,反映了时间的流逝。(a)

0

:初始化分布

P(Z

0

)

(b)

:

条件分布

P(Zt

|

Zt

1

)动态贝叶斯网示例:每个时间片包含3

个节点A0B0C0t

1At

1Bt

1CtAtBtC5.3动态贝叶斯网络动态贝叶斯网络包含了两个假设:一阶马尔可夫假设,即各节点之间的边或者位于同一时间片内,或者位于相邻时间片之间,不能时齐性或齐次性,即

中的参数不随时间变化。根据初始分布和相邻时间片之间的条件分布,可以将动态贝叶斯网展开到第T

个时间片,结果得到一个T

Nt

0

i1itit0:TPZ

(()|(PZZ))。动态贝叶斯网的特例,即隐马尔可夫模型和卡尔曼滤波器。5.3动态贝叶斯网络其它参考文献陈景年《选择性贝叶斯分类算法研究》

交通大学2008.5

博士董立岩《贝叶斯应用基础研究》吉林大学2007.5

博士古平《基于贝叶斯模型的文档分类及相关技术研究》2006.9

博士李旭升《贝叶斯网络分类模型研究及其在信用评估中的应用》西南交通大学2006.6博士2005.4

博士黄友平《贝叶斯网络研究》中国科学 计算技术•朱慧明《现代经济管理中的线性贝叶斯推断理论与多总体贝叶斯分类识别方法研究》2003.1博士高妍方《贝叶斯网络的代价敏感结构学习》2009.2

第2期吴宁《一种应用关联规则森林的改进贝叶斯分类算法》2009.2西安交通大学学报43卷2期王学玲《基于新的属性依赖的TAN分类器》计算机与数字工程2008年11期王学玲《基于有向树算法构造的TAN分类器》2008.7计算机工程与设计29卷13期••徐光美《基于互信息的多关系朴素贝叶斯分类器》2008.8•科技大学学报30卷8期学学报(自然科学版)张明卫

《基于相关系数的 朴素贝叶斯分类算法》2008.7

东29卷7期石洪波《一种限定性的双层贝叶斯分类模型》 学报2004,15(2)柳征《一种新的贝叶斯调制分类算法》2006.7

电子与信息学报28卷7期余芳《一种基于朴素贝叶斯分类的特征选择方法》2004,9中山大学学报43卷5期••黄捷《一种新的正态分布实例的贝叶斯分类算法》2001.12

华南理工大学学报(自然科学版)贝叶斯网的创新点1.属性 算法自适应属性 (类内距离最小,类间距离最大,Fish准则)最小化互信息量属性2.朴素贝叶斯分类器与盲元分离的结合首先对数据进行PCA变换再朴素贝叶斯首先对数据进行ICA变换再朴素贝叶斯

ICA独立成分分析,分布独立假设3.对不平衡数据集的应用贝叶斯偏

大类的偏向,小类上会被忽略训练集与测试集(工作集)分布不同时的应用不同分布的先验信息的应用4.利用贝叶斯增量学习的特点,

学习建模机器学习有两种模式,即顺序学习和批量学习。顺序学习(sequential

learing)指一个一个地处理数据样本,没处理一个样本

就更新一次参数,而且更新是在当前参数值的基础上进行的。批量

学习(batchlearing)则指同时处理所有数据,

得到参数估计。在处理完当前数据之后的一段时间内,如果有新的数据出现,就把

新老数据混合在一起,重新进行参数估计,这个过程完全不依赖于

以前的估计。贝叶斯估计既可以用于顺序学习,又可以用于批量学习,而最大似然估计只能用于批量学习。顺序学

线学习)节省内存

特殊应用场合(如没有先验知识但带有反馈、动态自适应分类器)5.利用关联规则对朴素贝叶斯改进6.半监督学习人的模式识别过程具有极强的学习能力,通过学习,人不仅能学会归类(识别),而且能创造新的类别(认知)。可以说,识别(Recognition)就是再认知(Re-Conition),研究相似与分类这样的认知基本问题,有助于更深入地理解模式识别。将分类与聚类相互结合,已有类别和先验样本知识,自适应的产生新的类别(特殊应用情形)贝叶斯网的创新点4.1条件独立考虑3

个事件A,B

和C,假定P(C)>0

。P(

A

B

|

C)

P(

A

|

C)P(B

|

C)

,称事件A

与B

在给定C

时相互条件独立,如果有下式成立:。当P(B

C)

0

时,可得

P(A

|

C)

P(A

|

B

C)。事件

A

和B

在给定

C

时相互条件独立的直观意义是:在已知事件

C

发生的前提下,对事件

B

是否发生的了解不会改变对事件

A发生的信度;同样,对事件

A

是否发生的了解也不影响对事件

B发生的信度。考虑

3

个随 量

X,Y

Z,设

P(Z=z)>0,

z

Z

X

Y

在给定

Z

时相互条件独立,记为X

Y

|

Z

。如果下式成立P(X

,Y

|

Z

)

P(X

|

Z

)P(Y

|

Z

)。设y

和z

分别是

Y

和Z

的任意取值,P(Y

y,Z

z)

0

,可得:

((),|

||

P)z。X

Y

|

Z

的直观含义是:在已知

Z

的前提下,对

Y

的取值的了解不影响

X

的概率(信度)分布。注意,这并不意味着在未知

Z

的取值时,X

和Y

相互独立。Y=y

有可能含有关于

X

的信息,只是所有这样的信息也都包含于

Z=z中,所以当已知

Z=z

时,进一步了解到

Y=y

并不增加关于

X

的信息。4.1条件独立,条件独立示意:给出硬币类型,各投掷结果相互独立……X

1X

2X

n例:设有一装有两种硬币的口袋,其中一些是均匀硬币,掷出正面朝上的概率为0.5;另一些为非均匀硬币,掷出正面朝上的概率为

0.8。现从袋中随机取出一枚硬币,投掷若干次。令X

i

表示第i次抛掷硬币的结果,Y

表示该硬币是否均匀。这里,

Xi

X

j

(i

j)

之间不是相互(边缘)独立的,因为如果掷了

10次硬币,其中

9次都是正面朝上那么有理由相信这枚硬币是不均匀的,从而增大了下一次掷出正面朝上的信度。所以X

i

的值给了 关于这枚硬币的一些信息,它有助于 继续判断

X

j

的值。另一方面,如果已经知道了

Y

的值,例如该硬币是不均匀的,那么不管前面的结果如何,以后每次掷硬币的结果为正面的概率都是

0.8 不能从前面的实验得到什么信息。所以给定

Y

的值后,Xi与X

j

(i

j)

之间就是相互条件独立的。变量Y

切断了变量

Xi

与变量

X

j

之间的“信息通道”。硬币类型Y结果1结果2结果n4.1条件独立命题:考虑

3

个随 量

X,Y

Z,设

P(Z)>0,下列条件相互等价:(1)

P(X,Y|Z)=P(X|Z)P(Y|Z);(2)

P(X|Y,Z)=P(X|Z),当P(Y|Z)>0;P(X,Y|Z)=f(X,Z)g(Y,Z),f

和g

均为函数;P(X|Y,Z)=f(X,Z),f

为一函数,当P(Y,Z)>0;P(X,Y,Z)=P(X|Z)P(Y|Z)P(Z)

;P(X,Y,Z)=P(X,Z)P(Y,Z)/P(Z)

;P(X,Y,Z)=f(X,Z)g(Y,Z),f和g

均为函数。4.2熵(信息论)一个离散型随量X

的熵H(X)的定义为:X

XP(

X

)H

(

X

)

P(

X

)

log

1

P(

X

)

log

P(

X

)1其中约定

0

log

0

。对数若以

2

为底,则熵的单位是比特;若以

e

为底,则其单位是奈特。0量X

的熵越大,说明它的不确定性也越大。熵是对随

量不确定的度量。随熵的基本性质(1)

H

(

X

)

0

;(2)

H

(X

)

log

|

X

|,等号成立当且仅当对X

的所有取值x

有P(X

x)|

X

|1。联合熵是借助联合概率分布对熵的自然推广。两个离散型随

X

Y

的联合熵的定义为:X

,Y X

,YP(

X

,Y

)H(X,

Y)=

P(

X

,Y

)

log

1

P(

X

,Y

)

log

P(

X

,Y

)XP(

X

|

Y

y)条件熵是利用条件概率分布对熵的一个延伸。随果知道另一个随给定Y=y

时X

的条件熵为H

(X

|

Y

y)

P(X

|

Y

y)log

1

。熵H(X)度量的是随定性。4.2熵(信息论)Y

YXy

yP(

X

|

Y

y)当y

变化时,H

(X

|

Y

y)也会发生改变。由于知道Y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论