《模式识别原理与应用》课件第10章

上传人：1*** IP属地：广东上传时间：2024-09-07 格式：PPT 页数：150 大小：1009KB 积分：15 举报 版权申诉

已阅读5页，还剩145页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第10章多分类器融合10.1

多分类器融合的基本原理10.2多数投票法和BKS方法10.3基于Bayes理论的多分类器融合10.4基于证据理论的多分类器融合10.5基于神经网络的多分类器融合10.6基于模糊积分的多分类器融合10.7基于决策模板的多分类器融合习题10.1.1多分类器融合的必要性模式识别最终的目标是得到尽可能好的识别性能。为了实现这一目标,传统的做法是设计不同的分类方案,再根据实验结果,选择一个最好的分类器作为最终的解决方法。过去十多年中,对分类器研究的焦点从单个分类器的研究转移到多分类器系统的研究。10.1多分类器融合的基本原理多分类器融合的必要性包括以下两个方面:

(1)在模式识别中,分类的方法有很多,这些算法是基于不同的理论框架提出来的。分类器包括Bayes分类器、KNN分类器、各种距离分类器、模糊分类器、神经网络分类器、句法分类器等。每种分类器各有优点,对于特定的应用问题,都能够取得一定的成功,但是,没有一种方法适应所有的应用需求,或达到期望的效果。人们从大量的实验和应用中发现,不同的分类器对于分类模式具有互补的信息,可以利用这种互补信息来提高识别性能,例如,更高的识别率和更低的错误率。因此,需要集成不同分类器的结果,以获得较好的分类效果。

(2)对于某些复杂的识别问题,输入的特征变量较多。这些特征变量具有不同类型、不同表现形式或不同量级。对于不同类型的特征变量,需要根据不同的理论和方法来设计分类器。对于不同表现形式和不同物理含义的特征变量,进行归一化处理非常困难,难以用一个分类器来处理。此外,当输入特征向量的维数较大时,分类器的结构将非常复杂,这增加了计算复杂度,由于有限的学习样本,分类器的性能也较差。因此,利用信息融合的思想,可将设计一个性能优良的高维输入分类器问题转化成多个性能较优的低维输入分类器的设计问题,运用多分类器融合技术,为高维特征空间的划分和高可靠性分类器的设计提供一个新的思路。10.1.2多分类器融合的体系结构

多分类器融合常见的结构有三种:并行结构、串行结构、串并行结构。如图10-1所示,在并行结构中,各分类器是独立进行设计的,它们之间没有关联。图10-1多分类器集成的并行结构如图10-2所示,在串行结构中,前一级分类器为后一级分类器提供信息,它们之间有一定的关联。图10-2多分类器集成的串行结构如图10-3所示,串并行结构是串行结构中某一级的分类器由多个并行结构的分类器组成,从而结合并行结构和串行结构的优点。图10-3多分类器集成的串并行结构正如图10-4中的灰线和椭圆所示,各多分类器融合系统的不同之处体现在如下几个方面:

(1)使用的分类器数量L。

(2)单个分类器的类型。一些组合策略使用相同类型的分类器进行融合,如神经网络、线性分类器、最近邻分类器,而其他一些组合策略使用不同的分类器集合。

(3)单个分类器使用的特征子集(在图10-4中用灰色椭圆表示)。

(4)分类器决策的组合方法。例如多数投票法、贝叶斯法、BKS方法、简单组合方法(如平均、相乘、最小、最大)、模糊积分法、线性组合法、神经网络法、D-S证据理论法等。(5)不同分类器使用的训练集。

(6)两级结构的训练类型。主要有训练多个独立的分类器,直接进行融合;先训练多个独立的分类器,再训练一个融合器;同时训练整个两级架构。通常根据分类准确度来选择单个分类器(准确度越高越好)。当整个结构作为一个整体来训练时,单个分类器的参数将随融合策略的不同而发生变化。图10-4多分类器融合系统10.1.3多分类器融合的分类

1.分类器输出信息的3个级别给定模式空间S,由M个互不相交的模式类集合ω1,ω2,…,ωM组成,即S=ω1∪ω2∪…∪ωM,ωi∩ωj=

(i≠j;i,j=1,2,…,M),模式识别就是把给定的模式x划分到ω1,ω2,…,ωM中的一个。设e为一分类器,令Λ={1,2,…,M}。对于输入样本(模式)x∈S,e(x)=j表示分类器e把x划分到类ωj中。其中,j∈Λ∪{M+1},j为模式类集合ωj的类别号(标签)。这里引入拒识,e(x)=M+1表示分类器e拒识x,即不能判断x的类别。一般地,分类器能够提供的信息可分为三个级别:

(1)抽象级:分类器e只输出唯一的标签j,或一个子集。

(2)排序级:分类器e把Λ(或子集)中的标签按照某种规则排列成一个序列,排在首位的是第一选择。

(3)度量级:分类器e给每一个标签分配一个度量值,用以表示输入样本x属于相应类的程度。在上述三个级别中,度量级包含的信息最多,抽象级信息最少。根据属于某个标签的度量值,按照某种排序规则,我们可以把Λ中标签排成一个序列(递增或递减)。通过选择排在首位的标签,或直接在度量级选择具有最大值或最小值的标签,分配给输入样本x,从而为x指定唯一的标签。换句话说,从度量级到抽象级是一个信息减少的过程或抽象的过程。许多分类器能够提供度量级信息,例如,Bayes分类器提供后验概率P(ωj|x),j=1,2,…,M;距离分类器提供输入样本x与每类的原型样本之间的距离;模糊分类器中的隶属度,等等。度量级的处理是许多分类器的中间步骤。但是,有些分类器只能提供抽象级输出,例如,句法分类器。

2.分类器融合的类型根据各分类器提供的信息的级别,多分类器融合可以分为以下三种类型:

(1)决策层融合,即单个分类器输出为某个确定的类别号。假设R个分类器e1,e2,…,eR对同一输入样本(模式)x进行分类,事件ek(x)=jk表示分类器ek把x划分到类ωjk中,其中,jk∈Λ∪{M+1},ek(x)=M+1表示分类器ek拒识x,k=1,2,…,R。决策层融合就是利用这些事件构造一个集成的分类器e对x进行分类,输出一个确定的类别号,即e(x)=j,j∈Λ∪{M+1}。

(2)排序层融合,即单个分类器输出为样本属于各类的可能性的一个排序列表。对于输入x,每个分类器ek(x)产生一个子集Lk

Λ,且Lk中标签排成一个序列。排序层融合就是利用事件ek(x)=Lk,k=1,2,…,R,构造一个集成的分类器e,对x进行分类,输出一个确定的类别号,即e(x)=j,

j∈Λ∪{M+1}。

(3)度量层融合,即单个分类器输出为样本属于相应类的程度。对于输入x,每个分类器ek(x)产生一个度量向量Me(k)=(mk(1),mk(2),…,mk(M))T,其中,mk(i)表示x属于相应类ωi的程度。度量层融合就是利用事件ek(x)=Me(k),k=1,2,…,R,构造一个集成的分类器e,对x进行分类,输出一个确定的类别号,即e(x)=j,j∈Λ∪{M+1}。这三类方法覆盖了不同的应用范围,所利用的分类器输出信息量依次增多,相应地,也可能得到更好的结果。在决策层融合中,各个分类器在理论与方法上可以相差很大,例如,有些分类器是基于统计的方法,而另一些方法是基于句法的方法。事实上,不是每种分类器都可以输出排序列表或隶属程度,但是,任何分类器至少可以输出抽象级信息,从而决策层融合可以适用于所有的模式识别领域。所以,决策层的融合成为应用最广泛,也是研究较早和较充分的一类融合方法。具有代表性的几种决策层融合方法包括多数投票法、BKS方法、Bayes规则和证据理论方法等。在度量层融合中,融合操作只能在相同量级的度量信息上进行,从而要求所有的分类器输出度量级信息。此外,不同种类的度量向量应该能够被转换成一种相同的度量向量。具有代表性的几种度量层融合方法包括Bayes方法、证据理论方法、模糊积分方法和神经网络方法等。排序层融合位于决策层融合与度量层融合之间,它要求所有的分类器输出排序级信息。在排序层融合中,分类器不能是纯句法分类器,它只能输出抽象级信息。任何输出度量级信息的分类器都可以参与排序层融合,因为从度量向量Me(k)可以产生一个排序列表。10.2多数投票法和BKS方法

多数投票法和BKS方法是简单、有效的多分类器集成方法,本节简要讨论这两种方法。10.2.1多数投票法假设R个分类器e1,e2,…,eR对同一输入样本(模式)x进行分类。定义示性函数:(10-1)则最保守的投票规则为(10-2)也就是说,集成的分类器e把x划分到类ωj,当且仅当所有R个分类器同时把x划分到类ωj中,否则拒识x。多数投票准则为(10-3)更一般的形式为(10-4)其中,0<α≤1。若取α=1,则式(10-4)变成式(10-2);若取α=0.5+ε,ε为很小的正数,则式(10-4)变成式(10-3)。因此,式(10-2)与式(10-3)是式(10-4)的特例。事实上,式(10-4)仅考虑了得票最多的类别号,并且所得票数要足够多。但是,可能出现得票最多的类别号有多个,或者得票第一多与第二多的票数相差很小。这时,式(10-4)的决策可能不可靠。进一步修正式(10-4),得到新的多数投票准则:(其他)(10-5)基于投票准则的多分类器集成是决策层融合的一般形式,也就是说,决策层融合是基于投票准则的,或者是投票准则的变形或改进。多数投票法存在如下问题:

(1)所有的分类器都是平等的,都作为一票,没有考虑不同分类器的性能差异。

(2)投票准则是抽象级信息的集成,单一分类器的输出信息采用硬分类,即要么认为输入模式属于某一类,要么拒识。但是,大部分分类器的输出信息是度量级的,从而在集成的过程中,抛弃了很多有用的信息。

(3)对于每个分类器,都需要确定一些门限值,这些值的确定还没有理论指导。10.2.2BKS方法

BKS方法又称为性能知识空间法,穷举各个分类器对训练样本集合的识别结果的各种组合,然后统计各种决策组合对应的样本,找出其中占主导地位的类别,作为多分类器融合的输出。一个性能知识空间(BKS)是一个R维空间,其中,每一维代表一个分类器的判决结果。每一个分类器有M+1种可能的决策{1,2,…,M+1},各个分类器的决策联合形成BKS的一个单元,称之为局部单元。一个二维的BKS空间如表10-1所示。表10-1二维BKS空间

1…j…M+1１(1,1)…(1,j)…(1,M+1)i(i,1)(i,j)M+1(M+1,1)…(M+1,j)…(M+1,M+1)利用R个分类器对所有的训练样本进行分类,统计各分类决策组合对应的样本,并归入相应的局部单元中。引入记号:BKS的一个单元BKS(e(1),…,e(R)):第一个分类器给出了决策e(1),第二个分类器给出了决策e(2),…,第R个分类器给出了决策e(R)等;

N(e(1),…,e(R))(m):在BKS(e(1),…,e(R))中属于类别m的训练样本总数;

T(e(1),…,e(R)):在BKS(e(1),…,e(R))中的训练样本总数,即(10-6)Γ(e(1),…,e(R)):在BKS(e(1),…,e(R))中占主导地位的类别,即Γ(e(1),…,e(k))=j,满足(10-7)对于输入样本x,各分类器决策为e(1),…,e(R),则多分类器融合为(10-8)这里λ是一个门限值(0≤λ≤1),用于控制最终决策的可靠性。10.3基于Bayes理论的多分类器融合本节讨论基于Bayes理论的多分类器融合,包括合成规则和合成方法。10.3.1基于Bayes理论的多分类器合成规则假设有R个分类器,对于给定的模式x,每个分类器把模式x表示为相应的特征(或度量)向量。不妨用xi表示第i个分类器ei输出的特征向量。类别ωk的先验概率为P(ωk),在模式x属于类别ωk为真的条件下,特征向量xi的概率密度函数为p(xi|ωk)

(i=1,2,…,R;k=1,2,…,M)。根据最大后验概率准则,给定特征向量xi(i=1,2,…,R),模式x应该划分到具有最大后验概率的类别ωj中,即如果(10-9)则(10-10)式（10-9）和（10-10）表明，为了利用所有可能的信息进行决策，必须根据所有的特征向量计算各种假设的后验概率。由Bayes公式，式（10-9）中的后验概率可以写成(10-11)其中:p(x1,x2,…,xR)为x1,x2,…,

xR的联合(无条件)概率密度;p(x1,x2,…,xR|ωk)为在模式

x属于类别ωk为真的条件下特征向量x1,x2,…,xR的联合概率密度。一般地,联合概率密度p(x1,x2,…,xR|ωk)较难得到。下面将利用每个分类器的信息来简化式(10-11),并得到实用的融合策略。

1.积规则假设在模式x属于类别ωk(k=1,2,…,M)为真的条件下,特征向量x1,x2,…,xR是相互独立的,即(10-12)把式（10-12）代入式（10-11），可得(10-13)把式(10-13)代入式(10-9),则得到判决规则:如果(10-14)则(10-15)考虑到(10-16)把式（10-16）代入式（10-14），利用各分类器的后验概率，得到判决规则：如果(10-17)则(10-18)式(10-17)和式(10-18)给出的判决规则称为积规则。积规则组合各分类器的后验概率,量化了假设的似然度。

2.和规则在式(10-17)中,进一步把后验概率P(ωj|xi)表示为(10-19)其中，δki<<1。把式(10-19)代入式(10-17)中,有(10-20)展开，并忽略二次和高阶项，则(10-21)把式(10-19)和式(10-21)代入式(10-17)中,可得判决规则:如果(10-22)(10-23)则x∈ωj式(10-22)和式(10-23)给出的判决规则称为和规则。在式(10-17)与式(10-22)中,考虑如下关系式:(10-24)式(10-24)表明,积规则与和规则可以用上述的上界或下界来近似。此外,各分类器根据后验概率P(ωk|xi)产生的硬决策,用二元函数Δki表示为(10-25)

3.极大规则在式(10-22)中,用后验概率的极大值代替后验概率的和,可得判决规则:如果(10-26)则进一步,若先验概率P(ωk)相等,那么上述判决规则可简化为如果(10-28)x∈ωj(10-29)则式(10-26)与式(10-27)或式(10-28)与式(10-29)给出的判决规则称为极大规则。

4.极小规则在式(10-17)中,用后验概率的极小值代替后验概率的积,可得判决规则:如果(10-30)则x∈ωj(10-31)进一步,若先验概率P(ωk)相等,那么上述判决规则简化为如果(10-32)则x∈ωj(10-33)式(10-30)与式(10-31)或式(10-32)与式(10-33)给出的判决规则称为极小规则。

5.中值规则在式(10-22)中,若先验概率P(ωk)相等,可得判决规则:如果(10-34)则x∈ωj(10-35)上述判决规则取后验概率平均值的最大者。事实上,均值的一个稳健估计是中值,因此,采用中值代替均值,可得判决规则:如果(10-36)则x∈ωj(10-37)式(10-36)和式(10-37)给出的判决规则称为中值规则。

6.多数投票规则在式(10-22)中,若先验概率P(ωk)相等,结合式(10-25)中的硬决策,可得判决规则:如果(10-38)则x∈ωj(10-39)式(10-38)和式(10-39)给出的判决规则称为多数投票规则。事实上,式(10-38)的右边仅仅计算各个类别从所有分类器中得到的票数,得票最多的胜出10.3.2基于Bayes理论的多分类器合成方法

1.混淆矩阵、先验知识和置信度在多数投票规则中,每个分类器的判决结果都同等地看成一票,而没有考虑到各分类器性能的差异以及分类器本身的误差。分类器ek的误差可以用混淆矩阵来描述:(k=1,2,…,R)

(10-40)其中,第i行对应于第i类ωi,第j列对应于事件ek(x)=j。元素n(k)ij表示ωi中n(k)ij个样本被ek识别属于ωj。对于训练好的分类器ek,混淆矩阵PTk可以通过对测试样本集的分类来获得,该测试样本集能够反映模式空间的分布。由混淆矩阵PTk的定义,可知分类器ek的测试样本集中样本的总数为(10-41)ωi中的样本数为(i=1,2,…,M)(10-42)被ek识别属于ωj中的样本数为(i=1,2,…,M+1)(10-43)由于分类器ek本身存在识别误差,因此,事件ek(x)=j的真相(即模式x确实来自类ωj)存在不确定性。利用混淆矩阵PTk,这种不确定性可以用条件概率来表示,即在事件ek(x)=j

发生的条件下,x∈ωi(i=1,2,…,M)的概率为(i=1,2,…,M)(10-44)另一方面,混淆矩阵可以看成是一个专家的先验知识,当事件ek(x)=jk发生时,专家用置信度Bel(·)来表示对M个互不相容的命题x∈ωi(i=1,2,…,M)的不确定性的度量。命题的置信度Bel(·)越高,该命题为真的可能性越大。利用混淆矩阵PTk,置信度Bel(·)可以采用如式(10-44)所示的条件概率:(i=1,2,…,M)(10-45)对于10.3.1节6个融合规则,设xk为模式x在第k个分类器ek中的特征向量,那么,P(x∈ωi|ek(x)=jk)还可以用来估计后验概率P(ωi|xk)。此外,先验概率P(ωi)的估计为(i=1,2,…,M)(10-46)

2.置信度合成假设与R个分类器e1,e2,…,eR对应的R个混淆矩阵分别为PT1,PT2,…,PTR。对于输入模式x,

R个分类器的分类结果分别为ek(x)=jk,k=1,2,…,R。此时,x∈ωi的置信度为(10-47)进一步,假设R个分类器e1,e2,…,eR相互独立,由Bayes公式可得(10-48)利用式(10-44)和式(10-46)可以估计出Bel(i)。在实际应用中,可以用下式来估计Bel(i):(10-49)其中,η为一常数,保证,即(10-50)最后,根据置信度得到融合的判决规则:如果(10-51)则x∈ωj(10-52)进一步,为了提高系统的识别率,引入拒识,上述判决规则修改为如果(10-53)则x∈ωj(10-54)否则x∈ωM+1(10-55)其中,α为一门限值。10.4基于证据理论的多分类器融合作为信息融合的主要技术之一,证据理论已经成功地应用到多分类器融合,其关键在于证据模型的构造与判别决策的确定。本节主要讨论基于证据理论的多分类器融合,包括度量层的多分类器融合和决策层的多分类器融合。10.4.1证据理论基础证据理论(EvidenceTheory)是由Dempster在1967年最初提出的,他用多值映射得出了概率的上、下界,后来由Shafer在1976年推广并且形成证据推理,因此又称为D-S证据理论。类似于贝叶斯推理方法,D-S证据理论用先验概率赋值函数来获得后验的证据区间,证据区间量化了命题的可信程度和似然率。D-S证据理论比传统的概率论能更好地把握问题的未知性与不确定性,这便是D-S证据理论的优点所在。

1.辨识框架证据推理是建立在一个非空集合Θ上的理论。Θ称为辨识框架(FrameofDiscernment),它由一些互斥且穷举的元素组成。Θ表示人们对于一判决问题所能认识到的所有可能的结果(假设)的集合,从而,人们所关心的任一命题都对应于Θ的一个子集。为简单起见,本书所讨论的Θ都假定为有限集,即(10-56)Θ包含N个互斥且穷举的假设。在模式识别中,把给定的模式划分到M个互不相交的模式类集合ω1,ω2,…,ωM中,此时,辨识框架为{ω1,ω2,…,ωM}。利用辨识框架,将命题和子集对应起来,可以把比较抽象的逻辑概念转化为比较直观的集合论概念。例如,两个命题的析取、合取和蕴含分别对应于集合的并、交和包含,命题的否定对应于集合的补集。一般地,Θ的选取依赖于人们的知识、认识水平以及所知道的和想要知道的。而且,当一个命题对应于该框架的一个子集时,称为该框架能够识别该命题。另外,Θ的选取也应足够丰富,使任何命题都能够对应于Θ的一个子集合。

2.基本概率赋值函数、信任函数、似真函数与共性函数

Shafer利用辨识框架建立了证据处理模型,其基本思想如下:

(1)确立辨识框架Θ。利用集合论方法来研究命题。

(2)建立初始信任度分配。对证据加以分析,确定出证据对每一集合(命题)A本身的支持程度。由于缺乏进一步的信息,该支持程度不能再细分给A的真子集。

(3)计算所有命题的信任度。一般地,如果证据支持一个命题,那么它也应该同样支持该命题的推论。因此,根据因果关系,一个命题的信任度等于证据对它的所有前提本身的支持程度(初始信任度)之和。在证据理论中,初始信任度分配用基本概率赋值函数(BasicProbabilityAssignment,BPA)来表达,每个命题的信任度用信任函数(BeliefFunction)来表达。有的文献称基本概率赋值函数为基本信任分配(BasicBeliefAssignment,BBA)函数。定义10.1

问题域中任意命题A都应属于幂集2Θ。在2Θ上定义基本概率赋值函数m:2Θ→［0,1］,m满足(10-57)(10-58)其中,m(A)表示证据支持命题A发生的程度,反映了证据对A本身的信任度大小。由于缺乏进一步的信息,m(A)不能再细分给A的真子集。条件式(10-57)表示,对于空集(空命题)不赋予任何信任度;条件式(10-58)表示,所有命题的信任度之和等于1,即总信任度为1。定义10.2

如果A为Θ的子集,且m(A)>0,则称A为证据的焦元(FocusElement),所有焦元的集合称为核。

定义10.3

2Θ上的信任函数Bel(BeliefFunction)与似真函数Pl(PlausibilityFunction)定义为(10-59)(10-60)(10-63)其中,为A的补集。信任函数Bel(A)表示证据全部给予命题A的支持程度,似真函数Pl(A)表示证据不反对(不怀疑)命题A的程度。信任函数Bel满足如下条件:Bel()=0(10-61)(10-62)Bel(Θ)=0其中:n为任意正整数;A1,…,An为Θ的任意n个子集;|I|表示集合I中的元素的个数。特别地,n=2,,此时(10-64)Bel(A)与Pl(A)满足:(10-65)区间［Bel(A),Pl(A)］构成证据不确定区间,表示命题的不确定程度,如图10-5所示。图10-5信息的不确定性表示定义10.4共性函数(CommonalityFunction)定义为(10-66)

Q(A)是所有以命题A为前提的命题的基本概率赋值函数之和。Q(A)可以理解为,在证据出现后,命题A作为前提(原因)的支持程度。基本概率赋值函数、信任函数、似真函数与共性函数可以相互推导出来,它们包含的信息量是一样的。除了式(10-60)外,还有如下结果:(10-67)(10-68)(10-69)

3.Dempster合成公式证据理论提供了一个有用的合成公式,它是反映证据的联合作用的一个规则,使人们能够合成多个证据源提供的证据。给定同一辨识框架Θ上几个基于不同证据的信任函数Bel1,Bel2,…,Beln,如果这些证据相互独立,且不完全冲突,那么,可以利用Dempster合成公式计算出一个新的信任函数Bel

=Bel1

Bel2

…

Beln,作为在这些证据的联合作用下产生的信任函数。设有n个相互独立的证据,其对应的基本概率赋值函数分别为m1,m2,…,mn,它们合成后得到新的基本概率赋值函数为，Dempster合成公式为：

m()=0(10-70)(10-71)其中(10-72)k为证据之间的冲突概率,反映了证据冲突的程度。系数1/(1-k)称为归一化因子,它的作用就是避免在合成时将非0的概率赋给空集。利用基本概率赋值函数m,可以计算相应的信任函数Bel、似真函数Pl与共性函数Q。此外,共性函数Q满足:(10-73)Dempster合成公式满足交换律和结合律,即(10-74)(10-75)10.4.2度量层的多分类器融合

假设有R个信息源或分类器,对同一对象(模式)x进行观测,第i个信息源的观测为xi(i=1,2,…,R)。模式分类的目的就是,把给定的模式x划分到M个互不相交的模式类集合ω1,ω2,…,ωM中的一个。

1.证据模型的构造每个信息源可以看成一个证据,相应的辨识框架为Θ={ω1,ω2,…,ωM}。假设观测xi对应一组信任度量其中,≥0表示xi支持ωj的信任程度。J(0)ij越大,xi支持ωj的信任越多。J(0)ij可以是各种形式的度量,例如,与距离有关的函数、概率论中的概率或模糊集合论中的隶属度等。对于证据xi,所有可能的焦元可以选择为{ωi1,ωi2,…,ωij},j=1,2,…,M,相应的基本概率分配函数定义为(10-76)其中:i=1,2,…,R;j=1,2,…,M。

2.判别决策的确定

采用证据理论合成公式合成基本概率分配函数mi(i=1,2,…,R),得到一个综合的基本概率分配函数m,进而可以计算出相应的信任函数、似真函数和共性函数。给定一个辨识框架,有很多规则可以用来决策,例如,最大化基本概率分配函数、信任函数、似真函数或共性函数。下面假设采用Dempster合成公式进行合成,并以最大化共性函数进行决策。对应于基本概率分配函数m与mi,单个元素的集合{ωj}(j=1,2,…,M)的共性函数分别为(10-77)(i=1,2,…,R)(10-78)由式(10-73)可知,它们满足:(10-79)其中(10-80)k为证据之间的冲突概率。假设ωj在Θi中排在第h位,即ωj=ωih,那么,对于基本概率分配函数mi,包含ωj的所有可能的焦元及其基本概率分配函数值为因此(10-81)由可得，，从而(10-82)所以(10-83)其中,常数与ωj无关。此时,采用最大化共性函数进行决策等价于选择l使得，即(10-84)进一步,若J(0)ij为概率测度,则式(10-84)等价于最大后验概率准则;若J(0)ij为模糊隶属度,则式(10-84)等价于某种最大模糊隶属度决策。10.4.3决策层的多分类器融合

1.证据模型假设R个分类器e1,e2,…,eR对同一输入样本(模式)x进行分类,得到R个证据ek(x)=jk,k=1,2,…,R,相应的辨识框架为Θ={ω1,ω2,…,ωM}。其中,ek(x)=jk表示分类器ek把x划分到类ωjk中;jk∈Λ∪{M+1};ek(x)=M+1表示ek拒识x。用ε(k)r和ε(k)s分别表示ek的正确识别率和误识率。由于引入了拒识,一般地,ε(k)r+ε(k)s<1。因为ek存在误识,所以,证据ek(x)=jk存在不确定性。当ek(x)=jk,jk∈Λ时,x∈ωjk为真的信任程度为ε(k)r,x∈ωjk不为真的信任程度为ε(k)s;当ek(x)=M+1时,ek不能提供任何单个类别ωjk的信息,从而可以看成完全支持Θ。因此,对于证据ek(x)=jk,我们定义2Θ上的基本概率分配函数mk如下:

(1)若ek(x)=M+1,则mk只有一个焦元Θ,mk(Θ)=1。

(2)若jk∈Λ,则mk可能有3个焦元:{ωjk},{ωjk}C=Θ＼{ωjk}和Θ,并且,mk({ωjk})=ε(k)r,mk({ωjk}C)=ε(k)s,mk(Θ)=1－ε(k)r－ε(k)s。决策层的多分类器融合就是,根据这R个证据,把给定的模式x划分到ω1,ω2,…,ωM中的一个,或者拒识x。类似地,采用证据理论合成公式合成基本概率分配函数mi(i=1,2,…,R),得到一个综合的基本概率分配函数m,进而可以计算出相应的信任函数、似真函数和共性函数。给定一个辨识框架,决策规则可以采用最大化基本概率分配函数、信任函数、似真函数或共性函数。下面假设采用Dempster合成公式进行合成,并以最大化信任函数进行决策。

2.快速合成算法首先去掉一些不必要的证据。若ek(x)=M+1,相应地,mk(Θ)=1,这些证据对合成的结果没有影响。去掉这些证据,假设剩下R′(≤R)个证据ek(x)=jk,k=1,2,…,R′,jk∈Λ。不失一般性,进一步排除如下三种特殊情形:

(1)R′=0。说明所有的R个分类器都拒识x,那么最终的决策也是拒识x。

(2)若存在某个分类器ek的正确识别率ε(k)r=1,即ek能够绝对正确地识别任何输入模式,那么,其他的分类器就没有必要存在了。

(3)若存在某个分类器ek的误识率ε(k)s=1,即ek总是做出错误的决策,分类器ek不能提供有用的信息,那么,去掉该证据。因此,下面只考虑R′个证据ek(x)=jk,jk∈Λ,k=1,2,…,R′,分类器ek的正确识别率和误识率分别为ε(k)r和ε(k)s,0<ε(k)r<1,0≤ε(k)s<1。采用Dempster合成公式进行合成上述R′个证据,需要验证它们的冲突概率不为1。为此,只需要验证存在一个组合X1∩X2∩…∩XR′≠

,使得,

m1(X1)m2(X2)…mR′(XR′)≠0。对于k=1,2,…,R′,由0<mk({ωjk})=ε(k)r<1可知,mk({ωjk}C)=ε(k)s≠0与mk(Θ)=1－ε(k)r－ε(k)s≠0至少有一个成立。取X1={ωj1},对k=2,…,R′,若{ωjk}={ωj1},则取Xk={ωjk},否则,Xk取{ωjk}C与Θ中的一个,使得mk(Xk)≠0。这样,X1∩X2∩…∩XR′≠,且m1(X1)m2(X2)…mR′(XR′)≠0。直接采用Dempster合成公式进行合成,其计算复杂度随M呈指数递增,特别是分类器数目较大时,巨大的计算量将阻碍多分类器融合技术的使用。考虑到每个证据结构的特殊性,mk最多可能有3个焦元:{ωjk}、{ωjk}C和Θ,结合Dempster合成公式满足交换率和结合率,下面给出一种Dempster合成公式的快速方法,其计算复杂度为O(M)。快速方法由两步组成:第一步把具有相同识别结果的分类器分成一组,并进行合成,得到一个新的证据;第二步把各组合成得到的证据进行合成,得到最终的合成结果。可以通过迭代的方式来合成这些证据对应的基本概率分配函数mk1,mk2,…,mkp,得到一个合成的基本概率分配函数mEk,即(10-85)或，，…(10-86)例如：(10-87)(10-88)(10-89)(10-90)，(10-91)值得注意的是,m2和mk1,mk2,…,mkp一样具有相同的焦元:、和Θ,因此,可以类似地计算对于r=3,…,p－1,p,迭代公式如下:。(10-92)(10-93)(10-94)(10-95)，(10-96)下一步就是合成R1个基本概率分配函数mEk,k=1,2,…,R1,得到最终合成的基本概率分配函数m,即(10-97)进而利用m计算Bel({ωk})和Bel({ωk}C),k=1,2,…,M。当R1=M时,，恰好是{1,2,…,M}的一个置换。当R1<M时,构造M－R1个简单证据,相应的基本概率分配函数为：，，()其中，即是{1,2,…,M}的一个置换。此时,计算信任函数的快速算法:(10-98)(其他)(10-99)(其他)(10-100)(10-101)其中,k=1,2,…,M。上述算法的复杂度为O(M)。

3.判别决策最后,利用信任函数进行决策。式(10-98)与式(10-99)中,是{1,2,…,M}的一个置换,因此,利用式(10-98)~式(10-101)可以得到Bel({ωk})和Bel({ωk}C),k=1,2,…,M。采用最大化信任函数进行决策,决策规则为(10-102)进一步,为了平衡误识率和拒识率,引入阈值α,0<α≤1,式(10-102)修正为(10-103)式(10-102)或式(10-103)没有考虑Bel({ωk}C),k=1,2,…,M。其实,它们也包含对最终决策有用的信息。下面三个决策规则考虑了这些信息:(10-104)(10-105)(10-106)其中:0<α,α1,α2≤1;dk=Bel({ωk})－Bel({ωk}C),表示对命题{ωk}纯支持程度,k=1,2,…,M。10.5基于神经网络的多分类器融合

基于神经网络的多分类器融合属于度量层融合,利用神经网络的学习和分类功能来融合多个分类器的输出,单个分类器输出可以为后验概率、隶属度或距离。本节主要讨论基于RBF神经网络的多分类器融合,其基本思想可以推广到其他有监督学习的神经网络,例如BP网络、SVM网络等。

RBF(RadialBasisFunction)网络是一个三层前馈网络,包含1个输入层、1个隐含层和1个输出层。在RBF网络中,隐含层由径向基函数组成,作为网络与环境的接口,发挥着重要的作用。假设R个分类器e1,e2,…,eR对同一输入样本(模式)x进行分类;在度量层融合,即单个分类器输出为样本x属于相应类的程度。对于输入x,每个分类器ek产生一个度量向量Me(k)=(mk(1),mk(2),…,mk(M))T,其中,mk(i)表示分类器ek认为x属于类ωi的程度(k=1,2,…,R;i=1,2,…,M)。把R个度量向量Me(k)=(mk(1),mk(2),…,mk(M))T连接成为1个尺寸为R×M的度量特征向量,利用RBF网络融合分类器e1,e2,…,eR:

(1)输入层节点数为R×M,其输入为度量特征向量;

(2)隐含层数一般为R×M;

(3)输出层节点数为M,输出为样本所属的类别标识,表示第i类ωi。类似于神经网络模式识别,基于神经网络的多分类器融合也分为训练和识别两个阶段:

(1)训练阶段:先用各分类器对已知类别的训练样本进行分类,得到度量特征向量;以度量特征向量为输入,样本类别号标识为输出,训练神经网络分类器。

(2)识别阶段:先用各分类器对未知类别的输入样本进行分类,得到度量特征向量;再用神经网络分类器对度量特征向量进行识别,输出为样本所属的类别标识;选择输出值最大的位置对应的类别作为识别结果。许多分类器能够提供度量级信息,例如,Bayes分类器提供后验概率P(ωj|x),j=1,2,…,M;模糊分类器中的隶属度;距离分类器提供输入样本x与每类的原型样本之间距离,等等。后验概率和隶属度可以直接用来形成度量向量,距离分类器输出的距离需要转换成隶属度。具体做法如下:假设dij(i=1,2,…,R;j=1,2,…,N)为第i个分类器中测试样本x与第j个训练样本xj之间的距离,表示第i个分类器的平均距离,即(10-107)把dij转换为第i个分类器中测试样本x与第j个训练样本xj之间的相似程度:(10-108)则第i个分类器中,测试样本x属于第

k个类的隶属度为；()(10-109)其中:Ck为属于第k类的训练样本集合;Nk为Ck中训练样本的个数。此时,分类器ei产生一个度量向量Me(i)=(μi1,μi2,…,μiM)T。10.6基于模糊积分的多分类器融合10.6.1

gλ－模糊测度设(X,Ω)为一可测空间,Ω为X的子集组成的σ-代数。模糊测度和概率测度类似,但不一定满足可加性。

定义10.5

Ω上的一个模糊测度g是从Ω到［0,1］的映射,满足:

(1)边界条件:

;

(2)单调性:，若,则g(B)≥g(A);

(3)连续性:若，则例如,式(10-59)和式(10-60)定义的信任函数Bel和似真函数Pl都是模糊测度。

定义10.6

一个模糊测度g称为gλ－模糊测度,若λ>－1,，，，有(10-110)当λ=0时,gλ-

模糊测度是一个概率测度。假设X={x1,x2,…,xn}为一有限集合,令Ω=2X,表示X的所有子集组成的集合。映射:xi→gi=g({xi}),i=1,2,…,n,称为模糊密度函数。对于集合A={xi1,xi2,…,xim}∈Ω,其gλ－模糊测度由下式给出:(10-111)其中,λ≠0。由g(X)=1可得λ满足(10-112)对于给定的{gi}ni=1,0<gi<1,存在唯一的λ∈(－1,+∞),λ≠0,使得式(10-111)成立。10.6.2模糊积分

模糊积分是根据模糊测度来定义的,一般采用gλ-模糊测度(λ>－1,λ≠0)。

定义10.7

(X,Ω)为一可测空间,函数h:X→［0,1］为Ω可测函数,函数h在集合上的关于模糊测度g的Sugeno模糊积分定义为(10-113)其中,Fα={x∈X|h(x)≥α}。假设X={x1,x2,…,xn}为一有限集合,Ω=2X,h(xi)按降序排列,即h(x1)≥h(x2)≥…≥h(xn),则函数h在集合X上的关于模糊测度g的Sugeno模糊积分可以由下式计算得到(10-114)其中,Ai={x1,x2,…,xi}。当测度具有可加性时,Sugeno模糊积分与Lebesgue积分不一致,于是Murofushi和Sugeno又提出了所谓的Choquet模糊积分。定义10.8

h在X集上关于测度g的Choquet模糊积分定义为(10-115)其中:Ai={x1,x2,…,xi};h(x1)≥h(x2)≥…≥h(xn);h(xn+1)=0。10.6.3模糊积分在信息融合中的应用

设x为一个待分类模式,S={ω1,ω2,…,ωM}为类别的集合,X={x1,x2,…,xn}为n个信息源(分类器)的集合。

1.模糊密度函数的确定模糊密度函数gi=g({xi})(i=1,2,…,n)表示信源信息的重要程度或分类器xi的分类能力。gi可以由专家设定或通过训练集估计给出,例如,分类器xi的识别率。下面给出一种gi的取值方法。假设分类器xi的识别率为pi,wi∈［0,1］为主观权值,其中,pi越大,wi越大。gi可以由下式计算给出:(i=1,2,…,n)(10-116)

2.模糊积分的计算定义置信度函数h(k):X→［0,1］,h(k)(xi)表示分类器xi提供输入模式x属于类ωk的置信度,即分类器xi认为输入模式x属于类ωk的隶属程度,k=1,2,…,M,i=1,2,…,n。

h(k)在X集上关于测度g的Sugeno模糊积分或Choquet模糊积分为(k=1,2,…,M)(10-117)或(k=1,2,…,M)(10-118)其中，g(Ai)是根据模糊密度{gi}ni=1计算得到的gλ-模糊测度,可以由如下的迭代公式得到:(10-119)(i=2,3,…,n)(10-120)一方面,h(k)(xi)表示分类器xi提供输入模式x属于类ωk的置信度,现假定用中分类器来评价输入模式x,那么,最安全(保守)的决策中,模式x属于类ωk的置信度可以表示为(10-121)另一方面,gi=g({xi})表示分类器xi的重要

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《模式识别原理与应用》课件第10章

文档简介

温馨提示

最新文档

评论

《模式识别原理与应用》课件第10章

文档简介

温馨提示

最新文档

评论

相关文档