熵定律在信息源选择和信息识别中的应用_第1页
熵定律在信息源选择和信息识别中的应用_第2页
熵定律在信息源选择和信息识别中的应用_第3页
熵定律在信息源选择和信息识别中的应用_第4页
熵定律在信息源选择和信息识别中的应用_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、熵定律在信息源选择和信息识别中的应用以质量原因识别为例,为管理决策提供了一种一般的方法摘要:热力学中的熵反映了物质系统的无序性。仙农( Shannon)在信息论中将信息量与熵联系起来,提出了信息熵的概念。在企业管理中存在众多的信息源,它为我们的管理决策活动带来了许多值得参考的原始数据,但同时大量的原始数据也加大了决策的复杂程度,所以我们介绍了一种一般的方法来对管理中的信息源进行筛选。熵融合模型的基本思想是:减少条件熵,增加互信息,找出最佳信息源组合。在这个基本原理的基础上,我们提出了熵调准聚合算法。这种算法的根本目的就是选择最优的信息源,并作出决策。最后以质量原因识别为例,进一步阐述这种算法。

2、关键词: 信息熵 企业管理 决策信息熵的引入熵的概念源自热力学(Rudolph J.E Clausius,1865),指的是物质系统的一种无序性。里夫金&霍华德称:熵定律是自然界中最普遍的定律。1948年电气工程师仙农( Shannon)创立了信息论,将信息量与熵联系起来,他用非常简洁的数学公式定义了信息时代的基本概念,熵:H(p) = -p(x)logp(x)。在信息论中,熵是定量描述事件的不确定性,设随机变量,它有A1、A2 An种可能的结局,每种结局出现的概率分别为P1、P2Pn,则的不确定程度,即信息熵为: (1)熵越大表示不确定性越大。如抛硬币:P(head)=0.5,P(tail)

3、=0.5, H(p)=-0.5log(0.5)-0.5log(0.5)=log(2);而掷色子(32面),H(p)=log2(32),这表明掷色子所包含的信息量多于抛硬币所包含的信息量。一、熵融合模型(Entropy fusion model)1、 冗余信息和互补信息(Redundancy and complemantarity information):(图1)图1中的表示融合系统(fusion system),融合系统是指一种信息处理过程/方法,并非指一种物理系统,信息融合指的是联合多个异构的信息源,通过减少不确定的信息获得一束可信且完备信息源组合的过程。X指的是输入的数据,在融合系统中指

4、的是一束信息源组合,Y指的是输出的信息,在融合系统中指的是对假设的判别结果;此处有必要强调数据和信息的区别,数据指的是信息源输出原始数据,对于决策没有现实意义,而信息是指对数据处理的结果,对决策具有支持作用。(图2)单熵(simple entropy)H(X)、H(Y)与联合熵(joint entropy)H(X,Y)之间存在这样的关系:(2)冗余信息(互信息)I(X,Y)是指Y对X的表征程度,若互信息越大,说明输出Y的失真就越小,越能真实反映X的信息,且互信息与单熵、联合熵之间存在如下关系:(3)互补信息(条件熵)H(Y/X),实际上条件熵是一种误差:(4)EFM(熵融合模型)的主要思想:通

5、过增加互信息/减少条件熵,选择最优信息源组合,在最优信息源组合的基础上进行决策,即:(5)表示最优信息源组合,表示信息源的子集。2、判别结构(Frame of discernment):是输出Y可能性假设的集合,它们之间满足完备事件集:的描述参数为,如z1表示形状、z2表示大小,那么一个乒乓球可以描述为“圆形的、小的”。量测矢量:,表示信息源的输出,指原始信息。3、信息量表达(Information representations):Bayes理论:在Bayes理论中,信息源的信息可以用条件概率分布来描述,条件概率分布(后验概率分布):(6)(表1)从表1中可以看出,条件概率分布表示在如果采用

6、第s个信息源,那么第m个参数认可第k个假设的可能性是多少。联合概率分布表示从第s个信息源观察第m个描述参数,有多大可能性是第k个假设。Shannon理论:利用Shannon的信息熵定义,条件熵可以表示为:(7)即用条件概率来表示条件熵,从(7)式可知,当条件概率越大时,条件熵越小,从这个意义上来讲就是当某个信息源对信息输出越肯定时,条件熵越小,这与我们上述的EFM的决策思想是一致的。4、信息源组合和决策(Information source combination and decision-making):融合系统的最基本思路是寻找最优的信息源组合,再在最优信息源组合的基础上进行决策,而针对每

7、个不同的假设,其最优信息源组合极有可能是不同的,因此需要针对每个假设分别寻找最优的信息源组合,表示量测矢量的子集,我们用表示最优的量测矢量子集,使用公式:(8)找到最优信息源组合,注:在(8)式中,联合概率需要进行归一化处理,即,也就是说联合概率随着信息源组合的变化而变化的,这种归一化的思路体现了熵融合的思想。在寻得最优信息源组合的基础上,我们可以利用公式:进行决策,以判断最佳假设。同时对于决策质量,我们可以用下式进行计算:(9)如果q值越大,说明决策效果越好。5、概率估计(Probabilities estimation):条件熵的计算需要用到联合概率分布,进行进行估计的最基本原理就是最大信

8、息熵原理。即:(10)满足最大熵原理,说明在这种概率下,事件所包含的信息量最大,即最能反映事物的本质。最大熵原理经过指数化之后,可以转变为如下形式:(11)其中N()是归一化条件:(12)是Lagrange乘数,为观察函数,一般O值取2,取,二、EA2算法(Entropy Adaptative Aggregation,熵调准聚合算法)(图3)EA2是一种应用启示技术的迭代算法,EA2算法由三部分构成:建模、组合、决策。建模部分主要确定量测矢量、描述参数及条件概率分布;组合部分分为三阶段:聚合阶段、调准阶段、决策阶段。聚合阶段是利用聚合技术和减聚技术分别确定优化的信息源组合 ,调准阶段是根据聚合

9、算法和减聚算法的结果,调准出稳定子集即最优信息源组合。决策阶段是在组合阶段所得出最优信息源子集基础上,根据条件熵最小的原则进行决策,并分析决策质量。1、聚合启示和减聚启示技术(Aggregative heuristic vs. disaggregative heuristic):1、1聚合启示技术:首先找出最佳的一个量测矢量,然后再聚合其他量测矢量,直至条件熵达到满意:(13)HAG是聚合函数, ,缺点是:进来的信息源就无法退出,因为极有可能某些信息源单个是最优的,但是与其他信息源组合后的子集并非最优1、 2减聚启示技术:从子集开始,(14)HAG是减聚函数,减聚法的缺点是计算复杂,同时存在聚

10、合技术相类似的问题,即退出去的信息源再无法进来。在实际的操作过程中,我们是结合聚合技术和减聚技术,以摒弃它们的缺点。这点将在调准阶段反映出来。2、EA2方法介绍:2、1聚合阶段:聚合阶段主要任务:确定P的值,以及确定两组优化信源组合。|min-min|THRESHOLD(15) THRESHOLD称为阈值(门槛),使用聚合启示技术从p=0开始计算,确定p的值,同时确定p个优化的信息源组合(当上式成立时,第(p+1)个量测矢量将舍去,只能引入p个量测矢量。) 使用减聚启示技术再计算p个优化的信息源组合2、2调准阶段:(16)符号表示独立组合(divided and aggregated)逐步近似

11、过程。即函数的调用次序不同,复合函数的值不同。上式成立可以得出固点(fixed point)调准过程可以用下图来表示:(图4)即在聚合阶段分别由聚合技术和减聚技术得出两组优化的信息源子集,如果两个子集不相等,则再依次使用聚合技术和减聚技术(或依次使用聚合技术和减聚技术),所得出的结果再进行比较,直到结果相等为止。3、EA2存在的问题: 参数Z选择问题?因为最优信息源未知,所以参数Z如何确定将会存在问题; 阈值如何确定?阈值的确定将直接影响P值,即最优信息源的个数 死循环问题?在调准阶段如果出现进来的信息源和出去的信息源为同一个将会出现死循环,解决办法是调整阈值或前进两步再后退两步。三、质量问题

12、识别应用1、判别结构:在质量管理中,存在众多的质量原因及大量的数据源,如何处理这些数据以追溯出质量原因?我们可以实用EA2算法。质量原因可以归为:人员因素(Man)、机器设备因素(Machine)、材料因素(Material)、方法因素(Method)、测量因素(Measure)和环境因素(Environment),即“5M1E”。为了简单,我们将方法因素和测量因素合为一类,因此我们的判别结构可以定义为:H1:人员因素H2:机器设备因素H3:材料因素H4:方法、测量因素H5:环境因素质量原因描述参数可以如下定义(以某种零件为例):Z1:气孔密度Z2:疵点密度Z3:碰伤密度Z4:脏污密度Z5:零

13、件尺寸Z6:零件性能2、融合系统(图5)即有三个独立的信息源输出原始数据3、条件概率分布说明每个信息源对任一假设的判断可信程度都是一样的4、条件熵判别结果是H2,即是机器设备因素四EA2算法对管理决策的支持在企业中存在着大量的信息源,无时无刻不在传递着信息。针对这些大量的信息,我们如何去处理,如何从大量的信息源中选择最优的信息源组合,如何进行决策?EA2给企业管理、企业决策提供了一种一般的算法。这种算法在企业管理中应用的范围很广,如上述的“质量问题识别”等。这种算法的应用条件是:u 能够知道可能的假设结果u 假设结果的描述参数已知u 信息源对每种假设的可信程度已知u 信息源输出数据已知在上述基

14、础上作出概率估计。根据聚合启示和减聚启示技术算出优化信息源组合,在调准阶段计算出最优的信息源组合。最后将每种假设与其最优信息源组合综合考虑,选出条件熵最小并且决策质量最高的假设以支持我们的最终决策。参考文献:1 Bienvenu Fassinut-Mombot,Jean-Bernard Choquel.A new probabilistic and entropy fusion approach for management of information sources. 5 (2004) P35-472Tessalenl C.Devezas ,James T.Corredine.The nonlinear dynamics of technoeconomic systems An informational interpretation 69 2002 317-3573Sankaran P.Raghunathan.A Refinement of the Entopy Measure of

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论