信息熵的发展与应用_第1页
信息熵的发展与应用_第2页
信息熵的发展与应用_第3页
信息熵的发展与应用_第4页
信息熵的发展与应用_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息熵的发展与应用摘要:信息熵是用来衡量一个随机变量出现的期望值,一个变量的信息熵越大,那么他出现的各种情况也就越多,也就是包含的内容多,我们要描述他就需要付出更多的表达才可以,也就是需要更多的信息才能确定这个变量。“信息熵”是一个非常神奇的概念,它能够反映知道一个事件的结果后平均会给你带来多大的信息量。关键词:信息熵、随机性、信息量一、信息熵的来源熵的概念是由德国物理学家克劳修斯于1865年所提出。熵最初是被用在热力学方面的,由热力学第二定律可以推出熵增的结论,然后熵是用来对一个系统可以达到的状态数的一个度量,能达到的状态数越多熵越大。信息熵也基本是很类似的,是香农1948年的一篇论文《AMathematicalTheoryofCommunication》提出了信息熵的概念,并且以后信息论也被作为一门单独的学科。信息熵是用来衡量一个随机变量出现的期望值,一个变量的信息熵越大,那么他出现的各种情况也就越多,也就是包含的内容多,我们要描述他就需要付出更多的表达才可以,也就是需要更多的信息才能确定这个变量。一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。二、负熵和耗散结构理论1945年薛定谔(E.SchrÊdinger)在其专著《生命是什么?活细胞的物理学观》中,提出负熵的概念时,谈到假如W是系统无序程度的量度,则其倒数1/W可作为有序程度的一个直接量度。因为1/W的对数正好是W的负对数,玻尔兹曼公式可以写成负熵=klog(1/w)。因此,负熵可以换成更好一些的说法:取负号的熵。1948年维纳(N.Wiener)在其控制论的奠基性著作《控制论:或关于在动物和机器中控制和通信的科学》中指出:信息是一个可以看作几率的量的对数的负数,信息实质上就是负熵。1956年布里渊(L.Brillouin)在其专著《科学与信息论》中指出,信息论中信息熵的表达式与统计力学中熵函数的表达式是一致的。信息熵是消除不确定性的信息量的量度。在此专著中布里渊把熵和信息熵作为同一个东西看待,还论证了信息就是负熵。通过以上论述可知,信息论中有两个与不确定性有关的量要用两个符号来表示。一个是与熵相同的信息熵H(X),它表示要被消除的信号系统中的不确定性;另一个是与负熵相当的信息,而信息的量化称为信息量I(X),它表示完全消除这个不确定性所需要的信息量。也就是说,要用与信息熵相等的信息量来消除这个不确定性。信息熵和信息量的表示形式虽然相同,但含义却不相同。信息熵与熵一样是系统无序程度的量度;信息量作为信息的量化形式,是系统有序程度的量度。同时,与信息同义的负熵也表征系统的有序程度。1967年普里高津(I.S.Prigogine)在一次“理论物理和生物学”的国际会议上,提出耗散结构理论。指出,一个远离平衡态的开放系统通过不断地与外界交换物质,能量和信息,达到一定阈值时,经自组织,系统可能由无序状态转化为有序状态。这种非平衡状态下的新的有序结构称为耗散结构。这个活的有序结构所消耗的来自外界的源源不断的信息、物质、能量就是负熵流。只有当负熵流dS超过系统内部的熵增dS时(e=external,i=internal),dS=deS+diS<0系统才会熵减,成为有序态。为了使摆脱无序态,则必须把系统改造成开放系统,引入负熵流。有的学者称耗散结构理论为熵减定理。三、信息熵的应用应用实例一:香农指出的信息熵的计算公式大家都已经很熟悉,在《数学之美》里,我们用赛后怎么知道32个球队里谁是冠军来讲解了这个信息熵的概念。当概率相等时,每次询问用折半查找的原理(如“冠军队伍在1-16吗?”)可以减少一半的队伍,这样就需要5次就能知道结果了。这里就是log32=5。而使用信息熵计算信息量,的确也是5。但是为什么信息熵这个公式会代表信息量呢?按我的理解,在等概率事件里,1/p(x)代表那一次所有可能出现的量、在球队问题里,就是32种可能性。而等概率事件里,因∑p(xi)=1,所以信息熵可以看成:信息熵H(x)=-∑p(xi)log(p(xi))(i=1,2,..n)=-log(p(i))=-(-log(1/p(x)))=log(1/p(x))。也就是说等概率事件里的信息量可以看成H(x)=log(所有可能性)。为了加深对信息量的定义的理解,再回到上述32个球队的问题,我们已经知道他的信息量是5Bit。问过一次之后,我们可以知道冠军在哪16个队伍中,也就是说我们获得了1bit的信息后不确定性减少,等于信息熵变成了log16=4bit=5bit-1bit。而最大熵模型呢?它的原理就是保留全部的不确定性,将风险降到最少。最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。我们常说,“不要把所有的鸡蛋放在一个篮子里”,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性。也就是说发现不确定信息的时候,不要对不确定的产物任何主观假设使他们的概率分布均匀,则能获得最客观的结果。而这时风险会最小,我们就可以用这个结果来进行最客观的决策。数学上来说貌似就是最优下界吧。这种策略的本质可以概括成“让未知世界无机可乘”。它是没有“弱点的”,答案的任何一个分支都是等概率的。反之,一旦某个分支蕴含的可能性更多,当情况落到那个分支上的时候你就郁闷了。二分搜索为什么好,就是因为它每次都将可能性排除一半并且无论如何都能排除一半(它是最糟情况下表现最好的)。那么还是根据这个例子,我们假设我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”?他不愿意直接告诉我,我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢?

如果我提问:“冠军的球队在1-16号中吗?”假如他告诉我猜对了,我会接着问:“冠军在

1-8

号中吗?”

假如他告诉我猜错了,我自然知道冠军队在9-16中。这样只需要五次,我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。当然,香农不是用钱,而是用

“比特”(bit)这个概念来度量信息量。一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。读者可能已经发现,信息量的比特数和所有可能情况的对数函数log有关。(log32=5,log64=6。)有些读者此时可能会发现我们实际上可能不需要猜五次就能猜出谁是冠军,因为象巴西、西班牙、意大利这样的球队得冠军的可能性比日本、美国、韩国等队大的多。因此,我们第一次猜测时不需要把32个球队等分成两个组,而可以把少数几个最可能的球队分成一组,把其它队分成另一组。然后我们猜冠军球队是否在那几只热门队中。我们重复这样的过程,根据夺冠概率对剩下的候选球队分组,直到找到冠军队。这样,我们也许三次或四次就猜出结果。因此,当每个球队夺冠的可能性(概率)不等时,“谁世界杯冠军”的信息量比五比特少。香农指出,它的准确信息量应该是-(p1*logp1+p2*logp2+...+p32*logp32),其中,p1,p2

,...,p32

分别是这32个球队夺冠的概率。香农把它称为“信息熵”(Entropy),一般用符号H表示,单位是比特。有兴趣的读者可以推算一下当32个球队夺冠概率相同时,对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量

X(比如得冠军的球队),它的熵定义如下:变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。应用实例二:有了“熵”这个概念,我们就可以计算一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有7000字。假如每个字等概率,那么我们大约需要13个比特(即13位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前10%的汉字占文本的95%以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有8-9个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是250万比特。如果用一个好的算法压缩一下,整本书可以存成一个320KB的文件。如果我们直接用两字节的国标编码存储这本书,大约需要1MB大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。需要指出的是我们这里讲的250万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。四、总结“信息熵”是一个非常神奇的概念,它能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为p,当你知道它确实发生了,你得到的信息量就被定义为-log(p)。p越小,你得到的信息量就越大。如果一颗骰子的六个面分别是1、1、1、2、2、3

,那么你知道了投掷的结果是1时可能并不会那么吃惊,它给你带来的信息量是-log(1/2),约为0.693。知道投掷结果是2,给你带来的信息量则是-log(1/3)≈1.0986。知道投掷结果是3,给你带来的信息量则有-log(1/6)≈1.79。但是,你只有1/2的机会得到0.693的信息量,只有1/3的机会得到1.0986的信息量,只有1/6的机会得到1.79的信息量,因而平均情况下你会得到0.693/2+1.0986/3+1.79/6≈1.0114的信息量,这个1.0114就是那颗骰子的信息熵。现在,假如某颗骰子有100个面,其中99个面都是1,只有一个面上写的2。知道骰子的抛掷结果是2会给你带来一个巨大无比的信息量,它等于-log(1/100)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论