已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一些信息熵的含义(1) 信息熵的定义:假设X是一个离散随即变量,即它的取值范围R=x1,x2.是有限可数的。设pi=PX=xi,X的熵定义为: (a)若(a)式中,对数的底为2,则熵表示为H2(x),此时以2为基底的熵单位是bits,即位。若某一项pi=0,则定义该项的pilogpi-1为0。(2) 设R=0,1,并定义PX=0=p,PX=1=1-p。则此时的H(X)=-plogp-(1-p)log(1-p)。该H(x)非常重要,称为熵函数。熵函数的的曲线如下图表示:再者,定义对于任意的xR,I(x)=-logPX =x。则H(X)就是I(x)的平均值。此时的I(x)可视为x所提供的信息量。I(x)的曲线如下:(3) H(X)的最大值。若X在定义域R=x1,x2,.xr,则0=H(X)=logr。(4) 条件熵:定义推导:H(X|Y=y)= p(x|y)log1/p(x,y)H(X|Y)=p(y)H(X|Y=y)= p(y)*p(x|y)log1/p(x/y) H(X|Y)表示得到Y后,X的平均信息量,即平均不确定度。(5) Fano不等式:设X和Y都是离散随机变量,都取值于集合x1,x2,.xr。则H(X|Y)=H(X|Y),H(Y)=H(Y|X)。信息熵信息熵(Information Entropy)编辑什么是信息熵信息熵是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率(离散随机事件的出现概率)。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。信息熵也可以说是系统有序化程度的一个度量。编辑信息熵的计算根据Charles H. Bennett对Maxwells Demon的解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律的。而产生信息,则是为系统引入负(热力学)熵的过程。所以信息熵的符号与热力学熵应该是相反的。一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。信源的平均不定度。在信息论中信源输出是随机量,因而其不定度可以用概率分布来度量。记 H(X)H(P1,P2,Pn)P(xi)logP(xi),这里P(xi),i1,2,n为信源取第i个符号的概率。P(xi)=1,H(X)称为信源的信息熵。熵的概念来源于热力学。在热力学中熵的定义是系统可能状态数的对数值,称为热熵。它是用来表达分子状态杂乱程度的一个物理量。热力学指出,对任何已知孤立的物理系统的演化,热熵只能增加,不能减少。然而这里的信息熵则相反,它只能减少,不能增加。所以热熵和信息熵互为负量。且已证明,任何系统要获得信息必须要增加热熵来补偿,即两者在数量上是有联系的。可以从数学上加以证明,只要H(X)满足下列三个条件:连续性:H(P,1P)是P的连续函数(0P1);对称性:H(P1,Pn)与P1,Pn的排列次序无关;可加性:若PnQ1+Q20,且Q1,Q20,则有H(P1,Pn-1,Q1,Q2)H(P1,Pn-1)+PnH;则一定有下列唯一表达形式:H(P1,Pn)-CP(xi)logP(xi)其中C为正整数,一般取C1,它是信息熵的最基本表达式。信息熵的单位与公式中对数的底有关。最常用的是以2为底,单位为比特(bit);在理论推导中常采用以e为底,单位为奈特(Nat);还可以采用其他的底和单位,并可进行互换。信息熵除了上述三条基本性质外,还具有一系列重要性质,其中最主要的有:非负性:H(P1,Pn)0;确定性:H(1,0)H(0,1)H(0,1,0,)0;扩张性:Hn-1(P1,Pn-,)Hn(P1,Pn);极值性:P(xi)logP(xi)P(xi)logQ(xi);这里Q(xi)1;上凸性:HP +(1-)QH(P)+(1-)H(Q),式中01。信息熵信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息论之父克劳德艾尔伍德香农第一次用数学语言阐明了概率与信息冗余度的关系。目 录1理论提出2信息含义1. 2.1现代定义2. 2.2最初定义3. 2.3计算公式4. 2.4博弈圣经1理论提出1信息论之父 C. E. Shannon 在 1948 年发表的论文“通信的数学理论( A Mathematical Theory of Communication )”中, Shannon 指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。 Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。2信息含义现代定义信息是物质、能量、信息及其属性的标示。【逆维纳信息定义】信息是确定性的增加。【逆香农信息定义】信息是事物现象及其属性标识的集合。【2002年】最初定义信息理论的鼻祖之一Claude E. Shannon把信息(熵)定义为离散随机事件的出现概率。所谓信息熵,是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率。而信息熵和热力学熵是紧密相关的。根据Charles H. Bennett对Maxwells Demon的重新解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律的。而产生信息,则是为系统引入负(热力学)熵的过程。所以信息熵的符号与热力学熵应该是相反的。一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。计算公式H(x)=EI(xi)=E log(2,1/p(xi) =-p(xi)log(2,p(xi) (i=1,2,.n)博弈圣经信息熵:信息的基本作用就是消除人们对事物的不确定性。多数粒子组合之后,在它似像非像的形态上押上有价值的数码,具体地说,这就是一个在博弈对局中现象信息的混乱。香农指出,它的准确信息量应该是 -(p1*log(2,p1) + p2 * log(2,p2) +p32 *log(2,p32),信息熵其中,p1,p2 ,p32 分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (Entropy),一般用符号 H 表示,单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时,对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量 X(比如得冠军的球队),它的熵定义如下:变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。熵的概念源自热物理学.假定有两种气体a、b,当两种气体完全混合时,可以达到热物理学中的稳定状态,此时熵最高。如果要实现反向过程,即将a、b完全分离,在封闭的系统中是没有可能的。只有外部干预(信息),也即系统外部加入某种有序化的东西(能量),使得a、b分离。这时,系统进入另一种稳定状态,此时,信息熵最低。热物理学证明,在一个封闭的系统中,熵总是增大,直至最大。若使系统的熵减少(使系统更加有序化),必须有外部能量的干预。信息熵的计算是非常复杂的。而具有多重前置条件的信息,更是几乎不能计算的。所以在现实世界中信息的价值大多是不能被计算出来的。但因为信息熵和热力学熵的紧密相关性,所以信息熵是可以在衰减的过程中被测定出来的。因此信息的价值是通过信息的传递体现出来的。在没有引入附加价值(负熵)的情况下,传播得越广、流传时间越长的信息越有价值。熵首先是物理学里的名词.在传播中是指信息的不确定性,一则高信息度的信息熵是很低的,低信息度的熵则高。具体说来,凡是导致随机事件集合的肯定性,组织性,法则性或有序性等增加或减少的活动过程,都可以用信息熵的改变量这个统一的标尺来度量。在信息论中,熵被用来衡量一个随机变量出现的期望值。它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。信息熵也称信源熵、平均自信息量。在1948年,克劳德艾尔伍德香农将热力学的熵,引入到信息论,因此它又被称为香农熵。目录隐藏 1简介o 1.1熵的计算 2定义 3范例 4熵的特性 5和热力学熵的联系 6参见 7参考简介编辑熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。但是在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。英语文本数据流的熵比较低,因为英语很容易读懂,也就是说很容易被预测。即便我们不知道下一段英语文字是什么内容,但是我们能很容易地预测,比如,字母e总是比字母z多,或者qu字母组合的可能性总是超过q与任何其它字母的组合。如果未经压缩,一段英文文本的每个字母需要8个比特来编码,但是实际上英文文本的熵大概只有4.7比特。如果压缩是无损的,即通过解压缩可以百分之百地恢复初始的消息内容,那么压缩后的消息携带的信息和未压缩的原始消息是一样的多。而压缩后的消息可以通过较少的比特传递,因此压缩消息的每个比特能携带更多的信息,也就是说压缩信息的熵更加高。熵更高意味着比较难于预测压缩消息携带的信息,原因在于压缩消息里面没有冗余,即每个比特的消息携带了一个比特的信息。香农的信息理论揭示了,任何无损压缩技术不可能让一比特的消息携带超过一比特的信息。消息的熵乘以消息的长度决定了消息可以携带多少信息。熵的计算编辑如果有一枚理想的硬币,其出现正面和反面的机会相等,则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么,因此每一次抛硬币都是不可预测的。因此,使用一枚正常硬币进行若干次抛掷,这个事件的熵是一比特,因为结果不外乎两个正面或者反面,可以表示为0, 1编码,而且两个结果彼此之间相互独立。若进行n次独立实验,则熵为n,因为可以用长度为n的比特流表示。1但是如果一枚硬币的两面完全相同,那个这个系列抛硬币事件的熵等于零,因为结果能被准确预测。现实世界里,我们收集到的数据的熵介于上面两种情况之间。另一个稍微复杂的例子是假设一个随机变量X,取三种可能值,概率分别为,那么编码平均比特长度是:。其熵为3/2。因此熵实际是对随机变量的比特量和顺次发生概率相乘再总和的数学期望。定义编辑一个值域为x1, .,xn的随机变量X的熵值 H 定义为:,其中,E 代表了期望函数,而I(X) 是X的信息量(又称为信息本体)。I(X) 本身是个随机变量。如果p代表了X的机率质量函数(probability mass function),则熵的公式可以表示为:在这里b是对数所使用的底,通常是 2, 自然常数e,或是10。当b=2,熵的单位是bit;当b=e,熵的单位是nat;而当b=10,熵的单位是dit。pi=0时,对于一些i值,对应的被加数0logb0的值将会是0,这与极限一致。范例编辑抛硬币的熵H(X)(即期望自信息),以比特度量,与之相对的是硬币的公正度 Pr(X=1).注意图的最大值取决于分布;在这里,要传达一个公正的抛硬币结果至多需要1比特,但要传达一个公正的抛骰子结果至多需要log2(6)比特。如果有一个系统S内存在多个事件S = E1,.,En,每个事件的机率分布 P = p1, ., pn,则每个事件本身的讯息(信息本体)为:(对数以2为底,单位是比特(bit))(对数以为底,单位是纳特/nats)如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量为:而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为:熵是整个系统的平均消息量,即:因为和热力学中描述热力学熵的玻尔兹曼公式形式一样,所以也称为“熵”。如果两个系统具有同样大的消息量,如一篇用不同文字写的同一文章,由于是所有元素消息量的加和,那么中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的讯息量越大。熵的特性编辑1. 熵均大于等于零,即,。2. 设N是系统S内的事件总数,则熵。当且仅当p1 = p2 = . = pn时,等号成立,此时系统S的熵最大。3. 联合熵:,当且仅当X,Y在统计学上相互独立时等号成立。4. 条件熵:,当且仅当X、Y在统计学上相互独立时等号成立。和热力学熵的联系编辑物理学家和化学家对一个系统自发地从初始状态向前演进过程中,遵循热力学第二定律而发生的熵的变化更感兴趣。在传统热力学中,熵被定义为对系统的宏观测定,并没有涉及概率分布,而概率分布是信息熵的核心定义。根据Jaynes(1957)的观点,热力学熵可以被视为香农信息理论的一个应用:热力学熵被定义为与要进一步确定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论