信息论与编码理论第2章 信息的统计度量_第1页
信息论与编码理论第2章 信息的统计度量_第2页
信息论与编码理论第2章 信息的统计度量_第3页
信息论与编码理论第2章 信息的统计度量_第4页
信息论与编码理论第2章 信息的统计度量_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息论与编码理论

第2章信息的统计度量主要内容

从概率的角度研究问题自信息量互信息量平均自信息量平均互信息量信息的大小多个信息之间关联的密切程度2.1自信息和条件自信息2.1.1自信息量事件发生的概率越大,它发生后提供的信息量越小。张三今天吃饭了事件发生的概率越小,一旦该事件发生,它提供的信息量就越大。某沿海地区发生海啸2.1.1自信息定义2-1

任意随机事件的自信息量定义为该事件发生概率的对数的负值。假设事件xi发生的概率为p(xi),则其自信息定义式为根据该公式可能提出的问题底数是多少?常用底数:2真的成反比吗?I(x)≥0规定:0log0=0自信息量的含义自信息量表示一个事件是否发生的不确定性的大小。自信息量表示一个事件的发生带给我们的信息量的大小。自信息量表示为了确定一个事件是否发生,所需的信息量的大小。自信息量表示为了将事件的信息量表示出来,所需的二进制位的个数。这个个数就是该二进制码的长度,简称码长。自信息量的例子假设“张三今天吃饭了”这个事件发生的概率是99.99%,则该事件的自信息量为:这表明该事件的不确定性很小。假设“某沿海地区发生海啸”这个事件发生的概率是0.01%,则该事件的自信息量为:这表明该事件的不确定性很大。联合自信息量定义2-2

二维联合集XY上的元素(xiyj)的联合自信息量定义为联合自信息量衡量的是多个事件同时出现的不确定性的大小;两个事件同时发生带给我们的信息量的大小;为了确定两个事件是否能同时发生,所需的信息量的大小;或者,将该信息量表示出来,所需的二进制位的个数,即码长。2.1.2条件自信息量定义2-3

事件xi在事件yj给定的条件下的条件自信息量定义为:含义:知道事件yj之后,仍然保留的关于事件xi的不确定性;或者,事件yj发生之后,事件xi再发生,能够带来的信息量。p(x):x出现的概率I(x):x的不确定性p(x|y):y出现之后

x出现的概率I(x|y):知道y之后仍然保留的关于

x的不确定性衡量的都是不确定性先验概率后验概率条件自信息量的例子事件:x=“某沿海地区发生海啸”y=“海底发生了地震”概率:p(x)=0.01%p(x|y)=1%事件x的自信息量为:事件x在事件y发生的情况下的条件自信息量为:2.2互信息量举例张三今天没来上课张三有可能病了为什么没来上课就会猜到生病了?因为二者有关系互信息衡量的就是这种关系的大小象形字,本意:绞绳用的工具,又象握手互相,两者或者多者相互作用两个或者多个事件之间关联的密切程度2.2.1互信息量定义2-4

随机事件yj的出现给出关于事件xi的信息量,定义为互信息量。定义式:单位:同自信息量互信息量的含义

还可表示为:含义:本身的不确定性,减去知道了事件y之后仍然保留的不确定性,即由y所提供的关于x的信息量,或者说由y所消除的x的不确定性。互信息量=原有的不确定性-仍然保留的不确定性对数的几个性质:互信息量的例子事件:x=“某沿海地区发生海啸”y=“海底发生了地震”概率:p(x)=0.01%p(x|y)=1%前面已求出自信息量和条件自信息量为:而x和y的互信息量为:2.2.2互信息量的性质概率乘法公式全概率公式x1x2…xn和y1p(x1y1)p(x2y1)…p(xny1)p(y1)y2p(x1y2)p(x2y2)…p(xny2)p(y2)………………ymp(x1ym)p(x2ym)…p(xnym)p(ym)和p(x1)p(x2)…p(xn)1全概率公式互信息量的性质1

互信息量的互易性I(x;y)=I(y;x)证明:含义:由y所提供的关于x的信息量等于由x

所提供的关于y的信息量概率乘法公式全概率公式互信息量的性质2

互信息量可为0当事件x、y统计独立时,互信息量为0证明:含义:当两个事件相互独立时,一个事件不能提供另一个事件的任何信息。即一个事件发生之后,对于确定另一个事件是否发生没有任何帮助。p(x|y)=p(x)无论是否知道y,都对x出现的概率没有影响说明x和y没有什么关系概率乘法公式全概率公式互信息量的性质3

互信息量可正可负正:y的出现有助于肯定x的出现

x:张三病了。

y:张三没来上课。负:y的出现有助于否定x的出现

x:李四考了全班第一名。

y:李四没有复习功课。无论正负,互信息量的绝对值越大,x和y的关系越密切。回想自信息量I(x)I(x)≥0:x的出现或多或少总能带来一些信息互信息量的性质4

互信息量不大于其中任一事件的自信息量证明同理:I(x;y)=I(y;x)≤I(y)互信息量=原有的不确定性-仍然保留的不确定性2.3离散集的平均自信息量(熵)离散集X={x1,x2,…,xn}离散集的概率分布表示为离散集中的每一个事件都有自己的自信息量所有这些自信息量的均值,就是离散集的平均自信息量定义2-5

集X上,随机变量I(xi)的数学期望定义为平均自信息量。又称作集X的信息熵,简称熵。H(X)又可记作H(p1,p2,…,pn)平均自信息量含义集合中所有事件是否发生的平均不确定性的大小。集合中事件发生,带给我们的平均信息量的大小。确定集合中到底哪个事件发生时,所需的平均信息量的大小。如果用二进制数据将集合中的各个元素表示出来,所需的二进制位的个数的平均值,即平均码长。系统的凌乱程度。熵的单位同自信息量的单位熵的例子【例2-6】系统1系统2中2.3.2熵函数的数学特性对称性非负性确定性扩展性可加性极值性上凸性熵函数的数学特性1

对称性集合中各分量的次序任意变更时,熵值(平均自信息量)不变从熵(平均自信息量)的公式上来看,该结论是明显的深层含义:熵是有局限性的。它仅与随机变量的总体结构有关,抹煞了个体的特性。例2-7“加权熵”晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4加权熵晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4权重1112例2-8熵函数的数学特性2

非负性H(X)≥0源于自信息量的非负性。什么时候为0:有且仅有一个pi=1,其余的pi=0,即确定事件集。熵函数的数学特性3

确定性集合中只要有一个事件为必然事件,则其余事件为不可能事件,熵为0。H(1,0)=H(1,0,0)=…=H(1,0,…,0)=0熵函数的数学特性4

扩展性集合X有q个事件,集合Y比X仅仅是多了一个概率接近0的事件,则两个集合的熵值一样。证明:含义:集合中,一个事件发生的概率比其它事件发生的概率小得多时,该小概率事件可以忽略不计,不用考虑。抓主要矛盾【例2-9】

《中华字海》中收录了多达85000个汉字,而据统计,常用汉字不过3000个。如果需要在短时间内编写一个计算机用的汉字字库,我们就要利用熵的扩展性,先对这3000个常用汉字编码,有时间再逐步完善补充。熵函数的数学特性5

可加性H(X,Y)=H(X)+H(Y|X)当X、Y相互独立时,H(X,Y)=H(X)+H(Y)熵函数的数学特性6

极值性各事件等概率发生时,熵最大最大熵定理例子

最大熵定理【例2-11】自然界总是向着最大熵方向演化,而人们总想减少熵。但是熵减的过程通常让人觉得痛苦。科学家找规律,将未知变已知:减少熵。寻找规律的过程不轻松。在深度学习的分类问题中,提高分类准确率,意味着离等概分布越来越远:减少熵。但是提高分类准确率并不容易。小A小B放的时候鞋放原装鞋盒,鞋盒贴有信息的一面冲外,整齐码放。随便把鞋往一个鞋盒一放,胡乱地堆在床底下。用的时候只有一个鞋盒的概率为1,其余鞋盒的概率都为0,此时熵为0。等概分布,熵最大。结果为了减少熵,需要仔细收纳自己的鞋,这个过程需要一定的自控力,持之以恒才能做到。不需要对抗自然界熵不断增加的趋势,但是在获取需要的鞋的时候,却很费劲。熵函数的数学特性7

上凸性H(p1,p2,…,pq)是概率分布(p1,p2,…,pq)的严格上凸函数如果f[

X1+(1-

)X2]

f(X1)+(1-

)f(X2),其中0<

<1,则称f(X)为上凸函数。如果f[

X1+(1-

)X2]>

f(X1)+(1-

)f(X2),则称f(X)为严格上凸函数。上凸函数的直观意义除上凸函数之外,还有下凸函数对于凸函数,有詹森(Jenson)不等式E[f(x)]

f(E[x])2.3.3条件熵定义2-7

条件自信息量的概率均值(数学期望)定义为条件熵。含义当得到集合X的条件下,集合Y中仍然保留的平均不确定性。当已知集合X中某事件发生的条件下,集合Y中的事件再发生,进一步带给我们的平均信息量的大小。当已知集合X中某事件发生的条件下,确定集合Y中到底哪个事件发生时,所需的平均信息量的大小。当得到集合X的条件下,用二进制数据将集合Y中的各个元素表示出来,进一步所需的平均码长。2.3.4联合熵定义2-8联合集XY上,每对元素xy的自信息量的概率平均值定义为联合熵。联合熵又称为共熵。第2个关系第3个关系第1个关系2.3.5各种熵之间的关系“=”成立的条件是X和Y统计独立H(X,Y)=H(X)+H(Y),H(Y|X)=H(Y)2.3.6交叉熵和相对熵对同一个集合,两种不同分布之间的关系。定义2-9概率分布和之间的交叉熵定义为:通常P是事件集合真实的概率,Q是拟合的。含义:用拟合分布Q表示真实分布P时所需要的二进制位的个数的平均值。2.3.6交叉熵和相对熵定义2-10相对熵,又叫KL散度,定义为:相对熵和交叉熵有如下关系:含义:相对熵表示用拟合分布表示时,多出来的二进制位的个数。交叉熵与相对熵只相差H(P),认为两者之间没有本质区别相对熵一定大于等于0;交叉熵一定大于等于H(P)Q和P越接近,交叉熵和相对熵越小,因此两者可以用来衡量拟合分布Q与真实分布P的接近程度:越小拟合的越好。例2-14

通常将交叉熵H(P,Q)用作机器学习中分类问题的损失函数(损失函数是训练出的概率与真实概率之间的差别)。算法1的交叉熵算法2的交叉熵算法1的交叉熵小于算法2的交叉熵,说明算法1的预测值更接近实际值,算法1好于算法2。

猫青蛙老鼠标签010算法1的预测值0.30.60.1算法2的预测值0.30.40.32.4离散集的平均互信息量x1x2…xn和y1p(x1y1)p(x2y1)…p(xny1)p(y1)y2p(x1y2)p(x2y2)…p(xny2)p(y2)………………ymp(x1ym)p(x2ym)…p(xnym)p(ym)和p(x1)p(x2)…p(xn)1xip(y1|xi)=p(xiy1)/p(xi)p(y2|xi)=p(xiy2)/p(xi)…p(ym|xi)=p(xiym)/p(xi)p(xi)yjp(x1|yj)=p(x1yj)/p(yj)p(x2|yj)=p(x2yj)/p(yj)…p(xn|yj)=p(xnyj)/p(yj)p(yj)联合概率和先验概率后验概率条件概率2.4.1平均互信息量定义2-11平均互信息量互信息量的均值含义:知道了集合Y之后,平均Y中的一个事件消除掉的关于集合X中一个事件的不确定性。由集合Y中一个事件平均能够提供出来的关于集合X中一个事件的信息量。表示了两个集合之间关系的密切程度。平均互信息量的性质1

非负性I(X;Y)≥0互信息I(x;y)可正、可负、可为0平均互信息I(X;Y)可正、可为0何时为0?何时为0?x和y相互独立时X和Y相互独立时平均互信息量的性质2

互易性(对称性)I(X;Y)=I(Y;X)证明:对称性表明:从集合Y中获得的关于X的信息量(I(X;Y))等于从集合X中获得的关于Y的信息量(I(Y;X))。平均互信息量的性质3

极值性I(X;Y)

H(X)I(X;Y)

H(Y)证明:因为I(X;Y)=H(X)-H(X|Y),而且H(X|Y)0。平均互信息量的性质4

凸函数性平均互信息量是先验概率p(x)和后验概率p(y|x)的凸函数2.4.3平均互信息量和各类熵的关系回忆互信息量和自信息量的关系I(x;y)=I(x)-I(x|y)因此,猜想平均互信息量和熵之间有如下关系I(X;Y)=H(X)-H(X|Y)证明:同理:I(X;Y)=H(Y)-H(Y|X)由H(X,Y)=H(X)+H(Y|X),得I(X;Y)

=H(X)+H(Y)-H(X,Y)这些关系可以用维拉图表示I(X;Y)=H(X)-H(X|Y)的应用例2-15

机器学习训练数据中可能包含很多特征,如何选择?

4个特征,以及标签的概率分布特征和标签之间的条件概率序号特征1外表特征2性格特征3身高特征4上进标签1帅不好矮不上进不嫁2不帅好矮上进不嫁3帅好矮上进嫁4不帅非常好高上进嫁5帅不好矮上进不嫁6帅不好矮上进不嫁7帅好高不上进嫁8不帅好中上进嫁9帅非常

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论