下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息熵的直观理解1引言:要理解信息熵,其实并不难,因为生活中无处不是信息熵的体现。比如,假设你是一个伪球迷,对各国家足球队实力一点都不了解,问你冠军 赛两支队伍谁可能夺冠。首先经过你脑海的是,这两家国家队可能实力相当,用 概率学的说法,即两支球队夺冠的概率都是50%,那么结果就像是掷硬币,靠天 时地利人和,并无从考证一一我们设定这种情景为A。有一个足球评论员,对各足球对非常了解,然后告诉你此次冠军赛实力相差 悬殊,德国队近来年表现优秀,主帅勒夫策略非凡,而另外一支队伍已经有很多 届没有进入世界杯总决赛了;基于这些不完整信息,作为伪球迷的你,心理肯定 给德国队夺冠加分,假设这个时候你心理的夺冠概
2、率变成了德国队80%的夺冠率, 而另一支队伍只剩20%的夺冠率一一我们设定这种情景为A+。我们知道,比赛的结果只有一个,冠军也只有一支队伍。结果出来了,有人 跑过来准备跟你说到底谁夺冠了,如果你只是在A情境下,这个夺冠信息对你 肯定很有诱惑力,因为你本来就无法判断谁可能夺冠;如果你是在A+情境下, 这个夺冠信息对你来说多少有点失去新鲜,因为世界级的赛事,出差错的可能性 不高,所以你会觉得你其实已经大概知道了结果,听或不听没有太大意义。换种说法表述,晚上冠军赛开战,如果你身处情景A,你肯定比较好奇,势 均力敌的双方到底谁能夺冠;而如果你身处情景A+,你会觉得这是一场结果已 定的赛事,没有太大兴趣
3、。好的,举了这么一个例子,你应该已经开始恍然大悟了,信息会改变你对事 物的未知度和好奇心,信息量越大,你对事物越了解,你对事物的好奇心也会降 低,因为你对事物的确定性越高。至此,为了抽象这个模型,聪明的香农总结出 了信息熵这个概念。信息熵用以表示一个事物的非确定性,如果该事物的非确定 性越高,你的好奇心越重,该事物的信息熵就越高。我们先抛出信息熵的公式2:为什么是这个表达式,我们慢慢表述。信息熵和热力学熵对于熵(Entropy)的理解,学术讨论早就已经上升到哲学的范畴,我们只 是从最基本的角度去直观地理解这个概念。熵来源于热力学,是由鲁道夫克劳 修斯提出的,用来表示任何一种能量在空间中分布的混
4、乱程度,能量分布得越混 乱,熵就越大。一个体系的能量达到完全均匀分布时,这个系统的熵就达到最大 值。怎么直观地理解这个定义呢?比如一个热力学体系内,有一个冰块和一杯热 水,二者在独立的情况下,冰块和热水内部的分子状态是有差别的,冰块是固态, 分子主要是有限振动,而热水中分子快速做布朗运动。也就说,在这个热力学系 统中,有两个队伍存在,可以认为他们分别是有序的。如果把冰和热水混合在一 起,冰融化,水温会降低,最终他们的状态达到了一致,都成了凉水(这个有前 提,不赘述)。至此,系统从两个有序状态转向了无序状态,热力学系统就均匀 分布了,熵就增加了。这是一个最简单的例子。但是,大家都知道,熵的来源是
5、热力学第二定律,在热力学第一定律阐述了 能量是守恒的朴素定理后,热二的熵要表述的就是即使能量是守恒的,但是能量 引起的变化不一定是可以修复的。就好比冰化成了水,如果不引入外界系统做功, 水不可能再恢复到冰的状态一一也就说,这不是一个可逆的过程一一有没有像俗 语“说出去的话,像泼出去的水”。回顾历史,这是一个伟大的论断,解决了永动机是不可行的理论证明,探讨了宇 宙的熵增加宿命,甚至上升到了哲学层面。好的,从热力熵回到信息熵的理解。熵表述的是一种状态,信息熵表述的就是事 物的信息状态。事物的信息怎么定义呢?用我们最开始的例子解说,如果你确定一件事件的发生概率是100%,你认 为这件事情的信息量为0
6、 可不是吗,既然都确定了,就没有信息量了;相反, 如果你不确定这件事,你需要通过各种方式去了解,就说明这件事是有意义的, 是有信息量的。好的,你应该注意到了一个词“确定”。是的,信息熵表述的就 是事物的不确定程度。一场势均力敌的比赛结果的不确定性高于一场已经被看到 结果的比赛,多么符合直观理解啊!信息熵公式解析:从上面的直观表述,我们发现信息熵其实可以有很直观的表述,表征的是事物的 不确定性。继续抽象,我们应该定量表述事物的不确定性呢?这就是信息熵的数 学表述了。我们知道,合理的数据定理都需要满足数学自洽性验证,我们已经知道确定的事 件表述为P(A)=100%,则熵为0;假设一件事情,只有两种
7、可能,则概率分布 是P(A)和P(-A),其熵表述为H = -pjlogj Pj +G-该式子对应的数据分布是可以发现,但P(A)=0.5的时候,也就是事件结果最难预测的时候,信息熵 是最大的,值达到1 这同样是符合直觉判断的。那么,为什么求熵的时候用的是对数log2呢?这个就得从香农提出的信息熵使用的场景说起,大家都知道,香农提出的信 息熵是用户信息论的,而信息论主要解决的是通讯问题,所以说,信息熵是和计 算机通讯相关的理论。计算机的基本存储单位是二进制位,即1bit每个bit只 有两种表达一一0或1。如果一个事件有两种可能性,且概率均等,都为50%, 那么需要用1bit表示;如果有4种可能,且概率均等,则用2bit表示一一你会 发现,1bitffl好就是我们上面证明的H的最大值。这样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度食品生产与质量检验合同3篇
- 2024年度家居用品定制买卖合同2篇
- 2024年塔吊司机安全作业监督与责任追究合同2篇
- 2024年度物流公司司机入职合同范本
- 2024年度学校食堂食堂物流管理系统合同3篇
- 2024年度代理销售合同协议2篇
- 防水材料生产设备采购合同
- 食品加工与原料供应合同
- 二零二四年度广州市设备租赁合同标的为精密仪器
- 学校建设工程合同
- 名师工作室建设与管理方案
- 2025年营销部全年工作计划
- 新《安全生产法》安全培训
- 2024年度技术服务合同:人工智能系统的定制与技术支持3篇
- 山东省济南市2023-2024学年高一上学期1月期末考试 物理 含答案
- 中国音乐史(近代)(聊城大学)知到智慧树章节答案
- 肠外营养中电解质补充中国专家共识(2024版)解读
- 安全生产责任制考核制度附考核表
- 动物生物化学(华南农业大学)知到智慧树章节答案
- 机械CAD、CAM-形考任务二-国开-参考资料
- 共青团教育课件
评论
0/150
提交评论