机器学习中的各种熵_第1页
机器学习中的各种熵_第2页
机器学习中的各种熵_第3页
机器学习中的各种熵_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、机器学习中的各种熵熵通常被认为描述一个系统或者分布的不确定性,熵越大,系统越混乱,不确定性越大。机器学习与数据挖掘的算法中大量的应用了熵来评价例如结果的多样性、数据分布的纯净度等。比如在决策树模型中,使用信息熵来确定分割节点,即为了使每次划分后数据分布更纯净。在推荐多样性模块中,应用贪心法,每次计算加入一个商品后整体推荐商品list的熵,熵越大则推荐多样性越好。熵的定义:个随机变量的概率分布为:P(X=xi)=pi,i=1,2,3”.,n,即该随机变量可以取n个离散的值,如抛硬币为正反面两个值,P(X=正)=0.5,P(X=反)=0.5熵的定义为H(X)=对于二分类问题,熵的概率曲线为:Lnt

2、krfV11.U在伯努利分布中,(1,0)这种分布熵为0(不确定性最小),(0.5,0.5)这种分布熵最大条件熵:H(Y|X)定义为X给定条件下Y的条件概率分布的熵对X的数学期望:H(Y|X)二PfH(Y|X=(0.125,0.25,0.375,0.25)easel:在候选的列表里有(苹果,帽子,手机),需要添加哪一个?添加苹果的话,分布变为(2,2,3,2)=(2/9,2/9,1/3,2/9),D(苹果)=2/9*log(2/9)/(1/8)+2/9*log(2/9/(1/4)+1/3*log(1/3/(3/8)+2/9*log(2/9/(2/8)=0.03624967113471546添加

3、手机的话,分布变为(124,2)=(1/9,2/9,4/9,2/9)D(手机)=0.0100756632111可见要添加苹果。更一般的,在已选择商品列表里,哪个已经出现的次数最小,选择哪一个,则一定相对熵最大。#计算多样性模块中的相对熵importmathdefKL_diver(p1,p2):rela_entropy=0foriinrange(len(p1):rela_entropy+=p2i*mathog(p2i*1.0/p1i)print(rela_entropy)p1=0.125,0.25,0.375,0.25p2=2.0/9,2.0/9,3.0/9,2.0/9KL_diver(p1,p

4、2)0.03624967113471546case2:在候选的列表里有(苹果,帽子,柚子),需要添加哪一个?答案是柚子,在相对熵里面,如果一个元素本身没有出现在原分布里,则添加进已选列表分布,相对熵一定最大。也可以在原分布中赋予没有出现的柚子一个极小的值如0.001,这样再计算相对熵时候log(1/9)/0.001)能得到一个很大的值,自然就能选出之前不存在的柚子。TD-IDF算法就可以理解为相对熵的应用:词频在整个语料库的分布与词频在具体文档中分布之间的差异性。交叉熵:对于真实分布与非真实分布,计算公式为个例子假设对于一条样本,做二分类,真实分布为(1,0)=(y,1-y)模型预测为正类的打

5、分为0.7=p(sigmoid),则模型预测分布为(0.7,0.3)=(p,1-p),则交叉熵为1*Iog2(1/0.7)+0*Iog2(1/0.3)=0.3561*Iog2(1/0.7)+0*Iog2(1/0.3)=1*log2(1)-1*Iog2(0.7)+0*Iog2(1)-0*Iog2(0.3)=-(1*Iog2(0.7)+0*Iog2(0.3)更一般的形式y*Iog2(1/p)+(1-y)*Iog2(1/(1-p)=y*Iog2(1)-y*Iog2(p)+(1-y)*Iog2(1)-(1-y)*Iog2(1-p)=-(y*Iog2(p)+(1-y)*Iog2(1-p)观察逻辑回归的对数似然函数:/(=log(6?)=X(yJog(jf)+(l-yJlog(l-(xJ)LR-MLE括号内部对于单条样本的似然函数的值即为对于该条样本,真实分布与非真实分布的交叉熵的负数因此:最大化似然函数=减少交叉熵(交叉熵越小,与真实分布越接近,交叉熵最小为真实分布的熵,对于二分类,真实分布(1,0)的熵为0)在逻辑回归里的说法:最大化对数似然函数=最小化损失函数通常将上式中的对数似然函数取一个符号,作为损失函数,即如下式子:1m=-一工沪)1宠伽(怡)+加砂)in_t=lLR-lossfunction可见,该式子与上面标红的交叉

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论