分类自然语言中的重要技术课件_第1页
分类自然语言中的重要技术课件_第2页
分类自然语言中的重要技术课件_第3页
分类自然语言中的重要技术课件_第4页
分类自然语言中的重要技术课件_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类IRLAB1感谢你的观看2019年8月25分类IRLAB1感谢你的观看2019年8月25大纲自然语言中的重要技术决策树最大熵模型K近邻2感谢你的观看2019年8月25大纲2感谢你的观看2019年8月25自然语言中的分类问题3感谢你的观看2019年8月25自然语言中的分类问题3感谢你的观看2019年8月25分类的一般过程训练集数学模型训练过程测试集评价精确率,宏平均,微平均4感谢你的观看2019年8月25分类的一般过程训练集4感谢你的观看2019年8月25本课介绍的几种方法决策树最大熵模型K近邻5感谢你的观看2019年8月25本课介绍的几种方法决策树5感谢你的观看2019年8月25决策树简介决策树表示法决策树学习的适用问题基本的决策树学习算法决策树学习中的假想空间搜索决策树学习的常见问题6感谢你的观看2019年8月25决策树简介6感谢你的观看2019年8月25简介决策树方法的起源是概念学习系统CLS,然后发展到ID3方法而为高潮,最后又演化为能处理连续属性的C4.5。有名的决策树方法还有CART和Assistant。是应用最广的归纳推理算法之一一种逼近离散值目标函数的方法对噪声数据有很好的健壮性且能学习析取表达式7感谢你的观看2019年8月25简介决策树方法的起源是概念学习系统CLS,然后发展到ID3方决策树的表示法决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值8感谢你的观看2019年8月25决策树的表示法决策树通过把实例从根节点排列到某个叶子节点来分图9感谢你的观看2019年8月25图9感谢你的观看2019年8月25表达式10感谢你的观看2019年8月25表达式10感谢你的观看2019年8月25决策树学习的适用问题实例是由属性-值对表示的目标函数具有离散的输出值可能需要析取的描述训练数据可以包含错误训练数据可以包含缺少属性值的实例11感谢你的观看2019年8月25决策树学习的适用问题实例是由属性-值对表示的11感谢你的观看属性选择构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子,可以有很多决策树能符合这组例子。人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。由于构造最小的树是NP-难问题,因此只能采取用启发式策略选择好的逻辑判断或属性。

12感谢你的观看2019年8月25属性选择构造好的决策树的关键在于如何选择好的逻辑判断或属性。用熵度量样例的均一性(纯度)熵的定义举例13感谢你的观看2019年8月25用熵度量样例的均一性(纯度)熵的定义13感谢你的观看201914感谢你的观看2019年8月2514感谢你的观看2019年8月25用信息增益度量期望熵最低15感谢你的观看2019年8月25用信息增益度量期望熵最低15感谢你的观看2019年8月25举例16感谢你的观看2019年8月25举例16感谢你的观看2019年8月2517感谢你的观看2019年8月2517感谢你的观看2019年8月2518感谢你的观看2019年8月2518感谢你的观看2019年8月2519感谢你的观看2019年8月2519感谢你的观看2019年8月2520感谢你的观看2019年8月2520感谢你的观看2019年8月25ID3算法创建树的Root结点如果Examples都为正,那么返回label=+中的单结点Root如果Examples都为反,那么返回lable=-单结点树Root如果Attributes为空,那么返回单节点树Root,lable=Examples中最普遍的目标属性值否则开始

AAttributes中分类能力最好的属性

Root的决策属性A

对于每个可能值 在Root下加一个新的分支对应测试A=vi

令Example-vi为Examples中满足A属性值为vi的子集 如果Examples-vi为空 在这个新分支下加一个叶子结点,节点的lable=Examples中最普遍的 目标属性值 否则在这个新分支下加一个子树ID3(example-vi,target- attribute,attributes-|A|结束返回Root21感谢你的观看2019年8月25ID3算法创建树的Root结点21感谢你的观看2019年8月C4.5C4.5是对ID3的改进算法对连续值的处理对未知特征值的处理对决策树进行剪枝规则的派生22感谢你的观看2019年8月25C4.5C4.5是对ID3的改进算法22感谢你的观看2019决策树学习中的假设空间搜索假设空间ID3算法中的假设空间包含所有的决策树当遍历决策树空间时,ID3仅维护单一的当前假设。基本的ID3算法在搜索中不进行回溯ID3算法在搜索的每一步都使用当前的所有训练样例23感谢你的观看2019年8月25决策树学习中的假设空间搜索假设空间23感谢你的观看2019年决策树学习的常见问题(1)避免过度拟合数据基本的决策树构造算法没有考虑噪声,生成的决策树完全与训练例子拟合。有噪声情况下,完全拟合将导致过分拟合(overfitting),即对训练数据的完全拟合反而不具有很好的预测性能。

24感谢你的观看2019年8月25决策树学习的常见问题(1)避免过度拟合数据24感谢你的观看2解决方法剪枝是一种克服噪声的技术,同时它也能使树得到简化而变得更容易理解。向前剪枝(forwardpruning)向后剪枝(backwardpruning)

理论上讲,向后剪枝好于向前剪枝,但计算复杂度大。剪枝过程中一般要涉及一些统计参数或阈值,如停机阈值;有人提出了一种和统计参数无关的基于最小描述长(MDL)的有效剪枝法25感谢你的观看2019年8月25解决方法剪枝是一种克服噪声的技术,同时它也能使树得到简化而变决策树学习的常见问题(2)合并连续值属性属性选择的其他度量标准信息增益比(gainratio)、Gini-index、距离度量(distancemeasure)等。不同的度量有不同的效果,特别是对于多值属性。26感谢你的观看2019年8月25决策树学习的常见问题(2)合并连续值属性26感谢你的观看20决策树学习的常见问题(3)处理缺少属性值的训练样例处理不同代价的属性27感谢你的观看2019年8月25决策树学习的常见问题(3)处理缺少属性值的训练样例27感谢你决策树的优点可以生成可以理解的规则;计算量相对来说不是很大;可以处理连续和离散字段;决策树可以清晰的显示哪些字段比较重要

28感谢你的观看2019年8月25决策树的优点可以生成可以理解的规则;28感谢你的观看2019不足之处对连续性的字段比较难预测当类别太多时,错误可能会增加的比较快一般的算法分类的时候,只是根据一个属性来分类。不是全局最优。

29感谢你的观看2019年8月25不足之处对连续性的字段比较难预测29感谢你的观看2019年8举例:利用决策树进行文本分类30感谢你的观看2019年8月25举例:利用决策树进行文本分类30感谢你的观看2019年8月2最大熵模型熵定量的描述事物的不确定性设随机变量,它有A1,A2,…,An共n个可能的结局,每个结局出现的机率分别为p1,p2,...,pn,则的不确定程度,即信息熵为:

熵越大,越不确定熵等于0,变量是确定的31感谢你的观看2019年8月25最大熵模型熵定量的描述事物的不确定性31感谢你的观看2019最大熵思想最大熵思想由来已久,Occam在他著名的Occam剃刀理论中即体现了这种思想,对最大熵理论的系统论述出现在上世纪50年代中期,由E.T.Jaynes提出,其原理的基本思想是:我们从全部相容的分布预测中挑选这样的预测,它是在某些约束条件下(通常是给定的某些随机变量的分布)使信息熵达到极大值。这是因为信息熵取得极大值时对应的一组概率分布出现的概率占绝对优势。

32感谢你的观看2019年8月25最大熵思想最大熵思想由来已久,Occam在他著名的Occam在自然语言中的应用S.Pietra、V.Pietra等人提出了一种基于最大熵原理的单词聚类方法,首次将最大熵理论应用于自然语言处理。A.L.Berger、S.Pietra、V.Pietra等人比较详细地介绍了最大熵的理论框架,并介绍了其在基于统计的机器翻译领域的一些应用。S.Abney在统计属性--值文法(Attribute-valueGrammars)中使用最大熵进行参数估计。李涓子、黄昌宁改进了最大熵的特征选择策略,并将其应用于汉语的词义消歧,取得了较好的效果A.Borthwick研究了基于最大熵的名实体(NamedEntity)的识别

33感谢你的观看2019年8月25在自然语言中的应用S.Pietra、V.Pietra等人提出最大熵模型已知训练样本集(x1,y1),(x2,y2),…,(xN,yN),其中x为输入,y为输出

指x出现的情况下,y的经验概率,也就是y在样本集中的概率。指x出现的情况下,y的实际概率。随机事件的不确定性可以用条件熵来衡量:特征指x与y之间存在的某种特定关系,可以用一个输出为0或1的特征函数表示。

34感谢你的观看2019年8月25最大熵模型已知训练样本集(x1,y1),(x2,y2),…,最大熵模型特征的经验概率为所有满足特征要求的(x,y)的验概率之和,即:特征的期望概率,也就是特征在我们所学习的随机事件中的真实分布为:

35感谢你的观看2019年8月25最大熵模型35感谢你的观看2019年8月25最大熵模型选定的特征的重要性可通过下式体现:上式表示,特征f的经验概率与期望概率一致,当样本足够多时,可信度高的特征的经验概率与期望概率是一致的

36感谢你的观看2019年8月25最大熵模型选定的特征的重要性可通过下式体现:36感谢你的观看约束集根据随机事件的情况,约束等式可以有多组,约束等式的集合叫约束集,可表示为37感谢你的观看2019年8月25约束集根据随机事件的情况,约束等式可以有多组,约束等式的集合最大熵模型最大熵模型,是满足约束集条件的所有模型中熵最大的模型,即:

其中p为满足约束集C条件的某一统计模型。因为约束集中的每一个特征的分布是最大似然估计,所以约束集中元素越多,统计模型从训练样本中学得的越多,其做出的预测也越依赖于样本集。选择特征较多时,满足约束集要求的统计模型个数较少,当把样本中的所有(x,y)都作为特征时,模型唯一,为用极大似然估计求p(y|x)所建立的模型。

38感谢你的观看2019年8月25最大熵模型最大熵模型,是满足约束集条件的所有模型中熵最大的模最大熵模型求解

最大熵模型求解问题,实质是一个约束条件下求极值的问题。此类问题通常用拉格朗日乘子法确定。其中:39感谢你的观看2019年8月25最大熵模型求解最大熵模型求解问题,实质是一个约束条件下求极求导后变换得

其中最大值可通过求

40感谢你的观看2019年8月25求导后变换得40感谢你的观看2019年8月25

没有解析解,Danroch和Rateliff于1972年提出了一个称为GIS(GeneralizedIterativeScalingAlgorithm)算法[133]。D.Pietra等改进了原有的最大熵模型求解算法,降低了求解算法的约束条件,提出了IIS(ImprovedIterativeScalingAlgorithm)算法,增加了算法的适用性,IIS算法是目前最大熵参数求解中的常用算法。

41感谢你的观看2019年8月25没有解析解,Danroch和Rateliff于1972IIS算法IIS算法如下:输入:约束集,

x,y的经验概率分布输出:1、

初始令,2、

fori=1ton

循环a)

令为下面方程的解其中,由(3-3)对f的定义可知在本文中为某一实例(x,y)包含的特征数量。b)

c)

重复

a)至收敛3、

算法结束42感谢你的观看2019年8月25IIS算法IIS算法如下:42感谢你的观看2019年8月25这里求解使用牛顿迭代法

43感谢你的观看2019年8月25这里求解使用牛顿迭代法43感谢你的观看2019年8月25迭代算法1初始令

i=0,ai=023

当,i++,循环至2,4

算法结束,为方程解,=。44感谢你的观看2019年8月25迭

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论