统计自然语言处理-第二章-预备知识_第1页
统计自然语言处理-第二章-预备知识_第2页
统计自然语言处理-第二章-预备知识_第3页
统计自然语言处理-第二章-预备知识_第4页
统计自然语言处理-第二章-预备知识_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章预备知识统计自然语言处理CompanyLogo第二章预备知识概率论基本概念1信息论基本概念2支持向量机3CompanyLogo2.1概率论基本概念2.1.1概率2.1.2最大似然估计2.1.3条件概率2.1.4贝叶斯法则2.1.5随机变量2.1.6二项式分布2.1.7联合概率分布和条件概率分布2.1.8贝叶斯决策理论2.1.9期望和方差CompanyLogo2.1.1概率CompanyLogo2.1.2最大似然估计

2.1.2最大似然估计CompanyLogo2.1.3条件概率CompanyLogo2.1.3条件概率CompanyLogo2.1.3条件概率由上公式可得称为概率的乘法定理或乘法规则。其一般形式表示为这一规则在自然语言处理中使用得非常普遍。CompanyLogo2.1.3条件概率条件概率的三个基本性质:(1)非负性(2)规范性(3)可列可加性如果事件两两互不相容,则CompanyLogo2.1.4贝叶斯法则CompanyLogo2.1.4贝叶斯法则当n=1时CompanyLogo2.1.4贝叶斯法则注:(arg

max{X}表示使得X最大的参数)CompanyLogo2.1.4贝叶斯法则CompanyLogo2.1.4贝叶斯法则2.1.5随机变量随机变量(randomvariable)

一个随机试验可能有多种不同的的结果,到底会出现哪一种,存在一定的概率,即随机会而定。简单地说,随机变量就是试验结果的函数。设X为一离散型随机变量,其全部可能的值为。那么,称为X的概率函数。显然,,有时也称为随机变量X的概率分布,此时,函数,称为X的分布函数。CompanyLogo2.1.6二项式分布CompanyLogo2.1.6二项式分布CompanyLogo2.1.6二项式分布2.1.7联合概率分布和条件概率分布联合概率分布(jointdistribution)

假设为一个二维的离散型随机变量,全部可能的取值为;全部可能的取值为那么,的联合概率分布为条件概率分布

一个随机变量或向量X的条件概率分布就是在某种给定的条件之下X的概率分布。考虑在给定条件下的概率分布,实际是求条件概率根据条件概率的定义可得

2.17联合概率分布和条件概率分布由于,故有类似地,

CompanyLogo2.1.8贝叶斯决策理论贝叶斯决策理论是统计方法处理模式分类问题的基本理论之一CompanyLogo2.1.8贝叶斯决策理论CompanyLogo2.1.9期望和方差CompanyLogo2.1.9期望和方差2.2信息论的基本概念2.2.1熵2.2.2联合熵和条件熵2.2.3互信息2.2.4相对熵2.2.5交叉熵2.2.6困惑度2.2.7噪声信道模型CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.2联合熵和条件熵CompanyLogo2.2.2联合熵和条件熵CompanyLogo2.2.2联合熵和条件熵CompanyLogo2.2.2联合熵和条件熵

2.2.2联合熵和条件熵2.2.2联合熵和条件熵2.2.2联合熵和条件熵

2.2.2联合熵和条件熵2.2.2联合熵和条件熵

2.2.2联合熵和条件熵2.2.2联合熵和条件熵2.2.2联合熵和条件熵

2.2.2联合熵和条件熵

2.2.2联合熵和条件熵2.2.2联合熵和条件熵

2.2.2联合熵和条件熵

2.2.2联合熵和条件熵

2.2.3互信息

2.2.3互信息2.2.3互信息2.2.4相对熵

2.2.4相对熵

2.2.4相对熵互信息实际上就是衡量一个联合分布与独立性差距多大的测度:证明:2.2.5交叉熵

2.2.5交叉熵

2.2.5交叉熵

2.2.6困惑度在自然语言处理中,我们所说的语言模型的困惑度通常是指语言模型对于测试数据的困惑度。一般情况下将所有的数据分成两部分,一部分作为训练数据,用于估计模型的参数;另一部分作为测试数据,用于评估语言模型的质量。

2.2.7噪声信道模型

2.2.7噪声信道模型

2.2.7噪声信道模型

2.2.7噪声信道模型

2.2.7噪声信道模型

2.2.7噪声信道模型

2.2.7噪声信道模型

2.3支持向量机2.3.1线性分类2.3.2线性不可分2.3.3构造核函数

2.3支持向量机支持向量机(supportvectormachine,SVM)

支持向量机是近几年来发展起来的新型分类方法,是在高维特征空间使用线性函数假设空间的学习系统,在分类方面具有良好的性能。在自然语言处理中,SVM广泛应用于短语识别、语义消歧、文本自动分类和信息过滤等方面。

2.3.1线性分类两类问题(正类和负类)的分类通常用一个实数函数(n为输入维数,R为实数)。通常执行如下操作:当时,将输入赋给正类,否则,将其赋给负类。当是线性函数时,可以写成如下形式其中,是控制函数的参数,决策规则由函数给出,通常2.3.1线性分类

该分类方法的几何解释是,方程式定义的超平面将输入空间分成两半,一半为负类,一半为正类。当b的值变化时,超平面平行移动。

2.3.2线性不可分

对于非线性问题,可以把样本映射到某个高维特征空间,在高维特征空间中使用线性学习器。因此,假设集是如下类型的函数:其中,是从输入空间到某个特征空间的映射。也就是说,建立非线性分类器需要分两布:首先使用一个非线性映射函数将数据变换到一个特征空间F,然后在这个特征空间上使用线性分类器。

2.3.2线性不可分

线性分类器的一个重要性质是可以表示成对偶形式,这意味着假设可以表达为训练点和线性组合,因此,决策规则(分类函数)可以用测试点和训练点的内积来表示:其中,是样本数目;是个正值导数,可通过学习获得;为类别标记。如果有一种方法可以在特征空间中直接计算内积,就像在原始输入点的函数中一样,那么,就有可能将两个步骤融合到一起建立一个非线性分类器。这样,在高维空间内实际上只需要进行内积运算,而这种内积运算是可以利用原空间中的函数实现的,我们甚至没有必要知道变换的形式。这种直接计算的方法称为核函数方法。2.3.4构造核函数

定义核是一个函数,对所有满足:这里的是从到(内积)特征空间的映射。一旦有了核函数,决策规则就可以通过对核函数的次计算得到:那么,这种方法的关键就是如何找到一个可以高效计算的核函数。

2.3.3构造核函数

核函数要适合某个特征空间必须是对称的,即并且,满足下面的不等式:其中,是欧式模函数。但是,这些条件对于保证特征空间的存在是不充分的,还必须满足Mercer定理的条件,对X的任意有限子集,相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论