《人工智能及其应用》课件第12章 自然语言处理_第1页
《人工智能及其应用》课件第12章 自然语言处理_第2页
《人工智能及其应用》课件第12章 自然语言处理_第3页
《人工智能及其应用》课件第12章 自然语言处理_第4页
《人工智能及其应用》课件第12章 自然语言处理_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第12章自然语言处理

LISP语言是AI的数学,不仅对AI的机器实现更有意义,而且是AI理论研究的重要工具。——温斯顿12.1语言模型

12.1语言模型

12.1语言模型

12.1.2模型评估

12.1.2模型评估

12.1.3n元单词模型

从字符模型转向元单词模型。单词模型和字符模型有着相同的机制,主要的区别在于词汇,构成语料和模型的符号集合,比字符模型更大。

大多数语言只有大约100个字符,有时我们还可以构建更受限的模型,例如,把“A”和“a”视为同一符号,也可以把所有的标点视为同一符号。而对于单词模型来说,至少有数以万计的符号,有时甚至上百万。

符号之所以这样多,是因为很难说清楚单词到底是由什么构成的。在英语中,由前后空格分隔的字母序列构成了单词。12.1.3n元单词模型n元单词模型需要处理词汇表以外的单词。在字符模型中,我们不必担心有人会发明字母表中的新字母。

单词模型中,总是有可能出现训练语料中没有的单词,所以我们需要在语言模型中明确地对其建模。

通过向词汇表中添加一个新的单词<UNK>来解决,<UNK>表示未知的单词。我们可以按照下面的方法对<UNK>进行n元模型评估:遍历训练语料,每个单词的第一次出现都作为未知的单词,就用<UNK>替换它。

这个单词后来所有的出现仍保持不变。然后把<UNK>和其他单词一样对待,按原来的方法计算语料的n元数值。

当一个未知的单词在出现在测试集中时,我们将其视为<UK>的来查找概率。有时我们会按照单词的不同类别,分别使用多个不同的未知单词符号。例如,所有数字串可以替换为<NUM>,所有电子邮件地址替换成<EMAIL>。12.2文本分类

12.2文本分类

另一种方法是机器学习方法,我们把邮件信息看成是一组特征/值对,分类算法h根据特征向量X进行判断。我们可以将n元组作为特征,这样语言模型和机器学习两种方法就可以融合了。

这一思想用一元模型最容易理解。在词汇表中的单词就是特征:“a”、“aardvark”、…,特征的值就是每个单词在邮件信息中出现的次数。12.2文本分类

一旦我们选定了特征集,我们便能运用我们所知道的任何监督学习技术,比较流行的文本分类方法包括:k-最近邻(k-nearest-neighbors.)、支持向量机(supportvectormachines)、决策树(decisiontrees)、朴素贝叶斯(naiveBayes)以及逻辑回归(logisticregression)。

所有这些方法都已被应用到垃圾邮件检测中,通常准确率在98%~99%之间。如果精心设计特征集,准确率可以超过99.9%。12.3信息检索

信息检索(Informationretrieval)的任务是寻找与用户的信息需求相关的文档。万维网上的搜索引擎就是一个众所周知的信息检索系统的例子。

一个信息检索(即IR)系统具有如下特征:1.文档集合,每个系统都必须确定其需要处理的文档,一个段落文本、一页文本还是多页文本。2.使用查询语言描述的查询,查询描述了用户想知道的内容。

查询语言可以是一个单词列表,如[AIbook];可以是必须连续出现的单词短语,如[“AIbook”];也可以包含布尔运算符,如[AIandBook]。12.3信息检索3.结果集合

该集合是文档集合的子集,包含了IR系统判断的与查询相关的那部分文档。所谓“相关”,是指对提出查询的人有用,符合查询中表达的特定信息需求。4.结果集合的展示

结果集合可以简单地用有序的文档标题列表来展示,也可以采取复杂的展示方法,如将结果集合的旋转彩色图像映射到一个三维空间中,以作为一种二维表示的补充。12.3.1IR评分函数

评分函数根据文档和查询计算并返回一个数值得分,最相关的文档的得分最高。在BM25函数中,得分是由构成查询的每个单词的得分进行线性加权组合而成。有三个因素会影响查询项的权重:

第一,查询项在文档中出现的频率(也记为TF,表示词项频率(termfrequency))。对于查询[farminginKansas],频繁提到“farming”的文档会得到较高分数。

第二,词项的文档频率的倒数,也记为IDF。单词“in”几乎出现在每一个文档中,所以它的文档频率较高,因而文档领率的倒数较低,所以“in”没有查询中的“farming”和“Kansas”重要。

第三,文档的长度。包含上百万单词的文档很可能提到所有查询中的单词,但实际上这类文档不一定真正与询问相关,而提到所有查询单词的短文档应当是更好的相关文档候选。12.3.2IR系统评价

传统上,在评分时有两个度量指标,召回率(recall)和准确率(precision)。

某个IR系统对某个查询返回一个结果集合,语料库由100篇文档组成,对于该查询,我们已经知道语料库中哪些文档是相关的、哪些是不相关的。每个类别的文档统计结果如下表所示。12.3.2IR系统评价

12.3.3PageRank算法

网页排名旨在解决TF评分问题:如果查询为[IBM],我们如何保证BM的主页是第一条搜索结果,即使存在其他的网页更频繁地出现词语“IBM”?

其思想是有很多导入链接(in-links,指向该页面的链接),所以它的排名应该更高,每一个导入链接都可以看成是为所链接到的页面投了一票。

如果我们只计算导入链接,就可能会有垃圾网页制造者创建一个页面网络,并把所有网页都链接到他想要的网页上,从而提高该网页的得分。12.4.1基于有限状态自动机的信息抽取

最简单的信息抽取系统被称为基于属性的抽取(attribute-basedextraction)系统,因为它假设整个文本都是关于单一对象的,而系统的任务就是抽取该对象的属性。

针对每个需要抽取的属性定义一个模板。模板可以用有限状态自动机定义,最简单的例子就是正则表达式(regularexpression或regex)。12.4.1基于有限状态自动机的信息抽取

关系抽取系统可以由一组级联有限状态转换器(cascadedfinite-statetransducers)构成。

系统由一系列小而有效的有限状态自动机(FSAs)组成,其中每个自动机接受文本作为输入,将文本转换成一种不同的格式,并传送给下一个自动机。FASTUS由以下5个阶段组成:1.符号分析(Tokenization)2.复合词处理3.基本词组处理4.复合短语处理5.结构合并12.4.2信息抽取的概率模型

12.4.2信息抽取的概率模型

在抽取中HMM相比FSA有两大优势。

第一,HMM是概率模型,因而可以抗噪声。在正则表达式中,哪怕一个预期的字符丢失,正则表达式的匹配也会失败;

使用HMM可以很好地对丢失的字符或单词进行退化处理(degradation),我们还可以用概率值表示匹配的程度,而不仅仅是用布尔值来表示匹配成功或失败。

第二,HMM可以用数据训练得到,而无需构造模板的繁重工程,因此,模型就能够方便地适应随着时间不断变化的文本。12.4.3基于条件随机场的信息抽取

12.4.3基于条件随机场的信息抽取

12.4.3基于条件随机场的信息抽取

12.5短语结构语法

12.5短语结构语法

12.5短语结构语法

12.5短语结构语法

12.6机器翻译

12.6机器翻译

12.6机器翻译

学习短语概率和扭曲度概率这两个问题,过程如下:(1)找到平行文本

首先,搜集双语平行语料库。例如,Hansard记录了议会的辩论。加拿大、香港以及其他国家和地区建立了双语的Hansard,欧盟以11种语言发布其官方文件,而联合国也发布多种语言版本的文件。

双语语料也可从网上获得,一些网站也通过平行的URL发布平行的内容。(2)分割句子

翻译的单位是句子,因此我们必须把语料分割为句子。句号是很强的句子结尾的标志。

一种确定句号是否表示句子结束的方法,是根据句号附近单词及其词性特征训练一个模型,该方法的准确率可达到98%。12.6机器翻译

学习短语概率和扭曲度概率这两个问题,过程如下:(3)句子对齐

对于英语语料中的每个句子,找出汉语料中与之对应的句子。通常,英语句子和汉语句子是1:1对应的,但在有些时候也有变化:某种语言的一个句子可以被分割,从而形成2:1对应,或者两个句子的顺序相互交换,从而导致2:2对应。

当仅考虑句子的长度时(即短句应该和短句对齐),对齐这些句子是可能的(1:1,1:2,2:2等),利一种维特比算法(Viterbialgorithm)的变种可以达到99%的准确度。

如果使用两种语言的公共标志,比如数字、日期、专有名词以及我们从双语词典中获得的无歧义的单词,可以实现更好的对齐效果。12.6机器翻译

12.7小结

基于n元概率语言模型能够获得数量惊人的有关语言的信息。该模型在语言识别拼写纠错、体裁分类和命名实体识别等很多任务中有良好的表现。这些语言模型拥有几百万种特征,所以特征的选择和对数据进行预处理减少噪音显得尤为重要。

文本分类可采用朴素贝叶斯”元模型或者我们之前讨论过的分类算法。分类也可以看成是数据压缩问题。信息检索系统使用一种简单的基于词袋的语言模型,它在处理大规模文本语料时,在召回率和准确率上也有好的表现。在万维网语料上,链接分析算法能够提升性能。12.7小结

信息抽取系统使用更复杂的模型,模板中包含了有限的语法和语义信息。系统可以采取有限状态自动机、HMM或条件随机领域进行构建,并且从示例中进行学习。

构建统计语言系统时,最好是设计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论