版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、复 旦 大 学学 士 毕 业 论 文题目:最大熵模型和条件随机场在自然语言处理中的应用系 别: 计算机科学与技术系专 业: 计算机科学与技术姓 名: 徐智婷指导教师: 张玥杰2008 年 5 月 31 日中文摘要中文自然语言处理中有最基本的三个问题:分词、命名体识别和词性标注。中文不同于英文,因为中文词间没有空格,于是中文自然处理比英文困难得多。 本文讨论了最大熵模型和条件随机场在中文自然语言处理中的应用。针对 每个模型,本文首先介绍数学背景以及模型的推导,然后介绍实现中的相应细 节,最后介绍如何将模型应用在中文自然语言处理中。针对命名体识别,本文详细介绍了如何基于领域知识抽取特征,并且介绍了
2、全局特征的应用。本文使用人民日报和sighan bakeoff 4两个语料集进行实验。实验结果 表明条件随机场无论从查全率和查准率都较最大熵模型更好,并且领域知识能 平滑模型,并在一定程度上缓解过拟合问题。关键词:最大熵模型,条件随机场,局部特征,全局特征,分词,命名体识别,词性标注iabstractthere are three basic problems in chinese natural language processing: seg- mentation, named entity recognition and part-of-speech tagging. chinese d
3、iffers a lot from english as there is no blank between chinese words, and thus it is much harder to handle with chinese.this paper discusses maximum entropy model and conditional random fields for chinese natural language processing. for each model, we first introduce mathe- matical ideas and induct
4、ions. then, we introduce details of implementation, and finally, we introduce features we used for the problems. this paper introduces how to extract features from domain knowledge, and the usage of global features.this papers experiments based on peoples daily and sighan bakeoff 4. the results show
5、 that conditional random fields perform better than maximum entropy model on both precision and recall. besides, domain knowledge can help to smooth the model, and help to overcome the problem of overfitting.key words: maximum entropy model, conditional random fields, local features, global features
6、, segmentation, named entity recognition, part-of- speech taggingiii目 录第 1 章 绪论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 本文研究的背景和意义 . . . . . . . . . . . . .
7、. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 国内外研究历史现状及其分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 本文研究工作概述 . . . . . . . . . . . . . . . .
8、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.4 本文的组织结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2第 2 章 最大熵模型
9、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.1 最大熵模型概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10、. . . . . . . . . . . . . . . . 32.1.1 条件最大熵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.1.2 特征 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.1.3 特征模板. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 最大熵模型的理论推导 . . . . . . . . . . .
12、. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 优化方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13、62.3.1 gis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.3.2 iis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14、. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.4 最大熵模型在自然语言处理中的应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7第 3 章 条件随机场 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.1 条件随机场的思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2 条件随机场的推断 . . . . . . . . . . . . . . . . . . . . . . .
16、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.3 条件随机场的参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.4 优化方法 . . . . . . . . . . . . . . . .
17、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.4.1 newton法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18、 . . . . . . . 133.4.2 bfgs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.4.3 lbfgs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19、. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.5 条件随机场在自然语言处理中的应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17第 4 章 实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20、. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.1 实验数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2 实验结果 . . . . . . . . .
21、. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2.1 最大熵模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22、. . . . . . . . . . . 21vi4.2.2 条件随机场 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.2.3 sighan bakeoff 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3 实验结果分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 第 5 章 总结和展望 . . . . . . . . . . . . . . . . . . . . . . . . . . .
24、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25、 . 29 致 谢 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 声 明 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 在学期间参加课题的研究成果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35第 1 章 绪论1.1 本文研究的背景和意义自然语言处理是计算机科学领域与人
27、工智能领域中的一个重要方向。它研 究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。语言是 人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类 的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的 绝大部分知识也是以语言文字的形式记载和流传下来的。因而,它也是人工智 能的一个重要,甚至核心部分。用自然语言与计算机进行通信,这是人们长期以 来所追求的。因为它既有明显的实际意义,同时也有重要的理论意义:人们可以 用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很 自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和
28、智能的机制。大约90年代开始,自然语言处理领域发生了巨大变化。这种变化的两个明显的特征是:1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而 不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研 制的系统才有真正的实用价值。2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求 能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然 语言文本进行自动地提取索引词,过滤,检索,自动提取重要信息,进行自动摘 要等等。1.2 国内外研究历史现状及其分析许多自然语言问题可以归结为一个分类问题。比如在词性标注任务中,目标 就是在候选词性集
29、合中选取一个词性作为目标词的词性。而常用的分类器以及 语言模型有隐马可夫模型(hidden markov model)、最大熵模型(maximum entropy model)、贝叶斯网络(bayesian network)、adaboost 以及近年新兴的支持向量19复旦大学学士毕业论文机(support vector machine)、最大熵隐马(maximum entropy markov model)、条件随机场(conditional random fields)、最大间隔马尔可夫场(max-margin markov network)等。每个模型以及估参方法都有其特点以及适用场合;
30、但是一个好的分 类器应该有较强的表达能力,即能融合各种类型的特征以及找出各种特征之间 的联系并在估计参数时充分考虑到这些联系。1.3 本文研究工作概述本文以中文信息处理中最基本的问题之一,命名体识别为任务,比较了最大 熵模型和条件随机场的性能。本文还比较了不同特征(局部特征和全局特征)对 准确度以及召回率的影响。此外,本文还使用sighan bakeoff 4提供的语料,报告了条件随机场处理结合多种特征处理分词、命名体识别以及词性标注的性能表现。1.4 本文的组织结构本文首先在第2章中介绍最大熵模型,并且简单介绍其在自然语言处理中的 应用。并在第3章中介绍条件随机场的由来、原理以及在自然语言处
31、理中的应用。 在第4章中介绍实验设计,报告实验结果,并对结果进行分析。最后在第5章总结 全文。第 2 章 最大熵模型2.1 最大熵模型概述最大熵概念最早由jaynes, 1957 4一文提出,并且在berger, et al. 1996 1一 文中首次被应用在自然语言处理中。之后最大熵模型被广泛应用到各个自然语 言处理的任务中,并在在原模型基础上在计算方面不断得到优化。最大熵模型 的核心思想是遵循最大熵原理进行建模,即在满足约束的模型中选择熵最大的 模型。作为一种可区分性模型,最大熵模型的优点之一是可融合多种特征于一个 模型,并且可以直接对这些特征直接对后验进行建模。此外,最大熵模型的分布 为
32、指数族分布,具有良好的分析性质,对计算带来方便。2.1.1 条件最大熵很多自然语言处理可以看作为一个分类问题,而最大熵模型是一种可区 分性模型,即直接对p(y|x)进行建模。这里的x表示上下文,而y表示分类。我们 用p表示所有可能的分布,而最大熵模型得到的分布p(y|x)只是p中的一个元素。2.1.2 特征在有了训练集合后,我们希望从训练集中寻找到有用的统计量,并用这些统计量来训练模型。最大熵模型中是通过特征的统计量来选择一个分布。在berger, et al.1996 1一文中,特征被定义为一个二值函数: 1:如果x和y满足一定条件f (x, y) = 0:其他情况需要注意的是,这里的x是整
33、个上下文,而并非仅仅是目标词。(公式 2-1)特征考虑一个例子:记者王大勇,假设已经分过词,当前词为王大勇,前接复旦大学学士毕业论文词为记者。根据式3-1,可以定义一条特征为:f (x, y) = 1:如果x1为记者并且y为人名 0:其他情况最大熵模型认为特征是从训练集中得到可靠的证据,因此限制训练集中特征的期望要等于模型中特征的期望。从训练集中得到的特征期望为:p( f ) x p(x, y) f (x, y)(公式 2-2)x,y而模型中 f 的期望为p( f ) x p(x) p(y|x) f (x, y)(公式 2-3)x,y这里的p(x)为x在训练集中的分布。最大熵模型限制这个期望等
34、于训练集中 f 的期望,即,p( f ) = p( f )(公式 2-4)结合式3-2和式3-3,我们得到限制:x p(x) p(y|x) f (x, y) = x p(x, y) f (x, y)x,yx,y2.1.3 特征模板根据式3-1定义的特征如果手工列举,将十分繁琐并且不现实,所以需要一 种机制自动生成特征,在最大熵模型中,这种机制为特征模板。特征模板定义了 如何从上下文x中抽取特征。图 2.1特征模板示例第 2 章 最大熵模型考虑图2.1,假设一个窗口为2的上下文,特征模板往往指定生成特征的位置。比如一个特征模板可以是x1, y,表示生成所有训练集中出现过的前接词与y的组合的特征。
35、2.2 最大熵模型的理论推导在符合限制3-4的模型中,我们究竟选择哪个模型呢?最大熵原则认为除了 已有的证据外,不做其他假设,即应选择熵最大的模型。这样,最大熵模型可以 看作一个优化问题:max h( p) = max x p(x) p(y|x) log p(y|x) = min x p(x, y) log p(y|x)pcx,yp(y|x)x,ys.t. x p(y|x) p(x) fi(x, y) = x p(y|x) p(x) fi(x, y)x,yx,yx p(y|x) 1 = 0(公式 2-5)y首先引入拉格朗日乘子,得到拉格朗日函数:l( p, , )= x p(y|x) p(x)
36、 log p(y|x) x i( p(y|x) p(x) fi(x, y) x p(x, y) fi(x, y)x,yx,y,ix,y+ x x (x p(y|x) 1)(公式 2-6)xy对p(y|x)求偏微分,我们得到l p(y|x)= p(x)(1 + log p(y|x) x i fi(x, y) + x(公式 2-7)i令式3-6为0,我们得到:xxp(y|x) = exp p(x) 1 +又因py p(y|x) = 1,我们有:i fi(x, y)(公式 2-8)ix= (log z(x, ) 1) p(x)exppi i fi(x, y)p(y|x) =z(x, )复旦大学学士毕
37、业论文z(x, ) = x expx i fi(x, y)(公式 2-9)yi将式2-9中的结果代入式2-6,我们得到原问题的对偶问题:max () = x p(x) log z(x, ) + x i p(x, y) fi(x, y)(公式 2-10)xi,x,y2.3 优化方法最大熵模型已经归结为一个优化问题,针对这个优化问题,需要用数值方 法来求最优解。由于最大熵的目标函数较简单,常用的方法是迭代法(iterative scaling algorithm),而常用的迭代法又分gis(generalized iterative scaling algo- rithm)和iis(improve
38、d iterative scaling)2.3.1 gisgeneralized iterative scaling (gis) 在rosenfeld, 1994 10一文中第一次被提 出. gis的主要思想就是针对每个特征 fi,目标是让满足限制条件e p( fi) = e p ( fi), 因而我们调整i以让他们越来越接近。gis的一个优势是它不需要计算函数的梯 度。gis的算法流程如下:gis algorithm1. initialize2. calculate the expectation of each feature ei3. modify i for each i : i +
39、= log e p ( fi )/ei4. if not converge then skip to step 2.2.3.2 iisimproved iterative scaling (iis)与gis相似, 与gis最大的区别在于修正的方 法. iis 流程如下:第 2 章 最大熵模型iis algorithm1. start with i = 0 for all i2. do for each ia. let i be the solution to px,y p(x) p(y|x) fi (x, y) exp(i f # (x, y) = p( fi )wherei=1f # (x,
40、 y) = pnfi (x, y)b. update the value of i according to: i i + i3. go to step 2 if not all the i have convergediis的收敛性在berger,1996 1一文中证明。通常,iis需要更少的迭代步骤,但是每步可能需要更多的时间,因为它每步需要数值解一个方程。2.4 最大熵模型在自然语言处理中的应用许多自然语言处理可看作一个分类问题。本文中将最大熵模型运用在 命名体识别任务中。在第七届消息理解会议(the 7th message understanding conference, muc-7
41、)中,命名实体识别任务主要针对七类实体,包括人名(person name, pn)、地名(location name, ln)、组织机构名(organization name, on)、时 间(time)、日期(date)、货币(money)与百分数(percentage) 12。由于时间与数字表 达形式识别相对较为简单,因此研究重点侧重于汉语人名、地名与组织机构名 三类实体识别,其中进一步将人名细分为两个子类,即汉语人名(chinese pn, cpn)(如”毛泽东”)与音译人名(transliterated pn, tpn)(如”司马义艾买提”)。 在命名体识别任务中,一种常用的方法是在分
42、词后给每个词一个标记以找 出命名体,另一种常用的方法是给每个字一个标记,最后将相邻的拥有相同标记 的字进行合并来得到命名体。无论哪种方法,都需要分类器对目标字(词)进行 分类。由于最大熵模型不擅长序列标注,在本文中只讨论前种方法的最大熵模型应用。在汉语命名实体识别的最大熵混合模型中,基于多特征相融合的策略,使用 文本中各种不同的上下文特征来预测目标候选词所属实体类别。针对同一候选 词可利用多种特征,包含局部特征(local feature, lf)与全局特征(global feature, gf)。前者基于候选词本身及其邻接上下文信息构建,而后者基于同一篇文档中 相同候选词的不同出现位置与情形
43、考虑。在张玥杰,et,al. 2一文中,引入了9种 局部特征以及3种全局特征。复旦大学学士毕业论文候选局部特征主要利用特征模板从训练语料中直接抽取而来。所谓特征模板,就是对特定上下文位置与上下文角色的考虑,即候选特征的抽取点。由于每 一特征模板可对应多个二值特征,则对于每个目标候选词,可能存在源于同一模 板的0个、1个或多个特征取值为1。假设对于当前目标候选词,考虑上下文窗口 大小为1,抽取位置包括前接词、后接词、目标词首字及尾字,则组合其它相关 信息的考虑,可构建如下9个局部特征模板:表 2.1基于目标候选词构词信息的特征构词信息实例特征包含”玛莎格兰姆mid-period仅包含大写字母ib
44、mall-capitals同时包含大写与小写字母dellmixed-letters同时包含字母与数字f4letter-digit包含两个数字98two-digits包含四个数字1998four-digits包含数字与斜线1998/01/01digit-slash包含货币单位符号¥20currency-unit包含百分号20%percent包含数字与小数点20.1digit-period包含数字与逗号2,398digit-comma 目标候选词的构词信息(component information)其目的在于考察各类命名实体内部的一些特殊构词信息,如表4.1所示。例如,如果目标候选词包 含某些音
45、译人名中特有的符号”(如”夏尔波德莱尔”),则其相应特 征mid-period取值为1。 前接词(previous word, pw)与后接词(next word, nw)其目的在于考察各类实体前后邻接词信息,可分别考虑前后邻接词构建特征,也可组合两者 形成词对共现特征。如给定字串”记者郭永红报道”,设目标候选词为”郭永 红”,若分别考虑其前后邻接词则生成特征”( pw1 = ”记者” or nw+1=”报道”, ne-class)” (ne-class为具体实体类别),若考虑组合情形则生成特征”(pw1=记者” and nw+1=”报道”, ne-class)”。 目标候选词的首字(firs
46、t character, fc)与尾字(last character, lc)其目的在于考察各类实体内部的首字与尾字构成信息,可分别考虑首字或尾字。如第 2 章 最大熵模型针对上述实例,可生成针对首字的特征”( fc=”郭”, ne-class)”。 词汇表(lexicon)成员资格信息其目的在于考察训练语料库中所包含的各 类实体信息,即根据训练语料库组建”命名实体表”。其中,词汇表项与特 征一一对应,由此形成大量特征。针对一个目标候选词,最多仅允许一个 特征取值为1。有可能出现的一种情形是,目标候选词不存在于该词汇表 中,则所有特征取值均为0。 未登录(out-of-vocabulary)词
47、信息其目的在于考察目标候选词是否属于未 登录词,将不存在于汉语电子词典中的候选词确立为未登录词,由此将相 应特征取值为1。 命 名 实 体 词 典(dictionary)信 息其 目 的 在 于 有 效 利 用 三 类 重 要 命 名 实 体(即人名、地名与组织机构名)的相关词典信息,从而弥补训练语料资源 受限的不足。 人名词典汉语人名通常由姓氏与名字构成,且其用字范围非常有限。 据统计,365个最为广泛使用的姓氏涵盖约99%的汉语姓氏,1,141个 最为广泛使用的汉字涵盖约99%的汉语人名用字。同样,音译人名 用字也非常有限。因此,人名词典分为三个部分,即”汉语人名姓氏 表”、”汉语人名用字
48、表”与”音译人名用字表”。 地名词典主要包含”常用地名表”与”缩写地名表”两部分。前者包 含中国常用省份与县市名、其它外国国家及其首都名、一些著名 的 地 名 及 外 国 城 市 名 等;而 后 者 则 包 含 一 些 具 有 缩 写 形 式 的 地 名(如”中/china”、”美/america”)。 组织机构名词典涉及到”常用组织机构名表”与”缩写组织机构名表”两部分信息。前者包含一些著名的组织机构名(如”国务院”、”联合 国”),而后者则包含一些常见组织机构名的缩写形式(如”北大”、”微 软”)。如果目标候选词为上述词典中的一个表项,则将其相应特征取值为1。 时间(time)与数字(nu
49、mber)的特殊构词信息其目的在于考察时间与数字 类实体的特殊构词信息。若候选词包含”年”、”月”、”日”、”星期一星期 日(星期天)”、”周一周日(周天)”、”时(点)”、”分”、”秒”等,则相应 时间特征取值为1。若候选词由一系列数字(或包含如小数点等特殊符号) 串联构成,则相应数字特征取值为1。复旦大学学士毕业论文 前缀(prefix)与后缀(suffix)信息其目的在于考察三类重要实体的常用词缀信息,从而丰富识别所需要的上下文信息。为此,针对人名、地名与组织机构名,分别建立其相应的词缀信息表,由此将相应特征取值为1。 前接词与后接词的词性(part-of-speech, pos)信息其
50、目的在于考察各类命 名实体前后邻接词的词性信息,可分别考虑前后邻接词词性信息构建特 征,也可组合两者形成词性对共现特征。此外,在确定实体类别时,来自相同文档的上下文信息可能扮演着非常重要的角 色。因此,需要建立一种修正机制,充分利用这种全局特征,以解决分配给具有 相同或相近形式的实体名不同实体类别之间的矛盾。因此,构建如下3个全局特 征模板: 目标候选词的其它同现(other occurrences with the same form)信息 其目 的在于考察具有相同形式的实体名在同一文档不同位置的出现信息。在同 一篇文档中,某些实体名往往反复出现,已识别实体名应该对文中其它位 置的相同出现起
51、指导提示作用。为此,设置”动态词表”(dynamic word list, dwl),每当在同一文档中识别出实体名之后,将其加入表中。通过检查词 表,观测目标候选词是否在前文出现过,若是则其相应特征取值为1,并将 其在表中位置前移。 前缀与后缀的其它出现(other occurrences for prefix word and suffix word)信 息 其目的在于考察主体构成相同的实体名在其它出现位置所具有的词缀 信息。在同一篇文档中,前面已出现过的实体名在后续部分可能以省略词 缀的方式出现,而这些词缀信息对于分类处理非常重要。基于局部特征中 所采用的各类实体词缀信息表,若观测到候选词
52、在相同文档的其它出现位 置具有相关词缀,则相应特征取值为1。 缩写形式(abbreviation form)信息其目的在于考察其它位置出现的命名实 体缩写形式信息。在同一篇文档中,前面已出现的实体名在后续部分可能 以包含其内核主体部分的缩写形式出现。若观测到候选词为相同文档中前 面出现实体名全称的缩写形式,则相应特征取值为1,而其判别可通过匹配 候选词构成与实体名全称核心构成进行。第 3 章 条件随机场3.1 条件随机场的思想最大熵模型最大的缺点为无法很好地处理序列标注问题,因为他定义的特 征无法刻画状态间的联系。针对这个缺点,mccallum, 2000 6一文中提出最大 熵隐马模型,其核心思想是对相邻的状态使用最大熵模型。但是这样会导致最后 得到的序列仅仅是个局部最优解,针对这个问题,lafferty, 2001 5一文中提出 了条件随机场模型,对整个序列进行了归一化,解决了最大熵隐马模型的不足。条件随机场的数学定义为5:定义 3.1: 设 有 集 合g = (v, e)为 一 个 图,并
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年玻璃加工设备行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年牲猪饲料行业发展分析及投资价值研究咨询报告
- 2024-2030年牛仔短裤行业并购重组机会及投融资战略研究咨询报告
- 2024-2030年燕窝行业发展分析及竞争格局与投资战略研究咨询报告
- 《望海潮》《扬州慢》导学案(含答案)统编版高中语文选择性必修下册
- 2024新高考理解性默写分类突破学生版(含答案)
- 2023年易切削钢项目成效分析报告
- 电暖脚器细分市场深度研究报告
- 空手道用护腿板市场分析及投资价值研究报告
- 瑜伽毯细分市场深度研究报告
- 回锅肉ppt课件
- 董公选择日要览[整理版]
- 师德的五项修炼(修心、修口、修眼、修耳、修身)
- 各科室廉政风险点排查表
- LED路灯说明书
- 1984年高考数学试题(全国理)及答案[1]
- 10kV电压互感器(母线PT)试验报告
- 成立事业部合作协议书
- 销售团队组织构架(实用收藏)
- 现代控制理论-14爱克曼(Ackermann)公式
- 明德小学防溺水教育学校师生家庭协调联动会议记录
评论
0/150
提交评论