




已阅读5页,还剩108页未读, 继续免费阅读
(信号与信息处理专业论文)中文功能组块分析及应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学博士学位论文 中文功能组块分析及应用研究 摘要 近年来,中文自然语言处理技术在分词、词性标注等方面获得了很 大进步。然而,自然语言处理应用系统( 如信息抽取、问答系统等) 则 需要对文本信息进行深层解释。功能组块分析任务为句子成分自动标注 主语、宾语、时间状语、地点状语等功能标记,作为语法分析及语义理 解的一种实现方式,具有定义清晰、便于评价等优点,近年来受到越来 越多学者的关注。 本文提出基于序列判别模型的中文功能组块自动分析技术,将传统 的支持向量机分类模型扩展到序列学习任务中,灵活地使用了输入输出 序列之间的多重相依特征。研究表明,本文提出的方法获得目前中文功 能组块分析的最好性能,系统整体f 1 值达到9 3 7 6 ,并且可以较好地扩 展到不同的特征集合,适合于众多自然语言处理问题。 论文的第一部分说明了功能组块分析的几个问题:课题的提出与研 究及意义,相关研究现状,以及本论文的研究重点。然后简要介绍了本 课题采用的语料库资源宾夕法尼亚大学中文树库,讨论了中文功能 组块的划分标准。接着,以自然语言理解的全信息方法论为基础,分析 了功能组块标记在语法、语义、语用理解中的位置及作用。最后说明了 几个常用的考察组块标记性能的指标。 论文的第二部分详细介绍了本研究的理论基础,具体说明了序列判 别模型在中文功能组块识别中的应用。在对算法模型进行分析的基础 上,构建了中文功能组块自动标注器,并通过大量实验,从多方面分析 了系统的性能,检验了不同特征对于系统性能的影响及其语言学解释。 接着,比较了两个不同的构建功能组块标注器的方法:采用简单词法信 息( 词、词性等) 的标注器和采用完全句法树信息( 短语类型、句法树 路径等) 的标注器,并通过实验说明了基于词法信息的功能组块标注器 具有性能稳定、领域适应能力强等优点,适用于缺少句法资源或句法分 摘要 析本身存在困难的语言,是进行汉语功能组块分析的有效方法。 论文的第三部分介绍了功能组块标记在自然语言处理系统中的应 用。我们选取文本观点挖掘中的观点要素识别为应用领域,以句子成分 的功能类别为依据,构建了观点主题自动识别系统,并通过实验验证了 该方法的可行性。最后,给出了本研究的结论以及未来的研究方向。 以上工作不仅实现了汉语功能组块自动分析系统,并且从计算语言 学的角度,对汉语功能组块进行了明确界定,对其它相关的应用研究具 有参考价值。目前的实验结果也显示了功能组块分析技术具有非常好的 应用前景。 关键词:自然语言处理全信息功能组块分析机器学习支 持向量机序列判别模型文本情感挖掘 u 北京邮电大学博士学他论文 a b s t r a c t a sr e s e a r c h e r si m p r o v er e s u l t so nv a r i o u so t h e rp r o b l e m si n “p u r e ”n a t u - r a ll a n g u a g ep r o c e s s i n g ( e g p a m o f - s p e e c ht a g g i n g ,p a r s i n g ) ,t h o s ew h ow o r k i i lt l l em o r e “a p p l i e d ”n l p 丘e l d s ( e g q u e s t i o n a n s w e r i n g ,i n f o m a t i o ne x n a c t i o n ) a r es e e b n gm o r ep o w e r f u ls o r t so fl i n g u i s t i ca n n o t a t i o na si n p u tf o rm e i r o w ns y s t e m s f u n c t i o nt a g sa r eac o n t e x t s e n s i t i v ea n n o 枷o na p p l i e dt ow o r d s a n dp h r a s e so fn a t u r a ll a n g u a g et e x t ,m a f k i n gt h e i rs y n t a c t i c0 rs e m a n t i cr o l e w i t h i nal a 玛e ru t t e r a n c e i nm i st h e s i sw ed e v e l o pas e q u e n t i a lp r e d i c a t i o nm o d e lf o rc h i n e s ef u n c t i o nt a gl a b e l i n g w ew i l ls h o wm a tt h i sm e t h o dp r o v i d e ss t a t e o f t h e a na c c u r a c y ,y i e l d i n ga nf 1s c o r e o f9 3 7 6 ,i se x t e n s i b l em r o u g ht h ef e a t u r es e ta n dc a n b ei m p l e m e n t e de 伍c i e n t l y f u n h e 珊o r e ,w ed i s p l a yt h es p e c i f i cp r o p e n i e so f c h i n e s ef u n c t i o n 土a g sb yc o n l p a r i n gi tw i t he n g l i s ha sw e l la ss h o wi t sp r a c t i c a l a p p l i c a b i l i t yt h r o u 曲i n t e 伊a t i o ni n t oa no p i n i o nh o l d e rr e c o g n i t i o ns y s t e m i nt h e 缸s tp a r to ft h em e s i s ,w ep r e s e n tm ep r o b l e mo ff u n c t i o nt a gl a b e l i n g :w h y i ti sa ni n t e r e s t i n gp r o b l e m ,w h oe l s eh a sw o r k e do ns i i n i l a rt h i n g , a n dw h a te x a c t l yw ei n t e n dt od o 7 i h e nw ew i l lb r i e f l yr e v i e wm ed a t a s e t sw e z u r ew o r b n go n t h ep e n nc h i n e s et i e e b a n k a n de x p l a i nt h es p e c 讯cm e t r i c s b yw h i c hw ew i l le v a l u a t eo u rw o r k i nm es e c o n dp a r to ft h et h e s i s ,w ew i l lp r e s e n tas e q u e n t i a lp r e d i c a t i o n m o d e l t h i sw i l ll e a dt ot h eh e a r to ft h et h e s i s a u t o m a t i cf u n c t i o nt a gl a b e l i n g h e r ew ef o r m u l a t ef u n c t i o nt a gl a b e l i n ga sas e q u e n c el e a m i n gp r o b l e m w i t h i ns t r u c t u r a ls p a c e s ,y i e l d i n gs t a t e o f - t h e a r ta c c u r a c ya n dh i g hr o b u s t n e s s t h e nw ew i l lp r e s e n ta na n a l y s i so fw h a tf e a t u r e sp r o v et ob et h em o s th e l p f u lf o rc h i n e s ef u n c t i o nt a ga s s i g n m e n ta n dw h yw et h i n ki tw i l lb eu s e f u l i nt h i st a s k ,a n di n t r o d u c et w ot o t a l l yd i f f e r e n tf u n c t i o nl a b e l i n gs y s t e m s ,o n e a s s i g n i n gf u n c t i o nt a g st ou n p a r s e dt e x tu s i n gs i m p l e1 e x i c a lf e a t u r e s ( w o r d , i i i a b s t r a c t p a r t o f 二s p e e c ht a g ,e t c ) ,a n do n ea s s i g n i n gf h n c t i o nt a g st ot h eo u t p u to fp a r s e d t e x tu s i n gf e a t u r e sc o l l e c t e df 的mt t l ef u up a r s e dt r e e s ( p h r a s et y p e ,t r e ep a t h , e t c ) w et h e nd i s c u s st h ea d v a u l t a g e sa n dd i s a d v a n t a g e so fe a c hs y s t e mi nv a r i o u ss i t u a t i o n s w ea l s oc o m p a r eo u rf u n c t i o nt a g g e rt oo t h e rs t a t e o f - t h e a i t s y s t e m s f i n a l l y ,i nt h et h i r dp a r to ft h et h e s i s ,w ep r e s e n th o w t h i sw o r ki m p r o v e s t h ea p p l i c a t i o n so ft e x to p i n i o n 缸n j n g w ew i l li n t r o d u c eo u rp i i i m a r yw o r k o no p i n i o nh o l d e rr e c o g n i t i o nb yu s i n gf u n c t i o nt a g sa sc l u e s ,t os h o wi t sa p p l i c a b i l i t yt oa r e a lw o r l dp r o b l e m l a s t l y ,w ew i l lp r e s e n tac o m p a r i s o nt o o t h e rs y s t e m sp e 幽r m i n gr e l a t e dt a s k s ,a n ds p e c u l a t eo ns o m ei n t e r e s t i n gf u n l r ew o r k j t h ep r o p o s e dw o r kh 瓠d e f i n e dc l l i n e s ef u n c t i o nt a g sf 而mt l l ev i e wo f c o m p u t a t i o na n dy i e l d e da na u t o m a t i cc h i n e s ef u n t i o nt a gl a b e l e r 1 h er e s e a r c hr e s u l t sa r ed i r e c t i v ea n dw i t hr e f e r e n c ev a l u et oo t h e rr e l a t e dw o r k i n a d d i t i o n ,m ee x p e r i m e n ts u g g e s t st h ep r o l l l i s i n ga p p l i c a t i o no ff u n c t i o nt a g s k e yw o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g f u n c t i o nt a gl a b e l i n g m a c h i n el e a r n i n g c o m p r e h e n s i v ei n f o r m a t i o n s u p p o r tv e c t o r m a c h i n e s s e q u e n t i a lp r e d i c t i o nm o d e l t e x to p i n i o nm i n i n g i v 北京邮电大学博士学化论文 插图索引 图1 1一个标有句法功能类别( 黑体) 的句法树2 图1 2 一个描述依存关系的图例一4 图1 3一个添加了功能标记的依存关系图5 图1 4自动标注系统的一般框架8 图2 1c t b 中采用括号表示句子句法结构的一个例子:1 9 图2 2图2 1 对应的树形句法结构2 0 图2 3图2 2 对应的采用“s v o ”结构描述的旬子形式和功能标记表示2 4 图2 4 一个词语切分和词性标注后的句子2 7 图3 1监督学习模型的学习框架3 0 图3 2几个不同的损失函数图例3 4 图3 3传统的隐马尔科夫模型和序列判别模型的图表示4 l 图3 4v i t e r b i 懈码算法的格栅表示图5 0 图4 1不同模型在不同规模的训练数据上的性能比较5 8 图4 2 句法树特征举例,箭头线标明句法树路径方向6 1 图5 1 全自动功能组块分析的实现7 2 图5 2两种不同的特征选择方法比较7 5 图5 3特征交叉检验的系统性能比较7 6 图6 1 观点分析的处理流程8 2 v 北京邮电大学博士学位论文 表格索引 表1 1c o n l l 2 0 0 0 组块分析共享任务中定义的几个常见的短语组块3 表1 2自动标注系统产生的二维混淆矩阵1 2 褒2 1中文树库中功能标记集及其类别信息2 l 表2 2 本研究采用的功能标记集及其类别表示2 2 表2 3各个功能标记在c t b 文本数据中的出现频次和平均长度2 3 表2 。4 焦点词及其对应的特征集合2 7 表4 1不同模型在不同规模训练集上的时间增量5 8 表4 2采用词法信息和s s v m 模型进行功能组块分析的实验结果5 9 表4 3采用句法树信息和s s v m 模型进行功能组块分析的实验结果6 3 表4 4采用词法信息与采用句法树信息的功能组块分析器性能比较6 3 表4 5采用词法信息和句法信息标注器的时间消耗( 单位:秒) “ 表4 6几个现有的英文功能组块分析系统的性能结果6 4 表5 1词性标注器所使用的特征:7 0 表5 2s i g h a n2 0 0 7 汉语词性标注评测中不同系统的性能比较7 l 表5 3 全自动功能组块标注器的性能结果7 2 表5 4不同的词性标注精度下功能组块标注器的性能7 3 表5 5采用标准词法信息得到的功能标注器所得的测试结果混淆矩阵7 8 表6 1 观点表达的触发词8 3 表6 2 观点主体识别结果8 4 v i i 北京邮电大学博士学位论文 符号对照表 训练数据集中的一个输入输出对,在序列标记任务中, 输入输出序列对( 工,) 7 ) 中位置f 上的输入输出对 训练数据集中的一个输入输出对,在序列标记任务中, 输入输出序列对,0 ,) ,) = ( x 1 ,) ,1 ) , 2 ,y 2 ) ,) 】- 训练数据集,d = 0 1 ,) ,1 ) ,( ,) ,2 ) ,( ,少) ) 矩阵或向量 矩阵的秩或向量模 n 维欧氏空间 集合 集合中元素的个数 它表示一个 它表示一个 集合a 与集合b 的笛卡尔乘积,即a 曰= ( 口,6 ) :口a ,易b ) 学习器的假设空间 x i i i 力 训 馏, d x悟a从形 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:孟銎秀日期:2 幽:臣:丝 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研 究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学 校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段 保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 本学位论文不属于保密范围,适用本授权书。 本人签名:盔坠! 翌日期:幽:臣:垒里: 导师签名: 日期: 北京邮电大学博士学化论文 第一章引言弟一早ji 西 本章首先介绍了论文工作的研究背景和意义,接着描述了功能组块分析的系统 结构、所采用的具体技术,并列举了功能组块标记在自然语言处理系统中的几个应 片j ,以及几个常用的评价标注系统性能的指标,最后给出了本文的组织结构。 1 1 课题的提出 基于统计方法的自然语言处理技术自提出以来,已经得到了很好的研究,并产 生了令人满意的成果。这些方法包括决策树【l l ! 】、概率上下文无关语法【1 1 9 】,最大 熵模型【l2 0 1 2 l 】等。另一方面,各种语料库资源如美国宾夕法尼亚大学( u p e n n ) 的 1 r e e b a n k 【1 2 2 1 、p r o p b a n k 【1 2 3 1 、伯克利大学的f r a m e 卜k t 【i 矧等,为基于统计的语言分 析提供了丰富的数据支持。 一 然而,现有的这些研究中,语言分析过程( 包括性能评价) 都集中于底层的语 法结构研究,即采用树形结构或依存关系表示简单的语言信息,如名词短语、动词 短语、介词短语等。而现有的很多树库资源,则包含了其它更丰富的语法及语义信 息,如语法功能标记、语义共指、词汇语义框架等。目前为止,如何自动学习和标 注这些信息,还没有得到深入研究。 本课题的研究工作是为汉语句子成分自动添加功能标记。句子成分的功能 标记如主语、宾语、时间状语、地点状语等说明了它在句子中所表现的语法功能 或语义角色。图1 1 所示为宾夕法尼亚大学中文树库( p e n nc h i n e s et r e e b a n k ,c t b ) 【1 2 5 j 中标注的一个带有功能标记的句法树( 来源于树库文件0 0 4 3 i j d ) 。该树库不仅 标注了句子的短语结构,而且标注了句子成分的功能类别。 按照信息科学的理论,自然语言所载荷的是一种“全信息”【1 2 6 1 2 7 】,包括语法 信息、语义信息、语用信息几个互相联系又互相区别的层次。般来说,要达到深 层理解的目的,需要进行语法、语义、语用三位一体的分析。从全信息的观点来看, 为统一术语表示,本文t ,的“功能标记”表示具仃一i 同语法功能或语义角色的标记,如主语、宾语、时问、 地点等:为句子成分标沣或添加助能标记的行为称为“功能组块分析”或“功能组块标注”;通过学习训 练诺料而得到的,能完成埘未知句子进行功能组块标注的统计模型,称为“功能组块分析器”或“功能组 块标汽器”。 语言数据联盟( l d c ) 发布序列号:n o l d c 2 0 0 5 t o l 。 第。章引言 s r p p h 腑tn p s b 了v p i 上海人均国内生产总值 v p船脚 s h a 啦a sp 酋唧妇叭 l 经过近几年的快速增长v pn p o 丑j今年 妇一伽列惭垤o w m i 恤卿 a d vv p 3 0 0 0 美元 ii 3 0 0 0 啊捌虹 将突破 w 丑l 鲫r p a s s 图1 1 一个标有句法功能类别( 黑体) 的句法树 虽然从语法分析上升到语义分析是一个很大的进步,但如何使用语法信息进行语义 理解仍有诸多的难题需要解决。并且,由于自然语言的复杂性和不确定性,完全句 法分析是可望而不可及的,因此需要一个简单有效的句子分析方式,作为句法分析 的延伸,帮助更好地表达和理解语义信息。功能组块分析致力于识别句子中某些结 构相对简单、但有重要意义的成分,作为语法分析及语义理解的一种实现方式,从 某种程度上实现了这种需要。功能组块中的语法类别标记,如主语、谓语、宾语等, 通过“谁做了什么”这种方式来描述事件,揭示了句子中表达的行为或对象信息; 而语义类别标记,如状语和补语,则揭示了句子中动作行为的时间、处所、情态、 方式、程度、范围等信息,进而有助于加深理解文本内容。这两方面的信息,对一 些自然语言处理应用系统来说,至关重要。以信息抽取任务为例,句子的主语和宾 语,与句子的“第一个名词短语”或“动词短语的头词”相比,更能帮助理解有关 事件的信息;而知道了“何时何地为何原因”,就解决了信息抽取的一个核 心问题。 1 2 相关的工作和研究 现有的关于功能组块分析的工作多集中在英文方面的研究l 】2 8 - 1 3 1 1 。这些研究的 出发点或者是采用功能组块标记来丰富句法分析器( s y n t a c t i cp a r s e r ) 的输出结果, 或者是采用完全句法树的信息来提高功能组块标记的性能。除了功能组块标记的研 2 北京邮电大学博士学化论文 究外,还有其它一些相关的研究工作,本节将简要分析这些研究与本研究之间的区 别和联系。 1 2 1 短语组块分析 组块分析( c h u n k i n g ) 是基于对句子的浅层分析,将句子分割为互不交叉的 著干词组。a b n e y 【1 3 4 】最早提出了一个完整的组块描述体系,他把组块定义为句子中 一组相邻的属于同一个s 投射( s p r q j e c t i o n ) 的词语的集合,建立了组块与管辖约束 理论的x - b a r 系统的内在联系,从而奠定了语块描述体系的比较坚实的理论基础。在 此前后,一些应用系统的研究重点则主要集中在短语块的识别上,例如名词短语、 动词短语、介词短语等。 计算自然语言学习国际会议( c o n i i ,) 【1 3 5 】提出的组块分析共享任务 ( c h u n l ( i n gs h a f e dt a s k ) ,采用a b n e y 【1 蚓的组块定义,识别句子中的短语组块。 大部分参与c o n i 上共享任务中的研究单位或组织都采用统计方法进行组块分析和识 别。其中k u d o 与m a t s u m o t o 采用支持向量机方法获得了最佳的组块识别性能,系 统整体f 1 值达到9 3 4 8 。表1 1 列出了c o n i 上2 0 0 0 中定义的几个常见的组块类别及其 信息描述,有关的详细资料可以参阅文献【1 3 5 1 。 一 表1 1c o n l l 2 ( ) 0 0 组块分析共享任务中定义的几个常见的短语组块 组块类型组块描述 n p 名词短语 v p动词短语 p p介词短语( 大部分情况只包含一个介词) a d v p 副词短语 a d j p 形容词短语 s b a r子句( 大部分情况下只包含一个从属连词) 一般基于统计的组块自动分析技术,都采用机器自动分类模型,即采用“b i o ” 编码方式,将短语识别视为对单个词语的分类问题,即输出类别为该词在短语中的 位置以及所在短语的短语类别的组合表示。“b i o ”编码方式可以简要描述如下: c h u n k 一倒通常被翮译j 汉语巾的组块或语块,文献1 1 3 2 i 中称f u n c t i o n a lc h u n k 为功能块,类似丁- 本研究讨论 的功能组块。义献1 1 3 3 i 则从语言认知的角发把语块定义为一个记忆组织的单位,由记忆中已经形成的组块 组成并链接成更大的单位,说明了组块和浯块概念上的不同。但奉研究中,对二者不了以区分。 3 第章引言 b x :某个短语x 的第一个词; i x :短语x 中第一个词之外的其它词; o :不属于任何短语的词( 或标点) ; 由于组块是互不相交的词汇组合,“b i o ”三个标记对于编码短语组块来说,已 经足够。对于具有个类别的短语分析任务来说,“b i o ”编码产生的类别空间维数 为2 + l 。 组块分析作为浅层句法分析的一个实现途径,一方面是作为完全句法分析的一 个阶段性任务而进行;另一方面,也有自己独立存在的价值。这是因为有些语言信 息处理系统并不需要完整的句法分析,而借助组块分析即可满足大部分的需求。然 而,短语组块分析仅从独立的语法单位考虑,对句子局部成分的结构关系进行分析, 并不能揭示这些独立的成分如何组织在一起构成句子。相反,句子成分的功能类别 如主语、宾语等,则能通过短语和词汇语义表示“谁对谁做了什么”这一类信息, 更好地描述了句子的结构形式和内容。 1 2 2 依存关系分析 另一个和本文相关的研究为依存关系分析( d e p e n d e n c yp a r s i n g ) 【13 6 1 。依存分 析通过词汇支配概念,采用有向边描述词和它的语法修饰词之间的关系。图1 2 所 示为例句“j o h nh i tt h eb a l lw i t ht h eb a t ”的依存关系图。该例子仅包含投射( 或嵌套 的、互不交叉的) 边,是依存关系图中的一个特殊类别。一般来说,给定句子的依 存结构是一个始于根( r o o t ) 结点的有向图,而根节点是人为插入的唯一的节点。除 根节点不具有射入边外,句子中的每一个词都有且只有一个射入边。因此,对于一 个包含以个词( 和根节点) 的句子,其依存关系图具有咒一1 条有向边。 忒夕气弋a r d c r rj o h nh l tt l i eb 蕾i聊也也eb 蕾 图1 2 一个描述依存关系的图例 功能组块分析与依存关系分析的一个显著区别是,前者侧重与从整体句子结构 出发,研究句子成分的语法功能,而后者则侧重于研究区分上下位的词汇关系。依 存语法强调词语中心说,注重句子成分之间的支配和被支配的关系,而不重视句子 结构层次。但值得注意的现象是,近来有关依存关系分析的研究视图尝试在依存图 中的有向边上添加描述词汇之间依存关系的关系类别。例如,j i j k o u n 等人【1 3 7 】的 4 北京邮电大学博士学位论文 研究首先使用依存关系来扩展句法分析器的结果,再为依存关系添加从u p e n n 树 库资源中学习到的功能标记。对例句“j o h nh i tt i l eb a hw i mt h eb a t ”的依存关系图 ( 图1 2 ) 添加功能标记后的结果如图1 3 所示。从这个角度上讲,功能标记分析的研 究,可以和依存关系分析很好地相结合。 r 靠影茂va r 0 a t j o h nh i t t h eb 越吼也 t h e b 蕾 1 2 3 语义角色标注 语义角色标注( s e m a n t i cr o l el a b e l i n g ,s r l ) 是目前语义分析的一种主要实现 方式,它采用“谓词论元角色”的结构形式,标注句法成分相对于给定谓语动词的 语义角色,每个语义角色被赋予一定的语义含义。已有大量研究采用词汇语义资源 如p r o p b a n k 【1 2 3 1 、f | a m e n e t 【1 2 4 】以及v e 帕n e t 【1 3 8 】等开展语义角色标注工作。 p r o p b a n k 工程通过为u p e n n 的树库资源( p e n n1 r e e b a l l l 【) 添加一层谓词论元 信息,或语义角色标记,开发出一个具有实用价值的表示语义的树库。p r o p b a n k 包 含2 0 多个语义角色,相同的语义角色对于不同谓语动词具有不同的语义含义。其中 核心的语义角色为a r 9 0 5 六种,a r 9 0 通常表示动作的施事,钯l 通常表示动作的 影响等等。除了核心语义角色,动词还可以具有一般的类似于附加成分的论元,称 为附加语义角色,用前缀a 培m 表示,后面黏着一层附加标记( s e c o n d a 巧t a g s ) 来 表示参数舡g m 的语义类别。这些附加标记,对应于t r e e b a n k 中定义的功能标记 ( f u n c t i o nt a g s ) 的子集,如a r g m l o c 表示地点,a r g m 俐p 表示时间等等。p a l m e r 等人【1 2 3 】在p r o p b a l ( 的框架下开发了自动语义角色标注系统。该系统采用了谓词、 句法树路径、短语类型、位置、语态、核心词、动词子类框架等一些通用特征进行 语义角色标注。他们的研究表明,句法树路径特征由于十分稀疏,对于实际的语义 角色标注任务来说,并不十分有效,文中还进一步指出,造成路径特征碌疏的原因 是谓词和其论元之外的问接节点之间的复杂的句法关系。 f r a m e n e t 以框架语义为理论基础,为每个句子都标注了目标谓词( 包括动词、 部分名词和形容词) 和其语义角色( 如施事、受事等) 、该角色对应的句法层面的短 语类型( 如名词短语、动词短语等) 以及句法功能类型( 如主语、宾语等) 。g i l d e a 5 第。章引言 和j u r a f s b 【1 3 9 】根据f r 锄e n e t 的语义标注框架,提出了一个自动语义角色标注系统, 为句子成分标注抽象的语义角色( 如施事、受事) ,或与应用领域相关的具体的角色 ( 如演讲者、信息、主题) 。而g i l d e a 和j u r 施k y 所指的语义角色,大体上与本研究 中的“语法标记( g r a m m a t i ct a g s ) 相对应( 尽管不是严格意义上的一一对应,如本 研究中的主语和逻辑主语在f r a m e n e t 框架下被赋予同一个标记。) 。此外,他们还构 建了一个从框架元素标记到论旨角色( m e m a t i cr o l e s ) 标记的映射,这1 8 个论旨角色 更加接近于本研究中的功能标记。而本研究中的语义标记,即用于标记修饰成分的 形式,功能标记( f o m l f u n c t i o n ) ,在g i l d e a 和j u r 蕊k y 描述的系统中,却没有予以考 虑。 与p r o p b a n k 采用特定动词的语义角色框架( 如a 唧、趣l 、心2 ) 以及 f r a m e n e t 采用特定场景相关的语义角色标牲( 如演讲者、信息、主题) 不同, v e r b n e t 采用l e v i n 【l 删定义的动词类别,为每一类动词标记不同的语义角色,如施 事( a g e n t ) 、主体( t h e m e ) 、受体( r e c i p i e n t ) 。s w i e r 与s t e v e n s o n n 4 l 】采用v e r b n e t 的描述框架,开发了一个基于无监督学习的自动语义角色标注系统。他们认为 v e r b n e t 的优势在于它可以有效地获取不同谓词的论元关系之间的共同性。 本文研究的功能标记采用p e n n1 r e e b a n k 定义的功能标记集。p e n n1 r e e b a n l ( 与本 节提到的三个词汇语义资源所采用的标记集的详细比较,可参见附录a 。例1 2 1 所 示为同一个句子在f r 锄e n e t 、p r o p b a n l ( 和1 r e e b a n k 三个不同的标注体系下的标注结 果。 例:委员会明天将要通过此议案。 f r a m e n e t :【委员会a g e n t 】【明天t m p 】将要【通过v 】【此议案p a s s i v e 】。 p r o p b a n k :【委员会a 唱o 】 明天a 唱m t m p 将要【通过v 】【此议案a 略l 】。 t r e e b a n k :【委员会n p s b j 】【明天n p t m p 】将要 通过v 】 此议案n p 0 b j 】。 口 l 。2 。4 功能组块标注 现有的关于功能组块分析的研究多集中在英文文本。对于其它语言的研究偏少, 主要源于其它语言缺少标记有功能类别的语料库资源。 b l a h e t a 等人【1 2 8 】首次描述了一个采用p e n nt r e e b a n k 资源训练而得到的统计系 统,为英文文本自动添加功能标记类别。他们的出发点是采用从全句法解析树中收 集到的特征来识别句子成分的功能类别。系统首先采用一个自动句法解析器对句子 6 北京邮电大学博士学化沦文 进行句法解析,而后从句法树中抽取特征,并采用这些特征进行句子成分的功能类 别分析。然而,这种方法不可避免句法分析阶段句法分析器产生的错误。 m e r l o 和m u s i l l o 【1 3 0 】提出一个与文献【1 2 8 】不同的方法,该方法在进行全句法树解 析的同时,标注句子成分的功能类别。m e r l o 和m u s i l l o 所开发的系统通过学习深层 次i ,j 句法特征,例如细粒度的词性标记、当前节点的左节点、父节点等来同时实现 句法分析和功能组块标记。他们的研究结果发现,英文中的功能标记信息通常处于 句法树的底层,且同其它的语义分析研究一样,功能标记分析的主要困难在于,区 分哪些成分具有功能标记。 g i l d e a 和p a l m e r 【1 3 l 】的研究检验了全句法树在谓词论元结构识别中的重要性, 指出从句法树中搜集到的特征,例如组块边界、句法树路径、头词等为句子的语义 解析提供了有用的相关特征,并量化了这些特征对于系统性能的影响。 然而,现有的句法解析器离取得标准性能还有很长的路要走。另一方面,尽管 上述工作为功能标记的研究开辟了第一步,关于功能标记在实际自然语言处理系统 中的应用尚没有得到很好的开发和利用。 除了在英文方面所做努力外,最近也出现了其它语言的功能标记研究工作,包 括语料库建设和功能语块自动识别等。 i i d a 等人【1 4 2 】的研究提出了创建日文语料库工程,并比较了对共指关系和谓 词一论元关系进行标注的各种方法。他们结合目语中动词论元通常通过一个接续词来 标示的特性,根据句法实例,细化了谓词论元的结构标注。基于这种策略,i i d a 等 人开发并公布了具有多类标记的日文语料库n a i s tt e x tc o r p u s 。但目前还没有看 到基于该语料库进行日文功能标记分析的研究工作。 周强等人的研究【1 3 2 ,1 4 3 _ 14 5 】开创了中文功能组块自动分析的先河。他们采用一 种“自上而下”的方式定义功能语块,以更好地描述一个句子的基本结构骨架。周 强等人在语块定义的基础上,构建了中文组块库c h u n k b a n k ,从而为进一步进行深 层的句法分析和知识获取打下基础。c h u n k b a n k 工程中定义的功能语块包括了主语 块、述语块、宾语块、兼语块、状语块、补语块、独立语块和语气块共八种类型。 赵颖泽与周强【1 4 6 】的研究任务和本文的研究类似。他们根据功能块的互不交叉和重 叠的基本性质,把汉语功能块的分析问题看作是对一个句子进行若干次“切分”的 过程,切分出的每一段就是一个完整的语块,并为其添加相应的功能块类型标记。 按照这个思路,他们将汉语功能块分析的问题转化为一个边界识别问题,采用支持 h t t p :,c 1 n a i s t j p ,n l d a t 眦。叩u s , 7 第。章引言 向量机学习器完成边界自动识别。文中主要检验了句子中出现的主谓宾语块,深入 研究了主谓结构和谓宾结构之间的边界识别,并分别取得了7 6 5 6 和8 2 2 6 的f 1 值。 尽管主谓宾结构是构成句子的重要成分,但它还不足以描述句子的其它附加信息, 例如用作状语成分的介词短语或副词短语等。而诸如信息检索以及其它的文本理解 应用系统则需要进一步知道“时间一地点原因”等信息。因此,本论文从将从更深层 次上全面研究描述句子结构的功能标记。 1 3 系统结构 在进行功能组块分析时,以下几个基本问题不可回避: 创建什么结构的自动分析器? 采用哪些特征来区分不同类别的功能组块? 使用什么样的学习算法来对功能组块的结构进行建模? 为回答上述三个问题,本节描述了一个功能组块自动标注系统的基本框架。其 中,第1 3 1 小节介绍了自动标注系统的一般框架结构;第1 3 2 小节描述了功能组块 分析所采用的基本方法;第1 3 3 小节介绍了基于机器学习的自然语言处理技术,以 及用于功能组块标记的机器学习模型。 1 3 1自动标注的一般框架 图l 一4 描述了一个自动标注器的基本框架。总体来说,包括两个部分:标注模型 和预测模型。 图1 4 自动标注系统的一般框架 , 首先,系统定义一个学习算法,以训练数据( 标记有功能标记的句子集合) 为 输入,输出一个标注模型。训练得到的标注模型( 或简单称为模型) 包括特征参数 8 北京邮电大学博士学位论文 与参数设置。而从训练数据中学习得到标注模型的过程称为训练或学习。学习算法 具有一般性,即给定不同的训练数据,学习器会产生不同的标注模型。例如,如果 训练数据为汉语功能标记语料,则学习算法将输出汉语功能标注模型。类似的,如 果训练数据为英文功能标记语料,则学习算法将输出英文功能标注模型。本研究所 采用学习算法及其一般特性将在第3 章中进行详细描述。 除了标注模型外,标注器的另一个组成部分是预测模型。具体说明如何使用标 注模型对测试数据中的每一项进行标记。即,当一个新的句子工输入至标注器,预 测模型采用模型中的参数,为其产生一个j 功能标记y 序列。一般来说,预测模型 也包含预处理功能,即按照模型输入格式的要求,将测试数据加工成标准的模型输 入格式,进而调用模型参数,完成预测。标注模型和相应的预测模型,将在第2 章中 进行描述。 1 3 2 功麓组块分析的基本方法 已有一些研究工作,很好地回答了“实际系统中,可以抽取到什么样的特征 用于区别不同类别的功能标记? ”这个问题。b l a h e t a 等人【1 2 8 ,1 2 9 】介绍了二个基于 统计方法的功能标记自动识别系统。该系统采用u p e n n 英文树库( p e n ne n g l i s h t r e e b a n k ) 为训练数据,为英文文本自动添加功能标记。系统首先采用一个全句法 分析器对句子进行句法分析,而后采用从句法树上抽取到的特征来训练功能标记 分类器。注意到句法分析器产生的错误,在功能标记过程中无法消除,m e r l o 和 m u s i l l o 【1 3 0 】提出了另一个改进系统,该系统采用了深层的句法标记信息作为特征, 例如,当前节点的左右节点、父节点等,在进行全局法分析的同时,完成功能标记 的学习和分类。 然而,他们的结果都表明,功能标记器的性能受到所采用的句法分析器的限制, 功能标注准确率的理论上限不会高于句法分析器准确率。考虑到当前的句法分析器 还远远不能达到理想的性能,采用句法特征的功能标记器,尚不能达到实际应用的 要求。特别是对于那些缺少句法分析资源,或句法分析存在固有困难的语言( 例如 中文【j 4 7 1 ) 来说,这种局限显得更加突出。因此,研究高性能的功能标记器,无论是 研究采用的特征,还是研究有效的学习算法,克服句法分析器带来的性能瓶颈,都 是一项有意义的工作。 本研究着眼于采用与句法树无关的特征来构建功能组块标
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025一份标准的租赁合同示例
- 202520健身房加盟合同模板
- 2025二级建造师建设工程法规及相关知识考点施工合同
- 2025装饰设计合同范本
- 2025年太原货运从业资格考试试题及答案详解
- 旱烟种植补贴政策
- 寒假日记300字左右20篇
- 第十章策略产能管理研究报告
- 包络检波器指标
- 半期考试总结与计划
- 疫苗与接种管理制度
- 电子商务案例分析知到智慧树章节测试课后答案2024年秋西安邮电大学
- 《通信用开关电源的元器件降额准则-》
- 2025年4月日历表(含农历-周数-方便记事备忘)
- 中国非遗文化鱼灯介绍2
- 2024银行从业资格个人贷款教材
- 2025年中国稀土集团招聘笔试参考题库含答案解析
- T∕HGJ 12400-2021 石油化工仪表线缆选型设计标准
- 康复科等级医院评审汇报材料
- 助理社会工作师考试社会工作综合能力(初级)试卷与参考答案(2025年)
- 第46届世界技能大赛河南省选拔赛-3D数字游戏艺术项目-样题
评论
0/150
提交评论