




已阅读5页,还剩63页未读, 继续免费阅读
(信号与信息处理专业论文)中文分词及词性标注中领域自适应的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学学位论文独创性声明f y 1 舢7 舢5 4 删7 舢7 8 本人声明所呈交的学位论文是我个人在导师指导下进行的研 究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致 谢的地方外,论文中不包括其他人已经发表或撰写过的研究成果, 也不包含为获得南京邮电大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示了谢意。 研究生签名:与k 日期:五豳生业 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保 留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印 或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容 相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊 登) 授权南京邮电大学研究生部办理。 研究生签名:益赵 导师签名:兰盏塑旨这日期:望! ! :! :罩 南京邮电大学硕士论文摘要 摘要 在自然语言处理领域,中文分词和词性标注是其它中文信息处理任务的前提和基础, 而基于统计机器学习的中文分词及词性标注方法以其良好的性能成为主流的技术之一。然 而,研究发现,当训练语料和测试语料的性质( 如文体、规模大小、分词标准等) 不相同时, 以大规模语料为基础的统计机器学习方法的性能会大大降低。为此,人们提出了领域自适 应技术,它能够有效解决训练语料和测试语料因性质的不同而造成分词及词性标注正确率 下降的问题。 本文首先介绍了课题研究背景、国内外研究现状和课题研究意义,然后详细论述了领 域自适应技术中用到的统计语言模型条件随机场c r f s 以及领域不相适应的因素,并总结 了目前已有的几种具有代表性的领域自适应算法,同时对各种算法进行了分析、研究和比 较。 接着,针对中文分词中的领域自适应问题,做了如下工作:首先对中文分词作了简要 概述,然后在现有算法的基础上,根据数据标记边缘概率,本文提出了基于标记转换的领 域自适应算法,利用少量已标记测试语料中的语言信息对训练语料中的数据标记进行相应 的转换,使获得的训练模型能够较好的适应测试语料。实验结果表明,该算法能够有效的 提高中文分词的性能。同时,对现有算法进行改进,提出了基于改进的数据加权的领域自 适应方法,通过设定一个门限值来提取未标记测试语料中的候选词,对其数据加权后进行 中文分词。实验结果表明,该方法也是一种能够提高中文分词正确率的有效途径。在上述 两种算法的基础上,本文设计了基于标记转换和改进的数据加权的联合算法,通过把两种 算法有效的结合起来进行中文分词。实验结果表明,该算法能够有效的提高分词的正确率。 最后,针对词性标注中的领域自适应问题,做了如下工作:首先对词性标注做了简要 概述,然后利用少量已标记测试语料中的信息,使用基于数据加权的领域自适应算法对词 性标注进行了分析和研究。实验结果表明,相比只注重从训练语料中获得语言信息的方法, 从测试语料中获取信息的方法更有助于词性标注正确率的提高。 关键词:中文分词,词性标注,领域自适应,标记边缘概率,条件随机场 南京邮电大堂堡主堡壅i堡- _ - - - _ - _ _ - _ _ _ - _ - _ - _ - - - - _ _ _ _ _ _ _ - - - _ _ - _ _ _ _ l _ _ - - _ - _ - - _ _ - - i l _ - _ - - _ 一 a b s t r a c t i nt h ef i e l do fn a t u r a ll a n g u a g ep r o c e s s i n g , c h i n e s ew o r ds e g m e n t a t i o n ( c w s ) a n dp o s t a g g i n gi st h ep r e r e q u i s i t ea n df o u n d a t i o nf o ro t h e rc h i n e s ei n f o r m a t i o np r o c e s s i n gt a s k s ,a n d m e t h o d sb a s e do ns t a t i s t i c a lm a c h i n el e a r n i n gb e c o m eo l l eo ft h em a i nm e t h o d so fc w sa n d p o st a g g i n gw i t ht h e i rg o o dp e r f o r m a n c e h o w e v e r , t h es t u d yf i n d st h a tw h e nt h en a t u r e ( s u c h a sd o m a i n ,s i z e , s e g m e n t a t i o ns t a n d a r d s ,e t c ) o ft h et r a i l ! f i n gc o r p u sa n dt e s tc o r p u sa r en o tt h e s a m e ,t h ep e r f o r m a n c eo f t h es t a t i s t i c a lm a c h i n el e a r n i n gm e t h o d sb a s e do nl a r g e - s c a l ec o r p u s w i l lb eg r e a t l yr e d u c e d t h e r e f o r e , r e s e a r c h e r sp u tf o r w a r dd o m a i na d a p t a t i o nt e c h n o l o g y , w h i c hi sa b l et oe f f e c t i v e l yd e a l 谢t l lt h ep r o b l e mt h a tt h ep e r f o r m a c eo fc w sa n dp o st a g g i n g w i l lb er e d u c e di ft h en a t u r eo ft h et r a i n i n gc o r p u sa n dt e s tc o r p u si sd i f f e r e n t r l l i s t h e s i sf i r s t l yi n t r o d u c e st h es t u d yb a c k g r o u n d , t h es t a t u sq u oa n dt h es t u d y s i g n i f ic a n o e i na d d i t i o n ,w ep a r t i c u l a r l ye x p l a i nt h es t a t i s f i c ml a n g u a g em o d e lc r f s a sw e l l 丛 t h ef a c t o r sa f f e c t i n gd o m a i nu l a p t a t i o la tt h e 跚n et i m e , w e 册l l ps o m er e p r e s e n t a t i v e d o m a i na d a p t a t i o na l g o r i t h m s , t h e nw ea n a l y s ea n dr e s e a r c ht h e m t h e n , f o rt h ed o m a i n 池p t a t i o n i nc w s a f t e ro v c r v i c w i n gt h ec w s ,w ep u tf o r w a r do n e n 朗vd o m a i na d a p t a t i o nm e t h o do ft a gc o n v e r s i o nu s i n gt h em a r g i n a lp r o b a b i l i t yi nc r f $ t h e m e t h o dm a k e sl l s eo ft t i el a n g u a g ei n f o r m a t i o ni nt h es m a l ll a b e l dt e s tc o r p u st oc o n v e r tt h e t a g si nt h et r a i n i n gc o r p u s ,t h e nw ec a ng e tt h ep o s s i b l eo p t i m a lm o d e l t h a ti ss u i t a b l ef o rt h e t e s tc o r p u s a d d i t i o n a l l y , w ea l s op u tf o r w a r do n ei m p r o v e dd o m a i na d a p t a t i o nm e t h o d , w h i c h f i r s t l ye x t r a c t st h ec a n d i d a t ew o r df r o mt h eu n l a b e l e dt e s tc o r p u s ,t h e nc a r r yo u tt h ec w s e x p e r i m e n ta f t e rw e i g h t i n gt h e m t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tb o t ho f t h em e t h o d sc a n i m p r o v et h ea c c u r a c yo fc w s b a s e do nt h et w om e t h o d sa b o v e , t h i st h e s i sd e s i g n so n eg e n e r a l a l g o r i t h mw h i c h c a na l s oi m p r o v et h ep e r f o r m a n c eo fc w sa f t e rc o m b i n i n gt h e me f f e c t i v e l y a tl a s t ,f o rt h ed o m a i na d a p t a t i o ni np o st a g g i n g a f t e ro v e r v i e w i n gt h ep o st a g g i n aw e u s et hem e t h o db a s e do ni n s t a n c ew e i g h t i n gt oa n a l y s ea n ds t u d y t h ep o st a g g i n g e x p e r i r a e n t a lr e s u l t ss h o wt h a t ,c o m p a r e dt om e t h o d sf o c u s i n go no b t a i n i n gi n f o r m a t i o nf r o m t h et r a i n i n gc o r p u s ,m e t h o d so b t a i n i n gi n f o r m a t i o nf r o mt h et e s tc o r p u sa r em o r ee f f e c t i v e k e y w or d s :c w s ,p o st a g 西n g ,d o m a i na d a p t a t i o n , m a r g i n a lp r o b a b i l i t y , c o n d i t i o n a l r a n d o mf i e l d 南京邮电大学硕士论文 目录 目录 摘要i a b s t r a c t 一 目录i 第一章绪论1 1 1 研究背景。l 1 2 研究现状。2 1 3 研究意义及论文主要创新点3 1 4 本文结构一4 第二章领域自适应的理论基础5 2 1 领域自适应常用工具条件随机场c r f s 5 2 1 1 条件随机场的定义。5 2 1 2 条件分布及参数估计。6 2 1 3 条件随机场的标记边缘概率9 2 1 4 较其他模型的优越性一:1 0 2 2 影响领域不相适应的因素1 1 2 3 领域自适应常用算法13 2 3 1数据加权算法13 2 3 2半监督学习算法1 4 2 3 3 几种领域自适应算法的比较16 2 4 本章小结。1 6 第三章中文分词中领域自适应的研究1 8 3 1 中文分词概述1 8 3 1 1 中文分词常用算法18 3 1 2 分词算法的局限性2 1 3 1 3 中文分词系统2 2 3 2 基于标记转换和数据加权的领域自适应算法2 4 3 2 1 基于标记转换算法的理论分析和算法流程。2 4 3 2 2 基于改进的数据加权算法的理论分析和算法流程2 8 3 2 3 二者联合的算法设计3 1 3 3 实验设计及结果分析3 4 3 3 1 标注方法3 4 3 3 2 特征的选择3 4 3 3 3 实验语料的选择3 5 3 3 4 实验结果的评测标准及实验设置3 6 3 3 5 实验结果与分析3 7 3 4 本章小结4 0 第四蘑词性标注中领域自适应的研究4 1 i i l 南京邮电大学硕士论文 目录 4 1 弓i 言4 l 4 1 1 词性的定义4 l 4 1 2 词语兼类4 3 4 1 3 词性标注的意义和难点。4 4 4 2 词性标注方法4 5 4 2 1 基于规则的词性标注方法4 5 4 2 2 基于统计的词性标注方法4 8 4 3 基于数据加权的词性标注领域自适应算法设计5 0 4 4 实验设计与结果分析5 1 4 4 1 实验的设置5 1 4 4 2 实验结果与分析5 3 4 5 本章小结5 5 第五章总结与展望5 6 5 1 论文工作总结5 6 5 2 对下一步工作的展望5 6 j 致谢5 8 参考文献5 9 攻读硕士学位期间发表论文情况。6 3 i v 南京邮电大学硕士论文 第一章绪论 1 1 研究背景 第一章绪论 近二十年来,信息技术己成为社会发展最重要的推动因素,海量的文本信息对使用计 算机高效智能地处理自然语言信息提出了越来越迫切的需求。因此,自然语言处理成为当 前计算机领域的一个研究热点。 中文分词及词性标注是其它自然语言处理任务的前提和基础【l 】。中文自动分词之所以 成为中文信息处理中的一个重要环节,是由汉语本身的特点所决定的。与英语等其他语言 不同,英语是以词为单位,词和词之间是靠空格隔开,汉语则是以字而不是词作为语言的 基本构造单位。汉语独有的书写特点使得中文信息处理必须经过分词这样一层基本处理阶 段才能进入上层的句法和语义阶段的处理。 词性标注是在汉语进行分词后的基础上进行处理的,是实现自然语言处理的目标一 分析和理解语言一的一个中间环节,其任务是为文本中的每一个词都赋予一个合适的标 注,也就是说要确定每个词是名词、动词、形容词或其他词性。 随着语言学理论的发展、计算机技术的进步以及统计学和机器学习方法在自然语言理 解领域的广泛应用,人们对中文分词及词性标注本身的应用背景、目标等也有了更加准确 的认识,自动分词及词性标注技术也在此背景下取得了长足的发展。其中,以统计机器学 习为基础的中文分词及词性标注方法以其良好的性能得到人们的广泛关注,成为主流的中 文自动分词及词性标注方法 2 , 3 1 。 近年来,随着中文电子文本数量的日益增加,文本的领域呈多样性发展,语料库的加 工要求也有所不同。z h o n g j i a n w a n g e ta 1 【4 】指出,一个良好或者成熟的中文分词系统也应 当能够处理不同领域的文本和适应不同的分词标准。然而,目前以统计机器学习为基础的 分词及词性标注方法所关注的是如何从训练语料中尽可能多地获取语言知识和信息,然后 再对其他的同质文本( 即“非陌生”文本) 进行分词和词性标注。当训练语料和测试语料的 性质( 如文体、规模大小、分词标准等) 不同时,以大规模语料为基础的统计机器学习方法 的性能会大大降低。 在此背景下,本文提出在进行中文分词及词性标注时,不仅要利用训练语料中的语言 知识,更要充分利用“陌生 测试语料中的信息,只有全面了解训练语料和测试语料所包 含的信息及两者之间的关系,才能获得较好的分词及词性标注结果。 南京邮电大学硕士论文 第一章绪论 1 2 研究现状 自从8 0 年代初以来,有关方面的众多专家、学者在中文自动分词及词性标注的研究与 实践上进行了大量的研究,找到了许多的解决方法。目前,公开报道过的中文分词方法主 要有三种类型:基于词典的方法、基于统计的方法和基于理解的方法,这三种方法代表着 分词方法的三个不同方向。词性标注方法主要有基于统计的方法和基于规则的分词方法。 基于词典的分词过程依赖于机器词典进行,词库中词条的数目、词条的选择直接影响 最后的分词效果。赵曾贻【5 】提出了一种改进的最大匹配分词算法,分词字典支持词首字h a s h 查找和标准的不限词条长度的二分查找。李向阳 6 】构建了h a s h 算法的词典结构,实现了h 袖 高速分词算法。邹海山等 7 1 在现有分词技术的基础上,提出了一种基于词典的正向最大匹 配和逆向最大匹配相结合的中文分词方案。陈桂林等【8 】首先介绍了一种高效的中文电子词 表数据结构,它支持首字h a s h 和标准的二分查找,且不限词条长度,然后提出一种改进的 快速分词算法。郭辉等【9 1 在对现有的最大匹配分词方法进行研究的基础上,提出一种改进 的m m 算法。 基于统计的方法,费洪晓等f l o 】提出了基于词频统计的中文分词方法,系统采用了互信 息、n 元统计模型和t - ;澳u 试,并对这三种原理的处理结果进行比较,以分析各种统计原理的 统计特点以及各自所适合的应用场合。刘群【l l 】提出了一种基于n 最短路径方法的中文词语 粗分模型,在兼顾高召回率和高效率的基础上引入了词频的统计数据,对原有模型进行改 进,建立了更实用的统计模型。基于统计的词性标注方法最具代表性的是c l a w s 、 v o l s u n g a 、h m m 方法。 基于规则的方法,徐秉铮、贺前华等【1 2 】提出了基于神经网络的一种分词方法,这一方 法是以模拟人脑运行,分布处理和建立数值计算模型工作的,是一种以非线性并行处理为 主流的非逻辑的信息处理方式。基于规则的词性标注系统,最具代表性的是1 9 7 1 年开发的 t a a g g i t 1 3 】标注系统。该系统采用8 6 种词性标记,利用3 3 0 0 条上下文框架规则对1 0 0 万词 的现代美国英语b r o w n 语料库进行自动词性标注。 领域自适应方法本质上是训练语料对“陌生 测试语料进行分词及词性标注的过程。 目前,对不需要词表的陌生文本的中文分词及词性标注技术的研究还较少,尚处在实验阶 段。王开铸等【1 4 】使用统计方法从待切分语料中抽词,又将所抽取的词条用于自动分词。黄 萱菁等1 5 1 利用x :统计量进行自动分词。傅赛香等【1 6 】使用了串频统计方法,先通过长短串的 频次的比值进行过滤获得词表,再进行分词。s u nm a o s o n ge ta 1 利用邻接汉字的统计信 2 南京邮电大学硕士论文第一章绪论 息,让机器自动地给出针对该语料的候选词表,再由用户进行筛选,并通过阈值控制,以 半自动循环的工作方式,最终得到一个词表。该文没有进步进行全文分词,但其提出的 人机交互式的方法,可以保证获取词表的精确率,缺点是召回率难以保证。 较为实用的陌生文本分词方法则是z h o n g j a n w a n g e ta 1 f 4 】提出的基于句子的人机交互 增量式学习方法。首先使用串频统计获取文本中的未登录词,然后利用这个词表进行自动 分词,把分词结果提交给人工判定,利用学习到的词语和优化参数进行下一轮分词和未登 录词的提取。在规模为9 万词的语料上,可以达到近9 0 的分词正确率。然而,其未登录词 的发现性能较差,在人工判定的条件下,只能达到3 0 左右的正确率和召回率,大量的工 作实际上还是通过人工判定来完成。冯冲等【l8 】提出了基于m u l f i g r a m i 吾言模型的主动学习分 词方法,也是基于句子的学习,依靠对较为高频的句子和词语进行学习,解决高频字串的 切分问题。李斌等【1 9 】提出了一种面向中文陌生文本的人机交互式分词方法,在没有分词底 表和训练语料等语言知识的条件下,由系统自动地发现未登录词,提交给用户进行增删。 不断重复此过程,反复获取文本中的词语,最后进行最大匹配法分词。 总的来看,任何一种单一方法都无法完善地解决汉语的分词及词性标注问题。但是, 在使用基于统计的中文分词及词性标注方法时,如果能充分利用训练语料及“陌生”测试 语料中的信息,则能较好的提高分词及词性标注的结果。本文正是基于这一思想来解决领 域自适应问题的 1 3 研究意义及论文主要创新点 中文分词及词性标注是自然语言理解的基础。中文分词及词性标注中的领域自适应技 术能较好的提高中文搜索的性能、智能答疑和机器阅卷等的效率,对拼音智能输入、中文 校对、语音识别、语音合成、中文信息检索以及机器翻译等都有着不同程度的改善,使所 支持的应用系统的使用程度和实际性能得到更广泛的应用。 本文对中文分词及词性标注中的领域自适应问题做了分析和研究,创新点主要有以下 几个方面: 1 、针对中文分词中的领域自适应问题,提出了基于标记转换的领域自适应算法。该 算法根据数据标记边缘概率,利用少量已标记测试语料中的信息对训练语料中的数据标记 进行相应的转换,使获得的训练模型能够较好的适应测试语料。实验结果表明,该算法能 够有效的提高中文分词的性能,提高了约l 。 2 、在现有算法的基础上,本文设计了基于标记转换和改进的数据加权的联合算法, 3 堕室墅皇奎堂堡主堡壅整= 兰堑堡 通过把标记转换算法和改进的数据加权算法有效的结合起来进行中文分词。实验结果表 明,该算法能在上述两种方法的基础上进一步提高分词的性能,提高了约7 。 3 、针对词性标注中的领域自适应问题,本文使用了基于数据加权的词性标注领域自 适应算法进行了研究。实验结果表明,使用统计学习方法进行词性标注时,从测试语料中 获取信息的方法更能有助于词性标注正确率的提高。并且,从测试语料中获知的信息越多, 词性标注的正确率也就越高。 1 4本文结构 本文各章安排如下: 第一章主要介绍了本文研究背景,国内外研究现状以及本文的研究意义和论文主要创 新点。 第二章详细介绍了领域自适应技术常用的工具条件随机场c r f s ,分析了领域不 相适应的原因,对现有的几种具有代表性的领域自适应算法进行了总结,并做了简单的比 较。 第三章首先回顾了中文分词发展的历史,介绍了中文分词常用的算法,总结了现有分 词算法的局限性。针对中文分词中的领域自适应问题,在现有算法的基础上,根据数据标 记边缘概率,提出了基于标记转换的领域自适应方法同时,对现有算法进行改进,提出 了基于改进的数据加权的领域自适应方法。在上述两种算法的基础上,本文设计了基于标 记转换和改进的数据加权的联合算法,通过把两种算法有效的结合起来进行中文分词。实 验结果表明,该算法能够明显提高分词的正确率。 笫四章对词性标注的定义,词性标注技术的难点以及常用的词性标注方法进行了简要 介绍。使用数据加权的方法对词性标注中的领域自适应进行了研究。实验结果表明,相比 只注重从训练语料中获得语言信息的方法,从测试语料中获取信息的方法更有助于词性标 注正确率的提高。并且,从测试语料中获知的信息越多,词性标注的正确率也就越高。 第五章对本文工作进行了总结以及进一步的展望。 4 南京邮电大学硕士论文第二章领域自适应的理论基础 第二章领域自适应的理论基础 中文分词及词性标注是自然语言理解的基础和前提,广泛应用于搜索、智能答疑、远 程教育中的在线答题、机器阅卷等系统。对拼音智能输入、中文校对、语音识别、语音合 成、中文信息检索以及机器翻译等都有着不同程度的支持,其正确性直接或间接的影响了 所支持的应用系统的使用程度和实际性能。 领域自适应技术 2 0 - 2 2 】能较好的解决当测试语料相对于训练语料来说是“陌生 文本时, 造成分词及词性标注性能下降的问题。目前,常用的领域自适应方法主要有:基于数据加 权的方法和基于半监督学习的方法。基于数据加权的方法主要是根据训练语料中各数据所 含信息量大小的不同进行加权,对于信息量大的数据,给予较大的权重,对于信息量小的 数据,给及较小的权重。基于半监督学习的方法主要是结合少量已标记语料和未标记语料 进行分词及词性标注的方法。 条件随机场( c r f s ) 2 3 , 2 4 是领域自适应技术常使用的工具,它是一个基于统计的序列标 记和分割的方法,在给定输入节点的条件下计算输出节点条件概率的无向图模型。c r f s 可 以在整个序列上归一化( g l o b a ln o r m a l i z a t i o n ) ,找到整个序列上的最优解,同时克服了标记 偏置的问题( 1 a b e lb i a s ) 2 1领域自适应常用工具条件随机场c r f s 2 1 1条件随机场的定义 条件随机场( c o n d i t i o n a lr a n d o mf i e l d s ,以下简称c r f s ) 是j o h nl a f e r t y ! e 2 0 0 1 年提出的 基于统计的序列标记和分割的一种方法,在给定输入节点的条件下计算输出节点条件概率 的无向图模型。它没有隐马尔可夫模型( h i d d e nm a r k o vm o d e l ) 那样强的独立性假设条件, 同时克服了最大熵马尔可夫模型( m a x i m u me n t r o p ym a r k o vm o d e l ,m e m m ) 的长度偏置和 标记偏置( 1 a b e l - b i a s ) 的缺点。c r f s 可以更好地拟合真实世界的数据,因此它被广泛用于自 然语言处理的研究领域。如中文浅语法分析【2 5 1 、日文形态素解析阐、h n l 的信息提取 2 7 1 等任务。 假设g = ( y ,e ) 代表一个无向图结构。其中,y 代表一组节点,层代表连接矿中节点的 无向边。节点y 表示一组连续或者分散的随机变量,则y 中的每个节点对应一个随机变量。 5 图2 1 简单条件随机场模型 可以看出,c r f s 是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概 率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。标记序列的分布条 件属性,让c r f s 可以很好的拟合真实世界的数据,而在这些数据中,标记序列的条件概率 依赖于观察序列中非独立的、相互作用的特征,并通过赋予这些特征不同的权值来表示该 特征的重要程度。 2 1 2条件分布及参数估计 给定观察序列x = ( 五,五五) ,标签序列y = ( x ,砭k ) 的情况下,在图g = ( d 中,l ,是一棵树( 最简单的情况下是一个链结构) 。因此,根据随机场的基础理论,x 和标 签序列】,的条件概率形式是: p o ( y l x ) o c e x p ( 五五( p ,y l ,x ) + k g k ( v ,y l ,x ) ) ( 2 1 1 ) 眭e jy e r ,i 其中,z 是数据序列,y 是标签序列,v 是顶点集合,e 是边的集合,七是特征数。例如, 若词弓是大写的,标签乃是“p r o p e r n o t m ”,那么布尔特征可能为真。 参数估计的主要任务是从经验分布函数多( 毛y ) 的数据d = ( 工“,y t t ) ) 墨中决定参数 p = ( 五,五,以。鸬。) 的值,其中秒是一个形式参数。并通过下面的迭代算法使对数似然函 数最大。 6 南京邮电大学硕士论文第二章领域自适应的理论基础 d ( p ) = l o g ( p o ( y ix ”) ) t = l 芘p ( x ,y ) l o g p o ( y x ) 工,j , ( 2 1 2 ) 在特殊情况下,通过为每个状态对o ,y ) 和状态一观察值对o ,工) 定义一个特征,可以构 建一个和h m m s 类似的c r f s : ,j ,( ,y 乙p ,功= 万( 儿,y ) 万( 只,y ) 毋j ( i ,x ) = 万饥,j ,) 万( ,功 ( 2 1 3 ) ( 2 1 4 ) c r f s 中的参数乃,u y ,工和h m m s 中对应的参数p ( y ly ) ,p ( x ly ) 作用类似。尽管和 h m m s 有些类似,但是c r f s 更加灵活,因为c r f s 允许观测序列的任意依赖。另外,不必 要为每个状态和观察值指定特征,模型可以用较少的训练语料来估计参数。假设x 、y 都 是链结构,为了简化表达,添加了特殊的起始和结束状态k = s t a r t 和= s t o p ,对于这 样的链结构,标记序列的条件概率可以用矩阵的形式来表示。假设c r f s 模型中的p ( x l n 是由公式( 2 1 1 ) 给出,对于观测序列x 中的每一个f ,贝i j 由l y l l y l 矩阵中的随机变量 m ( 对= 眦o yi 工) 】,通过下面的公式给出: 鸩,y i 力= e x p ( a ,t y , y i 砌 ( 2 1 5 ) 人,o ,y l x ) = 。五五( q ,r l e , = ,力,功+ 七u k g k ( v , ,y i m = 乃力 ( 2 1 6 ) 其中,乞是标签( r ,z ) 之间的边,坼是带有标签z 的顶点。和产生式模型相比,c r f s 不需 要列举所有可能的观测序列石,因此这些矩阵可以从给定的观测序列和参数向量中根据需 要直接计算出来。归一函数乙( 功: 乙= 眠比吆h 删却 ( 2 1 7 ) 这样,标签序列y 的条件概率可以被写成: 删功= 赫h n + i m 焉兰 , 其中,y o = s t a r t ,l = s t o p 。 下面通过两种迭代算法来计算参数向量0 ,使得训练数据的对数似然值最大。这两种 7 南京邮电大学硕士论文第二章领域自适应的理论基础 算法都是改进的迭代算法( i i s ) 。主要技巧是用扩展辅助函数来显示c r f s 中算法的收敛性。 迭代算法用久卜以+ 魄,卜+ 魄计算权重,边特征五的期望: n + l e t i , j = e p 尸( 2 1 1 ,g o ) ,这就是每状态归一化引起的标记偏置问 p ( 2 1 1 ,t o ) = p ( 1 i t o ) = p ( 2 1 1 ,o ) e ( 1 l 厂) 2 2影响领域不相适应的因素 训练语料和测试语料不相适应的本质原因在于二者不是同质文本,即训练语料的领 域、分词标准等和测试语料不完全相同,这就造成了使用训练语料对测试语料进行分词及 词性标注时性能下降。总的来说,可以归为以下种因素:二者领域不相同、分词标准不相 同、规模不同、相对于训练语料,测试语料中大量的未登录词。其中,正是由于二者领域 的不相同才造成了相对于训练语料来说,测试语料中出现了大量的未登录词,而两者分词 标准的不同即为分词的不一致。下面来分别讨论。 1 、分词不一致 定义l :分词不一致唧s ) 在训练语料和测试语料中,相同字串切分后出现两种或者两种以上切分结果的现象。 分词不一致一般表现为词语的。分一和。合斗。 例如:在下面的两个句子中,字符串“更深一就存在以下两种切分结果,因此字符串 “更深一存在分词不一致的现象。 “蕴含着更深厂层次一( 合) “有了更深一层的意思 ( 分) 定义2 :相同的语境指的是发生了分词不一致时相同字串所处的上下文环境。它的内容包括 相同字串前后所出现的词以及它们的词性标记。狭义的相同语境是指相同字串在两个环境 中所处的上下文完全相同;广义的相同语境是指相同字串在两个环境中所处的上下文不一 定完全相同或者是相似的,相同字串在这两个环境中具有相同的意义。 例如:在下面几个句子中,虽然“不住”在真实语料中存在多种切分形式,但是可以 发现他们在各自句子中的成分相同,即上下文环境相同。 按捺不住兴奋的 心情。 怎么也按捺不住 心头4 鹿的坪坪跳动 硬是阻挡不住沙尘的 通过对大量真实语料的统计分析,抽取出语料中的不一致现象,在此基础上进行分析 南京邮电大学硕士论文第二章领域自适应的理论基础 对比,将不一致现象分为以下三类: ( 1 ) 第一类( d e w s l ) :错误切分造成的同一字段存在两种切分结果。例如: 本月1 2 5 日,阿队还将与南非进行征战世界杯前的最后一场热身赛。 今天比赛下半场开局4 分钟,n 队头号射手巴蒂斯图塔头顶入网,先得1 分。( 阿队:阿根廷队) 这类不一致主要集中在结构简单的词汇上。这类分词不一致现象其特点比较明显,可 以利用不一致字段的内部信息来处理这一类问题。 ( 2 ) 第二类( d e w s 2 ) :在相同语境中,相同的字串出现不同的切分形式。例如: 在施工队,她是有名的“铁嘴 已有一支来自大城市的施t 队接下了这个顾目, 这类错误导致了语料库切分结果的不一致性,是典型的分词不一致现象,它是由分词 软件的规范不同而导致的。通过对语料库的统计和分析,发现这类分词不一致所占比重很 大。 ( 3 ) 第三类( d e w s 3 ) :相同字串在不同的语境下具有两种不同的切分形式,且切分形 式都是正确的。例如: 对那些玩把戏、耍虚招,为蕾i i 私利 支撑着崩盯j 嘞,i 寅完, 虽然这类表现为分词不一致,但通过上面的例子可以看出,字符串“把戏一在各自的 句子中所做的成分不同,所代表的意思也不同,但两种切分形式都是正确的。这类分词不 一致经常发生在不同领域的两个语料之问。 2 、未登录词( 0 0 v ) 来登录词,又称为新词。语言不断的发展和变化,导致新词的不断出现。同时,词的 衍生现象非常普遍,词表不能囊括所有的词,词典中就没有登录这些词,从而引起自动分 词的困难。例如在句子“李军虎去上海了中,人可以很容易理解“李军虎 作为一个人 名是个词,但计算机识别就困难了。如果把“李军虎 作为一个词收录到字典中去,全世 界有那么多名字,而且时时都有新增的人名,如此一项巨大的工程即使可以完成,问题仍 旧存在。例如,在句子“李军虎背熊腰中,“李军虎 就不算词。 同理,由于训练语料和测试语料属于不同的领域,因此相对于训练语料来说,测试语 料中会出现大量的未登录词,从而会造成分词及词性标注性能的下降。 1 2 南京邮电大学硕士论文第二章领域自适应的理论基础 2 3 领域自适应常用算法 2 3 1 数据加权算法 数据加权【2 9 4 5 1 是解决领域自适应问题的一种常用算法,下面给出了数据加权算法为什 么在一定程度上能够解决领域自适应问题的理论分析。根据随机场的理论基础,可以假设 矿是适合测试语料的最佳训练模型,0 是一组从训练语料中得出的训练模型,且0 0 , l ( x ,y ,0 ) 是损失函数,p ( x ,y ) 是语料中数据和标记的联合分布函数,可以得出下列公式: 矿2 鬻r a i n ( ,屈y 。y p ( 毛y ) ,y ,d ( 2 3 1 ) 曲于在实际应用当中,并不知道p ( x ,y ) 的精确分布。根据条件随机场的理论基础, 可以用经验分布函数b ( x ,y ) 来估计p ( 工,夕) 的分布。设 ( 五,乃) ,为从p ( 五y ) 中任意抽取的 n 个数据标记组,可以获得最佳模型矿的公式: 矿= a 啪r g m i n z 培j 。r 反而力似只缈( 2 3 2 ) 2 恶曲善7 ( ,d 口j 以看出,征埋怨1 霄巩卜口j 以狄得埴苗铡讽话科阴最住训练俣型0o 2 a 如r 。g m i n “磊。r 驰蒯硼d = a 啪r g m i n 似善。r 霉( 圳取戊d ( 2 3 3 ) = 翟蛐喜拂p ) 白于数据皿= ( ,一) ) 兰是训练数据( x ,】,) 中任意抽取的一部分,公式( 2 3 3 ) 可以 改写为: 巧2 普幽善。y 辫( 圳地y ,d 2 鬻幽磊。r 辫( 圳( 坝d ( 2 - 3 4 ) = 鬻础粪嬲( 捌扔 口e 善 智( 写,“) “ 7 由公式( 2 3 4 ) 可以看出,赋予某个数据组( f ,并) 权重值为考葛音苦时,可以获得适 南京邮电大学硕士论文第二章领域自适应的理论基础 合测试语料的最佳训练模型。 在领域自适应算法中,典型的的数据加权算法是通过赋予数据不同的权重来调整它们 出现的概率。对含信息量大的数据给予大的权重,对含信息量小的数据给予小的权重,而 对干扰数据进行删除,减少数据干扰,从而使损失函数最小化,获得能够适合测试语料的 最佳训练模型。典型的数据加权算法流程如下图2 4 所示: 2 3 2半监督学习算法 图2 。4 数据加权算法的典型流程 在领域自适应问题的研究当中,全监督学习方法是理想的、也是非常可靠的学习方法, 然而,全监督学习方法需要大量已标注的语料,这在实际应用当中可能无法获得。非监督 学习方法不要已标注的语料,但是这样无法获知被标注语料所含的信息,仅仅从训练语料 中获知的语言信息是非常有限的。因此,近年来把监督学习方法和非监督学习折中起来的 半监督学习方法【3 0 , 3 1 】得到了人们的广泛关注。 我们知道,机器学习是让计算机模拟和实现人类学习的过程,目的是获取知识。机器 学习也是让计算机获取智能的最主要手段。机器学习具有快速、可复制、自主性差、机械、 1 4 南京邮电大学硕士论文第二苹领域自适应的理论基础 学习方法单一等特点。计算机可以“不知疲倦 地学习,而且在对一些以计算为主的知识 学习上,计算机也比人的速度要快得多。由于计算机程序易于复制,因此机器学习是不会 终止的,其所具有的知识也可以一直保留下来。但是,计算机的学习方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 职高安全教育
- 自行车店装修终止协议
- 二零二五年度北京市图书寄存保管协议范本
- 2024珠海市理工职业技术学校工作人员招聘考试及答案
- 2024渭源县职业中等专业学校工作人员招聘考试及答案
- 2024泉州幼儿师范高等专科学校工作人员招聘考试及答案
- 胎头吸引术的护理笔记
- 2024湖南省汨罗市职业中专学校工作人员招聘考试及答案
- 2024湖北省十堰市商业技工学校工作人员招聘考试及答案
- 2024河北城铁轨道职业技工学校工作人员招聘考试及答案
- 非机动车交通管理及规划研究
- 劳务派遣及医院护工实施预案
- 华电行测题库及答案2024
- 产后病(中医妇科学)
- 苏州市2023-2024学年高一上学期期末考试数学试题(原卷版)
- 社区获得性肺炎教学演示课件
- 农村蓝莓树补偿标准
- 市级临床重点专科申报书(麻醉科)
- 1.3.1 三角函数的周期性课件
- 冷链疫苗管理课件
- 【课件】信息系统的优势与局限性 2023-2024学年人教中图版(2019)高中信息技术必修二
评论
0/150
提交评论