




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)应用条件随机场进行汉语分词和词性标注的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
辽宁科技大学硕士毕业论文 摘要 摘要 随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。 自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机 科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型, 这种计算机模型能够给出像人那样理解、分析并回答自然语言( 即人们日常使用 的各种通俗语言) 的结果。 中文自然语言处理是让机器理解中文的核心技术。汉语分词和词性标注是中 文信息处理领域内的一个重要课题,它的发展能带动其它相关语言学应用的发展。 本文的核心工作可以概括为以下三个方面: ( 1 ) 介绍了最大熵理论以及最大熵理论对自然语言理解的重要意义,并迸一步 介绍了以最大熵理论为驱动发展起来的条件随机场模型。条件随机场模型不仅克 服了以隐马尔可夫模型为代表的“产生式”模型那样的严格独立假设,并解决了 最大熵马尔可夫模型和其他“非产生式”模型所存在的标记偏置的问题。 ( 2 ) 对现有的一些汉语分词和词性标注算法和模型进行了比较、综合。在总结 前人研究成果的基础上,对传统的几种模型加以比较,采用了基于条件随机场的 汉语分词方法,使得汉语分词和词性标注结果的准确率有一定的提高。 ( 3 ) 根据汉语分词的特点及条件随机场所使用的特征,确定了一套基于条件髓 机场模型使用的特征模板,并对歧义词和未登录词的分词统计进行了详细的说明。 分析、设计和实现了一个基于条件随机场模型的汉语分词和词性标注模块。 关键词:自然语言处理,汉语分词,词性标注,条件随机场 辽宁科技大学硬士毕业论文 a b s t 船c t a sr a p i dp r c g r c s so fi n f o r m a t i o nt e c h n o l o g yp e o p l eh o p et oi n t e r c o u r s ew i t h c o m p u t e ri nn a t a m ll a n g u a g e 嬲h u m a nu 辩n a t u r a ll a n g u a g el 珊把i s | a l - d i n g i sa n i n t e r e s t i n ga n dc h a l l e n g i n gt a s k f r o mt h ev i e wo fc o m p u t e rs c i e n c ee s p e c i a l l ya r t i f i c i a l i n t e l l i g e n c e , t h et a s ko fn a m r u ll a n g u a g eu n d e r s t a n d i n gi st ob u i l do n cc o m p u t e rm o d e l w h i c hc a nu n d e r s t a n d ,a n a l y z ea n da n s w e rq u e s t i o na sh u m a n u s u a l l yd o c h i n e s en a t m a ll a n g u a g ep r o c e s s i n gi st h ec o r et e c h n o l o g yi ne r j a t b l ec o m p u t e rt o u n d e r s t a n dc h i n e s z 1 1 l ec h i n e s es y n t a xp a r s i n gi sa ni m p o r t a n tp r o b l e f no ft h ed o m a i n o fc h i n e s ei n f o r m a t i o np r o c e s s i n g , w h i c hc a na l s op r o m o t et h ed e v e l o p m e n to fo t h e r r e l a t e dl i n g u i s t i c s t h ek e r n e lw o r ko f t h i sa r t i c l ec 缸b eg e n e r a l i z e dt ot h r e ea s p e c t sa sf o l l o w s : ( 1 ) t h i sp a p e ri n t r o d u c e ss i g n i f i c a n c eo fi t0 1 1n a t u r a ll a n g u a g et h er u l e so f m a x i m u me n t r o p ya n dt h eu n d e r s t m a d i n gr e s e a r c h f u r t h e r m o r e ,t h i sd i s s e r t a t i o n d i s c u s s e st h ed c f m i d o no f c o n d i f i o nr a n d o mf i e l d sh e a v i l ym o t i v a t e db yt h ep r i n c i p l eo f m a x i l n u l ne n t r o p y c o n d i t i o nr a n d o mf i e l d sm o d e lr e l a x e st h es t r o n gi n d e p e n d e n c e a s s u m p t i o n sw h i c hg e n e r a t i v em o d e lm u s th a v e , s u c h 越h i d d e nm z r k o vm o d e l a n d o v e r c o m e st h el a b e l b i a sp r o b l e me x h i b i t e db ym a x i m u me n t r o p ym a r k o vm o d e la n d o t h e rn o n - g e n e r a t i v em o d e l s ( 2 ) c o m p a r i s o n sa n ds y n t h e s i sa r cd r a w nf r o ms o m ee x i s t e da l g o r i t h m sa n dm o d e l s a b o u tt h ec h i n e s ew o r ds e g m e n t a t i o na n dp a r t - o f - s p e e c ht a g g i n g b a s e do nt h ee x i s t e d r e s e a r c ht h e o r i e s ,c o m p a r e dt ot r a d i t i o n a ls e v e r a lk i n do f m o d e l s , a n dc s o dc h i n e s ew o r d s e g m e n t a t i o nm e f l i o db a s e do nt h ec o n d i t i o nr a n d o mf i e l d , w h i c hh a v ee n h a n c e dt h e p r e c i s i o no f a n a l y s i s ( 3 ) a c c o r d i n gt ot h ep e e u i i a r i t yo fc h i n e s ew o r ds e g m e n t a t i o na n dt h ef e a t u r eu s e d i nt h ec o n d i t i o nr a n d o mf i e l d s d e t e m f i n e das e to fc h n r a e t e r i s t i ct e m p l a t eb a s e do n c o n d i t i o nr a n d o mf i e l d sa n de x p o u n d e dt h ew o r ds e g m e n t a t i o hs t a t i s t i c sa b o u t a m b i g u i t yw o r d ss m du n d o c u m e n t e dw o r d si np a r t i c u l a r 。w ea n a l y 2 e d , d e s i g n e da n d a c h i e v e dam o d u l eo fc h i n e s ew o r ds e g m e n t a t i o na n dp a r t - o f - s p e e c hr a g g i n gb a s e do n c o n d i t i o nr a n d o n :f i e l d sm o d e l 。 k e yw o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g , c h i n e s ew o r ds e g m e n t a t i o n , p a r t - o f - s p e e c ht a g g i n g , c o n d i t i o nr a n d o mf i e l d s 狂 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得辽宁 科技大学或其它教育机构的学位或证书而使用过的材料,与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了 谢意。 签名:生望l e t 期:塑墨:之:髟 关于论文使用授权的说明 本人完全了解辽宁科技大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅:学校可以公 布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论 文。 ( 保密的论文在解密后应遵守此规定) 签名: 有限逻辑系统 有限逻辑系统进一步改进了以文本为基础的系统。在这种系统中,自然语言 的句子以某种更加形式化的记号来替代,这些记号自成一个有限逻辑系统,可以 进行某些推理。1 9 6 8 年,拉菲尔( b f 诅p h a e t ) 在美国麻省理工学院用l is p 语言建 立了s i r 系统,针对英语提出了2 4 个匹配模式,把输入的英语句子与这些模式相 匹配,从而识别输入句子的结构,在从存贮知识的数据库到回答问题的过程中, 可以处理人们对话中常用的一些概念,如集合的包含关系、空间关系等等,并可 进行简单逻辑推理,机器并能在对话中进行学习,记住已学过的知识,从事一些 初步的智能活动。 辽宁科技大学硬士毕韭论文 ( 4 ) 一般演绎系统 一般演绎系统使用某些标准数学符号( 如谓词演算符号) 来表达信息。1 9 7 7 年 以来,出现了一定数量的第二代自然语言理解系统,这些系统绝大多数是程序演 绎系统,大量地进行语义、语境以及语用的分析。其中比较有名的系统是l u n a r 系统、s h r d l u 系统、m a _ r g i e 系统、s a m 系统、p a m 系统。 1 1 2 国内的发展状况 我国自然语言理解的研究起步较晚,比国外晚了1 7 年。国乡j 在1 9 6 3 年就建 成了早期的自然语言理解系统,而我国直到1 9 5 0 年才建成了两个汉语自然语言理 解模型,都以入机对话的方式来实现。但是,在国际新一代计算机激烈竞争的影 响下,自然语言理解的研究在国内得到了越来越多的重视,研究单位在逐渐增多, 研究队伍也在逐渐壮大。初期的研究工作主要以引入国外计算语言学领域的理论 方法为主。在介绍国外较之国内先行许多的理论和方法的同时,有不少人结合汉 语自身的特点,对这些理论和方法做了更深入的探索。国内比较有代表性的成果 如下: ( 1 ) 机器韶译:以冯志伟教授为代表的计算语言学学者早期在机器翻译研究 方面做了大量的工作,并总结出了不少珍贵的经验和方法,为后来的计算语言学 研究奠定了基础。 ( 2 ) 语料库研究:清华大学的黄昌宁教授领导的计算语言学实验室,主要从 事基于语料库的汉语理解。近年来,在自动分词、自动建立知识库、自动生成句 法规则、自动统计字词的使用和关联频率方面做了大量约工作并发表了不少很有 价值的论文 ( 3 ) 篇章理解研究:东北大学的姚天顺教授和哈尔滨工业大学的王开铸教授 等在计算语言学的篇章理解方面的研究也取得了一定的成就。 ( 4 ) 概念层次网络:中科院的黄曾阳先生在自然语言研究当中通过长期的探 索和总结,在语义表达方面提出了“概念层次网络”理论。这个理论框架是以语 义表达为基础,并以种概念化、层次化和网络化的形式来实现对知识的表达, 这一理论的提出为语义处理开辟了一条新路。 ( 5 ) 受限汉语:北京信息工程学院的周锡令教授主持的受限汉语的研究为自 然语言理解提出的一种新的思路。他认为短期内计算机还很难做到真正的理解自 辽宁科技大学硬士毕业论文概述 然语言,在继续对自然语言理解方面进行研究的同时,应该研究受限的规范的汉 语,这样可以让研究成果较快的实用化。 ( 6 ) 知网:由董振东先生提出的一种汉语知识表示方法。知网把客观世界看 作是有很多的概念构成。概念与概念之间有各种各样的关系,这些关系相互交织 就构成了一个网。要表示一个客观世界,就是要确定这些概念、概念的属性以及 概念之间的关系。 1 2 汉语分词 1 2 1 汉语分词的意义 汉语自动分词是计算机科学研究的重要课题之一。它是汉语自然语言理解、 机器翻译、电子词典等信息处理中的基础性工作。所谓分词,就是把一句话,一篇 文章,甚至一部著作中的词逐个切分出来。中文不像拼音文字那样有自然切分标 志,且词的长短不一,词的定义也不统一,语言学中对词的定义多种多样,造成切分 的多样性,这自然给自动分词的同一性带来很大困难。中文词本身的词素、词、词 组无明显的区分界线,没有一个统一的标准,许多东西都是凭经验和语感来划分。 这项工作如果全部交给计算机来做,就没有那么简单了。 汉字和西文截然不同,因此在处理技术上有很大的区别。诸如英语、德语、法 语等欧美语言在书写时,词与词之问用空格分开,因而词与词之间的界限在书面上 是泾渭分明的;而汉语在书写时,词与词之间没有空白,一个汉语句子就是一大串 前后相续的汉字的字符串,词与词之间的界限,被前后相续的汉字淹没得无影无踪 了。而且近年来,每天都可能有新词出现,或者是原有的词被赋予新的用法,并 且在信息高度发展的情况下,外来词的涌入以及网络名词、商标等基于汉语自身 的灵活性和自由性所出现的新词,使得词在不断的变化和扩展。面对这样的日新 月异的词,也同样给汉语分词技术面带来了巨大的挑战。近年来国内相关领域的 人士也一直都在这些方面努力的研究和探索,目的就是为了找到更准确,更可靠, 也更有实用价值的方法,更好的完成序列标记的任务,其中包括自动分词,词性 标注,组块识别,专名识别等等。 本文就是要通过对条件随机场的研究和应用来说明该方法在序列标记任务上 辽宁科技大学硕士毕业论文概述 所体现出来的特点及其良好的性能,并为后续的工作指出一个可靠的方向。 1 2 2 汉语分词的算法 我们可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理 解的分词方法和基于统计的分词方法。 ( 1 ) 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一 个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成 功( 识别出一个词) 。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹 配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最小 ( 最短) 匹配:按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词 与标注相结合的一体化方法。对于机械分词方法,可以建立一个一般的模型,即 a u t o m a t i cs e g m e :l t a t i o nm o d e l 在实际应用中,如基于词表的分词最大匹配( m m ) ( :列源、梁青元,1 9 8 6 ) 1 1 】。 就是一种有着广泛应用的机械分词方法,该方法依据一个分词词表和一个基本的 切分评估原则。即“长词优先”原则来进行分词。这种评估原则虽然在大多数情况 下是合理的,但也会引发一些切分错误。以及还有一些基本方法的相互组合使用: 正向最大匹配方法和逆向最大匹配方法结合双向最大匹配( s 瑚m s a n db c n j a m i n k t1 9 9 5 ) 2 ;一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分 析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字 符串分为较小的串再来进行机械分词,从而减少匹配的错误率;另一种方法是将 分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助( 白拴虎。 1 9 9 5 ) 唧,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提 高切分的准确率。 对于基于词典的分词方法,影响其精度的因素有【4 】:( 1 ) 机器词典中词目的选择 和词条的数量;( 2 ) 机器可读词典与待切分文本中词汇的匹配关系:( 3 ) 切分歧义; ( 4 ) 未登录词;( 5 ) 分词方法。词典对分词精度造成的影响远远大于分词方法本身产 生的歧义切分错误和未登录词问题。影响其速度的因素有:机器司读词典的组织结 构、匹配的原则和扫描的顺序。 ( 2 ) 基于理解的分词方法 6 辽宁科技大学硕士毕业论文 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果,也称 人工智能法。人工智能是对信息进行智能化处理的一种模式,主要有两种处理方 式:( 1 】基于心理学的符号处理方法。模拟人脑的功能,像专家系统,即希望模拟 人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。( 2 ) 基于 生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一 定的功能。以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方 法上,产生了专家系统分词法和神经网络分词法嘲。神经网络具有联想、容错、 记忆、自适应、自学习和处理复杂多模式等优点。不足的是网络连接模型表达复 杂、训练过程较长、不能对自身的推理方法进行解释,对未在训练样本中出现过的 新的词汇不能给予正确切分。专家系统具有显式的知识表达形式,知识容易维护 能对推理行为进行解释,可利用深层知识来切分歧义字段,缺点是不能从经验中 学习,当知识库庞大时难以维护及在进行多歧义字段切分时耗时较长。 ( 3 ) 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次 数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的 反映成词的可信度。基于统计的分词方法所应用的主要统计量或统计模型有:互 信息、n 元文法模型、神经网络模型、隐m a r k o v 模型和最大熵模型等。这些统 计模型主要是利用词与词的联合概率作为分词的信息。 目前使用较为广泛的是以互现信息为统计量:即对语料中相邻共现的各个字 的组合的频度进行统计,计算它们的互信。定义两个字的互现信息,计算两个汉 字的相邻共现概率。互现信息体现了汉字之问结合关系的紧密程度。当紧密程度 高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中 的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方 法。其中比较有代表性的,如( r i e k u b o t a a n d o 。2 0 0 0 ) 嘲使用统计方法进行自动分 词的研究;( a n d r e wm c c a l l u m , 2 0 0 0 ) v l 使用最大嫡马尔可夫模型的方法进行自动 分词的研究;( n , a w e nx u e ,2 0 0 2 ) 阿使用合并分类器的方法进行自动分词的研究。 基于统计的分词方法的优点是:( 1 ) 不受待处理文本的领域限制;( 2 ) 不需要一 个机器可读词典。缺点是:( 1 ) 需要大量的训练文本,用以建立模型的参数;( 2 ) 该 方法的计算量非常大;( 3 ) 分词精度与训练文本的选择有关。到底哪种分词算法的 准确度更高,目前尚无定论。对于任何一个成熟的分词系统来说,不可能单独依 7 辽宁科技大学硬士毕韭论文 靠某一种算法来实现,都需要综合不同的算法。 1 2 3 汉语分词面。插的关键问题 分词规范的不确定性、以及切分歧义和未登录词等方面都是汉语分词技术面 临的关键问题。其中两个最大的技术闯题是切分歧义和未登录词问题。前者要解 决在上下文环境下不同切分结果的选择;后者要解决词典中未收录词的识别。可 以在机械匹配的基础上通过规则的方法来求解上述两个问题,然而规则方法很难 满足真实文本的各种现象。目前比较主流的方法是通过对真实文本的概率统计来 求解切分歧义和未登录词问题。 汉语分词的一个巨大非技术障碍乃是分词规范和标准问题。虽然汉语分词已 经有很多年的研究历史,但是迄今为止国内仍没有一个公开的、受到广泛认可的、 可操作的分词规范,也不存在一个通用的大规模评测语料。这使得众多研究者的 研究结果之间缺乏真正的可比性,从而制约了汉语分词技术的提高。能够真正公 开为大众所使用的较好的分词工具也很少。 ( 1 ) 通用词表和切分规范 至今为止,分词系统仍然没有一个统一的具有权威性的分词词表作为分词依 据。这不能不说是分词系统所面临的首要问题。研制分词词表应遵循两个原则:其 一是以现有的分词规范作为指导自动分词工作的基本准则,这是解决处理汉语自 动分词问题的唯一正确的思路( 研究表明,现有的作为国家标准的信息处理用现 代汉语分词规范 网经过仔细推敲,确实还有许多不尽如人意的地方,有待逐步完 善。但是它毕竟是广泛吸收了计算机界、语言学界相当一部分专冢的意见,经过三 年多讨论和研究,三次大规模评审,七易其稿的成果。同时由于汉语分词本身存在 着复杂性和灵活性问题,因此目前还没有人提出一套思路不同的规范) 。 其二是在充分发挥经验作用的基础上,加上基于语料库的统计方法,简称“经 验+ 统计”方法,进行收词。还有一个概念值得我们注意,即“分词单位”。从计 算机进行分词的过程来看,其输出的词串我们称之为“切分单位”或“分词单位”。 信息处理用现代汉语分词规范中对于“分词单位”也有一个定义:“汉语信 息处理使用的、具有确定的语义或语法功能的基本单位。包括本规范的规则限定 的词和词组1 9 】。”分词系统可以面向解决实际问题的需求和真实语料中使用的频繁 程度来规定“分词单位”。分词单位可以是同词表中词完全一致,也可以是包含未 3 辽宁科技大学硕士毕韭论文 登录词识别以及一些词法分析的切分单位,例如,一些人名、地名、机构名、外国人 译名,一些动词和形容词重叠结构、附加词都可以作为分词单位予以识别和切分。 因此,对于一个分词系统而言,制定一个一致性的分词单位切分规范无疑也是一个 重要的问题。 ( 2 ) 歧义切分字段 歧义是指同样的一句话,可能有两种或者更多的切分方法。由于没有人的知识 去理解,计算机很难知道到底哪个方案正确。解决歧义的方法可以分为两类:基于 规则的方法和基于统计的方法。基于规则的方法主要根据句法、语义规则和语法、 语义解析进行分词判断。这些规则仅涉及若干毗邻词之间的线性关系,没有反应出 句子中各成分之间的层次关系,可靠性不强,难以建立完整、有效、无矛盾的体系 l l o 。基于统计的方法主要有:基于互信息和t t e s t 的方法1 1 1 】1 1 2 、基于m a r k o v 模型的方法【1 3 1 、基于s v m 和k - n n 结合的汉语交集型歧义切分方法【4 j 、基于 e m 的方法【1 4 1 等。当前国内对歧义字段切分提出多种方法,取得了一定的成效。但 从近几年8 6 3 智能机主题组对汉语书面语自动分词软件歧义字段切分正确率的评 测结果来看,离实际需要的差距还是很大的。汉语的复杂性和语言规则的不确定 性使得现代汉语自动分析的研究工作困难重重,摆在研究工作者前面的是一条艰。 难的探索之路。本文在第四章中详细讲述了利用条件随机场如何对歧义词进行处 理。 ( 3 ) 未登录词识别 我们知道,词表中不可能囊括所有的词。一方面是因为语言在不断的发展和变 化,新词会不断的出现。另一方面是因为词的衍生现象非常普遍,没有必要把所有的 衍生词都收入词典中。未登录词,也就是那些在词典中都没有收录过,但又确实能称 为词的那些词。特别是人名、地名等专有名词,在文本中有非常高的使用频度和比 例。而且由于未登录词引入的分词错误往往比单纯的词表切分歧义还要严重。这 就要求分词系统具有一定的未登录词识别能力,从而提高分词的正确性。除了人名、 地名的识别,还有机构名、产品名、商标名、简称、省略语等都是很难处理的问题。 而且这些又正好是人们经常使用的词。同时,分词系统还需要有一定的词法分析能 力,从而解决衍生词和复合词等词汇层面上的问题,为进一步的中文信息处理提供 坚实的基础。 目前,大多数利用各种手段来获得某种类型未登录词的启发知识,从而提供预 9 辽宁科技大学硬士毕业论文 测特定类型未登录词( 如中国人名) 的能力。从已有的若干个未登录词辩识系统看, 召回率还是能令人满意的,但精确率一般都还不够高。另外,由于未登录词辨识的 研究基础还比较薄弱,同时拥有多种未登录词辨识能力的系统尚不多见,因此未登 录词的综合识别问题还没有引起足够的重视,未登录词的辨识和分词系统之间的 关系还缺乏比较系统的研究。目前主要有基于分解与动态规划策略的汉语未登录 词识别和基于语j ; 斗学习的未登录词检测方法。本文在第四章中详细讲述了利用条 件随机场如何对未登录词进行处理。 1 2 4 汉语分词技术的展望 如今尽管对于汉语分词方面进行了大量的研究i 】f 1 3 1 1 5 l ,但是距离处理真实文 本的要求还有很大的距离。 反思人在看到一个汉语句子时识别出句中的。词”豹过程,不难体会到,表 面看这是一个很简单的任务,但实际上要调用很多的知识。比如人如何知道,“才 能”在什么情况下是一个词( 如“他有各种才能”) ,在什么情况下应该分为两个 词( 如“什么时修我才能克服这个困难? ”) 昵? 如果能概括出有效的规则,就可以 告诉计算机进行正确的分词。或者如果能够造出一个统计模型,使得其每次遇到 “才能”,计算机都能猜到如何处理。但是要给出这样的规则模型和统计模型, 实在很困难。 因此,如何结合现有的规则模型和统计模型,我认为是未来研究的热点。例 如,汉语分词中的一个重要的子任务就是未登录词的识别问题。解决的策略无非 是:( 1 ) 尽可能多地收集词汇,降低遇到未登录词的机会;( 2 ) 通过构词规则和上下文 特征规则来识别;( 3 ) 通过统计的方法来猜测一般的分词过程后剩下的“连续单子 词碎片”是人名、地名的可能性,从而识别出未登录词。以未登录词这个个例子 来看,词的识别要达到很高的精度,实际上需要许多知识作为基础资源。面对这 些知识如何将其结合起来便需要规则模型和统计模型的混合体构建新一代的汉语 分词模型【1 6 1 ,甚至新一代的汉语理解模型。 1 3 本文工作概述 本文针对目前汉语分词和词性标注研究热点集中在基于统计方法应用,研究 辽宁科技大学硕士毕业论文 最大熵理论对于自然语言理解研究的重要意义,并进一步介绍了条件随机场( 以最 大熵理论为驱动发展起来的一种用于对序列数据进行切分和标记的概率框架) 。提 出了应用条件随机场来构建统一的汉语分词和词性标注分析。文中对汉语分词中 的歧义词和未登录词等难点问题也进行了详细的研究和探讨,并对在隐马尔可夫 模型和条件随机场模型下的分词和词性标注进行了详细的比较。, 1 4 论文的组织结构 本文的内容组织如下: 第一章对自然语言处理、汉语分词相关技术的研究背景,发展概况、发展趋 势和实际应用价值作了详细介绍。 第二章介绍了条件随机场模型的基本内容。并着重叙述了图模型,以及对最 大熵和随机场理论进行了详细的讨论。 第三章主要对序列标注任务中三种统计语言模型进行了详细的比较。对隐马 尔可夫,最大熵和条件随机场模型的特点进行了详细说明。 第四章实验结果与分析,通过汉语分词和词性标注的实验与实验结果分析验 证了的条件随机场模型有效性。 第五章结论与展望,对本文工作做的总结和对未来的展望。 辽宁科技大学硬士毕业论文 条件随机场模型 第二章条件随机场模型 条件随机场属于图模型中的无向图马尔可夫随机场,是序列标注任务中 优秀的统计语言模型。本章主要介绍条件随机场的基本原理和结构形式。最后介 绍了条件随机场的训练方法和如何使用条件随机场完成序列标注任务。 2 1 图模型 图模型( g r a p h i c a lm o d e l ) 表示一簇概率分布( f a m i l yo fp r o b a b i l i t y d i s t r i b u t i o n ) i 诩,是结合了概率论和图论而产生的理论模型。图模型主要分为两种: 有向图模型( d i r e c t e dg r a p h i c a lm o d e l ) 和无向图模型( u n d i r e c t e dg r a p h i c a lm o d e l ) 。在 图模型中,图中的结点表示随机变量;边或弧表示随机变量之间的相互关系或逻 辑关系;通过边或弧的有无来表示图中对应随机变量之间的条件独立性假设;在 整个图模型中,随机变量的联合概率分布可以通过定义在结点子集上的局部函数 的乘积来表示。每个简单的模块通过概率论相互胶合在一起。概率论确保整个模 块合成的系统整体具有一致性,并且对访问图所表示的随机变量提供了一种接口。 借助于成熟、完整的图论知识,图模型框架为计算随机变量的边缘概率分布和条 件概率分布提供一个综合的框架。在诸如统计、系统工程、信息论、模式识别等 领域,很多经典的多元概率系统都隶属于概率图模型框架。图模型的另一个优势 就是,它能够根据图结构,有效地控制与图表示相关分布的计算复杂度。 2 1 1 随机变量的条件独立性 随机变量的概率密度分布与变量之间的条件独立性有很大关系。概率密度的 表示会由随机变量的独立性而大大简化。所以,这里先给出随机变量条件独立性 的定义: 咒和知分别表示两个不同的随机变量集合。如果: p 忍,弱) = p ( x a ) p ( x b ) 那么,我们就说随机变量集肠与随机变量集硒是相互独立的,表示为 x j l x 8 。 如果: 辽宁科技大学硕士毕业论文条件随机场模型 p ( x a ,x a l x c ) = p ( 五i x c ) p ( x j i 翮 或者: p ( 尼j 筋,翮= p ( 肠l 船) 那么,我们就说在给定随机变量集合皿的条件下,随机交量集兄与随机变量 集弱是条件独立的。表示为彪i ix s t x c 2 1 2 无向图模型 无向图模型是以图论中的无向图为基础。在这里,g 砌。,暑) 用以表示无向 图模型。矿表示图的结点集,e 表示图的边集。 茄:v en 表示随机变量集合。图 中每一个结点与随机变量一一对应。在无向图中,结点之间的边表示结点所对应 的随机变量之间的关系。 ( 1 ) 无向图中的条件独立性假设 在无向图中,如果结点集合恐能够将彪中的所有结点与,r c 中的所有结点 “隔开”( s e p a r a t m n ) ,那么我们就说,在给定结点集忍的条件下,结点集忍与结 点集觑是条件独立的,表示为石j l 屉f 渤。这里“隔开”一词意为图论中的结 点集分割,即如果从结点集中的任姆结点到结点集中任何结点韵路径中都会 有包含属于结点集船中的结点,那么就说在已知知的条件下,局与尼是条件独 立的。 x c 图2 2 无向图中的条件独立性 f i g u r e2 2c o n d i t i o n a li n d e 秽n d e n c yi nu n d i r e c t 司g r a p h i c a lm o d e l 1 3 辽宁科技大学硕士毕业论文 条件随机场模型 在图2 2 中,所有从结点集兄到结点集j 0 的路径都将从结点集合弱穿过那 么如分割五和知。 因为图模型表示一簇概率分布,所以如果无向图g i 础。,e ) 满足条件 忍l 屉i 盈,那么意味着满足该无向图性质的所有概率分布都满足条件 x a 且殇l 洫;如果无向囤g l 础。妒,固不满足条件局且溉l 知。那么至少有一 个概率分布不满足条件犯且l 弛。 ( 2 ) 无向图的聒合概率密度 无向图的条件独立性假设使得无向图所表示的联合概率分布可以方便的用指 数系分布( e x p o n e n t i a lf a m i l yo f d i s t r i b u t i o n ) 来表示。在下一节,有咩细介绍。 无向图模型常应用在图像建模、空间统计、统计自然语言处理和通信网络等 领域。因为这些领域所处理的问题往往无须考虑空间元素之间的因果条件关系, 而主要是考虑元素之间的相互依赖关系。 2 2 马尔可夫随机场和h a m m e r s l y - c l i f f o r d 定理 2 2 1 马尔可夫隧机场 x = x i ,石 表示随机变量集,x 取值于有限集合s 。那么x = x l ,石 就 可以称为随机场( r a n d o mf i e l d ) f 堋。 文献 1 8 中,以g = ( v ,占) 表示一个无向图,y = 扣l ,- ,h 表示图中的结点集, e 表示图中的边集合。无向图中结点集合v = v 9 - 9 ) 与随机变量集合 x = z i ,石 一一对应,我们可以通过结点索引至随机变量。结点 的近邻结点 集就是指在无向图中通过边直接与该结点 相连的所有结点集合。我们以( f ) 来 表示结点i 的近瓠结点集合,即n ( i ) = 结点i 的所有近邻结点 如果随机变量x = 拍,妊j 满足如下条件:以戈:= 蜘 = 0 ,并且 尸( 彪= x t i 彪= x k ,i t f ,溉x ) = 尸( 妊= 圳x k = 斯,ie n ( i ) ) 对任意结点i l , 那么,随机变量集x = x i ,。,墨 就是马尔可夫随机场( m a r k o vr a n d o m f i e l d s ) 。 由无向图的定义及其条件独立性假设可知,无向图本身就是马尔可夫随机场。 1 4 辽宁科技大学硕士毕业论文 条件随机场模型 其在空间里满足马尔可夫性,即有限的视野。无向图中的随机变量,在一定条件 下,满足条件独立性。 2 2 2 吉布斯分布 在这里,我们首先简单介绍一下吉布斯算法( g i b b sa l g o r i t h m ) 。吉布斯算法首 先是在统计力学领域中,由j w i l l a r dg i b b s 提出,用来在满足一定宏观约束的条件 下,选择未知微观状态的统计概率分布。其通过最小化l o g 概率均值: h _ - y p i l o g p j 来得到最优的概率分布。通过吉布斯算法而得到的分布我们称之为吉布斯分布 ( g i b b sd i s t r i b u t i o n ) 。另外,从s h a n n o n 信息论角度出发“9 1 ,通过吉布斯算法而得 到的也是最大熵概率分布例,我们在后面章节有详细介绍。 g = ( ,d 表示有限 ( f i n i t e g r a p h ) ;= 1 ,田;x = ( x 1 ,_ :l + 2 ,石) 表示随机 变量。x 。= ( x 1 , x 2 ,出 表示随机变量的一次取值。图中每个结点与随机变量集 合x = x i ,3 6 , 一一对应,我们可以通过结点索引至对应的随机变量。集合 c = c l c 2 ,凸 是图的结点幂集( p o w e rs e t ) 。 如果随机变量x 服从吉布斯分布( g i b b s d i s t r i b u t i o n ) 2 0 1 ,那么在文献 2 0 中其 分布具有如下形式: 螋 p ( x 9 = 丁e r 其中, z = p 下 ( ,僻= r e ( x 9 在文献 2 0 中,z 是归一化常数( n o r m a l i z i n gc o n s t a n t ) ,确保所有概率分布之 和为1 ,也称为划分函数( p a r t i t i o nf u n c t i o n ) ;t 是常量;u ( x 9 可称之为能量函 数( e n e r g y f u n c t i o n ,名称来自于统计热力学) ;c 是有向图中所有的结点集合;c 表 示有限图中的结点子集;r c ( x 9 在此称为势函数( p o t e n t i a l f u n c t i o n ) 。因为在图中 辽宁科技大学硬士毕业论文 条件随机场模型 可由结点索引至结点对应的随机变量,所以此处的势函数是定义在结点子集c 之 上。服从以上分布的随机变量x = ( x i ,x 如,x n ) 称为吉布斯随机场( g i b b sr a n d o m f i e l d ) 。 吉布斯分布中的势函数是实值、非负的函数。势函数值依赖于局部结点集c 所 对应的随机变量。求得吉布斯分布,需要计算定义在所有可能的结点集之上的划 分函数z 。 在我们熟悉的分布中,高斯分布( g a u s s i a n d i s t r i b u t i o n ) 就属于吉布斯分布的一 种。 2 2 3h a m m e r s l y 。c l i f f o r d 定理 虽然马尔可夫随机场通过条件性独立性可以很好地刻画出局部随机变量之间 的依赖关系,但各个条件独立性分布之间并不具备一致性关系。所以马尔可夫随 机场其本身的分布形式比较复杂,难以处理和使用。而吉布斯分布是易于方便处 理的函数分布,但并不具有马尔可夫随机场的局部性优点。h a m m e r s l y - c l i f f o r d 定 理能够在马尔可夫随机场和吉布斯分布之间建立一个等同关系,很好地结合两个 随机场的优点。 ( 1 ) 在最近邻系统之上的吉布斯分布 这里,我们把吉布斯分布局限在最近邻系统( n e a r e s tn e i g h h o h o o ds y s t e m ) 之 上。所谓最近邻系统,指的是在图表示中,最近邻系统中的随机变量对应的结点 彼此相邻。 为了清楚的表示图中结点之间的近邻关系,在此引入图论的c l i q u e 概念,即 完全连通子图( f u a y - c o n n e c t e ds u b - g r a p h ) 。其内的所有结点都通过边而彼此直接相 连。 最大c l i q u e ( n a x i m a lc l i q u e ) 表示最大全连通子图。即在连通图中添加任何一个 其它结点后,都将打破这种其内部结点之间的连通性。根据无向图中的条件独立 性假设,如果结点石- ,x :和z 3 能够形成一个最大c l i q u e ,那么任何定义在该最 大c l i q u e 之上的函数都能够捕获这三个结点之间所有的依赖关系。所以,我们在 涉及函数的依赖结点集的时候,就只需要选择最大的连通集合就可以了。而需再 定义比如( x l ,z 2 ,或者 x 2 ,x 3 这些子c l i q u e ( s u b - c l i q u e ) 。 1 6 辽宁科技大学硬士毕业论文条件随机场模型 为了增加简单性,在我们随后的相关描述中,我们都将以c l ! q u e 这一概念来 表示最大全连通子图。 五 xx 图2 3 无向图模型 f i g u r e2 3u n d i r e c t e dg r a p h i c a lm o d e l 在图2 3 中,c l i q u e 集合包括( z 1 ,x 2 ) , x 1 ,x 3 , x 3 ,j 磅, x 2 ,石4 和 x 2 ,x 5 ,6 。 势函数定义在近邻系统之上的吉布斯分布形式: 其中, u ( x 9 p ( x 3 = 丁e t z :yp 丁 x r u ( x 3 = v 4 x ) 这里,c 表示某个c l i q u e ,c 表示图中所有c l i q u e 的集合。r 4 x ) 是定义在c 上的最近邻势函数( n e a r e s tn e i g h b o rp o t e n t i a lf u n c t i o n ) 。如果势函数矿( x ) 定义在 非c l i q u e 之上,那么v ( x ) 的值将定义为: 一蛳( x ) = 0 此时的势函数称为规范势函数( c a n o n i c a lp o t e n t i a lf u n c t i o n ) 。 ( 2 ) 对势函数的解释 在吉布斯分布中,势函数即不表示条件概率也不表示边缘概率。它不具有局 1 7 辽宁科技大学硬士毕皿论文条件随机场模型 部的概率意义。在吉布斯分布中,势函数可以看作是一种“一致性”或“约束性”。 亦可看作是对整个分布概率产生直接影响的一种“能量贡献”。如果势函数域中的 随机变量取某个值的概率很大,那么整个概率分布的概率值就可以很大。 势函数是严格的正值,实值函数,但可以具有任意的形式。势函数的值越大 表示其c l i q u e 内的随机变量取得某些值的条件下,该势函数所表示的意义就越大。 所以,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二年级上册三 凯蒂学艺-表内乘法(二)教案设计
- 人教版八年级历史与社会上册1.3罗马帝国的兴衰 教学设计
- 九年级语文下册 第三单元 11《送东阳马生序》同步教学设计 新人教版
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解
- 当好安全第一责任人培训
- 人音版三年级音乐上册(简谱)第8课 《演唱 如今家乡山连山》教学设计
- 二 小制作-角的初步认识(教学设计)-2024-2025学年二年级上册数学青岛版(五四学制)
- 冀教版三年级上册科学教学设计:9浮与沉
- 2024兵器装备集团陵川工业春季招聘开启笔试参考题库附带答案详解
- 二年级数学上册 五 厘米和米综合与实践 我们身体上的“尺”教学设计 苏教版
- 2025年江苏建筑职业技术学院高职单招(数学)历年真题考点含答案解析
- 配电工程施工方案
- 数学-湖南省2025届高三下学期“一起考”大联考(模拟二)试题+答案
- 2025年中国计量器具市场调查研究报告
- 中央2025年中国信息安全测评中心招聘31人笔试历年参考题库附带答案详解
- 2025年吉林铁道职业技术学院单招职业倾向性考试题库必考题
- 《正定矩阵的应用分析》1400字
- 挂网喷播植草施工方案
- 99S203 消防水泵接合器安装图集
- 离心式鼓风机设计(毕业论文)
- 扬州粉末涂料项目投资计划书(模板)
评论
0/150
提交评论