




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 摘要 f 自然语言处理是人工智能领域的一个重要分支,它主要研究计算机对输入的语 料的分析、理解和生成,旨在建立人与计算机之间友好的交流通道,实现更高层次 的信息交互。作为研制开发自然语言处理系统的一项重要基础性工程,词库建设经 过了数十年的研究和应用,有了长足的发展。 近些年来,随着科学技术的突飞猛进,大量新词和组合词不断的涌现出来,给 传统的词库建立、收词维护等工作带来了巨大困难。以计算机为辅、重在人工参与 的词库技术不能从根本上解决庞大的人力资源的投入。火 基于规则的自动分词和取词系统是针对这一问题而提出的一个可行的解决方 案。它同样以词库作为各项处理的基础,通过分词和取词两个自动过程,利用与词 语自身相关的规律,在较少人工干预的情况下,实现从取词语料中自动提取所需的 词构成目标词库。 迥痊窒垒堡? 自动分词和自动取词是该系统三个核心组成部分。前者实现系统对 词库的各项需求,向外界提供系统生成的目标词库:自动分词完成系统对输入语料 的切分工作,并复制词库中词语的辅助信息到切分结果中:自动取词在分词的基础 上,从切分结果中选取适当的词组成目标词库。 三个核心的设计实现是系统研究的关键。对于词库处理,采用了分级技术来存 储,通过建立二级索引和词语按序存放来实现词库快速检索;对于自动分词,系统 进一步改进了螂分词方法,并利用规则实现语料的快速准确切分:对于自动取词 系统利用了研究所得的各种规律来指导取词过程各个环节上的处理。 关键词:自动分词: l 取证强规贝峙分级词库 、 华中科技大学硕士学位论文 a b s t r a c t n a t u r a ll a n g u a g ep r o c e s s i n g ( n l p ) i sa ni m p o r t a n te m b r a n c h m e n to f a r t i f i c i a li n t e l l i g e n c e ( a i ) ,w h i c hm a i n l yr e s e a r c ha n a l y s i s ,u n d e r s t a n d i n ga n dc r e a ti o no fi n p u td a t a l e x i c o nb u ii d i n gi so n eo ft h em o s ti m p o r t a n tb a s i cw o r k so fn l ps y s t e ma n dl e x i c o nt e c h n i q u ei st h ef i r s to b j e c t t oa n yn l p r e s e a r c h i nr e c e n ty e a r s ,d e v e l o p m e n to ns c i e n c ea n dt e c h n o l o g yh a v eb e e ne r e a t i n gs om a n yn e ww o r d sa n dc o m b i n e dw o r d st h a ti tb r i n g si m m e n s et r o u b i e t ot h ee x is t n gl e x i c o na p p l i c a t i o n s ,s u c ha sl e x i c o n - b u i l d i n ga n d m a i n t e n a n c e t oc e n t i n u et h e i rw h e e l s ,t r a d i t i o n a lt e c h n o l o g i e si n t h i sa r e ah a v et op a ym o r ea n dm o r eh u m a nw o r k sf o rt h el e s su s e so fc o m p u t e r s a u t o m a t i cs e g m e n t a l i o na n dw o r d e x t r a c t i n gs y s t e mb a s e do nr u l e si s b r o u g h tf o r w a r da saf e a s i b l en e ww a yt or e s o l v et h ep r o b l e m l e x ic o np r o c e s s ln g ,a u t o m a t i cs e g m e n t a t i o na n dw o r de x t r a c t i n ga ret h et h r e e m p o r t a n tc o m p o n e n t so ft h es y s t e m t h ef i r s to n ei sa n o u t p u t - i n t e r f a c eo ft h es y s t e ma n dc r e a t e st h et a r g e tl e x i c o nf o ro t h e ra p p li c a t i o n s a u t o m a t i cs e g m e n t a t i o nd i r i d e si n p u td a t aa n dp r e y i d e so t h e rw o r di n f o r m a t i o nf o fe xl r t c t i n g t h el a s tp r o c e s ss e g m e n t a l i o nr e s u l ta n dp u tt h er e c e iv e d w o r din t ot h et a r g e tl e x i c o n t h em o s ti m p o r t a n tr e s e a r c ho ft h es y s t e mi st h er e a l iz a t i o n ( ) f t h e s et h r e ek e r n e l s l e x i c o np r o c e s s i n gh a su s e dh i e r a r c h y t e c h n i q u et o r s t o r a g ea n dl e x i c o n i n d e xf o rs e a r c h n g s e g m e n t a t i o nu s e sm o d i l i e d mm e t h o df o rd i v i d i n ga n dr u l e sf o rc o r r e c t i n g w o r de x t r a c t i n gu s e s s t a ri s t i c alr u e sf o rd i s t i l ii n gw o r d k e yw o r d s :a u t o m a t ics e g m e n t a t i o n ;w o r d e x t r a c t in g ;r u l e :h i e r a r c h y l e x i c o n i i 华中科技大学硕士学位论文 1 绪论 1 1 课题背景 随着计算机应用在医院信息管理中的不断深入发展,电子病历的实现作为医院 信息化的必然环节,已经成为众多软件开发商研究的重点。电子病历顾名思义,就 是将医务人员日常书写的各种病历文档电子化。它的个显著特点就是存在大量繁 重的信息录入,涉及患者入院期间发生的与之相关的所有信息。这是电子病历目前 的一个亟待解决的问题。在使用普通的输入法时,由于其附带的词库没有也无法包 含所有的专业词汇,用其实现信息的快速录入是不切实际的。因此,设计开发一套 电子病历系统时必须建立自身的专有词库,并且要在此基础上设计开发出一种专门 的快速输入工具。这个专有词库自动建立和扩充功能的实现是本课题所要研究解决 的。 基于规则的自动分词和取词方法的研究其目的在于实现能完成下述功能的一个 专业词库生成和维护系统:以预先建立的基本词库为基础,通过某种快速分词处理 技术,将输入的专业文本自动切分开来,然后从切分结果筛选适当的词用于专有词 库的自学习过程,最终形成或扩充专业词库。取词的方法根据不同的需要有很多种, 但不管采用哪种方法都必须解决一个基本问题,就是首先要将待提取的词从文本中 切分出来。因此,语料的自动切分是系统的一个研究开发关键。本课题的分词处理 将采用规则指导下的最大正向匹配( m m ) 分词技术。选择该技术的原因有两点:一 是该方法分词速度快,并且在有规则指导下处理错切,使得切分正确率大为提高。 取词是系统的最终目的,分词只是某种手段,在底层服务于取词。因此在分词过程 里必须有效的控制执行时间,提高系统的摧体运行效率。第二个原因是在专业文本 中非专业未登录词汇如人名、地名等很少见,比较多的是专业方面的专有词汇。另 外专业文本的句式单一,词语的独立性较好,出现歧义的情况也相对较少,分词过 程中不可避免的歧义切分和未登录词识别这两大问题,对于专业文本而言,其产生 的影响相对不会太大。因此,没有必要采用以处理歧义等为主的速度较慢的分词方 法。 华中科技大学硕士学位论文 词库的建立和维护工作一直以来都是非常费时费力的,科学技术发展却使得各 种领域类的新词不断的涌现出来,进一步提高了这一工作的强度。目前单一的词库 实际上已经无法收取所有的词汇。面对数量如此庞大的词语,在原有基础上仅靠人 工来处理,工作显然是复杂而繁重的,而词和词库的广泛使用又加剧了解决这一问 题的艰巨性和紧迫性。本课题要研究实现的基于规则的自动分词和取词系统,正是 要通过基本词库,让计算机对专业文本进行自学习处理,从而自动形成或扩充专业 词库。这对于专业词库的建立和维护显然是有莫大的帮助的。另外,词库研究是自 然语言处理领域的一个基础性工作,本课题研究的词库自动生成和维护技术相信对 相关领域内的其他应用也会有一定的促进作用的。 1 2 国内外研究概况 1 2 1 相关领域的研究概况 1 与自动分词相关的系统 中文自动分词主要研究语料的切分、切分歧义的处理以及未登录词的识别”。 任何一个实际的系统都是这三者有机的结合。评价一个自动分词系统主要通过软件 模型:。来考察它的分词正确率、切分速度等重要指标;。国内实用的中文分词系统 是在8 0 年代初自动分词的概念提出后,逐步开发出来的。在当时产生了较大影响、 具有一定代表性的自动分词系统有: t 1 ) 北京航空航天大学计算机系于1 9 8 3 年研制的c d w s 分词系统。它的自动分 词采用的方法是最大匹配法,辅助以词尾字构词纠错技术。其分词速度为5 一l o 字7 秒,切分精度约为1 6 2 5 ,基本满足了词频统计和其他些应用的需要。这是国内 第一个实用的自动分词系统。 ( 2 ) 山西大学计算机系研制的a b w s 自动分词系统。它使用的分词方法称为”两 次扫描、联想一回溯”方法,用联想一回溯来解决组合切分歧义。系统词库运用了较多 的词法、句法等知识。其切分正确率为9 8 6 ( 不包括非常用、未登录的专用名词) , 运行速度为4 8 词分钟。 ( 3 ) 北京航空航天大学于t 9 8 8 年实现的c a s s 分词系统】。它使用的是一种变 华中科技大学硕士学位论文 分词速度为2 0 0 字秒以上,知识库分词速度1 5 0 字秒。 ( 4 ) 复旦大学分词系统由四个模块构成。预处理模块利用特殊的标汜将输入的 文本分割成较短的汉字串。歧义识别模块使用正向最小匹配和逆向最大匹配对文本 进行双向扫描判别其是否为歧义字段,是否需要进行歧义处理。歧义字段处理模块 使用构词规则和词频统计信息来进行排歧。未登录词识别模块解决未登录词造成的 分词错误。系统对中文姓氏的自动辨别达到了7 0 的准确率,对文本中的地名和领 域专有词汇也进行了一定的识别。 ( 5 ) 北京大学计算语言学研究所研制开发的分词系统。它属于分词和词类标注 相结合”1 的分词系统,由于将分词和词类标注结合起来,系统可利用丰富的词类信 息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整, 同时将基于规则的标注排歧与基于语料库统计模型的排歧结合起来,使规则的普遍 性与灵活性得到统一,而且对未登入词的估算到达了相当高的准确率。 国内还有一些分词系统在其它方面如自学习l 等进行了研究探讨,这里不在一 一列举。国外微软研究院的自然语言研究所从9 0 年代初开始歼发了一个通用型的多 国语言处理平台nl i ,wn ,最初阶段的研究都是对英语进行的。在增加了中文处理的 研究后,扎p w in 成为了一个能够进行7 国语言处理的系统。 2 与词库、取词相关的系统 这类系统主要完成词库的建立和词语的抽取,或者根据从语料抽取的词语实现 词库的建立;或者根据已有词库实现从语料抽取词语。前者主要用于自动或半自动 创建具有特殊用途的词库;后者则多用于文本信息的提取、文献资料的标引等。 ( i ) 面向范畴语法分析的汉语词库构造系统4 。该汉语词库是为了用范畴语法 进行汉语语句分析而建立的范畴化机器词库。除了一股词库所具有的特点外,还具 备与范畴语法相适应的各种词条说明和词语关系搭建。该词库在对汉语词语问相互 影响作用以及汉语语句中词语角色范畴分析的基础上,尝试性的进行了范畴化汉语 词语分类。 ( 2 ) 汉语分词词库自动扩充系统1 “”。它是一个实用的计算机汉语分词词库自动 扩充系统,在进行汉语自动分词的同时,将出现频度较高的新词扩充到词库中。系 统的主要工作是建立与管理基础词库、实现汉语分词和词库中新词的扩充。 华中科技大学项士学位论文 ( 3 ) 生物学文献自动标引系统4 。 加权体系的标引词抽取的理论和实践。 该类文献取词的特点。 3 分词方法的分类 该系统研究了折半匹配的取词和基于非线性 对生物学专业文献进行了研究分析,归纳了 现有的分词方法大致可以分为三类:低级的基于串匹配的方法、中级的基于规 律的方法和高级的基于语法理解的方法。 基于串匹配的分词方法包括机械匹配分词和特征词匹配! 璎分诃。前者是按照一 定的策略将待分的字串与词典中的词条进行逐词匹配可供选取的策略包括扫描方 向、长度优先和结合词性标注过程。常用的几种机械分词方法有正向最大匹配”2 i 、 逆向最大匹配和最少切分,多策略复用的方法有双向匹配法等。单一的机械分词方 法无法解决歧义切分和未登录词识别这两个基本问题,因此在实际使用的分词系统 中,它只是作为一种分词基础,还要通过词自身信息来提高切分准确率。特征词匹 配分词方法采用“分而治之”的办法,对给定的待分字串,首先根据特征词库将其 分割成若干个较短的子串,然后对每个子串分别采用机械匹配法进行切分。 基于规律的分词方法利用汉语词自身的规律进行分词i 。包括各种统计规律、 词语间的约束关系等。利用统计规律分词只需对语料中的字组频度进行统计,不需 要切分词典。所谓字组频度就是两个或多个字出现在一起的概率。词是稳定的字的 组合,相邻的字同时出现的次数越多,成词的可能性就越大。因此字与字相邻共现 的频率能够较好的反映成词的可信度。但这种方法也有一定的局限性,对一些共现 频度高、但并不是词的常用字的组合就无法处理;并且该方法对常用词的识别精度 差,统计计算的时空开销也很大。实际应用的统计分词系统都是将串频统计和串匹 配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结 合上下文识别生词、自动消歧的优点。 基于语法理解的分词方法模拟人对句子的理解过程分词。通常的分词系统都力 图在分词阶段消除所有歧义切分现象,而目前的实践表明,这种企图是无法实现真 正意义上的完全消歧的。基于理解的分词系统是在后续过程中来处理歧义切分问题, 其分词过程只是整个语言理解过程的- d , 部分,其基本思想是在分词的同时进行句 法、语义分析,利用句法信息和语义信息来处理歧义现象。在分词过程中,该种系 华中科技大学硕士学位论文 法、语义分析,利用句法信息和语义信息来处理歧义现象。在分词过程中,该种系 统需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各 种语言信息组织成机器可直接读取的形式,因此目前这种系统还处在研究试验阶段。 还有一些其它的分词方法,如采用随机优先状态的分词方法“”,基于词链的分 词方法“”以及无监督下的动态分词方法“”等。所有的这些分词算法都或多或少的要 用到词的某些语法属性,如词类、词法等。 4 词语的词性标注 词性标注是对词库中词语的属性进行标记“”,它是一个分词系统的基础性工作 之一。计算机判定词的语法范畴是其对该自然语言进行进一步处理的前提。具体说 来,由计算机对词性进行标注有以下实际意义:( i ) 在对大量语料进行标注的基础 上为更高层次的语言处理提供数据资料;( 2 ) 在同样基础上为语言学的研究提供准 确可靠的素材;( 3 ) 在语言处理软件中由词性标注模块为进一步的语言处理提供支 持。 国外关于词性标注的代表性工作有:1 9 7 1 年g r e e n e 和r u b i n 设计的t a g g i t 的 标注系统,8 0 年代初由英国l a n c a s t e r 大学的研究小组设计的c l a w s 系统,在c l a w s 之后,词性自动标注多采用基于统计的方法,如n 元语法方法。国内,北大计算语 言学研究所从1 9 9 2 年开始进行汉语语料库的多级加工研究。第一步就是对原始语料 进行切分和词性标注。1 9 9 4 年制订了现代汉语文本切分与词性标注规范v 1 o 。 几年来已完成了约6 0 万字语料的切分与标注,并在短语自动识别、词库构建等方向 上进行了探索。 1 _ 2 2 主要技术研究概况 基于规则的自动分词和取词系统要用到的关键技术和理论主要有:词库相关技 术,包括词库的建立、存储和检索技术:自动分词相关技术,包括切分规则、歧义 处理和未登录词识别技术;文本分类技术以及词语的抽取相关技术。 1 词库相关技术 词库是自然语言处理相关研究的基础,好的词库设计并且成功的建立是自然语 言处理系统顺利运作的前提陋圳。计算机硬件技术的发展使得内存的容量大大提高, 华中科技大学硕士学位论文 集全所有的词汇,因此合理的将所有的词导入到内存提高检索速度在目前还不可行。 通过对大量语料的研究,尽管汉语的词汇量相当庞大,但同常使用的常常集中在某 个子集上,即有的词的使用频率相当高,有的词的使用频率很低。在含有1 3 1 4 4 0 4 个词的语料中,其中使用频率最高的前1 0 0 个词就覆盖语料总量的4 0 左右,前2 5 6 2 个词就覆盖语料总量的8 5 左右”。因此,可以采用分级的思想,将这些常用词聚 集在一起作为一个基本词库,而将不常用或在某些专门领域常用的词按照领域的不 同分为不同的集合。这样,在使用词库的时候就可以使用基本词库,同时根据需要 调用相应的专门词库。以上就是分级词库的基本思想”。词库分级不同于词库分类 ”,前者仅仅针对同一语种,而后者则是处理诸多语种。分级词库的思想已经广泛 的应用到自然语言处理各项研究中,包括用于构建词库本身”l 。 词库的存储技术主要考虑词库在内存中的逻辑结构。虽然内存容量可以装下所 有的词,但要快速的检索词库还必须要设计合理的内存结构。早期的词库逻辑设计 考虑较多的是如何压缩存储,尽可能多的装入词库。“j ;现在主要集中在如何快速的 检索上。由于h a s h 方法在查询性能上固有的优越性,在词库设计上往往考虑使词库 的逻辑结构能够满足在检索时使用该方法。另外,对i l a s h 方法的深入研究可以 将其设计用来提高词库磁盘存储的利用率= ”。 词库的检索技术与它的逻辑设计结构是密不可分的,任何一种检索算法都有与 之相对应的存储逻辑结构j “。并且,二者在算法上也往往是相似的。常用的检索技 术有快速i l a s h 法、异或t t a s h 法:等。t l u s h 的对象也不尽相同,可以是对汉字的 某种编码进行散列,也可以是对词中所有汉字的笔画数的某种权值处理结果进行敞 列。利用i l a s h 方法处理时遇到地址冲突是可能的。在有冲突时检索算法往往还 要考虑相关对策“1 。 2 自动分词相关技术 汉语自动分词技术有着广泛的应用j “1 。自动分词方法依赖于两个基本假设: ( i ) 分词是人处理信息过程中的个步骤。自然语言处理的主要目的是要部分的模仿 和实现人分析、综合自然语言信息的能力。而人在感知语言时,存在一个词汇序列 的分解过程。( 2 ) 分词可用一个计算模型表达。人的分词过程可以形式化表达,因而 可以自动进行,自动分词就是相应计算模型的实现。 6 华中科技大学硕士学位论文 仅仅依靠字串匹配分词不足以完成正确分词”j ,必须引入适当规则对切分进行 限定,使得切分结果尽可能的符合实际,减轻后续操作的复杂度。切分规则要有文 本说明的形式存放在系统文档中,并有一套严格的符号集来描述【“。这样才便于系 统在增加或删除规则时对其进行的维护工作。 对切分歧义的研究一直以来都是自动分词工作的重点,歧义处理的好坏直接关 系到所属系统的性能。目前,歧义处理技术研究的重心是设计具有自组织、自适应 能力的排歧方法”1 。在当前使用的分词系统中,处理歧义的策略往往是采用“分 而治之”的思想,先划分歧义类型,然后针对不同类型采用不同的处理方法。比如 针对发生频率最高的交集型歧义,可以研究找到解决它的特别办法。另外,也 可以利用切分后获得的词语属性来解决部分切分歧义”。 未登录词识别技术也是分词系统的一个关键技术。文献“中提出了基于分解与 动态规划策略的识别技术,采用分解处理策略降低整体处理难度,并使用动念规划 方法实现最佳路径的搜索,较好的解决了未登录词之问的冲突问题。文献1 j 中提出 中文姓名的自动辨识方法,对姓名组成进行了详细分析,设计实现的算法较好的解 决了以姓名为主的未登录词识别。文献则对中文机构名进行了详细讨论。这些识 别技术都是值得借鉴的。 3 其它技术 文本分类技术:文本分类的目标是在分析文本内容的基础上给文本分配一个或 多个比较合适的类别。目前已经有许多机器学习方法应用到该领域,如v a p nk 提出 的支持向量机( 5 v m ) ”:在文本分类研究一丌始就引起关注的k 近邻( k 、) 分类器。; y a n g 提出的一种线性最小二乘方拟合法( 1 i s i :) “:a p t e 采用决策树方法进行分类 。另外,神经网络( n n e t ) 和贝叶斯1 。方法也被广泛地应用到文本分类中。关于中 文文本分类方法,文献“提出了基于向量空间模型的多层次分类方法。该方法研究 和改进了经典的向量空间模型( v s m ) 的词语权重计算方法,对文本处理有较高的i f 确 率和召回率。 字频统计相关技术;汉字字频是取词策略中的一个重要统计数据。通过计算词 语在某一词库中的平均汉字字频可以参考预测该词是否可以归入该词库。当然这只 是一个统计规律,不一定能完全反映真实情况。文献”。讨论了一种新的汉字字频统 华中科技大学硕士学位论文 是一个统计规律,不一定能完全反映真实情况。文献”“讨论了一种新的汉字字频统 计方法。该方法采用误差估计方法,在给定误差限和置信概率的条件下,解出了一 种汉字字频统计的抽样规模,对汉字的使用频率进行了更为精确的估计。 1 3 课题主要研究工作 从上述分析可以看出,词库自动构建相关技术研究涉及自然语言处理的方方面 面,需要用到的技术也是相当广泛而复杂的。具体来说,词库相关技术服务于词库 在运行使用时的快速准确处理,研究提高词库的访问效率技术是极其具有应用价值 的。分词相关技术是对自然语言文本处理的前提技术,同样也是从语料文本中取词 的先决条件,研究准确高效的自动分词技术一直是中文自然语言处理领域的重点。 词语的抽取技术、文本分类等技术主要用在信息检索、文献标引等领域,研究对这 些技术的改进来提高检索的准确高效以及标引的自动化程度等也是未来相当一段时 期内的工作重点。 本课题将在这些处理技术的基础上,试图建立这样一套基于规则的自动分词和 取词系统:利用规则指导下的自动分词技术,结合自定义的基本词库和部分专业词 库对某专业语料进行切分,从切分结果中自动提取需要的信息建立或扩充该专业的 专门词库。 本课题主要研究工作是围绕系统的三个组成部分的具体实现进行的,包括词库 处理、分词处理和取词处理。词库主要为分词和取词服务;分词实现语料的切分; 取词完成词库的生成和扩充工作。研究工作相应划分如下: 1 词库相关研究工作 研究词库分级的可行性,确定分级的原则:收集常用汉语词汇,建立基本词库; 对基本词库进行规范化标注;收集各种汉语标点、标志符号,建立符号标志库;建 立词库合理的内存组织结构,确定词库的存取原则;分析词库建立后的最佳搜索策 略,设计快速的词库检索算法。 2 分词相关研究工作 分析归纳切分规则,研究规则引入对分词速度的影响,规避最坏情况;分析归 纳消歧规则,建立歧义发生时的应对策略;分析归纳未登录词识别规则,研究新词 r 华中科技大学硕士学位论文 3 取词相关研究工作 分析研究合理的取词策略,从切分结果中确定取词的合理范围:分析候选阔相 关的各种统计参数,选用合理的参数作为目标词的筛选依据。 华中科技大学硕士学位论文 2 系统的分析与总体设计 基于规则的自动分词和取词系统目标是通过计算机自动生成个特定专业词 库,供其他应用程序使用。该系统利用规则对给定语料进行分词,并从切分结果中 提取合适的词组成专业词库。本章将从系统的总体分析设计入手,详细的对系统各 个组成部分进行剖析,以寻找一种合理的系统实现方案。 2 1 自动取词系统的分析 随着科技的不断发展,大量新词汇不断的出现在各行各业中。在这种情况下, 词库建立和维护工作变得异常复杂,所需的人力物力也越来越庞大,因此必须充分 利用计算机的快速计算处理能力,设计开发出一套能够自动提取词语构建词库的系 统来取代繁重的人工选词工作。 计算机硬件技术的发展使得内存容量可以满足装入词库所有信息的要求,但词 语数目的激增导致整个词库装入过程缓慢,而且词库装入后的批量检索同样非常费 时。这些对于以词库技术为基础之一的应用来说是难以忍受的。采用将基本词库和 专业词库分开的词库分级技术,在使用前仅装入所需的词库就可以有效避免这种情 况。这也是解决诸如专业领域快速输入等应用的一个可行性方案。 本系统正是本着这些目的研究设计的。 2 11 数据流程 在设计系统总体功能结构之前,有必要对系统可能的数据流程进行探讨。系统 叫分缩减1 并 筛选 取词语料i 一切分结果i _ 候选词l 、 ;历史数据一专业词库 取词语料n 切分结果n 候选词n 图2 l 系统的数据流圈 中的数据从开始的大篇语料到最终的少数独立词汇经历了一系列变化过程,如图 2 1 所示。 华中科技大学硕士学位论文 取词语料可以是随机抽取的一段文本,也可以是人为设定的若干资料中的一部 分。为从语料中提取所需词语,必须先对语料进行词语切分处理,产生以词串形式 保存的切分结果,完成第一步切分转换。满足系统要求的词只是词串中的一小部分, 考虑到系统可能的执行效率,没必要也不允许对整个词串进行筛选处理,只要从中 确定一个范围即可。由此完成第二步缩减,产生候选词串。从候选词串中直接取词 带来的误差较大,也缺乏合理的筛选依据。因此需将多篇语料切分后提取的候选词 合并在一起,通过统计规律来筛选。这就是第三步归并,形成历史数据。最后一步 是从历史数据中筛选出专业词插入到目标专业词库中。 2 1 2 总体结构设计 通过对系统数据流程的分析,可以将系统功能结构按数据处理量的大小分为三 个部分:分词、取词和词库处理,三者的之间的关系如图2 2 所示。 图12 自动取词系统总体功能结构图 1 分词环节 从图中可以看出分词环节是系统的入口,取词语料输入到系统后,经过分词环 节切分形成独立的词串,然后提交给取词环节作进一步处理。分词环节中使用最大 正向匹配切分方法对语料作预切分,这必须在有词库存在的前提下才能进行。因此, 系统在处理切分之前必须先通过词库处理环节建立好词库。词库处理环节在切分中 的作用主要体现在词语的检索匹配和为切分出的词提供其它附属信息。 2 取词环节 取词环节对切分结果进行缩减、归并和筛选,最终将提取的“专业词”插入到 臣标专业词库中。取词环节与历史数据之间存在交互,需要读取历史数据,将其与 华中科技大学硕士学位论文 新确定的候选词归并,最后结果仍存放于历史数据中。词语的筛选是在取词环节里 对归并后的历史数据进行的。筛选通过概率统计来完成,因此选出的词不定就是 专业词,这样对收词严格的词库就需要人工干预了。另外,对历史数据的存取不必 在每次处理取词时都进行,只要第一次读出最后一次再保存就可以了。取词环节同 样需要词库辅助才能进行,词库提供专业词库相关信息使其能够据此作出取词判定。 3 词库处理环节 如前所述词库处理环节分别为分词和取词两环节提供辅助功能。专业词库最后 是通过该环节处理得到的。 在下面的章节里,我们将分别对这三个部分进行分析设计。 2 2 词库分析设计 2 2 1 词库的需求分析 整个自动取词系统是建立在词库基础之上的。词库对系统的作用按系统的运作 分为两个不同阶段。第一阶段是分闾阶段,词库主要用于词语的匹配,确定切分结 果是否存在于词库之中。对于完全匹配的词语,词库相应的要提供其附属信息供二 次切分或取词过程使用。这一阶段要求词库必须满足系统对信息量的需求,即提供 系统需要的词语词性、切分规则等信息;词库要尽可能完全的匹配出语料中的非专 业词,这样在取词的时候才能减少非专业词产生的干扰。 第二阶段是取词阶段,词库主要用于候选词从切分结果中的选取和专业词库中 新增词在候选词中的筛选。这一阶段要求词库必须能够区分专业词和非专业词,以 及词库必须附带有专业词库的特殊信息。 系统的目的是生成独立的专业词库,这就要求词库在外存存放时必须将专业词 库和基本词库分开,不同的专业词库也必须分开存放。这样生成的专业词库t 便于 其它应用程序调用。在内存中,为了避免扫描多个词表需将不同的词库合并在内 存的同一逻辑结构下,这样才有利于检索的快速进行。 由此,系统要求词库的设计必须满足以下几点: 1 词库的信息量足够满足系统的需求 华中科技大学硕士学位论文 2 词库的内外存存储结构有别 3 ,外存不同词库文件要做到单独存放 4 内存存储结构必须能够被快速检索 5 词库在内存必须做到有序存放 6 内存索引要合理建立,不能过多占用内存 7 内存结构要便于区分词语所属词库 8 内存结构要保证专业词库附属信息的存取 2 _ 2 2 词库的结构设计 由词库的需求分析可知,词库的内外存结构是相互独立、透明的,二者的相互 转换可以通过合理的i 0 操作来进行,转换必须满足各自的设计规则要求。因此对 于同一种内存结构,可以采用多种不同的外存存储形式与之对应。 2 2 2 1 外存结构 本系统采用独立文件分别存放字库、词库和汉语符号库。其中词库按系统需求 细分为基本词库和各专业词库,同样通过独立文件分开存放。 1 字库和汉语符号库 字库和汉语符号库的外存存储结构相同。所有的汉字和汉语符号都占两个字节, 而且只占两个字节,因此,可以采用密集压缩成一个大字符串文本的形式存放在各 自的文件中。汉字和汉语符号的固定长度是分割它们的唯一标志。在读取时,按顺 序每次读出两个字符即为一个汉字或汉语符号。 由于采用h a s h 的方式进行存取操作,字库或汉语符号库对其中的汉字或汉语符 号的位置顺序不作要求。只要按照约定的存放形式存放即可。另外,字库或汉语符 号库对汉字或汉语符号的唯一性也不做要求,即汉字或汉语符号也可以出现重复现 象。为保持库的精简,在维护时应当保持各自的唯一性。 2 基本词库和专业词库 基本词库和专业词库采用不同的外存存储结构。这是由各自不同的用途决定的: 基本词库是为本系统这一特定目的服务的,除了构成词库的基本词语外,还包括系 统需要使用每个词的附属信息,如词性、分词规则等。因此存储时必须包含所有的 华中科技大学硕士学位论文 这些信息:专业词库是系统要构造和扩充的对象,是要用于其它目的的,没必要也 不能存储过多的词的附属信息。 专业词库词语之间用空格分开,所有专业词通过该方式构成文本串存放到独立 文件中。词库要求按升序存放,这样便于快速的将专业词库导入到内存当中。基本 词库的存储文件由三元组构成,三元组之间用空格间隔。每一个三元组记载基本词 语本身、词性和该词语的分词规则,三者也用空格作为间隔标志。同专业词库一样, 基本词库也要求元组之间按汉字区位码的升序排放。 2 2 2 2 内存结构 内存组织结构是词库的核心。系统能够稳定、高效的运行建立在性能优秀的词 库内存组织结构之上的。 汉语符号库由于数量少、相关操作简单,因此它的内存组织结构可以用一个简 单的字符串数组表示。数组的每一个元素存放对应的汉语符号。 字库和词库的内存组织结构是一个有机的整体,二者共同构成一个二级索引关 系。为了描述方便,称字库在内存中的组织结构为字表;词库相应的称为词表。词 表由基本词库和专业词库导入后合并而成,为了方便操作,词表中增加了二者的区 分标志。 图2 37 # 库的内存组织结构 字表的结构如图2 :3 所示。图中,左半部分的箭头表示数组中存放的是一个字 的三元组:右半部分箭头表示指向以该字开头的词表的指针。字的三元组存放的是 汉字本身、汉字在专业词库中的字频以及一个指向词表的指针。 每一个词表由词链和词链的索引两部分组成,如图2 4 所示。由于词链的长度 是动态的,且每一个词表的词链长度也不一样,因此无法建立统一的静态索引。 华中科技大学硕士学位论文 索 一! i 词 钵 期2 4 词表的内存组织形式 - 一一- 图中虚线箭头表示省略中间的若干结点,实线箭头则表示相邻两个结点。每一 个索引结点由三部分组成,包括词语、指向某个词语结点的指针和指向下一索引结 点的指针。每一个词语结点由五部分组成,包括词语、词性、分词规则、所属词库 和指向下一词语结点的指针。由向下的箭头可以看出,每个索引结点均一一对应一 个词语结点。由于词链中词语是按序存放的,因此这样建立索引可以快速的对动态 词链进行搜索。 2 3 分词过程分析设计 2 3 1 分词过程功能需求 分词过程的最终目的是将输入的语料以独立词的形式切分开来,并且给切分出 的每个词附加一定的属性信息供取词过程判别使用。任何一种分词方法在实现分词 的同时必然要面对歧义切分和未登录词识别两大问题,本系统也不例外。除了基本 的分词功能外,还提供了歧义处理功能和未登录词识别功能。同时为了提高歧义处 理的准确性以及未登录词识别的合理性,系统研究总结了若干规则指导各个功能的 具体实现。 2 3 1 1 语料预切分 语料预切分功能是利用最大正向匹配分词方法对输入的语料进行预切分。为了 减少语料重复扫描,预切分工作还将完成是否发生歧义以及是否出现束登录词两种 情况的判定标记功能。另外,在完成预切分功能的同时,利用切分规则作部分绝对 切分判定,以提高后续处理工作的执行速度。 华中科技大学硕士学位论文 2 3 1 2 歧义处理 歧义处理功能是在预切分结果中出现歧义的地方选取合适的消歧策略来进行正 确切分。该功能包括对歧义发生范围的界定工作、合理的选用消歧策略实现正确的 切分。预切分对歧义发生点做出了标记,处理时按序扫描预切分结果即可。 2 3 1 3 未登录词识别 未登录词识别功能是利用判定规则在预切分结果中确定合理的未登录词。语料 经过删切分后,出现在预切分结果中的未登录词是一个个单独的非词字。识别过程 就是要将这些非词字按照合理的规则合并起来作为一个整体保存在切分结果中。 2 3 1 4 分词功能结构图 分词过程的功能结构图如图2 5 所示。 | 耋i2 5 分词过程功能结构图 2 3 2 分词过程设计 根据分词的功能结构图,可以将分词过程细分为四大模块: 1 预切分结果维护模块 预切分结果的维护包括对结果中元组信息的存取以及元组闻的合并、删除、更 新等操作。本模块是其他模块与预切分结果的接口。 2 规则实现模块 通过合理的分类将规则的函数实现放在一起,这样便于系统对其进行维护操作。 3 预切分处理模块 华中科技大学硕士学位论文 实现m m 切分方法,对语料进行一次扫描处理;利用规则模块调用合理规则对切 分点进行绝对切分判定;标记歧义切分点和未登录词出现点。 4 二次切分处理模块 为了减少对于切分结果的扫描次数,歧义处理和未登录词识别可以在二次切分 时同时进行。 2 3 3 分词过程实现方案 1 输入语料,利用词库和m m 分词方法进行预切分处理 2 对每一个切分点利用切分规则判定是否为绝对切分,并做出标记 3 对每一个切分点利用歧义判定规则判定是否存在歧义切分,并做出标记 4 对每一次切分出的词判定是否为未登录词,并做出标记 5 逐词处理预切分结果,进行相应处理 6 遇到歧义切分点,调用消歧规则正确切分 7 ,遇到未登录词,调用识别规则合理归并 8 提交切分结果 2 4 取词过程分析设计 2 4 1 取词过程功能需求 从系统总体设计可以看出,取词过程处于整个系统的最后一个环节。根据数据 转换的要求,取词过程的主要功能包括:提取和归并候选词;筛选候选词并扩充专 业词库。 2 , 4 1 1 提取归并候选词 提取归并候选词功能包括从切分结果中选择满足预设条件的词语作为专业词库 的候选词,并将选择的结果与历次操作的数据进行归并。由于筛选需要用到词语的 两个参数:词语累计次数和平均字频,因此归并时要对词语的出现次数进行累加, 对于新出现的候选词,还要利用专业词库的字频信息计算该词的平均字频。 华中科技大学硕士学位论文 2 4 1 2 扩充词库 扩充词库功能包括从归并结果中筛选出符合要求的词加入到专业词库中,完成 一次对专业词库的扩充。筛选根据词语的累计次数和平均字频这两个参数进行。对 于选中的词语要将其从历史数据中删除。对专业词库进行了一定规模扩充后,需要 重新计算该专业词库的字频,并根据新的字频更新剩余历史数据中所有候选词的平 均字频。 2 4 1 3 取词功能结构图 最后给出取词过程的功能结构图,如图2 6 所示。图中按虚线流向的箭头指示 了一次取词操作最多要完成的功能。 蚓26 取诃过程功能结构图 2 4 2 取词过程结构设计 根据功能需求,可以将取词过程的结构作如下细分: 1 计算统计子模块 给出所有计算和统计相关函数;完成对专业词库词语总数的统计以及专业词库 所有汉字的字频计算,保存结果;完成对语料专业性强度的计算,决定该语料是否 能作为取词语料:完成对候选词的平均字频计算,保存结果。 2 候选词提取模块 华中科技大学硕士学位论文 给出所有情况下的候选词提取规则函数;调用计算模块,确定能否从当前切分 结果中取词;逐词处理切分结果,调用相关提取函数取词,保存取词结果。 3 归并模块 给出历史数据归并、更新、删除等维护函数:给出筛选规则函数;逐词处理取 词结果,调用相关函数归并到历史数据:根据归并情况决定是否调用计算模块计算 该词平均字频:对历史数据逐词调用筛选函数,筛选候选词,保存结果;若专业词 库字频信息发生变动,调用计算模块重新计算候选词平均字频。 4 词库扩充模块 完成对专业词库的接口处理:调用计算模块相关统计函数统计当前扩充后专业 词库规模,判断变化程度决定是否重新计算专业词库字频;调用计算模块计算字频, 保存结果;触发归并模块计算候选词平均字频。 2 4 3 取词过程实现方案 1 确定切分结果入口,判定已切分语料入选为取词语料 2 逐词处理切分结果 3 对每一个词判定其是否为未登录词,是则入选候选词表,相同候选词合并, 并累计次数 4 对每一个词判定其是否为号业词,是则根据规则确定与其相关合成词入选 候选词表 5 逐词处理候选词,将候选词表归并到历史记录中 6 对每一候选词,判定历史记录中是否存在,不存在则计算其平均字频,将 结果连同词本身一并插入到历史记录中;否则累计历史记录中该、词次数 7 对每一候选词,归并到历史记录中后,计算其筛选参数,满足条件则从历 史记录中取出插入到专业词库 8 历史记录规模扩增至一定规模后进行非专业词剔除处理 9 专业词库扩充达到一定程度后重新计算并更新专业词库字频,同时重新计 算并更新候选词的平均字频 9 华中科技大学硕士学位论文 2 5 小结 本章首先对自动分词系统的数据流程进行了分析,概括性的介绍了自动分词系 统的总体结构,以及系统中各个部分的性能要求。在后续小节里主要对系统的关键 组成部分进行了分析设计。 在词库小节中,首先分析了系统对词库的需求,着重介绍了词库在分词和取词 两个阶段的重要作用以及完成这些功能要满足的要求。最后给出了系统对词库设计 的各项要求。 在分词小节里,给出了系统对分词环节的功能需求和功能结构图,着重介绍了 预切分、歧义处理和未登录词识别功能。根据功能需求将分词过程划分为四个模块 并一一加以介绍。最后给出了实现分词过程的一个大概的方案。 在取词小节里,同样给出了系统对分词环节的功能需求和功能结构图,取词过 程的模块划分以及大概的实现方案。 华中科技大学硕士学位论文 3 词库建立及分词实现 本章我们将讨论词库的建立以及利用词库实现规则指导下的快速自动分词。词 库的建立包括字库、词库和专门用于切分处理的汉语符号库的存取方法以及相关的 检索策略。分词的实现是整个系统的基础性工作也是研究的重点,包括切分规则 的分类描述、预切分的实现、歧义处理以及为登录词识别。 3 1 建立词库 词库性能的优劣直接关系到整个系统的工作效率,而性能的优越主要集中体现 在词库的存取方法和检索策略上。下面将就这两个问题的实现分别加以介绍。 3 1 1 存取方法 3 1 1 1 从外存到内存 汉语符号库的导入按如下方式进行:初始化存储数组:打开外存文件,将内容 全部读入到字符串变量,关闭文件:对字符串进行处理,依次两两读出符号:对每 次读出的符号调用h a s h 查找函数,找到数组中相应位置;将符号存入该位置。 字库的导入和符号库类似,只是数组存放的不仅仅是汉字本身,还包括该
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年重阳节活动策划方案详细
- 2025年电子防噪音耳罩项目可行性研究报告
- 2025年电动直升机玩具项目可行性研究报告
- 2025年田中刀项目可行性研究报告
- 2025年特种节能加热器项目可行性研究报告
- 2025年燕头项目可行性研究报告
- 湖北武汉市华中师大一附中2025届高三3月押轴试题物理试题试卷含解析
- 江苏航运职业技术学院《中医药概论》2023-2024学年第一学期期末试卷
- 2025春新版六年级英语下册《陈述句》寒假衔接练习带答案
- 湖北科技学院《康复机构开办与管理》2023-2024学年第一学期期末试卷
- 《奈奎斯特准则》课件
- 操作剧院灯光音响的工作手册
- 生物医药科技成果转化
- 宋大叔教音乐(讲义)
- 催收策略及催收方案
- 供热管网安全运行管理制度
- 讲解员岗位业务知识培训
- 来料检验规范-(适用于电子厂)(共11份)
- 2023年四川省绵阳市中考三模数学试题(原卷版)
- 上会制度材料格式范文
- 动物疫病紧急流行病学调查技术规范
评论
0/150
提交评论