




已阅读5页,还剩58页未读, 继续免费阅读
(中国少数民族语言文学专业论文)藏文自动分词技术方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要 藏文分词是藏文信息处理中一项不可缺少的基础性工作。 从文本 的输入系统如智能语句输入法、语音输入、手写输入),到文字处 理(如文本校对)以及语音合成、 文本检索、 文本分类、 自然语言接口、 自动文摘等,无处不渗透着分词系统的应用,它是藏文信息处理重要 基础之一。 众所周知,英文以词为单位,以空格隔开。计算机可以容易地理 解英文单词。 而藏文句子中, 词与词之间没有明显的分隔符 (如空格) 。 藏文以字(音节字)为单位,连字成句才能描述一个完整的意思。而 对由词组成的藏文句子,必须通过藏文分词技术才得以理解。把藏文 的音节字序列切分成有意义的词,是藏文分词的研究工作。 通过研究和分析藏文分词的概念以及国内外相关成果, 本文系统 地提出了分词系统中藏文分词切分单位的划定原则以及藏文分词技 术方法,结合藏文自然标记断句、以格助词来为分块、块内匹配与统 计相结合的分词方法, 提出了藏文自动分词方法、 格助词的识别方法、 交集型和组合型歧义的识别方法及未登录词识别方法。 进而提出了藏 文自动分词的基础理论知识及分词技术方法。 关键词 分词,格助词,未登录词,歧义,分词方法 i abstract tibetan word segmentation is an indispensable fundamental work for tibetan information processing. from text input system(such as intelligent statement input, sound input and handwritten input) to the word processing (such as text check), and speech synthesis, text retrieval, text classification, natural language interface, automatic abstract etc. the segmentation system applicate every where. it is the core of tibetan information processing and foundation of tibetan natural language understanding. as well known, english words separated by spaces, but in tibetan sentence between the word no obvious separators (such as space). tibetan words unit is syllables, the syllables together to sentence and describe the mean. but tibetan sentences composed by syllables, so computer can underdtand the tibetan by the word segmentation. the tibetan syllables word sequence segment into meaningful words, namely the tibetan word segmentation. it is description of the whole technology for word segmentation, and introduction of the technology and the theory of chinese word segmentation methods and tibetan word segmentation in this paper. it is description of the basic concept and the research situation of tibetan word segmentation, and introduction of the unit and tibetan word segmentation method. it is bring out the tibetan word segmentation with tibetan participle, as segment the sentence by tibetan natural markers, and block byauxiliary suffered, tibetan word segmentation by block matching and statistics in this paper. it is bring out the method of tibetan word segmentation and the key techniques of processing methods. the key techniques include the lattice auxiliary identification method, and identification method of the ambiguity overlap type and combination, identification of not login. the identification the proper noun phrase and new recognition method is the proposed rules combine whit statistics ii iii key words tibetan word segmentation, auxiliary, not login;statistics; matching,words segmentation methods. 西藏大学研究生学位论文作者声明 本人声明:本人呈交的学位论文是本人在导师指导下取得的研究 成果。 对前人及其他人员对本文的启发和贡献已在论文中做出了明确 的声明,并表示了谢意。论文中除了特别加以标注和致谢的地方外, 不包含其他人和其它机构已经发表或者撰写过的研究成果。 本人同意学校根据中华人民共和国学位条例暂行实施办法等 有关规定保留本人学位论文并向国家有关部门或资料库送交论文或 者电子版,允许论文被查阅和借阅;本人授权西藏大学可以将本人学 位论文的全部或者部分内容编入有关数据库进行检索,可以采用影 印、缩印或者其它复制手段和汇编学位论文(保密论文在解密后应遵 守此规定) 。 学位论文作者签名: 指导教师签名: 签字日期: 年 月 日 签字日期: 年 月 日 第一章 绪论 1.1 引言 藏文分词是藏文信息处理领域的一项基础性课题。 自提出藏文自动分词到现 在已经经历了一个漫长的研究过程。无论在国外还是国内,都是一个正在研究的 前沿性课题,处于探讨性和创新性的研究阶段。在我国信息发展阶段,藏文自动 分词有着十分现实的意义。纵观国内语言文字信息处理技术的发展历史和现状, 我们可以看到, 古老的藏文字能否跨入信息时代的关键就是能不能解决好藏文信 息处理技术问题。与英语、汉语等语种的信息处理一样,藏文自动分词是藏文信 息处理中一项不可缺少的基础性工作。书面藏文分词问题解决的好坏,直接制约 着藏文词频统计工程、藏文机器翻译等高层藏文信息处理技术的进一步发展。 自从人类进入计算机和网络为主体的信息时代, 藏文信息处理技术也从字信 息处理逐步转向语言信息处理。一般从处理过程来看,我们可以把自动分词看作 是用计算机自动识别文本字符流中的词并在词与词之间加入明显切分标记的过 程。藏文不同于西文等西方文字,在一个藏文句子中,词与词之间没有明显的分 隔符(如空格) 。藏语的词法约束很不规范,就给藏文分词带来很大的麻烦。从 应用需求来看,自动分词的主要目的是确定自然语言处理的基本分析单位。 1.2 藏文分词研究现状 从九十年代到现在藏文自动分词方面的研究人员相继出现。 到目前为止国内 公开发表的藏文分词方法的论文及相关系统主要有以下几个; 1中国藏学中心扎西次仁曾设计过一个采用最大匹配算法的人机互助藏 文分词和登录新词的演示系统 ;该系统未预先建立匹配词典,而是在运行过程 中通过人机互助逐渐增加词条,扩大词表,所以又称为词登录系统。 2江荻,黄行藏语语料库语言学研究该方法单纯机械式的匹配方法, 其缺点很难对藏语进行有效的分词。长词覆盖短词,造成切分盲点。扫描词串中 包含了独立的句法标记,容易导致匹配上的误识;实词与虚词造成的同形词影响 第 1 页 切分准确性。 3陈玉忠于 2001 年设计实现了一个基于格助词和接续特征的藏文分词系 统个该系到目前为止较成熟的系统,其技术特点是:综合运用藏文字、词、句 等各类形态特征,在藏文格助词、接续特征、字性知识库以及词典的支持下,采 用逐级定位的确定性算法实现藏文的自动分词。初步测试表明,系统分词正确率 在 97%以上,且有不受领域限制、通用性强的特点。 4青海师范大学近几年设计班智达藏文文本自动分词系统该系统采用 模块化设计,由知识库管理模块、知识库模块、句子分块模块、块分词模块和校 正模块等五个主要部分。 其系统的基本思想是 mm 匹配算法。 先将待切分文分块, 然后按照一定的策略将待分析的字串与一个“充分大的”机器词典中的词条进 行匹配,若在词典中找不到某个字串,则将字串缩小继续查找,否则匹配成功, 识别出一个词。 5西藏大学于 2010 年 3 月向国家有关部委提交了 信息处理用藏语词类 标记集规范及信息处理用现代藏语分词规范同时在完成藏文分词系统开发 工作。据报道中国科学院软件研究所、西北民族大学、中央民族大学等科研也在 研究藏文分词。 1.3 藏文分词研究目的和意义 所谓的分词,就是把一句话、一篇文章甚至一部著作中的词语逐个地切分出 来1。藏语虽然是个拼音文字,但是不像英文那样有自然的切分标志,英语中词 与词之间用空格来隔开,而藏文在每个音节与音节之间用“”来隔开,但藏文 中词与词之间没有明显的分隔符,藏文文本是连续的音节串。把连续的音节串分 隔成词串是藏文分词需要作的工作。这是藏文信息处理领域的一项基础性课题, 也是智能化藏文信息处理的关键。因为在藏文信息处理中,凡是涉及句法、语义 的研究项目都要以词为基本单位。最近几年来,这方面的研究备受人们关注,并 现出了几种有应用前景的分词方法。 随着语言信息处理研究工作的不断深入 , 藏语语言信息处理技术也从字信 1杨宪泽 谈文荣等 自然语言处理的原理及其应用 四川 西南交通大学出版社 2007.3 第 2 页 息处理逐步转向语言信息处理。在自然语言处理领域,藏语也和汉语一样面临着 词语切分的问题。词语切分和标注是藏文信息处理的基础,其应用领域涉及到藏 文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘 要、自动校对等多种应用领域中。 藏文分词是藏语自然语言理解的一项基础性课题, 它在机器翻译、 信息检索、 智能输入、文本校对、自动文摘、自动分类和词典编纂等领域有着广泛的应用价 值。在这些领域当中,对真实文本进行词法、句法分析是一项必要的任务,但如 果对输入的真实文本不进行分词处理,就不能进行词法和句法的分析,因此分词 是词法分析的前提,分词为句法分析服务,句法分析的正确性也直接依赖于分词 的正确性。 藏文应用系统的前端处理离不开藏文分词, 几乎与藏文信息相关的所有应用 领域都涉及到藏文分词。藏文分词是藏文信息处理领域的第一项难关。这严重影 响了藏文信息处理应用技术的研究工作,因此本论文的研究是迫在眉睫的工作。 1.4 论文的主题和组织结构 本文主要研究了作为藏文信息处理技术基石的书面藏语分词方法及分词所 涉及的一些重点和难点问题, 如: 格助词的识别、 歧义切分、 未登录词识别技术。 格助词的识别主要研究格助词的兼类、紧缩问题以及格助词的识别方法;歧义切 分研究主要交集型及组合型字段的处理方法;未登录词识别技术研究主要集中在 人名、地名、专用名等未登录词的识别方法,这些问题的探讨和研究将对实现藏 语分词系统有着重要的实际意义。 1.4.1 研究内容 本论文以书面藏语的分词为研究目标。分词课题的研究内容主要括: 1 研究藏文分词的规范问题; 2研究藏文自动分词的切分方法; 3研究藏文自动分词的消岐问题; 4藏文未登录词的识别方法。 第 3 页 1.4.2 本文组织结构 图 1.1 1.4.3 论文的创新点 本文的创新点主要有已有的藏文分词方法作为指导思想, 提出了匹配与统计 相结合的藏文分词方法。特别是在藏文分词中关键技术的研究,主要格助词的识 别方法、歧义字段的消除方法、未登录词的识别方法。 1.4.4 本文相关术语定义 在不同的领域术语的定义有着不同的解释方法, 在此有必要对本文所涉及到 的相关术语进行解释。本文涉及到的相关术语定义如下: 定义 1:分词:就是把一句话、一篇文章甚至一部著作中的词语逐个地切分 出来。 定义 2:格助词:本文指的格助词包括传统藏文的八格和虚词的总称。 第 4 页 定义 3:未登录词:在大规模真实文本处理中,会遇到许多不能由词典识别 的词汇,包括人民、地名、术语等,统称为未登录词。 定义 4:歧义字段的定义:歧义字段从构成形式上可分为交集型歧义字段和 组合型歧义字段两类。分别描述如下: 1交集型歧义字段:在字段 ajb 中,aj w 并且 jb w,则称 ajb 为 交集型歧义字段。其中 a、j 、b 为字串,w 为词表。歧义字段的构成形式除上 述 ajb 外还可能有多种结构。 2组合型歧义字段:在字段 ab 中 ab w,a w,b w,w 为词表, 则称 ab 为组合型歧义字段。 第 5 页 第二章 分词技术理论和方法 2.1 基本介绍 藏语分词是对藏语文本进行自动分析的第一个步骤。词是最小的、能独立活 动的、有意义的语言成分 2。计算机的所有语言知识都来自机器词典(给出词的各 项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和 句子的语义、语境、语用知识库。藏语信息处理系统只要涉及句法、语义(如信 息检索、机器翻译、自动文摘、文本校对等应用),就需要以词为基本单位。分 词体现了藏语与英语等西方语言的显著的不同。英语文本是已空格分隔开的词 串,而藏语文本是连续的音节串。把连续的音节串分隔成词串,就是分词系统需 要做的工作。可以这样设想藏语分词过程的困难:如果把某个英语文本中的所有 空格符都去掉,然后让计算机自动恢复文本中原有的空格符,这就是词的识别过 程,这个过程需要解决的首要问题就是歧义字段的切分问题。分词可以由人工完 成,也可以由计算机根据事先编好的程序来自动完成。人工分词工作量大,难以 处理大规模语料。计算机自动分词速度快,一致性好,但是难以运用人工的各种 分词知识,一般来说分词结果的准确率要低于人工分词。 现在通常是先由计算机自动分词,然后辅之以人工校对。无论是人工分词还 是计算机自动分词,都需要有一个分词标准或规范,以说明怎样分词是正确的, 这个规范也为藏文信息处理的后续工作提供了统一的输入。不过,即使贯彻了这 个规范,分词结果也未必都是正确的。分词通常存在两大难题,一是歧义切分问 题,二是未登录词识别问题。 目前国内公开报道过的分词系统采用的分词方法主要有三种类型: 基于字符 串匹配的分词方法;基于统计的分词方法和基于理解的分词方法3。 基于字符串匹配的分词方法:也即机械分词方法,它是按照一定的策略将待 分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到 2苗夺谦 卫志华 中文文本信息处理的原理与应用 清华大学出版社 2007.9 3 第 6 页 某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方 法可以分为正向匹配和反向匹配;按照不同长度优先匹配的情况,可以分为最大 (最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯 分词方法和分词与标注相结合的一体化方法。 基于统计的分词方法: 从形式上看, 词是稳定的字的组合, 因此在上下文中, 相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的 频率或概率能够较好的反映成词的可信度。 可以对语料中相邻共现的各个字的组 合的频度进行统计,计算它们的互现信息。两个字的互现信息可定义为:其中 是汉字的相邻共现概率,分别是在语料 中出现的概率。互现信息是一个容易操作的量化标准,体现了汉字之间结合关系 的紧密程度。 当紧密程度高于某一个闭值时, 便可认为此字组可能构成了一个词, 将该字组添加到候选词序列,然后再经人工检查作最后确定。这种方法只需对语 料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法。但这种 方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组, 例如“这一” 、 “之一” 、 “有的” 、 “我的” 、 “许多的”等,并且对常用词的识别精 度差,时空开销大。 ),(yxpyx、)()、(ypxpyx、 基于理解的分词方法:一般来说,自动分词系统都力图在分词阶段消除所有 歧义切分现象,而有些系统则在后续过程中来处理歧义切分问题,其分词过程只 是整个语言理解过程的一小部分,这就是基于理解的分词算法,其基本思想是在 分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它 通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协 调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行 判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识 和信息。 从上述分词方法的主要分类及各类方法的特点可以看出, 实现一个成熟的分 词系统, 不可能单靠某一种方法来实现, 而需要综合不同的方法。 在实际应用中, 分词系统的设计通常都是先使用一部基本的分词词典(常用词词典)进行字符串 匹配分词,同时使用统计方法识别一些新的词,即将词典匹配分词和概率统计分 第 7 页 词结合起来,既发挥匹配分词切分速度快、效率高的特点,又充分利用了统计分 词结合上下文信息自动消除歧义和基于对词频的统计信息识别新词的优点。 2.2 汉语分词技术理论与研究方法 汉语分词是汉语信息处理技术的基础性课题, 从八十年代开始研究汉语分词 到现在汉语分词在分词理论及方法各方面已经取得了很好的成绩。 下面汉语分词 的规范、方法以及已实现的分词系统作个简要的介绍。 2.2.1 汉语分词规范 4 汉语分词方面 1992 年发布了中华人民共和国国家标准信息处理用现代汉 语分词规范(gb/t 13715-1992)该标准是汉语自动分词方面的理论依据其主要 内容有词的概念、词组的概念、分词单位的概念以及分词原则。 1.词:最小的能够独立运用的语言单位; 2.词组:由两个或两个以上的词,按一定的语法规则组成,表达一定意义的语言 单位。 3.分词单位:汉语信息处理使用的,具有确定的语义或语法功能的基本单位。它 包括规则限定的词和词组。 4.汉语分词:从信息处理需要出发,按照特定的规范,对汉语分词单位进行划分 的过程。 一、信息处理用现代汉语分词原则及切分单位有一下几个; 1空格或标点符号是计算机中分词单位的分隔标记。作为分隔标记的标点 符号有:句号逗号、顿号 分号、胃号、巧号、叹号、引号、括号、破折号、 省略号、书名号、问隔号、连接号及符号,/”等; 2二字或三字词,以及结合紧密、使用稳定的二定或三字词组,一律为分 词单位。例如:发展 可爱 对不起 自行车 3四字成语一律为分词单位。例如:胸有成竹 欣欣向荣 四字词或结 4 中华人民共和国国家标准 信息处理用现代汉语分词规范 gb/t 13715-92 第 8 页 合紧密、使用稳定的四字词组,一律为分词单位。例如:社会主义 由此可见 4五字或五字以上的谚语、格言等,分开后如不违背原有组合的意义,应 予切分。例如:时间 就 是 生命 失败 是 成功 之母;结合紧密、使用稳定 的词组,分开后如违背原有组合的意义,或影响进一步的处理,则不予切分。 例如:不管三七二十一 5惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位。 例如:妇女能顶半边天 他真小气,像个铁公鸡 6略语一律为分词单位。例如:科技 奥运会 工农业 7分词单位加形成儿化音的 “儿”,一律为分词单位。例如:花儿 玩儿 8在现化汉语中出现的非汉字符号,例如其他语言的宇符串、数学符号、 化学符号、阿拉伯数字等,仍保留原有形式。例如:cad cm 9现代汉语中其他语言的汉字音译外来词,不予切分。例如:巧克力 吉 普 10不同的语言环境中的同形异构现象,按照具体语言环境的语义,根据该 规范的规定进行切分。如:把 手抬起来 这个把手是木制的 二、信息处理用现代汉语分词规范(gb/t 13715-1992)规范沿用了把词分为 名词、动词、形容词、代词、数词、量词、副词、介词、连词、助词、语气词、 叹词、象声词等十三类方法。 1名词 (1) 普通名词 二字的名词或结合紧密的二字名词词组,一律为分词单位。例如: 火车 牛肉 钢铁 结合紧密,分开后如违背原有组合的意义的名词性词组,一律为分词单位。 例如:有功功率 被子植物 由形容词加名词组成的词组,应子切分。例如:绿叶 小床 形容词加 名词组成的有转义的词组,一律为分词单位。例如:小媳妇 戴高帽儿 第 9 页 前加成分加名词性分词单位应为分词单位。例如:阿哥 老鹰 超声波 名词性分词单位加如下类型的后加成分: 家 手 性 员 子 化 长 头 者 应为分词单位。例如: 科学家 拖拉机手 革命性 理发员 椅子 标准化 科长 木头 学者 名词性分词单位后如有多个后加成分,则它们是一个分词单位。例如: 物理学家 名词性分词单位前后如有前加成分和后加成分,则它们是一个分词单位。 例如:非党员 超导性 各类专业的基本术语为分词单位。例如:加速度 中央处理器 方位词应予单独切分。例如:桌子上 长江以北 除“人们”之外,仅表示前一个名词性分词单位复数的“们”单独切分。例如: 一年的十二个月份以及每周的七天,一律为分词单位。例如: 五月 元月 3 月 星期日 礼拜三 “年、日、时、分、秒”分别分词单位。例如:1988 年 3 月 15 日 “前、后、上、下、大前、大后”等直接与时间名词或量词组合时,它们为 一个分词单位。例如:前天 后年 上星期 下月 大前天 大后年 “初”加十以内的数学一律为分词单位。例如:初一 初八 (2)专有名词 人名、称谓等处理如下: 汉族人名的姓和名分别单独切分。例如:张 胜利 欧阳 海 其他国家、其他民族的人名按其习惯形式切分。例如: 卡尔马克思 牛顿 小林 多喜二 才旦卓玛 带职务、职称呼一律切分。例如:张 教授 王 部长 李 师傅 简称、尊称等为分词单位。例如:老张 小李 郭老 陈总 带排行的亲属称谓一律切分。例如:三叔 大女儿 民族名、地名中的“族、省、市、州、县、乡、区、河、山”等应单独切分。 但包括“族、省、市、州、县、乡、区、河、山”等只有两个字的民族名、地 第 10 页 汉族 哈萨克 族 北京 市 渐江 省 正定 县 专名部分不能单独存在而保持原有意义的地名,不子切分。例如:牡丹江 街、路、村镇名称、各大洋和各大海一律为分词单位。例如:长安街 学院 路 周口店 刘家村 大西洋 地中海 国家命名一律为分词单位。例如:中华人民共和国 组织、机构、单位的命名按组成其全名的分词单位切分。例如: 联合国 教科文 组织 中国 共产党 商品牌号、品种、产品系列名称中的专有名词与普通名词一律分别切分。例 如: 永久 牌 中华 烟 2动词 动词的重叠形式较多,具体规定如下: 单字动词重叠使用为一个分词单位。例如: 看看 动动 二字动词性分词单位的重叠方式“aabb”为一个分词单位。例如: 来来往往 拉拉扯扯 “aababab”重叠形式的动词词组应子切分。 例如: 说说 看 研究 研究 “a 一 a、a 了 a、a 了一 a”重叠形式的动词词组应子切分。例如: 谈一谈 想一想 谈一谈 想了想 想了一想 动词前的否定副词一律单独切分。例如: 不 写 不 能 没 研究 未 完 成 用肯定加否定的形式表示疑问的动词词组一律切分,不完整的则不子切分。 例如: 说 没 说 看 不 看 相信 不 相信 相不相信 动宾结构的词或结合紧密,使用稳定的二字动宾词组,不子切分。例如: 开会 跳舞 解决吃饭问题 孩子该念书了 结合不紧密或有众多与之相同结构词组的动宾词组一律切分。例如: 吃 鱼 学 滑冰 写 信 动宾结构的词或词组如中间插入其他成分, 则应子切分。 例如: 吃 两 顿 饭 动补结构的二字词或结合紧密、 使用稳定的二字动补词组, 不子切分。 例如: 第 11 页 打倒 提高 加长 做好 “2+1”或“1+2”结构的动补词组一律切分,三字以上的动补结构词组也一律切 分。例如:整理 好 说 清楚 解释 清楚 动补结构的词或词组如中间插入“得、不”,应子切分。例如:打 得 倒 否 偏正结构的词,以及结合紧密、使用稳定的偏正结构的词组,不子切分。 则应子切分。例如:胡闹 瞎说 死记 早 来 晚 走 重 说 算合趋向动词一律为分词单位。例如:出去 进来 当插入“得、不”时应子切分。例如:出 得 去 进 不 来 动词与趋向动词结合的词组一律切分。例如:寄 来 跑 出 去 切分。例 单字动词无连词并列,并且均保持各自独立动词意义的词组,一律 如: 苦 盖 听 说 读 写 律切分。例如:调查 多字动词无连词并列,一 研究 宣传 鼓励 “aa、aabb、abb、aab、a 里 ab”一律为分词单位。 3形容词 形容词的重叠形式 例如: 大大 高高 高高兴兴 匆匆忙忙 绿油油 红通通 蒙蒙亮 马里马 虎 “abab”重叠形式的形容词应子切分。例如:雪白 雪白 滚圆 滚圆 abababab “一a一b、一 二 、半 半 、半 不 、有 有 ”等类型的形容词性词组, 不子切分。例如:一心一意 一清二楚 半明半暗 半生不熟 有条有理 形容词的并列形式按以下规则切分: 两个单字形容词并列且改变词性的,一律不子切分。例如:长短 深浅 组,应子切分。例如: 光荣形容词并列且各自保持原有形容词语义的词 伟大 有关颜色的形容词或词组不子切分。例如:浅黄 橄榄绿 用肯定加否定的形式表示疑问的形容词组一律切分,不完整的则不切分。例 如: 第 12 页 容易 不 容易 容不容易 4代词 单代加”为分词字词“们单位。例如:我们 你们 它们 他们 “这、那”加量词“个”或“些、样、么、里、边”等为一个词单位。例如: 这个 这么 这边 那些 那样 那里 哪个 哪里 哪些 “这、那、哪”加数、量、名词单位一律切分。例如:这 十 天 那 人 疑问代词或词组为分词单位。例如:多少 怎样 为什么 什么 ” “各、每、某、本、该、此、全 等代词与后面的量词或名词一律切分。例如: 各 国 每 种 某 工厂 本 部门 该 单位 此 人 全 校 5数词 数词与量词一律切分。例如:三 个 一 种 汉语数位词分别为分词单位。例如:一亿八千零四万七百二十三 第 表示序数的“第”与后面的数词一律切分。 例如: 一 第 四 第 五 十 三 分数中的“分之”为一个词单位。例如:五 分之 三 百 分之 二 数字并列表示概数时,表示概数的数字为分词单位。例如:八九 公斤 ” 表示概数的“多、来、几 等在数词之后时,一律为分词单位。例如: 两 点 多 一 千 多 人 十 来 家 十 几 个 些、一些、一点儿”等表示概数的词在形容词或动词之后时,一律切分。例“ 如:大 些 懂 一些 快 点儿 快 一点儿 “近、约、数”等在数词或数位词前,与之连用表示概数时,应子切分。例如: 近 千 人 约 三 百 数 万 “成上”在数位词前,与之连用表示概数时,应子切分。例如:成百 上千 天天 个个 家家户户 词或词组为分词单位。例如:人年 人次 架次 吨公里 6量词 量词重叠使用不子切分。例如:年年 复合量 第 13 页 7副词 副词一律为分词单位。例如:很好 都来了 刚走 互相协助 以下经常使用,起副词作用的词组为分词单位: 越来越 不得不 不能不 起关联作用的“越、又又”等应子切分。例如: 越 走 越 远 又 香 又 甜 8介词一律为分词单位。例如:生于 走向胜利按照 规定 9连词一律为分词单位。例如:工人和农民 光荣而伟大 10助词 结构助词“的、地、得、之”一律为分词不达意单位。例如: 他的书 慢慢地走 说得快 美丽的城市 中国的大熊猫 成功之路 时态助词“着、了、过”一律为分词单位。例如:看着 看了 看过 助词“所其后的动律切例如:所 ”与词一分。 想 所 认识 11语气词一律为分词单位。例如:你好吗? 快去吧! 12叹词一律为分词单位。例如:啊,真美! 唉呀,他走了! 13象声词一律为分词单位。例如:嘟 当当 轰隆隆 目前汉语主要利用基于字典、词库匹配的方法;基于词频度统计的方法和基 于知识理解的方法来实现分词,其主要有最大匹配法、逆向最大匹配法、逐词遍 历法 2.2.2 汉语分词方法 5 、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优 先分词法、基于期望的分词法、联想回溯法、双向扫描法、邻接约束法、扩 充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍 扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、 5 第 14 页 基于神经网络的分词方法等以下十几种。 1正向最大匹配算法(mm)方法又称 5-4-3-2-1 查词法,最长匹配法,回 巡检索法,其基本思想是:假设自动分词词典中的最长词条所含汉字个数为 i, 则取 是前面的一个汉字。据说 rmm 方法 都 得把 性,因而局限性大,出错率高,拒分现象严重, 时间 和不构成词得词 (包 括单 。其出发点是:在词典中按词频的大小顺序排列词条,以求缩短对 分词 被处理材料当前字符串序列中的前 i 个字作为匹配字段,查找分词词典,若 词典中有这样一个 i 字词,则匹配成功,匹配字段作为一个词被切分出来,如果 词典中找不到这样的一个 i 字词,则匹配失败,匹配字段去掉最后一个汉字,剩 下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。 有专家统计过,mm 法的错误切分率为 1/169。 2逆向最大匹配法(rmm)方法的分词过程与 mm 法相同,不过是从句子(或 文章)末尾开始处理,每次匹配不成功时去掉的 的分词精度比 mm 法要高,其错误切分率是 1/245。 3逐词遍历法把词典中的词按由长到短递减的顺序逐字搜索整个待处理材 料,一直到把全部词切分出来为止。不论分词词典多大,被处理材料多么小, 整个分词词典匹配一遍。 上述三种方法思路清楚,易于机器实现,但由于是把词典作为判词得唯一标 准,忽略了汉语词汇得灵活多变 复杂度高,这是它们不能被单一采用得最主要原因。 4设立切分标志法切分标志有自然和非自然之分。自然切分标志是指文章 中出现得非文字符号, 如标点符号等。 非自然标志是利用词缀 音词,复音节词以及象声词等) 。设立切分标志法首先收集众多得切分标志, 分词时先找出切分标志,把句子切分为一些较短得字段,然后用 mm、rmm 或其他 方法进行细加工。这种方法并非真正意义上得分词方法,只是自动分词得一种前 处理方式而已,它要额外消耗时间扫描切分标志,增加存贮空间存放那些非自然 切分标志。 5最佳匹配法(om)由北京航空航天大学提出,分为正向得最佳匹配和逆向 得最佳匹配法 词典的检索时间,达到最佳效果,从而降低分词的时间复杂度,加快分词速 度。实质上,这种方法也不是一种纯粹意义上的分词方法,它只是一种对分词词 典的组织方式。om 法的分词词典每条词前面必须有指明长度的数据项,所以其 第 15 页 空间复杂度有所增加,对提高分词精度没有影响,分词处理的时间复杂度有所降 低。 6有穷多层次列举法其基本思路是:把待处理材料中标点符号区分的语言 片断作处理对象,先处理不用查词表的具有特殊标志的字符串,如阿拉伯数字, 拉丁 有的 是纯粹意义上的机械分词方法,而是在分词过程中处理歧 义字 望。当然是期望大的词优 先, 序列) ,然后再用实词库和规则库 将词 字母等,然后用环境词表确定属于 15 类可列举的词,即先判断一个词能否 组成多音词,如五音词,四音词,三音词,双音词,最后确定是否为单音词,这 样便把一个个语段化分成较小语段。这实际上是切分标志法的一种变形方法。 7二次扫描法其基本思想是:取待处理材料中两个切分标志之间的部分作 为样本串,检查分词词典中是否有一个词,它的前两个汉字和该样本串相同,若 话,则取样本串的前三个汉字作为匹配串,重新在分词词典中找以匹配串为 子串的词,若有,则重复下去,直到进行到 i 个汉字为止, (设 i 为分词词典中 最长词所含汉字的个数) ,则切分出一个 i 字词;若没有,则完成一次扫描;把 匹配串的最后一个汉字去掉,作为新的匹配串,进行第二次扫描,第二次扫描用 rmm 或 mm 法进行。 8高频优先分词法基于词频统计、字与字之间构词结合力和歧义切分等现 象的分析而提出。它不 段的一种方式,例如,ab、bc 是两个词,如果 bc 的频度比 ab 大,则 abc 这一歧义字段应切分为 a/bc。该方法的一个明显缺点是频度较低的词,永远被 错误切分。如果仅考虑当前正在处理文本中的词频的话,将会得到良好效果,问 题是如何得到当前正在处理文本的词频。这种方法增加分词的空间复杂度,低频 词的错误切分难以克服,目前尚未见成功的报道。 9 基于期望的分词法是基于汉语语法及语用规律以及人们语言习惯而提出, 它认为一个词的出现对于它后面紧相随的词有一种期 分词时根据期望,到期望值较大的词所在的词库中找出所对应的词,从而切 分出相对应的词。这种方法增加了分词的时空复杂度,但在一定程度上提高了分 词的精度。目前该法仍处于理论探讨阶段。 10联想-回溯法首先将待切分的汉语言文本,依据特征库分割为若干子串, 每个子串为词或词群(几个词组合而成的线性 群细分为词。 这种方法实际上采用了设立切分标志法和有穷多层次列举法的 第 16 页 思想,由于实行分级建库,故增加了分词的空间复杂度,把分词过程分解成分割 和细分两个过程, 使得分词的时间复杂度增大。 它能提高分词精度, 具备可行性, 已在机器上实现。 11双向扫描法重点是放在检错和纠错上,基本做法是将正向扫描(mm)和 逆向扫描(rmm)的结果相比较,一致的部分认为是正确的,不一致的部分(称 为疑 或习惯用法的限制,或人们为了避免造成阅读上的困难, 相邻 人工作的基础上提出 了扩 为 atn 结构,分词知识分散化,分词处理与句法 语义 点)则采用人工干预、记频算法或上下文相关信息选取一种切分。这种方法 对于正、逆向扫描结果一致而被认为正确但实际上切分不正确的字段(例如“结 合成分子时”)没有强有力的处理手段。时间复杂度比单向扫描至少增加一倍。 其分词词典必须同时支持正逆两种顺序的检索,词典结构无疑是比较复杂的,或 者要设立两种结构的词典。此方法可作为一种检查歧义字段的方法,但其效果尚 不如词尾字构词法。 12 邻接约束法是利用自然语言中的邻接约束排除不合适切分以提高分词精 度。由于汉语句法语义 词语之间有一种约束关系,例如“那里”不能切分成“那/里”。汉语中某 些单词在句法结构中不拥有或只能条件拥有某些固定位置 (如句子或片段的开头 或结尾等) ,不同类型的单词之间具有特定的约束(如副词、助动词一般不后接 名词等) , 某些单音动词只在特定文体或格式中出现 (如“知”一般不单独出现) , 等等,这些语言现象可以用来解决部分歧义切分问题。 13 扩充转移网络分词法是本世纪六十年代末由 j.thome 等提出运用状态转 移网络分析自然语言的思想,1970 年由 w.a.woods 等在前 充转移网络(atn) ,atn 以有限状态机的概念为基础,用 atn 来组织词典就 可以构成一个动态词典,它可以带来静态词典所没有的好处,它能处理只作为词 头或词尾的定位字,区分词链字串或非词链字串,并使分词处理和语言理解的句 法处理阶段的交互成为可能。 14语境相关法是一种基于扩充转移网络(atn)以知识和理解为基础的分 词方法,它是通过将词典组织成 处理并行等手段,能够处理现有种种分词方法所不能处理的词链现象,并实 现分词与理解的并行。其基本思想是:系统从左向右扫描句子(汉字串) ,对于 文本中的非词链部分, 它按最大匹配原则, 选出与文本当前位置匹配的最长的词; 第 17 页 对于词链,分两个步骤作出切分,第一步是从左到右扫描句子,碰到词链即把切 分此词链的分词知识(字或字串的成词条件)放到栈工作区中;第二步是从右向 左扫描句子(此时句子是一个词或词链的序列) ,对词或词串作句法语义分析, 分析结果放到公共数据区中供分词使用。 碰到词链, 运行栈工作区中的“过程”, 切分次词链,直至栈工作区为空。据称该法已用语构造一个专家系统的汉语人机 接口。 与此法类似,有人还提出一种基于“分词和理解并行处理”的 ptcus 分词 法,它与“语境相关法”不同之处在于:ptcus 的方法对于句子中的词链,不是 先跳 参数,在第一遍扫 描中 标志符表,变长度最大匹配法,2-3-1 优先规则集,固有歧义切分校 正法 文本进行预处理, 过去,而是利用当前可用的动态句法语义结构信息,进行试探性切分(词的 生成) ,然后进行多种测试。词的生成和测试过程是分时并行的。测试过程同时 也是一个句法语义分析过程,它可产生句子的语义格结构。 11全自动词典切词法完全使用切词规则切词,规则中的参数由词典提供, 包括形式参数,语法参数,语义参数,上下文参数等,如语法 (字与字的组合)中可规定:名名相联,动动相联,形名相联,动副不联等。 上下文参数:根据上下文语义不同区分字和词,如“把”字可作动词(把着门) , 名词(把柄) ,介词(把东西取出来) ,量词(两把刀)等,不同的词根有不同的 上下文。 12基于规则的分词法是一种机械切分与语义校正相结合的方法。它包括建 立绝对切分 等。其分词算法为:1 读入字符串文本;2 第一次扫视,根据绝对切分标志 符表,扫视文本,添加绝对切分标志“”;3 计算两个“”间字段长度 m 及 取领头字词长 n,若 m=4,则转下一步,否则转第 6 步;5 第二次扫视(变长度最大匹配法) ,取长度为 k 的最大匹配法,对 4 及 4 以上字词进行匹配;6 按 2-3-1 优先规则进行机械分词;7 若有歧义切分标志, 作第三次扫视,执行语义校正算法,进行校正,否则转出口。 值得一提的是, 在这种自动分词法中, 专门设计提供了规则描述语言 (rdl) , 用以书写和装入歧义切分校正规则。该法已在机器上实现。 13多遍扫描联想法是一种组合方法,其基本做法是:首先用切分标志法把 文本切分成若干子串,它也分成两步,先是用自然切分标志对 第 18 页 然后 的概念.部件系指构成词的独立单元,故可分为词首、词尾和词干等若 干类 ,无联系则断”。链接表将汉字分为三类:a 类为在某一领域内不 会与 从而使分词层与语义无 关的思想以及词串排序的三种策略:按可能性大小排序,按运转时间长短排序, 些汉字的词典中的词均以边的形式出现,每个单字都 看作 用非自然标志结合联想库对文本进行分割;其次,利用实词词库和联想库再 将词群细分为词。分词时,利用语法知识特别是词法知识,联想和回朔机制同时 作用于分割和细分两个阶段,旨在有效解决歧义组合结构的切分问题,同时兼有 自动纠错功能。该方法需要分级建库,分别建造特征词词库,实词词库和联想规 则库。 14 部件词典法的一大问题是冗余度高, 且难穷尽所有词。 上海交大提出“部 件词典” 部件,词部件有点像词素,但它本身也可是词或词组,以存储部件来代替存 储原词。这样,电脑中存储的不是所有的中文词,而是所要用到的词 1-3 字的词 部件以及由这些部件组词的部分信息。上海交大利用这种部件词典,成功对全国 报刊索引中的计算机类文献标题和中华人民共和国法规进行处理,可用率高达 98%以上。 15链接表是在非用字后缀表抽词法的基础上发展起来的,其切词原则是 “有联系则取 其它汉字有联系而能单独存在的字;c 类为其他汉字有链接关系的字;b 类 字为兼有 a、c 类字特点的字。由于链接表记载的是两个字之间的联系而不是词 本身,可大大降低冗余度。其词典规则比较简单,还采取了一种称作模式字典的 辅助工具解决不涉及语法和词义的歧义问题。该方法已用于汉英机译系统,分词 速度在 286 微机上为 12-13 汉字/秒,准确率为 95%。 16最少分词词频选择法(fwf)是哈工大王晓龙等人在构造汉字理解的层 次化模型的基础上,提出了把反馈信息限定为最简形式, 以及上述两种的结合。基于这些策略的最少分词词频选择法具有运行时间短,分 词精度高的双重优点。 最少分词问题可抽象为有向图两点间最短路径的问题。 设所需分词的汉字数 为 n,结点为 n+1,对应这 是单词。边的权均为 1,这样,求该汉字串切分后的最少词数就等同于求从 始点到终点最短路径的边数问题。 该
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 扎兰屯职业学院《医学超声技术》2023-2024学年第二学期期末试卷
- 西安思源学院《商业演出策划与实践》2023-2024学年第二学期期末试卷
- 山东省济南市天桥区重点中学2025年初三第五次模拟考试数学试题试卷含解析
- 宁夏吴忠市盐池一中学2025年初三下-第一次调研考试化学试题试卷含解析
- 浙江省宁波万里国际学校2025年初三数学试题下学期第二次模拟考试试题含解析
- 沙洲职业工学院《通信工程专业导论》2023-2024学年第二学期期末试卷
- 江苏省江都区六校2025届初三入学调研物理试题(1)试卷含解析
- 江西司法警官职业学院《生物信息处理》2023-2024学年第二学期期末试卷
- 宁波市海曙区2025届初三1月调研(期末)测试物理试题含解析
- 吉林司法警官职业学院《工程流体力学》2023-2024学年第二学期期末试卷
- 《液压与气压传动》课件 任务3-2 自动化生产线供料单元气动系统安装与调试
- 护理评估技能实训 课件 模块4 实验室及心电图检查
- 全科医生的临床带教方法
- 2024年公务员考试《公共基础知识》全真模拟试题1000题及答案
- 2025年东海航海保障中心招聘124人历年高频重点提升(共500题)附带答案详解
- 学习《中华人民共和国安全生产法》
- 中学生国家安全法
- 【MOOC】《电路分析基础》(北京理工大学)章节作业中国大学慕课答案
- 长距离供热管道工程设计方案
- T-GMIAAC 004-2024 医疗建筑综合能源管理规程
- 全国第三届职业技能大赛(无人机驾驶(植保)项目)选拔赛理论考试题库(含答案)
评论
0/150
提交评论