(计算机应用技术专业论文)基于领域语料库的中文自动分词系统的研究.pdf_第1页
(计算机应用技术专业论文)基于领域语料库的中文自动分词系统的研究.pdf_第2页
(计算机应用技术专业论文)基于领域语料库的中文自动分词系统的研究.pdf_第3页
(计算机应用技术专业论文)基于领域语料库的中文自动分词系统的研究.pdf_第4页
(计算机应用技术专业论文)基于领域语料库的中文自动分词系统的研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目:基于领域语料库的中文自动分词系统的研究 专业:计算机应用技术 硕士生:杜璞( 签名) 趑 指导老师:张小艳( 签名) 盘:i ! 壁 摘要 中文自动分词是中文信息处理中的一个重要环节,长期以来一直是人们研究的热点 和难点。在中文信息处理中,分词广泛应用于信息检索、机器翻译、自动问答系统、文 本挖掘等领域。计算机对于中文的处理相对于西文的处理存在更大的难度,集中体现在 对文本分词的处理上。本文介绍了中文自动分词现状和存在的困难,以及目前常用的一 些切分算法,在对常用的中文分词算法分析比较的基础上,采用基于词典的正向减字最 大匹配算法;建立了具有三级索引的首字h a s h 表的词典结构,该结构与改进的正向最 大匹配法形成统一;在歧义处理方面,本文采用了统计和规则相结合的歧义消除策略实 现了通用语料的交集型歧义、组合型歧义以及专业语料的组合型歧义的识别和消除。 本文对词典文件进行了重组,通过计算首字偏移量的方法建立索引表,并根据词长 由长到短的顺序形成词语链,进一步缩小了匹配范围、减少了匹配次数;对正向减字最 大匹配算法进行了改进,其匹配算法的时间复杂度是o ( n ) ,n 为词表中以某字为首字的 平均词的个数。实验显示,相比其它的算法,有效的提高了切分速度。 作者对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提 高了分词的完整性和准确性,并在v a 由6 0 集成开发环境中实现了完整的基于计算机 领域语料库的中文自动分词系统。最后分析比较了现有的中文分词算法和本文所描述的 分词算法在分词效率和精度的差异,并以有针对性的文本为例进行了测试,对所用方法 进行了验证。这一课题的研究及其成果对于中文信息处理中的多种领域的分词和歧义处 理,都将具有一定的参考价值和良好的应用前景。 关键词:中文分词;最大匹配法;歧义字段 研究类型:应用研究 s u b j e c t :t h er e s e a r c ho fa u t o m a t i cc h i n e s ew o r ds e g m e n t a t i o ns y s t e m b a s e do dd o m a i nc o r p u s s p e c i a l t y :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y n a m e:d up u i n s t r u c t o r :z h a n gx i a o y a n a b s t r a c t ( s i g n a t r e ) 坠! ! ( s i g n a t u i 叻垄弩茎塑塑 a u t o m a t i cc h i n e s ew o r ds e g m e n t a t i o ni sak e yi s s u eo fc h i n e s ei n f o r m a t i o np r o c e s s i n g , w h i c hi s a l w a y sah o t a n dd i f f i c u l t p o i n _ t i nc h i n e s ei n f o r m a t i o np i o c 鹳s i n 舀w o r d s e g m e n t a t i o ni sw i d e l yu s e di n l h ea 慨o fi n f o r m a t i o nr e t r i e v a l , m a c h i n et r a n s l a t i o n , a u t o m a t i cq u e s t i o n - a n s w e r i n g , a n dt e x tm i n i n 舀e t c i t sm o r ed i f f i c u l tf o rc o m p u t e r st o p r o c e s sc h i n e s et h a nt ow e s t e r nl e t t e r si nt h e 弘o s s i n go f w o r ds e g m e n t a t i o n i nt h i sp a p e r , a c t u a ls t a t e sa n dd i f f i c u l t i e so fw o r ds e g m e n t a t i o n 躺i n t r o d u c e d , i n c l u d i n gw i d e - u s e d s e g m e n t a t i o na l g o r i t h m s b a s e do nt h ec o m p a r i s o n sw i t ht h ea l g o r i t h m s , m a x i m u mm a t c h m g m e t h o db a s e do nd i c t i o n a r yi sa d o p t e di nt h ep a p e r ;, a n dt h ed i c t i o n a r y ss t r u c t u r ei sak i n do f t h r e e - l e v e lh a s hi n d e xt a b l eb a s e do nc a p i t a lw o r d s a tt h ea s p e c to fa m b i g u i t y , t h e e l i m i n a t i n gs t r a t e g yt h a tc o m b m es t a t i s t i cw i t hr u l ei sa d o p t e dt or e a l i z et h ei d e n t i f i c a t i o na n d e l i m i n a t i o no f m i x e da n dc o m b m c da m b i g u i t yi nt h ec o m m o nc o r p u sa n dm i x e da m b i g u i t yi n t h ed o m a i no n e s t h em e t h o dt h a tc o m b i n a t i o no fd i c t i o n a r y ss t r u c t u r ei nw h i c hc i e a t e si n d e xt a b l eb y c o m p i | l i n gc a p i t a lw o r db i a s e dv a l u e l i n kt h ew o r dw i t hd e c r e a s i n go r d e rs h o r t e nt h er a n g eo f m a t c h , a n dr e d u c ot h et i m e so fm a t c h t h e 妇c o m p l e xd e g r e eo ft h ei m p r o v e dh 缸d d m m n m a t c h i n gm e t h o di so ( n ) ,w h i c hnr e p r e s e n t st h ea v e r a g en u m b e r so f o n e c a p i t a lw o r d i ti s s h o w ni nt h ee x p e r i m e n tt h a tt h ea l g o r i t h me f f e c t i v e l ye n h 硒c e st h es p e e do f s e g m e n t a t i o n an e wm e t h o dw h i c hc a ni m p r o v et h ei n t e g r a l i t ya n da c c u r a c yo fw o r ds e g m e n t a t i o ni s p u tf o r w a r dt oi m p r o v et h ec o n s t n l c t i o no f t h ew o r ds e g m e n t a t i o nd i c t i o n a r y , t h es t e p so f w o r ds e g m e n t a t i o na n dt h ep r o c e s so ft h ea m b i g u i t y t h e no nt h eb a s i so fa n a l y s i sa n d c o n t r a s to fe x i s t i n gc h i n e s ew o r ds e g m e n t a t i o na l g o r i t h m sa n di nw h i c hm e n t i o n e di nt h i s p a p e rw i t ht h ed i f f e r e n c eo nt h ea s p e c t so fw o r ds e g m e n t a t i o ne f f i c i e n c ya n d 越a m l c y , e x a m p l e sa i m a tt h a t 峨t e s t e dt ov a l i d a t et h em e t h o dt h a tu s e d t h er e s e a r c ha n di t so u t c o m e w i l lh a v ev a l u a b l er e f e r e n c ea n dg o o da p p l i c a b l ep r o s p e c tt ot h ew o r ds e g m e n t a t i o na n d a m t “g m t yp r o c e s s i n gi nm a n yd o m a i n so f c h i n e s ei n f o r m a t i o np r o c e s s i n g k e y w o r d s :c h i n e s es e g m e n t a t i o nm a x i m u mm a s h i n gm e t h o d a m b i g u i t y 压要料技大学 学位论文独创性说明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及 其取得研究成果。尽我所知。除了文中加以标注和致谢的地方外,论文中不包含 其他人或集体已经公开发表或撰写过的研究成果,也不包含为获得西安科技大学 或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中做了明确的说明并表示了谢意。 - 扛 学位论文作者签名:枷覆日期:岬占,3 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间 论文工作的知识产权单位属于西安科技大学。学校有权保留并向国家有关部门或 机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存和汇编本学位论文。同时本人保证,毕业后结合学位论文研究课 题再撰写的文章一律注明作者单位为西安科技大学。 保密论文待解密后适用本声明。 学位论文作者签名:粑丧 指导教师签名:狱、i 、绝 卅年占月多1 3 1 绪论 1 1 本文研究的背景和意义 1 绪论 1 1 1 研究背景 人类步入2 l 世纪以来,随着国际互联网的迅猛发展、不断普及,网络信息急剧膨 胀,国际交流和合作日益频繁以及地球村的形成,全球化经济的不断发展,信息技术己 成为社会发展最重要的推动因素:海量的文本信息对使用计算机高效智能地处理自然语 言信息提出了越来越迫切的需求。因此自然语言处理成为当前计算机领域的一个研究热 点。 语言作为交流工具,在人类活动中有着举足轻重的作用。因此,人们在大量使用计 算机来替代自己的工作的同时,也期待计算机在自然语言的处理上能接近甚至达到人工 的水平。中文自动分词之所以成为中文信息处理中的一个重要环节,是由汉语本身的特 点所决定的。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而汉语与英 语等其他语言不同,汉语是以字而不是词作为语言的基本构造单位的,即句子中所有的 字连起来才能描述一个意思。汉语独有的书写特点,使得中文信息处理必须经过分词这 样一层基本处理阶段,才能进入上层的句法和语义阶段的处理。否则,在句法和语义的 分词阶段计算机要直接面对一系列的独立汉字组成的汉字串,这样就丢弃了汉语当中能 够作为相对独立的成分并具有相对独立意义的词中的重要信息,从而加大了上层的复杂 度,有时甚至根本无法继续进行或者形成完全错误的分析结果。另一方面,分词技术对 于面向不同目标的实用化的中文产品,比如拼音智能输入,中文校对,语音识别,语音 合成,中文信息检索以及机器翻译等,都有着不同程度的支持,分词的正确性直接或间 接的决定了所支持的应用系统的实用程度和实际性能。所以在现阶段,分词仍然是计算 机中文信息处理的基础和不可逾越的阶段。对分词技术深入透彻的研究和对分词精确度 的进一步提高,都是对现代中文信息处理和现代智能化中文产品的卓有成效的贡献。 从处理过程来看,中文自动分词过程可以看作是一个用计算机自动识别文本字符流 中的词并在词与词之间加入明显切分标记的过程。从应用需求来看,自动分词的主要目 的是确定自然语言处理的基本分析单位,为进一步开展自动分析做好前期准备工作。因 此可以说中文自动分词是中文信息处理的一项重要的基础性工作,许多中文信息处理项 目都涉及到了分词问题,如机器翻译、中文文献、自动文摘、自动分类、中文文献库全 文检索等。最近的二十年,随着语言学理论的发展、计算机技术的进步以及统计学和机 器学习方法在自然语言理解领域的广泛应用,人们对中文自动分词本身的应用背景、目 西安科技大学硕士学位论文 标等也有了更加准确的认识,自动分词技术也在此背景下取得了长足的发展,基于专家 系统、基于神经网络等新的自动分词方法也都是在这一时期出现,一些自动分词系统的 完善也使这项技术从实验室走向市场的时机日趋成熟。 1 1 2 研究意义 中文分词是自然语言理解的基础,是中文信息处理的第一步,广泛应用于搜索,智 能答疑、远程教育中的在线答题、机器阅卷等系统。对拼音智能输入,中文校对,语音 识别,语音合成,中文信息检索以及机器翻译等都有着不同程度的支持。分词的正确性 直接或间接的决定了所支持的应用系统的使用程度和实际性能。 ( 1 ) 机器翻译 是指用计算机自动实现不同语言之间的转换。当前,机器翻译软件可以在i n t e r n e t 上即时翻译下载的外文资料【l 】。机器翻译一般要经过分析和生成两个步骤。在这里,最 关键的还是对源语词语的分析。由于中文自动分词是一个难题,当汉语作为源语时,分 词就是源语分析工作的基础。因此,分词使机器翻译不可缺少的一个环节。目前国内外 关于机器翻译研究已取得了丰富的研究成果,并已经进入了实用性应用阶段。但要实现 全自动高质量的机器翻译仍是一个长远目标,需要多个领域的学者专家们长期不懈的努 力和追求。 ( 2 ) 自动标引 自动标引就是用机器抽取或赋予索引词。索引词就是文献主题相符的或密切相关的 词语,也就是文献的关键词或主题词。所以,中文文本自动标引中离不开词语这个基本 单位。以自动分词为基础,专家学者们研制出了多种自动标引系统,归结起来有:词典 切分标引法、单汉字标引法、机助标引法、统计标引法、逻辑推理法、语法语义分析标 引法、自动标引专家系统和神经网络分词标引法等。这些自动标引方法可以分为三类, 即统计法、语言法和人工智能法。 ( 3 ) 自动摘录 文献文本分析是自动摘录中一项核心技术。文本分析的目的是为了选择摘录对象, 分析的结果通常表现为句子的权位或代表性分值,分析的手段也是以词语为基础,才能 进一步去研究各种词法、句法以及语义的关系和规则。我国在自动摘录研究方面取得了 一系列可喜的成绩,自动摘录理论和方法研究成果不断涌现,针对汉语自身特点而开发 的中文自动摘录系统也开始由实验走向应用。 ( 4 ) 自动分类 是指利用计算机对一批实体或对象进行分类,包括建立分类体系及其自动更新。自 动分类系统是信息处理的重要研究方向之一文本分类涉及到文本特征集的构建,而对 汉语来讲,文本的特征集主要由一些具有较大权值的词语构成,因此自动分词是文本分 2 i 绪论 类首先要解决的问题,直接影响到文本分类的结果。 ( 5 ) 信息检索 是指用户从包含各种信息的文档集中查找所需要的信息或知识的过程,包括信息的 存储、组织、标线、查询、存取等方面。自动分词与信息检索的结合实现自然语言检索 的一个重要方面,自动分词是实现基于自然语言理解的智能检索的前提,是贯穿于信息 检索系统整体流程中不可缺少的处理步骤【2 l 。国内流行的主要是全文检索系统,一般都 是按词检索,它内嵌中文自动分词系统,具有比按字检索高得多的查准率和空间利用率。 ( 6 ) 搜索引擎研究 中文搜索引擎的重点在于中文关键信息的提取,其中的难点就是中文自动分词1 3 。 随着因特网在我国的发展和普及,中文搜索引擎研究有了重大突破。在短期内就涌现出 了许多重要的中文搜索引擎,并得到了广泛应用。目前,已开发并投入使用的中文搜索 引擎已达上百种,并且数量仍在不断增加,质量也不断提高。但是,中文搜索引擎研究 开发仍然存在大量的问题,如在信息组织、检索速度、检准率和检全率等方面还有较大 的发展空间。今后,中文搜索引擎的研究方向应是将中文自动分词、信息检索、自然语 言理解和人工智能等与搜索引擎研究相结合。 1 2 中文自动分词的研究现状及发展趋势 1 2 i 研究现状 自从8 0 年代初中文信息处理领域提出自动分词以来,有关方面的众多专家、学者 为之付出了不懈的努力。自动分词研究的全面兴起,取得了一些重要的进展和一些实用 性的成果。由于不同的人对分词有不同的看法,为提高分词结果的一致性,1 9 8 7 年至 1 9 9 2 年北京航空航天大学、北京师范大学等1 3 个科研单位联合制订了信息处理用现 代汉语分词规范( g b l 3 7 1 5 ) ,用来规范和统一人们的分词行为。该规范从信息处理的 实际出发,根据现代汉语的特点和规律,制订了一系列具体规则,为现代汉语信息处理 提供了一套适用、实用、科学、系统的分词原则。 近l o 年来,语言学界、人工智能领域和情报检索界的学者们,在中文自动分词的 研究与实践上进行了大量的研究,找到了许多解决中文分词的方法。目前公开报道过的 分词方法主要有三种类型:基于词典的方法、基于统计的方法和基于理解的方法。这三 种方法代表着分词方法的三个不同方向。 基于词典的分词过程依赖于机器词典进行,该词典中不涉及太多的词法、语义、句 法知识等关于语言自身的信息,主要是个词库。词库中词条的数目、词条的选择直接影 响到最后的分词效果。赵曾贻1 4 】提出了一种改进的最大匹配分词算法,分词字典支持词 首字h a s h 查找和标准的不限词条长度的二分查找。李振星【5 l 提出了全二分最大匹配快 3 西安科技大学硕士学位论文 速分词算法,采用首字h a s h 和完全二分查找,分词词典存放于内存中,不用进行哟 操作。李向阳 6 1 构建了h a s h 算法的词典结构,实现了h a s h 高速分词算法。邹海山【7 】等 在现有分词技术的基础上,提出了一种基于词典的正向最大匹配和逆向最大匹配相结合 的中文分词方案。陈桂林嘲等首先介绍了一种高效的中文电子词表数据结构,它支持首 字h a s h 和标准的二分查找,且不限词条长度,然后提出一种改进的快速分词算法。郭 辉【9 】等在对现有的最大匹配分词方法进行研究的基础上,提出一种改进的m m 算法。 基于统计的分词方法的基本思想是:找出输入字串的所有可能切分结果,对每种切 分结果利用能够反映语言特征的统计数据( 语言模型) 计算它的出现概率,从结果中选取 概率最大的一种。概率的计算方法依赖于所建立的语言模型。基于统计的分词算法参数 值( 词频、词性信息等) 可以从语料库中通过训练获得。随着大规模语料库的建立,这种 方法得到越来越广泛的使用。费洪晓l l 川等提出了基于词频统计的中文分词方法,系统采 用了互信息、n 元统计模型和t - 测试,并对这三种原理的处理结果进行了比较,以分析 各种统计原理的统计特点,以及各自所适合的应用场合。刘群【1 1 l 提出了一种基于n - 最 短路径方法的中文词语粗分模型,在兼顾高召回率和高效率的基础上引入了词频的统计 数据,对原有模型进行改进,建立了更实用的统计模型。 基于理解的分词方法,又称为人工智能的分词方法。是指模拟人的思维,采用词法、 句法及语用等各种语义知识进行有条件的切分人工智能和专家系统的迅速发展,使得 许多人工智能领域的计算手段应用到书面汉语的自动分词中来,于是产生了专家系统分 词法和基于神经网络分词法北京师大在3 8 6 微机上研制成功的自动分词专家系统,试 分了1 5 万字语料,切分精度达到9 9 ,切分速度为2 0 0 字,秒左右。这种方式的不足之 处在于其串行处理机制,学习能力低,对于外界最新的信息反映滞后。华南理工大学的 徐秉铮、贺前华等人提出了基于精神网络的一种分词方法,这一方法是以模拟人脑运行, 分布处理和建立数值计算模型工作的,是一种以非线性并行处理为主流的非逻辑的信息 处理方式。它将分词知识所分散隐式的方法存入神经网络内部,通过自学习和训练修改 内部权值,以达到正确的分词结果。该方法最大特点是知识获取快,这也是神经网络方 法的一大特点,并行、分布性和联接性的网络结构为人工神经网络的知识获取提供了良 好的环境,并通过样本学习和训练来自我更新。 从目前看,任何一种单一方法都无法完善解决汉语的分词问题。由于人类的分词行 为也往往是在多种方法作用之下完成的,因此在一个系统中将多种方案结合使用优势互 补,将是汉语分词的必然趋势。对于任何一个成熟的分词系统来说,单独依靠某一种算法 都不可能实现,需要综合不同的算法。实际使用的分词系统,都是把机械分词作为一种 初分手段,再利用各种其他的语言信息来进一步提高切分的准确率,提高对歧义字段和 未登录词的识别和处理。我国的海量科技所采用的分词算法就是这种“复方”分词法。 p a h n e r 【删提出了一种可训练的基于规则的分词算法,其核心部分是基于转换的学习机 4 1 绪论 制。k o k 1 3 1 首先利用文本的统计信息给出可能性最大的词语边界,然后分析存在于句子 中的语法和语义关系。赵伟【1 4 】提出了一种规则与统计相结合的中文分词方法,该方法建 立在一个标注好了的语料库的基础之上,可以很好的解决交集型歧义。 r 应该说目前在分词领域的研究进展已经有了一定突破,但是这些分词方法在面对语 言现象不断变化时,显得适应性很差,所以还需要继续对分词方法作进一步的研究,以 期能形成更加完善的分词方法。 1 2 2 存在的问题 我国对中文自动分词的研究已有2 0 多年,虽然取得了很大的成就,但是目前中文 自动分词研究主要存在下面几个问题。 ( 1 ) 分词规范的难点一分词单位的确认 中文自动分词的首要困难是词的概念不清,书面汉语是字的序列,词之间没有间隔 标记,使得词的界定缺乏自然标准。“词”这个概念一直是汉语语言学界纠缠不清而又挥 之不去的问题,迄今也拿不出一个公认的、具有权威性的词表来。主要困难出在两个方 面,一方面是单字词与语素之间的划界;另一方面是词与短语( 词组) 的划界。对汉语词 认识上的差异,会给自动分词造成困难。汉语的词汇平面构成了现阶段中文信息处理应 用领域的主要支撑平台,摆在我们面前的,不单纯是学术问题,也是一项颇具规模的语 言工程,它涉及到许多方面l l 习 核心词表问题:分词需要有一个核心( 通用、与领域无关) 的词表,凡在该词表中的 词,分词时就应该切分出来。对于哪些词应当收进核心词表,目前尚无合理的可操作理 论和标准。 词的变形结构问题:汉语中动词和形容词有些可以产生变形结构,如“打牌”、“开 心”、“看见”、“相信”,可能变形成“打打牌”、“开开心”、“没看见”、“相不相信”等。可 以切分成“打打牌”,但“开开 d ”就不合理。“看没看见”说得过去,“相,不相信”就说不 过去。又如大量的离合词“打架”、“睡觉 等可以合理地变形为“打了一场架”、“睡了一个 觉”,对这些变形结构的切分缺少可操作而又合理的规范。 词缀问题:语素“者”在现代汉语中单用是没有意义的,因此“作者”、“成功者”、“开 发者”内部不能切开。依据这个标准,“做出了巨大个人财产和精神牺牲者”、“克服许多 困难而最终获得成功者”,这样复杂的结构与词的定义相矛盾。 ( 2 ) 服务目的的不同造成对分词单位认识上的差异 人们逐渐认识到,中文自动分词仅仅是中文信息处理任务的手段,并不是最终目标, 因此我们更应关注自动分词系统在实际应用中的效果。近十年来,人们发现分词系统的 通用性、适应性普遍不足。一般研制自动分词软件系统一定要满足某种需要,由于服务 的目的不同,可能会有不同类型的分词系统。其分词结果很难采用统一的通用的分词标 5 西安科技大学硕士学位论文 准来评价。许多中文处理系统根据服务的目的编制适合自己需要的分词系统。既然分词 单位界定的大小不同,必然造成统一评价分词系统的困难。 ( 3 ) 面向领域语料库的分词方法 目前的自动分词方法主要是针对新闻报纸等的语料,对于各种专业领域语料是否适 用,是否需要寻找另外的方法来对专业术语进行切分,这些问题还有待进一步研究。 “) 汉语语料库的建设 严格的讲,在世界范围内,还没有一个真正经得起各方面推敲并形成一定影响的大 型中文分词语料库,分词质量远不能达到人们期望或者想象的水准。 ( 5 ) 分词与理解的先后 计算机无法像人在阅读汉语文章时那样边理解边分词,而只能是先分词后理解,因 为计算机理解文本的前提是识别出词、获得词的各项信息。这就是逻辑上的两难:分词 要以理解为前提,而理解又是以分词为前提。由于计算机只能在对输入文本尚无理解的 条件下进行分词,那么任何分词系统都不可能企求百分之百的切分正确率。 1 2 3 发展趋势 中文自动分词是一个综合性的难题,涉及到众多的学科和研究领域,需要多个学科 的研究成果作为基础。但是随着科学技术的快速发展,中文自动分词也并非遥不可及。 根据目前中文自动分词的研究现状和困难,以及相关学科的发展情况,中文自动分词有 望在以下几个方面取得进展1 1 6 l 。 。 ( 1 ) 汉语词的规范研究 由于汉语词的规范是中文自动分词的基础,没有统一和明确的汉语词的定义,没有 规范的汉语分词词表,中文自动分词就无从谈起。在汉语语言学家和计算机中文信息处 理研究专家们的共同努力下,目前,我国汉语词的规范研究和汉语分词规范词表的制定 已经有了较大的突破。信息处理用现代汉语分词词表的制定及不断完善,说明我国 在汉语自动分词词表方面取得了重大研究成果,这为汉语自动分词的研究铺平了道路。 ( 2 ) 切分词典设计 就目前普遍使用的微机环境而言,首先必须解决切分词典的设计问题,研究压缩技 术以及词典的代码化,以减少系统的空间开销。其次,抽词标引算法技术的研究应更注 重实际应用的研究,以提高切分的正确率,解决歧义、交集型字符串等问题。再次,为 适应当今社会、经济和科学技术的高速发展,新概念、新词汇层出不穷的状况,自动分 词系统必须具有增加新词的能力。 ( 3 ) 中文自动分析研究 机械分词难以解决复杂的汉语组词的关系,因此今后应注重对汉语句法和语义的自 动分析研究,并将其应用到中文文本自动分词与标引领域。应引入知识分词的技术和方 6 1 绪论 i i 一 法,采用知识分词语义分析进行文本标引专家系统的研究。此外,应从自然语言理解角 度出发,采用不同层次的处理方法。具体地说,从语义、语法、知识库、语境相关分析 等语言学角度出发,进行知识分词的理论性研究,以推动整个自动标引技术研究的迅速 发展。 ( 4 ) 汉语词自动切分歧义处理 随着分词研究的突破,分词歧义处理研究也取得了重大进展。以前的消歧方法大体 可分为两类:规则方法与统计方法,此外,还可以人工干预分词,人工分词与计算机自 动分词结合。在遇到计算机解决不了的歧义时,借助于人工干预来完成。为了有效地消 除歧义字段,还可以在上述方法的基础上建立分词歧义知识库或规则库。随着计算机技 术和汉语言研究的发展,汉语词自动切分歧义处理将会有更大的突破。 ( 5 ) 神经网络分词方法 神经网络分词方法是未来汉语自动标引技术发展的必然。由于人们目前采用的规则 推理与状态转移机理不能完全表达人脑思维的机制;对复杂、模糊的语义信息的处理, 仍显得无能为力;分词知识库的构造,词典中信息的选择,具有很大的人力因素;同时, 系统本身的字学习与再学习缺乏有效手段,所以自然语言处理中的语法、语义研究的进 一步发展必然要走向神经网络的分词与理解系统。 ( 6 ) 汉语词自动切分应用研究 目前,中文自动分词主要在信息检索、自动标引、自动文摘、机器翻译、语言文字 研究、搜索引擎研究、自然语言理解和中文信息处理等方面的应用都取得了可喜的成绩。 随着汉语自动分词技术的进展,这一研究成果将会被应用到广泛的研究领域,如词频统 计、内容分析、概念分析、认知心理学和汉语语言学等方面。 1 3 研究的目的和研究内容 1 3 1 研究目的 本论文的研究目的是开发一个实用的基于计算机领域的现代中文自动分词系统,以 较高的词典查找效率保证良好的切分精度和切分速度,使该分词系统为下一步的研究做 好基础性工作。 1 3 2 研究的主要内容 近期相关文献及研究工作表明,中文自动分词虽然已经达到实用阶段,但仍然有相 当数量的误差率严重影响更深层次的中文信息处理研究。分词正确率的提高越来越困 难,每提高一点就要付出巨大的代价,做更多的研究工作。实践也表明,中文自动分词 研究的每一次进步,都会极大地推动中文信息处理智能化的大大发展。 7 西安科技大学硕士学位论文 本文研究了索引字典的结构、分词匹配算法和歧义识别及其消除,在此基础上设计 并实现了基于计算机领域语料库的自动分词系统。该系统具有较高的分词正确率,专业 性较强,易于扩充和维护系统在对词典组织、分词核心算法和歧义字段的处理上各有 侧重。主要研究了词典的建立,如何利用该词典进行分词,并结合特定领域说明这种方 法的高效性和可行性,并对歧义字段根据通用语料和专业语料的特点有倾向性的进行歧 义消解。关于未登录词,限于篇幅和特定领域,本文并没有涉及。 论文完成了以下几个方面的研究工作 研究了近十几年来的中外相关文献,对自动分词的研究现状进行了总结,并对 其发展趋势进行概括。对中文分词算法进行归纳及比较,在此基础上对现有分词方法的 局限进行了分析,并引出了自动分词方面的难点。通过对典型的自动分词系统的分析, 对分词系统的目标及评价标准进行了概括。 设计中文分词系统的模块,对分词系统的模块及各模块的功能进行了确定。 建立基于首字索引表的词典机制,在原有词典不变的基础上,利用汉字内码的 特点,对字典按首字及字段由长到短的顺序进行词典结构的重新组织,以缩小匹配范围, 减少匹配次数,提高检索效率。针对计算机领域,设置了专门的专业词典来增强对专业 领域词语的识别率,并设计了专门的切分手段,采用了通用词典和专业词典相结合的双 词典机制。 , 基于机械的分词技术,设计了一种改进的正向减字最大匹配算法,使词典结构 与分词算法充分结合,并采取“先专业词后通用词”的切分策略。 歧义的识别和消除采用了通用词汇和专业词汇区别对待的策略,有侧重的进行 歧义处理。对于通用词汇主要侧重处理交集型歧义字段,采用回退一字的方法识别出交 集型歧义字段;在歧义消除阶段,主要利用词频信息,对歧义字段中可能的切分结果中 的词进行词频商的计算,以词频大的为最终歧义消除结果。对于专业词汇主要处理组合 型歧义字段,此处的处理以专业词典的最大切分结果作为最终歧义消除结果。 s 2 中文自动分词概述 2 1 中文分词算法 2 中文自动分词概述 中文自动分词是中文信息处理的基础环节和重要瓶颈,是学者们关注的热点研究问 题。迄今为止,学者们已经提出了双向最大匹配、逐词遍历、设立切分标志、最佳匹配、 词频统计、邻接约束、动态规划的最小代价路径、专家系统、最少分词、神经元网络等 多种分词方法。不同分词方法模拟了人类分词行为的不同侧面,服务于不同用途的中文 信息处理系统。总的来说,这些方法都是三个基本方法的扩展、延伸和改进。这三个基 本方法分别是:基于词典的分词方法、基于统计的分词方法和基于理解的分词方法,它 们分别代表了目前分词方法的三大发展方向。 2 1 1 基于词典的分词方法 基于词典的分词方法,也称为机械分词方法。之所以称为“机械”,是因为它的切分 过程是依赖于机器词典进行。其基本思想是:按一定的策略将待分析的汉字串与一个“充 分大的 机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功( 识别出 一个词) 。 基于词典的分词方法的三个要素为分词词典、文本扫描顺序和匹配原则。根据文本 的扫描顺序分为正向扫描、逆向扫描和双向扫描;根据匹配原则分为最大匹配、最小匹 配、逐词匹配和最佳匹配;根据匹配不成功时重新切取的策略,机械匹配法又分为增字 法和减字法;根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注 相结合的一体化方法。 ( 1 ) 正向最大匹配法 通常简称为m m 法。其基本思想为:设d 为词典,m a x 表示d 中的最大词长,m 为 待切分的字串。m m 法是每次从蚶中取长度为m a x 的子串与d 中的词进行匹配。若成功, 则该子串为词,指针后移m a x + 汉字后继续匹配,否则子串逐次减一进行匹配。m m 法 设计思想简单,易于机器实现,时间复杂度也比较低。但也有一些不足之处;最大词长 m a x 难以确定;汉语词汇是无穷的,词库再大也容不下所有词汇;m m 法每次从长到短 对子字串进行匹配,这实际上否认了“词中含词”这一语言现象,出错率高,拒分现象严 重。m m 方法一般不单独使用,而是作为一种基本的机械切分方法同其他方法配合使用。 ( 2 ) 逆向最大匹配法 简称为r m m 法。r m m 法的基本原理与m m 法相同,不同的是分词的扫描方向,它 是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1 1 6 9 , 9 西安科技大学硕士学位论文 单纯使用逆向最大匹配的错误率为1 2 4 5 ,显然r m m 法在切分的准确率上比m m 法有很 大提高。 ( 3 ) 双向匹配法 从最大匹配法出发导出了“双向最大匹配法”,即m m + r m m ,即对同一个字符串分 别按照m m 方法和r m m 方法进行切分处理,如果能够得到相同的切分结果,则认为切分 成功。否则要做进一步的分析处理,这时或者采用上下文信息,根据切分歧义规则库进 行捧歧,或者进行人工干预,选取一种认为切分正确的结果s u a m s 和b e n j a m i n k t ( 1 9 9 5 ) 1 1 注意到:汉语文本中9 0 左右的句子,m m 和r m m 的切分完全重合且正确, 9 左右的句子m m 和r m m 切分不同,但其中必有一个是正确的( 歧义检测成功) 。这正是 双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在i l q 。 双向匹配法的缺陷有:算法复杂度提高。为了使切词词典支持正向和逆向两种顺序 的匹配和搜索,词典的结构要比一般的词典结构要复杂一些;并不是所有的交集型歧义 和组合型歧义都可以通过双向匹配方法找到。例如字符串“语言学起来很难”和“原子结 合成分子时”,m m 和r m m 得到相同的分词结果,但都存在切分歧义。 ( 4 ) 最少切分法,也称为最短路径法 通过查询词典,找出字符串中存在的所有词,构造有向无环图。采用层进式最短路 径法来得到最后的切分结果。由于大多数汉字均可构成单字词,所以按最小匹配法分词 的结果往往因分得太细而不合要求。 ( 5 ) 最佳匹配方法 简称为o m 法。o m 方法是现代汉语( 张志公主编) 中提出来的,分为正向最佳匹 配法和逆向最佳匹配法。最佳匹配法的出发点,是在词典中按词频的大小顺序摔列词条, 以求缩短分词词典的检索时间,达到最佳效果,从而降低分词的时间复杂度,加快分词 速度。实质上,这种分词方法是预先对分词词典进行处理,而不是一种纯粹意义的分词 方法。o m 方法的分词词典每条词前面必须有指明长度的数据项,所以o m 方法的空间复 杂度稍有增加。o m 方法虽然降低了分词的时间复杂度,但是并没有提高分词精度。 ( 6 ) 改进的方法 改进的方法主要有特征词扫描法,高频优先法,扩充转移网络( a t n ) 法、约束矩阵 法、分词句法一体化方法等。特征词扫描法是对机械分词方法所作的一种改进,即改 进扫描方式,称为特征扫描或标志切分。其基本思想是在待分析字符串中识别和切分出 一些带有明显特征的词,以这些词作为断点,将原字符串分为较小的串,然后再进行机 械分词,从而减少匹配的错误率。实际上这是一种“分而治之”的方法。目前,特征词扫 描法主要是作为预处理阶段的一种方法。高频优先是通过词频统计,确定优先处理两字 词、其次三字词的处理顺序。a t n 法主要用来组织用于汉语的动态机器词典,解决歧义 问题。约束矩阵方法建立语法、语义约束矩阵,利用了相邻词汇之间的约束关系来进行 1 0 2 中文自动分词概迷 分词。分词句法一体化方法则是在分词的同时进行句法分析,利用句法信息来处理歧 义现象。前两种方法主要是利用汉语的成词规律来改善机械分词的精度和效率,而后三 种方法均在不同程度上使用语法、语义、句法等信息来排除歧义,提高精度,我们一般 将它们成为基于语义的分词。 对于机械分词方法,可以建立一个一般的模型,形式地表示为a s m ( d , a , m ) 。其中, d :匹配方向 + l 表示正向,1 表示逆向; , 出每次匹配失败后增加减少字串长度( 字符数) + l 为增字,1 为减字; m :最大,最小匹配标志 + l 为最大匹配,1 为最小匹配。 例如,a s m ( + ,- ,+ ) 就是正向减字最大匹配法,a s m ( - ,+ ) 就是逆向减字最大匹配法( 即 逆向最大匹配法) ,等等。对于现代汉语来说,只有m = + l 是实用的方法。用这种模型可 以对各种方法的复杂度进行比较,假设在词表的查询过程都使用顺序查找和相同的首字 索引查找方法,则在不记首字索引查找次数和词典读入内存时间的情况下,对于典型的 词频分布,减字匹配a s m ( d ,m ) 的复杂度约为1 2 3 次,增字匹配a s m ( d ,+ 问的复杂度 约为1 0 6 1 2 a 。 机械分词法的优点是其方法简洁,易于实现,在工程上得到了广泛的应用。其缺点 是;匹配速度慢;存在交集型和组合型歧义切分问题;词本身没有一个标准的定义,没 有统一标准的词集;不同词典产生的歧义也不同;对词典中没有的词无法正确切分;需 要人工维护词典;适用范围有限等。单纯采用这种方法时切分精度较低,并不能满足中 文信息处理的要求,正向和逆向最大匹配存在切分盲点,双向最大匹配虽综合了单向匹 配的优点,能处理绝大部分交集型歧义,但不能达到切分组合歧义的处理能力,因此, 将这种机械匹配的方法和其他切分方法相结合是现在比较常用的思路,既充分利用机械 分词速度快,实现简单的优点,又克服了它切分精度低的不足,提高分词质量。 2 1 2 基于统计的分词方法 由于汉语词定义的模糊性,有些学者利用统计方法,通过对大规模真实文本的统计, 让计算机自己判断什么是词,这就产生了基于统计的分词方法,又称为无词典分词。这 类方法分词的依据和主要思想是:从形式上看,词是稳定的字的组合,因此在上下文中,相 邻的字共现的次数越多,就越有可能构成一个词。因此字与字相邻出现的频率或概率能够 较好的反映成词的可信度。通过对语料中相邻共现的各个字的组合频度进行统计,计算它 们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个 阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计, 西安科技大学硕士学位论文 切分出所有可能的词,然后利用统计和决策的算法确定最优的切分结果。 基于统计的分词方法优点在于无需额外构造词典;需要的基础资源少,对语言资源 的依赖性弱;能够有效地自动排除歧义,能够识别新词、怪词,解决了基于字典的分词 方法的弊病,这是统计方法会被广泛使用的最主要的原因。但这种方法也有一定的局限 性,计算量大;需要大量原始文档;会经常抽出一些共现频度高、但并不是词的常用字组, 例如这一j 、之一j 、r 有的j 、我的j 、许多的j 等,并且对常用词的识别精 度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典进行串匹配分 词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词 切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的 优点。 2 1 3 基于理解的分词方法 人工智能分词技术的关键是如何在分词过程中引入有用的词法、句法及语用等各种 语义知识进行有条件的切分。人工智能是对信息进行智能化处理的一种模式,主要有两 种处理方式:一种是基于心理学的符号处理方法。模拟人脑的功能,构造推理网络,经 过符号转换,从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在 模拟人脑神经系统机构的运作机制来实现一定的功能。以上两种思路是近年来人工智能 领域研究的热点问题,应用到分词方法上,产生了专家系统分词法和神经网络分词法。 ( 1 ) 专家系统分词法 从模拟人脑功能出发,将分词过程看作是知识推理的过程,构造推理网络,将分词 所需的汉语词法、句法、语义知识分离出来,把知识表示、知识库结构与维护作为考虑 的中心。在分词时,将待分词或已分词看

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论