语言信息处理大作业报告_第1页
语言信息处理大作业报告_第2页
语言信息处理大作业报告_第3页
语言信息处理大作业报告_第4页
语言信息处理大作业报告_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉语自动分词和词性标注万军2120111196I目录汉语自动分词和词性标注,通俗的讲,就是将中文语句中的词汇切分出来并对其标注上词性的过程。众所周知,中文语句和英文语句之间写法上最显著的一个差别,就是中文语句词和词之间没有类似于英文语句单词和单词之间的空格。这样的话,如果把中文文本交给机器来处理,必须要通过某些手段和技术,能自动的将其分开。有的时候,还需要分析出划分开的词语在文本中的词性。这就是汉语自动分词和词性标注最浅显的任务所在。对于人来说看似非常简单的一项任务,如果交给机器来处理,则困难重重。汉语经过几千年的发展和演变,它的词法约束很不规范,千变万化,并且还在不断的更新演变中。我们要让机器从这些复杂灵活的汉语约束中,将中文连续的字序列按照符合我们人类认知习惯的规范重新组合成词序列,并标注上相应的最合适的词性。本文主要研究在给定的机械词频词典下的基于字符串匹配的中文分词系统,将一整段文字基本正确的切分成词,并标注上词性。在实现分词的过程中,最重要的两个因素就是分词速度和分词精度。因此,我们以分词速度、分词正确率和分词召回率作为中文分词评测标准,力求达到较高的分词速度和分词精度。1汉语分词作为汉语信息处理方面的基础性工作,在中文信息处理中起着非常关键的作用。它被广泛应用于中文信息领域的信息检索、自动摘要、中文校对、汉字的智能输入、汉字简繁体转换、机器翻译、语音合成等技术中。正是由于其基础性作用,汉语自动分词从20世纪80年代以来就一直是一个研究热点,但由于中文语言的复杂性,使之一直处于发展阶段。近年来,国内外众多学者在中文分词领域做了大量研究工作,并取得了ICTCLAS是最早的中文开源分词23在词典方面,我们没有采用由训练语料生成词典的方法,而是采用固定的词频词典。刚开始系统使用的是网上下载的紫光的中文词典,发现分词效果不是太好,没有达到预期的标注,后来我们将系统设计为可以自己自主添加词典,根据自己的需求,添加进合适的词典以满足自己任务的需求。在测试和系统演示中我们使用的词典是在CSDN上下载下来的,该词典收录了通(是对4本系统主要涉及到词典格式的构造,词典搜索的方法,汉语分词的算法,词性标注的模型和算法,分词测评的方法和标注等,现依次对系统所使用的方法原理进行简要的介绍。所采用的是固定的词频词典,词典文件用在词典搜索方面,为了适应不同数据量的词典搜索,本系统提供了两种词典搜索机制。在进行词典搜索的时候,采用HASH索引查找的方法,大大txt文件,词索引表是指向词典正文中每个词的指针表。通过首字Hash表的Hash定位和词索引表很容易确定指定词在词典正文中的可能位置范围,进而在词典正文中进行定位,从而达到快速搜索到相应词汇的过程。5尔可夫模型的方法是词性标注领域应用最广泛,也是最成熟的一种技术。因此,我们的系统也采用了基于隐马尔可夫模型的方法。本系统主要涉及到的有词典机制算法,基于字符串匹配算法自动分词算法和Viterbi算法,现依次对其进行描述。先简单说明下我们小组的想法,我们将分词模块和词性标注模块分成两个模块,将分词模块的输出作为词性标注模块的输入,这样可以极大提高速度。本系统可以通过手动输入语句也可以加载文本,对词典的选择也可以根据自己的需求自己进行选择。但系统并未按流程所示,对文本进行划分,所以本系统只能处理3M以内的文本,所以对大文本的处理是我们改进的方向。8本系统采用的是基于HASH索引的分词词典。使用索引来组织数量庞大的文件是一种高效的方法。国际GB2312汉字编码表共收录了6763个汉字,为了对齐,里边加上有5个空白编码,所以实际上共有6768个汉字。根据汉字机内码编码规律,汉字在编码表中的偏移量计算公式如下:offset=(c1–0xB0)*94+(c2–0xA1)其中,offset代表某汉字在编码表中的位置,c1,c2代表汉字的内部码。因此,每一个汉字都有自己唯一的偏移量。对词典中相同首字的词语的进行Hash表的索引,则词典中都有唯一的一项地址,表示以此字开头的词语的集合。表、词典正文。词典正文是以词为单位txt文件,词索引表是指向词典正文词典结构java进9所谓最大匹配,就是要求每一句的分词结果中的词汇量要最少。正向最大匹配又分为增字和减字匹配法。减字法的流程为:首先读入一句句子,取出标点符号,这样句子就被分为相应的若干段,然后对每一段进行词典的匹配,如果没有匹配成功就从段末尾减去一个字,再进行匹配,重复上述过程,直到匹配上某一个单词。整句句子重复这些流程,直到句子全部分解为词汇为止。如果事先知道词典中最大词的长度,那么在一开始的匹配中,不用将分割出来的整段语句与词典匹配,只需要以最长词的长度为最大切分单位进行切分就可以了。反向最大匹配实现原理与正向最大匹配相同,只不过是从句子的末尾选择计算最大词的长度,从后往前匹配、切分。为了提高切分的精度,本系统使用的是正向最大匹配和反向最大匹配相结合的方法,然后通过比较两种分词结果,按照最佳匹配原则,选择出两者中最为恰当的分词。本系统的正向最大匹配和反向最大匹配均是采用减字匹配算法,减字算法实现简单,切分效果也颇为显著。典词匹配成功果结词分正向最大匹配(MM)对于文本中的字串ABCD,AB∈W,ABC∈W,ABCD?W,W为词典,那么就取切分ABC/D。逆向最大匹配(RMM)对于文本中的字串ABCD,CD∈W,BCD∈W,ABCD?W,W为词典,那么就取切分A/BCD。逆向最大匹配算法的基本思想与正向最大匹配算法相同,唯一的区别是最大匹配的顺序不是从首字母开始而是从末尾开始。正向最大匹配算法流程如下图所示。正向匹配算法流程图无论是正向匹配算法还是逆向匹配算法都会产生大量的歧义字段。我们很容易举出这样的例子。下面是分词结果示例,其中MM表示正向最大匹配方法,RMM是逆向最大匹配方法。(1)MMRMM他/说/的/确实/在理(2)MM结合/成分/子时/有(…)RMM结/合成/分子/时有(…)12这个/项目/应用/于(…)RMM这/套/设备/可/以为/盲人/提供/方便我/对/他/有意/见(5)MM所以采两种分词算法相结合的方式,主要是为了消除组合歧义,比如如这种歧义称为组合歧义。单一使用正向最大匹配算法和逆向最大匹配算法都会产生错误,为了减少这种歧义的影响,使用两种分词方法相结合的方式。通过统计方法消除部分歧义。描述如下:C=c1c2...cm表示输入的由m个汉字组成的歧义切分字段。W=w1w2...wn表示示把C切分后得到的由n个词组成的词串。V=v1v2...vk是另一种切分结果。用frq(w)表示w的频率。如果有frq(w1)*frq(w2)*...*frq(wn)>frq(v1)*frq(v2)*...*frq(vn),则选择在介绍Viterbi算法之前必须先介绍下隐马尔可夫模型(HMMt1)MM(MarkovModel)句话,如果需要计算其概率,假设用S代表整个句子,则有如下公式:P(S)=P(晚上喝水)</s>—代表句子结束位置因此这儿的Hidden在词性标注这个应用领域指的是tWORD—explicitunit(现象)C(喝v)—代表v喝同时出现的频数抽象一层即为本质导致现象发生的概率大小。通过上面的例子,我们发现这里有一个思路需要转变一下,即对于MMP(Q)=【P(q1|<s>)×P(q2|q1)×…×P(</s>|qn)】(o1|q1)×P(o2|q2)×…×P(on|qn)】该算法本质上是用于解决一个解码问题,即对于一个给定的现象,挖掘其背后的本质。对于“词性标注”这个应用领域来说即对“确定的切词结果”找到背后的各个词的“词性”。仍然以上面例子进行说明。生成的状态图17求如图所示的绿色椭圆方块部分的Viterbi值计算方法如同前述步骤,分别计算路径①、②、③的取最大的值,同时记录backpointer值,假设这里为③条路径,因此通过该路径回溯即可找到一条概率最大路径,该路径上所附的词性即为采用Viterbi算法搜索得到的词性标注结果(以上内容摘自百度文库,主要是介绍下Viterbi我们在程序的实现中我们小组推导出自己模型:>其中,<>表示具有词性ti的词wi,通过找出与词串对应的<W,T>,比较得出具有最大概率的结果<W,T>’<W,T>’=argmaxP(<W,T>|W)T’=argmaxP(T|W)PW)P(W)是词串W的概率,因为W已经确定了,所以是个常量,假定词语之间是相互独立的,某个词语的词性只跟它前面的那个词的词性有关,而与其它词语的词性无关,则有:20对测试文本中的每一个词,遍历所有的词性,对每一个词性,计算该词性对应的最大概率并记录其位置,这里的最大概率为前一个词所对应的概率乘以到该词的转移概率及发射概率。将最大概率存储在最后在回溯遍历,即可找出概率最大的路径,将结果输出。系统演示图221)分词速度较慢,虽然尽力优化,例如在对文本处理时采用缓存和管道技术。但结果跟中科院的系统相比还是有一定的差距的。2)分词歧义,这个主要是算法原因造成的。字符串最大匹配只能作为一3)未登陆词的处理。未登陆词的处理是分词的难点,在本系统并未进行处理,这也是我们后续工作的重点。通过计算我们得到准确率为89.2%3)准确率跟目前中科院做的系统相比,差距还有的,这也是我们努力改进的目标。同汉语自动分词研究中一直存在两大难点一样,本系统在实现的过程中也存在着歧义消除和未登录词识别两方面的困难。同时,保证系统中词性标注的准确率也是一件棘手的工作。汉语文本由于其灵活性,含有许多歧义切分字段,典型的歧义有交叉性歧义和组合型歧义。研究表明,交叉型歧义约占整个分词歧义的因此,处理好交叉型歧义字段在很大程度上能保证一定的分词精度。未登录词也是汉语自动分词的一项难题。未登录词一般指未收录在分词词典中的词语。由于汉语是个不断变化的语言,汉语文本的书写表达形式也随着社会不断的更新,出现了大量的新的人名、地名、机构名等。近年来,随着互联网的普及,大量的专有名词、网络词汇和缩写词汇等层出不穷,这更加大了自动分词对这些未登录词识别上的困难。因此,能否有效的处理未登录词也是考验汉语自动分词精度的关键所在。的转移

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论