



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文信息处理学号: 姓名: 班级: 时间: 浅谈中文信息处理之汉语自动分词 【摘 要】:汉语自动分词问题是中文信息处理技术发展的一大热点也是一大难点,对于自动分词研究的出发点的不同,其自动分词方法也是不一。自动分词给我们的日常的生活带来了便利,但同时也尚有一些急需解决的问题存在。【关键词】:自动分词;中文信息处理;技术 中文信息处理是第一次接触的一门学科,几个月的学习下来对它也有了初步的一些了解。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、信息学、声学等多种学科相关联的综合性学科。中文信息处理指的是利用计算机对汉语书面语形式和口语形式这两种信息进行加工,加工的结果形成各种信息处理系统,实现中文的信息检索、语音识别、机器翻译等。简单的说,中文信息处理就是解决汉字和汉语输入和输出电子计算机的问题的一门学科。笔者认为中文信息处理这门学科与其它的综合学科一样,内容繁多复杂,有一定的难度和复杂性,因此,我就几个月来所学的内容、课本以及一些对中文信息处理进行研究的学者的观点谈谈自己对汉语自动分词的看法。 众所周知,中文文本没有类似英文空格之类的标志来标示词的边界标志。由于汉语的书写形式不像西文,词与词之间没有间隔,所以就比西文的语言处理多了一道手续:自动分词。所谓汉语自动分词,是把输入计算机的汉语词句自动切分为词的序列的过程。汉语自动分词的任务我们用通俗的话来说,就是要由机器在中文文本中词与词之间自动加上空格。这样才能进行下一步的句法语义分析及处理。(一)自动分词方法根据对于自动分词研究的出发点的不同,目前较权威的观点来看大概可以归纳为三大类:基于词典的分词方法、基于统计的分词方法、基于ai 的分词方法。我们上课所学的主要是第二种,即基于统计的分词方法。因此,这里我主要谈谈基于统计的分词方法,其它两类简要概括一下。1.基于词典的分词方法这种分词方法是前苏联专家在上个世纪50 年代末提出来的。其基本思想是:事先建立一词库(词典),其中包含所有可能出现的词。对给定的待分词的汉字串s,按照某种确定的原则切取s的子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取s的子串进行匹配。这种分词方法又分为最大匹配法、逆向最大匹配法、设立切分标志法、逐词遍历匹配法、正向最佳匹配法和逆向最佳匹配法五大方法。 2. 基于统计的分词方法上面我已经谈到,中文文本没有类似英文空格之类的标志来标示词的边界标志。也就是说,词与词之间没有显著的分隔标记。而基于统计的分词方法就有一大优点,即能够有效地自动排除歧义,能够识别新词、怪词,例如人名、地名等,解决了基于词典的分词方法的弊端。基于统计的分词方法是我们学习中文信息处理课程时主要讲的分词方法。这类方法的主要依据和思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率就能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计, 计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字的组合可能构成了一个词。北京大学计算语言学研究所在开发人民日报语料库时,确定了具体的切分规范。规范中的切分单位包括词和大于词或小于词而在文本中独立使用的固定短语、语素字、非语素字以及标点符号。对于切分单位从字数考虑,对两个字的组合较宽地看作是一个切分单位,三个字的较严,四个字以上的若不是成语、习惯用语一般不看作是一个切分单位。切分规范以国家标准为基础,适当加以调整。但这种分词方法也有一定的局限性,会经常抽出一些共现频度高,但并不是词的常用字组, 例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差。 3.基于ai的分词方法 此类分词方法由于没有接触到,我也不了解,所以在此略过。 (二)自动分词问题上面我简要介绍了三种自动分词方法,我们知道,尽管汉语自动分词取得了重大进展和突破,但仍然存在着大量的问题。比如汉语无词的明显分隔标记,词的定义、词与词组划界标准与形式语法的缺乏等特点, 使得要自由进行汉语自动分词,将会遇到一些困难与问题。 1.首先,就切分而言,中文原本没有词的概念,没有一个统一的词的确切定义。中文构词方法的多样性特点使得自动分词十分困难。汉字造词可以是字,也可以是词甚至词组。造句的方式有以字造词,以词造词。如果没有语法、语义知识或语境了解的帮助就很难对有些句子进行正确切分。2.其次,汉语迄今为止仍未有一部公认的、确切完备的并适合于计算机自动处理的语法规则。汉语词法的无标准性,句法的复杂性,语法的模糊性与语义的多样性,如汉语中大量存在一词多义,多词一义,词性变化,词义转借等现象,使得研究中文信息处理的学者至今仍难以对它进行完备的总结。这也为汉语自动分词制造了困难。3.再次,现有的分词方法基本上都是基于统计和词典的分词方法,它们都必须在分词速度和精度之间做出选择。要提高速度,就要适当放弃精度的追求,缩减词典,减少匹配次数。而要提高切分精度,就得舍弃速度,无限扩充词典,匹配次数也会无限增加。因此,切分效率不高也是一大问题。4.最后,我认为基于统计的分词方法虽然能够有效地自动排除歧义,但也不能百分百的消除歧义。因为汉语由于构词语素大多是不定位语素,又有相当数量的自由语素,汉语词理解的多义性、复杂性, 再加上词与词之间没有空格隔开,没有任何区分标志,这就造成了切分中的多分字段,因而歧义现象是自动分词过程中不可避免的现象。在自动分词过程中具有两种或两种以上切分形式的字段称为歧义字段,这种情况在我们上网聊qq用酷狗打字的时候经常出现。而这种歧义字段会产生错误切分,给人们的日常应用带来不便。但根据我们所学的知识我们知道,歧义现象普遍存在,根据基于统计的分词方法也只能有限减少,不可能完全消除。这一点也是研究自动分词的学者应该想办法攻克的一大难点。 中文信息处理这门课程已经结束。除了书面的理论的知识外,还有上机实践课,将理论与实际结合起来,打好基础的同时又有点一定的实战经验。中文信息处理的理论知识对于非计算机专业的人而言有一定的难度,因此,对于这门课程不能详尽的表述心中所想,只能对于相较理解的一小块谈谈自己的一点看法。我认为,汉语自动分词不是一项单一的技术问题,不是说有人攻克了目前的难度就可以了的。随着中国国力的强盛,汉语自动分词已经同汉语走向世界、中华民族文化的伟大复兴紧密地联系在一起。作为全世界使用人数的最多的语言,我们有责任与义务解决汉语自动分词问题,以便计算机能对汉语文本进行自由处理,增强汉语的生命力,让更多的外国人了解到汉语的趣味性,吸引更
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 食品饮料行业分析
- 上海闵行职业技术学院《合唱与指挥基础(2)》2023-2024学年第二学期期末试卷
- 许昌电气职业学院《老年生活能力评估技术》2023-2024学年第二学期期末试卷
- 南京工业大学《外科学Ⅰ》2023-2024学年第二学期期末试卷
- 2025至2031年中国汽车仿真电气电路学习实习台行业投资前景及策略咨询研究报告
- 2025煤炭买卖合同模板
- 辽宁中医药大学杏林学院《足球俱乐部》2023-2024学年第二学期期末试卷
- 道路路基坡度施工方案
- 新建电力线施工方案
- 山西医科大学晋祠学院《钢琴基础(2)》2023-2024学年第一学期期末试卷
- 2025年江苏建筑职业技术学院高职单招(数学)历年真题考点含答案解析
- 2025-2030中国冷轧钢板行业市场发展现状及发展趋势与投资前景研究报告
- 矿山雨季生产安全知识培训
- 配电工程施工方案
- 99S203 消防水泵接合器安装图集
- IEC61215:2021-2地面光伏组件-测试内容,,中文
- 机械完整性管理ppt课件
- 钢中马氏体组织形态、稳定化
- 内窥镜PACS系统解决方案
- 离心式鼓风机设计(毕业论文)
- 扬州粉末涂料项目投资计划书(模板)
评论
0/150
提交评论