版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、自然语言处理概述 完成时间:2016/5/14 手机号码:李博(计算机科学与技术专业2014级4班,学号:)摘要: 经过近几十年的发展,自然语言处理技术的理论基础日趋成熟,应用范围也越来越广,初步形成了面向各种不同应用和研究的技术体系。本文简单介绍了自然语言处理领域中常见的算法。关键字:自然语言处理;中文分词;词法分析;句法分析自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目标是给计算机配备各种知识语言,使其能够接受人们采用自然语言给它输人的命令,理解人们所要表达的意思,实现从一种语言到另一种语言的翻译等功能。从研究的侧重点角度看,自然语言处理研究主要有两方面:其一是偏向于理
2、论的自然语言理解研究,它一般偏向于用计算机分析自然语言输入,从中得出与输人有关的一些结论;其二为机器翻译研究,它较偏向于实用效果,主要面向不同自然 语言文种之间的转换;也包括自然语言表达到系统内部命令形式的转换,即自然语言接口研究。目前,自然语言处理的研究成果已在数据库系统设计、大型软件包、人工智能研究 、专家系统设计等领域得到了广泛的应用。1 自然语言处理的难点单词的边界界定在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用 能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。词义的消歧许多字词不单只有一个意思,因而我们必须选出使句意
3、最为通顺的解释。句法的模糊性自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析 (Parse) 出多棵剖析树 (Parse Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。有瑕疵的或不规范的输入例如语音处理时遇到外国口音或地方口音, 或者在文本的处理中处理拼写,语法或者光学字符识别 (OCR) 的错误。语言行为与计划句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于 提问“这门课程去年有
4、多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。2 当前自然语言处理研究的发展趋势第一,传统的基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。 第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。 第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。统计自然语言处理 统计自然语言处理运用了推测学、机率、统计的方法来解决上述,尤
5、其是针对容易高度模糊的长串句子,当套用实际文法进行分析产生出成千上万笔可能性时所引发之难题。处理这些高度模糊 句子所采用消歧的方法通常运用到语料库以及马可夫模型(Markov models)。统计自然语言处理的技术主要由同样自人工智能下与学习行为相关的子领域:机器学习及资料采掘所演进而成。3 中文自然语言处理中文(Chinese),也称为汉语,按照字型分为简体中文和繁体中文。按照时间可分为古代汉语和现代汉语。本书所述的中文在不做特别说明是一般指现代汉语。中文的语素绝大部分是单音节的。语素和语素可以组合成词(比如:吃+ 饭吃饭)。有的语素本身就是词(手、洗),有的语素本身不是词,只能跟别的语素一
6、起组成复合词(民人民,失丧失)。现代汉语里双音节词占的比重最大。大部分双音词都是按照上面提到的复合方式造成的。有些语素虽然在现代汉语里不能作为一个词单独用,但是有时候在借用古汉语的词句时,也偶尔作为词来使用。下面几节简单介绍下中文自然语言处理中的主要研究问题。3.1 中文分词词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文分词是中文信息处理的基础与关键。中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。现代汉语的基本
7、表达单元为“词”,以双字或多字词居多,一个字不再等同于一个词。3.1.1 基于字符串匹配分词机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。实际应用中,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率;或将分词与词类标注结合。3.1.2 基于理解分词分词同时进行句法语义分析等模拟人对句子的理解,包括分词子系统,句法语义系统,总控部
8、分。总控部分协调下,分词字系统可以获得有关词,句子等的句法和语义信息对分词歧义进行判断。需要大量的语言知识信息。3.1.3 基于统计分词相邻的字同时出现的次数越多,越有可能构成一个词语,对语料中的字组频度进行统计,不需要切词字典,但错误率很高。可以考虑:使用基本词典进行关键词分词,使用统计方法识别新词组,两者结合。3.2 中文词性标注词性(Part-of-Speech, POS)指作为划分词类的根据的词的特点。现代汉语的词可以粗分为12 类。实词 名词、动词、形容词、数词、量词和代词虚词 副词、介词、连词、助词、拟声词和叹词但这样的划分对于后续的语义分析远远不够。因此不同的语料构建者都会对词性
9、进行更细的划分。比如“名词”可以再分为“一般名词”、“专用名词”、“抽象名词”和“方位名词”等。“专用名词” 可用再分为“人名”、“地名”、“机构名”等。词性标注 (POS Tagging)是给句子中每个词标记出最合适的词性。中文和英语的一个重要区别是中文没有词性变化。中文的每个词会有多种词性(比如“希望”即是名词又是动词)。但特定的使用场合下,比如一个句子中,每个词都有唯一确定的词性。即在若干词性候选项中选择一个合适的词性。4 句法分析句法分析是指对句子种的词语语法功能进行分析。一个完整的汉语句子,一般有主语、谓语、宾语,复杂一些的句子就会出现各种各样的依存关系,包括补语、定语、状语、并列、
10、同位语、数量、介宾、连动、疑问连动、兼语、关联、重复、标点、的字结构、地字结构、语气、时态等。如果在中文语言处理过程中,我们可以准确无误的对句子分析出这些依存关系,那么我们可以比较准确的找到这个句子的核心词。自然语言处理的初级目标就可以基本实现了。句法分析工作包括两方面的内容,一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化定义;另一方面是句法分析技术,即根据给定的语法提示,自动推导出句子的语法结构,分析句子所包含的句法单位和这些句法单位之间的关系。句法分析主要难点是歧义,自然语言的一个重要特点是存在大量歧义现象,歧义的产生会导致句法分析的候选结果随着句子长度的增加而急剧增加。5
11、 语义分析语义分析指的是将给定的自然语言(包括篇章和句子)转化为反映其意义的某种形式化表示,也就是将人类能够理解的自然语言转化为计算机能够理解的形式语言,做到人与机器的互相沟通。语义依存分析,它建立在依存理论基础上,是深层的语义分析理论。它融合了句子的依存结构和语义信息,更好地表达了句子的结构与隐含意思。语义依存分析提取句子中所有的修饰词与核心词对间的语义关系,且修饰词与核心词对覆盖了句子中所有的词,即句子中的每一个词都有其核心节点(除了整个句子的核心节点外)。语义依存分析是处理词级别、短语级别、从句级别以及句子级别的语义结构的过程。语义分析的最终目的是理解句子表达的真实语义。当时用什么形式来
12、表示语义一直没有能够很好的解决。语义角色标注是比较成熟的浅层语义分析技术。给定句子中的一个谓词,语义角色标注的任务就是从句子中标注出这个谓词的施事、受事、时间、地点等参数。语义角色标注一般都在句法分析的基础上完成,句法结构对于语义角色标注的性能至关重要。 参考文献1统计自然语言处理基础J. 中文信息学报. 2005(03) 2冯志伟.论语言符号的八大特性J. 暨南大学华文学院学报. 2007(01) 3张春霞,郝天永.汉语自动分词的研究现状与困难J. 系统仿真学报. 2005(01) 4代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究J. 中文信息学报. 2004(01)5 朱寰,阮彤,于庆喜.文本分割算法对中文信息过滤影响研究J. 计算机工程与应用. 2002(13) 6李家福,张亚非.基于EM算法的汉语自动分词方法J. 情报学报. 2002(03)7李家福,张亚非.一种基于概率模型的分词系统J. 系统仿真学报. 2002(05)8金凌,吴文虎,郑方,吴根清.距离加权统计语言模型及其应用J. 中文信息学报. 2001(06)9李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网络管理员年度工作总结参考八篇
- 银行面试一分钟自我介绍-10篇
- 个人客服年终总结
- 金融方面法律演讲
- 《髋关节解剖学》课件
- 乡村振兴二手房交易合同范本
- 探秘生物科学
- 劳动合同纠纷处理案例分析
- 新的安全生产法解读及相关
- 地下停车场改造设备租赁合同
- 昆明理工大学《自然语言处理》2023-2024学年第一学期期末试卷
- 中国高血压防治指南(2024年修订版)解读课件
- 病房护理组长年终述职
- 仲恺农业工程学院《C程序设计》2021-2022学年期末试卷
- 2024年世界职业院校技能大赛高职组“护理技能组”赛项参考试题库(含答案)
- DB22T 397-2014 保健用品功能学评价程序与检验方法
- 浙教版2023小学信息技术三年级上册《进入在线平台》说课稿及反思
- 《房颤抗凝新进展》课件
- 论文写作讲座模板
- 执着与变通二元思辨作文-2023年高考语文作文考前素材与押题范文
- 2024时事政治考试题库(100题)
评论
0/150
提交评论