计算机处理自然语言的探索_第1页
计算机处理自然语言的探索_第2页
计算机处理自然语言的探索_第3页
计算机处理自然语言的探索_第4页
计算机处理自然语言的探索_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、甘肃政法学院本科学年论文 (设计)题 目 计算机处理自然语言的探索 计算机科学学院信息管理与信息系统专业2010级信管班学 号: 201081020142 姓 名:_ 杨 雨 龙_指导教师:_魏_芸_成 绩:_ 完成时间:_年 _月计算机处理自然语言的探索摘 要:自然语言处理是研究人与计算机之间语言交互的一门交叉型学科,也称为计算机语言学。它的研究主要是研究人与计算机之间用自然语言进行有效通信的各种理论与方法。它涉及了数学、语言学、逻辑学、和心理学等诸多研究领域,是一门非常复杂的学科。所以本文主要通过描述性语言来简单介绍一下计算机处理自然语言的发展历史,自然语言处理的基本问题,包括汉语自动分词

2、,汉语文本自动标注,句法分析,语料库处理等,以及在实现语言的人机交互处理时的一些简单技术和自然语言处理在现实生活中的应用以及发展趋势。关键词:计算机;自然语言;人工智能;人机交互The Exploration Of Computer Processing Natural LanguageAbstract:natural language processing is human and computer language interaction between a door cross type discipline, Its research mainly is used between hu

3、man and computer natural language effectively all kinds of communication theory and method. It involved mathematics, linguistics, logic, and psychology and so on many research fields, is a very complicated subject. So this paper mainly through the descriptive language to a brief introduction of comp

4、uter processing natural language development history, The basic problem in natural language processing, including Chinese automatic word segmentation, Chinese text automatic tagging, syntactic analysis, corpus processing, as well as in achieving language interactive processing some simple technology

5、 and natural language processing in real life application and development trend.Key words:Computer; Natural language; Artificial intelligence; Human-computer interaction目录计算机处理自然语言的探索1第一章引言3第二章 自然语言处理的定义31.1自然语言31.2 自然语言处理4第三章 自然语言处理研究的历程43.1以关键词匹配为主流的早期历史43.2 以句法-语义分析为主流的中期历史53.3 走向实用化和工程化的近期历史6第四章

6、 自然语言处理的基本技术74.1自动文摘技术74.1.1基于统计的自动文摘74.1.2 理解生成文摘74.1.3 基于信息抽取的自动文摘84.2文本的自动校对技术84.2.1 英文文本中的错误发现与纠正方法84.2.2上下文相关错误的纠错方法94.3 人机交互技术9第五章 自然语言处理的应用、意义及发展趋势105.1自然语言处理的应用105.2 自然语言处理的意义115.3 自然语言处理的发展新趋势11第六章 总结12参考文献13第一章 引言自然语言处理是研究如何利用计算机来理解和处理自然语言的,即把计算机作为语言的研究工具,来实现人机间自然语言的通信,这就要求计算机不仅要能理解自然语言文本的

7、意义,也能以自然语言文本来表达给定的意图,思想等。如今是一个在线信息,电子通信和互联网流行的年代,我们不难感受到日常生活中所能触及到的这样或那样的大量的文本信息,包括商业部门、政府机构以及个人所面对的各种各样的工作,所以每天都有大量的信息在遍布世界各地的互联网上产生、发布、交换、存储和获的,然而如何从这些大量的文本中挖掘潜在的,有使用价值的信息,任然是一个难题。自然语言处理是一项十分庞杂的工程,它是自然科学与社会科学交叉的学科,特别是计算机科学、语言学、逻辑学和心理学的交叉科学。自然语言处理的目的是实现计算机语言信息的自动分析和解释,他立足于实验、理论和计算三大支柱,通过对人脑以及语言认识的实

8、现途径进行模拟研究,建立起多层次网络处理模型来阐明人脑语言信息处理系统,以期取得突破性进展。它的研究具有突破性进展。它的研究具有很强的生命力,是当代科学的生长点,这不仅对信息科学,而且是对人是语言学,心理学以及国民对经济和社会的发展都会起到推动作用。因此,计算机对自然语言处理的究也成了一个国家国民生产好坏的标志之一。然而自然与语言处理的研究却不可能一步就达到对大规模真是文本的完善处理,必须逐层逐步的加以分析和解决,各层次的研究既相互独立又有着十分密切的联系,对每一层次的研究都应考虑更高层次的研究需要。第二章 自然语言处理的定义1.1自然语言语言是人么类区别于其他动物的本质特征,是人思维的载体。

9、是指生物同类之间由于沟通需要而制定的具有统一编码解码标准的声音讯号。是人们交流思想的媒体,它必然会对政治、经济和社会、科技乃至文化本身产生影响。语言是人们生活中不可缺少的组成部分。自然语言通常是指一种自然地随文化演化的语言。是人类语言集体的本族语,如汉语、英语、德语等,自然语言是相对人造语言而言的,人造语是指世界语或计算机的各种程序设计语言。语言这种文化现象是不断发展的,其现今的空间分布也是过去扩散、变化和发展的结果。根据其语音、语法和词汇等方面特征的共同之处与起源关系,把世界上的语言分成语系。每个语系包括有数量不等的语种,这些语系与语种在地域上都有一定的分布区,很多文化特征都与此有密切的关系

10、。人类的多种智能都与语言有着密切的关系,人类大多数只是也是通过语言文字的形式记载下来的,因而,它也是人工智能的一个重要组成部分。1.2 自然语言处理自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有人的语言能力。就处理对象而言,自然语言可以分为语音处理和语言文本处理,就人与计算机沟通的方向而言,可以分为自然语言理解(计算机可以理解自然语言文的本意义)和自然语言生成(计算机以自然语言文本来表达给定的意图、思想等)。中文信息处理是自然语言处理中一个重要分支,研究自然语言处理需要研制表示语言能力与语言应用的模型,建立计算框架来实现该语言应用模型,提出相应的方法来不断完善该

11、语言模型,根据该语言模型设计各种实用系统,并探讨这些这些实用系统的评测技术。第三章 自然语言处理研究的历程最早自然语言的研究工作是机器翻译,1949年美国人威弗说先提出了机器翻译设计方案。1954年初,美国乔治敦大学在国际上用公司(IBM)的帮助下,在IBM-701上进行了第一次机器翻译实验,此后,机器翻译成了自然语言处理的重要研究课题之一。四十多年以来,自然语言处理的研究也取得了丰硕的成果,根据不同时期的特点大体可以分为三个时期,下面就让我们来认识一下自然语言的发展历程。3.1以关键词匹配为主流的早期历史20世纪60年代开发的自然语言理解系统,主要依靠关键词匹配技术来识别输入句子的意义,而没

12、有真正意义上的语法分析,系统设计者会事先存放大量包含某些关键词的模式,每个模式多对应一个或者多个解释,当系统得到输入的语言文本时,系统就会与事先存储的相应的模式进行匹配,一旦匹配成功便得到了此输入句子的解释,而不再考虑句子中非关键词成分对句子的影响。因此,这种技术只能做到大致的匹配,虽然说它在输入的时候不用遵循一定的语法规则,但这种匹配技术不够精确,也可能遗漏句子中的某些重要信息,从而导致错误的分析和响应。虽说如此,但这个时期也有好些研究系统取得了不错的成果,但在这些基于“模式匹配”的自然语言系统中最有名的应该是J.Weiznbaum于1968年在麻省理工学院设计的ELIZA系统了。ELIZA

13、系统虽然没有更多的人工智能机制,但是它的随机对话却显示出惊人的准确率。例如用ELIZA来解释下面输入句子脚本片段:(DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY )START (ME=YOU)见到“ME”就翻译成“YOU”(I=YOU)见到“I”就翻译成“YOU”为了简化输出的生成过程,某些词就被立即翻译成适合于响应式的新形式,如上面脚本中的从i到YOU,和从ME到YOU 就是直接翻译,首先这些直接翻译被转换后再会进行其他模式的匹配。如果输入句子为:“Men are all alike (男人都一样)”,ELIZA就会被要求回

14、答“IN WHAT WAY? (怎么一样法?)”一般来讲,如果一个输入模式带有不止一个的输出匹配模式的话,ELIZA会轮流选用它们。对于不存在匹配模式的情况ELIZA还专门设计了一个(0)模式,它可以同任意的输入句子进行匹配,但有可能会产生模棱两可的相应。例如:“CAN YOU HELP ME?” (我能帮助你吗?)“THAT IS QUITE INTERESTING”(这个很有趣)所以有时候系统的回答会显得不合语境或者回答不搭配,这就使句法和语义法分析有了绝对的必要性。3.2 以句法-语义分析为主流的中期历史20世纪70年代以后,人们研究出了采用语法-语义分析的技术来处理自然语言,这个技术的

15、发展使用在语言分析的深度和难度方面都有了很大的进步,这个时期的代表作有允许用普通英语同计算机数据库对话的人机接口LUNAR、能提供自然语言理解过程直觉模型的MARGLE和在“积木世界”中进行对话的自然语言理解的SHRDLU系统,下面就以SHRDLU系统为例子来进行说明。为了在计算机上模拟一个能够用正确去理解说话人的语言语义以及单词,句子上下文的和主题事物模型,就需要在系统中把语法,语义和推理有机的结合起来,实现系统部件的彼此调用,其SHRDLU系统的主要部件及调用如下图所示(箭头代表部件之间的调用):图3.1 SHRDLU系统的结构及组成SHRDLU在语言理解过程中试图把语言学方法和推理方法结

16、合起来,从而使它取得了引人注目的结果。然而系统仍无力解决英语中众多复杂的问题,如一致关系、词the和and的处理等。它的能力并非来自语言学的分析,而是由于在一个简单的限定领域(积木世界)内使用了人工智能的问题求解方法。在这样一种受限的领域中许多比较困难的语言问题都被回避了。3.3 走向实用化和工程化的近期历史20世纪80年代以来,一批商业化自然语言人-机接口和机器翻译系统出现在国际市场,这标志着自然语言理解系统走向了实用化和工程化。著名的有美国人工智能公司(AIC)生产的英语人机接口系统Intellect,美国弗雷公司生产的Themis人-机接口,美国加里福尼亚工学院研制的ASK接口;欧洲共同

17、体在美国乔治敦大学开发的机译系统SYSTRAN的基础上成功地进行了英、法、德、西、意、葡等多语对的机器翻译,加拿大蒙特利尔大学开发的服务于天气预报领域的英法机译系统TAUMMETE0,日本富士通公司开发的ATLAS英日、日英机译系统,日本日立公司开发的HICATS英日、日英机译系统等等。国内“七五”期间由中国软件总公司开发的商品化英汉机译系统“译星”(TRANSTAR),也是这方面的一个范例。1990年8月,在赫尔辛基召开的第13届国际计算语言学大会上,大会组织者首次提出了处理大规模真实文本的战略目标,并在会前组织了“大型语料库在建造自然语言系统中的作用”、“词典知识的获取与表示”和“电子词典

18、”等专题讲座,预告了语言信息处理的一个新的历史阶段即将到来。第四章 自然语言处理的基本技术4.1自动文摘技术所谓自动为你摘就是利用计算机自动的从自然语言形式的电子文本中提取出能够涵盖和索引原文核心意思的重要内容,并声称一篇简介连贯的文摘。并且此文摘具有概况性、客观性、可理解性和可读性。根据文摘的形式可将自动文摘分为提示性文摘、信息性文摘和结构式文摘。当然,这里我们着重介绍一下文本自动文摘的三种基本方法。4.1.1基于统计的自动文摘基于统计的自动文摘是以文章中词出现的频率和词、句子在文章中的位置等表面形式特征为基础,直接抽取原文中的句子组成摘要的文摘方法,他通常分为4个步骤:(1)计算词的权值;

19、(2)计算句子的权值;(3)对原文中的所有句子按权值从高到低排序,权值最高的若干句子为文摘句;(4)将所有文摘句按照它们在原文中的出现顺序输出。4.1.2 理解生成文摘理解生成文摘是以人工智能和自然语言理解为基础,利用语言知识和领域知识对文本进行推理判断得到文本的语义并作为自然语言生成器的输出从而生成的文本。其通常有以下步骤:(1) 语法分析:借助词典中的语言学知识对原文中的句子进行语法分析,获得语法结构树。(2) 语义分析:运用知识库中的语义和知识将语法结构描述转换成以逻辑和意义为基础的语义表示。(3) 语用分析和信息提取:根据知识库中预先存放的领域知识在上下文中进行推理,提取原文的关键内容

20、,得到文摘的意义表示。(4) 文本生成:将意义表示的内容转换为一段完整连贯的文字输出。4.1.3 基于信息抽取的自动文摘信息抽取的自动文摘以文摘框架为中枢,分为选择与生成两个阶段。文摘框架是一张申请单,它以空槽的形式提出应从原文中提取的各项内容。例如:针对计算机病毒类的文章可以提出如下框架: 病毒病毒名称; 病毒传染对象; 病毒类属; 病毒攻击对象; 在选择阶段,利用特征词从文本中抽取相关的短语或句子填充文本框架。如在文中有“感染可执行文件”字样,可以将“感染”后面的“可执行文件”作为感染对象填入文摘框架。在生成阶段,利用文摘模版将文摘框架中的内容转换为文摘输出。如“该病毒的感染对象是”是模版

21、中的一个句子,文摘框架中的登记的病毒感染对象是“可执行文件”,因此输出文摘为:“该病毒的感染对象是可执行文件 ”。4.2文本的自动校对技术自动校对是计算机根据语言本身包含的信息对自然语言电子文本自动的进行分析,发现、标注并改正错误的过程。由于英文等拼音文字的文本中词与词之间有明显的分隔符,所以他们的自动校对基本上以词的校对为核心在三个层次上进行,即非词错误的检查、鼓励词纠错、基于上下文相关的错误。4.2.1 英文文本中的错误发现与纠正方法英文文本中单词错误的检测发现方法目前主要有两种,即N元文法分析技术和查词典技术。一般情况下,N元文法分析错误检测技术对输入串中的每一个n元串(n一般取2或3)

22、在事先编辑好的个N元文法分析表中进行查找,看它是否在表中存在或它的出现频次,那些不存在或出现频次非常低的n元串被认为是可能的拼写错误,如“hj”或“het”就是错误的三元串。查词典法主要是检查所输入的n元串是否在词典或可接受的词表中,如果不在词典中,则将该输入串标志为一个拼写错误的词。由于查词典法的校对系统查错精度高,因此,是目前较为流行的错误检测技术。单词错误的纠错方法已经有很多研究,主要有误拼词典法、词形距离法、最小编辑距离法、相似键法、骨架键法、基于规则的技术、词典及神经网络技术。4.2.2上下文相关错误的纠错方法上下文相关的拼写校对不仅要修正那些“经典”的拼写错误类型,比如同音词错误(

23、如peace与piece)和字母排序错误(如form与from),而且还要修正那些常见的语法错误(如among与between)和词边界混淆的错误(如maybe与maybe)。现有的基于上下文的文本错误校对方法有三类:利用文本的特征,如字形特征、词性特征或上下文特征利用概率统计特性进行上下文接续关系的分析利用常规或语言学知识。如语法规则、词搭配规则等4.3 人机交互技术人机交互技术是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。它包括机器通过输出或显示设备给人提供大量有关信息及提示请示等,人通过输入设备给机器输入有关信息,回答问题及提示请示等。一般而言人机交互的研究方法有语

24、言理解技术、基于规则的方法、基于统计的方法和对话管理策略。下图为人机交互系统的结构图。图5.1 人机交互系统的结构图(1) 语言理解技术自然语言处理技术有着承上启下的作用,主要对语音处理 候选的识别结果进行分析,产生相应的内部概念结构用于表示用户话语的含义运用计算机进行语言分析。自然语言处理有理性主义研究方法和经验主义研究方法。理性主义研究方法是将自然语言理解为符号结构该结构的意义可以从结构中符号的意义推到出来。经验主义的方法注重用数学方法从大规模真实文本中发现代表自然语言规律的知识,基于统计和基于实例的方法是这一方法的代表。(2) 基于规则的方法基于规则的人机交互处理自然语言要设计一个语言理

25、解模块需要由应用领域专家或系统设计人员提供初始文法,和初始预料集,应用初始文法对该预料集进行分析,得到每个非终结符的概率有限状态网络描述。并为特定领域提供语义分析部件。(3) 基于统计的方法语义分析器采用基于统计的方法进行语义分析,其基本观点是将语义理解形式划分为一个交流沟通问题,就是从句意出发定义一个语音或文本串产生随机模型,而理解的算法就是一个Viterbi解码的过程,有一个解码器实现提取句中的概念内容。(4) 对话管理策略对话管理是人机交互系统的核心,它使用对话模型来描述对话状态,决定对话状态的转移和上下文语境下的应答。对话管理面临的主要问题是如何利用恰当的确认策略和混合主导的方式提高对

26、话效率和用户满意度。对话管理策略可以分为优先状态法、基于规则的方法和互动的方法。第五章 自然语言处理的应用、意义及发展趋势5.1自然语言处理的应用随着计算机的普及和广泛的应用,自然语言处理已经有了广泛的应用。(1) 机器翻译(Machine Translation, MT)实现一种语言到另一种语言的自动翻译。应用:文献翻译、网页翻译和辅助浏览等举例:Systran系统() 、口语翻译STL(2) 自动文摘(Automatic Summarization/Abstracting) 自动文摘将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的摘要或缩写。应用:电子图书管理、情报获取等(3)

27、 信息检索(Information Retrieval)信息检索也称情报检索,即利用计算机系统从大量文档中找到符合用户需要的相关信息。面向多语言的信息检索叫做跨语言信息检索(Cross-language/Trans-lingual information retrieval)。举例:Google: 、百度: (4) 文档分类(Document Categorization)文档分类也叫文本自动分类(Text Categorization/Classification),即利用计算机系统对大量的文档按照一定的分类标准(如根据主题或内容划分等)实现自动归类。应用:图书管理、内容管理和信息监控等。(

28、5) 问答系统(Question-answering System)该系统通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统(Man-computer Dialogue System)。应用:人机对话系统、信息检索等5.2 自然语言处理的意义自然语言处理,是实现人机间自然语言通信,但实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)。为了消解歧义,是需要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来;又如何找到合适的形式,将它们存入计算机中去;以及如何有效地利用它们来消除歧义,都是工作量极大且十分困难的工作。这不是少数人短时期内可以完成的,还有待长期的、系统的工作。然而,随着信息社会的到来,自然与语言在机器翻译、信息检索、人机交互等信息处理领域有着广泛的应用,这也正是这门科学使用价值的所在。5.3 自然语言处理的发展新趋势自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。在美、英、日、法等发达国家,自然语言处理如今不仅作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论