自然语言理解技术_第1页
自然语言理解技术_第2页
自然语言理解技术_第3页
自然语言理解技术_第4页
自然语言理解技术_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、自然语言理解技术,未来人工智能的核动力摘要:自然语言理解是人工智能研究重要的领域之一,同时也是目前前沿的难题之一。它研究能实现人与 计算机之间用自然语言进行有效通信的各种理论和方法,是未来人工智能的核动力。因此理解自然语言理 解以及自然语言理解技术的含义,阐述自然语言理解的研究及其相关应用,综述自然语言理解技术研究方 向变化并对自然语言理解的发展前景进行分析和展望,是十分有意义的。关键词:自然语言理解技术;智能信息服务;引言:随着计算机科学的不断发展和成熟,计算机应用开始迈人知识处理、语言理解阶段,人 们对计算机的智能提出了新的要求随着社会的日益信息化,人们越来越强烈地希望能更好地 同计算机交

2、流。自然语言就是这样一个媒介。1自然语言理解的含义:广义的“语言”是任何一种有结构的符号系统。其中,最重要的两类语言,自然语言和 形式语言。而狭义的“语言”是人类在社会牛活中发展出来的用来互相交际的声音符号系统, 是“自然语言”。“自然语言理解”即Natural Language Understanding俗称人机对话,指的就是使计 算机来按照这种语言所表达的意义做出相应反应的机制。它主要研究用电子计算机模拟人的 语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间 的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资 料以及一切有关自然

3、语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地 位。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特 别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能 够给出象人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。2. 1自然语言理解技术的含义:首先,自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如,但却 无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接受的方式彻 底说清楚。传统的语言学是在没有计算机参照的条件下发展起来的,虽然为自然语言理解积 累了宝贵的财富,但那

4、是讲给人的,真正要让语言学知识变成计算机上可操作的,绝不是 那么简单,也不能那么模糊。这个目标的实现,需要大量又懂语言学又懂计算机的人在正确 的技术路线的指导下一起做非常大规模的基本建设,绝不是一拍脑袋想出个“绝招”就能 解决的。其次,自然语言的各个层次上都含有巨大的不确定性。在语音和文字层次上,有一字多 音、一音多字的问题;在词法和句法层次上,有词类词性、词边界、句法结构的不确定性问 题;在语义和语用层次上,也有大量的因种种原因造成的内涵、外延、指代、言外之义的不 确定性。语言学上把这些不确定性叫做“歧义”。歧义一般不能通过发生歧义的语言单位自 身获得解决,而必须借助于更大的语言单位乃至非语

5、言的环境背景因素和常识来解决。人类 有很强的依靠整体消除局部不确定性的能力和常识推理能力,体现在语言上就是利用语境 信息和常识消除歧义的能力。使计算机获得同样强大的能力,是从事自然语言理解的学者梦 寐以求的目标。另外,自然语言不是一成不变的死的语言,它在社会生活中发展,在操不同语言和同 一语言的不同变体的人们之间的相互影响中变化。一个词、一个说法可能在一夜之间突然流 行起来;特殊的人群结构变化会导致新的语言或新的语言变体(如方言)的出现。这些都要 求理解自然语言的计算机程序要具有对外界语言环境的应变能力。最后一点,自然语言是人们交流思想的工具。既然交流的是思想,那思想本身在计算机 里的组织结构

6、就显得格外重要。在人工智能里,这就是“知识表示”的问题。可以说,在知 识表示问题上的突破,对于自然语言理解的进展将产生决定性的影响。在上述四个方面,都有许多学者在勇敢地迎接挑战,使计算机程序一步步地朝着不限 领域的自然语言理解的远大目标前进。3.1自然语言处理的层次语音分析根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个 个音节及其对应的词素或词。词法分析分析目的是找出词汇的各个词素,从中获得语言学的信息。句法分析对句子和短语的结构进行分析,目的是找出词、短语等的相互关系以及各自在句中的 作用。语义分析分析目的是找出词义、结构意义及其结合意义,从而确定语言所表达的真正

7、含义或概 念。语用分析研究语言所存在的外界环境对语言使用者所产生的影响。3.2自然语言理解的主要思想:认知学观点将人类视为一种高级信息处理系统,强调对于人类智能活动的研究以及在计算机上的模 拟和实现。语用学观点将语言视为人与人之间的通信媒介,任何对于话语的理解或生成都不能脱离该话语存 在的前后语境和该话语使用者的心理背景。语言学观点对自然语言进行研究的最初也是最基本的方法,强调对于句子结构和语法的研究,重点 在于描述语言,寻找或构造一组能包含尽可能多的语言现象的普遍适用的语法规则。4.1自然语言理解技术研究方向变化:大约90年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征

8、是:(1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如 以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正 的实用价值。(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自 然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动 地提取索引词,过滤,检索,自动提取重要信息,进行自动摘要等等。同时,由于强调了 “大规模”,强调了 “真实文本”,下面两方面的基础性工作也得到 了重视和加强。(1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是 研究自然语言统计性质的基础。

9、没有它们,统计方法只能是无源之水。(2)大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十万词,含 有丰富的信息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显 的。虽然上述新趋势给自然语言处理领域带来了成果,但从理论方法的角度看,由于采集、 整理、表示和有效应用大量知识的困难,这些系统更依赖于统计学的方法和其他“简单”的 方法或技巧。而这些统计学的方法和其他“简单”的方法似乎也快达到它们的极限了,因此, 目前在自然语言处理界广泛争论的一个问题便是:要取得新的更大的进展,主要有待于理论 上的突破呢,还是可由目前已有的方法的完善和优化实现?答案还不清楚。大致上,更

10、多的 语言学家倾向于前一种意见,而更多的工程师则倾向于后一种意见。回答或许在“中间”, 即应将基于知识和推理的深层方法与基于统计等“浅层”方法结合起来。4.2发展历程:现在的计算机的智能还远远没有达到能够象人一样理解自然语言的水平,而且在可预见 的将来也达不到这样的水平。因此,关于计算机对自然语言的理解一般是从实用的角度进行 评判的。如果计算机实现了人机会话,或机器翻译,或自动文摘等语言信息处理功能,则认 为计算机具备了自然语言理解的能力。目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上 下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、

11、代 词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律 可循,需要加强语用学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还 运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因 此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和 运转速度大大提高之后,才有可能适当扩大范围.4.2.1我国的发展状况:我国自然语言理解的研究起步较晚,比国外晚了 17年。国外在1963年就建成了早期的 自然语言理解系统,而我国直到1980年才建成了两个汉语自然语言理解模型,都以人机对 话的方式来实现。八十年代中期,

12、在国际新一代计算机激烈竞争的影响下,自然语言理解的研究在国内得 到了更多的重视,自然语言理解和人机接口列入了新一代计算机的研制规划,研究单位增 多了,研究队伍也壮大了。自然语言处理研究在电子计算机问世之初就开始了,并于50年代初开展了机器翻译试 验。当时的研究方法还不能称作带有智能气到了 60年代乔姆斯基的转换生成语法得到广 泛的认可,生成语法的核心是短语结构规则,分析句子结构的过程就是利用规则自顶向下或 自底向上的句法树生成过程。60年代至70年代初期,研究工作一直停留在单词的语音识别上,进展不大。直到70 年代中期才有所突破,建立了一些实验系统,能够理解连续语音的内容,但是还限于少数简单

13、的语句大约90年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是:(1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如 以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正 的实用价值。(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自 然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动 地提取索引词,过滤,检索,自动提取重要信息,进行自动摘要等等。同时,由于强调了 “大规模”,强调了 “真实文本”,下面两方面的基础性工作也得到 了重视和加强。(1)大规模真实语料库的

14、研制。大规模的经过不同深度加工的真实文本的语料库,是 研究自然语言统计性质的基础。没有它们,统计方法只能是无源之水。(2)大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十万词,含 有丰富的信息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显 的。5结论:自然语言处理意义在于:一方面,如果计算机能够理解、处理自然语言,将是计算机技 术的一项重大突破;另一方面,自然语言处理有助于揭开人类高度智能的奥秘,深化对语言 能力和思维本质的认识。和人类进步过程中其他任何一种技术的发展历程一样,自然语言理解技术在任何一个不 同的成熟阶段都有一个不同的应用形式和不同的市场定位。在这种技术到市场再到技术的螺 旋式上升的过程中,技术越来越成熟,市场也越来越成熟,从而让技术更好地为人类服务。 自然语言理解技术给人工智能服务提供了威力巨大的核动力,智能信息服务给人类更自然、 自主的信息交流手段,将创造出全新的产业空间。人们渴望发展自然语言理解技术以加速信 息、知识与文化的交流,促进社会、经济、科学的进步,这是自然语言理解技术新的强大的 推动力量,也是每一个国家都面临的新的挑战。参考文献:1黄培红.基于自然语言理解的认知系统算法初探

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论