版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
概述
(语言信息处理&&自然语言理解)2009-2010学年For对外汉语方向本科生甲:听说吴妈打赢了阿Q。乙:不错,阿Q确实被吴妈打败了。甲:这个结果有些出人意料。乙:阿Q是大意失荆州,怪不得别人。昆仑军分区歌舞团长途跋涉来我部慰问演出这像是方红画的人用来交际的“语言”具有什么样的性质?人用来交际的“语言”和机器可以理解的语言有什么样的关系?人是如何运用“语言”进行交际的?人运用“语言”进行交际的“过程”是否可以描述为一个“机械的过程”?什么叫做“理解”一种语言?如何从“内在的交际意图”到“外显的语言表达”?……对外经贸大学中文学院.对外汉语释名自然语言(NaturalLanguage)一种语言,其规则是根据当前流行的用法而不是用明确的形式规定的。 自然语言是没有经过加工的或人为干预的语言。人造语言(Ruledlanguage) 一种语言,其规则在使用前已经明确地规定了。 是一种由人为某些特定目的而创造的语言。
语言信息处理\自然语言理解\自然语言处理\人类语言技术\计算语言学
对外经贸大学中文学院.对外汉语释名计算语言学(ComputationalLinguistics) 计算语言学是利用电子数字计算机进行的语言分析。虽然许多其他类型的语言分析也可以运用计算机,计算分析最常用于处理基本的语言数据――例如建立语音、词、词元素的搭配以及统计它们的频率。(《大不列颠百科全书》)计算语言学指的是这样一门学科,它通过建立形式化的数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的全部或者部分语言能力的目的。
人类语言技术(HumanLanguageTechnology,HLT)
所有围绕人类语言(而非动物语言或形式语言)所开展的处理技术的研究。
对外经贸大学中文学院.对外汉语释名语言信息处理(LanguageInformationProcessing,LIP)
是指用计算机对自然语言的音、形、义等信息进行处理。即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工。语言信息处理是一门边缘学科,也是一门交叉学科。它综合了语言学、逻辑学、心理语言学、计算机科学、哲学、人工智能、数学和统计学的研究成果,将它们运用于计算机的语言分析和处理。
对外经贸大学中文学院.对外汉语参考文献《自然语言的计算机处理》冯志伟上海外语教育出版社《应用语言学》刘涌泉湖南教育出版社《汉语计算语言学》吴蔚天罗建林电子工业出版社《人工智能原理》石纯一清华大学出版社《现代汉语语法信息详解词典》俞士汶清华大学出版社《自然语言理解》姚天顺清华大学出版社《信息处理用现代汉语分词规范及自动分词方法》刘源等,清华大学出版社《计算语言学概论》翁富良等中国社会科学出版社《当代西方语法理论》俞如珍上海外语教育出版社《语言文字应用》,1992年至今各期对外经贸大学中文学院.对外汉语《中文信息处理》,傅永和,广东教育出版社《应用语言学综论》,冯志伟,广东教育出版社《语料库语言学》,黄昌宁,商务印书馆《计算语言学探索》,冯志伟,黑龙江教育出版社《计算语言学基础》,刘颖,清华大学出版社《计算语言概论》,俞士汶主编,商务印书馆《语言文字的信息处理》,盛炎《中文信息处理若干重要问题》,徐波等,科学出版社NaturalLanguageUnderstanding,JamesAllen,FoundationsofStatisticalNaturalLanguageProcessing,ChristopherD.Manning,HinrichSchutze对外经贸大学中文学院.对外汉语语言信息处理领域主要学术会议及活动ACL(AssociationforComputationalLinguistics)—美国计算语言学会COLING(InternationalConferenceonComputationalLinguistics)—国际计算语言学会议TREC(TextREtrievalConference)CNCCL(全国计算语言学联合学术会议)附件:HLTwebs.html对外经贸大学中文学院.对外汉语考试方式平时成绩(30%)=课堂作业+课下作业+出勤期中考试(20%):课程报告(研究报告或读书报告)期末考试(50%):以填空、名词解释、简答和论述为主对外经贸大学中文学院.对外汉语祝大家新学期学习进步、生活快乐!对外经贸大学中文学院.对外汉语本章内容语言信息处理的方向语言信息处理的对象语言信息处理的学科定位语言信息处理的目标语言信息的理解处理所需的知识自然语言处理的根本问题语言理解处理系统的评价自然语言处理的研究方法自然语言处理的发展历史自然语言处理系统的总体构成对外经贸大学中文学院.对外汉语语言信息处理的方向分析(理解)analyze,understand
生成(表达)generateorproduce,express 实现人机交互意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。后者称为自然语言生成。
“矮墙和低墙”对外经贸大学中文学院.对外汉语语言信息处理的对象文本(文字流)text书面理解
用文字输入,使计算机“看懂”文字符号,也用文字输出应答。
将文字输入计算机计算机识别和理解文字、词、短语、句子、段落和篇章按指定的目标作出相应的回答或反映话语(语音流)speech语音理解 用口语语音输入,使计算机“听懂”语音信号,用文字或语音合成输出应答。用口语对计算机讲话计算机识别语音输入,把语音流变换为文字流然后按书面语理解最后利用语音合成将回答转换成声音输出对外经贸大学中文学院.对外汉语语言信息处理的学科定位交叉学科:语言学、计算机科学、认知科学、数学、哲学和逻辑学 计算机对自然语言的处理一般应经过三个方面: 形式化 编写算法 程序实现对外经贸大学中文学院.对外汉语人工智能的分支AI,ArtificialIntelligence
NLU是人工智能的重要内容。自然语言的信息处理是跟计算机的诞生几乎同时开始的一个多学科交叉研究领域。来自计算机科学、语言学、数学等不同学科的研究人员构成了目前这一领域的主要研究力量。随着计算机应用的日益普及,其功能也从主要是数值计算发展到以非数值信息处理为主。
因此,语言信息处理处于文科、理科和工科的交叉点上,是建立在语言学、数学和计算机科学这三门学科基础上的边缘性学科。对外经贸大学中文学院.对外汉语语言信息处理的目标----理解的定义
最终目标:让电脑像人一样理解语言“目前学界对于‘理解’的理解、有关‘概念’的概念、赋予‘语义’的语义、界定‘知识’的知识都可能是各不相同甚或互不搭界的。”(张普) 符号学人工智能认为:“理解”即是表示,理解的过程关注的是表示的构造和使用 Fillmore(格语法)认为:理解一个概念决定于我们拥有的背景环境和这个概念本身的背景框架原型匹配的程度 Schank(概念依存理论)认为:“理解”是在概念空间中,但不仅仅是一个被动的操作过程,而部分的受我们预期的驱使。
对外经贸大学中文学院.对外汉语关于理解的不同定义关于自然语言理解,至今尚无一致的、各方可以接受的定义自然语言的复杂性多义性、上下文有关性、模糊性、非系统性和环境密切相关性、涉及的知识面广与应用目标相关微观与宏观角度不一从微观上讲,自然语言理解是指从自然语言到机器内部的一个映射从宏观上看,自然语言是指机器能够执行人类所期望的某些语言功能对外经贸大学中文学院.对外汉语语言信息处理的目标----理解的标准聊天机器人是否具有AI?接收信息分析特征字检索数据库反馈相应信息图灵测验让一个正常人和电脑分别回答实验者的问题,如果实验者无法分辨出来哪个是人的回答,哪个是机器的回答,那么这台电脑就具有AI。
对外经贸大学中文学院.对外汉语语言信息处理的目标----理解的标准对图灵测验的质疑—中国屋试验美国哲学家约翰塞尔语言理解能力的功能定义 美国认知心理学家G.M.Olson提出语言理解的四条标志: (1)能成功地回答输入语料中的有关问题:答问 (2)在接受一批语料之后,有就此给出摘要的能力:摘要 (3)能用不同的词语复述所输入的语料:复述 (4)有从一种语言转译成另一种语言的能力:翻译对外经贸大学中文学院.对外汉语语言信息处理的目标----理解的标准理解能力的判定 让计算机具有针对自然语言的分析理解与生成表达能力,是自然语言理解/处理的目标。判定一个自然语言处理系统是否具有理解能力,主要依据两点是否从意义上去处理自然语言处理结果是否正确无误。对外经贸大学中文学院.对外汉语语言信息的理解处理所需的知识要让计算机具有这种能力,就需要从语言学知识角度出发构造关于语言理解和生成的计算模型,并且这些模型还要在特定领域背景下表现良好。语言学知识:从语言构成角度:词汇、短语、句子、段落、篇章等从语言特征角度:对外经贸大学中文学院.对外汉语语言信息的理解处理所需的知识语音知识(Phoneticandphonologicalknowledge):研究词语与其发音如何关联。这种知识对于基于语音的系统是至关重要的。词法知识(Morphologicalknowledge):包括词语形态学知识,研究词语如何由被称为词素的更基本的意义单位构成。句法知识(Syntacticknowledge):研究词语是如何排列以组成正确的句子,并决定每个单词在句子中所充当的结构角色,以及短语之间的构成关系。语义知识(Semanticknowledge):词义,及其如何组合成句义,不依赖上下文和客观语境。即研究词语的意义以及在句子中词语意义是如何相互结合以形成句子意义的。这是上下文无关的意义研究,即一个句子在不考虑其上下文的情况下所具有的意义。语用知识(Pragmaticknowledge):研究句子如何在不同语境中的使用,以及这种使用如何影响句子的解释。篇章知识(Discourseknowledge):研究在前面句子的影响下,下面的句子该如何解释,即句间意义关联,主要包括代词指代的解释和信息中所包含的时态解释等。世界知识(Worldknowledge):常识及交流双方的背景知识,这种知识对于语言的理解和使用时必需的。对外经贸大学中文学院.对外汉语语言信息的理解处理所需的知识几十年来,自然语言处理研究的重点是分析。自然语言分析的关键就是识别与消解自然语言的歧义。在每个层面的语言表示和解释中都涉及歧义消解,因此,歧义消解是自然语言理解中的一个基本问题。基于句法的分析方法往往对语义不通的句子无能为力。语义不通的句子有两种类型:一是内部自相矛盾: 满脸胡子的张三没长胡子 一树红桃个个青,满天下雨半天星,三个和尚四面坐,不言不语唱真经二是不符合概念意义常识知识: 所有的石头都死了。(邢公畹) Colorlessgreenideassleepfuriously.(Chomsky)
(无色的绿色在猛烈地睡觉)对外经贸大学中文学院.对外汉语自然语言处理的根本问题
理解语言的关键之一是对意义的表示(Representation),NLU的过程实际上是信息表达方式的转换,之后再输出,效果力求同人一样。为什么不能直接用自然语言来表示?根本问题在于语言的歧义性(ambiguity):同一形式表达不同意义;同一意义用不同形式表达。The
Seniors
were
told
to
stop
demonstrating
on
campus.Wesawhimswimacrosstheriver.对外经贸大学中文学院.对外汉语自然语言处理的根本问题对意义的“精确”表达要用数学、逻辑及形式语言。一种合用的表达语言(representationlanguage)具备以下两个特征:(1)区别性:精确、无歧义(preciseandunambiguous)。对同一句子的不同意义有不同的表达形式。(2)同一性:能表达句子的直观结构。结构类似的句子应具有类似的结构表达,结构不同但意义相同的句子应能紧密关联。NLU的根本问题是,如何表达自然语言的意义?如何消解自然语言的歧义?对外经贸大学中文学院.对外汉语语言信息处理的应用
面向文本(Text-based): 自动索引(Index)智能查询(Querying)机器翻译(MachineTranslation)和机助翻译文本分类(TextClassification)文本校错(SpellingCheck)信息检索(InformationRetrieval)信息提取(InformationExtraction)自动文摘(automaticsummarizing)人机接口(Human-MachineInterface)故事理解对外经贸大学中文学院.对外汉语语言信息处理应用面向语音(Dialogue-based): 语音识别(SpeechRecognition)语音合成(SpeechSynthesis)问答系统(QuestioningandAnswering)人机对话(Human-machinecommunication)电话服务教学辅导系统语言控制机器对外经贸大学中文学院.对外汉语应用举例自然语言人机接口请给出来自湖北的学生名单。(祈使句)哪些学生来自湖北?(疑问句)请问来自湖北的学生有哪些?(祈使疑问句)来自湖北的学生名单。(省略句)找出所有这样的学生:他们来自湖北。(复合句)对外经贸大学中文学院.对外汉语应用举例--自动文摘自动摘录:计算词频和句子的权重,确定权重最高的若干句子作为文摘内容,并按顺序输出。(最简单)基于理解的自动文摘:利用语言学知识获取语言结构,利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。(理想情况)信息抽取:(1)定义文摘框架,它以空槽的形式提出应从原文中获取的各项内容。(2)利用特征词从文本中抽取相关的短语或句子填充文摘框架。 信息抽取与基于理解的自动文摘相比只对有用的文本片段进行有限深度的分析,其效率和灵活性显著提高。对外经贸大学中文学院.对外汉语应用举例--Web上的智能搜索引擎对外经贸大学中文学院.对外汉语语言理解处理系统的评价—ELIZA系统User
ELIZA--Menareallalike. --Inwhatway?--They'realwaysbuggingusabout --Canyouthinkofaspecificexample?somethingorother.--Well,myboyfriendmademecomehere. --Yourboyfriendmadeyoucomehere.--HesaysI'mdepressedmuchofthetime. --I'msorrytohearyouaredepressed.--It'strue,Iamunhappy. --Doyouthinkcomingherewillhelp younottobeunhappy?--Ineedsomehelp;thatmuchseemscertain.--Whatwoulditmeantoyouifyou gotsomehelp?--PerhapsIcouldlearntogetalongwith --Tellmemoreaboutyourfamily.mymother. --Mymothertakescareofme. --Whoelseinyourfamilytakescareofyou?--Myfather. --Yourfather.--Youarelikemyfatherinsomeways. --Whatresemblancedoyousee?
--Necessityisthemotherofinvention. --Tellmemoreaboutyourfamily.(需求是发明之母)对外经贸大学中文学院.对外汉语语言理解处理系统的评价
暗箱与明箱blackbox&&glassbox暗箱:运行该程序并观察它在完成设定任务时表现如何。明箱:确定一个系统的各个组成部分,然后用合适的测试方法来评价每一个部分
表现与潜力用户与专家对外经贸大学中文学院.对外汉语自然语言处理的研究方法
理性主义与经验主义是自然语言处理研究方法的哲学分野。理性主义的研究方法与经验主义的研究方法是自然语言理解领域两大主流。理性主义认为:人的很大一部分语言知识是生来具有,由遗传决定的。理性主义主要研究人的语言知识结构(语言能力,LanguageCompetence),认为实际的语言数据(语言行为,LanguagePerformance)只提供了这种内在知识的间接证据。因此它通过语言所必须遵守的一系列原则来描述语言,通过这些原则来判定一个语句是正确的还是错误的。理性主义通常是通过对一些特殊的语句或语言现象的研究来得到对人的语言能力的认识,而这些语句或现象在语言的实际应用中并一定是常见的。对外经贸大学中文学院.对外汉语自然语言处理的研究方法—经验主义经验主义认为:人的知识通过感官输入,经过一些简单的联想(association)与通用化的操作而得到的。人并不是与生俱来有一套有关语言的原则和处理方法。经验主义的研究对象是实际出现的语言数据。经验主义的方法通常是基于信息论的思想。表现在NLU中,许多研究将语言事件赋予概率,试图从大量的语言数据中获取语言的结构知识,由此来一个语句是常见的还是罕见的。经验主义偏重于对语料库中人们所实际使用的普通语句的统计表述。对外经贸大学中文学院.对外汉语自然语言处理的研究方法—经验主义经验主义研究方法示例:[噪声信道模型:信号传输中,输入端有一个信号序列I,通过一条信道传输到输出端,成为信号序列O,由于信道有噪声,通常O有一定程度的讹误或失真而不等于I,如何恢复?如词性标注中的应用][互信息:是信息论中的一个概念(Fano,1961),它用来度量一个消息中两个信号之间的相互依赖程度。在计算语言学上可以计算两个字或词之间的结合力。可以用来进行词义或词性消歧。如文本中“bank”的消歧:堤岸;银行][n元语法:当前符号的条件概率取决于从前面N-1个符号到它的转移概率。如马尔科夫模型,计算相邻的n个字词的同现概率。]对外经贸大学中文学院.对外汉语自然语言处理的发展历史—四度风云
50年代的机器翻译畅想70年代的专家系统浪花80年代的智能计算机计划90年代的语料库浪潮这是在NLU的发展过程不同阶段上的重点。对外经贸大学中文学院.对外汉语自然语言处理的发展历史—五个阶段第一阶段:1940s—1950s自动机的研究概率或信息论模型语音识别技术1957—1970两个阵营五十年代末六十年代初,自然语言理解处理分成符号的、随机的两种处理方法1970—1983四个范性
随机的方法在这一时期的语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 服务授权合同范本
- 新年第一份销售合同范本
- 长期战略规划计划
- 三位数除以两位数同步自测训练题
- 《SIP协议性能分析与测试的研究》
- 企事业单位国内贷款协议三篇
- 起重机械司机证(门座式起重机证)过关练习题带答案
- 个人视频账号运营合同范本
- 乡村打井合同范本
- 损坏赔偿合同范本
- 新课标下的高中历史教学 课件
- 霉菌性阴道炎护理
- 排球双手正面垫球单元计划
- 青岛版科学五年级上册第五单元第18课材料的导热性
- 《水果与健康常识》课件
- 规范中C20-C80混凝土本构关系
- 危险性较大的分部分项工程监理巡视表-有限空间
- 重症患者心理护理
- 高速公路工程危险源辨识与评价表
- 代码整洁之道(附录)
- 二年级数学上册第七单元认识时间-学习任务单-第一课时
评论
0/150
提交评论