第一讲统计自然语言处理概论2_第1页
第一讲统计自然语言处理概论2_第2页
第一讲统计自然语言处理概论2_第3页
第一讲统计自然语言处理概论2_第4页
第一讲统计自然语言处理概论2_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计自然语言处理

与信息检索孙越恒天津大学网络智能信息计算研究所E-mail:yhs@目录概述--NLP的概念、历史与现状NLP的研究内容NLP研究的困难NLP方法论之争统计方法示例本课的主要内容抛砖引玉1.什么是自然语言以语音为物质外壳,由词汇和语法两部分组成的符号系统。《新华词典》语言是人类交际的工具,是人类思维的载体是约定俗成的,有别于人工语言(程序设计语言)一、NLP的概念什么是自然语言处理–NLP,NaturalLanguageProcessing–用机器处理人类语言的理论和技术–研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。NLP要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断完善这样的模型,并根据语言模型设计各种实用系统,以及对这些系统的评测技术。

--BillManaris,《从人机交互的角度看自然语言处理》其它名称–自然语言理解(NaturalLanguageUnderstanding)–计算语言学(CL,ComputationalLinguistics)–人类语言技术(HumanLanguageTechnology)从智能接口到知识处理•智能接口–功能: •把现实世界中的语言信息送入电子世界–主要成果 •拼音输入、手写输入、语音识别•知识处理–功能: •对于已进入电子世界中的语言信息进行加工处理获得知识–主要研究内容 •媒体的加工和管理、语言信息处理机器能够理解人的语言吗?很难,但是没有证据表明不行什么是“理解”

–结构主义:机器的理解机制与人相同

•问题在于谁也说不清自己理解语言的步骤

–功能主义:机器的表现与人相同

•图灵测试:如果通过自然语言的问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能有用否?能用否?•NLP有用吗?–据统计,日常工作中80%的信息来源于语言–文本是人类知识最大的存储源,并且文本的数量 在不停地增长 •电子邮件、新闻、网页、科技论文•NLP能用吗?–并非每一样语言处理的应用都需要深层理解–中间产品陆续产生–成功应用的实例•word中英文自动校对•搜索引擎•Google在线翻译2.NLP的性质•NLP需要的知识非常复杂语言学、计算机科学、数学、逻辑学、认知科学等•理解语言的过程是动态的,不是静态的•NLP需要的知识大多是归纳的,不是演绎的•存在UpperBound(上限)•对歧义的限制和系统的覆盖率矛盾•领域词典不充分3.NLP的历史•20世纪50年代起步 –机器翻译•50-60年代采用模式匹配的方法

–60年代衰落•70-80年代采用面向受限域的深入理解的方法•90年代至今统计方法占主流–随着互联网的发展而复苏–互联网为NLP提供了市场需求和试验数据4.NLP现状•仍然缺乏理论基础•词汇句法方面的问题尚未解决,已开始挑战语义、知识等深层课题•语音识别中采用的统计语言模型推动了NLP的发展,目前的统计模型在向语言深层发展•Ontology受到普遍重视•开放域处理时起时落•一切才刚刚开始……二、NLP的研究内容自然语言处理的科学内容•语言学的任务

–刻画和解释语言现象•人类是如何获取和理解语言的•理解语言和世界的关系•理解语言在通讯时的结构和内在含义•人们在说些什么

–覆盖语言结构的各个方面•人们说的事情和世界怎样联系在一起2.NLP的不同层次3.基础研究(1)词法分析词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。词法分析是很多中文信息处理任务的必要步骤。自动分词(中文分词)词性标注短语识别

分词:中文词与词之间没有明显的分隔符,使得计算机对于词的准确识别变得非常困难。因此,分词就成了中文处理中所要解决的最基本的问题,分词的性能对后续的语言处理如机器翻译、信息检索等有着至关重要的影响。随着对中文处理关注程度的增加,国际计算语言联合会(ACL)下设的汉语特别兴趣(SIGHAN)研究组每年举办国际汉语分词评测大赛。(2)句法分析

句法分析是对句子结构进行分析,如句子的形式结构:主语、谓语、宾语等。句法分析是语言学理论和实际的自然语言应用的一个重要桥梁。一个实用的、完备的、准确的句法分析将是计算机真正理解自然语言的基础。句法分析的一个例子小王和小李的妹妹结婚了。规则:S->NPVPNP->NPCNPNP->NNP->NPdeNVP->Vle词典:小王:N小李:N和:C妹妹:N结婚:V了:le的:de两种分析结果:(3)语义分析语义分析的研究,如词义排歧和语义归纳、推理等,尚处于萌芽期并将逐步走向前台,成为下一阶段计算语言学研究的一个亮点。计算机本身没有智能,自然语言的语义分析和内容信息的理解,离不开相应的语义知识库的支持,它是帮助计算机“了解”人类语言的一个媒介和桥梁,也是让计算机逐渐“聪明”起来的一个物质前提。语义分析主要研究基于语义知识库的语义相似度的计算方法、语义知识库的自动构建等内容。语义:语言和世界的映射关系,符号之间的变换关系“语义”就是一个单词或者一个语言成分的含义的解释。而其解释通常不止一种。在自然语言中,一个词语的新语义往往是通过流行的新的用法而产生的。一个词语或单词在句子中有多种解释,取哪一个呢?语用:符号或者语言成分和它们的使用者之间的关系通俗解释:说话双方按照该单词或者语言成分所在的“语境”,来确定应该选择其中哪一种释义或含义。“语境”的范围可以变化很大:从一个句子,一段话,到整篇文章,乃至文章作者的身份和处境,所在的时代的文化背景。

(4)语用分析例1:有两组不同背景的人在一起开会。其中一组人正在讨论社会上流感问题,有人在说话中提到了“病毒”,他们是在医学的语境下指称“生物性病毒”。另一组人正在讨论计算机安全问题,有人在说话中提到了“病毒”,他们是在计算机安全这一话题的语境下指称“计算机病毒”。评论:这是同一词语在不同的“语境”中具有不同“语义”的典型例子。例2:设想例1中正在讨论“计算机病毒”和“生物病毒”的这两组人正在一起开会,目的是为领导机关拟定某某年度科研项目申报提纲中的最后一个项目的名称。由于主管机关所掌握的经费的限制,允许申报的只剩下最后一项,而且必须在中午12点以前将申请书上报,过期作废。可以想象,这两组人将互相争执不下,达不成共识。但是为了避免因为上报时机延误而使双方都落空,最后决定先写出一个“表述一致,但是各持自己理解”的申请书:《关于建立“病毒”检测与预防机制的研究》。至于是那种病毒,留待今后进一步申述。评论:这是一个假想的例子,但是他显示了许多外交文件的实质。自然语言的含糊性在此显示出它伟大的功能。句法、语义和语用是语言的三个主要层面,三者之间可能存在如下关系:•句法结构相同,语义不同 –“吃苹果”,“吃食堂”•句法:动宾结构•语义分别为:动作-对象关系,动作-地点关系•语义相同,句法结构不同

–“吃了苹果”,”苹果吃了”•语义:动作-对象•句法分别为:动宾关系和主谓关系•语义相同,语用有别•你真讨厌(男生对女生说)•你真讨厌(女生对男生说)统计语言模型是自然语言处理的主流技术之一。研究的主要内容包括各种语言模型的构建、改进以及应用N-gram模型隐马尔科夫(HMM)模型最大熵模型依存语言模型朴素贝叶斯模型条件随机场(5)统计语言模型4.NLP系统的主要任务•知识表示–产生式–谓词逻辑–语义网络–概念从属理论(CD理论)•知识控制策略 –知识的冲突•知识集成 –从多个知识源获取的不同层面,不同性质的知识如何融合在一起•知识获取–机器学习5.一个NLP的例子:英汉机器翻译•输入英文句子:----MissSmithputtedtwobooksonthisdiningtable.•形态分析(MorphologicalAnalysis)MissSmithput(+ed)twobook+sonthisdiningtable.句法分析(SyntacticAnalysis)•词汇转换Miss ⇒ 小姐Smith ⇒ 史密斯put(+ed) ⇒ 放Two ⇒ 两book+s ⇒ 书on ⇒ 在…上面this ⇒ 这diningtable.⇒ 餐桌•短语转换小姐史密斯放两书在上面这餐桌史密斯小姐放两书在这餐桌上面•生成–模拟人类写作的过程,生成符合逻辑的连 贯的文本–史密斯小姐放两书在这餐桌上面–史密斯小姐(把)两(本)书放在这 (张)餐桌上面•最终翻译结果–英文:MissSmithputtwobooksonthisdiningtable.–中文:史密斯小姐把两本书放在这张餐桌上面6.语言处理的步骤•文本预处理•句子切分•形态分析(MorphologicalAnalysis)•分词•词性标注(Part-of-SpeechTagging)•句法分析•词义消歧(WordSenseDisambiguation)•语义关系分析•指代消解(AnaphoraResolution)•逻辑形式(LogicForm)三、NLP研究的困难歧义(ambiguity)病构(ill-formedness)复述(paraphrasing)1.歧义(1)注音歧义–快乐(le4)的单身汉–火红的第五乐(yue4)章(2)分词歧义 –交集型歧义•研究/生命/的/起源•研究生/命/的/起源 –组合型歧义•他/从/马/上/下来•他/从/马上/下来 –和未登录词绞在一起•刘挺/拔/出/宝剑•刘/挺拔/出/宝剑 –多交集字段的歧义 •[结合][成分][子时] –有的歧义无法在句子内部解决 •乒乓球拍卖完了(3)短语歧义–[咬死猎人]的狗–咬死[猎人的狗](4)句法歧义

Ourcompanyistrainingworkers.(5)语义歧义--词义歧义–打[玩]乒乓球–打[编织]毛衣–打[通讯]电话–……(6)语用歧义 –“你真讨厌!”2.病构•真实文本的语言现象非常复杂,不规范,不干净–未登录词(UnknownWords)–已知词的新用法 •例子:Pleasexeroxacopytome. –不合乎语法的句子 •例子:他非常男人。(名词不能受程度副词修饰) –不合乎语义约束的搭配 •例子:Mycardrinksgasolinelikewater. –由于作者疏忽造成的错误 –真实的语言是非常脏的3.复述•举例–毛泽东出生于1893年–毛泽东出生在1893年–毛泽东诞生于1893年–毛泽东同志是1893年出生的–毛主席生于1893年–毛泽东生于光绪6年(虚拟的)四、NLP方法论之争

—理性主义和经验主义•理性主义者(Rationalist)–1960-1985:理性主义是主流–他们的信念•乔姆斯基•先天语言能力•对于语法的描述 –形成基于规则的传统语言处理技术•句法规则的确抓住了语言的主要模式•什么是语言中最普遍的模式呢,是否需要量化?理性主义的问题•基于规则的方法需要大量的人工操作,人类总结的规则不完备、不一致,规则多了相互冲突,难以对抗复杂的语言现象•语言的变化是渐变的

–比如:“打”电话,究竟从那一天开始“打”被赋予了通讯的意义呢经验主义者•信念–孩子的大脑只能做一些普通的操作:联想、模式识别、一般化。孩子从丰富的信号输入中学习到了语言的结构•设定一个语言模型,推导出参数值–形成今天的基于统计的语言处理技术–对每一种语言现象均给出统计量化指标•意义:“观其伴,知其意”经验主义•我们生活在一个充满不确定和不完整信息的世界里•人类的认知是一个随机现象•语言也是一个随机现象•对没有见过的语言现象进行估计•复杂的概率模型理性主义和经验主义的差别•它们描述了不同的事情•理性主义试图去描写人脑中的模型 –结构主义者•经验主义试图去描写实际出现的语言 –功能主义者•外部语言是内部语言的非直接的事实进一步探讨•从九十年代初期开始,统计方法开始成为自然语言处理的主流•规范的语言和非规范的语言之间没有明确的界限•统计还是非统计,界限也比较模糊•追求纯净,还是实用•自然语言处理尚不存在统一的数学基础 –概率模型、信息论和线性代数语言工程•近来,人们更有兴趣解决工程实际问题•人们处理真实世界中的语料,并客观地比较不同方法的优劣•面向真实文本的评测,使科学研究和技术开发进一步统一起来。

–90年初的汉语分词系统仍未考虑“未登录词”问题,那时已经宣称分词结果达到90%以上,其实只是解决了部分歧义问题。90年代中后期才开始面向真实文本的处理。五、统计方法示例从语料库中学习•语料库(Corpus,Corpora)–按照一定的原则组织在一起的真实的自然语言数据(包括书面语和口语)的集合,主要用于研究自然语言的规律,特别是统计语言学模型的训练以及相关系统的评价和测试。•可以是原始的文本(生语料库)•也可以是带标记的文本(熟语料库)•语料库是统计NLP的知识来源语料库标注或加工

对电子语料(包括书面语和口语)进行不同层次的语言学分析,并添加相应的“显性”的解释性的语言学信息过程。与不同层次的自然语言分析相对应,语料库的加工主要包括词性标注、句法标注、语义标注和语用标注等,由于汉语书写的特殊性,汉语的语料加工还包括分词。语料库示例语料库资源•BrownCorpus–带词性标记,一百万词–布朗大学–平衡语料库–美国英语–1960s-1970s•Lancaster-Oslo-Bergen(LOB) –BritishEnglishoftheBrowncorpus•Susannecorpus –Brown语料库的子集,13万词LexicalResources•PennTreebank(宾州树库)–美国宾西法尼亚大学开发–取材华尔街日报–以开发中文树库,但规模有限•CanadianHansards –加拿大议会双语文本•WordNet –语义词典,免费使用•HowNet –中文语义词典.•北京大学语法词典•北大-富士通《人民日报语料库》–半年的《人民日报》–带词性标注举例•一篇短篇小说–作者:MarkTwain–小说名:TomSawyer–词数(Wordtokens) •71,370–词形数(Wordtypes) •differentthingspresent •8,018–平均每个词形出现:8.9次最高频率的词汇•English–the 3332–and 2972–a 1775–to 1725–of 1440•Chinese –的 5%一些结果•词频:具有该词频的词的数目1 39932 12923 6644 4105 2436 1997 172 8 1319 8210 9111-50 54051-100 99>100 102•一些结果–最高频的100个词覆盖了全部词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论