




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能科学—
自然语言处理刘杰首都师范大学信息工程学院liujxxxy@126.com11.1基本概念21.1基本概念信息的主要载体-语言语言的两种形式-文字和声音文字和声音作为语言的两个不同形式的载体,所承载的信息占整个信息组成的70%以上(文字:70%,图象:20%;其它:10%)如何让计算机实现人们希望实现的语言处理功能?如何让计算机真正实现海量的语言信息的自动处理和有效利用?3研究语言的目的我们研究语言的目的:为语言构造出足够精细的计算模型,以便能够写出由计算机程序来完成的涉及自然语言的各种任务。计算模型两方面的用途:1、作为科学研究的目的-可以探索语言交流的本质;2、作为实用的目的-能够实现有效的人机通信。终极目标:能够给出一些模型,这些模型在完成阅读、写作、听、说等任务时能够接近人的行为。4本课程不关注:与所使用的特定媒介相关的问题,例如手写输入、键盘输入或语音输入的问题。关注:是在词语识别完成后理解和使用语言的过程。
51.1基本概念基本定义-自然语言处理自然语言处理(NaturalLanguageProcessing,简称NLP)就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。
-冯志伟《自然语言的计算机处理》本课程主要讨论中文语言处理的用途和基本概念。61.1基本概念其它名称-自然语言理解(NaturalLanguageUnderstanding)-计算语言学(ComputationalLinguistics)
计算语言学是现代语言学的一大分支,它是用计算机理解、生成和处理自然语言,即它的研究范围不仅涵盖语言信息的处理,还包括语言的理解和生成。71.2可以让自然语言处理技术为我们做什么?1、信息检索http://•微软:39,300,000条(5年前2,060,000条)微软,亚洲研究院:255,000条微软,亚洲研究院,研究方向:92,500条微软,亚洲研究院,自然语言处理:18,100条⇒08年7月一万亿个网页,每天数十亿增加⇒获得的信息只有1%被有效利用百度的“框计算”81.2可以让自然语言处理技术为我们做什么?2、借重于语言信息处理的web智能9101112131415161.2可以让自然语言处理技术为我们做什么?3、机器翻译(以下翻译结果来自Systran:http://)Ex-1:Thespiritiswilling,butthefleshisweak.(心有余,而力不足。)精神是愿意的,但骨肉是微弱的。(Systran)Ex-2:Outofsight,outofmind.(眼不见,心不烦。)出于视域,在头脑外面。(Systran)17
4、自动问答系统:在网络上输入“问句”,自动给出精确地答案。
问答系统演示1.2可以让自然语言处理技术为我们做什么?185、复杂的检索任务:如“给我找出所有有关在1986年到1990年之间曾经尝试而最终失败且金额超过1亿美元的融资收买的文章。”处理方法:1、对数据库的每篇文章建立一种表示形式,2、这种表示形式能用于后续的推理
1.2可以让自然语言处理技术为我们做什么?191.2可以让自然语言处理技术为我们做什么?6、语音识别输入:美欧贸易摩擦升级识别结果:美欧贸易摩擦生机输入:新技术的发展日新月异识别结果:新纪录的发展日新月异201.2可以让自然语言处理技术为我们做什么?7、不能想象的同音字识别-施氏食狮史(赵元任)石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮,十时,适十狮适市,是时,适施氏适市,施氏视是十狮,拭矢试,使是十狮逝世,适石室,石室湿,氏使侍拭石室,石室拭,始食是十狮尸,始识是十狮尸,实十石狮尸,试释是事。211.2可以让自然语言处理技术为我们做什么?信息过滤,信息安全文摘生成问答系统,人机交互语言教学文字输入,文字编辑与排版语音翻译网络内容管理与知识发现……-计算机不能为我们做什么?221.3关于“理解”的理解一个幽默片断:他说:“她这个人真有意思(funny)”。她说:“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有那个意思(thought)”!她也生气了:“你们这么说是什么意思(intention)”?事后有人说:“真有意思(funny)”。也有人说:“真没意思(nonsense)”。-《生活报》1994.11.13.第六版231.3关于“理解”的理解241.3关于“理解”的理解人脑对语言的理解是一个复杂的思维过程自然语言理解技术同多个学科有着千丝万缕的关系-语言学-语言心理学-逻辑学-计算机科学-人工智能-数学与统计学……25语言学科:研究语言本身的结构,如为什么特定语言的组合能形成句子而其他的词语组合则不能,为什么一个句子可能具有某种意义而不是另外一种意义,等。心理语言学科:研究人类生成和理解语言的过程。如人类是如何识别一个句子的合理结构的,何时确定词语的合理意义,等。哲学:词语和句子如何获得意义?词语如何标识现实世界中的实体?使用有关反例的直觉知识进行的自然语言论证,使用逻辑和模型论。计算语言学家:如何识别句子的结构?如何为知识和推理建模?语言怎样才能被用来完成特定的任务?
使用算法、数据结构及人工智能技术等工具。
26思考题请看下面视频,思考一下,该视频是否使用了自然语言处理技术?
视频链接271.4自然语言理解研究的基本问题281.4自然语言理解研究的基本问题□
研究的层次-语义学(Semantics):研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。这句话说了什么?(1)今天中午我吃食堂。(2)这个人真牛。(3)这个人眼下没些什么,那个人嘴不太好。291.4自然语言理解研究的基本问题□研究的层次-语用学(Pragmatics):研究在不同上下文中的语句的应用,以及上下文对语句理解所产生的影响。为什么要说这句话?(1)火,火!(2)A:看看鱼怎么样了?
B:我刚才翻了一下。
(3)将军用被子盖在战士身上。301.5不同语言的差异□分类孤立语(分析语):形态变化少,语法关系靠词序和虚词表示,如:汉语。曲折语:用词的形态变化表示语法关系,如:英语。黏着语:词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密。如:日语。□基本单位汉语:汉字(单音节,无空格)英语:单词(多音节,有空格)日语:字和词(多音节,无空格)311.6汉语的计算机理解一、汉语的特点:
1、
汉语是大字符集的语言:英语:26个字母,起源于5世纪,有一千五百年历史,《牛津英语词典》收词四十万多条。汉语六千多年历史,《中山大词典》,收词六十多万条。“一”字开头的成语有5472条。词汇的丰富是任何一种语言不能比的。2、
汉语可以分为五级语法单位:语素、词、短语、句子和句群。语素是语言中最小的音义结合体。汉字基本上是用一个字记录一个语素,即用一个特定的形体记录一个最小的音义结合体。不是能独立运用的语言单位。321.6汉语的计算机理解二、汉语理解中的特殊问题—自然语言处理中的难点:
1、
汉语分词的歧义问题:汉语边界歧义包括组合歧义和交叉歧义组合歧义:字段“烤红薯”中,“烤”、“红薯”和“烤红薯”三者都分别成词少年儿童一起拉小提琴。一起领导干部违纪事件。交叉歧义:真歧义,如:必须/加强/企业/中/国有/资产/的/管理
中国/有/能力/解决/香港/问题伪歧义:建设/有,中国/人民331.6汉语的计算机理解2、
未登录词问题汉语词典中未列入的词。包括:固有名词、数词、时间词、专业及文化新词。固有名词主要是人名、地名或单位公司名。
343、词性岐义问题:多词性和多词义是语言的一种普遍现象,汉语这种现象比西方语言严重得多,如“和”,根据《现代汉语词典》,可以有五种读音:he2;he4;hu2;huo2;huo4
六种词性:名词;形容词;连词;动词;介词;量词以及十六种不同的词义1.6汉语的计算机理解354、否定词和语义上的混乱:汉语上的否定词“不”有时并不表示否定。相反,反而会更肯定。如:“可不是”比“可是”更可是。1.6汉语的计算机理解365、句子的词序问题:汉语句子的词序和西方语言是不尽相同的如:这本书是他写的,
Thisbookishewrote如果按照英文的词序排列,我们称之English-Chinese。“这本书是写由他”,Thisbookwaswrittenbyhim
1.6汉语的计算机理解376、汉语的岐义结构:这类岐义结构是句子自生固有的,必须在整个语境环境下才可能消歧,自动消歧是很难的。如:彩色铅笔盒子[彩色][铅笔盒子][彩色铅笔][盒子]
1.6汉语的计算机理解38漂亮的姑娘和小伙子[漂亮的][姑娘和小伙子
][漂亮的姑娘][和小伙子]
他讲不清楚1)
他讲他不清楚2)
他讲得不清楚发了一天的工资1)
发了只有一天钱的工资2)
发工资这事做了一天
他在看病1)
他在给别人看病2)
大夫给他看病1.6汉语的计算机理解39等等1.6汉语的计算机理解401.7自然语言处理技术按技术路线分为:1、基于统计的语言处理技术从大规模真实语料库中获得各级语言单位上的统计信息,并依据较低级语言单位上的统计信息,用相关的统计推理技术计算较高级语言单位上的统计信息。以一词多词性识别为例说明。2、基于语言学规则的语言处理技术通过对语言学知识的形式化,形式化规则的算法化,以及算法实现等步骤将语言学知识转化为计算机可以处理的形式。见后面例子4142规则举例:新词抽取的常规规则:1、If(pos(A)=’N’AND(pos(B)=’V’ORpos(B)=’A’orpos(B)=’N’ORpos(B)=’Q’))ThenABisnew
该规则表示:如果由两个词构成的二元组中A为名词,而B为名词或动词或形容词或量词,则将该二元组做标记,认为是新词。2、If(pos(A)=’V’ANDpos(B)=’A’)ThenABisnew例如:减肥,模仿秀431.7自然语言处理技术按处理对象的不同,可分为:1、字处理技术2、词处理技术词是自然语言中最小的有意义的构成单位,是最基本的研究对象。词处理主要包括分词、词性标注、词义消歧。3、语句处理技术4、篇章处理技术441.8自然语言理解研究现状实用和半实用技术已经得到广泛运用-文字处理器-网络搜索引擎-辅助翻译、电子词典-语音合成
……在一定程度上满足了人们的某些需要,但离真正实用的目标还有相当的距离。451.8自然语言理解研究现状计算机对语言理解的能力到底有多大?计算机存储容量-100G=>10万本书计算机速度比大脑快1012倍计算机智能=〉几岁小孩?46参考文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 关于门店租赁合同集锦8篇
- 第一章第三节地球的运动-自转教学设计-2024-2025学年人教版地理七年级上册
- 第三单元 7 中华民族一家亲2023-2024学年五年级上册道德与法治同步教学设计(部编版)
- 乘法分配律(教学设计)-2023-2024学年数学四年级下册人教版
- 9 我和我的家(教学设计)2023-2024学年统编版道德与法治 一年级下册
- Unit5 Reading1 教学设计-2024-2025学年牛津译林版英语九年级上册
- Unit 2 Iconic Attractions Review of past participles 教学设计 -2023-2024学年高中英语人教版(2019)选择性必修第四册
- 郁金香种球采购施工方案
- 重庆铝合金装猪台施工方案
- 施工企业劳务合同范本与施工企业合同6篇
- 研学旅行概论教学课件汇总完整版电子教案
- 控股集团公司组织架构图.docx
- DB11_T1713-2020 城市综合管廊工程资料管理规程
- 最常用2000个英语单词_(全部标有注释)字母排序
- 气管套管滑脱急救知识分享
- 特种设备自检自查表
- 省政府审批单独选址项目用地市级审查报告文本格式
- 往复式压缩机安装方案
- 汉字的演变甲骨文PPT课件
- 在银行大零售业务工作会议上的讲话讲解学习
- 古代传说中的艺术形象-
评论
0/150
提交评论