自然语言处理概论PPT精选文档_第1页
自然语言处理概论PPT精选文档_第2页
自然语言处理概论PPT精选文档_第3页
自然语言处理概论PPT精选文档_第4页
自然语言处理概论PPT精选文档_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室关毅第一章 自然语言处理概论研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿

2、里巴巴联合实验室1、开场白2、自然语言处理概论3、学习方法主要内容研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室欢迎大家加入可能是世界上人数最多的自然语言处理团队!1、开场白研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学

3、计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室哈尔滨工业大学计算机学院的自然语言处理团队n起源80年代初n王开铸教授,俄汉机器翻译n李生教授,汉英机器翻译研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室哈尔滨工业大学计算机学院的自然语言处理团队(续)n主要研究室语言技术研究中心社会计

4、算与信息检索研究中心智能接口与人机交互研究中心研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室个人简介n关毅1992年开始进入自然语言处理领域主要工程项目n微软拼音输入法nBOPOMOFO汉字输入系统nWeniwen搜索引擎主要科学贡献n关于相似的研究-提出系统相似度测度理论现为哈工大计算机学院语言技术研究中心教授,博士生导师研究生专业必修课研究生专业

5、必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室课程概貌n研究生专业必修课:自然语言处理n学时:32学时+16学时n授课方式:课堂讲授+课后上机练习n考察方式:闭卷考试n实验课研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心

6、哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室几个时间段n二十多年崛起于80年代初的统计自然语言处理技术,已经成为自然语言处理的主流技术本课程重点介绍统计语言处理技术,特别是基于统计的汉语词法分析技术研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室几个时间段(续)n六十多年自然语言处理技术起源于人们对机器翻译

7、技术的研究,从1946年算起至今,已有60多年的历史了“目前一些试用过的用户表示,改进后的翻译服务在质量方面令人惊讶。对于那些从未使用机器翻译的用户来说,他们完全可以通过翻译后的文本理解原文的意思,一些细微的错误并不会引起太大的麻烦。” -Franz Josef Och 研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室几个时间段(续)n还需要多少年才能

8、实现计算机与人类无障碍地沟通?1968年的美国影片2001太空奥德赛n机器人HAL和Dave进行了如下对话:Dave Bownman: Open the pod bay doors, HAL. (Dave Bownman:HAL, 请你打开太空舱的分离门。)HAL: Im sorry Dave, I am afraid I cant do that. (HAL:对不起,Dave,我恐怕不能这样做。)研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研

9、究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室几个时间段(续)自然语言处理是一个“AI complete”问题自然语言与(分子)生物学有着深刻的渊源生物学中有着至少500年也解决不完的有趣问题Donald E. Knuth研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理中的歧义问题n在自然语

10、言处理的各个阶段广泛大量地存在着形形色色的歧义问题,这是自然语言与人工语言的根本差别之一,也是自然语言处理的难点所在研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理中的歧义问题(续)n词法分析歧义分词n严守一把手机关了严守/ 一把手/ 机关/ 了严守一/ 把/ 手机/ 关/ 了词性标注n我/pro 计划/v 考/v 研/nn我/pro 完成

11、/v 了/aux 计划/n命名实体识别n秦兵坑杀赵军40万于长平研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理中的歧义问题(续)n语法分析歧义咬死了猎人的狗n那只狼咬死了猎人的狗n咬死了猎人的狗失踪了研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rig

12、hts Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理中的歧义问题(续)n语义分析歧义At last, a computer that understands you like your mother. 1985 McDonnell-Douglas ad含义1:计算机会象你的母亲那样很好地理解你(的语言)含义2:计算机理解你喜欢你的母亲含义3:计算机会象很好地理解你的母亲那样理解你研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights

13、2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理中的歧义问题(续)n语用分析歧义“你真坏”至少有如下三种理解:n当人们对干了坏事的成年人说时,是一种严厉的斥责n当妈妈对淘气的儿子说时,实际表达的是对儿子的一种疼爱n当恋爱中的女孩对男友说这句话时,则是女孩在男友面前撒娇的一种表现n研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈

14、尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理中的歧义问题(续)n自然语言处理应用中的歧义问题音字转换例nji qi fan yi ji qi ying yong ji qi le ren men ji qi nong hou de xing qu研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-

15、阿里巴巴联合实验室阿里巴巴联合实验室几点感性认识n有点繁琐枯燥“从繁体词库到简体词库”要求同学们一丝不苟的认真精神n充满乐趣“机器翻译及其应用激起了人们极其浓厚的兴趣”要求同学们有愚公移山,坚持到底的精神研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室几点感性认识(续)n团队合作“128个字节的偏移量”要求同学们善于协作,有团队精神n独创精神“一只美丽

16、的小花猫”要求同学们勇于创新研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室本人印象深刻的至理名言n取法其上,仅得其中;取法其中,仅得其下;取法其众,得其上。-中国古代思想家nEvery important idea is simple-列夫.托尔斯泰研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights

17、 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室本人印象深刻的至理名言nThe grand aim of all science is to cover the greatest number of empirical facts by logical deduction from the smallest number of hypotheses or axioms-爱因斯坦研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季

18、年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室两件宝贝nMindjet MindManagernEndnote/Mendeley/NoteExpress研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室

19、阿里巴巴联合实验室教材nChristopher Manning and Hinrich Schutze: Foundations of Statistical Language Processing, MIT press, 1999(有中译本,译者 苑春法 等)n自然语言处理综论 Daniel Jurafsky &James H. Martin著 冯志伟 孙乐 译n王晓龙、关毅 计算机自然语言处理 清华大学出版社 2005年研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工

20、业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室2、自然语言处理概论研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室什么是自然语言处理n定义1:自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic

21、 competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。-Bill Manaris, 1999 研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室解题n本学科的主题与背景:“自然语

22、言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。”人人交际中的语言问题n例如语言不通的问题,促进了机器翻译这一语言处理中最重要的应用之一的发展人机交际中的语言问题n例如语言文字的输入输出问题,促进了智能化人机接口技术的研究研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室为什么要研究自然语言处理n从科学研究的角度:探寻人类通

23、过语言来交互信息的奥秘,更好地理解语言本身的内在规律n从实际应用的角度:构建更加有效的人机交互方式研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室解题(续)n两类不同的语言处理模型(Chomsky)能力模型n通常是基于语言学规则的模型,建立在人脑中先天存在语法通则这一假设的基础上,认为语言是人脑的语言能力推导出来的,建立语言模型就是通过建立人工编辑的语

24、言规则集来模拟这种先天的语言能力。n又称“理性主义的”语言模型n建模步骤语言学知识形式化形式化规则算法化算法实现研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室解题(续)应用模型n根据不同的语言处理应用而建立的特定语言模型,通常是基于统计的模型。n又称“经验主义的”语言模型n建模步骤大规模真实语料库中获得语言各级语言单位上的统计信息依据较低级语言单位上

25、的统计信息运用相关的统计推理技术计算较高级语言单位上的统计信息研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室解题(续)n建立计算框架来实现这样的语言模型借助计算机,研究自动化的方法n提出相应的方法来不断地完善这样的语言模型人工编辑的方法统计机器学习方法的大量运用研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copy

26、rights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室解题(续)n根据这样的语言模型设计各种实用系统规则与统计相结合n评测技术自然语言处理的重要研究专题之一国际公认的自然语言研究竞技场nSighannConllnTREC研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语

27、言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室什么是自然语言处理n定义2:是人工智能和语言学的交叉学科,研究自然语言的自动生成(natural language generation)与理解(natural language understanding)。自然语言自动生成研究将存放于计算机数据库的信息转换为自然语音。自然语言理解研究将人类语言转换为计算机能够理解操作的形式化表示方式-”Natural language processing”From Wikipedia, the free encyclopedia研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2

28、010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室图灵实验让机器模仿人来回答某些问题,通过实验和观察来判断机器是否具备智能。为人工智能确定了奋斗的目标,并指明了前进的方向人工智能自诞生之日起就和自然语言理解结下了不解之缘 研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研

29、究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理是一门交叉性学科n它是人工智能的重要分支n它是应用语言学的分支n交叉性学科语言学计算机科学数学心理学信息论声学研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室相关术语n中文信息处理n中文语言处理n计算语言学n自然语言理解n智能化人机接口n研究生专

30、业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理的知识内容n基础n应用n资源n评测研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联

31、合实验室阿里巴巴联合实验室自然语言处理的知识内容:基础研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理的知识内容:基础n音位学描述音位的结合规律,说明音位怎样形成语素举例:“delete file x”-dilet#fail#eksn形态学描述语素的结合规律,说明语素怎样形成单词举例: dilet#fail#eks-”delete” “fi

32、le” “x”研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理的知识内容:基础n词汇学描述词汇系统的规律,说明单词本身固有的语义特性和语法特性举例:”delete” “file” “x”-(“delete” VERB)(“file” NOUN)(“x” ID)研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季

33、Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理的知识内容:基础n句法学描述单词或词组之间的结构规则,说明单词或词组怎样构成句子举例:(“delete” VERB)(“file” NOUN)(“x” ID)-研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大

34、学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理的知识内容:基础n语义学描述句子中各个成分之间的语义关系,怎样从构成句子的各个成分推导出整个句子的语义举例:- delete-file(x)研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理的知识内容:基础n话语分析描述句子和句子之间的结构规律,说明怎样

35、由句子形成话语或对话n语用分析描述与情景有关的情景语义,说明怎样推导出句子具有的与周围话语有关的各种涵义举例:delete-file(x)-rm -i x研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理的知识内容:应用n我们可以按照如下准则将自然语言处理的各种应用系统地组织起来一个应用是重新生成或者恢复重新生成或者恢复还是需要转转换或者翻译

36、换或者翻译某种语言现象一个应用是要识别或者分析要识别或者分析语言输入还是需要产生或者合成产生或者合成语言输出研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理的知识内容:应用重新生成转换识别产生文本检索文本分类与聚类问答信息抽取文摘机器翻译实体识别语音识别主题抽取语音合成研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年

37、秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理的知识内容:资源n语料库n(计算机用)词法、句法、语义词典,文法规则集等等n常用中文资源简介n北京大学人民日报语料库n现代汉语语法信息词典n黄曾阳HNCn董振东Hownetn研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言

38、技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自然语言处理的知识内容:评测n自然语言处理的重要组成部分,对自然语言处理的各种应用进行系统地评价n引导自然语言处理应用发展的重要手段n由如下三个方面组成评测方法评测对象(速度?精度?适用范围?)评测量度研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自

39、然语言处理的知识内容:评测n常用评测量度量度英文典型应用定义单词错误率Word error rate(WER)语音识别系统输出与正确输出的最小编辑距离精确度Precision (P)文本检索系统输出中的正确输出占实际输出总数的比率召回率Recall (R)文本检索系统输出中的正确输出占全部正确输出的比率研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室自

40、然语言处理的知识内容:评测(续)量度英文典型应用定义F量度F-measure文本检索精确度与召回率的调和平均数平均准确率Mean average precision(MAP)文本检索对不同召回率点上的精确度取平均值平均排序倒数Mean reciprocalRank(MRR)文本检索RR是第一个正确答案出现位置的倒数,MRR是多个主题的RR的平均值 研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大

41、哈工大-阿里巴巴联合实验室阿里巴巴联合实验室中文语言处理的发展概况n从汉字信息处理到汉语信息处理汉字信息处理已经基本解决汉语信息处理遭遇瓶颈n从单机信息处理到网络信息处理单机信息处理系统网络信息处理系统研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室从汉字信息处理到汉语信息处理n字处理汉字机内码n国标码GB2312-80nGB18030国家信息产业部和

42、质量技术监督局发布 信息技术和信息交换用汉字编码字符集、基本集的扩充nUnicode汉字输入码汉字字型库汉字排版系统n北大方正的激光照排系统研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室从汉字信息处理到汉语信息处理n词处理词是自然语言中最小的有意义的构成单位分词规范n信息处理用现代汉语分词规范(中华人民共和国国家标准GB13715)研究内容n分词n词

43、性标注n名实体识别n词义消歧等等研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室从汉字信息处理到汉语信息处理n语句处理句法分析语句的语义分析应用n音字转换n文本校对n语音合成n机器翻译n研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔

44、滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室从汉字信息处理到汉语信息处理n篇章处理自动文摘n单文档自动文摘n多文档自动文摘研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室从单机信息处理到网络信息处理n当前的热点问题信息抽取问答系统对话系统等等研究生专业必修课研究生专业必修

45、课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室本课重点n基于统计与规则相结合的汉语词法分析技术规则与统计相结合词法分析技术相对比较成熟(句法、语义分析等方面还不够成熟)既注重语言无关性,又突出汉语的特点理论与实践相结合n一个小型音字转换系统研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Righ

46、ts Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室中文的几大特点n汉语是大字符集的意音文字n汉语词与词之间没有空格n汉语的同音词较多n汉语没有形态变化研究生专业必修课研究生专业必修课自然语言处理自然语言处理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心哈工大哈工大-阿里巴巴联合实验室阿里巴巴联合实验室中文语言处理发展的主要困难n中文语言处理发展的主要困难n汉语的语法研究尚未规范化n汉语的语言学知识的量化与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论