深度学习在自然语言处理中的应用课件_第1页
深度学习在自然语言处理中的应用课件_第2页
深度学习在自然语言处理中的应用课件_第3页
深度学习在自然语言处理中的应用课件_第4页
深度学习在自然语言处理中的应用课件_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、深度学习在自然语言处理中的应用课件深度学习在自然语言处理中的应用课件 内容提纲简介自然语处理深度学习语义表示学习词表示句表示自然语处理的新范式应用 内容提纲简介自然语言处理自然语言处理 从人工智能开始Alan Turing自然语处理:理解和成 从人工智能开始Alan Turing自然语处理:理解和 什么是自然语言?语是指在个有限的字符集上,产的符合定规则 的字符串集合。自然语通常是指种自然地随化演化的语。自然语 VS 语形式语 (Chomsky,1950)区别自然语:歧义性语:确定性 什么是自然语言?语是指在个有限的字符集上,产的符合 歧义:以中文分词为例不同的语环境中的同形异构现象,按照具体

2、语环境 的语义进切法。交叉歧义他说的确实在理组合歧义两个/起/过去、个/问题从马/上/下来、马上/就/来句级歧义白天鹅在里游泳该研究所获得的成果伪歧义 歧义:以中文分词为例不同的语环境中的同形异构现象,按照 自然语言处理自然语处理包括语音识别、自然语理解、自然语成、机交互以及所涉及的中间阶段。是智能和计算机科学的学科。自然语言处理不等于研究语言学(计算语言学)、文学。Every time I fire a linguist, the performance of our speech recognition system goes up.- Frederick Jelinek, 1985 /w

3、iki/Fred_Jelinek 自然语言处理自然语处理包括语音识别、自然语理解、自然 理想中的自然语言处理流程这是一棵语法树一这是代词动词数词一这是代词动词数词棵语法 量词名词动词这是一棵语法树分词词性标注棵语法树 量词名词动词句法分析树语义分析这, 是,语法树应用语义分析 机器翻译 自动问答 情感分析 知识库 理想中的自然语言处理流程这是一棵语法树一这是 主要任务自然语处理任务可以分为四类:词法分析、句法分析、语义分析、应用。 主要任务自然语处理任务可以分为四类:词法分析、句法分析 发展历程1990年以前,基于规则(rule-based)的法使用写的规则1990年以后,基于语料库(corp

4、us-based)的法也叫实证( empirical )法或数据驱动(data-driven)法量使用统计或机器学习模型典型应用:The mathematics of statistical machine translation: parameter estimation. 19932011年以后,基于神经络(neural-based)的法端到端的神经络模型典型应用:Sequence to Sequence Learning with Neural Networks, 2014 发展历程1990年以前,基于规则(rule-based) 基于语料库的方法语料库:本数据的集合技术段:统计模型机器

5、学习模型 基于语料库的方法语料库:本数据的集合 实际的自然语言处理流程我喜欢读书。分类模型我讨厌读书。特征抽取参数学习解码算法模型表示情感分析 实际的自然语言处理流程我喜欢读书。分类模型我讨厌读书。特 文本分类根据文本内容来判断文本的相应类别+- 文本分类根据文本内容来判断文本的相应类别+ 换个角度看中文分词0000100010001000110011/0 换个角度看中文分词000010001000100011 特征工程问题在实际应用中,特征往往比分类器更重要预处理:经过数据的预处理,如去除噪声等。比如在本分类中, 去除停用词等。特征提取:从原始数据中提取些有效的特征。比如在图像分类中,提取边

6、缘、尺度不变特征变换特征等。特征转换:对特征进定的加,比如降维和升维。降维包括特征抽取(Feature Extraction): PCA、LDA特征选择(Feature Selection):互信息、TF-IDF 特征工程问题在实际应用中,特征往往比分类器更重要深度学习深度学习 深度学习深度学习=表示学习+浅层学习难点:贡献度分配问题 深度学习深度学习=表示学习+浅层学习 表示学习与深度学习个好的表示学习策略必须具备定的深度特征重用指数级的表示能抽象表示与不变性抽象表示需要多步的构造https:/ 表示学习与深度学习个好的表示学习策略必须具备定的深度 深度学习与神经网络深度学习天然不是神经络,

7、但神经络天然是深度 学习! 深度学习与神经网络深度学习天然不是神经络,但神经络天语言表示学习语言表示学习 语义鸿沟底层特征 VS 层语义们对本、图像的理解法从字符串或者图像的 底层特征直接获得床前明月光, 疑是地上霜。 举头望明月, 低头思故乡。表示学习 语义鸿沟底层特征 VS 层语义床前明月光, 疑是地上霜 语言表示如何在计算机中表示语的语义?知识库 规则分布式表示压缩、低维、稠密向量用O(N)个参数表示 O(2k)区间k为非0参数,kN 语言表示如何在计算机中表示语的语义?知识库 规则分布式 一个生活中的例子:颜色命名RGB值红1,0,0绿0,1,0蓝0,0,1中国红0.67, 0.22,

8、 0.12咖啡0.64, 0.16,0.16 一个生活中的例子:颜色命名RGB值红1,0,0绿0 词嵌入(Word Embeddings)https:/indico.io/blog/visualizing-with-t-sne/上海 北京兴 难过 词嵌入(Word Embeddings)https:/分布式表示-来自神经科学的证据http:/ 词嵌入Socher et al. (2013)W(woman)W(man) W(aunt)W(uncle)W(woman)W(man) W(queen)W(king)W(中国)W(北京) W(英国)W(伦敦)From Mikolov et al. (20

9、13) 词嵌入Socher et al. (2013)W(wo句子表示句子表示 语言表示学习词短语组合语义模型句连续词袋模型序列模型递归组合模型卷积模型篇章层次模型北 京 的 夭 气 真 不 错。 语言表示学习词北 京 的 夭 气 真 不 错 循环神经网络 (RNN)缺点:长距离依赖问题RNN是图灵完全等价的 (Siegelmann and Sontag, 1995)FNN:模拟任何函数RNN:模拟任何程序(计算过程)。 循环神经网络 (RNN)缺点:长距离依赖问题RNN是图灵 序列模型:RNN 序列模型:RNN 序列到序列模型 序列到序列模型 文本序列的卷积Filter输卷积层Pooling

10、层输出 文本序列的卷积Filter输卷积层Pooling层输 基于卷积模型的句子表示Y. Kim. “Convolutional neural networks for sentence classification”. In: arXiv preprint arXiv:1408.5882 (2014). 基于卷积模型的句子表示Y. Kim. “Convolut 递归神经网络给定个语法树, p2 ap1,p1 bc. 递归神经网络给定个语法树, p2 ap1, 语言表示学习表示学习模型词句、篇章离散 表示符号表示One-Hot表示词袋模型N元模型基于聚类的表示连续 表示分布式表示Brown聚类

11、K-means聚类潜在语义分析 潜在狄利克雷分配分散式表示NNLMSkip-Gram模型 CBOW模型连续词袋模型 序列模型递归组合模型 卷积模型 语言表示学习表示学习模型词句、篇章离散 表示符号表示O 为什么语言表示学习更难?计算机视觉中的深层络模型对应NLP的最底层:词汇152 层22层 为什么语言表示学习更难?计算机视觉中的深层络模型152 语言表示的几个问题认知层面主观性常识知识模型层面长期依赖问题语义组合问题学习层面迁移学习多任务学习 语言表示的几个问题 长期依赖问题梯度消失/爆炸(主要因素)改进:引个近似线性依赖的记忆单元来存储远距离的信息。记忆容量(次要因素)记忆单元的存储能和其

12、小相关。改进:注意机制与外部记忆 长期依赖问题梯度消失/爆炸(主要因素) 注意力模型 注意力模型 语言语义组合如何组合自然语的语义?参数共享?共享不共享 语言语义组合如何组合自然语的语义?共享不共享 动态语义组合网络元络(Meta network)成基络参数基络(Basic Network)动态参数Pengfei Liu, Xipeng Qiu, Xuanjing Huang, Dynamic Compositional Neural Networks over Tree Structure, In Proceedings of the Twenty-Sixth International J

13、oint Conference on Artificial Intelligence (IJCAI), pp.4054-4060, 2017.Pengfei Liu, Kaiyu Qian, Xipeng Qiu, Xuanjing Huang, Idiom-Aware Compositional Distributed Semantics, In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1215-1224, 2017. 动态语义组合网

14、络元络(Meta network)Pen多任务学习知识共享词性标注组块分析依次句法分析本蕴涵Hashimoto, K., Xiong, C., Tsuruoka, Y., & Socher, R. (2016). A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks. arXiv Preprint arXiv:1611.01587.多任务学习知识共享Hashimoto, K., Xiong, 如何学习任务无关的共享表示对抗学习Pengfei Liu, Xipeng Qiu, Xuanjing Huang

15、, Adversarial Multi-task Learning for Text Classification, In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL), pp. 1-10, 2017. 如何学习任务无关的共享表示对抗学习Pengfei Liu自然语言处理的新范式自然语言处理的新范式 自然语言处理任务在得到字、句表示之后,自然语处理任务类型划分为类别(对象) 到序列本 成图像描 述成序列到类别本分 类情感分 析同步的序列 到序列中分 词词

16、性标 注语义角标注异步的序列 到序列机器翻 译自动摘 要对话系 统减轻了对特征程的依赖! 自然语言处理任务在得到字、句表示之后,自然语处理任务应用例子应用例子 传统统计机器翻译源语:f目标语:e模型: =argmax (|) = argmax (|)()p(f|e): 翻译模型p(e) : 语模型 传统统计机器翻译源语:f 基于序列到序列的机器翻译个RNN用来编码另个RNN用来解码 基于序列到序列的机器翻译个RNN用来编码 看图说话 看图说话 看图说话 看图说话 生成LINUX内核代码 生成LINUX内核代码 作词机RNN在“学习”过汪峰全部作品后自动成的歌词我在这里中的夜里就像场是种命的意旪

17、就像我的活变得在我样可我们这是个知道我只是天你会怎吗可我们这是我们的是不要为你我们想这有种活的时候/phunterlau/wangfeng-rnn 作词机RNN在“学习”过汪峰全部作品后自动成的歌词 作诗 作诗 写字把个字母的书写轨迹看作是连串的点。个字母的“写法” 其实是每个点相对于前个点的偏移量,记为(offset x, offsety)。再增加维取值为0或1来记录是否应该“提笔”。 写字把个字母的书写轨迹看作是连串的点。个字母的“写 Making Neural Nets Great Again Making Neural Nets Great Agai 阅读理解三元组(Q,D,A)问题Q

18、:(1 ,2 , )档D:(1 ,2 , )答案A: , Fred moved to the bedroom and Joe went to the kitchen then Joe took the milk there and Dan journeyed to the bedroom; Joe discarded the milk.Where is the milk now ?A: the milk is in the kitchenWhere is Dan now?A: I think he is in the bedroomSIMULATED WORLD QA 阅读理解三元组(Q,D,A)Fred moved to 一般流程 一般流程Bidirec

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论