版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度学习与自然语言处理Python自然语言处理第十章CONTENT目录
01词嵌入算法03循环神经网络02训练词向量实践04Seq2Seq模型实战课前回顾常见机器学习方法无监督学习的文本分类文本分类实战文本聚类实战深度学习概述深度学习(DeepLearning)方法基于人工神经网络(ArtificialNeuralNetwork)自动学习合适的特征与多层次的表达与输出
应用于信息抽取、词性标注、搜索引擎和推荐系统等方面使用词向量来表示各个级别的元素本章概述
深度学习算法:词嵌入
循环神经网络模型
Seq2Seq实例词嵌入算法01词向量Word2vec简介词向量模型CBOW和Skip-gram模型词嵌入算法
词嵌入算法:一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数据模型依靠系统复杂程度和调节内部大量节点之间相互连接的关系,从而达到处理信息的目的其核心为上下文表达和上下文与目标词汇之间的映射关系词向量
词向量(WordEmbedding)离散表示(One-Hot):把每个词表示为一个长向量。这个向量的维度是词表大小,向量中只有一个维度的值为1,其余维度为0例:苹果[0,0,0,1,0,0,0,0,0,……]缺点:无法捕获词与词之间的相似性词向量
分布式表示:将每个词映射到K维实数向量,并根据词之间的距离,作为判断它们之间的语义相似度的标准word2vec模型优点:词之间存在相似关系词嵌入算法01词向量Word2vec简介词向量模型CBOW和Skip-gram模型word2vec简介
word2vec:用于训练词向量的工具神经网络语言模型(NeuralNetworkLanguageModel,简称NNLM)算法:产生词向量的相关模型NNLM模型架构word2vec简介
word2vec模型01连续词袋模型(ContinuousBag-Of-Words,简称CBOW)02Skip-Gramword2vec简介
词袋模型将所有词语装进一个袋子里,不考虑其词法和语序的问题例:JanewantstogotoShenzhen.Bob
wantstogotoShanghai.[Jane,wants,to,go,Shenzhen,Bob,Shanghai][1,1,2,1,1,0,0][0,1,2,1,0,1,1]word2vec简介语料选取语料必须充分:词量足够大,尽可能多地包含反映词语之间关系的句子语料必须准确:能够正确反映该语言的语义和语法关系word2vec简介
Skip-gram模型可以跳过某些符号例:“中国足球踢得真是太烂了”提取4个3元词组为“中国足球踢得”、“足球踢得真是”、“踢得真是太烂”、“真是太烂了”Skip-gram可以组成“中国足球太烂”word2vec简介
word2vec模型可以将文本内容的处理简化为K维向量空间中的向量运算,并且向量空间中的相似度也可以用来表达文本的语义相似度word2vec可用于聚类、找同义词、词性分析等任务word2vec简介
词向量的评价方式:1将词向量集成到系统中以提高整个系统的准确性2从语言学的角度分析词向量,例如句子相似度分析,语义偏移等词嵌入算法01词向量Word2vec简介词向量模型CBOW和Skip-gram模型词向量模型神经网络结构:词向量模型算法流程:①②③对于每个词,随机初始化一个特征向量;设计神经网络;通过数据训练神经网络以获得合理的特征向量和神经网络参数。词向量模型
词向量模型
词向量模型
词向量模型
词向量模型
词向量模型词嵌入算法01词向量Word2vec简介词向量模型CBOW和Skip-gram模型CBOW和Skip-gram模型
CBOW(ContinuousBag-Of-WordsModel)和Skip-gram模型:CBOW和Skip-gram模型
CBOW计算流程:(1)随机生成所有单词的词向量矩阵,每一行对应一个单词的向量;(2)从矩阵中提取某一个单词(中心词)的周边单词词向量;(3)求周边单词词向量的均值向量;(4)在该均值向量上用logisticregression训练,激活函数用softmax;(5)期望回归得到的概率向量能与真实的概率向
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年家长与学校共同打造学生成长档案合同3篇
- 医疗设备售后服务与客户关系维护
- 在线办公时代下的农产品直销新模式-以网络直播为例
- 医疗伦理与患者沟通的艺术
- 2025中国铁塔贵州分公司招聘32人高频重点提升(共500题)附带答案详解
- 2025中国石化贵州贵阳石油分公司加油站营业员招聘45人高频重点提升(共500题)附带答案详解
- 2025中国电信集团限公司春季校园招聘高频重点提升(共500题)附带答案详解
- 2025中国大唐集团限公司福建分公司校招高频重点提升(共500题)附带答案详解
- 2025中国农业科学院农产品加工研究所谷物加工与品质调控创新团队博士后公开招聘3人高频重点提升(共500题)附带答案详解
- 2025东方电气招聘452人历年高频重点提升(共500题)附带答案详解
- 新入职员工年终工作总结课件
- 重庆市2025届高三上学期12月一诊模拟考试英语读后续写翻译练习(接受新生命)(含答案)
- 广西南宁市第三十七中学2024-2025学年七年级上学期11月第一次月考语文试题(含答案)
- 2024-2025学年高二上学期期末数学试卷(基础篇)(含答案)
- 2024年人力资源个人年终工作总结(6篇)
- 先进计量技术发展态势-洞察分析
- 研究生攻读(硕)博士学位期间拟开展的研究计划范文
- 《寒假安全教育》课件
- 民营企业融资问题及其对策分析-以美的集团为例【数据论文】11000字
- 直系亲属股权无偿转让合同(2篇)
- 一年级小学数学上册达标试卷(A4可打印)
评论
0/150
提交评论