词语表示方法及其相关应用课件_第1页
词语表示方法及其相关应用课件_第2页
词语表示方法及其相关应用课件_第3页
词语表示方法及其相关应用课件_第4页
词语表示方法及其相关应用课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

词语表示方法简介*词语表示方法简介*1MenuOne-Hot表示方法PPMI矩阵表示基于SVD的表示方法基于神经网络的表示方法*MenuOne-Hot表示方法*2One-Hot表示方法

NLP中最直观,也是到目前为止最常用的词表示方法是One-hotRepresentation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1(或者出现的次数),这个维度就代表了当前的词。“话筒”表示为[0001

000000000000…]

“麦克”表示为[000000001

0000000…]*One-Hot表示方法

NLP中最直观,也是到目前为止最3One-Hot表示方法

这种One-hotRepresentation如果采用稀疏方式存储,会是非常的简洁:也就是给每个词分配一个数字ID。比如刚才的例子中,话筒记为3,麦克记为8(假设从0开始记)。存在问题词义鸿沟维度灾难*One-Hot表示方法

这种One-hotRepres4PPMI矩阵表示

词语表示的向量长度等同于term表的长度对于单词的表示,统计所有词语与该词语作为上下文时出现的次数如要得到cat的单词向量我们就统计cat和其他所有单词在局部上下文中的共现情况假设cat和plays在语料中共现1000次plays对应的维度是55那么cat单词向量的第55维就是1000。*PPMI矩阵表示

词语表示的向量长度等同于term表的长度*5PPMI矩阵表示是一种和one-hot表示方法类似的稀疏表示方法能够对于共现关系进行表示同样存在维度爆炸的问题(英文单词有限,目前算力可以支持,跨语言时会出现维度爆炸问题)*PPMI矩阵表示是一种和one-hot表示方法类似的稀疏表示6LSA/LSILSA(latentsemanticanalysis)潜在语义分析,也被称为LSI(latentsemanticindex)主要对词语-文档矩阵进行SVD,对一个t*d维的矩阵(单词-文档矩阵)X可以分解为U*D*Vt其中U为t*m维矩阵U中的每一列称为左奇异向量(leftsingularbector)D为m*m维对角矩阵,每个值称为奇异值(singularvalue)Vt为d*m维矩阵,每一列称为右奇异向量。*LSA/LSILSA(latentsemanticana7LSA/LSI*LSA/LSI*8LSA/LSI优点1)低维空间表示可以刻画同义词,同义词会对应着相同或相似的主题。2)降维可去除部分噪声,是特征更鲁棒。3)充分利用冗余数据。4)无监督/完全自动化。5)与语言无关。*LSA/LSI优点*9LSA/LSI缺点1)LSA可以处理向量空间模型无法解决的一义多词(synonymy)问题,但不能解决一词多义(polysemy)问题。因为LSA将每一个词映射为潜在语义空间中的一个点,也就是说一个词的多个意思在空间中对于的是同一个点,并没有被区分。2)特征向量的方向没有对应的物理解释。3)SVD的计算复杂度很高,而且当有新的文档来到时,若要更新模型需重新训练。4)没有刻画term出现次数的概率模型。*LSA/LSI缺点*10共现矩阵分解类似于LSA/LSI,我们还可以对PPMI矩阵进行分解,使用SVD分解设term表大小为n,则矩阵为n*n大小的方阵然后使用SVD进行分解,分解为U*D*Vt然后使用U阵作为词语表示的信息*共现矩阵分解类似于LSA/LSI,我们还可以对PPMI矩阵进11共现矩阵分解特点对于词语的共现频率有良好的支持训练出的结果在近义词数据集上效果好(ws353等)*共现矩阵分解特点*12Word2vecWord2vec是Mikolov提出的词语表示模型主要包含两个模型:CBOWSkip-gram两个框架:HierarchicalSoftmax(HS)NegativeSampling(NS)*Word2vecWord2vec是Mikolov提出的词语表13Word2vec

NerualNetworkLanguageModel(NNLM)*Word2vec

NerualNetworkLangua14Word2vec

NerualNetworkLanguageModel(NNLM)三层神经网络架构输入层投影层输出层输入单词使用one-hot编码输入层是单词数*词向量大小的矩阵,保存词向量投影层是将输入的映射后的向量用tanh激活输出层使用softmax函数训练目标:最大化下面的函数*Word2vec

NerualNetworkLangua15Word2vec*Word2vec*16Word2vec模型与NNRM非常类似,也是输入层,投影层和输出层三层CBOW模型主要用当前词的上下文预测当前词Skip-gram模型主要用当前词来预测上下文所以CBOW目标函数为Skip-gram目标函数为*Word2vec模型与NNRM非常类似,也是输入层,投影层和17Word2vec

CBOW*Word2vec

CBOW*18Word2vec

CBOW输入层包含上下文中n个相关词的词向量,如我们选定n为2,则上下文长度为2,则会包含上文2个词和下文2个词的词向量投影层将输入的2n个词向量做累加,即输出层输出一颗二叉树,以语料中出现过的词作为叶子节点,以词语在语料中出现的次数作为权值构造出的Huffman树,叶子节点数N为term表的长度,非叶子节点为N-1个针对NNLM中隐藏层到输出层的计算以及softmax计算等计算复杂度比较高的地方进行针对性的优化,并引入了Huffman树,为HierachicalSoftmax技术奠定基础*Word2vec

CBOW输入层*19Word2vec

HierachicalSoftmaxHS是word2vec中用于提高性能的关键技术我们假设词典D中的词w使得Pw:从根结点出发到达w对应叶子节点的路径Lw:路径Pw中包含结点的个数P1w,P2w,…,Plww:路径Pw中的Lw个结点,其中P1w表示根结点,Plww表示词w对应的结点D1w,D2w,…,Dlww:词w的Huffman编码,由Lw-1位编码组成,Djw表示路径Pw中第j个结点对应的编码θ1w,θ2w,…,θlw-1w:路径Pw中非叶子节点对应的向量,θjw表示路径Pw中第j个非结点对应的向量*Word2vec

HierachicalSoftmaxHS20Word2vec

HierachicalSoftmaxW=‘足球’的时候图中红色的边构成路径Pw该路径长度为5,则Lw=5P1w,P2w,P3w,P4w,P5w为路径Pw上五个结点D2w,D3w,D4w,D5w分别为1,0,0,1θ1w,θ2w,θ3w,θ4w分别表示路径Pw上4个非叶子结点对应的向量*Word2vec

HierachicalSoftmaxW=21Word2vec

HierachicalSoftmax以’足球’为例,路径每经过一个结点都可以看成一个二分类,在word2vec中,编码为1的结点为负类,编码为0的结点为正类。根据逻辑回归,我们可以发现每个结点被分为正类概率为被分为负类的概率为*Word2vec

HierachicalSoftmax以’22Word2vec

HierachicalSoftmax在例子中,单词经过了4次二分类,概率分别为:基于以上的概率,我们可以表示目标词的概率如下*Word2vec

HierachicalSoftmax在例23Word2vec

HierachicalSoftmax对于词典D中的任意词w,Huffman树中必存在一条从根结点到词w的对应结点路径,路径上的每一个分支都可以看做是一个二分类,将这些概率乘起来就是我们需要的目标词概率写成条件式为写成整体表达式为*Word2vec

HierachicalSoftmax对于24Word2vec

HierachicalSoftmax基于神经网络语言模型目标函数通常选用对数似然函数将概率计算式带入对数似然函数可得*Word2vec

HierachicalSoftmax基于25Word2vec

HierachicalSoftmax对于目标函数的最大化方式,word2vec采用了随机梯度上升法我们可以把目标函数的双重求和符号表示为可得由上式可知,该函数包含的参数包括向量和关于的梯度计算如下*Word2vec

HierachicalSoftmax对于26Word2vec

HierachicalSoftmax对于的更新公式可以写为,n表示学习率同理,关于的梯度,由于目标函数中,两个变量是对称的,所以其梯度可以表示为由于表示的是上下文词向量的累加,我们通过下式对词向量进行更新*Word2vec

HierachicalSoftmax对于27Word2vec

Skip-gram*Word2vec

Skip-gram*28Word2vec

Skip-gram输入层只包含当前样本的中心词投影层恒等投影,主要方便与CBOW模型对比输出层与CBOW一样,输出一颗二叉树*Word2vec

Skip-gram输入层*29Word2vec

Skip-gram参考CBOW,我们可以构造条件概率为使用HS的思想,可以将p(u|w)写为然后可以使用类似于CBOW模型中的似然函数处理方法进行处理*Word2vec

Skip-gram参考CBOW,我们可以构30Word2vec

HierachicalSoftmax把上式代回对数似然函数可得类似的,将三重求和符号简写,可以表示为*Word2vec

HierachicalSoftmax把上31Word2vec

HierachicalSoftmax类似于CBOW模型,我们可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论