单元6:文本向量化1(理论)_第1页
单元6:文本向量化1(理论)_第2页
单元6:文本向量化1(理论)_第3页
单元6:文本向量化1(理论)_第4页
单元6:文本向量化1(理论)_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python文本与语音应用设计文本向量化文本向量化单元66.26.1实战案例--文本向量化文本向量化知识目标掌握文本向量化的方法,对其原理有详细的了解;了解Word2vec的训练方法,以及其两个基本模型:CBOW模型和Skip-gram模型;技能目标安装Gensim模块;实现文本向量化;掌握词向量的使用方法。6.1文本向量化6.1.1one-hot编码6.16.1.1one-hot编码one-hot编码(独热编码)是特征工程中最常用的方法之一,是最简单的词向量化方法。图6-1语料库举例:

当给定10000个单词的词汇表,为每个单词分配一个索引,例如black的索引为2409,那么将black表示为一个10000维的向量[0,…,0,1,0…,0],其中1位于第2409个位置,其余位置均为0,如图6-1所示。6.16.1.1one-hot编码(2)无法计算词与词之间的相似性。(1)随着语料库词语的增加,词向量的维度高且稀疏。如果语料库中包含10000个单词,那么每个词语都需要使用10000维的向量来表示,也就是说除了当前词语位置为1,其余位置均为0,这种方法得到的词向量是高维且稀疏的。缺点:6.1.2词袋6.16.1.2词袋词袋(BagOfWord)模型是最早的以词语为基本处理单元的文本向量化方法。在使用独热编码得到词向量后,将文本中出现的每个单词的词向量进行相加,可以得到文本的向量化表示。词袋图6-2词袋6.16.1.2词袋例如:对于“thecatisblack”,首先需要找到每个词的索引,然后使用长度为10000的向量进行表示,将所有词语的向量进行求和,即可将文本向量化,如图6-2所示。图6-2词袋6.16.1.2词袋优点简单易用缺点(1)矩阵维度高且稀疏。(2)只是将词语符号化,不保留词序信息,不包含任意的语义信息。6.1.3Word2vec6.16.1.3Word2vec该工具训练向量空间模型的速度较快,得到的词向量也可以较好的表达不同词之间的相似和类比关系。词嵌入(WordEmbedding)是文本向量化的一种,指把一个维数为所有词数量的高维空间向量嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。CBOW(ContinuesBagofWords)模型Skip-gram模型6.16.1.3Word2vecCBOW模型是一个三层的神经网络。该模型的特点在于已知上下文,输出对当前单词的预测,且上下文所有的词对当前词语出现的概率的影响的权重是一样的。(一)CBOW图6-3CBOW模型6.16.1.3Word2vecCBOW模型具体的计算方式如图6-4所示,其输入为上下文的one-hot向量,其中语料库词语数量为V,上下文单词个数为C,取上下文各词的词向量的平均值作为输入,输入权重矩阵W和输入相乘得到隐藏层,再将得到的矩阵与输出的权重矩阵相乘,得到一个列向量。在最后一层加入softmax,将向量转化为概率输出。该向量中概率最大的单词对应的索引就是预测的中间词。(一)CBOW6.16.1.3Word2vecSkip-gram模型与CBOW模型正好相反,该模型的特点在于根据当前词语来预测上下文概率。输入为从目标词的上下文选择一个词,将其词向量组成上下文的表示,其模型结构如图6-5所示。(二)Skip-gram模型图6-5Skip-gram模型单元小结单元小结本单元主要介绍了文本向量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论