




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能技术与应用9.词向量模型Word2Vec课程概况—基本情况PART01Word2Vec算法Word2Vec算法概述Word2Vec算法的实现Word2Vec的训练Word2Vec概述Word2Vec概述:概述:
WordtoVector,由词到向量,
Word2Vec使用一层神经网络将one-hot(独热编码)形式的词向量映射到分布式形式的词向量。使用了Hierarchicalsoftmax,negativesampling等技巧进行训练速度上的优化。逆向概率:作用:我们日常生活中使用的自然语言不能够直接被计算机所理解,当我们需要对这些自然语言进行处理时,就需要使用特定的手段对其进行分析或预处理。使用one-hot编码形式对文字进行处理可以得到词向量,但是,由于对文字进行唯一编号进行分析的方式存在数据稀疏的问题,Word2Vec能够解决这一问题,实现wordembeddingWord2Vec实现:在处理自然语言时,通常将词语或者字做向量化,例如one-hot编码,例如我们有一句话为:“我爱北京天安门”,我们分词后对其进行one-hot编码,结果如图所示。这样,我们就可以将每个词用一个向量表示了。但是如果n个词语而不是4个,任何一个词的编码只有一个1,n-1位为0,这会导致数据非常稀疏(0特别多,1很少),存储开销也很大。Word2Vec实现Word2Vec实现:于是,分布式表示被提出来了,什么是分布式表示?它的思路是通过训练,将每个词都映射到一个较短的词向量上来。这个较短的词向量维度是多大呢?这个一般需要我们在训练时自己来指定。现在很常见的例如300维。例如下面图展示了四个不同的单词,可以用一个可变化的维度长度表示(图中只画出了前4维),其实可以是多少维由你指定。假设为4维。Word2Vec实现
Word2Vec实现Word2Vec实现:有了向量就可以用各种方法来计算相似度,例如余弦相似度(Cosine)欧式距离相似度(Euclidean)曼哈顿距离(Manhattan)。通常数据的维度越高,信息也越多,计算结果更可靠Word2Vec实现Word2Vec实现:Word2Vec就是要把这些词转换为向量,也就是一组float数值,入下图所示:例如一个词50维的Word2Vec实现Word2Vec实现:如果使用热力图来表示可以直观的看到词向量的相似度Word2Vec实现Word2Vec实现:所有这些不同的单词都有一条直的红色列。它们在这个维度上是相似的(虽然我们不知道每个维度是什么)你可以看到“woman”和“girl”在很多地方是相似的,“man”和“boy”也是一样“boy”和“girl”也有彼此相似的地方,但这些地方却与“woman”或“man”不同。这些是否可以总结出一个模糊的“youth”概念?可能吧。除了最后一个单词,所有单词都是代表人。我添加了一个对象“water”来显示类别之间的差异。你可以看到蓝色列一直向下并在“water”的词嵌入之前停下了。Word2Vec实现Word2Vec实现:由“king-man+woman”生成的向量并不完全等同于“queen”,但“queen”是我们在此集合中包含的400,000个字嵌入中最接近它的单词。Word2Vec实现语言模型:自然语言处理最典型的例子,那应该就是智能手机输入法中的下一单词预测功能。这是个被数十亿人每天使用上百次的功能。我们可以认为该模型接收到两个绿色单词(我打)并推荐了一组单词(“电话”就是其中最有可能被选用的一个):word2vec模型我打?Inputfeature1Inputfeature2Outputlabelword2vec模型:word2vec模型其实就是简单化的神经网络。它对所有它知道的单词(模型的词库,可能有几千到几百万个单词)的按可能性打分,输入法程序会选出其中分数最高的推荐给用户。自然语言模型的输出就是模型所知单词的概率评分,我们通常把概率按百分比表示,但是实际上,40%这样的分数在输出向量组是表示为0.4word2vec模型TrainedLanguageModelTask:PredictthenextwordInputfeatureOutputpredict我打电话TrainedLanguageModelTask:PredictthenextwordInputfeatureOutputpredict我打电话40%王者10%排位2%算0.5%word2vec模型:模型是一个简化的神经网络input:词向量权重网络上下文的-隐藏层Softmax层word2vec模型word2vec模型:对于句子“IlikedeeplearningandNLP”,我们基于这个句子,可以构建一个大小为6的词汇表,假设我们使用300个特征去表示一个单词。记上面的权重矩阵为w(6,300),有独热码wt表示矩阵为(300,1)wt×w两个矩阵相乘,隐层神经网络输出的是一个d×1维矩阵word2vec模型word2vec模型:对于句子“IlikedeeplearningandNLP”,我们基于这个句子,可以构建一个大小为6的词汇表,假设我们使用300个特征去表示一个单词。记上面的权重矩阵为w(6,300),有独热码wt表示矩阵为(300,1)wt×w两个矩阵相乘,隐层神经网络输出的是一个d×1维矩阵word2vec模型模型数据:先是获取大量文本数据(例如所有维基百科内容)然后我们建立一个可以沿文本滑动的窗(例如一个窗里包含三个单词)利用这样的滑动窗就能为训练模型生成大量样本数据word2vec模型数据模型数据:前两个单词单做特征,第三个单词单做标签:生产了数据集中的第一个样本窗口滑动到下一个位置并生产第二个样本word2vec模型数据模型数据:所有数据集上全部滑动后,我们得到一个较大的数据集word2vec模型数据不同模型对比CBOW和Skip-gramword2vec模型数据不同模型对比CBOW和Skip-gramword2vec模型数据Skip-gram模型所需训练数据集CBOW和Skip-gramword2vec模型数据Skip-gram模型所需训练数据集CBOW和Skip-gramword2vec模型数据如何训练数据
如word2Vec训练模型如何训练数据
如果一个语料库稍微大一些,可能的结果简直太多了,最后一层相当于softmax,计算起来十分耗时,有什么办法来解决嘛?输入两个单词,看他们是不是前后对应的输入和输出,也就相当于一个二分类任务word2Vec训练模型如何训练数据出发点非常好,但是此时训练集构建出来的标签全为1,无法进行较好的训练word2Vec训练模型如何训练数据改进方案:加入一些负样本(负采样模型)word2Vec训练模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全款转让房产合同范本
- 加班法务合同范本
- 公司入股合同范本文档
- 仔猪购销纠纷合同范本
- 包装插画合同范本
- 农村协议买房合同范本
- 2024年金山区卫生健康事业单位招聘卫生专业技术人员考试真题
- 2024年南丹县丹融文化传媒有限公司招聘笔试真题
- 农村修水渠合同范本
- 2024年阜阳市皖西北(阜南)粮食产业园有限公司招聘考试真题
- 基于康耐视相机的视觉识别实验指导书
- 三年级书法下册《第9课 斜钩和卧钩》教学设计
- 儿童财商养成教育讲座PPT
- 大学学院学生奖助资金及相关经费发放管理暂行办法
- 2022苏教版科学五年级下册全册优质教案教学设计
- 加油员的安全生产责任制
- 2023年R2移动式压力容器充装操作证考试题及答案(完整版)
- 九年级物理实验记录单
- 2022年湖北省高中学业水平考试真题-音乐学科
- 提高屋面防水施工质量年QC成果
- 部编初中语文古诗词按作者分类梳理
评论
0/150
提交评论