版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
词向量与关键词提取Python自然语言处理第五章CONTENT目录
01词向量算法word2vec02关键词提取技术概述03TF-IDF算法04TextRank算法05LSA/LSI/LDA算法06提取文本关键词章节回顾01OPTION02OPTION03OPTION中文分词词性标注命名实体识别词向量算法01词向量算法word2vec神经网络语言模型C&W模型CBOW模型和Skip-gram模型词向量算法word2vec文本表示:自然语言处理中的基础工作,对后续工作有着重要影响。文本向量化:文本表示的一种重要方式。文本向量化是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文,词语都是表达文本处理的最基本单元。文本词向量化:当前阶段,对文本向量化大部分的研究都是通过将文本词向量化实现的。也有研究将句子作为文本处理的基本单元,对应的是doc2vec和str2vec技术。词向量算法word2vec词袋模型词袋模型是最早的以词语为基本处理单元的文本向量化方法。例:首先给出两个简单的文本如下:Mikelikestowatchnews,Boblikestoo.MikealsolikestowatchBasketballgames.基于上述两个文档中出现的单词,构建如下词典:{“Mike":1,"likes":2,"to":3,"watch":4,"news":5,"also":6,"Basketball":7,"games":8,“Bob":9,"too":10}每个文本我们可以使用一个10维的向量来表示:[1,2,1,1,1,0,0,0,1,1][1,1,1,1,0,1,1,1,0,0]注:位置表示单词,数字表示每个单词在文本中出现的频率词向量算法word2vec词袋模型存在的问题:维度灾难。如果上述例子词典中包含10000个单词,那么每个文本需要用10000维的向量表示,也就是说除了文本中出现的词语位置不为0,其余9000多的位置均为0,高维度的向量会使计算量猛增,大大影响计算速度。无法保留词序信息。存在语义鸿沟的问题。词向量算法word2vec大数据时代关于如何使用海量的自然语言的两个问题近年来,随着互联网技术的发展,互联网上的数据急剧增加。大量无标注的数据产生,这些数据中蕴含着丰富的信息。如何从大量无标注的文本中提取有用信息?语义信息:一般来说词语是表达语义的基本单元。词袋模型中只是将词语符号化,所以词袋模型不包含语义信息。如何使“词表示”包含语义信息?词向量(word2vec)技术:使用神经网络模型从大量无标注的文本中提取有用信息的技术。词向量算法word2vec问题解决理论基础——分布假说上下文相似的词,其语义也相似词空间模型利用上下文分布表示词义的方法。神经网络模型灵活地对上下文进行建模。词量算法01词向量算法的基本理论神经网络语言模型C&W模型CBOW模型和Skip-gram模型神经网络语言模型神经网络语言模型(NNLM(NeuralNetworkLanguageModel)是最基础的语言模型。NNLM语言模型结构
神经网络语言模型NNLM语言模型结构
神经网络语言模型NNLM语言模型结构
神经网络语言模型NNLM语言模型结构
神经网络语言模型NNLM语言模型结构
词量算法01词向量算法的基本理论神经网络语言模型C&W模型CBOW模型和Skip-gram模型C&W模型目标:直接生成词向量优点:快速在NNLM模型的求解中,最费时的部分当属隐藏层到输出层的权重计算。C&W模型没有采用语言模型的方式去求解词语上下文的条件概率,而是直接对元短语打分,这是一种更为快速获取词向量的方式。核心机理:在语料库中出现过的元短语,会被打高分;反之则会得到较低的评分。C&W模型结构图C&W模型
C&W模型结构图
C&W模型
C&W模型结构图词量算法01词向量算法的基本理论神经网络语言模型C&W模型CBOW模型和Skip-gram模型CBOW模型和Skip-gram模型CBOW(ContinuousBagof-Words)模型和Skip-gram模型综合了NNLM和C&W模型的核心部分。CBOW模型使用一段文本的中间词作为目标词CBOW没有隐藏层,输入层就是语义上下文的表示。CBOW模型使用上下文各词的词向量的平均值替代NNLM模型各个拼接的词向量。CBOW模型和Skip-gram模型
CBOW模型和Skip-gram模型2.Skip-Gram模型
CBOW模型和Skip-gram模型Skip-gram和CBOW实际上是word2vec两种不同思想的实现:CBOW根据上下文来预测当前词语的概率,且上下文所有的词对当前词出现概率的影响的权重是一样的,因此叫continuousbag-of-words模型。如在袋子中取词,取出数量足够的词就可以了,取出的先后顺序则是无关紧要的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新小区物业承包合同示例
- 2024系统开发合同
- 2024年餐厅租赁合同模板
- 2024分期付款购买合同
- 文化节庆活动赞助协议
- 2025年会计专业考试高级会计实务试卷及解答参考
- 排水箱涵劳务分包合同2024年
- 城市管道天然气特许经营合同
- 抚养权变更协议模板2024年
- 协商一致解除劳动合同书样本
- 新苏教版五年级上册科学全册教学课件(2022年春整理)
- 小学体育水平一《走与游戏》教学设计
- 秋日私语(完整精确版)克莱德曼(原版)钢琴双手简谱 钢琴谱
- 办公室室内装修工程技术规范
- 盐酸安全知识培训
- 万盛关于成立医疗设备公司组建方案(参考模板)
- 消防安全巡查记录台帐(共2页)
- 科技特派员工作调研报告
- 中波广播发送系统概述
- 县疾控中心中层干部竞聘上岗实施方案
- 急性心肌梗死精美PPt完整版
评论
0/150
提交评论