Python自然语言处理 课件05-5-LSALSILDA算法_第1页
Python自然语言处理 课件05-5-LSALSILDA算法_第2页
Python自然语言处理 课件05-5-LSALSILDA算法_第3页
Python自然语言处理 课件05-5-LSALSILDA算法_第4页
Python自然语言处理 课件05-5-LSALSILDA算法_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

词向量与关键词提取Python自然语言处理第五章CONTENT目录

01词向量算法02关键词提取技术概述03TF-IDF算法04TextRank算法05LSA/LSI/LDA算法06提取文本关键词章节回顾01OPTION02OPTIONPageRank算法TextRank算法LSA/LSI/LDA算法05LSA/LSI算法LDA算法LSA/LSI/LDA算法一般来说,TF—IDF算法和TextRank算法就能满足大部分关键词提取的任务。但是在某些场景,关键词并不一定会显式地出现在文档当中,如:一篇讲动物生存环境的科普文,通篇介绍了狮子老虎鳄鱼等各种动物的情况,但是文中并没有显式地出现动物二字,这种情况下,前面的两种算法显然不能提取出动物这个隐含的主题信息。这时候就需要用到主题模型。LSA/LSI/LDA算法

LSA/LSI算法LSA(LatentSemanticAnalysis,潜在语义分析)和LSI(LatentSemanticIndex,潜在语义索引),它们经常被当作同一算法,不同之处在于应用场景略有不同。LSA与LSI两者全都是文档的潜在语义进行分析,而潜在语义索引是在分析之后,运用分析得出的结果去建立相关的索引。LSA的主要步骤如下:通过BOW模型把每个文档代表为向量;将全部的文档词向量排在一起构成词-文档矩阵(mxn);然后对词-文档矩阵进行奇异值分解(SVD)操作([m×r]·[r×r]·[r×n]);根据SVD操作的结果,将词-文档矩阵映射到一个更低维度k([m×k]·[k×k]·[k×n],0<k<r),每一个词和文档都能够代表为k个主题构成的空间中的单个点,计算每个词和文档的相似度(可以使用用余弦相似度或KL相似度进行计算),能够得出每一个文档中对每个词的相似度结果,相似度最为高的一个词即为文档的关键词;LSA/LSI算法LSA的优势:LSA利用SVD(奇异值分解)把文档、词映射到一个低维的语义空间,发掘出词、文档的浅层语义信息,可以更本质地表达词、文档,在有限利用文本语义信息的同时,也极大地降低了计算的成本,提升了分析的质量。

LSA/LSI/LDA算法LSA的缺陷:SVD的计算复杂度特别高,在特征空间维度相比较大的情况下,计算效率非常缓低。LSA提取的分布信息是已有数据集为基础,在一个新的文档进入已有的特征空间的时候,要重新训练整个空间,才可得加入新文档后对应的分布信息。LSA依旧有着对物理解释性薄弱、词的频率分布不敏感等诸多问题。LSA/LSI/LDA算法LSA缺陷的解决:pLSA算法,利用运用EM算法对分布信息进行了拟合代替了最初使用SVD来暴力破解,消除了LSA的部分缺点,LDA算法(隐含狄利克雷分布LatentDirichletAllocation),以pLSA为基础,引进贝叶斯模型,是如今topic

model的主流方法LSA/LSI/LDA算法05LSA/LSI算法LDA算法LDA算法LDA在2003年由DavidBlei等人提出,以贝叶斯理论为基础。LDA通过对词的共现信息的分析,然后拟合出词-文档-主题的分布,从而把词、文本都映射到一个语义空间之中。

LDA算法假设主题中词的先验分布与文档中主题的先验分布全服从狄利克雷分布(隐含狄利克雷分布此名字的原由)。在贝叶斯学派眼中,先验分布+数据(似然)=后验分布。统计已有的数据集,能够得出每一个主题对应词的多项式分布与每一篇文档中主题的多项式分布。之后就可以依据贝叶斯学派的办法,依据先验的狄利克雷分布与观测数据得到的多项式分布,得出一组Dirichlet-multi共轭,且根据这个来推断主题中词的后验分布与文档中主题的后验分布。LDA算法具体的LDA模型求解的一种主流的方法为吉布斯采样。结合吉布斯采样结合的LDA模型训练过程:随机初始化:在语料中每一篇文档中的每一个词w,随机赋予一个topic编号z。重新扫描语料库:对每一个词w按吉布斯采样公式重新采样它的topic,同时在语料中进行更新。重复以上语料库的重新采样过程一直到吉布斯采样收敛。最后统计语料库的topic-word共现频率矩阵,这个矩阵为LDA的模型。LDA算法新文档的topic预估过程:随机初始化:对当前文档中的每个词w,随机赋一个topic编号z。重新扫描当前文档,按照吉布斯采样公式,重新采样它的topic。重复以上过程一直到吉布斯采样收敛。统计文档中的topic分布,则是预估结果。LSA/LSI/LDA算法根据上面LSA或LDA算法,能获得主题对词的分布与文档对主题的分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论