Python自然语言处理 课件05-4-TextRank算法_第1页
Python自然语言处理 课件05-4-TextRank算法_第2页
Python自然语言处理 课件05-4-TextRank算法_第3页
Python自然语言处理 课件05-4-TextRank算法_第4页
Python自然语言处理 课件05-4-TextRank算法_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

词向量与关键词提取Python自然语言处理第五章CONTENT目录

01词向量算法02关键词提取技术概述03TF-IDF算法04TextRank算法05LSA/LSI/LDA算法06提取文本关键词章节回顾TF-IDF算法01OPTIONTextRank算法仅对单篇文档进行分析并能提取其中的关键词。早期应用于文档的自动摘要,基于句子维度的分析,利用TextRank对每个句子进行打分,找到分数最高的句子作为文档的关键词,从而实现自动摘要的效果。TextRank算法PageRank算法PageRank算法思想启发了TextRank算法。PageRank算法是谷歌构建原始搜索系统的时候提出的链式分析算法,该算法用来评价搜索系统网页重要性的一种方法,是一个成功的网页排序算法。PageRank算法核心思想:链接数量:比如一个网页被越多其他的网页链接,说明该网页越重要。链接质量:比如一个网页被越高权值的网页链接,说明该网页越重要。TextRank算法PageRank算法计算图如图所示:首先理解几个概念:出链:如果在网页a中附加了网页b的超链接b-link,用户浏览网页a时可以点击b-link然后进入网页b。上面这种a附有b-link这种情况表示a出链b。入链:上面通过点击网页a中b-link进入网页b,表示由a入链b。如果用户自己在浏览器输入栏输入网页b的URL,然后进入网页b,表示用户通过输入URL入链b。无出链:如果网页a中没有附加其他网页的超链接,表示a无出链。PR值:一个网页被访问的概率。TextRank算法

TextRank算法

TextRank算法当TextRank应用到关键词提取时,与应用在自动摘要中时主要有两点不同:

词与词之间的关联没有权重每个词不是与文档中所有词都有链接。

TextRank算法对于第二点不同,每个词不是与所有词相连,使用窗口来确定链接关系。在窗口中的词相互间都有链接关系。以下面的文本为例:

世界献血日,学校团体、献血服务志愿者等可到血液中心参观检验加工过程,我们会对检验结果进行公示,同时血液的价格也将进行公示。经过分词后为——【世界,献血,日,学校,团体,献血,服务,志愿者,等】。现在将窗口大小设为5,可得到以下的几个窗口:1)[世界,献血,日,学校,团体]

4)[学校,团体,献血,服务,志愿者]2)[献血,日,学校,团体,献血]

5)[团体,献血,服务,志愿者,等]3)[日,学校,团体,献血,服务]每个窗口内所有的词之间都有链接关系。然后就可以使用TextRank

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论