2023学年完整公开课版词条权重_第1页
2023学年完整公开课版词条权重_第2页
2023学年完整公开课版词条权重_第3页
2023学年完整公开课版词条权重_第4页
2023学年完整公开课版词条权重_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

词条权重1.熟悉词条权重基本概念

2.熟悉TF-IDF概念

3.了解核心词或关键词提取方法词条权重基本概念TF-IDF12核心词或关键词提取31.词条权重基本概念对文本分词后,接下来需要对分词后的每个词条计算一个权重,重要的词条应该给与更高的权重举例来说,“什么产品对减肥帮助最大?”的词条权重结果可能是:“什么0.1,产品0.5,对0.1,减肥0.8,帮助0.3,最大0.2”词条权重在文本检索,文本相关性,核心词提取等任务中都有重要作用词条权重的打分公式一般由三部分组成:local,global和normalization,即TermWeight=L_{i,j}G_iN_j,分别表示词条i在文档j中的本地权重,全局权重,归一化因子1.TF-IDFTF-IDF表示词频-逆文档频率通过单词在所有文档中出现的频率来重新调整单词频率,使得在所有文档中频繁出现的单词受到惩罚TF词频TermFrequencies表示某一个给定的词语在该文件中出现的次数相对于更短的文本,同一个单词在长文本中的频数更高定义为TF=(该词在文本中的频数)/(文本中的单词总数)IDF逆文档频率InverseDocumentFrequency对于词频的权重调整系数,表示的是某个单词的罕见程度,TF高表示可能有更好的辨识程度定义为IDF=log(总样本数/(包含有该词的文档数+1))1.TF-IDF主要思想如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降优势和缺点TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级TF-IDF在很多场合都很有效,但缺点也比较明显,以“词频”度量重要性,不够全面,譬如在搜索广告的关键词匹配时就不够用其他方法除了TF-IDF外,还有很多其他termweighting方法,例如Okapi,MI,LTU,ATC,TF-ICF等通过local,global,normalization各种公式的组合,可以生成不同的termweighting计算方法3.核心词或关键词提取对短文本串分词后,利用上面介绍的词条权重方法,获取词条权重后,取一定的阈值,就可以提取出短文本串的核心词。短文本串的核心词提取3.核心词或关键词提取采用基于规则的方法。考虑到位置特征,网页特征等。基于广告主购买的bidword和高频query建立多模式匹配树,在长文本串中进行全字匹配找出候选关键词,再结合关键词权重,以及某些规则找出优质的关键词。类似于有监督的词条权重方法,也可以训练关键词权重的模型。基于文档主题结构的关键

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论