实用信息检索PPT课件信息检索的模型_第1页
实用信息检索PPT课件信息检索的模型_第2页
实用信息检索PPT课件信息检索的模型_第3页
实用信息检索PPT课件信息检索的模型_第4页
实用信息检索PPT课件信息检索的模型_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索的模型方法信息检索的模型方法12 一篇文档document 简称 d 包含好词term 简称 t文档d与词汇t3文档和词汇的对应关系 一篇文档d包含多个词汇t 一个词汇t出现在多个文档d里。4567 四个文档向量vector:向量。 d1(2,2,0,3,0,0,0) d2(0,4,6,8,0,0,0) d3(0,0,0,1,2,3,0) d4(0,0,0,0,0,0,2)8在文档d中,词汇t的分量 d1(2,2,0,3,0,0,0) ?一个词对一篇文档来说,它的重要程度如何评判?9词t在文档d的重要性 类比: 一篮子水果。 词t:水果 文档d:篮子 词对文档的重要性 某类水果对篮子的

2、 重要性10 5个草莓 1个草莓单价:1元 草莓 对 这个篮子 的重要性为: 5x1=5 只考虑个数合适吗?草莓的价值怎么评判?11 词t在d中出现的次数:水果的个数 词的单价:水果的单价 词频:term frequency tf 词的单价怎么计算? 物以稀为贵 词越稀有,词价格越高。 词蕴含的信息量越大。词t对文档d的重要性?12 给定信息x,如果它能命中1/2的文档 就说x 的信息量为 1信息量13词的单价如何计算?14 w=词频x词的单价 =词频x词的信息量 =词频x词的权重就可以计算了15原始最终16 q:(1,2,0) d1 (1,1,0) d2 (3,1,0) d3 (0,3,1) 举例-如何计算:q和d的相似度sim()17sim(d,q)=cos=1.权重w=18 2. 计算q与各个d的夹角的余弦值。 3.按余弦值由大到小排序。这个模型叫:vsm 向量空间模型 salton发明的 vector space model lucene 一个实现了vsm的开源软

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论