SEWM2009中文Web检索评测.ppt_第1页
SEWM2009中文Web检索评测.ppt_第2页
SEWM2009中文Web检索评测.ppt_第3页
SEWM2009中文Web检索评测.ppt_第4页
SEWM2009中文Web检索评测.ppt_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SEWM2009中文Web检索评测,闫宏飞 School of EECS, Peking University 5/24/2009,内容,评测任务介绍 测试集构建 评测结果 总结,3,Dataset,4,Hardware assumptions in 2007,symbol statistic value saverage seek time 5 ms = 5 x 103 s b transfer time per byte 0.02 s = 2 x 108 s processors clock rate10 9 s plow level operation 0.01 s = 108 s (e

2、.g., compare & swap a word) size of main memory several GB size of disk space 1 TB or more,海量查询,目标 评价中文Web检索系统的性能, 从而发现有效的检索方法。 研究评测系统的稳定性、高效性和可重用性,测试集使用框架,CWT200g/CWT20g文档集,CWT200g 根据天网搜索引擎在2005年11月份数据中的627,036个站点为数据基础 容量:197GB 覆盖29,100个网站,37,482,913个网页 网页本身是压缩保存, 以天网格式保存 CWT20g文档集 是CWT200g文档集的一部分

3、与CWT200g采用相同主题集,答案集不一样,构建查询集策略(1/2),参照了TREC Million Query Track的Topic Guidelines 从网络搜索引擎中获取一部分,根据track不同而可能会有变化 每一个query在GOV2中至少要有一个相关的页面 题目一半短一半长:短的有15个词,长的620个;一半gov-heavy, 一半gov-biased. gov-heavy是指在该query被返回结果后,用户点击了很多结果,gov-biased正好相反 Million Queries Track提供了(10,000) queries进行测试 (against 426GB G

4、OV2 collection), 其中有重复,构建查询集策略(2/2),在Sogou用户日志的基础上,统计出查询的一些数值分布情况,并使得测试查询集模仿实际分布,具体如下: 查询词长短/复杂程度分布: 查询词程度分布: 对于某一查询用户的点击量分布: 导航查询/信息查询类型分布: 查询词条内容的分布,Sogou User Log,数据格式为 用户IDt查询词t该URL在返回结果中的排名t用户点击的顺序号t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。 查询数量,对应文件(共45,000,000)

5、 1415651 access_log.20070301.decode.filter 1456061 access_log.20070302.decode.filter . 1294980 access_log.20070331.decode.filter,SogouQ.sample,9008533481548073 acd+see+软件下载 9 1 /acd-see-6.0.php 10360096149091108 dat+文件的打开工具 7 1 4904271838167379 赵大伟 1 1 8566542059532269 幻想游戏

6、4 1 7232618670717867 成吉思汗 203 1 6371805989983281 快钱 1 1 45432422366422764 powerdvd5.0 62 1 41864041934866996 谢娜档案 20 1 376338467254882 beautiful+wish 5 1 ,2007年3月Sogou日志点击分布,日志3.9G。其中非空查询为44,430,803个,含非重复查询共4,580,853个,仅出现一次的查询有1,613,501,占不重复查询的约35%,占全部查询的3.63%. 查询次数在十次以下的查询有4,153,437个,占到非重复查询的90.7%.

7、 说明不同用户之间的查询还是比较独立的。,Sogou日志检索词长度分布,Sogou日志检索词频率分布,SEWM 2006,2007 query set,140个TD topics /2006WebTrack/06.td_topics.146-215 /2007WebTrack/07.td_topics.216-285 和600个NP,HP topics /2006WebTrack/06.nphp_topics.586-885 /2007WebT

8、rack/07.nphp_topics.886-1185,主题提取(Topic Distillation),对于一个特定主题发现一组关键资源 注重以站点作为资源的查询 要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站的入口页面表示) 判断是否一个好的首页面,应该考查结果是否符合下面三个条件: 是否大部分切合主题; 提供主题的可靠的信息; 不是一个更大的切合主题站点的一部分,导航搜索方法(Navigation search),主页查询(Home Page finding,HP) 通常是一个网站的主页 指定页面查询(Named Page finding,NP) 满足用户需求的特定页面,查询

9、集,查询集是从搜索引擎用户日志中采样出来的 保持总体在三个属性(关键词长度、查词频率和结果点击次数)上面的频次分布。 点击次数解释:比如用户搜索“北京大学”,在返回的URL中选择了两个链接打开,那么该搜索的点击次数就为2。,内容,评测任务介绍 测试集构建 评测结果 总结,提交结果的参赛队,评估准则,评测的指标主要采用P10和MAP,分别作为用户级指标和系统级指标。 还采用一些不完全标注下的指标作为辅助评价指标。,Ben, et al.,2006C. Ben, A. James, and S. Ramesh, Minimal test collections for retrieval eval

10、uation, in Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. Seattle, Washington, USA: ACM, 2006.,评测结果,run eMAP eRprec eP10 eP30 eP50 dlut_1 0.014301 0.015853 0.009866 0.012302 0.013636 dlut_2 0.009632 0.011611 0.006144 0.007799 0.009011 jxnu_1 0.092746 0.134241 0.056526 0.099029 0.122567 jxnu_2 0.057876 0.100352 0.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论