华南木棉信息检索PPT课件_第1页
华南木棉信息检索PPT课件_第2页
华南木棉信息检索PPT课件_第3页
华南木棉信息检索PPT课件_第4页
华南木棉信息检索PPT课件_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、全国搜索引擎与网上信息学术研讨会sewm 2006-中文web检索 木棉检索队:张元丰,陈晓志,陈晓锋http:/2目录目录n木棉搜索引擎现状木棉搜索引擎现状n数据格式转换数据格式转换n关键技术介绍关键技术介绍n结果提交结果提交n分析与展望分析与展望3木棉搜索引擎现状木棉搜索引擎现状n基于基于nutch的实现;的实现;n对对url、title、anchor、content进行进行索引;索引;npagerank算法的应用;算法的应用;n中文分词;中文分词;n基于集群系统的并行化搜索引擎。基于集群系统的并行化搜索引擎。4木棉搜索引擎现状木棉搜索引擎现状网页预处理中文分词链接分析文档库索引库网页噪音

2、模板库链接库 综合采用多种去噪算法,噪音的去除,可以减少索引量,可以避免噪音对检索结果的影响对站内站外链接赋予不同的权重,保留锚点文本信息链入锚点文本网页url网页标题网页主题内容链出锚点文本基于词频的中文分词google pagerank算法简单pagerank算法5木棉搜索引擎现状木棉搜索引擎现状用户输入查询词索引库二次排序结果6目录目录n木棉搜索引擎现状木棉搜索引擎现状n数据格式转换数据格式转换n关键技术介绍关键技术介绍n结果提交结果提交n分析与展望分析与展望7数据格式转换数据格式转换8数据格式转换数据格式转换n将3700万网页分成70个part进行处理n对每个part建立web dbn

3、合并所有的web dbn用完整的web db更新每一个part的数据n对每个part分别建立索引n合并索引9目录目录n木棉搜索引擎现状木棉搜索引擎现状n数据格式转换数据格式转换n关键技术介绍关键技术介绍n结果提交结果提交n分析与展望分析与展望10关键技术介绍关键技术介绍ntdn搜索相关主题的文章,主要查找入口页面。搜索相关主题的文章,主要查找入口页面。 nnphpn查找首页或者指定页面查找首页或者指定页面 。11关键技术介绍关键技术介绍ntdn扩展查询n利用description对查询词进行扩展,比如:number:td146股票分析description:股票分析的网站,专家评论,论坛和软件

4、扩展后为:股票分析、股票论坛、股票评论、股票软件;n用扩展后的查询词搜索,每个查询词均返回300条结果;n合并扩展查询结果。 12关键技术介绍关键技术介绍ntdn二次查询优化 n截取每个查询结果的前200条结果;n对这200条结果进行站内聚合,并将每个网站内的root、subroot、url深度小于3的path的url提前;n对所有被提前的网页按照得分排序,并尽量保证前十条出现不同网站的url,将这些网页放在结果集的前面;n对其他网页按照得分进行排序,顺序排列在得到的结果之后。13关键技术介绍关键技术介绍nnphpn对于所给的查询集,我们根据查询词很容易就可以分辨出该查询的意图:hp or n

5、p。我们手工对查询词进行判断(rank4 和 rank5没有这一步骤),添加h(homepage)或n(namepage)标记。这一步骤主要是查询优化时使用;n在索引库中查询,并返回200条搜索结果;n对搜索结果进行二次排序。算法主要是基于华南理工大学胡俊刚等的基于url类型优先级入口页面查询算法。同时判断查询词的h标记或者n标记,把结果中的主页提取到前面(h)或放到后面(n)。14关键技术介绍关键技术介绍npage rankngoogle page rankn n在要求不高的情况下,迭代计算5次即可。n简单 page rankn n可以反映网页的重要程度。1()()()niiip r tp

6、rpcc t( )ln()pr pc inlink15目录目录n木棉搜索引擎现状木棉搜索引擎现状n数据格式转换数据格式转换n关键技术介绍关键技术介绍n结果提交结果提交n分析与展望分析与展望16结果提交结果提交ncwt200gtd序号中文分词扩展查询pr二次排序run1简单run2简单run3简单run4简单run517结果提交结果提交ncwt200gnphp序号中文分词手动标记pr二次排序run1简单run2简单run3简单run4简单run5简单18结果提交结果提交ncwt20gtd序号中文分词扩展查询pr二次排序run1标准run2标准run3标准run4简单run5简单19结果提交结果提交ncwt20gnphp序号中文分词扩展查询pr二次排序run1标准run2标准run3标准run4标准run5标准20目录目录n木棉搜索引擎现状木棉搜索引擎现状n数据格式转换数据格式转换n关键技术介绍关键技术介绍n结果提交结果提交n分析与展望分析与展望21分析与展望n对网页各组成部分进行索引并赋予不同的权重可以提高检索精度;nnphp查询结果好;td查询在一些情况下不能很好的将用户引导到最有价值的页面;n人工标记和二次排序对提高检索准确率有很大的帮助;n查询响应时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论