




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
全国搜索引擎与网上信息学术研讨会SEWM2006中文Web检索
华南木棉信息检索
木棉检索队:张元丰,陈晓志,陈晓锋目录木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望2木棉搜索引擎现状基于Nutch的实现;对URL、Title、Anchor、Content进行索引;PageRank算法的应用;中文分词;基于集群系统的并行化搜索引擎。3木棉搜索引擎现状网页预处理中文分词链接分析文档库索引库网页噪音模板库链接库综合采用多种去噪算法,噪音的去除,可以减少索引量,可以避免噪音对检索结果的影响对站内站外链接赋予不同的权重,保留锚点文本信息链入锚点文本网页url网页标题网页主题内容链出锚点文本基于词频的中文分词Googlepagerank算法简单pagerank算法4木棉搜索引擎现状用户输入查询词索引库二次排序结果5目录木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望6数据格式转换7数据格式转换将3700万网页分成70个part进行处理对每个part建立WebDB合并所有的WebDB用完整的WebDB更新每一个part的数据对每个part分别建立索引合并索引8目录木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望9关键技术介绍TD搜索相关主题的文章,主要查找入口页面。NPHP查找首页或者指定页面。10关键技术介绍TD扩展查询利用Description对查询词进行扩展,比如: <top> <num>Number:TD146 <title>股票分析</title> <desc>Description:股票分析的网站,专家评论,论坛和软件 </top> 扩展后为:股票分析、股票论坛、股票评论、股票软件;用扩展后的查询词搜索,每个查询词均返回300条结果;合并扩展查询结果。11关键技术介绍TD二次查询优化截取每个查询结果的前200条结果;对这200条结果进行站内聚合,并将每个网站内的ROOT、SUBROOT、url深度小于3的PATH的url提前;对所有被提前的网页按照得分排序,并尽量保证前十条出现不同网站的url,将这些网页放在结果集的前面;对其他网页按照得分进行排序,顺序排列在得到的结果之后。12关键技术介绍NPHP对于所给的查询集,我们根据查询词很容易就可以分辨出该查询的意图:HPorNP。我们手工对查询词进行判断(RANK4和RANK5没有这一步骤),添加H(homepage)或N(namepage)标记。这一步骤主要是查询优化时使用;在索引库中查询,并返回200条搜索结果;对搜索结果进行二次排序。算法主要是基于华南理工大学胡俊刚等的《基于URL类型优先级入口页面查询算法》。同时判断查询词的H标记或者N标记,把结果中的主页提取到前面(H)或放到后面(N)。13关键技术介绍PageRankGooglePageRank
在要求不高的情况下,迭代计算5次即可。简单PageRank
可以反映网页的重要程度。14目录木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望15结果提交CWT200g—TD序号中文分词扩展查询PR二次排序RUN1√√简单√RUN2√简单√RUN3√简单√RUN4简单√RUN5√√√16结果提交CWT200g—NPHP序号中文分词手动标记PR二次排序RUN1√√简单√RUN2√简单√RUN3√√简单RUN4√简单√RUN5简单√17结果提交CWT20g—TD序号中文分词扩展查询PR二次排序RUN1√√标准√RUN2√标准√RUN3√标准√RUN4√简单√RUN5√√简单√18结果提交CWT20g—NPHP序号中文分词扩展查询PR二次排序RUN1√√标准√RUN2√标准√RUN3√√标准RUN4√标准√RUN5标准√19目录木棉搜索引擎现状数据格式转换关键技术介绍结果提交分析与展望20分析与展望对网页各组成部分进行索引并赋予不同的权重可以提高检索精度;NPHP查询结果好;TD查询在一些情况下不能很好的将用户引导到最有价值的页面;人工标记和二次排序对提高检索准确率有很大的帮助;查询响应时间相对较长(平均2~3s)。21分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗器械质量检测服务合同
- 职场办公技能培训教育范文
- 高考语文复习:人物传记类文言文专练
- 电线电缆采购合同书
- 法律行业律师服务费用免责协议
- 经典童话白雪公主的解读与赏析
- 高考英语完形填空专题集中训练含参考答案(5份)
- 农村居民公共服务需求满足指导手册
- 问题解决指南
- 金融科技服务风险免责合同
- 2025年苏州农业职业技术学院高职单招高职单招英语2016-2024历年频考点试题含答案解析
- 字体设计完整版本
- 【历史】安史之乱与唐朝衰亡课件 2024-2025学年统编版七年级历史下册
- 2024年苏州卫生职业技术学院高职单招语文历年参考题库含答案解析
- 《欢乐运动会:1 我为班级出把力》说课稿-2024-2025学年四年级上册综合实践活动沪科黔科版
- 2024年汽车驾驶员(高级)证考试题库附答案
- 《兔的饲养管理》课件
- 2025年事业单位考试(综合管理类A类)综合应用能力试题及解答参考
- “互联网+”大学生创新创业大赛计划书一等奖
- 烹饪(西餐)第三届全省职业技能大赛烹饪(西餐)项目技术文件
- 四川政采评审专家入库考试基础题练习试题附答案
评论
0/150
提交评论