垂直搜索选择方法及其评价方法,搜索引擎论文_第1页
垂直搜索选择方法及其评价方法,搜索引擎论文_第2页
垂直搜索选择方法及其评价方法,搜索引擎论文_第3页
垂直搜索选择方法及其评价方法,搜索引擎论文_第4页
垂直搜索选择方法及其评价方法,搜索引擎论文_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

垂直搜索选择方法及其评价方法,搜索引擎论文最近几年,随着网上信息容量的增加和类型的多样化,作为网上信息检索系统的通用搜索引擎,已不能知足特殊领域、特殊人群的精准化信息需求服务,加之市场需求多元化也决定了搜索引擎的服务形式必将出现细分,出现针对不同行业提供愈加精到准确的垂直搜索服务。然而,据统计,利用垂直搜索次数只是利用Web搜索次数的1.56%。面对这种状况,各搜索引擎公司为了知足用户的需求,开展了同时对多个信息源进行垂直搜索,并把从各信息源搜集到的搜索结果进行聚合,再利用Web提供应用户的聚合搜索服务。最早开展聚合搜索业务的是韩国的Naver,2000年,Naver开场了聚合搜索的商业化服务,到2018年6月,已占韩国国内搜索市场77%的份额,是韩国利用率最高的搜索引擎。当前,Google、Yahoo!、Bing、Baidu等世界知名的搜索引擎公司也都开展了聚合搜索业务。但是,这些公司的Web搜索引擎公司不是经常性地开展聚合搜索业务。能否施行聚合搜索,除了根据用户的问题需求外,还要根据最新的新闻报道、博客报道的动向来判定。Naver的特点是不仅提供Web上的信息,还提供来自各垂直搜索的相关信息,对各垂直搜索问题分开显示。如当输入大学进行搜索时,在页面上分别显示来自词典、知识iN、知识百科、图像等垂直搜索引擎有关大学的结果。与Naver不同,Google、Yahoo!、Bing、Baidu等是把Web搜索的结果和垂直搜索的结果混合显示。Google、Yahoo、Bing等的聚合搜索,是在Web搜索结果前10位以追加形式插入垂直搜索结果。从上述可见,聚合搜索结果的显示方式方法有两种:一个是各垂直搜索分开显示的方式方法;另一个是与Web搜索结果混合显示的方式方法。有报告称这两种搜索结果显示方式方法对用户的点击次数没有太大的影响。但是以混合形式显示时,不管哪种垂直搜索,排在搜索结果上位的更容易被点击,所以把垂直搜索的结果插入哪个位置很重要。也就是讲,以混合形式显示Web搜索结果和垂直搜索结果时,最好把以为重要的垂直搜索结果排在前面。一、聚合搜索的技术为了实现聚合搜索,重要的是对输入到Web搜索引擎的问题混入了哪种垂直搜索的搜索结果,因而,下面重点介绍垂直搜索选择方式方法及其评价方式方法。1.垂直搜索的选择方式方法。垂直搜索的选择判定使用三个要素,即问题、垂直搜索文集、问题日志。聚合搜索时,或用华而不实的一个要素选择垂直搜索,或用逻辑回归法组合几个要素选择垂直搜索。〔1〕问题。使用问题选择垂直搜索的方式方法,是把问题中能否包含特定的本文关键词语作为判定材料。详细讲,在AdHoc网指定垂直搜索名和相关的picture、movie、product、shopping等单词,以及地名、观光地名等,以本文关键词语作为选择垂直搜索的使用。例如,搜索digitalcamerashopping这一问题时,就以购物为本文关键词语把购物垂直搜索作为选择对象,搜索DayanPagoda问题时,就以塔为本文关键词语把图像垂直搜索作为选择对象。〔2〕垂直搜索的文集。使用垂直搜索的文集选择垂直搜索的方式方法,是把输入Web搜索的问题同时输入垂直搜索,选择更多与问题相符的检索结果的垂直搜索。由于本方式是把输入Web搜索的问题全都送入垂直搜索,所以计算成本较大。因而进行垂直搜索时,不使用含各类垂直搜索的完好索引,而是使用每种垂直搜索独设的简化索引,简化索引是从完好索引节选而成的。〔3〕问题日志。使用问题日志选择垂直搜索的方式方法,是通过问题与垂直搜索的相关度选择垂直搜索。通过直接输入垂直搜索的问题,能反映出用户对该垂直搜索感兴趣的主题,以及每类垂直搜索的问题的倾向性。例如,在垂直搜索A中问题X的频度高时,判定问题X与垂直搜索A的关联度高,给问题X混入垂直搜索A的搜索结果。由于一个问题一般是由几个单词组成,所以把问题分割成若干单词,找出被分割的单词与垂直搜索之间的关联度。另外,被分割的单词,不仅在一个垂直搜索,有时也在多个垂直搜索中频繁出现,此时,为了查全能够选择多个垂直搜索进行查找。2.聚合搜索的评价。在聚合搜索中为了实现更好的信息聚合,需要熟悉聚合搜索的评价方式方法。〔1〕评价对象和评价条件。聚合搜索的评价,分为由评价者的评价和根据有无点击的评价。由评价者的评价又分为评价对象的不同和有无问题意图两种。①评价对象的不同。这种评价是评价者以何为根据判定合适、不合适的问题。即,对给出的问题,有不看搜索结果,判定问题与垂直搜索的关联度;或是看了来自各垂直搜索的结果,判定问题与垂直搜索的关联度两种。前者的方式方法是由评价者给出的评价,只是以问题为对象得出的评价;而后一种方式方法,是以各垂直搜索的搜索结果为对象得出的评价。②问题意图的有无。此评价观点有两个,一是有意图,即事先把问题背后的意图告知评价者让其评价;二是无意图,即不告知评价者问题背后的意图,让评价者自个考虑问题背后的意图再行评价。前一个评价方式方法是被信息检索领域竞赛式会议TREC和NTCIR上采用的,当前,在信息检索评估中被普遍使用。但是在聚合搜索评价方面至今尚无统一的评价方式方法。〔2〕评价方式方法的不同对评价的影响。图卢兹大学的Kopliku等人对评价方式方法不同对评价的影响进行调查,本调查以视频、图像、新闻、地图、Wiki、商品、AQ、字典等八个垂直搜索为对象,利用2007年TREC会议上使用的300个问题,由33个评价者介入评价。从调查结果看,评价者用实际看到的搜索结果,得出的判定更确切、全面。以视频类垂直搜索为例,只从问题判定,所有问题中有12%合适视频垂直搜索。但在看完检索结果后再判定,所有问题中有24%合适视频垂直搜索。其次是把问题背后的意图告知评价者的评价和不告知评价者的评价,表示出告知问题背后意图时的评价较局限,不灵敏。例如,当问题为海南岛时,告知检索意图是想知道海南岛的地理位置,给出正确解释的垂直搜索是地图、Wiki。但是不告知搜索意图时,可以从图像垂直搜索和动画垂直搜索获得正确解释,由此可见,不告知搜索意图时,评价者的视野更广泛,使用正确解释的垂直搜索的种类也增加。〔3〕搜索结果的多样性。图卢兹大学的Kopliku等人还对聚合搜索结果的多样性进行调查。调查显示:只合适Web搜索的问题占19%,只合适垂直搜索的问题占16%,超过80%的问题合适垂直搜索,而且65%的问题合适多个垂直搜索。进一步,对于合适多个垂直搜索的问题最合适的垂直搜索进行调查,依次是50%问题合适Web搜索、23%问题合适Wiki、10%问题合适QA、6%问题合适动画。结论是:进行一个垂直搜索,不能有多样性的搜索结果;若进行聚合搜索能够实现一个垂直搜索不能实现的多样性。二、聚合搜索的课题与将来关于聚合搜索的研究,近年来比拟盛行,牵涉的课题也是多方面的,华而不实作为新的方向性的研究,有新闻搜索的选择方式方法,以及用户属性推断的应用。1.新闻搜索的选择方式方法。为了把随时变化的信息源混入聚合搜索中,利用者必须知道如今正在查找什么?Yahoo!的Diaz提出有效聚合新闻搜索结果的方式方法。例如,输入Yahoo!这一问题,以关于Yahoo!的事件为起点,不是搜索导航性的问题,而是搜索新闻事件方面存在的问题,在这种情况下不能用2.1讲述的方式方法选择新闻搜索。Diaz提出了把问题能否忽然发生的?用该问题进行新闻搜索,排在顶端的新闻报道是数分钟之前登录的新的报道吗?作为判定基准。进一步,从被聚合的新闻搜索结果的点击率,对能否继续聚合做动态性补充。与Diaz方式方法一样,微软也提出了针对最新新闻报道选择新闻搜索的方式方法。这个方式方法是利用在近期7日内的新闻报道和博客报道中出现的本文关键词语选择新闻搜索。Yahoo!的Diaz们进一步提出,不是把新闻报道和博客报道,而是把Twitter的微博报道作为选择的方式方法。假定记述微博的URL是近期关注的新闻和Web页面,把URL上的报道内容排在上位以表示其重要性。详细讲,以Twitter为对象进行试验,把URL上报道发送者的Tweet数、Retweet数、Follow数等各类信息输入学习器,抽出有用的URL。以上这些能够作为选择新闻搜索的指标使用。2.用户属性推断的应用。假如能够推断Web搜索用户的专业性,即可实现包括垂直搜索的各种应用。根据微软的White等人的调查,提出从输入Web搜索的问题中,能够判定出用户是计算机专家、金融专家、医学专家、法律专家的方式方法。详细讲,就是用输入Web搜索的问题长度、问题中专业术语的含有度、一次搜索提出的问题数、访问Web页面数、对话时间等进行等级分类。有实验报告称对计算机专家的判定,再现率50%时能到达80%的精准度。而其余三类专家再现率50%时精准度为60%下面。假如判定专家的精准度提高,能够作为选择垂直搜索的一个要素使用。以下为参考文献[1]Liu,N.;Yan,J.;C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论