基于利用率的检索结果过滤_第1页
基于利用率的检索结果过滤_第2页
基于利用率的检索结果过滤_第3页
基于利用率的检索结果过滤_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于利用率的检索结果过滤宓永迪金中仁(浙江图书馆,杭州,310007)浙江大学图书馆,杭州,310029摘要由于检索结果过于庞大、无效信息太多,用户难以判断信息质量、发现所需信息。为此引鉴信息过滤的全新理念和按点击率对网络资源进行排序的方法,提出对检索结果按用户使用率进行后续处理的新思路。分析实现的可行性并提供了有关计算公式,对存在的问题也提出相应解决方案。关键词信息检索;信息过滤;排序;信息利用率分类号G3507INFORMATIONFILTERINGOFSEARCHRESULTSBASEDONUTILIZATIONRATIOMIYONGDIJINZHONGRENZHEJIANGLIBRARY,HANGZHOU,CHINA,310007(ZHEJIANGUNIVERSITYLIBRARY,HANGZHOU,CHINA,310027)ABSTRACTASTHERESULTSETFROMASEARCHISLARGERANDLARGER,USERISMOREDIFFICULTTOJUDGETHEQUALITYOFINFORMATIONANDFINDTHENECESSARYINFORMATIONACCORDINGTOTHECONCEPTOFINFORMATIONFILTERINGANDTHEMETHODUSINGCLICKRATETORANKINTERNETINFORMATION,THEARTICLEPROPOSESTOPROCESSSEARCHRESULTSUSINGUTILIZATIONRATIOTHEFEASIBILITYISANALYZEDANDAFORMULAISPROVIDEDATLAST,THESOLUTIONOFEXISTINGPROBLEMISALSOPROVIDEDKEYWORDSINFORMATIONRETRIEVALINFORMATIONFILTERINGRANKINGUTILIZATIONRATIOOFINFORMATION随着图书馆各种类型信息资源的不断增长,读者可以利用的信息越来越丰富。而读者在查找不同地点、形式的资源时,经常会遇到需要多次检索、界面不统一、结果重复、凌乱等一系列问题,为了解决这一问题,已经推出了多种所谓的统一检索平台。此解决方案把各种不同类型、不同结构、不同环境、不同用法的本地、异地书目、数字资源等整合在一起,可以在多个数据库中进行检索,并同时得到多个数据库的结果,提供一站式的信息检索、获取服务,大大提高了检索信息时的查全率,方便了读者。目前,许多图书馆已经或正在引进各种统一检索平台、工具,其发展十分迅速。但是,任何事物都有两面性,统一检索一方面提高了信息的查全率;另一方面则使获得的信息量猛增,过量的信息将导致“信息污染”,破坏信息生态的有效循环。这其中包括有可能带来了大量的无用无价值信息,湮没了真正有价值的信息,反而使人无所适从,难以选择,面临新的信息匮乏;无序的排列可能使读者浪费大量的时间和精力,却事倍功半。其实即使是有用的信息,其重要性也因需要而各不相同。把信息检索和信息过滤相结合,对检索结果进行后处理,提取出最有利用价值的部分,并按一定的准则突出最重要的信息,同时过滤掉无用或价值不大的信息,就可以大大提高检索的效率,在查全率和查准率两方面都获得满意的效果,是检索系统下一步发展必须认真考虑的问题。一、必要性和可行性现有的各种检索系统,包括统一检索系统,往往只重视信息的发现和获取,而对于检索结果,则一般只是把从各个数据源获得的信息集合进行简单的合并、排序,或者再加上去重即提供给用户,而没有对其进行进一步的深入处理。现实情况则是伴随着信息资源的大量增加,检索结果也已经面临所谓的“信息过载”现象。例如,在本馆OPAC上用“计算机”关键词检索书目,返回结果高达1万2千多条,即使用网页软件“FRONTPAGE”作为检索词检索,结果也有130条左右。要在如此大的信息量中迅速地找到真正为自己所需要的信息,对于普通用户并不是一件非常简单的事,同样的问题在检索数字资源时也存在,甚至更为突出。所以,对于检索结果加以过滤,选取用户真正需要的信息,并剔除无关信息是非常必要的。有关调查也说明,用户对于检索结果按字顺排列的常规显示方法并不满意,而希望根据结果的相关程度等进行排序。另外,进行这种处理也是可行的。根据著名的“二八”法则,可以认为80的用户所使用的图书馆资源只占到图书馆资源总量的20。而实际的书刊利用效率调查也指出只有20左右甚至更少的书刊经常为读者所利用,其余的书刊很少被利用。而用户通过搜索引擎检索网络信息时,一般更是只使用检索结果的前面几页。这些结果都告诉我们,大部分用户所需要的信息集中在少数的资源上。技术上,由于网上信息检索需要而发展起来的各种信息过滤、排序算法已经较为成熟。所以,对于检索结果通过信息过滤进行二次处理也是完全可行的。二、实施方法一般检索系统对于检索结果处理的方式包括按题名、作者等排序;合并相同的检索结果(去重);标记、发送检索结果;限制返回的结果数量等。但是这些方法都无法对信息进行有效的过滤。而目前的网络信息过滤系统,根据系统的不同结构,可以分为内容过滤和协作过滤两种。基于内容的过滤又叫认知过滤,是利用用户需求模板与信息的相似程度进行的过滤,能够为用户提供曾感兴趣的相似的信息。协作过滤又叫社会过滤,是利用用户需求之间的相似性或用户对信息的评价进行的过滤。对于价值观念、思想观点、知识水平或需求偏好相同或相似的用户,他们的信息需求往往也具有相似性。基于这一思路,通过比较用户需求模板的相似程度或者根据用户对信息的评价而进行的过滤,既可以为用户提供真正感兴趣的信息,又可以提供新的感兴趣的信息。比较两种技术可以发现,内容过滤和检索过程存在很大相似性,它们都是根据用户本人的需求从信息集获取信息,因此,在用户已经使用检索式得到检索结果以后,再利用内容过滤进行信息过滤显然是多此一举,没有任何作用。反之,协作过滤则是利用不同用户之间对信息有着相似看法或评价的现象来进行信息过滤,我们正可以利用这一原理,在获得检索结果后,按照其他用户对检索结果中各信息的评价,对其进行相应处理,达到对检索结果进行过滤的目的。但是,一般的协作过滤是面向动态的网络信息流,依据的是用户对信息的评价,而网络信息浩如烟海,并且用户通常是很少愿意对浏览过的信息进行兴趣评价,即使评价,数量一般也很少。所以,真正要依靠用户对信息的主动评价来实现信息过滤其实并不现实。所幸的是,图书馆检索系统的检索对象是相对静态的结构化数据,如书目、数据库、电子书等,它们的数量相对有限,使用频率相对较高。更重要的则是,虽然我们无法获得用户对于这些资源的主观评价,却可以通过对它们的利用率进行统计来间接地了解用户的评价。传统的纸质书刊等资源的利用情况,可以经由流通管理系统方便地获得;而数字资源的使用率也能通过点击率、全文下载次数等来统计。信息资源被用户利用的时间、频率等数据,从一定程度上反映了用户对此信息的兴趣大小,也可以被认为是对信息的一种评价。该方法类似于INTERNET上搜索引擎所采用的一种所谓DIRECTHIT排序,即首先按照关键词进行搜索,然后将查询的结果返回给用户,DIRECTHIT开始跟踪TRACK用户在该搜索引擎检索结果的点击如果返回结果中排名靠前的网页被用户点击后,浏览时间较短,用户又重新返回搜索引擎点击其他的检索结果,那么可以认为其质量较差,系统将降低该网页的排名;另一方面,如果网页被用户点击打开进行浏览,并且用户在该网页浏览的时间较长,那么该网页的受欢迎程度POPULARITY就高,相应的,系统将增加该网页的排名。另外,现在的图书馆系统都保存有用户的有关资料,包括学历、职称、专业、单位等。因此,可以通过这些资料对用户进行分类,然后把信息的利用情况按用户类型分别统计。在某个用户通过登录进入检索系统进行检索时,按照与此用户类型相似用户对检索结果的利用情况进行信息排序、过滤。由于图书馆的资源各种各样,对于不同种类的信息,存在着不同的评价标准。如传统的纸质图书,就可以使用类似于图书利用率的公式来评判NKJTIJ1上述公式中,K是某种书的受欢迎指数或人气指数,N是某种书的复本数,T是某一复本的出借次数,是一个时效系数,该系数是一以时间为变量的函数,和出借的日期有关,一般来说IJ出借的日期越早,数值越小,通过此系数来反映本书的时效性。这样即使该书在过去是非常热门的,多次被借阅,只要现在已经少人问津,也不会被误列入热门书中。此系数可以事先自行设定,也可根据流通历史记录中新旧书的借阅频率变化情况,加以改造套用。此系数还可以随不同种类的书而改变,不妨在推算时把新旧图书借阅频率按分类分别计算,例如对于计算机类图书,由于其知识更新极为迅速,该系数就会随时间很快的衰减,几年前书就很自然地被排在了后面。当然,为了提高检索的速度,或在缺乏借阅历史记录的系统上运行时,此系数也可设置为1,即只考虑借阅的次数,而忽略时效因素。最后,上述公式可以只计算与正在检索用户相似的其他用户的借阅情况,不考虑非相似用户,以免出现当计算机专业的老师检索有关计算机方面资料时,检索结果中排在前面的都是非计算机类学生常用的普及型书目的情况。对于那些只进行阅览不出借的图书或期刊,如果系统有阅览管理、统计模块,也同样能够按上面的方法进行计算。而对于模仿传统借阅方式的电子图书,如方正APABI,因为其有复本、借还的概念,就仍然可以使用上述公式;其他大多数数据资源,则需要在检索页面配备统计功能,以便统计各种资源的下载次数和下载时间并计算时效系数,同时在上述公式中用下载次数来代替借阅次数。根据上述公式计算出的人气指数,可以作为检索结果排序、过滤的依据,这样读者可以迅速找到某一范围里利用率最高、最受欢迎的信息资源(见图一)。数据库A有用原始数据库B检索过滤结果排序信息有价值用户信息数据库C有效益数据库D专指性图一、信息过滤结构图三、问题及其解决上面描述了利用信息协作过滤方式对检索结果进行后处理的基本想法和思路,但是,这种方法也存在一些问题,主要是协作过滤方式固有的所谓早期级别问题。反映在此即是对于那些刚刚入库还没有被人借阅、浏览的书刊、数字资源,往往无法给出准确的评价,其人气指数会很低,有可能被排在后面,而排列靠后的信息更难以得到用户的重视,其排名次序也就不能提高,最后使得其被边缘化。对于此问题的解决方法主要有下面两种。一种是较为传统的方法,即再增加一种排序方式,将检索结果首先用出版时间、入库时间等进行排序,然后在此基础上再按人气指数排序,这样就可以避免新的信息资源被冷落的问题,同时也便于对相同年份的资源进行受欢迎程度的比较。另一种更为新颖的方法则是利用现在计算机屏幕越来越大,可显示信息也越来越多的特点,把传统的一条记录一行,从上到下的一维显示模式改造为二维显示模式。即横坐标表示信息资源发布的年代,纵坐标表示人气指数,不同年代、不同人气指数的资源分布在屏幕的不同点上,当然,这个点应该足够大,能够显示最基本的信息,而更详细的信息可通过鼠标点击、移动到相关点来解决。后一种方法的主要优点是用户能够一目了然地看到同一年代不同资源以及不同年代资源的受欢迎程度和其变化情况。四、结论信息资源的海量化是大势所趋,图书馆拥有的用户群也将越来越广泛、多样性,如何使不同层次、水平的用户都能在海量的信息中高效、快捷目标明确地获取所需要的有价值资源是图书馆的重要任务。提高检索工具的效率就是其中之一。本文提出的方法只是解决这一问题的一种途径,其效果还有赖于大量实践的检验。参考文献1FRANK,CWHATWEVELEARNEDFROMDOINGUSABILITYTESTINGONOPENURLRESOLVERSANDFEDERATEDSEARCHENGINESCOMPUTERSINLIBRARIES,20059,10152成惠萍影响我校外文期刊利用因素分析农业图书情报学刊

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论