版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
rec国际信息检索新平台
trec是“文本检索会”(文本检索会)的简称。它起源于美国国家商务部国家质量研究办公室(nist)和国防部高级研究项目办公室(darpa)的联合组织和实施。1992年,NIST下属的信息技术实验室(InformationTechnologyLaboratory)发起首次年度性的TREC活动,目前已连续举办超过22届,在国际信息检索领域颇具权威性和影响力。TREC名称中虽有“会议”的成分,但它并不是一个真正意义上的学术性会议,而是一项致力于对文本信息检索技术进行大规模研究评价的评测活动(或平台)。TREC的参与者,需拥有自己研究、开发的检索系统,而且要按照主办方的要求提交各项检索评价试验数据以参加检索试验和评价。所以,有学者形象地称TREC为选拔优秀检索系统的“奥运会”。自1995年以来,TREC开始采用其创设的评测项目机制(TrackStructure)开展文本检索研究与评测活动。本文主要尝试对TREC的评测项目机制进行详细调研和分析,并拟从其项目机制的形成、实施、评测项目中关注的主要检索任务类型等多个不同方面展开深入讨论,以揭示TREC活动内在的成功之道,以及它对信息检索研究所产生的巨大引领作用和学术启迪。1文本检索技术测评回顾20余年的发展历程,TREC主要经历了以下3个不同发展阶段:TREC活动初期,主要采用“任务”(Tasks)模式开展文本检索技术的评测工作,设置的两个主要的检索任务分别是“Adhoc”和“Routing”。1995年,在维持两大检索任务不变的情况下,开始引入“项目”(Tracks)机制,并采取“任务+项目”模式开展相应的文本检索技术评测。2000年以后,随着“Adhoc”和“Routing”两大检索任务的相继终止,TREC进入了完全意义上的“项目”评测模式,并一直运行至今。1.1任务测评模式这一阶段的TREC活动(包括TREC-1、TREC-2和TREC-3)主要针对“Adhoc”和“Routing”两大检索任务开展评测活动,其评测模式可概括为“任务”模式。图1给出了“任务”评测模式示意图,图1中显示了评测活动中使用的两个文档集合(训练文档集D1和测试文档集D2)、两个检索问题集合(TrainingTopics和TestTopics),以及用于两大检索任务的3个提问式集合(其中:Q1和Q2主要用于Routing任务,而Q3用于Adhoc任务)。1.2关注性检索任务的重新深化1995年,TREC开始引进“项目”(Tracks)机制,这里,“Tracks”可以理解为“SecondaryTasks”,即增设的一些新的更加细化的焦点性检索任务。“项目”的引入,一方面是由于最初定义的两大检索任务过于宽泛和松散;另一方面则缘于文本检索评测活动不断深入的研究需要。1997年,TREC宣布“Routing”检索任务将于TREC-7正式终止;两年后,“Adhoc”检索任务也宣告不再出现在TREC-9中。因此,从TREC-4到TREC-8,这一阶段的TREC活动采用的是“任务+项目”评测模式,即在两大检索任务继续评测的基础上,又增设了一些新兴项目的评测试验。1.3trec“项目”模式的进展随着项目评测工作的持续开展,2000年以后,TREC进入到一个新的更为成熟的评测发展阶段———“项目—任务”模式阶段。“项目—任务”模式(以下简称“项目”模式)的具体含义是指,在TREC上构建“TrackStructure”,通过每年设置不同数量的项目,并在每个项目下定义(或指定)不同的、更细化和有针对性的检索评测任务和要求,按照统一的评测程序来组织年度性的检索技术评估活动。从2000年至今,TREC“项目”模式已稳定运行15届,取得了良好的组织成效,并较为理想地达到了主办者的预期目的,具体表现在以下3个方面:1)通过支持并创建特定的测试项目,逐步形成可用的语料集合及评测方法体系,催生并孵化出了一系列新的信息检索研究领域(或方向)。2)验证了核心检索技术的健壮性(同样的技术适用于不同的检索任务)。3)通过提供与更多研究小组(或团队)兴趣相关的检索任务,更大程度上保持了TREC的活力和吸引力。2设置测试项目TREC项目机制形成以来,TREC程序委员会(由来自政府部门、产业界和学术界等不同领域代表共同组成)始终围绕信息检索界最关注的热点问题来设置每年的测试项目,并对项目实行动态化管理。据统计,历届TREC共设立有近40个不同的评测项目,已形成了一个较为丰富的、以“文本检索”为核心的测试项目集合。TREC项目机制的具体落实(或实施),主要体现在以下两个方面:2.1第一,提出和讨论项目,在审判决前,生活在初期,TREC对新项目的挑选与设置是非正式的,具有一定的随意性。随着项目机制的逐步成熟,每个进入TREC的新项目都需要经由一个更正式的项目提议机制(程序),并具备一定的研究积累与试验(语料)基础,才会被考虑和吸纳。首先,按照TREC新项目申请程序的规定,新项目提议一般要在上一届TREC年终大会前(每年10月底或11月初)以书面方式提出,并在大会之前分发给程序委员会的每一位成员。TREC大会期间,委员们会对新提议的项目进行讨论,并决定是否予以采纳。其次,一个新设置的项目一般要求满足(或具备)以下基本条件:(1)有一个积极的项目提议人,他/她愿意作为该项目的自愿协调人;(2)有一个数量足够的、与该项目有关的研究人员核心,以确保项目评测活动的参与;(3)充足的项目研究资源(包括可满足测试要求的语料库、检索问题集合和专家级水平的评价者等);(4)与既有项目能较好地衔接或配合。在书面的申请提议中,上述要点(条件)要一一详细地加以说明和阐述,以便程序委员会审议。新项目如果顺利通过,那么,它将被包含在下一届TREC的评测计划中。如果因为时间仓促等因素不能充分准备好,该项目将保留一年的“预项目”(Pre-track)状态,并参加下一年度的TREC活动。此外,为便于研究人员的学术交流,TREC要求每一个测试项目都建立一个邮件列表系统。通过邮件列表提供的交流窗口,研究人员(不只限于TREC的参与者)可以就特定项目的检索技术、方法等问题展开讨论。此外,有些项目还设有相关的Web页,用以提供与该测试项目有关的背景资料等信息。2.2动态管理机制随着TREC活动的不断深入,越来越多新的评测项目不断被提出,于是,每届TREC评测项目有了数量上的限制。TREC程序委员会一直对测试项目采取动态化管理,一个(或多个)新项目被采纳的同时,往往意味着另外一个(或多个)既有项目的终止、被更替或者被移出平台。在每一届TREC活动中,具体设立哪些(或多少个)评测项目,既取决于检索问题对TREC环境是否适宜,也取决于当年度参与者和赞助商的研究兴趣及需求。1)项目终止。当一个项目的测试目标(或检索任务)已经顺利完成或基本实现,该项目将被终止。例如:Spanish(1994—1996年)、Chinese(1996—1997年)、Filtering(1995—2002年)等项目在持续开展若干年后相继退出了TREC平台。2)项目更替。根据TREC参测者的反馈意见和实际的研究需要,程序委员会通常还会做出一些必要的项目调整(或更替)安排。例如:VeryLargeCorpus(VLC,1997—1998年)、Web(1999—2004年)、Terabyte(2004—2006年)、MillionQ(2007—2009年)和新Web(2009—2014年)等多个项目,都是围绕着Web搜索问题而设置的,相互之间存在着明显的接续与更替关系。此外,在2006—2010年间设置的Blog项目,则从2011年起由Microblog项目所替代。3)项目移出。项目被移出的情况主要缘于在TREC平台之外出现了一些更适宜参与的、专业性更强的评测活动(或平台)。例如,针对跨语言检索(Cross-LanguageInformationRetrieval,CLIR)问题,日本的NTCIR平台、欧洲的CLEF平台可分别专门针对亚洲语言和欧洲语言进行多语言检索试验,因此,CLIR项目2003年之后被宣布移出;而1999年设立的QuestionAnswering(QA)项目,2008年起则被转移到一个新的NIST评测平台———TextAnalysisConference(TAC)上继续进行;同样,Video项目(2001—2002年)在2003年也被剥离,转移到了一个NIST新成立的、独立且更专门化的评测平台———TRECVID上继续进行。上述项目动态管理机制的实施,使得每届TREC都能稳定保持着7~8个项目的评测规模,其中新项目的个数约为1~3个。这对于维持TREC评测活动的吸引力和发展活力而言,无疑是非常奏效的。3检索研究的内容作为一个大型的国际性信息检索评测平台,TREC对“信息检索”这一中心议题的研究和探讨,主要体现在其对不同测试项目的设置以及项目中不同检索任务的定义和评测上。目前,TREC项目中关注的主要检索任务类型可归纳、总结为如下6种。3.1adhoc检索任务“AdhocSearch”(特定查询)类型的检索任务类似于传统图书馆环境下用户的文献查找活动,它是TREC平台最初定义的两大主要检索任务之一,也一直是TREC关注的一个最基本检索任务。迄今为止,绝大多数TREC评测项目都包含有此类检索任务。Adhoc检索任务的基本特点是:已知(或确定)的待检索文档集合(相当于图书馆的馆藏);查询问题的随意性或随机性,即对用户可能提出的检索问题事前无法预知;查询操作的短暂持续性;检索结果通常为一个按相关性降序输出的文档列表(集合)。3.2文创目标任务“Routing”(定题检索)是TREC平台最初定义的两大主要检索任务中的另外一个,它与Adhoc评测任务的主要区别在于:查询问题是预先已知和不变的,而被检索的文档集合则是不断更新变化的。此任务类型类似于传统图书馆环境下的定题检索服务(SDI)。另外,网络环境中普遍需求的信息过滤(或推荐)服务也是此类任务的典型代表。从某种意义上说,“Routing”与“Adhoc”可看作一个硬币的两面,在本质上都表现为基于用户提问和被检索文档的一种匹配和选择操作。3.3待查询的文书集合测评“Known-itemSearch”(已知项目查询)可看作是“Adhoc”检索任务的一个特例,此类检索任务的查询目标仅是一个特定的文档(或一个小规模的文档集合),且查询者事先知道它存在于待查询文档集合中,但需要再次找到它。对于此类检索任务来说,它通常要求测试系统返回一个相关文档集合,但评测时重点关注、考察被检出的目标文档在其中的排序位置,被检出的目标文档在相关文档列表中位置越靠前,则系统的检索评测效果越好。很多TREC项目都设置有“Known-itemSearch”任务。例如Web、Terabyte项目中的“homepagefinding”和“namedpagefinding”测试任务即属此类。另外,在2005年的Enterprise项目中,也包含有一个“Known-itemSearch”任务,要求测试系统在电子邮件列表集合中返回一个指定的信息片段。3.4trec测评活动http反应关注一个“信息获取途径”“Classification”(分类)任务一般是要求测试系统基于一个给定的类目体系(例如分类表或分类目录),为一个文档标注(或指定)一个或多个分类号。广义的信息检索概念包括“Classification”操作,在用户需求不清楚或难以清晰表达的情形下,通过分类目录(结构)进行导航或浏览常常是一个非常有效的信息获取途径。TREC评测活动对“Classification”类的检索任务是较为重视的,在很多项目中均有设置。例如:Spam项目中要求对测试语料库中的邮件信息进行“垃圾邮件”(Spam)和“非垃圾邮件”(Ham)的区分;Novelty项目设置的一项基本任务是:在由指定文档集划分而成的语句序列集合中,识别出每个语句是属于“相关”(Relevant)类还是“新颖”(Novel)类;Web项目针对查询问题(Topics)集合设置的一个查询类别区分任务;等等。此外,在Genomics项目中也先后设置有多个此类的分类测试任务,例如其中的“DocumentTriage”任务,要求针对基因学领域的测试语料,分别借助于GeneOntology(GO)Annotation,TumorBiology,EmbryologicGeneExpression和AllelesofMutantPhenotypes等4个不同领域范畴的知识工具,对测试文档进行分类标注,以便进一步实施有效的文档过滤。3.5启动质检索式检索任务的研究并在后续“SpecificResponse”(确切响应)类型的检索任务主要致力于测试检索系统能否针对所查询的检索问题,直接提供(或返回)一个确切的问题答案,而非一个排序输出的相关文档集合。相较于前述常见的Adhoc任务,这种问答式的检索任务不仅很好地迎合了信息爆炸时代的用户查询需求,而且在研究和技术开发上更加具有难度和挑战性。1999年,TREC-8首次启动了QA项目,专门致力于此类问答式检索任务的研究和评测,直到2007年,QA在连续开展9年后宣布终止,并转移到TAC平台继续进行。除QA外,还有一些TREC项目涉及“SpecificResponse”类检索任务的研究与评测。例如:Enterprise项目中的“expertfinding”任务,要求被测试检索系统针对一个查询问题,能够返回一个相关的人员名单,而非一个相关的文档集合。另外,Genomics项目中的“PassageRetrieval”,也可视为是对QA式系统开发的更进一步的功能要求。3.6信息关系度评估“OpinionFinding”(意见发现)任务最早出现于2006年设置的Blog项目中,此检索任务被描述(定义)为:在网络博客测试语料集中,针对一个指定的查询目标(可能是人员、机构、位置、产品品牌、事件、技术类型或文字作品等),要求测试系统勿需顾及意见表达的倾向性而检出包含意见表达的目标博客信息,并对所检索语料进行如下5个级别的区分、判断和标识:0不相关(noton-topic)、1相关但无意见性(relevantbutnotopinionated)、2相关且有否定性意见(relevantwithnegativeopinion)、3相关且有混合性意见(relevantwithmixedopinion)、4相关且有肯定性意见(relevantwithpositiveopinion)。在此任务类型中,后续评测可通过指定不同的相关性计算方法,例如仅满足“相关”(on-topic,含1~4级)还是同时满足“相关”(on-topic)和“意见表达”(opinionated)(含2~4级)等,分别进行评估试验。“OpinionFinding”类检索任务的解决需要更多自然语言理解技术的支持和辅助,它要求在相关性匹配的基础上,还能够对测试语料中蕴含的语义及情感信息进行准确的提取和适当的表达。4“检索”功能强化了项目机制
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房地产市场报告 -2024年四季度青岛写字楼和零售市场报告
- 2025广告公司采购合同
- 2025食品代理合同样本
- 二零二五年度数字货币内部股东股权转让合同模板3篇
- 二零二五年度农业机械设备租赁与农产品加工服务合同3篇
- 2025年度乡村振兴战略下全新贫困户帮扶合作协议3篇
- 二零二五年度车辆维修版服务合同3篇
- 二零二五年度全新私人合同:私人健身俱乐部及健身器材租赁服务协议2篇
- 二零二五年度企业个人业绩目标对赌协议3篇
- 2025年度环保科技合伙人股权分配与绿色发展合同3篇
- 护士条例课件
- 结肠镜检查前肠道准备
- 创业基础知识竞赛题库及答案
- (高清版)TDT 1063-2021 国土空间规划城市体检评估规程
- 国有企业股权转让规定
- 收费站一站一品方案
- 2024年保险考试-车险查勘定损员笔试历年真题荟萃含答案
- 2024届湖南省长沙市高三新高考适应性考试生物试题(含答案解析)
- 2024年四川省普通高中学业水平考试(思想政治样题)
- 精液的常规检测课件
- 《青纱帐-甘蔗林》 课件 2024年高教版(2023)中职语文基础模块下册
评论
0/150
提交评论