




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、陷人具体的细节中。Saracevic、Mizzaro、Cosjin以及Borlund等构建的多种相关性模型完成信息检索中的相关性模型摘要:鉴于相关性模型研究是相关性研究中的核心内容,首先阐释直觉与哲学视角的相关 性研究对信息检索领域相关性研究的借鉴意义,在此基础上,论述信息检索中相关性研究的四维模型(信息源、用户信息需求、时间构件 )以及交互模型。其中对交互模型的阐述,主要 集中于认知模型、片段模型及层次模型。关键词:信息检索;相关性;模型Models of Relevance in Information RetrievalAbstract: Releva nee is the main r
2、esearch issue in in formatio n retrieval and in formatio nscie nee ,and so are releva nee models in releva nee research .This paper explores the theoreticalwork about releva nee from philosophy as well as in tuitive un dersta nding . A four-dime nsionmodel(information re source,representation of use
3、r' s problem time and components) and anin teractive model are critically illumi nated. A better un dersta nding of the cog nitive model,the episode model and the stratife nd model is of great importa nee to the active model.Keywods:i nformatio n retrieval;releva nee; model1引言自从上个世纪50年代Mooers、Ta
4、ube、Perry等将计算机技术应用于信息检索之后,相关性(releva nee)就成了该领域的核心研究内容。在过去的50多年里,相关性研究已经形成了面向系统与面向用户两个学派,其中代表性的观点有系统观、信息观与情境。系统观的代表人物除了前面提到的3位之外,还包括Salton等,其研究主要围绕检索系统的分析、设计以 及评估展开,其核心研究内容是检索模型以及查询表达式与文档或其替代品间的匹配算法。信息观的代表人物有 Cooper、In gwersen、Lan caster等,主要研究查询请求与文档间的概念关 联性。情境观的代表人物有 Wilson、Harter以及Schamber等,主要研究信息
5、与用户信息需求 情境间的关系,其基本观点认为只有用户才能完成有效的相关性判断。三者相较,系统观主要从客观的视角进行相关性研究;情境观主要基于主观的角度;信息观则介于两者之间,主观 与客观兼具。以上观点对该领域研究的意义是显然的,不过有必要对其加以反与梳理,以免了该方向的研究,使相关性研究实现了系统化,达到了既见树木,又见森林目的。下面分别从其他学科以及信息科学的视角讨论相关性模型。2.相关性模型-其他科学的视角除信息检索外,相关性也是哲学、逻辑学、心理学以及通讯科学的主要研究内容。由于哲学等学科的发展历史较信息检索要久远得多,其开展相关性研究的历史也明显早于信 息检索领域,因而对信息检索领域相
6、关性研究的探讨无法绕开这些领域所提供的良好背景。除学术圈之外,相关性也是日常生活中广泛应用的概念,不过人们在使用时似乎并没有遵循什么严格的定义与框架,而完全基于直觉。2.1相关性的直觉理解美国传统词典相关性词条的解释是“ perti nence to the matte at hand与手头的事务有关);汉语大字典以及现代汉语词典对相关的解释是彼此关联”这些权威词典的解释实际上就是对相关性的直觉理解。几乎每天,甚至每时每刻,相关性都会出现在人们的日常生活、学习以及工作中,例如人际交流、信息检索以及信息咨询等交互式活动,人们都会根据直觉的理解将其应用于过滤、评价、推理、排序、接受、拒绝、联系、分
7、类等任务,几 乎没有人质疑过其定义问题。相关性是一个基础的认知概念,正如自然科学中的公理是相应学科开展研究的基础一样,相关性也已经成为信息检索领域开展研究与应用的基础川。相关性在日常各个领域的广泛应用,使得以相关性为基础的信息检索系统能够获得广泛的成功,其内在的原因就是人们依据相关性的直觉能够非常容易地理解所检索的一切。相关性的直觉理解认为相关性的基本属性是动态的,是随着用户意图、认知水平以及手头事务的不同而变化的。虽然相关性的直觉理解在日常应用中没有遇到什么障碍,但不足之处在于缺乏对其本质的认识与思考。2.2哲学视角的相关性哲学领域中,专门以相关性为主题展开研究的主要是Schutz2,他认为
8、相关性是决定生命世界” (life world)中复杂联系的基本属性,并将其分为相互独立的3种类型,即:主题相关性(topical releva nee)、解释相关性(in terpretati on releva nee)以及动机相关性 (motivati onal releva nee),三者之间的关系见图1。其中,主题相关性是指从情境(horizon,指社会背景、个人经验等)中分离出来的主题(theme);解释相关性是指基于情境、知识积累以及过去的经验等 对主题的解释;动机相关性主要指的是选择,即在多个解释中选择其一。Schutz认为这3类相关性之间存在动态交互以及相互依赖的关系,并将其
9、称为相关性统” (system of relevancies)Schutz研究的优势在于首次从理论上解释了多种不同类型相关性的存在及其交互性与依存性,从哲学角度为该领域存在的多种不同类型的相关性提供了坚实的理论基础,对信息检索领域的相关性研究具有重要的指导意义。图1相关性系统3相关性模型-信息科学的视角在信息科学领域,Mizzaro与Saracevic分别构建了各自的相关性模型,而Cosjin与Borlu nd的研究则在Saracevic的基础上又前进了一步。3.1四维模型Mizzaro在文献3中对信息检索领域的相关性研究进行了全面的综述,在此基础上提出 了相关性的思维模型。3.1.1第一维:
10、信息源Lancaster提出了相关性是两个集合中元素间的关系”的观点,该观点已经成为学界的共识。Mizzaro的四维模型中也包括这样的两个集合,其中第一个集合主要包括文献、文献 的替代品和信息3个元素,第二个集合是下文即将介绍的用户信息需求表示。文献,指用户从检索系统中检索出的物理实体(physical entity)。文献的替代品(surrogate),指文献的表示,包括下列部分项目或全部:题名、关键词表、作者以及文摘等书目数据。信息,指用户在阅读检索出的文献时所获得的非实体性内容。Mizzaro,认为三者的关系是:替代品 文献信息,但这种关系不是一成不变的,在某些 条件下可以修正。3.1.
11、2第二维:用户信息需求表示该维的思想主要来自于 Belk in的ASK研究6-7 。 Belki n认为用户与检索系统的交互过程包括以下几个阶段。最初,用户处于有问题需要信息的辅助予以解决的状态,即他有真实的信息需求(RIN, real information need)。然后,RIN被用户感知(perceive)并构建感知到的信息需求 (PIN,perceived in formation need)。PIN是RIN的心理表示,由于有时用户可能并不能以正确的方式或方法感知RIN,因而PIN有别于RIN。其后,用户通过查询请求 (request)表达(expression)PIN,即用自然语言
12、描述 PIN。最后,用户(可能在检索中介的帮助下)借助于检索语言将查询请求形式化(formalisation)为查询表达式(query)。4个元素(RIN,PIN,查询请求,检索表达式)与3项操作(感知、表达、形式化)间的关系见图2:RINPIN 查询请求查询表达式感知表达格式化图2信息需求的转化3项操作实际上并不像看起来那么简单,其中有许多重要问题有待解决。首先,当用户处于RIN状态时,从RIN到PIN的感知过程是非常困难的,用户必须了解一些他还不熟悉的内 容,Belkin引入了 ASK以强调用户可能不知道他到底想要了解什么。其次,表达可能受到下 列诸问题的影响而产生偏差:标签效应,实验证实
13、用户信息需求的表达是通过标签”或者关键词等实现的,而不是完整的陈述。 词表问题,源于文献中词汇与查询请求中词汇的不 匹配,也源于词表词汇的无二义性以及自然语言中的同义现象。形式化的难度, 主要是用 户难以掌握检索系统的检索语言。减- OOO©达氏 杏附*PIN图3二维空间的相关性模型由于这些问题的存在,用户不一定意识(PIN)到自己实际上想查询什么信息(RIN),他所表达出来的需求也可能与RIN甚至PIN存在一段距离;由于查询表达式(query)只是需求的形式化表示,与前三者也可能存在差异。基于以上认识,Mizzaro认为相关性反映了两个集合 (信息源与用户信息需求表示 )中元素 之
14、间的两两关系(见图3),比如替代品与查询表达式的相关性、信息与用户RIN之间的相关性等;认为相关性是二维平面上的交点,图中的箭头表示偏序关系。通过图3可以解释许多已经得到广泛认同的相关性类别。比如,Vickery的 主题相关性”以及 用户相关性”分别对应图中的点1与3,而Cranfield实验以及TREC所依赖的相关性则为点 1或点2。3.1.3第三维:时间早先多数学者只考虑了上述二维的情况,实践证明这是远远不够的。文献、替代品或者信息对于某一特定的查询而言,可能在某一时刻是相关的,在其他时刻又是不相关的。这种变化常发生于用户已经学习了新知识或者RIN发生改变的时候。因此,图 3的二维平面必须
15、修正以适应用户与信息检索系统的动态交互过程(见图4)。时间维典型地体现了相关判断的动态性,由于用户具备的知识及其 RIN都会随着时间的推移而变化,因此其对文献相关性的判断也必然是动态变化的。目前,时间因素对相关性的影响已经得到学界的认同, 但也随之产生了另一个难以解决的问题,即相关性判别标准的制 订更为棘手。otx.1 d厶 _ -一 &M品 血賁询表达式PINKLN图4三维空间的相关性模型3.1.4第四维:构件Mizzaro认为图3与图4中的每一点可以分解为主题 (topic)、任务(task)背景(context)3个构 件。其中主题是用户的兴趣域 ;任务是用户信息查询后在所获文献
16、的基础上开展的活动;背景则包含了主题与任务之外的所有内容。总之,Mizzaro认为相关性集合可以定义为前面四维各自所形成集合的笛卡儿积,即信 息源x用户信息问题表示x时间x构件。四维模型虽然将相关性的各个层面分析得淋漓尽致, 但也已经将相关性置于无法准确测度的境地。3.2交互模型上个世纪50以及60年代的信息检索系统是静态的批处理系统,从70年代开始,由于计算机网络技术的进步, 信息检索系统逐渐发展成为动态的交互系统。实践中,交互已经成为信息检索系统一个非常重要的特征。Ingwersen、Bel-kin以及Saracevic分别提出了信息检索交互的认知模型、片段模型以及层次模型。3.2.1认知
17、模型In gwersen的认知模型集中于发掘所有信息检索过程所涉及的认知元素,包括信息对象、信息检索系统与设施、界面、用户的认知空间以及社会/组织环境等。该模型的主要观点包括:信息检索交互是一组认知过程的集合,并隐含在信息检索的所有过程中。用户在与 系统的交互过程中完成大量的认知建模。除了系统之外,用户还与信息对象进行交互。用户的认知空间是一组结构化的且具有因果关系的元素集合,其中用户的认知以及语境(situatio n日con texts)是主要的影响因素。交互是高度动态的8-9。该模型似乎没有明确地对相关性予以阐述,不过由于认知表示与建模都是围绕或者基于 相关性进行的,因此它对相关性的处理
18、也是高度隐含的。322片段模型Belkin认为信息检索的核心问题不是如何表示信息对象,而是如何描述用户的ASK,即认知以及情境层面才是用户求助于信息检索系统的真实原因。据此,Belk in提出了信息检索交互的片段模型,该模型认为用户与信息检索系统的交互是一系列发生于信息查询片段中的 交互,其中,核心的交互过程是用户与信息的交互。在不同的时刻,用户交互的内容是不同 的,每种交互都依赖于不同的因素,例如用户的当前任务、目标、意图、片段的历 史等。不同类型交互的存在是因为它们支持不同的过程,例如表示(represe ntatio n)、比较(comparison)、摘要(summarization)
19、、导航(navigation)以及可视化(visualization)等。因此,相 关性只存在于部分类型的交互中,不过相关性是多种类型交互的基础。3.2.3层次模型Saracevic提出的层次模型(见图5)也是将交互融人传统信息检索模型的一次尝试。该模型的基本假设包括:用户与信息检索系统交互的目的是为了利用信息。信息利用是与认知 以及情境相联系的。该模型力图:协调强化以系统为中心及以用户为中心的相关性研究,以充分发挥两者的优势,同时尽量避免两者的不足。形成对信息检索领域相关性的本质认 识。层次模型借鉴了人机交互的研究成果以及语言学中的分层理论。Saracevic对层次模型的阐释源于获取一认知一
20、应用(A 一 C 一 A)模型。在信息检索中,获取(acquisition)是指获取信息,认知(cognition)指的是吸收信息或者基于认知对信息加以处理, 应用(application)则是利用所吸收的信息同时也基于认知、特定的情境以及环境对信息进行 处理。A一 c一A涉及不同的元素,而这些元素则具有不同的作用、目的、过程。信息检索交 互是用户与系统之间通过界面的对话,该对话可以重复进行,其主要目的是影响与用户手头事务紧密相连的认知状态。Saracevic认为信息检索交互是发生在几个互相联系的层面上的,每个层面包括不同的元素与过程。在用户方面包括认知、情感以及情境等层面。在计算机方面则包括
21、工程、处理以及内 容等层面。性也可以在不同层次的思考中得以提升。也就是说,信息检索中存在着动态的、相互依赖的图5信息检索的层次模型用户方面:认知层面。用户与信息资源进行交互,并依据信息资源构建认知结构,用户对信息资源的解释、理解、吸收以及处理都是基于认知的,其中必然涉及基于用户现有的知识储备进行的相关性推理。情境层面。用户与手头问题进行交互,而该问题是产生信息需求以及与之相关联的 查询的源动力。交互过程中情境可能被重新解释, 作为结果的信息需求以及查询也得以更新, 相关性是从认知到情境层次推理的必然结果。计算机方面:工程层面。主要包括硬件、设计属性以及内嵌的特征,比如容量、性能、处理能力等。处
22、理层面。着重考虑软件层面。在信息检索中主要是指处理用户层面与计算机层面 在交互过程中的文本、查询表达式以及界面等的一些算法或方法。内容层面。主要集中了信息源,是信息对象及其表示等,还包括元数据。Saracevic基于层次模型阐述了相关性的本质,认为用户与计算机交互的主要目的就是处相关性系统。假如接受信息检索中相关性的本质是相互依赖的相关性系统,则必然存在以下的推论一不能将该相关性系统中的任何一个层次或者元素作为单独的或者唯一的相关性的 观点。研究中不能只突出其一而忽略其他层次的相关性。情境的、心理的或者系统的相关性不存在也不可能存在于各自的真空中。简言之,信息检索中的相关性是用户与系统之间交互
23、式信息交流效果的反映。交互包括不同的层面,在这些层面中相关性是可推理的,这导致了相互依赖的相关性系统的存在。实践中,相关性系统使得交互在信息检索中的意义上得以实现,并且将不同的层面紧密结合起来。如果不存在这样的相关性系统,则目前使用的信息检索系统也将不复存在。324层次模型的改进Saracevic以层次模型为基础,阐释了相关性的基本属性(关系、意图、背景、推理以及交互)与类别(系统/算法相关性、主题相关性、认知相关性、情境相关性以及动机相关性)。Cosjin与Borlund对Saracevic的情感/动机相关性定义提出了改进意见,即情感相关性不是动 机相关性的同义词,动机相关性已经包含在相关性
24、的意图属性中。该观点可以简单地从Saracevic有关意图与动机相关性的观点中得出结论,即意图是目标、任务、期望以及动机;动机相关性 描述了意图、目的以及用户的动机与检索出的文本或现存的文本之间的关系”。对两者简单分析一下就可发现 :动机相关性也处理用户的意图、目标以及动机,其所有内容 都已包含在意图属性中,因此动机相关性显得冗余。情感相关性是高度个性化的,也是非常主观的,Schamber以及Barry等的研究表明它贯穿了所有主观相关性类型的特征。据此,Cosjin修正了 Saracevic的相关性模型,没有将情感相关性作为一个类别,而是作为一个与时间相关联的维度,并用社会一认知相关性取代了动机相关性。Cosjin认为社会一认知相关性是由用户与环境中群体的交互过程决定的,而情境相关性则与其存在明显区别一后者是完全主观的,这些差别在意图、推理以及交互属性方面尤其明显。结束语本文通过阐述直觉视角与哲学视角的相关性研究,并借鉴其研究意义,对信息检索领域相关性研究,论述信息检索中相关性研究的四维模型(信息源、用户信息需
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 解析西方政治制度的创新挑战试题及答案
- 2024年苏州市国泰汉帛实业发展有限公司招聘笔试真题
- 铁岭市卫生健康委员会选聘法律顾问考试真题2024
- 政治演讲与舆论形成的关系试题及答案
- 工业互联网平台边缘计算硬件架构在智能照明控制系统中的优化分析报告
- 成人教育终身学习体系构建下的教育资源共享与教育公平研究报告
- 2025年有声读物行业技术创新与市场应用研究报告
- 公共政策的实施与风险管控分析试题及答案
- 企业知识管理体系的优化与创新
- 文化和自然遗产数字化保护与利用的无人机技术应用报告
- 北京市2024年中考历史真题【附参考答案】
- 螺杆空压机微电脑控制器MAM880
- 初二地理会考模拟试卷(七)
- 学生课业负担监测、公告、举报、问责制度
- 2024北京大兴区高一(下)期末数学试题及答案
- PLCS7-300课后习题答案
- 肘管综合症患者护理查房
- 2023年演出经纪人考试历年真题附答案(巩固)
- 媒介与性别文化传播智慧树知到期末考试答案章节答案2024年浙江工业大学
- 工作场所职业病危害作业分级第1部分:生产性粉尘
- 24春国家开放大学《学前儿童美术教育活动指导》期末大作业参考答案
评论
0/150
提交评论