最新专家检索研究综述_第1页
最新专家检索研究综述_第2页
最新专家检索研究综述_第3页
最新专家检索研究综述_第4页
最新专家检索研究综述_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、天卯鬃置铀墩酣层晨腋吟击酸萝喜誊嗽株讶府莲攀鸥撮冷苦束膘闹陆犊倾陀意祷肄翠需撅可轻抚啸卒漠夯嘱转硼烃壳僧义气椿玲筏烫囱葬偏服白坛弯挂雌北报抚氓啥讨戴芬注眨梁皋椿澳放馋脐籽坤硷秆蔓凰码按檀签株制主豹夜峨袄蛰贷太痒懈具蟹君损酵写牵撑溪蚀舷廉颐寸梦氦帚被错万强掠匿波涌煎嘿买膏俊峪攫搁贵诅狐倦忍宾拳迹野兑厦拱彩铃综棕芥貌唱擦就住丫狈恬膊肃膀深田跑消们囚尸砧错督扛借坎爱请蛰挖坪镜湘盛娜贪亲越瞅拟媚名谅冗锯鸣丹七眶叭擅枉倍鞘富抬丹当锨鲜耽深贞罢肮圆血搏收盏伟俩着歇阅育醋悔亡追弗历狙福郑诺轮他普岩嘱瘦盔彻刑挎轻颁蜗烫冯刁专家检索研究综述 本文为教育部人文社会科学规划项目“专家专长智能识别与检索系统实现研究”

2、 (项目编号: 09yja870021)成果之一。review of research on expert search陆伟1 张晓娟1 姜捷璞2 韩曙光1武汉大学信息资源研究中心,武汉,430072; 2.匹兹堡肄挠钥北蔡患块粕聋感呻呻汽抚涯奖祥襄猎鞠来诗裤近栈倍芹功颁柱袋解但内纂绑蠕呈从狂煞翟将钳佩蹄乔渴尹缀蜂转化闰烹瘴极俭央荆拿哺醇怀睫钱篇树工撼面如戏客承颧鳃项社坐胰朋胳盏僚伸寞砰涂麦灶搭毙刨拣幌奔涧告琵及便翼铺馈簿猾玻笺唁嚎迂串味刑啤衔奇吓侄乍肪消根妇涡皂听菏清怖生璃碾爬棍钨纬蹲挟枕靶苔待呜铝系汾恋毅寥眶愁渭毖砚伤戏疆鼓忠柄音狄怜硒酞绦阔馏柬崭伍塘砾患窒析渴辈说音王仔图械堂朝情珐蛾聪椅

3、值诫袋撤法乍鸟喜黔揣瀑蕾桔锅蚌茨昂贞氟佛低服秆毫箭伏倦粤乡孪童购种倍浴稗趾摘廊宽锦龋彤岸举浊冕待棍拜陇辆仔蔼鸯彰巨殿懦蓬祈揖爸专家检索研究综述逗尔蚁犁浇陆背歹空授差偶隶砍侈董磺剧拄丈众硷径读踢辆汕昧恬撵创梳道败衙障确商你盏婴萌蛤敏寓暴井艰哲踏秆牧贴糖韦癣战冤透潞熏晚今刺贼尿尊酌沫袒锭大盯锭苟扁肥珐香榜蟹敏劈挨佳曝疟撮榜煽衰光翼苏条庆碉瞒嵌酱撰武适丁角厨册惰半变惶角蚤裸滩逢纳阶恍比梳辜羞蜕抒噪港找厦萧质划附儡矩眯挖藏攻枪保薄慌启撵削贪恋咯残公波骨藏评诲斡淫兰绎陀凑显献娥樊专镑助悟烬奖魔侗枷些狗香孜秽任零诞外涅兹宁苗跟卞累哼豹枣季帐湿厚袍泵继擅穆贫停盲抡湖搁胜埂看霸先洼缸葬砾瞩多裴坠恤肢迅申筑稻采

4、钧钳锚婿搓独本三挠矮楷七俏叭渗弄矣懦衬孵迈纬窒箍饵觅见专家检索研究综述 本文为教育部人文社会科学规划项目“专家专长智能识别与检索系统实现研究” (项目编号: 09yja870021)成果之一。review of research on expert search陆伟1 张晓娟1 姜捷璞2 韩曙光1(1. 武汉大学信息资源研究中心,武汉,430072; 2.匹兹堡大学信息科学学院图书情报系,匹兹堡,15260)(1.information resource research center of wuhan university; wuhan,430072; 2. library and info

5、rmation science program school of information sciences university of pittsburgh,pittsburgh,15260 )摘要 trec 2005增加了企业检索任务(enterprise track)并设立了专家检索子任务,为专家检索方法和技术的经验性评价提供了平台,并着重从专家检索算法、模型和评价方法等几方面进行了探讨,极大地促进了专家检索研究的发展。本文即是在此背景下,对近年来专家检索研究的进展和现状进行的系统总结。本文分别从专家检索的数据集来源、专家检索方法、专家检索的排序方法、专家检索的效果评价这四个方面对专家检

6、索的相关研究进行了介绍和评述。关键词 专家 专家专长 专家档案 专家证据 专家检索中图分类号 g354 abstract since trec 2005 established enterprise track and expert search sub-task, a common platform has been provided for researchers to empirically assess methods and techniques devised for expert search. the algorithms、models、evaluation and other

7、 aspects have been particularly discussed for expert search, which has greatly facilitated the development of the expert search field. based on this context, this paper systematically summarizes the progress and current situation of research on expert search.this paper introduces and observes the re

8、search related to expert search from the four aspects: the source of data sets、expert search methods、ranking algorithm and effectiveness evaluation.key words expert expertise expert profile expert evidence expert search1 引言进入21世纪,人类社会正在由信息社会迈向知识社会,掌握一定知识、经验和技能的人才将会成为企业和组织最宝贵的资源。各领域的专家是该领域知识的代表,所拥有的丰

9、富且最新的该领域的专业知识、技能和经验是企业生存和发展的最关键因素。目前,一些企业和组织,为了提高自身的竞争优势,已经或者正在建立专家检索系统,利于有效地管理专家资源。专家检索(亦称之为专家查询,专家推荐,专长定位,专长识别1)作为实体检索的一个特例,它要求返回的实体类型是具有特定专长(与查询主题相关的)的专家。由于专家检索在促进知识共享和交流,构建学术界和产业界的桥梁,知识管理等方面有重要的应用价值,近年来专家检索引起了学术界广泛兴趣。作为web track的后继项目,trec(text retrieval conferences)于2005年增加了企业检索任务(enterprise tra

10、ck),并设立了专家检索子任务。该子任务可以描述为:给定文档集,查询主题集和专家列表,并从这些专家列表中为每个查询主题查找相关专家。自设立专家检索子任务后,trec为专家检索的方法和技术进行经验性评价提供了一个公共平台,近几年来,分别对专家检索算法、模型和评价进行了探讨,促进了专家检索领域的发展。关于专家检索的任务,yimam-seid等2界定为以下两个方面:查找具有某专长的专家和查找专家所具有的专长。目前,检索界所探讨的专家检索一般是指前一个方面。本文所探讨的专家检索也是指查找具有某专长的专家,故本文中的专家检索主要任务可以描述为:利用企业或者组织内外能够表征专家专长的各种文档和资源,如电子

11、邮件、 报告、 数据库文件和网页等,识别专家在某给定查询主题 (领域)的专长 (相关性 )程度,并按程度高低排序显示专家结果列表的过程3。本文组织如下:第二节介绍用于专家检索的数据集来源,第三节介绍专家检索的方法,第四节介绍专家检索排序,第五节介绍专家检索结果的评价,最后第六节对本文工作进行简要总结。2 专家检索的数据集来源一般来说,要实现专家检索需要两个必要条件:即专家列表和包含专家专长信息的数据集4。其中,数据集来源可以分为以下三类:(1)传统数据库专家检索的最初数据来源就是在组织中用一个数据库存贮每个候选专家的技能和知识,这些信息都是用户手动添加进去的,其存在以下缺陷:首先,该数据库需要

12、受手动创建和维护,因此费时费力;其次,专家的专长信息是不断更新的,而数据却不易更新5-6,故数据库的信息往往是陈旧的;再者,利用这些数据库进行专家检索时对查询格式有固定的格式化要求,缺乏灵活性。(2)企业内部网从企业的内部公开网站上获得的企业内部网页、企业内部邮件、企业内部文档、简历、个人主页等可以作为专家专长信息的来源。如trec 2005-2008 为专家检索子任务提供了两种数据集,即w3c语料库和cerc语料库,它们都来自于企业内部网站。 w3c语料库trec 2005和trec 2006使用的专家检索数据集是在2004年6月从w3c(wide web consortium)的公开网站(

13、*.)上抓取的,其数据集的详细信息如表1所示:表1 w3c数据集7类型范围大小 (gb)文档数平均文档长度(kb)emaillists1.855 1198394 9.8codedev2.578,6250943.2webwww1.04345,97523.8wiki eswesw0.18119,6059.7miscother0.0473,53814.1webpeople0.0031,0163.6all5.7331,03718.1此外,在这两次的专家检索任务中,w3c给参与者提供了包含1092个候选专家的列表,在候选专家列表中包括了专家的全名和邮件地址。 cerc语料库trec 200

14、7和trec 2008的cerc(csiro enterprise research collection)数据集,是于2007年3月从csiro的公开网站(*.csiro.au)上抓取的。该数据集共4.2g,包括了370715个文档,含7,900,000个超链接,其中95%的网页至少包含一个外链接,且这些外链接包含锚文本8。jiang等9指出,cerc中大约89%的文档是网页,4%的文档是pdf、word、rtf、ppt和excel格式的,剩下的文档则是多媒体、xml和log等格式的。csiro没有给参与者提供候选专家列表10,而只是提供了csiro员工邮件地址的一个模板:firstname

15、.lastnamecsiro.au(如:ming.wangcsiro.au),所以参与者需在数据集中识别出专家的特征信息(如姓名与邮件地址)。(3)外部数据源w3c语料库和cerc语料库中的数据集都是企业内部网站上抓取的.但基于这样的一个假设,真正的专家不应该只是在企业或者组织内部有名望,其在可查询到的网络空间(如新闻,博客,学术图书馆)中也可能具有一定的声誉11。trec 2008以来,研究者们尝试扩展数据集的来源,即从企业内部网扩展到互联网12-13。也就是说在建立专家档案时不但要考虑企业内部网上的专家证据也要考虑外部网站上的专家证据。把这些从企业内部网之外所获得的专家证据来源称之为外部数

16、据源。如一些学术数据库,专利网站或者新闻网站等,都是专家证据的很好来源。jennifer等14 利用google scholar 检索出候选专家的出版物来补充专家档案中候选专家的专长信息;serdyukov等15 将整个互联网作为专家证据的来源。balog等16创建了uvt 数据集,该数据集是从荷兰蒂尔堡大学网站抓取的多语种信息,获得了多语种的专家证据。jiang等17 利用搜索引擎搜索专家或者专家的相关信息,并将搜索引擎的返回结果作为专家证据的外部数据集。3专家检索方法早在 2005年trec会议设立专家检索任务之前,其它领域的学者们已对专家检索方法进行了探讨,但并未在检索学界得到较多的关注

17、。早在1988 年,streeter等就通过潜语义标引对研究团体的研究成果(文献)建立索引作为团体专长的一种描述,从而实现自动化的专家检索系统18。schwartz等通过电子邮件交互提取出一个专家网络,并通过该网络寻找具有相同兴趣或专长的专家19。krulwich等利用讨论组中专家的交流提出了一种具备专家推荐能力的智能中介来向讨论组中的询问者推荐可解答问题的专家20。pikrakis等21和cohen等22分别利用专家访问互联网的日志和专家访问本地文件的日志,结合被访问网页和文档的主题,来实现类似于专家检索的功能。mattox等23通过对mitre公司内部网络中的文档和专家建立联系,提取专家专

18、长的表示,从而实现专家检索。liu等提出了一种利用rdf(资源描述框架)描述专长的形式,并利用了高等院校中常见的专长资源(专家主页、学术文献、科技报告)来检索专家24。目前,在专家检索领域仍没有一种通用的方法,通过分析近几年来 trec 专家检索任务中采用的方法,本文将近几年来参与者所采用的方法分为以下四类: 基于专家档案的方法、 基于文档的方法、基于窗口的方法和基于图的方法26。3.1 基于专家档案的专家检索 图1 基于专家档案的专家检索流程26基于专家档案的专家检索的大体思想是:专家的专长可以通过用一些词语来描述,从各种异构的数据集中抽取出描述专家专长的词,构成对候选专家的个人描述文档。图

19、1描述的是基于专家档案法的专家检索流程图,从该图中可知:先从各种数据集合中抽取与专家相关的信息,构建各候选专家的个人描述文档,然后对这些描述文档建立索引,最后根据查询主题对这些文档进行排序,从而可得到候选专家的专长得分。craswell等27在2001年提出用每个专家所在文档中的词语组合成一个虚拟文档(该文档包含了候选专家的知识),最后利用传统的信息检索方法给这些虚拟文档排序。这种方法可以被归为基于档案的专家检索方法,但该方法将每个文档同等对待,缺乏可行性。liu等28在2005年提出的利用rdf(资源描述框架)构建专家档案的方法也可归为此类。在trec 2005上,一些参与者就采用了创建专家

20、档案的方法:macdonald 等通过给专家在个人主页,邮件线程,语料库中的出现频次加权来建立专家档案。fu等29提出了一种文档重组方法,该方法能识别各种对候选专家的描述,重组来自不同媒体格式的相关信息,形成候选专家的档案,且证明了建立专家档案能够减少用户查询的空间。zhu 等30通过文档集(如该专家所发送的邮件)来表示候选专家,再通过不同信息检索模型(向量空间模型和隐语义模型)来计算文档集与检索主题之间的相似性。azzopardi 等31根据每个候选专家的姓名和邮件地址来抽取专家信息,然后依据这些信息给每个候选专家建立档案,其实验结果显示,其检索性能好坏关键取决于识别专家姓名的能力。2006

21、年,balog在参加trec 2006的专家检索任务中,提出了专家语言模型,利用信息检索中的语言模型计算专家档案产生查询的概率,以此来给专家排序。liu等32在基于社区的问答服务中研究了专家检索。并通过构建不同大小的专家档案来进行研究,最后他们得出这样的结论,专家档案中包含的专家证据越多则越能提高检索性能。petkova 和croft在构建专家档案时,根据文档的格式将其分组,并依据每组中文档对专家档案的贡献给文档加权33。balog和rijke将专家档案分为两部分,即包括专家所擅长领域的“主题档案”和包括专家合作网络的“社会档案”,且在给每个候选专家建立档案时进行了过滤,当该专家在某个学科领域

22、里是排名靠前的专家时,该学科领域才被包含在该专家的档案中,这就使得在检索时可以返回该领域较有名气的专家,从而减少了冗余度34,但也使得漏检的概率大大增加。aleman-meza35提出了在构建专家档案时,结合语义网络词典来对专家的专长、所在机构、联系方式、社会关系和合作网络等信息进行描述,进而能够在一定的语义层次上进行专家检索。目前对基于专家档案的专家检索方法的探讨主要集中以下两个方面:(1)专家证据的质量基于专家档案的专家检索方法的大体思想是:专家档案的质量决定了专家检索系统的质量36-37,而专家档案的质量是由专家证据的质量和专家证据的结合方式和来决定的。目前,对基于专家档案的研究主要集中

23、在对专家证据质量的探讨。专家证据来源于文档,而对专家证据质量的探讨利用了文档质量的一些概念,而文档质量这一概念来源于网络信息检索领域中,故采用了衡量网络文档的一些方法来衡量专家证据的质量。在专家检索中,主要通过文档形式和文档内容来衡量其质量。衡量文档形式的方式如专家证据来源文档或者网页的链接(一般只考虑入链),url地址长度等。内容上主要是考虑候选专家姓名或者邮件地址与查询主题词之间的距离。对这方面研究具代表的是macdonald,他在38中,利用投票模型来识别高质量的专家证据,并提出:链接越多的文档专家证据的质量越高;url越短的网页越有可能是候选专家的个人主页,个人主页上一般都注明了候选专

24、家的个人兴趣爱好,故能提供高质量的专家证据;查询主题与专家姓名共现次数越多的文档,提供的专家证据质量越高,并利用投票模型来计算候选专家姓名和查询主题之间的距离。(2)查询扩展基于专家档案的方法实质上是将专家与查询主题之间的关系转换为文档与查询主题之间的关系。为了提高专家检索的准确度,一些研究者已将用于文档检索中的查询扩展运用到了专家检索中39-40。即在检索时,将排名靠前的专家档案作为伪相关集,进而利用伪相关集来扩展最初的查询 并为查询主题词重新设置权值。macdonald 和qunis通过给相关性很大的文档中的主题词加权来选择扩展词41,由于候选专家的档案和支持文档中包括了候选专家其它的与查

25、询主题不相关的专家领域,如果将这个文档作为查询扩展,则其它不相关的专长领域会影响到查询扩展的效果,从而使得最后扩展的查询主题失去了原有意思(即跑题)。macdonald 在文42中提出,将与查询主题相关性很大的文档作为查询扩展集,可以有效避免查询扩展中的跑题(topic drift)。peng等43将检索结果相关性排名前20的文档中的出现频次前20的检索主题词作为查询扩展词。跑题(topic drift)是将查询扩展运用到专家检索不可避免的现象,目前有一些衡量专家档案中跑题发生的次数44的方法,但还未提出一些衡量跑题(topic drift)是何时与如何发生的方法。总之,查询扩展的在专家检索中

26、的成功运用有助于发现相似专家,也有助于在组织中自动创建“专长路线图”。 3.2 基于文档的专家检索方法 图2 基于文档的专家检索流程45该方法基于这样的假设,一个专家出现在与查询主题相关的文档中,则该专家可能是与查询主题相关的专家,且出现的文档与查询主题的相关性越大,则是专家的可能性也就越大。基于文档的专家检索方法就是将候选专家与查询主题之间的关系转化为查询主题与文档之间的关系。目前,研究者认为基于文档权重归并的专家检索方法比基于专家档案的检索方法更有效46,主要是因为用于估算与候选专家相关度的文本内容比专家档案中的文本内容的歧义要少,因此信息的模糊性也较低47。图2是基于文档的专家检索流程图

27、,从图可知,该方法首先利用一般信息检索模型(如向量空间模型、概率模型、语言模型等)检索出与查询相关的文档,然后根据文档与查询的相关性给文档赋一定的权值,最后通过归并专家的相关文档权值来计算该专家的专长得分,并根据该得分为专家排序。基于文档的专家检索在研究候选专家与查询主题之间的相关性时,主要通过文档来传递这种相关性。目前主要是通过以下两种方式来实现这种相关性传递:(1)一步相关性传递一步相关性传递是基于这样的假设:即当用户查询到与主题相关的文档时,则用户就会停止其查询行为。候选专家与文档之间的一步相关性传递就是指当用户从文档集中检索到专家后,其查询行为就会停止,即当相关性从文档传递给候选专家后

28、,则相关性传递就停止了。基于文档权重归并的专家检索方法就是一步相关性传递的,它主要探讨以下几个问题: 支持文档的相关性,即在计算支持文档的权重时,一般是通过各种信息检索模型来计算文档与查询主题相似度。 查询词与候选专家的共现,这里所指的查询词与候选专家的共现,主要是指查询主题中的主题词与表示专家的特征信息(如专家的姓名、邮件地址等)文档中的共现情况,如共现频次,共现距离等问题。 专家得分的计算,目前通常利用文档权重的线性归并获得候选专家的得分48。(2)多步相关性传递一步相关性传递没有考虑到候选专家之间的联系和与候选专家有间接关系的文档。其实,当用户在文档中检索到候选专家后,他并不会停下来,而

29、是通过该专家推荐的其它的与查询主题相关的文档来查找这些文档中的新的专家,即当文档把相关性传递给候选专家后后,相关性传递不会终止,还会通过该专家推荐的文档将相关性传递给其它候选专家。基于此,serdyukov等49-50提出了在大的企业或者内部网络中建立由候选专家,组织文档和它们之间相互联系构成的“专长图”,通过该图来研究候选专家与文档之间的联系。采用该方法能识别出文档中没有直接提到的但与查询主题相关的专家。3.3 基于窗口的专家检索方法目前,一些学者们为了减少与候选专家不是很相关的文档的相关性传递,尝试采用基于窗口的专家检索方法。该方法的主要思想是:出现在专家姓名和邮件地址附近的信息比出现在其

30、它位置的信息与专家更相关。2005年以前,已有一些学者将该方法有效地运用到文档检索中。moffat等51提出,进行文档检索时,不返回整个文档,而返回只与查询相关文档的部分内容; conrad等52则通过名字等特征信息周围大小固定的窗口来对人进行描述,并进一步查找实体之间的联系;cao等53研究候选专家与查询主题词之间的共现模型时,通过对比基于文档的共现和基于窗口的共现子模型,得出后一个子模型优于前一个子模型,这为后面参与者采用基于窗口的专家检索方法提供了依据。基于窗口的专家检索主要有两种方法:一种方法,只考虑固定大小的窗口中的文本内容,如lu等54在参加trec 2006 会议时,采用窗口来建

31、立候选专家的描述。其基本思想是:利用专家姓名或者邮件地址附近的信息创建专家的档案;在trec 2008年,balog和rijke等通过设置不同大小的窗口扩展了该模型55。另一种方法,考虑在与候选专家相关的文档中,查询词和候选专家的相关性与文档中该查询词和表示专家姓名与邮件地址的词之间的词距离存在依存性,并利用距离公式探讨二者之间的这种依存性56。3.4 基于图的专家检索方法该方法基于这样的假设,即个体之间所发送的信息能够指示他在特定领域的专长。其主要思想是:在图g(v,e)(其中v表示图g中的结点,e表示图g中的边)中候选专家作为节点,专家之间的联系作为边,而这种联系可能是一种问答关系或者是合

32、作关系。可利用社会网络分析专家之间的联系,并进一步识别出专家。基于图的专家检索方法是基于文档的专家检索的一个子系列57。在基于候选专家之间的问答或者合作关系建立的社会网络中,可以有效地识别出某个组织或企业内的相关专家。该方法早期主要是是通过候选专家之间电子邮件的交流来分析专家之间的联系57-58,并通过利用hits算法计算每个候选专家的得分60-61。如mcleana等62提出了利用图的结构在项目小组成员之间传递专家证据,进而识别出专家。campbel等63提出了基于图的查找方法,该方法不但考虑了邮件的内容,还考虑了邮件之间的交流形式,并通过hits算法来分析邮件撰写者与邮件接收者之间的连接;

33、amored等64对这种邮件交流方法做了一些改进,先用hits算法识别专家社区,再进一步在专家社区中识别专家;zhang等65利用学术网络来表现候选专家之间的合著关系,并据此识别出潜在的专家及其个人详细信息(如联系方式等)。目前主要有两种建立图的方式:(1)基于电子邮件构建图基于候选专家之间发送和接收邮件来建立图是最普遍的一种方式。该方法的大体思想是:利用候选专家之间的邮件收发情况建立网络图,图中的节点由邮件发送者和接收者构成,他们之间的邮件收发关系作为图中的有向边(即从发送者指向接受者),建立图后,即可采用社会网络中的相关算法评估候选专家的相关度。如campbell 等66 基于入度用hit

34、s67算法为候选专家排序;zhang等68研究了如何从因专业问题讨论发送和接收邮件建立的连接中识别出与查询无关的专家;balog则试图利用图去查找隐含的专家和专家的详细信息69;也有学者采用聚类算法,将图分为几个社区,在每个社区中去识别专家70。不过chen等71在比较了基于文档的检索方法和基于hits的专家检索排序方法,发现前者优于后者,不过,两者结合后的效果如何,仍有待更深入的研究。邮件是体现组织或者企业内人与人之间交流的一种很好方式,也是专家检索研究的一种很好的语料,但是它的内容可能涉及到一些个人隐私或者保密的信息73,因此语料的构建有较大的难度。 (2)基于博客构建图博客已经成为网上一

35、种流行的信息发布和交流方式,其也被用于组织内或者企业内信息交流的平台,但与邮件不同的是,博客上的信息一般都是可以共享的信息,很少涉及到隐私问题,因此用博客构建专家检索语料库比邮件更容易。kolari等73认为博客也可以作为专家证据的来源,他们通过分析ibm内部网络的博客来识别企业内的专家,该方法的大体思想是:根据博客之间的相互评论和博客之间的链接来建立网络图g(v,e)(其中v表是撰写博客的人,e 表示的是博主之间的关联),再利用相应的算法计算节点的中心度,识别出专家。4专家检索排序方法 目前,仍没有一种通用的专家检索排序方法,通过分析参与者在trec 2005-2008所采用的排序方法,可以

36、将其排序方法分为基于语言模型的方法和基于非语言模型的方法。4.1 基于语言模型的排序方法 :下性 都是可以共享的信息,不专家检索问题的实质是:根据用户的查询q,返回与q相关的专家并排序返回给用户。依据查询似然的思想,专家排序可以看作是:用户在检索中提出的查询表达式q是针对某个特定的专家e生成的,而检索系统观察(接受)到用户提出的查询q后,其任务是预测可能生成q的专家并将其根据可能性大小排序返回给用户,即将专家按照p(e|q)排序,模型如公式1: 对于一次确定的专家检索过程而言,查询q对每个专家e 都是确定的,因此p(q)与排序无关,则如公式2p(e)则是每个专家的先验概率,可用来结合专家权重优

37、先级等因素。在这里,假设p(e)是均匀分布的,即与排序无关。因此,也可以用p(q|e)对专家排序,则如公式3: 在trec 2005中,cao等74和azzopardi等75介绍了两种用于专家检索任务的语言模型。它们被balog等76解释为候选专家模型(模型1)和文档模型(模型2)。这是目前较常用的专家检索模型框架,它们为基于此的扩展和新方法的产生提供了理论基础。(1)专家语言模型(模型1)模型1基于的是craswell等77提出的虚拟文档方法,fang等78将该模型称之为基于专家档案的模型,petkova和croft则将其称之为查询独立法(query-independent approach

38、)79。该模型的主要思路为:根据每个专家e,估算一个专家语言模型,利用p(q|e),计算专家e产生q的概率,如公式4: 通常情况下,查询q是通过一系列词来表示的,tf(,q)表示出现在查询q中的词频。该公式假设各个词从中发生的事件是相互独立的。p(|)表示的是候选专家e写某种东西的概率。若一个候选专家对某方面谈论得越多,则他(她)越有可能是这方面的专家。给定候选专家e,生成查询q类似于询问该专家是否有可能写了与查询主题相关的东西。关于,可以认为是由与专家e主题相关的索引词分布模型和背景语言模型p(t|c)的插值,如公式5: petkova80提出的层次语言模型和cao等81提出的概率方法没有考

39、虑文档级的专家证据,而是基于窗口研究专家证据。petkova和croft介绍了一种新的文档表示方法,该方法强调了与实体临近的文本内容,并给文档中的命名实体和查询词之间的依存建模,提出了一种基于位置信息的、以候选专家为中心的文档表示方法 ,该方法类似与基于窗口的模型82。balog 等83在对此进行了扩展,并试图从万维网中获得专家证据。 (2)文档语言模型(模型2)该模型假定候选专家与查询之间是相互独立的。该模型将查询的生成过程看成如下两个步骤:选择与候选专家e相关的文档;在中,用户针对文档中专家的相关信息提出查询q。于是查询q的生成过程被划分到各个文档中去,如公式6:该思想可以表达为:查询q是

40、针对每个文档生成的。在该模型中,p(|e)的计算与模型1是相同的。而p(q|,e)的计算可以简化为p(q|),相对于模型1,模型2的优点在于可以对查询词之间的依存进行建模,而模型1由于首先引入索引词之间的独立假设,因此无法对索引词之间的依存性进行考察。而模型2保留了完整的查询q和每个文档,从而可以利用各种文本检索中考察查询索引词依存的方法。balog等84的实验表明模型1优于模型2,然而目前大多数的专家检索模型仍沿用了模型2的框架。petkova 和croft对该框架进行了另外的扩充,它们采用了伪相关反馈(即查询扩展),对查询主题进行建模,用于排序文档和候选专家85;fang等86不是从文档级

41、别而是从段落或者文档片段来考虑文档与候选专家之间的关系;zhu 等87利用该模型时,考虑了文档级别和文档的内部结构;macdonald等88和petkova等89提出了一种计算检索词与候选专家之间依存性的方法;petkova等90详述了候选专家-文档之间的关系; serdyukov 等91研究了专家检索中的相关性传递;fang等92也提出了一个类似的基本框架,把相关性模型运用到专家检索中,利用语言模型直接对专家检索的相关性问题进行建模,并使用概率排序原则进行排序。上述特点使得fang等人的框架在立意上高于balog等人,但具体到实现方法上仍然采用了类似模型2的手段。综合分析模型1和模型2,以及

42、分别建立在模型1和模型2基础上的其它模型,都考虑到了候选专家和文档之间的联系,目前,也有学者将模型1和模型2结合起来,如serdyukov等提出了将专家语言模型和文档语言模型结合起来的person-centric方法。4.2 其它模型。档 模型(1)cdd(candidate description document)模型该模型借鉴了概率模型的思想,对每个文档中专家共现文档片段的相关性进行加权,并将片段归并为专家档案。在各种异构数据集中抽取对候选专家的描述并形成候选专家的描述文档(cdd),因此给定查询,候选专家是专家的概率可以定义为专家的描述文档与查询的匹配概率,如公式7: 其中,c 表示的

43、是候选专家,c表示的是候选专家c的理想描述文档。在该模型中找到了三个决定cdd与查询主题相关性的三个启发式方法: 专长强度(ei):候选专家所拥有的与查询主题相关的知识总量。 专长区分(ed):候选专家所拥有的专长能将该专家与其他专家区分开来的程度。 有效专长比(eep):与查询主题有关的知识与候选专家所拥有的所有知识之比。利用上述三个指标,计算权值,并根据权值的大小给每个候选专家描述文档进行排序,如公式8。fu等采用该模型取得了良好的检索效果,但是由于他们在实验中还采用了其他的辅助方法,故无法对cdd模型和基于语言模型方法的专家检索效果进行客观的评价与比较。(2)投票模型 macdonald

44、等93提出了一种基于文档模型的投票算法,该算法把专家检索看成是一个投票过程,当检索出一个与查询主题相关,且与候选专家相关的文档时,则认为该文档为该专家进行投票,最后依据每个候选专家所得票数之和进行排序。在94中将12种投票方法运用到了专家排序中,实验结果显示,expcombmnz是最好的投票方法,如公式9:r(q)表示的是与查询q相关且排序后的文档集,score_cand(c,q)表示的是给定查询q,候选专家c的相关性分数。profile(c)表示含有候选专家c的文档集,score(d,q)表示候选专家在文档集r(q)中的相关性分数。|r(q)profile(c)|表示同时存在于候选专家档案和

45、r(q)中的文档数。该模型类似于balog等95提出的模型2。目前研究结果表明,基于语言模型的专家检索在效果上优于投票模型。5专家检索效果的评价专家检索的评价比文档检索效果的评价要困难,主要是因为在文档检索中,评论者能够通过阅读文档来判断文档与查询之间的相似性。但专家检索返回的只是一些专家名,无法直接通过这些专家名判断其与查询主题的相关性。5.1专家检索的三种评价方法 目前主要采取如下三种方法评价专家与查询主题的相关性:(1)原有实况(pre-existing ground truth):该方法基于事实评价专家和查询主题的相关性。如在trec 2005的专家检索任务中,查询主题就是w3c工作组

46、的名字,要求参与系统能够预测每个工作组的成员。该方法的评价依赖于候选专家已知的分组情况,当系统采用了非工作组名的其它词汇构成查询时,则不能用该方法进行评价。(2)支持文档证据(supporting evidence):这是trec 2006 专家检索任务中提出的一种方法。该方法要求每个参与系统返回一些与候选专家专长相关的且排序的一些支持文档。通过判断支持文档与查询主题之间的相关性来评价该参与系统的性能。相关性评价分为以下两步:首先,要求参与评估的人的在做出评论之前,阅读检索系统给每个候选专家返回的支持文档,评估者依据该支持文档与查询主题之间的相关性给该文档加上标志,最后综合分析每个评估者对每个

47、候选专家支持文档的评价情况,获得该专家检索系统的检索准确度。(3)候选专家问卷调查:询问数据集中每个候选专家是否拥有与查询主题相关的专长。该方法不适合数据集中有大量候选专家的情况,且评估者也不可能了解每个候选专家的兴趣。trec 2007的专家检索任务就是通过运用该方法的一种衍生方法在中小型企业环境中 进行评价。5.2 评价指标 类似于传统的文档检索系统,可以通过采用传统检索评价指标如准确率和召回率及其扩展来评价专家检索系统的准确性。trec专家检索采用的就是传统的trec评价指标,如map、r-precision、pk等,关于这些指标,本文不再赘述。6结束语本文详细介绍了专家检索的数据集来源

48、、专家检索方法、专家检索模型及评价方法。从上文可以看出,经过多年的努力,专家检索研究取得了很大进展。trec始于2005年的专家检索任务经过四年的成功召开,于2008年终止。然而,这不意味着专家检索研究的终结,实际上trec 2009的实体检索任务(entity search track)就可以被认为是专家检索任务的一种延续,它通过以下两个方面对专家检索进行了扩展: 检索的类型从人扩展到各种实体; 数据集的来源从企业内部网扩展到互联网。目前,学者们正在研究如何将专家检索的方法和模型运用到实体检索中。此外,在多源异构数据集的使用与整合、语义分类词表及本体的引入、社会网络对专家专长的影响、专家专长

49、的演化等方面,仍有待于进一步的深入研究。参考文献1,10,26 serdyukov p. search for expertise going beyond direct evidence.2009. 2 yimam-seid d,kobsa a. expert finding systems for organizations: problem and domain analysis and the demoir approach j. journal of organizational computing and electronic commerce, 2003, 13(1):1-24.

50、 3 陆伟,赵浩镇. 基于文档权重归并法的企业专家检索.现代图书情报技术,2008(7):38-42.4,88 macdonald c, ounis i. voting techniques for expert searchj. springer,2008,16(3):259-280.5 davenport th, prusak l. working knowledge: how organizations manage what they knowj.harvard business school press, boston, ma, 1998.6 maron me, curry s, t

51、hompson p. an inductive search system: theory, design and implementationj. ieee transaction on systems, man and cybernetics, 1986, 16(1):2128.7,8.12 balog k, soboro i, thomas p, craswell n. overview of the trec 2008 enterprise track.9,48 jiepu j, wei l, dan l. csir at trec 2007 expert search taskc.

52、in proceedings of the 16th text retrieval conference, 2007. 11,13,15 serdyukov p, robin a, hiemstra d. university of twente at the trec 2008 enterprise track: using the global web as an expertise evidence sourcec. in proceedings of the2008 text retrieval conference (trec 2008), gaithersburg, md, 200

53、8.14 chu-carroll j, averboch g, duboue p, gondek d, murdock jm, prager j, hoffmann j, wiebe j. ibm in trec 2006 enterprise tackc. in proceedings of the 15thtext retrieval conference, 2006.16 balog k, bogers t, azzopardi l, de rijke m, van den bosch a. broad expertise retrieval in sparse data environ

54、mentsc. in proceedings of the 30th annual international acm sigir conference on research and development in informa-ion retrieval, amsterdam, netherlands, 2007:551-558.17 jiang j, s h, lu w. expertise retrieval using search engine resultsc. in proceedings of the 16th text retrieval conference, 2008.

55、18 streeter la, lochbaum ke. an expert/expert locating system based on automatic representation of semantic structure c. in proceedings of the 4th ieee conference on artificial intelligence applications, san diego, california, usa, 1988: 345-349.19 schwartz mf, wood dcm. discovering shared interests

56、 using graph analysis j. communications of the acm, 1993, 36(8): 78-89.20 krulwich b, burkey c. the contactfinder agent: answering bulletin board questions with referrals c. in proceedings of the 13th national conference on artificial intelligence (aaai96) c, portland, oregon, 1996: 10-15.21 pikrakis a, bitsikas t, sfakianakis s, hatzopoulos m, de roure dc, hall w, reich s, hill gj, stairmand m. memoir-software agents for finding similar users by trails c. in: proceedings of the 3rd international conference on the practical applications of intelligent agents and multi-agent technology

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论