(通信与信息系统专业论文)基于聚集模型的企业专家检索系统研究.pdf_第1页
(通信与信息系统专业论文)基于聚集模型的企业专家检索系统研究.pdf_第2页
(通信与信息系统专业论文)基于聚集模型的企业专家检索系统研究.pdf_第3页
(通信与信息系统专业论文)基于聚集模型的企业专家检索系统研究.pdf_第4页
(通信与信息系统专业论文)基于聚集模型的企业专家检索系统研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(通信与信息系统专业论文)基于聚集模型的企业专家检索系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复旦大学硕士研究生学位论文摘要 基于聚集模型的企业专家检索系统研究 摘要 随着信息量的骤增,如何在一个企业或组织范围内有效地管理知识、组织 信息,从而提高企业管理者的领导能力和员工的工作效率,成为越来越迫切的 需求。这使得企业信息检索获得越来越多的关注。专家搜索是企业信息检索中 的一个重要研究课题。对于一个大型的企业组织来说,能够自动地找出组织内 部某一领域内的专家是十分有用的,例如咨询相关问题、组建研究小组等等。 本文针对当前已有的企业专家检索模型进行研究和改进,提出了一种新型 的、基于聚集模型的专家检索系统,旨在解决现有专家检索模型存在的查询准 确率偏低的问题。 具体地,本文的主要工作主要体现在以下几个方面: 第一,本文介绍了目前应用最广泛的企业专家搜索模型:文档模型和候选 者模型,并对两者的优缺点进行了系统的比较和详细地分析; 第二,本文提出将聚集模型作为企业专家搜索的解决方案。与现有的文档 模型和候选者模型不同,聚集模型对候选者进行建模时不再局限于一类能够证 明其技能的相关信息,而是通过从企业知识库中识别、提取出多种相关信息, 例如,员工的技能简历,与员工相关的所有文档,以及具有相同技能的相似专 家等等,从而对员工的知识和技能进行建模。然后,这些候选者与给定检索词 之间相关的概率就由员工的聚集模型推出这个检索词的概率决定。在估算概率 时,我们采用了信息检索中得到广泛使用的语言模型。 第三,在聚集模型的框架下,基于文档模型和候选者模型,提出两种方法 分别对这两种模型进行了改进:针对文档模型,提出一种基于加权的文档一候选 者联系加以改进;针对候选者模型,提出一种基于滑动窗口和i d f 过滤的方法加 以改进。然后,这对两种改进的模型开展了相关实验进行评价。 最后,本文首次将相似专家( 拥有相似技能的候选者) 引入了专家检索, 通过发掘候选者之间存在的联系,以此来提升专家检索系统的查询准确度。相 应地,本文对相似专家的引入对专家检索系统的影响也开展了实验进行分析和 评价。 复旦大学硕士研究生学位论文 摘要 本文通过使用t r e c 提供的数据集和测试平台,对聚集模型的有效性进行了 测试与评价。实验结果表明:本文所提出的基于聚集模型的专家检索系统能够 有效地对候选者的知识和技能进行建模,从而提供比现有专家检索系统更好的 性能。 关键词:信息检索,企业搜索,专家检索,语言模型,相似专家 中图分类号:t p 3 9 1 3 4 复旦大学硕士研究生学位论文 a g g r e g a t i o nm o d e l sf o rp e o p l ef i n d i n gi ne n t e r p r i s ec o r p o r a a b s t r a c t a l o n g w i t ht h ei n f o r m a t i o ne x p l o s i o n ,e m e r p r i s es e a r c hw h i c he n a b l e s g o o d k n o w l e d g em a n a g e m e n ta n di n f o r m a t i o no r g a n i z a t i o nt oi m p r o v et h el e a d e r s h i p c a p a c i t yo f t h em a n a g e r sa n dt h ee f f i c i e n c yo ft h es t a f fi sr e c e i v i n gm o r ea n dm o r e a t t e n t i o n e x p e r ts e a r c hi so n e o f t h em o s tv a l u a b l ed o m a i n si ne n t e r p r i s er e t r i e v a la r e a f i n d i n ga u t h o r i t a t i v ep e o p l eo fag i v e nf i e l da u t o m a t i c a l l yw i t h i nal a r g e o r g a n i z a t i o ni sq u i t eh e l p f u li nv a r i o u sa s p e c t s ,s u c ha sp r o b l e mc o n s u l t i n ga n d t e a m b u i l d i n g t h es e a r c ha c c u r a c yo ft h ee x i s t i n ge x p e r tf i n d i n gs y s t e mi sr e l a t i v e l yl o w i nt h i s p a p e r , a n o v e la g g r e g a t i o nm o d e li sp r o p o s e dt os o l v et h ep r o b l e mo f f i n d i n g a u t h o r i t a t i v ep e o p l e t h em a i nc o n t r i b u t i o n so ft h i sd i s s e r t a t i o na r es u m m a r i z e da s f o l l o w s : f i r s t l y , w ei n t r o d u c et w oo ft h em o s tp o p u l a re x p e r ts e a r c hm o d e l s :d o c u m e n t m o d e la n dc a n d i d a t em o d e la n dh a v eaf u r t h e rd i s c u s s i o no ft h e i ra d v a n t a g e sa n d d i s a d v a n t a g e s s e c o n d l y , w ep r o p o s ea na g g r e g a t i o nm o d e l t os o l v et h ep r o b l e mo fe n t e r p r i s e e x p e r ts e a r c h c o m p a r e dt oe x i s t i n gc a n d i d a t em o d e la n dd o c u m e n tm o d e l ,i nt h i s m o d e l ,v a r i o u sk i n d so fr e l a t e di n f o r m a t i o ni nt h ee n t e r p r i s er e p o s i t o r yi sa s s e m b l e d t om o d e lt h ek n o w l e d g ea n ds k i l l so fac a n d i d a t e ,f o ri n s t a n c e ,t h ep r o f i l ew h i c h g i v e sag e n e r a ld e s c r i p t i o no f t h ec a n d i d a t e ,d o c u m e n t sr e l a t e dw i t ht h ec a n d i d a t e , p e o p l ew i t h s i m i l a ri n t e l l e c t u a ls t r u c t u r ea n ds oo n t h e nt h ec a n d i d a t ei sm o d e l e da s am u l t i n o m i a lp r o b a b i l i t yd i s t r i b u t i o no v e rt h e s ec o l l e c t e de v i d e n c eo fe x p e r t i s ea n d c a n d i d a t e sa l er a n k e da c c o r d i n gt ot h ep r o b a b i l i t yo ft h et o p i cg e n e r a t e db yt h e i r m o d e l s w h e ne s t i m a t i n gt h i sp r o b a b i l i t y , w ea d o p tl a n g u a g em o d e l w h i c hh a sb e e n w i d e l yu s e di ni n f o r m a t i o nr e t r i e v a l t h i r d l y , i nt h ef l a m eo f a g g r e g a t i o nm o d e l ,w et r yt oi m p r o v et h ee x i s t i n g d o c u m e n tm o d e la n dc a n d i d a t em o d e lb yi n t r o d u c i n gt w on o v e lm e t h o d s :a 5 复旦大学硕士研究生学位论文 w e i g h t e dc a n d i d a t e d o c u m e n ta s s o c i a t i o nf o rd o c u m e n tm o d e la n da r e s u m e - b u i l d i n gm e t h o db a s e do ns l i d i n g - w i n d o wa n di d ff i l t e r i n gf o rc a n d i d a t e m o d e l 1 1 1 啦w ec a r r yo u te x p e r i m e n t st oe v a l u a t et h ee f f e c to ft h e s et w om e t h o d s f i n a l l y , s i m i l a re x p e r t ( t h o s ec a n d i d a t e s 、村n ls i m i l a rk n o w l e d g ea n ds k i l l s ) i s i n t r o d u c e di n t o t h ee x p e r ts e a r c hs y s t e mf o rt h ef l r s tt i m e w et r yt oi m p r o v et h e p e r f o r m a n c eo f t h ep e o p l ef i n d i n gs y s t e mb ym a k i n gu s eo f t h er e l a t i o n s h i pb e t w e e n c a n d i d a t e s a c c o r d i n g l y , w ea l s od os e v e r a le v a l u a t i o ne x p e r i m e n t st of i n do u tt h e e f f e c to f t h ei n t r o d u c t i o i lo fs i m i l a re x p e r t e x p e r i m e n t a lr e s u l t so i lt r e cb e n c h m a r ke n t e r p r i s ec o r p o r ad e m o n s t r a t et h a t o u rm o d e lo u t p e r f o r m sc u r r e n ts t a t e o f - t h e a r ta p p r o a c h e sb ya l a r g em a r g i n , k e y w o r d s :i n f o r m a t i o nr e t r i e v a l ,e n t e r p r i s es e a r c h ,e x p e r tr m d h a g ,l a n g u a g e m o d e l ,s i m i l a re x p e r t 6 复旦大学硕士研究生学位论文 第一章引言 1 1 研究背景 第一章引言 信息检索( i n f o r m a t i o n r e t r i e v a l ,i r ) 是指使用一定的检索模型或算法,当用户 给出查询请求时,从结构化的或非结构化的数据中获取相关信息的过程 8 1 。随 着信息化、网络化社会的到来,信息检索已经深入到人类生活、研究、学习和 生活的各个方面。 在2 0 世纪七十年代和八十年代期间,信息检索领域的焦点主要集中在文本 检索,也就是说找出与检索信息最相关的文本【1 3 】。而随着信息量的急剧扩大, 信息检索中除了文本检索之外的领域也逐渐获得了越来越多的关注,例如实体 检索( e n t i t yr e t r i e v a l ) 。实体检索与传统的文本检索有着许多不同。实体并不是直 接地直观地表示出来的,信息检索系统需要间接地从文本中识别出实体来,这 给信息检索和信息提取带来了新的挑战【1 2 】。而本文关注的就是一种特殊的实体: 人物。由于人物搜索系统的目的通常是搜索出与关键词最相关的人物,因此也 常常被称为专家搜索。 事实上,现今许多商用系统都已经提供了专家搜索的功能,借助这些专家 搜索系统可以很方便地找到与给定信息相关的人物,例如寻找同学,朋友,或 者搭档等等阎【2 6 1 。但是本文的主题与上述的系统不同,我们的目标是在企业环 境中寻找具有某项技能的专家。 企业专家搜索系统的意义在于,对于一个大型的企业或组织来说,员工们 所具有的知识和技能是一笔巨大的无形资产和财富。因此,如何有效地管理员 工们的知识和技能是十分重要的,也具有十分重要的实际意义瞄j 。 专家搜索系统的目标是要以下回答两个问题:“谁具有这项技能? ”以及 “他具有什么技能? ”【6 】。专家搜索可以应用在诸多场景中,例如在一个组织 内部,员工可能经常会遇到某个他所不擅长或不熟悉的领域的问题,如某种编 程语言、国际法律等等,此时便可以借助于专家搜索系统,找到这个领域的专 家进行相关的咨询。另外,一个公司内部需要为某项工程或研究任务成立小组 时,管理者可以通过专家搜索系统找到项目所涉及领域的专业技能人员,按照 7 复旦大学硕士研究生学位论文第一章引言 他们各自的专长,将他们分配到相应的职责部门,委派不同的工作任务,从而 使项目得以正常有效地开展。 1 2 研究现状 专家搜索系统的关键是在某个给定领域中,如何衡量一名候选者( 即员工) 的技能和知识水平。传统的企业专家搜索系统大多是基于数据库的解决方案, 例如微软开发的s p u d 系统【1 6 1 ,h e w l e t t - p a c k a r d 开发的c o n n e xk m 系统【l j ,+ 它 们将企业内部每个候选者的基本信息和技能用人工维护的方式存储于数据库 中。在需要搜索相关专家的时候,便对数据库进行查询,以获得相关人员的信 息。这些基于数据库的方法虽然简单易用,但是却存在着很大的缺陷。因为在 一个庞大的企业内部,人员流动十分频繁,而且员工的技能也会随着时间的增 长而改变。因此人工维护这个数据库的代价是十分巨大的,而且也无法保证数 据的时效性。因此,自动化的专家信息检索系统很快在专家搜索领域占据了主 导地位3 8 1 。 自动化的专家搜索系统能够主动地对文档集合中的内容进行分析,对知 识进行识别和提取,从而为专家具备的知识和技能提供有用的证据信息,并最 终将这些信息应用于专家搜索。自2 0 0 5 年起,随着文本信息检索会议( t e x t r e t r i e v a lc o n f e r e n c e ,t r e c ) 将专家搜索列入正式的检索任务并为研究者提供统 一和开放的平台,自动化的企业专家搜索系统得到了越来越多的关注,随之产 生了诸多的解决方案【3 】【1 5 】【4 。 现有的自动化的专家搜索系统解决方案,根据它们的结构特性,基本上可 以分为两大类:文档模型和候选者模型【5 】。 在文档模型中,首先对每个候选者,在企业知识库中找出与其相关的所有 文档。然后,在候选者和与其相关文档之间建立一定联系,用于表示候选者与 文档之间关系的紧密程度,如图【1 1 】所示。接着,在给定的查询下,使用某种 文本信息检索模型对文档进行评价,结果使得每个文档都有一个得分,用于表 示文档与给定查询之间的相关程度。最后对每个候选者,将其各个相关文档的 得分以某种形式结合起来,得出候选者的最终得分。在这种基于文档模型的专 家搜索系统中,候选者与用户输入查询之间的相关程度就由这个最终得分来衡 复旦大学硕士研究生学位论文第一章引言 量。在文档模型中,有两个关键步骤:联系的建立和文档的评价。这个两个步 骤对于系统最终的性能起着重要影响【4 9 】。 图1 1 文档模型 从t r e c 会议每年发布的检索评价结果来看,采用文档模型的专家搜索系 统占了较大比重【l5 】【4 1 】。但是t r e c 2 0 0 7 所发布的专家搜索任务的评测结果中, 几个排名靠前的小组采用的均是候选者模型【3 】。 候选者模型首先对每位候选者从企业知识库中识别、提取出其相关信息, 然后利用这些信息构建一个知识说明文档,对候选者所拥有的知识和技能进行 描述,这个文档就相当于候选者的“简历”。当系统为所有候选者都构建简历完 成之后,候选者与用户所提交话题的相关程度就取决于这个“简历 和这个话题 的相关程度。最终,系统返回相关程度最高的候选者作为专家返回给用户。 可以看出,候选者模型直接使用简历中包含的内容对候选者的知识和技能 进行建模,如图【1 2 】所示。因此,简历的构建方法以及候选者的知识建模对于 最终的专家搜索系统的性能起着决定性的影响【3 2 】。简历对候选者的知识和技能 越是准确和全面,最终专家检索系统的性能和查询准确度就越高;相反,如果 在相关信息的识别和提取过程中将无关的噪声信息或者将其他候选者的相关信 息错误地包含进简历,将对候选者知识和技能描述的准确度造成干扰和破坏, 导致简历质量的现将,最终将损害专家搜索系统的查询准确度。 复旦大学硕士研究生学位论文第一章引言 交挡 1 3 论文的贡献和主要创新点 信急识荆 和攫取 墨冷i 候选者1 的简历 饿选警2 的筒历 捌客警枷历 图1 2 候选者模型 企业专家搜索系统的核心问题是对候选者的知识和技能建立模型,然后根 据这个模型衡量候选者与某个查询之间的关系,从而找到相应领域的专家j 。 而为了对候选者的知识和技能建立模型,就必须使用某种方法从企业知识库中 提取候选者的相关信息。现有的文档模型和候选者模型都仅仅使用从企业知识 库中提取的一类证据信息:文档模型使用候选者的相关文档集合,候选者模型 则使用候选者的个人简历。然而,单单使用一种类型的证据信息并不能很准确、 全面地描述一位候选者的知识和技能。在本文中,我们试图找出使用一种更有 效的方式对候选者的知识和技能建模。 更详细地,为了能够更准确、详细地表示描述候选者所具备的专业技能和 知识结构,提高专家搜索系统的检索性能,我们提出将聚集模型作为企业专家 搜索系统的解决方案。与文档模型和候选者模型不同,聚集模型通过把从企业 知识库中搜集到的多种类型的证据信息集合在一起,对候选者的知识结构建立 复旦大学硕士研究生学位论文 第一章引言 模型。在保证搜集到的信息都与候选者密切相关的前提下,通过将多种相关信 息聚集在一起,我们希望聚集模型能够更详细而全面地描述候选者所具有的知 识和技能,从而提高专家搜索系统的性能。 在本文中,我们主要使用以下三种类型的证据信息:个人简历、相关文档 集合和相似专家。在构建个人简历的过程中,我们采用了一种基于滑动窗口和 i d f 过滤的方法来更准确地在文档中对候选者的相关信息进行定位和提取,同时 尽可能地排除噪声信息以降低对专家搜索系统性能的损害:在对候选者与其相 关文档建立关联时,我们采用了一种加权方法来对候选者和其相关文档之间的 关联进行量化地描述。而相似专家则是首次被引进到专家搜索系统,我们希望 通过利用候选者之间在知识结构上的某种相似性,在不同的候选者之间建立联 系,以提升专家搜索系统的性能。在搜集到上述三类候选者的相关信息之后, 再将它们集合到聚集模型的框架之下,从而对候选者的知识建立模型。 此外,聚集模型具有很好的可扩展性。在聚集模型的框架下,除了以上三 类证据信息之外的其他类型的证据信息也能够灵活地包含进来。 最后,我们在文本检索会议t r e c ( t e x tr e t r i e v a lc o n f e r e n c e ) 提供的数据集和 实验平台对基于聚集模型的专家搜索系统性能进行了评测。 1 。4 论文组织 本文的具体内容组织如下: 第一章绪论。简略地介绍了企业信息检索的发展现状,企业专家搜索系统 现有的解决方案。最后介绍了本文研究的主要内容和文章的组织。 第二章信息检索的相关技术。本章着重介绍了信息检索的三种经典模型: 基于相似度的模型、概率模型和推理网络模型。除此之外,本章还简要介绍了 查询扩展技术,企业信息检索、企业专家搜索以及检索模型的评价标准等等。 第三章聚集模型。这章对基于聚集模型的专家检索系统进行详细的介绍, 首先介绍了聚集模型的总体框架和专家评价算法,然后依次介绍了基于滑动窗 口和i d f 过滤的简历生成方法、基于加权的文档一候选者关联的构建方法和相似 专家的选择方法,对个人简历、相关文档集合和相似专家的评价方法展开了具 体的分析,并给出详细的公式推导过程。 复旦大学硕士研究生学位论文第一章引言 第四章实验结果及分析。本章介绍首先实验环境的搭建过程,包括使用的 测试数据源、建立文档索引的工具、专家搜索系统的实现过程以及用于评价系 统性能的评价指标。接着,为了对基于聚集模型的专家检索系统的有效性进行 验证,我们在实验平台上开展了一系列的实验并对实验结果进行分析。通过一 系列的对比试验,研究了基于滑动窗口和i d f 过滤的简历生成方法、基于加权的 文档一候选者关联和相似专家这三者对专家检索系统性能的影响。最终也通过实 验,对聚集模型的有效性进行研究和评价。 第五章总结和未来工作。总结全文,提出论文中可以改进的地方,并对未 来工作进行了展望。 最后为参考文献和致谢部分。 1 2 复旦大学硕士研究生学位论文 第二章信息检索相关技术 2 1 信息检索 第二章信息检索相关技术 信息检索的研究领域十分广泛,涉及人工智能、自然语言处理、分布式处 理、数据挖掘、数据库、认知学、语言学等诸多领域的理论和技术,它是伴着 近代科学技术发展和信息量的急剧膨胀而兴起的一个研究领域【1 3 】。 2 0 世纪5 0 年代初期,信息检索主要被应用于图书情报领域,其目的是获取 有价值的情报或资料,因此信息检索被称为“情报检索”;此后随着相关技术 的不断发展、信息检索应用领域的不断扩大,“信息检索 逐步取代了原来的 “情报检索”,使该领域的内涵和研究范围得到了进一步的扩展【8 】。2 0 世纪9 0 年代以后,互联网技术的迅速发展和全面普及大大促进了信息检索技术的发展, g 0 0 g l e 、y a h o o 、百度等网络搜索引擎成为用户从信息海洋中获取信息的有力工 具,获得了巨大成功。在未来,信息检索将获得越来越多的关注,并朝着更加 灵活、实用、智能化的方向发展。 文档案龠 旬一一 曰卜一 返回j l 一 用户蠢诲 _ 呻 _ 一 图2 - i 信息检索系统 复旦大学硕士研究生学位论文 第二章信息检索相关技术 现代信息检索包括文档预处理、建立索引、查询表示和检索排序几个主要 模块【1 9 1 ,如图 2 - 1 3 所示。 文档预处理通常是指在建立索引之前预先对文档进行一些处理工作,包括 文档内容的解析、文档格式的转换、噪声信息的过滤、无用标签的去除等等。 经过预处理,便可以对文档建立索引。索引的建立是信息检索的基础。接着, 当用户给出某个查询时,系统便将查询转换成一定的表示形式,再通过某个信 息检索模型,对索引中的文档进行分析和评价。最后根据评价所得的分数值, 对文档进行排序并将结果返回给用户。 2 2 信息检索模型 信息检索的目的是找到与查询相关的文档,所以信息检索系统必须使用某种 模型来对一篇文档和查询之间的相关度。在已有的众多信息检索模型中,可以 大致分为三类:基于相似度的模型、概率模型和推理网络模型h 。 下面我们分别对上述三类模型作简要的介绍,其中我们将重点对概率模型中 的语言模型进行介绍。 2 2 1 基于相似度的模型 在基于相似度的模型中,给定查询和文档使用某种形式表示,那么文档与 查询之间的相关程度就通过这种表示下查询与文档之间的相似程度来衡量。这 两者表示的相似度越高,文档与查询的相关程度也就越高。其中最典型的模型 就是向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 。 向量空间模型使用一个高维度的词向量来表示文档和查询,而每个词都被 分配一个权重值来表示这个词在文档或查询的重要性。给定一个查询,文档与 此查询之间的相似度就可以通过计算相应两者向量之间夹角的余弦来衡量。具 体地,一个文档d 可以表示成向量:d = ( t l ,t 2 ,t n ) ,其中n 为d 中词语的总数,而 t :则是词语i 在d 中的权重。同样地,查询q 也可以用一个向量来表示: q - - - ( q , ,q 2 ,q m ) 。这样,文档与查询之间的关联程度就可以通过计算两个向量之 间的夹角余弦来度量p j : 1 4 复旦大学硕士研究生学位论文 第二章信息检索相关技术 现代信息检索包括文档预处理、建立索引、查询表示和检索排序几个主要 模块【1 9 1 ,如图 2 - 1 3 所示。 文档预处理通常是指在建立索引之前预先对文档进行一些处理工作,包括 文档内容的解析、文档格式的转换、噪声信息的过滤、无用标签的去除等等。 经过预处理,便可以对文档建立索引。索引的建立是信息检索的基础。接着, 当用户给出某个查询时,系统便将查询转换成一定的表示形式,再通过某个信 息检索模型,对索引中的文档进行分析和评价。最后根据评价所得的分数值, 对文档进行排序并将结果返回给用户。 2 2 信息检索模型 信息检索的目的是找到与查询相关的文档,所以信息检索系统必须使用某种 模型来对一篇文档和查询之间的相关度。在已有的众多信息检索模型中,可以 大致分为三类:基于相似度的模型、概率模型和推理网络模型h 。 下面我们分别对上述三类模型作简要的介绍,其中我们将重点对概率模型中 的语言模型进行介绍。 2 2 1 基于相似度的模型 在基于相似度的模型中,给定查询和文档使用某种形式表示,那么文档与 查询之间的相关程度就通过这种表示下查询与文档之间的相似程度来衡量。这 两者表示的相似度越高,文档与查询的相关程度也就越高。其中最典型的模型 就是向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 。 向量空间模型使用一个高维度的词向量来表示文档和查询,而每个词都被 分配一个权重值来表示这个词在文档或查询的重要性。给定一个查询,文档与 此查询之间的相似度就可以通过计算相应两者向量之间夹角的余弦来衡量。具 体地,一个文档d 可以表示成向量:d = ( t l ,t 2 ,t n ) ,其中n 为d 中词语的总数,而 t :则是词语i 在d 中的权重。同样地,查询q 也可以用一个向量来表示: q - - - ( q , ,q 2 ,q m ) 。这样,文档与查询之间的关联程度就可以通过计算两个向量之 间的夹角余弦来度量p j : 1 4 复旦大学硕士研究生学位论文 第二章信息检索相关技术 j 砌( d ,g ) = 了害; 式( 2 1 ) 训d ig | i 在计算词语在文档或者查询词中的权重时,通常运用t f i d f 公式,其中, t f ( t e r mf r e q u e n c y ) 代表词频,用于度量一个词语在一个文档中的重要性, i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) 代表逆向文档频率,用于度量一个词语的普遍 重要性【b 1 。 w ( t ,d ) = t f ( t ,d ) 拳g a y ( t )式( 2 2 ) 其中,w l 、d ) 为词语t 在文档d 中的权重,而t m ,d ) 为词t 在文档d 中的词频, i d f ( t ) 是词语t 在整个文档集c 中的逆向文档频率,i d f ( t ) = n n t ,n 是整个文档集合 的文档数目,n 。是包含词语t 的文档数目。 向量空间模型假设词语与词语之间是不相关的,从而对文档中的关键词之 间的复杂关系做了简化处理,使模型具备了可计算性。但是事实上,自然语言 中的词语或短语之间存在着十分密切的联系,向量空间模型将复杂地语义关系 归结为简单的向量结构,会丢失许多有价值的语义信息。针对这个问题,潜在 语义索引技术l s i ( 1 a t e n ts e m a n t i ci n d e x i n g ) 1 9 1 :7 】进行了改进,以获取深层潜藏的 语义结构。 2 2 2 概率模型 概率模型是r o b e r s o n 和j o n e s 于1 9 7 6 年提出,它将信息检索的问题转化为一 个概率的估算过程【3 4 1 :给定用户查询q ,概率模型假设文档集合中存在某个文档 子集合可以作为查询q 的答案集,记为r 。对所有文档估算其是相关文档的概率 p ( r i d ,q ) ,并按概率的大小从高到低对文档进行排序。如果用r 表示文档d 与用 户查询q 不相关的文档集合,即r 的补集,则有: p ( rid ,g ) + p ( r id ,g ) = 1 式( 2 3 ) 与向量空间模型相似,概率模型中的文档依然用特征向量表示: d :( t i ,t 2 ,t n ) 。其中,n 为特征项的个数,t ;为o 或l ,分别表示索引词i 在文档中 出现或不出现。那么文档d ,与查询q 的相似度定义为相关概率和不相关概率的比 值【8 】: 壅呈奎堂堡主塑壅竺堂位论文 第二章信息检索相关技术 一一 := := := = := := : s 砌( a j ,g ) = p ( g l 哆,g ) 一p ( 嘭,qi 胄) 尸( r ) p ( r f 嘭,g ) p ( 哆,qir ) 尸( r 1 ) 式( 2 q 其中p ( r ) 和p ( r ) 分别表示从整个文档集合中随机挑出一篇文档是相关文 档和不相关文档的概率,它们对所有文档来说,值的大小是一样的。因此式( 2 4 ) 可以简化成: s 泐( 嘭,g ) 兰p ( 竺d j 业, qr ) 。式( 2 5 ) s 泐( 嘭,g ) = 型_ 旦 式( 2 _ 5 ) 概率模型利用了概率论中的原理,具备了严格的数学理论基础,通过赋予 索引词一定的概率值来表示索引词在相关文档集合和不相关文档集合中出现的 概率,从而估算出文档与用户查询相关的概率,决策过程较为严密;并且具有 内在的相关反馈机制,将信息检索过程看成是一个不断逼近最终正确结果的过 程。概率模型的缺点在于,仍然假设索引词之间是相互独立的;将文档集合划 分为相关文档子集合和不相关文档子集合存在困难嘲。 统计语言模型是一种基于概率的信息检索模型,它将人类语言的生成看成 一个随机过程,并通过一种统计模型来对此过程进行模型化,如n g r a m 、隐马 尔科夫模型、最大熵模型等等【3 3 1 。以n g r a i i l 模型为例,如果用m 表示n - g r a m 模型, 则我们就可以估算生成一个词序列t = t l ,t 2 ,t i 的概率为【3 3 】: , p ( t l m ) = 口尸 k t 圳,。,m ) 式( 2 6 ) 语言模型在信息检索中的成功地得到了应用,其中使用的最广泛的是查询 似然度模型_ ( q u e r yl i k e l i h o o dm o d e l ) 【2 9 】。 假设一种语言的词汇集合为v ( v o c a b u l a r y ) ,v = t l ,t 2 ,山v i ,在查询似然度 模型中,每个文档d 表示成:d - - - w l w 2 w m , w i ( e v ,查询q 表示成:q = q l q :q n , q j v ,则文档对应的语言模型可以表示成v 上的一个概率分布,记为0 。,那么在 该模型下文档d 生成用户查询q 的概率p ( q l o d ) 就称之为查询似然度或查询生成概 率。 计算p ( q i o 。) 的常用方法是采用多项模型( m u l t i n o m i a lm o d e l ) 。多项模型把 查询q 看成是多项试验的结果序列,将词项在查询中出现的次数考虑在内,其估 算方法为 4 2 】: 1 6 复旦大学硕士研究生学位论文第二章信息检索相关技术 p ( qi 岛) = 1 7 p ( 嚷l 以) ”吼q 式( 2 7 ) m e q 其中n ( q ,q ) 是查询词q 在查询q 中出现的次数。 最终,查询似然度的估算转换成了对尸( 吼i 岛) 的估算。最简单的方法是使 用极大似然度估算方法( m a x i m u ml i k e l i h o o de s t i m a t i o n , m l e ) ,计算方法用公式 表示为【4 2 】: p ( gl 岛) :c o u t n t f ( q j , d ) i 以i 式( 2 - 8 ) 其中,c o u n t ( q i ,d ) 是q i 在文档中出现的次数,i d t 为文档d 的长度。 由于数据的稀疏性,检索中统计语言模型面临着“零概率”的问题。零概 率的问题是指:在使用m l e 方法估算极大似然度时,只要q 中任意一个查询词 未在文档中出现,那么最终的似然度也为零【1 1 1 。也就是说,给定一个包含n 个查 询词的话题q ,即使一篇文档命中了其中的n 1 个词,最终这篇文档还是与这个 q 毫无关系。零概率问题的存在将对搜索系统的性能产生较大的负面影响。所以, 在进行似然度估算时,必须引入平滑方法( s m o o t h i n g ) 。 平滑方法通常的做法是把一个词在局部文档中的概率同这个词在整个文档 集合中的概率结合起来,从而有效地避免零概率的问题,以保证专家检索系统 较好的性能【4 6 】。最常用的平滑方法包括j e l i n e k - m e r c e r 平滑方法、d i r i c h l e t 平滑方 法等。 j e l i n e k - m e r e e r 平滑方法是一种线性插值平滑方法,其计算公式如下所示【1 1 l : p ( 吼i d ) = 五与k e ( g fl d ) + ( 1 - a ) p ( q ,l c ) 式( 2 _ 9 ) 其中p ( qi c ) 为词t 在整个文档集合中的概率,九为一个0 至l 间的平滑参数。 d i r i c h l e t 平滑方法又称为贝叶斯平滑方法,它的计算公式如下所示【l l 】: p ( 绣id ) :竺煎埠粤幽 式( 2 1 0 ) ial 十 其中c o u n t ( q ,d ) 为文档d 中词q ,的频率,p 为参数。 平滑方法在语言模型中起着重要的影响,z h a i a 壬- i :l l a f f r y 在文献【4 8 】对上述两种 平滑方法在信息检索的表现进行了详细的比较。 语言模型为信息检索研究领域开辟了一个很有前景同时也相当具有挑战性 的方向。与传统检索模型相比,语言模型能够通过更准确的参数估计,获得更 复旦大学硕士研究生学位论文 第二章信息检索相关技术 好的检索性能。 2 2 3 推理网络模型 推理网络模型是由t u r t l e 和c r o f t 于1 9 9 1 年在文献 4 3 中首次提出并深受 重视的一种新型检索模型。推理网络模型将文档内容与用户查询的匹配比较过 程转化成一个从文档到查询的推理过程。更具体地说,在推理网络模型中,一 篇文档与某个查询之间相关的不确定度是由从这篇文档推出此查询的不确定度 来确定的【2 0 】。 图2 2 推理网络模型 为了求得从文档推出查询的不确定度,推理网络模型基于贝叶斯网络,将 文档、索引词、用户查询看成为随机变量,并分别对应到网络中的不同节点, 而节点之间的有向边表示两个节点问的概率相依性。图 2 2 是推理网络模型的 简化结构图。图中,文档d ,为根节点,t l , t 2 t k 是文档d ,中的索引词节点,q 1 、q 2 、 q 3 n 是查询节点,i 表示信息需求节点。 推理网络模型的推理以文档作为起点,当检索系统检索到某个文档时,随 1 8 复旦大学硕士研究生学位论文 第二章信息检索相关技术 即触发一个文档事件;然后,文档事件作为索引词节点事件的触发条件,索引 词节点事件作为查询需求满足事件的触发条件,构成一个文档事件、索引词事 件、需求满足事件的推理链。因此,只要给定文档事件发生的先验概率、索引 词事件的条件概率、查询需求满足的条件概率,就可以求出文档推出用户查询 的概率【5 3 】。 假设用t 表示k 维词向量,郫1 ,t 2 ,钓,其中t l ,t 2 ,t k 为二元随机变量,d j 和q 分别表示文档二元随机变量、查询二元随机变量。在推理网络模型中,文档d , 的排序可以根据p ( q 八d i ) 计算【8 】: 敢口 哆 茹始 吃l t ) x i 4 ( t ) 镭 端刀( 窖 喀 1 0 l w 嚣p c q l d j x o x p ( 吩o 嚣p ( ql o x p ( k ld 歹) x e ( a j ) w 式( 2 1 1 ) 推理网络模型的局限在于,由于贝叶斯网络是一个有向无环图,也就是说 没有考虑互为因果的情况。然而,在现实生活中的很多情况下都存在着因果相 互影响的关系,也就是存在着环。此外,贝叶斯网络也没有考虑原因节点对结 果节点影响的滞后性,只能够表示静态关系 4 3 】。 1 9 9 1 年,马萨诸塞大学的c a l l a n 、c r o f t 等学者应用推理网络模型的原理 开发出i n q u e r y 信息检索系统,并最终成功地实现了商业化【1 0 1 。文献 2 8 则提出 将语言模型和推理网络模型结合起来进行信息检索。该系统既使用推理网络模 型实现了丰富的结构化查询,同时在进行概率估算时采用了语言模型中较为成 熟的估算方法,取得了较好的效果。 2 3 查询扩展 在信息检索的过程中,由于对文档集合的细节和检索环境的具体情况缺乏 了解,以及自然语言存在的模糊性和用户信息需求本身的随机性,用户在向信 息检索系统提交查询时,往往不能有效和充分地表达其需求。一个最简单的例 1 9 复旦大学硕士研究生学位论文第二章信息检索相关技术 子就是“同义词 。当用户输入查询“p l a n e ,试图检索与“飞机 相关的文 档时,系统不会认为那些只包含词语“a i r p l a n e 的文档是与查询相关的。在 这种情况下,提高信息检索系统的查询准确度的一种方法是采用查询扩展 ( q u e r ye x p a n s i o n ) 技术【2 3 1 。 查询扩展指在用户输入原始查询的基础上进行进一步的修正、重构、优化, 构造出一个新的、更明确的查询之后,进行再一次的信息检索,从而在一定程 度上弥补信息不足以及自然语言的模糊性、二义性等特性对信息检索系统性能 的损害m j 。 查询扩展可以分为全局方法和局部方法两种f 5 4 1 。 使用全局方法时,查询扩展与原始查询返回的结果无关,而是基于辞典( 如 w o r d n e t p u j ) 从概念和语义的层次对原始查询进行扩展。至于生成辞典的方法主 要有三种:手工编辑、自动生成、查询日志分析。手工编辑方法使用人工编辑 的方法建立一个辞典。这种方法将耗费大量的人力;自动生成方法则通过对某 个文档集合中词语间的语义关系、语句的语法结构进行分析,自动地生成辞典; 查询日志分析的方法则是在对大量用户进行手工查询扩展的日志进行分析的基 础上,在用户输入查询时提供查询扩展的建议。由于这种方法需要数目庞大的 用户搜索日志,因此较适用于网络搜索引擎。 全局查询扩展方法的缺点在于,辞典的生成一般独立于待检索的文档集合, 因此进行查询扩展时往往难以反映待检索文档集合的特性,查询扩展效果不佳。 使用局部查询扩展方法时,则是根据初次查询返回的结果对原始查询进行 扩展或优化。其中,最常用的局部扩展方法是相关反馈( r e l e v a n c ef e e d b a c k ) 和伪 相关反馈( p s e u d or e l e v a n c ef e e d b a c k ) 。 相关反馈的基本思想是让用户参与到信息检索的过程中来,在初次查询后 让用户对初次返回的结果中的相关文档进行标记,然后系统根据用户的反馈信 息构造出一个新的查询,从而进行新一轮的检索。经过上述一轮或多轮的循环 递归后,最终系统返回修正后的结果给用户【捌。 相关反馈是r o c c h i o 于1 9 7 1 年在文献 3 6 中首次提出。r o c c h i o 提出的经典 算法是其他相关反馈方法的基础,其公式可以表示为: q 矿= a q 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论