(模式识别与智能系统专业论文)信息检索技术鲁棒性研究.pdf_第1页
(模式识别与智能系统专业论文)信息检索技术鲁棒性研究.pdf_第2页
(模式识别与智能系统专业论文)信息检索技术鲁棒性研究.pdf_第3页
(模式识别与智能系统专业论文)信息检索技术鲁棒性研究.pdf_第4页
(模式识别与智能系统专业论文)信息检索技术鲁棒性研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中i 冒科学院碗十学付睑艾 信息榆索技术眢棒降研究 摘要 如何有效提高信息检索技术的鲁棒性是本论文研究的中心内拇。本文第一章 首先简要介绍了信息检索的关键技术和研究趋势,指出了文木信息检索的j 大 关键技术:“查询处理”、“相似度计算”和“结果排序”,并相廊地提出了论义j 作 的基本思路:在上述三大关键技术中,引入自然语言处理和机器学习的方法, 期颦以此提高检索的鲁棒性。随后,第一i 章和第i 章分别介绍了将白然语办处 理和机器学习技术应用到信息检索中的若干模型。并列这些模型在t r e cr o b u s t t r a c k 人规模标准语料厍上的实验结果进行了详细分析。接着,第四章介绍了我 们n l p r 参加t r e c 2 0 0 4 评测的基本情况以发经验总结。最后,第血章给出j 论文工作的总结和展望。 概括来说,小论文主要有如下几项工作: 1 提l u 词义熵模犁,利用w o r d n e t 提供的结构化的词义知识,帮助确定夼 询项的权重。实验表明,词义熵模型与当前常用的t f t f d f 权蓐计算公 式耳x 合使用,能有效提高检索系统鲁棒性。 2 利用自然语言处理中命名实体和复合名训的概念,提山了加入名词性多 词组合的矢量空问模型,以及来源于语义张量概念的核心窗口模型和改 进的动态核心窗口模型。实验表明,这j 个检索模型都能存定程度f j 提1 曲榆索系统的性能。 3 对于如们有效融合多个检索模型,_ 奉文详细研究了两大类方法:基于结 果的融合方法和基于查询词的臼动模型选择方法。对基于结果的融合力 法,本文提出了一二种方法:简单合并方法,得分归一化方法以及文本聚 类方法。对基于查询词的自动模型选择疗法,本文引入了三种新的查咖 项特征,并分别采用了硼利r 分类方法:k n n 和s v m 分类器。实验表明, 两类融合方法都是有效的;k n n 分类器的准确率要高于s v m 分类器: 引入的新特征都可以改善系统性能;保持特 : ! 空问维数在一定范同的情 况下,组合特征也有助于提高分类器准确率。 4 通过参加t r e c 评测,测试了新检索算法的性能,在r o b u s t 任务取得丁 不错的成绩。并通过与丽际1 _ j 行的比较,积累了一些提高文本检索鲁棒 性的经验。 关键词:信息检索;鲁棒性:自然语言处理:机器学习;1 、r e c 评测 中国科学院硕士学位论文 信息检索技术鲁捧性研究 a b s t r a c t t h j st h e s j sf o c u s e so nh o wt oe n h a n c et 1 1 er o b u s n l e s so fi n f o 珊a “o nr e t r i e v a 】r i r ) i n 廿1 e6 r s tc h a p t e r ,ab r i e fi n t r o d u c t i o no ft h er c s e a r c hb a c k g r o u n do fi ri sg i v e na 1 1 d t h r e ek e yt c c h n o l o g i e si n v o l v e di ni ra r ep r e s e m e d ,n 锄e l y q u e r yp r o c e s s i n g , s i m i l a r i t yc o m p u t i n g a n d d o c u m e n tr a l l k i n g a c c o r d i n gt om l sa n a l y s i s ,w e p r e s e n tt h e c o r en o t i o no ft h i s t h e s i s , n a m e l yi n t r o d u c i n g n a t u r a l l a n g u a g e p r o c e s s i n g ( n l p ) a n dm a c h i n el e a m i n g ( m l ) i n t ot 】1 ea b o v e 廿1 r e ek e yt e c h n o l o g i e s i no r d e rt oe n h a n c et h er o b u s 协e s so fi r t h e n ,s e v e r a lm o d e l st oa p p l yn l p 趴dm l t oi ra r ei n v e s t i g a t e dr c s p e c t v e l yi nt h es e c o n da n dt l l i r dc h a p t c 硌a n dt h e s em o d e l g h a v eb e e nt e s t e db yas e r i e so fe x p e r i m e n t sb a s e do nt h es t a n d a r d 把s t i n gs e t ( t r e c r o b u s tt r a c k ) 1 1 l e ni nm ef o m lc h a p t e f 廿1 em e s i sl n 昀d u c e sm ee x p e r l e n c eo f n l p ra tt r e c 2 0 0 4 t h ef i 助c h a p t e rg i v e st h ec o n c l u s i o na 1 1 dp r o s p e c ta b o u th o w t oe n h a n c et i er o b u s t l l e s so fi r i ns u m m a r y t i l ec o n t r b u t i o n so f t h et l e s i sa r ei i s t e da sf o l l o w s 1 w ep r o p o s ew o r ds e n s ee n t r o p ym o d e lw h i c hi saw e i g h t i n gs c h e m eo fq u e r y w o r db a s e do nw r o r d n e t s8 t n j c t u r c dk n o w l e d g e t h ee x p e r i m e n t ss h o wt 1 1 a t c o m b i n 酣w i t hm ec o m m o nw e i g h t i n gs c h e m e ss u c ha st fa n dl d f ,w o r d s e n s ee n t r o p yc o u l di m p r o v et h ep e b h n a n c eo f 仃a d i t i o n a ll rs y s t e m s 2 b a s e do nt h ec o n c e p to fn a m e de n t i t y 鲫dn o m i n a ic o m p o u n di nn l p , t h r e en o u n p h r a s e i b a s e di rm o d e l sh a v eb c c nd e v e l o p e d ,w h i c hi st h e n o u n p h m s ev e c t o rs p a c em o d e l ( n p v s m ) ,c o r cw i n d o w _ b a s e df n o d e la n d d y n a m i cc o r ew i n d a w _ b a s e dm o d e l t h ee x p e r i m e n t ss h o wt h a ta l lo ft h e t h r e em o d e l so u t p e r f o n t lt h et r a d i t i o n a lw o r d _ b a s e dv e c t o rs p a c em o d e i 3 f 0 rm e 唱i n gs t r a t e g i e s ,m i st h e s i sd i s c u s s e s “v ok i n d so f m e 唱i n gs t r a t e g e s , r e s u l t b a s e dm e r g i n go fd i f f b r e n tm o d e l sa n dq u e r y b a s e dm o d e ls e l e c t i o n f o rr c s u l t _ b a s e dm e r g i n 昌w ei n 廿o d u c et h r e em e t h o d s ,i e s i m p l ym e 喀i n g s e v e r a lm n s ,m e r g i n gb ys c o r cn o r m a l j z a t i o na n dm e r g i n gb yc i u s t e r i n g f o r q u e r y - b a s e dm o d e ls e l e c t i o n ,w ep r o p o s em r e en e wf e a t l l r et y p e so fq u e r i e s a n de x d e r i m e n t 铆ok i n d so fc l a s s i f i e r s :kh 闲a n ds v m t h er e s u l t ss h o w t h 她b o t hm e 唱i n gs t m t e g i e sa r ee f f i c i e n t ;心悄c l a s s m e rd o e sb e t t c rt l a n s v mf o rq u e r y - b a s e dm o d e ls e l e c t i o n ;t h en e wf e a t u r et y p e sa l lp r o v e h e l p f u l ;a n dt h ec o m b i n a t i o no ff e a t u r e sa r ea l s ou s e f u lo nc o n d i t o nt h a tt h e d i m e n s i o no f t h ef b a t u r es d a c ei sr e s t r i c t e d 4 w ep a n i c i p a t e di nt r e c 2 0 0 4e v a j u a t i o n ( r o b u s t1 h c k ) w i t ht h e s em o d e l s a n dh a v ea c q u i r e dp r e t i yg o o dr e s u h s 洒r o b u s tt r a c k m o r e 倒e lw ea l s o g o t s o m ev a l u a b l e e x p e r i e n c e st h r o u 曲 t h ec o h l p a r i s o n w i t ho t h e r p a r t i c i p a t e di rs y s t e m si nt h es t a n d a r da n dl a r g e s c a l e de v a l u a t i o n s 1 1 中国科学院硕士学位论文信息检索技术鲁棒性研究 k e y w o r d : i n f o r r n a t i o nr e t r i e v a l ; r o b u s m e s s ; n a t u r a l l a l l g u a g ep r o c e s s i n g m a c h i n el e a m i n g ;t r e ce v a l u a t i o n l l i 本硕士论文的研究工作得到以下项目资助 1 】国家自然科学基金( 项口编号6 0 3 7 2 0 1 6 ) 2 国家自然科学基金( 项口编号6 0 2 7 2 0 4 1 ) 3 北京市自然科学基金( 项日编导4 0 5 2 0 2 7 ) 独创性声明 本人声明所成交的论文是我个人在导师指导下进行的研究j 一作及取得的研 究成粜。j s 我所知,除了文中特别加以标汴和致谢的地方外,沦文巾小包龠蕻 他人已经发表或撰写过的研究成果。j 我一i 刊工作的州志埘本研究所做的仃何 贡献均已在论文中作了明确地说明并表示了_ 【! j l 意。 签名:丝! 盔 导师签名日期:砂圹。一矽 关于论文使用授权的说明 本人完伞了解q 同科学院自动化研究所有关保罔、使用学位论文的规j 定, 【 j :一叫科学院f | 动化研究所有权保留送交论文的复印件,允许论文被查阅和 借浏:”j 以公布沦文的全部或部分内容,可以采用影印、缩印或其他复制r 段 保存论文。 ( 保密的论文在解密后应遵守此规定) 签职j 丢戛导师签名日期:出州- 占一肜 中国科学院硕士学位论文 信息检索技术鲁棒性研究 1 1 信息检索简介 第一章概述 所谓信息检索,即是把搜集的资料按一定逻辑整理入库,使用者从这个库中 可以方便地拣选出符合自己需求的资料信息。从历史上看,信息检索经历了手 工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。信息检索起 源于图书馆的参考咨询和文摘索引工作,从1 9 世纪下半叶开始发展,至2 0 世 纪4 0 年代,索引和检索已成为图书馆独立的工具和用户服务项目。随着1 9 4 6 年世界上第一台电子计算机问世。计算机技术逐步走进信息检索领域,并与信 息检索理论紧密结合起来。而随着因特网的爆炸式发展,目前,信息检索也随 之发展到网络化和智能化的阶段。 随着计算技术的迅猛发展,信息检索技术涉及的范畴已经大大扩展:信息检 索的内容从传统的文本检索扩展到包含图片、音频、视频等多媒体信息检索; 信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩 展到开放、动态、更新快、分布广泛、管理松散的w 曲内容;信息检索的用户 由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人 士等在内的普通大众,他们对信息检索从结果到方式都提出了更高、更多样化 的要求。总之,海量互联网信息的涌现,是信息检索技术发展最直接的驱动力。 需要指出的是,本论文所研究的内容,只限丁狭义的信息检索,也称为文本 检索,针对的是封闭的文本库。文本检索包括信息的存储、组织、表现、查询、 读取等各个方面,其核心为文本的索引和检索。由于即使是在内容丰富的互联 网上,大量关键信息依然多用文字作为载体,所以,文本信息检索是构建网络 检索、智能检索的基础技术。 1 1 1 信息检索分类 文本信息检索按照其内容和面向的应用来分,可以有以下一些分类方法。 1 按照处理数据对象的不同,可以分为基于内部文本库的检索和基于互联嘲等 开放数据对象的检索。前者往往要求比较精确的匹配信息:而后者由于开放 和动态的特性,存在大量数据模糊和冗余,因此仅要求保证一定的准确率即 可。后者最热门的技术就是搜索引擎;两者之间的差别体现在以下五个方面 【施水才,2 0 0 3 】。 数据量:一般传统信息检索系统的索引库规模多在g b 级;而互联嘲州 中国科学院硕士学位论文信息检索技术鲁棒性研究 页搜索需要处理上亿以上的网页,所以搜索引擎的基本策略都是采用检索 服务器群集。内容相关性:w e b 信息太多,因此w e b 查准和排序就特 别重要。g o o g i e 等网络搜索引擎发展了网页链接分析技术,把网页被链 接的次数作为评判其重要性的依据;而基于内部文本库的检索系统,由于 其没有提供有关的链接信息,所以只能依赖文本自身的内容来作为判别相 关性的依据。实时性:由于数据量庞大,搜索引擎的索引生成和检索服 务是分开的,周期性更新数据,大的搜索引擎的更新周期需要以周乃至月 度量;而基于内部文本库的检索系统则可以实时反映信息的变化。安全 性:互联网搜索引擎都基于文件系统:而基于内部文本库的检索系统,其 内容一般均会安全和集中地存放在数据仓库中,以保证数据安全和管理的 要求。个性化和智能化:由于搜索引擎数据和客户规模的限制,相关反 馈、知识检索、知识挖掘等计算密集的智能技术目前还很难被应用到网络 搜索引擎中;而专门针对内部文本库的信息检索系统,目前则能在智能化 和个性化方面走得更远。 2 根据所涉及到的语言不同,可以分为单语言的检索和跨语言的检索。随着全 球信息化的不断推进,因特网资源不再集中在英语等少数几种语言上,非英 语因特网资源的比重不断增加:另一方面,非英语英特网用户的比重也在不 断增加。根据预测,到2 0 0 5 年,英特网用户总量将达到3 亿4 千5 百万, 其中非英语用户将占到7 8 。因特网资源的多语言性和因特网用户的多语言 性,使得多语言文本检索变得迫在眉睫。例如:一个英汉日多语言信息检索 系统中,用户用英文提问,系统除了反馈给用户英文的相关文本外,还可以 反馈给用户中文和日文的文本。因为用户提问和文本可能是由不同语言表示 的,语言之间的差异性给检索过程带来很多困难【z h a o ,2 0 0 2 。 3 根据检索的信息粒度不同,可以分为文本检索、段落检索、句子检索、词序 列检索等等。颗粒度越小,信息定位越精确,技术难度也越大。对于文本来 说,由于所包含的词比较多,因此可以利用的信息也比较丰富,检索起来相 对容易。而句子一级的检索就困难很多,一方面是词比较少,另一方面简称、 指代等现象可能在句子巾大量出现。因此,在小颗粒度的检索巾,主题词扩 展和指代消解( c o r e f e r e n c e ) 就更加重要。由于信息量的急速膨胀,对用户 来说,要求的信息精度越来越高。对用户的一个查询,仅仅返回一堆文本显 然是不能令人满意的,因为用户还是需要花费大量时间去浏览这些文本。所 以,精确的信息定位越来越受到重视,这方面的研究也逐步成为一个热点, 如各种自动问答系统。 中国科学院硕士学位论文信息检索技术鲁棒性研究 1 1 2 信息检索目标 信息检索技术需要考虑哪些需求,或者说需要追求哪些性能,是从事信息检 索技术研究的人员首先需要关注的。这里,我们借用网络搜索引擎公司b a i d u 的 五字技术方针来阐述信息检索的目标,即“全准精专新”。 “全”:是指要尽可能把所有符合用户查询意图的文本或网页一个不漏的展 现给用户。 “准”:是指要尽可能把准确的文本或网页提供给用户,而不要提供与用户 查询意图不符的内容。 “精”:是指要能理解用户的查询意图,尽可能“一步到位”地给出精确定位 的内容,以满足用户查询要求。比如,搜索引擎都努力争取在返回结果的第 一页能给出最重要的网页,减少用户查阅返回结果的次数:再比如,智能检 索技术中的自动问答系统,能对用户的提问提供简短而精确的答案,这就满 足了用户方便、快速地获取信息的需求。 “专”:是指要能满足各种特定需求的用户群。打个比方,对于商业人士, 医疗工作者和科研工作者这三类用户,他们对检索信息会各自有特定的需 要:商业人士可能对商品或企业信息的检索很感兴趣;医疗工作者则对病例、 新药或医疗技术的检索感兴趣;而科研工作者则可能主要对文献检索感兴 趣,我们需要针对这些不同需求进行专门处理。 “新”:是指搜索引擎要有及时更新的能力,在时时动态变化的w e b 海洋中, 要有策略淘汰旧的无用信息,提供最新的信息给用户。 本论文研究的是基于封闭文本库的文本榆索技术,将主要关注如何提高信息 检索五字方针中的“全”、“准”、“精”这三个指标。 1 2 论文的主要工作 实际的检索过程。 j ,人们常常会发现【v o o r h e e s ,2 0 0 3 】,对于某些用户查询, 检索系统返回的结果表现很好,能满足“全”,“准”、“精”等要求:但是,对 于某些用户查询,检索系统的性能又会很差,不能满足用户的需求。这说明, 信息检索技术的鲁棒性还不够好。而即使是少量的查询意图不能得到满足,从 用户体验的角度来说,也是非常有损害的,将大大降低用户使用该检索系统的 热情。为此,我们需要认真研究如何有效提高检索系统的鲁棒性。考虑到检索 技术鲁棒性的重要性,从2 0 0 3 年开始,国际信息检索评测大会( t 散r e 喇e v a 】 c o n f e r e n c e :t r e c ) 新开了一个子任务( r o b u s t t r a c k ) ,专l 、j 研究如何提高历年来 检索效果表现很差的若干t o p i c 的性能。 中国科学院硕十学位论文信息检索技术鲁捧性研究 对于如何提高检索系统的鲁棒性,以下,在1 2 1 节我们首先分析一下信息 检索系统中有哪些关键的技术;在此基础上,1 2 2 节提出本文的工作思路。 这里,我们需要再强调一点,信息检索一个至关重要的环节是如何评测系统 好坏。从方法论的角度讲,一般有两种研究思路:一个是归纳法,即给定一个 实际问题,我们先对其进行抽象,将其泛化一个一般的数学问题,然后从这个 框架出发,通过推理或近似来进行实际的应用,比如常见的太空飞行技术,其 发端正是来自于牛顿三大定律:另一个是实验法,即给定一个实际问题,先不 把它抽象( 或者说目前的理论高度没办法把它抽象) 为一个数学模型,而是采 用黑盒处理的办法,即研究者估计哪些条件会对这一问题起作用,然后通过实 验来验证是否符合之前的猜想,再相应地作出一些解释,比如某些化学实验学 科,又比如常见的软件测试工作。对信息检索技术的研究,正是属于后者。目 前还没有出现一个完整而完美的数学模型或者理论来描述信息检索这一个过 程,虽然有些尝试( 比如神经网络【s c h o l t e s1 9 9 l 】,语言模型【z h a i2 0 0 2 ) ,但是 效果不明显,也不是很全面。所以,对于信息检索到底应该如何做才算合理, 我们都不可能有一个明确的指导思想,当前的做法只能是,先直观地判断哪些 因素有可能提高检索的性能,而要验证我们这种猜想是否正确,目前唯一的方 法就是在大规模语料库上做实验,并进行评测。 1 2 1 文本信息检索的关键技术及难点分析 一般的文本信息检索过程是这样的: 用户希望得到关于某个话题( t o p i c ) 的信息,首先用一个查询( q u e r ) r ) 对这 个话题进行描述,接下来,检索系统对这个查询进行处理,衍生出标引 条目;然后,检索系统将这些标引条目与文本库中每个文本的标引条目 ( 文本库中的每个文本事先已经进行了类似的标引) 进行匹配。最后, 系统将匹配程度最好的文本序列返回用户。 可以以我们自己开发的信息检索框架n l p r - i r 为例,说明信息检索具体的 处理过程,如下图。 中国科学院硕士学位论文 信息检索技术鲁棒性研究 安霹处理 早文 矗遣t 理 媚一目慝汁冀 毽警蔓序 用户查询文本库中的文本 箍文l 中文荚文 蔫躐磐嚣 分词 lf 诫形还熏l 分词 j 谓缮还廉 1i 河性括炷句子麓桁1l谪悭振注匀子鹅析 主韪清扩展螽名实体识别f 标引 |查询标 l 标;i 后的文奉叫 矗 l 广一一 |撩似度计算 t 4 r荚文奎型耋l j j l 捧薨反镶 h 更新后的釜询标 图1 1n l p r 信息检索系统框架 从中可以看出检索系统的三个关键技术是: 1 查询处理:也就是对输入的查询衍生出标引的过程,包括了查询标引和文本 标引。问题在于如何对用户输入的查询进行处理,以充分地表示查询的意图, 比如确定查询中哪些是关键的信息,对检索有很强的指示性,哪些是辅助信 息,哪些信息需要扩展,哪些信息不能扩展等等。当然,由于检索过程是把 查询和文本库文本联系起来,我们也需要把文本和查询用统一的数学模型表 示出来。所以,这里虽然讲的是查询处理,实际上也包括了对文本库的离线 处理。目前信息检索中常用的做法是,将查询和文本都表示为词向量,查询 词和文本中的词进行机械匹配。为了使得构造的词向量能尽可能准确地反映 用户查询或者文本原来的含义,发展出了一系列算法模型,如各种主题词扩 展模型,相关反馈技术等等。 2 相似度计算:通过计算用户查询标引和文本标引之间的距离,估计文本和查 询之间的相似性,进而给出检索结果。这是任何一个检索系统的核心。如果 是前面采用的词向量的标引方式,那么在这部分就多采用矢量内积的方法来 计算相似度;如果是基于概率思想的检索模型,则多采用计算概率的方法来 计算相似度。 3 结果排序:对相关的文本按其重要性的一定顺序输出给用户。这个问题越来 中国科学院硕士学位论文 信息检索技术鲁捧性研究 越受到信息检索研究人员的重视。e x c i t e 咨询公司的统计表明,在一次搜索 动作中,前3 条搜索结果获得的点计量,是第4 2 4 0 条检索结果获得的点计 总量的2 倍,而平均每个搜索者在1 2 分钟的徒劳搜索后会感到恼火和受挫。 这就要求检索系统应该尽可能的把最相关最重要的结果排到最前面。一般来 说,检索系统都是直接利用了前面相似度计算的结果进行结果排序,但是, 为了得到更好的排序结果,检索系统还可以利用其他信息进行排序,如考虑 文本本身的重要性,如果是互联网检索,可考虑该网页是否为门户网站或相 关的主题网站;还可考虑多个检索系统检索的结果,根据文本在各检索系统 中的“受欢迎度”,确定各文本虽终的相关性顺序;如果是互联网检索,还可 以利用网页之间的链接信息来计算p a g e 鼬n k ,从而确定不同网页的重要性。 我们可以看到,虽然有许多的变体和优化,但总的来说,信息检索系统实际 上都是以机械匹配作为处理的基础。这种方法到目前为止都证明是有效的,究 其原因,我们知道,一般用户输入的查询都确实是对检索有很强的指示性的, 文本中一旦出现了同样的查询词,相关的可能性就非常大。但是,“成亦萧何败 亦萧何”,信息检索系统的难点同样也在于:由于查询和文本一般以词为单位来 进行标引,词的一词多义问题( p o l y s e m y ) 和一义多词问题( s y n o n y 1 y ) 往往会严重 影响系统性能。此外,通常采用的词矢量的内秘方法确定相似度,在某些情况 下是不合理的。 1 2 2 论文的思路 对于如何改进目前的检索系统,如何提高检索系统的鲁棒性,一个直观的想 法是借鉴其他计算机科学研究内容的发展成果,如自然语言处理和机器学习。 从历史发展来看,信息检索的研究很长一段时间都是独立于甚至早于计算机 科学的发展。一个有趣的例子,我们知道,网络搜索引擎巨头g 0 0 9 l e 的技术实 际上是发源于s t a n f b r d 大学的数字图书馆计划的项目,而非科班的计算机系。然 而,信息检索技术发展到今天,我们可以看到一个趋势,那就是信息检索和其 他计算机学科的研究团体开始了越来越紧密的合作。由于理论上的很大的吸引 力,越来越多的研究者希望能把自然语言处理、机器学习等人工智能方面的技 术应用于信息检索中。比如,目前的检索都是以词为单位,研究者开始考虑利 用文档更长的结构 l e w i se ta 1 ,1 9 9 3 】,比如中心词之间的依存、句问关系、篇章 结构等,这就需要用到自然语言处理技术。还有,对于机器学习,我们知道其 核心思想就是如何从样本数据中获取内在规律,具体地说,就是分类和聚类的 问题,前者考虑如何辨别出客观事物的类别,后者考虑如何分析出客观事物的 类别。而信息检索实际上也是一个大规模数据中提取有用信息的问题,直观上, 中困科学院硕士学位论文信息检索技术鲁棒性研究 机器学习的思想应该能在信息检索技术的发展中有用武之地,例如,文章f f a ne t a i ,2 0 0 3 1 就报道了利用遗传算法自动学习出检索需要的权重计算公式。 当然,目前比较成熟的检索系统,多采用简单的词向量模型和p a g e r a n k 模 型,很少有涉及到复杂的自然语言处理等智能技术。这一方而是因为目前这些 智能技术的研究虽然很热,但极少有能真正进入大规模实用阶段的系统。另一 方面,由于商业检索系统对性能的苛刻要求,使得语义检索、个性化检索等知 识密集型技术很难找到。个合适的切入点应用。 所以,目前关键问题是如何在自然语言处理等技术发展还不完善以及硬件条 件不够理想的情况下,在保证检索系统可实现的前提下,充分利用上述智能技 术的成果。目前这方面的研究基本上采用的是“迂回战术”,即不生搬自然语言 处理等技术到信息检索的框架中,而是采用变通的做法,力求能体现这些技术 的思想。 通过本节1 2 1 的分析,我们知道,检索算法的关键技术集中在三个方面,“查 询处理”、“相似度计算”和“结果排序”。因此,在信息检索中切入上述智能技术 的一种可行方案,就是在这三个关键技术中引入自然语言处理和机器学习等技 术,来指导检索过程,提高检索的鲁棒性,这也正是本文选题的思路。 对于如何实现上述方案,论文接下来的章节将展开具体讨论。本文的结构和 内容安排如下。 1 第一章简要介绍了文本检索的关键技术和研究趋势,并提出文章的基本思 路:引入自然语言处理和机器学习的技术,来提高检索的鲁棒性。 2 第二章介绍了两种应用自然语言处理技术到信息检索的思想。第一,是利用 w o r d n e t 提供的结构化的语义知识,帮助确定每个查询项的权重;第二,是 利用自然语言处理中命名实体和复合名词的概念,采用矢量空间模型以及窗 口系列模型来实现在信息检索中考虑实体和复合名词的因素。这分别对应的 是三大关键技术中的“查询处理”和“相似度计算”; 3 第三章研究了多种融合多个检索模型的方法,主要分成了基于结果的融合方 法和基于查询词的自动模型选择方法这两大类,其中充分利用了机器学习中 聚类和分类的思想。这对应的是三大关键技术中的“结果排序”; 4 第四章介绍了t r e c 评测的基本情况,以及结合了上述若干技术的n l p r 检 索系统参加2 0 0 4 年t r e cr d b u s tt r a c k 的评测结果。 5 第五章是论文工作的总结与展望。着重描述了本文的研究课题在未来可能的 发展方向。 需要指出的是,信息检索一个很关键的环节是如何评测检索系统的性能。本 文选取了一个非常合适的评测平台:t r e cr o b u s t t m c k 。从2 0 0 3 年开始,t r e c 新设了一个任务,r o b u s tt r a c k ,它属于传统的信息检索范畴,但是主要集中于 中国科学院硕士学位论文 信息榆索技术鲁棒性研究 处理检索结果很差的用户查询( 即所谓的h a r d t o p i c ) ,以体现检索系统的鲁棒性。 t r e ci b b u s tt r a c k 提供的数据文档集为5 2 8 1 5 5 篇文档,有2 0 0 个用户查询 ( t r e ct o p i c3 0 1 4 5 0a n d6 0 1 6 5 0 ) 和5 0 个新查询( 2 0 0 4 年新推出的t 叩i c 6 5 l 一 7 0 0 ) ,并提供了一整套比较完善的评测指标。 中国科学院硕士学位论文 信息检索技术鲁棒i 生研究 第二章语义信息在信息检索中的应用 2 1 相关工作和我们的技术路线 常用的检索模型( 包括布尔模型、向量空间模型以及概率检索模型等) 存在 个共同的问题:模型都是以词或者字为基础,未涉及文本的内容本身。所以, 这些模型实际上只使用了文档的很少一部分信息用于确定相关性l e w i se ta 1 , 1 9 9 3 1 。需要指出的是,尽管这些方法存在这样固有的缺陷,但它们却常常能够 达到可以接受的准确率。这主要是因为一个文本中往往包含了大量冗余信息, 它们互相制约,互相解释,所以,即使是根据词频统计得出的信息,检索也能 取得比较好的性能。然而,为提高系统鲁棒性,研究人员仍然需要努力从文档 中获得更多信息,以获得更好的检索性能。如何获取文档的更多信息f 王斌, 2 0 0 2 a 1 ,一个直观的想法是把信息检索建立在对语言理解的基础上,充分利用已 有的自然语言处理技术( n a t u r a ll a n g u a g ep r o c e s s i n g :n l p ) 指导检索过程。 目前,自然语言处理技术用于信息检索,主要是试图以n l p 技术通过将某 个查询的语义信息与文档的语义信息进行匹配来提高查询的性能( 【j a c o b se ta 1 , 1 9 8 8 】,【r a m ,1 9 9 l 】, w j n d l a l l d te ta 1 ,1 9 9 l 】) 。其中一种常见的语义匹配思路是先 设计一套完整的语义或者概念体系,然后将信息检索原来的一元查询项 , 改进为二元项 ,这里多出的“语义项”可以是这个单词映射到语 义体系中的某个语义。检索过程就是比较文档和查询的各二元项,看是否匹配。 从这个思路出发有许多面向应用的方法变种,它们获得了一定程度的成功 ( 【s t r z a l k o w s k ie ta 1 ,1 9 9 3 】,【s t r z a l k o w s k ie ta 1 ,1 9 9 4 , l e w i se ta 1 ,1 9 9 3 】) 。但是, 我们认为这类方法最大的难点在于如何设计一个普适的语义或概念体系。在目 前自然语言处理研究中,一个比较强烈的声音是认为,很难有简单而普适的语 法、语义规则能解释复杂无规律而且时刻变化的自然语言现象,这些研究者认 为在计算技术和计算能力越来越强的今天,应该从词汇分析的角度入手,针对 不同的词有不同的处理方式,如国内黄昌宁教授曾多次表达过这个思想 黄吕宁 等,2 0 0 3 1 。本文比较倾向于这个观点,同时也考虑到设计语法或者语义体系并 非本研究组强项的实际情况,希望采用词汇化的思路利用语义信息指导检索过 程。 所以,我们的技术路线是以目前的检索系统的三个关键技术为切入点,转化 上述的二元项 的匹配方法,使之能以词汇语义的角度来处理。 本文提出了如下两个方案。 中国科学院硕士学位论文信息检索技术鲁棒性研究 1 第一个方案是退化二元项,只考虑一元项 。由于检索中一个环节是对 每个元项进行权重打分,以显示其重要性的不同。这里,我们试图从权重 计算的角度入手,引入语义的考虑。这对应了检索三大关键技术中的“查询 处理”技术。 2 第二个方案是从如何生成二元项的做法入手。我们知道,原始的文档中要确 定某个单词二元项 ,必须要利用词义排歧技术( w ) r ds e n s e d i s a m b i g l i a t i o n :w s d ) 。而实现词义排歧技术,关键的途径是利用词的上下 文信息和词搭配关系。所以,我们的思路是避开二元项的生成( 即语义项的 确定) ,直接考虑词的上下文信息或者说词搭配信息。这实际上是一个很热 门的方法:即使用短语或者更长的结构做为检索标引项,很多工作被报道过。 c 蠡等人f c r o ne ta 1 ,1 9 9 l 】曾提出使用一个粗分析器来探测句子,然后利用 句子来进行索引( 与使用单个标引项相反) 。基于同样的思路,r a u 和 j a b o b s r a u 吼a 1 ,1 9 9 1 】利用词典进行分析,将关键词分组来获得更高的正确 率和召回率。m a u l d i n m a u l d i n ,1 9 9 1 使用一个浏览式( s k i m m i n g ) 分析器( 即 q u i c k a n d d i r t y 式分析器) 将文档转换为格框架( c a s ef r a m e s ) 。s a l t o n 等人 【s a l t o ne ta 1 ,1 9 9 4 】提出首先利用文档向量进行初始过滤,然后再利用章节、 段落以及句子向量进行比较。参考了这些方法,本论文着重考虑命名实体和 复合名词这两类名词性多词组合在信息检索中的应用,并从模型灵活性和鲁 棒性的角度,提出了若一l :数学模型以实现多词组台在信息检索中的应用。这 对应了检索过程中的“相似度计算”技术。 下面,在第二节和第三节,我们分别对这两个方案展开详细的讨论,并在第 五节给出总结。 2 2 词义熵权重模型 正如2 ,1 节分析的第一个方案,我们希望能利用词汇语义信息,对查询词的 权重公式进行重新的调整,以在信息检索中加入语义信息。本节讨论的词义熵 权重计算公式正是着眼于如何考虑词义信息来有效地、鲁棒地确定查询词的权 重。 2 2 1 词义熵权重计算公式的思想 检索模型中,一个很重要的问题是如何确定每个查询词的权重( 即查询词的 重要性) ,常用的方法有t f + i d f ( 【s a l t o nc ta 1 ,1 9 8 8 】,【c h u r c he ta 1 ,1 9 9 5 】) 以及 b m 2 5 算法 r o b e m o ne ta 1 ,19 9 9 】等权重公式。这些权重公式一定程度地反映了 查询项的重要性,在实际使用中也被证明是有效的。但是,由于它们都是经验 1 0 中国科学院硕士学位论文信息检索技术鲁捧性研究 统计公式,所以严重依赖于特定的待检索文本库:对小同的检索文本库,某个 词的权重可能会有很大不同,而且,由于文本库的不完整性( 也就是文本库不 能足够大到可以完整反映语言的统计特性) ,某些词的权重常常会很不可靠。这 个问题实际上也是统计自然语言处理方法的一个通病。 举例来说,p o l i o 和b a n k 这两个查询词明显应该是有不同的权重,因 为p o i i o 词义很单一,直观看起来,对检索会有更好的指示性;而b a n k 可能的 词义很多,对检索指示性不强。,b a n k 的词义可以是“银行”,也可以是“河岸”, 如果刚好查询中是“银行”的词义,而文档是“河岸”的词义,如果用传统的词匹配 方法,这个文档会相关,但是这样显然是不符合事实的,所以 b a n k 对于检索指 示性没有p o l i o 强。然而,当使用常用的基于统计词频的权重公式( 如i d f ) , 如果文本库中,这两个词正好都只出现了1 次,那么他们的文档频率( d o c u m e n t f r e q u e n c y :d f 权重将会是一样的,都是l 。显然这个权重值不能真实的反 映p o l i o 和b a n k 这两个词的不同的重要性。 为了克服这种由于统计数据的稀疏问题带来的不稳定性,我们自然想到,可 不可以把某些专家知识引入到查询词的权重计算中来,以提高其可靠性,从而 提高检索的鲁棒性。这里,我们提出了词语词义多样性的权重计算公式一词义 熵,它利用w o r d n e t 中词义的信息特征对词的重要性进行打分。其基本思想如下 所述。 w o r d n e t 是一个以语言心理学理论为基础的人工编制的词典参考系统, w o r d n e t 对每个英文单词都有详细词义的解释,有些词中只有一个词义,而有些 词在w o r d n e t 中有几个词义。其中细节请参考w b r d n e t 主页 ( h 廿p ,w 、m c o g s c i p r i n c e i o n e d “w n o 。下面是一个具体的例子。 中国科学院硕士学位论文 信息检索技术鲁棒性研究 表2 1w o r d n e t 中的两个例子 p o f d 的名词词义有1 个 d 卵n ,耙w0 ,抑聊p o ,i o 确en o u n p o 沁is e m e r s 如m l n g g d f e x t s ) i ( i ) p o l i o 畔e ! “毡p o l i o i 坷a m 妇p n r 础芦氆“l en n i e r i 0 p o l i 0 ”带e s 徊n “把 v i r 融d i s e a s em n r k ab yi 呼m m d t i o n 嘶憎h ec 8 l l so jm eb r n t ns t e n 硼ds p i 砌c o r d ) 占册的名词词义有9 个 ( ) v p r v 瞎wd ,月d m6 硎女 1 h e n o h nb d n kh a sl os e t l s e s r s t9 如m t q g 辟d | 删0 i 佃8 ”彘唧i t o w 尽n 渊c 翻i 璐t i 抛| i o n 拍咄幻n 轴h gc o 眦e m ,b 口n k j h ge o p d n y 一( 丑m a h c i a l l n i o ht h a ta c c e p n d c s m n 帕幽m e k t 沁辨0 y 湘o ! c n d | n g 口c 舯r m e 5 :1 1 沁c o s k d dc h e c ka l l h 幽锄一”| h o lb 凸破h d i 出t h 晰o p f g 。g eo h 唧h o m e 2 f 9 9 ) b 口裱一盎| o p l n gl n 稍( e s 掣c l d bt k 矗q b e s i 出db o 由w 积r ) :”t h 吁”df h ec d n o e 蹲能斑曲烈p :。1 h e t t k 蚰札o f t 控r “e r 彻d w a 蝗d t 娩c 钟旭r t s 3 7 6 ) 妇溅一( as e b p l y 。rs t o c k 址l d i nr e s e r 她如r 如抽撑懈e p e c 扣i ne 舭r 9 2 m l e s ) ) 4 ( 5 4 妯d 娥。b 吼kb m l m n g 一忙b 试l m n g i n w h i c hc o m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论