(计算机系统结构专业论文)基于中间语义的跨语言信息检索研究.pdf_第1页
(计算机系统结构专业论文)基于中间语义的跨语言信息检索研究.pdf_第2页
(计算机系统结构专业论文)基于中间语义的跨语言信息检索研究.pdf_第3页
(计算机系统结构专业论文)基于中间语义的跨语言信息检索研究.pdf_第4页
(计算机系统结构专业论文)基于中间语义的跨语言信息检索研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机系统结构专业论文)基于中间语义的跨语言信息检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着国际互联网的快速发展,i n t e r n e t 上信息资源类型和数量都愈来愈丰 富,所使用的语言亦愈来愈具有多样性和不平衡性;同时随着网络用户数量与范 围的急剧膨胀,其所掌握的语言也开始呈现多样化。由于网络资源语种的多样性 和网络用户所掌握语言的差异性不可避免地给人们利用网络检索信息带来了语 言障碍,例如网络中6 5 以上的信息都是英语信息,而使用英文的网络用户仅 占约3 0 ,这给非英语国家用户利用网络信息带来了极大的不便。不仅在互联 网中,在所有同时存在多语种的信息系统( 如数字图书馆) 中,这种语言障碍都 限制了人们对信息的有效获取,影响了多语种信息价值的充分发挥。 从上世纪9 0 年代末开始,人们对信息检索提出了更高的要求,即不再满足 于在同一语种中进行检索,而要求在检索结果中包含多种语种的相关信息。为解 决人们在从多语种信息系统中获取信息的过程中存在的语言障碍问题,研究学者 提出了使用一种语言即可以方便地检索出系统中存在的所有语种相关信息的方 法和技术,称为跨语言信息检索( c r o s s - - l a n g u a g ei n f o r m a t i o nr e t r i e v a l , c l i r ) 技术。 基于辞典的模式和机器系统翻译的技术一度成为人们进行跨语言信息检索 的热点研究技术。基于辞典的模式就是采用机读辞典来做翻译,这里主要的问题 是词汇的歧义性,一个词汇可能有多重意义,因此产生类似一般机器翻译系统选 词的问题。另一个问题是辞典本身的覆盖度不够,动态的专有名词如人名、地名、 机构名称等日新月异,很有可能在翻译过程中在辞典中找不到。而机器系统的翻 译主要是针对文档翻译进行的,文档翻译的缺点是执行效率不高,翻译往往不够 确切。 为解决上述问题,我们提出了一种基于偏最小二乘理论的中间语义的跨语言 信息检索方法。实验结果显示,基于中间语义的跨语言信息检索方法具有良好的 特性。 本文的创新之处有:第一,利用改进的偏最小二乘理论技术,提出了基于中 间语义的跨语言信息检索模型;第二,建立了一定的中英文平行语料库,为以后 扩充中英文平行语料库打下来了一定的基础。 关键词:中间语义,跨语言信息检索,偏最小二乘,潜在语义变量对 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h e i n t e r n e t ,t h et y p ea n dq u a n t i t yo fi n f o r m a t i o n r e s o u r c e so nt h ei n t e r n e ta r ei n c r e a s i n g l yr i c ha n dt h e l a n g u a g eu s e di sa l s o i n c r e a s i n g l yd i v e r s ea n du n b a l a n c e d a n da tt h es a m et i m e w i t ht h es h a r pi n c r e a s e o f 。t l l en u m b e ra n dt h es c o p eo f t h ei n t e m e tu s e r s ,t h el a n g u a g et h e yu s eh a sb e c o m e v a r i o u s t h ed i v e r s i t yo fn e t w o r kr e s o u r c e sl a n g u a g e sa n dt h ed i f f e r e n c e so f l a n g u a g e st h ei n t e r n e tu s e r su s ei n e v i t a b l yl e a dt ot h el a n g u a g eb a r r i e rf o rt h ep e o p l e w h or e t r i e v ei n f o r m a t i o nt h r o u g ht h ei n t e m e t f o re x a m p l e ,m o r et h a n6 5p e r c e n to f i n f o r m a t i o no nt h ei n t e r n e ti si ne n g l i s h ,b u to n l ya b o u t3 0 p e r c e n to fi n t e r n e tu s e r s a r eu s i n ge n g l i s h t h i sh a sb r o u g h tg r e a ti n c o n v e n i e n c et ot h ei n t e r n e tu s e r s 舶m n o n e n g l i s h s p e a k i n gc o u n t r i e sw h e nt h e yr e t r i e v ei n f o r m a t i o nt h r o u 曲t h ei n t e m e t n o to n l yo nt h ei n t e r n e tb u ta l s oo na l lt h e m u l t i l i n g u a li n f o r m a t i o ns y s t e m s ( s u c ha s d i g i t a ll i b r a r i e s ) h a st h el a n g u a g eb a r r i e rl i m i t e d p e o p l e s e f f e c t i v ea c c e s st o i n f o r m a t i o na n da f f e c t e dt h ef u l lp l a yo ft h ev a l u eo f m u l t i l i n g u a li n f o r m a t i o n f r o mt h el a t e19 9 0 s ,p e o p l ep u ta h i g h e rd e m a n do nt h ei n f o r m a t i o nr e t r i e v a l , t h a ti st os a y , t h e yw e r en ol o n g e rs a t i s f i e dw i t ht h em o n o 1 a n g u a g er e t r i e v a lb u t w i s h e dt oi n c l u d ea v a r i e t yo fr e l a t e dm u l t i l i n g u a li n f o r m a t i o ni nt h er e t r i e v a l1 e s u i t s t os o l v et h ep r o b l e mo ft h el a n g u a g eb a r r i e re x i s t i n gi nt h ep r o c e s so fo b t a i n i n g i n f o r m a t i o nf r o mm u l t i l i n g u a li n f o r m a t i o ns y s t e m ,r e s e a r c h e r sp u tf o r w a r dt ot h e t e c h n o l o g y , k n o w na sc r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l ( e l m ) ,t h r o u g hw h i c h w ec a n u s eal a n g u a g et or e t r i e v ea l lt h el a n g u a g er e l a t e di n f o r m a t i o ni nt h es y s t e m e a s i l y t h et e c h n o l o g yb a s e do nt h ep a t t e r no fd i c t i o n a r ya n dt h em a c h i n e t r a n s l a t i o n s y s t e mh a db e c o m ev e r yh o tw h e n p e o p l ec a r r yo u tt h ec r o s s l a n g u a g ei n f o r m a t i o n r e t r i e v a l t h ep a t t e r nb a s e do nt h ed i c t i o n a r yi st ou s et h ed i c t i o n a r yr e a db yt h e c o m p u t e rt od ot h et r a n s l a t i o n t h em a i np r o b l e mh e r ei st h el e x i c a la m b i g u i t y a w o r dm a yh a v em u l t i p l em e a n i n g s ,w h i c hr e s u l t si nt h ep r o b l e mo f c h o o s i n gw o r d s b yt l l em a c h i n et r a n s l a t i o ns y s t e m a n o t h e rp r o b l e mi st h a tt h ed i c t i o n a r yh a s n t e n o u g hc o v e r a g eb e c a u s ed y n a m i cp r o p e rn a m e sc h a n g ee v e r yd a ys u c ha sp e o p l e n a m e s ,p l a c en a m e s ,l n s t i t u t i o n sn a m e s ,w h i c hm o s tp r o b a b l yc a nn o tb ef o u n di n t h ed i c t i o n a r yi nt h et r a n s l a t i o np r o c e s s t h em a c h i n es y s t e m a t i ct r a n s l a t i o ni s m a i n l ya i m e da tt h et r a n s l a t i o no fd o c u m e n t s ,b u tt l l e s h o r t c o m i n g so ft h e t r a n s l a t i o no fd o c u m e n t sa r et h a ti th a sn o th i g he f f i c i e n c yo ni m p l e m e n t a t i o na n d i i t h et r a n s l a t i o na r eo f t e nn o tp r e c i s e t os o l v et h ea b o v ep r o b l e m s ,w ep r o p o s eac r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l m e t h o du s i n gt h ei n t e r l i n g u as e m a n t i c sb a s e do np a r t i a ll e a s t s q u a r e s ( p l s ) t h e o r y t h ee x p e r i m e n tr e s u l t ss h o w e dt h a tt h i sm e t h o di se f f e c t i v e t h ei n n o v a t i o n si nt h i sp a p e ra r ea sf o l l o w s :f i r s t ,ac r o s s - l a n g u a g ei n f o r m a t i o n r e t r i e v a lm o d e lb a s e do ni n t e r l i n g u as e m a n t i c si sp r o p o s e db yu s i n gt h et e c h n o l o g y o ft h ep a r t i a ll e a s t s q u a r e s ( p l s ) ;s e c o n d ,ap a r a l l e lc o r p u so fe n g l i s ha n d c h i n e s ei sb u i l t ,w h i c hh a sl a i dt h es o l i df o u n d a t i o nt oe x p a n dt h i sp a r a l l e lc o r p u si n t h ef u t u r e k e yw o r d s :i n t e r l i n g u as e m a n t i c s ,c r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l ,p l s , p o t e n t i a ls e m a n t i cp a i r i i i 独创性声吠 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果据我所知,除了文中特别加以标注和致谢的地 方夕 ,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得或其他教育机构的学位或证书而便用过的材糟。与我一两工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表 示谢意 学位论文作者签名啬罚舐 签字日期:铲鲫学年莎月乡日 学位论文版权使用授权书 本学位论文作者完全了解江西师范大学研究生院有关保留、使用 学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许论文被查阅和借阕。本人授权江西师范大学研究生院 可以将学位论文的全部或部分内容藕入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者赫童l 氦衣 签字日期:妒3 年6 月了日 导师签名:m导师签名:0 沙似 签字日期:如毋年么月j 1 3 基于中间语义的跨语言信息检索研究 1 1 研究背景 第一章引言 随着全球信息化进程的不断深入,网络信息用户的数量不断增长。据c n n i c 发布的数据,截至2 0 0 7 年1 2 月,网民数已达到2 1 亿人。中国网民数增长迅速, 2 0 0 7 年一年增加了7 3 0 0 万,年增长率为5 3 3 ,并且各层次、各类型信息用户 占总用户的比例不尽相同,从近几次调查结果可以看出,搜索引擎的使用率一直 名列前茅,2 0 0 7 年这一比例达到7 2 4 。其他非英语国家的网络信息用户数量也 呈现快速增长趋势,据w w w i n t e r n e t w o r l d s t a t s c o m 最新统计数据,在 2 0 0 0 2 0 0 7 年间,用户增长最快的三个语种,均为非英语,其中阿拉伯语网络用 户增长1 5 7 5 9 ,葡萄牙语用户增长5 7 0 9 ,汉语用户增长4 7 2 4 ,以英语为 母语的美国、英国信息网络用户增长仅为1 6 7 3 。尽管非英语语种的网络信息用 户的增长速度超过了以英语为母语的用户,然而,互联网上信息的语种分布与网 络用户的查询语言并不成比例【2 】。截至2 0 0 1 年,6 5 6 的网页为英文,5 8 5 为 日文,5 7 7 为德文,3 8 7 为中文,2 9 6 为法文,同期使用英语的网络用户仅 占全部用户的4 3 。估计至u 2 0 0 5 年,这一数字将下降至i j 2 9 。由于英语非母语的互 联网用户比例在快速增加,中、法、德、俄、西等世界几大语种的网络信息资源 所占比例却很小,给这些非英语国家用户查询利用网络信息带来了很大的障碍。 为跨越语言的障碍,消除因语言的差异而导致的信息检索困难,使非英语的信息 用户也可以方便地利用同益丰富的网络资源,目前,全球各地的图书馆学、信息 科学、计算机科学各相关领域的学者专家投入大量精力与人力,致力于跨语言信 息检索的探索。 长期以来,信息检索研究关注于查询语言与文档语言一致前提下的信息检索 问题,即单语言信息检索。从学科发展的角度来讲,跨语言信息检索,属于信息 检索领域的一个分支,对其进行深入的研究与探索,对进一步完善和丰富信息检 索体系,也具有重要意义。 跨语言信息检索( c r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l ,以下简称 c l i r ) ,是指用户以自己熟悉的语言来构建和提交检索查询,系统检索出符合用 户需求的包含多个语种的相关信息。用户查询查询所使用的语言,一般为母语或 熟悉的第二外语,称之为源语言( s o u r c el a n g u a g e ) ,而系统检索到的信息所包 涵的语种,称之为目标语种( t a r g e tl a n g u a g e ) 。如何在实现源语言与目标语言 之间建立沟通桥梁,是目前跨语言信息检索研究的核心问题。 跨语言信息检索的概念,学术界普遍认为是在2 0 世纪6 0 年代末7 0 年代初,由 康奈尔大学的s a l t o n s 首次提出的。他利用手工编制的英语一德语双语种词表,进 行了跨语言信息检索的尝试;1 9 7 3 年,他又编制了英语一法语词表,并对c l i r 的 效率进行了评价【3 j 。可以看出,受传统文献信息检索理念的启发,c l i r 研究始 于双语受控词表( c o n t r o l l e dv o c a b u l a r y ) 的编制与利用。引入受控词表的目的 在于,通过规范检索用词,界定其内涵和外延,明确检索词语之间的层次结构和 逻辑关系,使信息检索基于语义层次,而非字面组配,从而提高信息检索的精度 和广度。之后2 0 多年的发展,基于受控词表的c l i r ,理论日趋成熟,但却无法 基于中间语义的跨语言信息检索研究 继续取得进一步突破性进展,这主要是由受控词表本身的局限性带来的。首先, 以受控词标引多语种文档,完全人工完成,不仅成本高,速度慢,而且质量受标 引员水平的影响较大,从而限制了系统的规模。第二,双语多语受控词表的更 新速度较慢,往往不能及时反映新出现的主题和术语。第三,用户往往不熟悉双 语多语受控词表的用法,尤其是不同系统所编制的受控词表往往不尽一致。鉴于 受控词表跨语言检索本身难以克服的局限性,以及自然语言检索技术的发展,目 前对c l i r 的研究,多侧重于自然语言的检索,并且经过相关领域研究人员几十 年的不懈探索,跨语言信息检索领域已经取得了很大的进展。 1 2 本文工作 关于双语之间的跨语言信息检索的文献到目前为止国内外已经有很多了,上 个世纪九十年代,b r o w n 4 】等人提出了一种基于机器翻译的统计方法;随后 n i e t 5 1 、b b n 6 】等也相继提出了各自的概率论翻译模型,用基于相关文本的方法 来解决c l i r 的问题;k w o k 7 1 、h e d l u n d l 8 1 等着重研究了翻译过程中的字典查找 模式;b a l l e s t e r o s t 9 】和微软的研究人员【1 0 】在自己的工作中都使用到了基于共现 ( c o o c c u r r e n c e ) 的统计方法:等等。所有的这些工作分别从以下三个方面来展开: 机器翻译系统 4 , 1 0 】、基于语料库的方、法【5 别以及基于字典的方法0 1 。 中国科学院自动化所的金千里、赵军和徐波改进的p l s i 算法有指导的 统计隐含语义标引( s p l s i ) 应用到跨语言信息检索中,准确率和召回率都有较 大提高,但需构造跨语言的词间相似度矩阵,算法的空间和时间复杂度还是较大。 针对上述问题,我们提出了基于中间语义的跨语言信息检索方法。这个方法 的一个主要优点是涉及到了双语之间的语义对应,关键词替换为一种抽象的概念 空间,但是,双语之间往往这种概念匹配的并不是很好,尤其是对于两种不同风 格的语言( 如中文和英文) 而言更是效果欠佳。本文的工作是应用偏最小二乘 ( p a r t i a ll e a s ts q u a r e ) 理论,通过双语语料库的平行文档在统一框架下建模,提 取双语之间的语义对应关系,以获得更好的检索效果。 具体来说,本文的工作主要包括以下几点: 1 分析了基于辞典翻译进行跨语言文本分类存在着翻译歧义额问题,并针 对该问题,对偏最小二乘( p a r t i a ll e a s ts q u a r e ) 模型进行改进,提出了 一种同时考虑双语平行文档语义对应模型; 2 从互联网上收集构建实验所需要的平中英文行语料库; 3 在相同的文本数据预处理情况下,分析比较了跨语言信息检索与单语言 文本信息检索的准确率与精确率,得出了基于中间语义的跨语言信息检 索模型能接近,甚至有时候还能达到单语言信息检索的效率; 4 构建了一个完整的跨语言信息检索平台,能够完成中英文对应的信息检 索实验。 2 基于中间语义的跨语言信息检索研究 1 3 论文组织 本文的具体安排如下: 第一章:引言,简单介绍了跨语言文本分类课题的研究背景以及目的和意义, 说明了本文的研究工作,并列出了各个章节的安排; 第二章:信息检索概述,概括性的介绍了信息检索的基本概念、信息检索过 程及相关技术。按照一般信息检索系统的实现步骤,介绍了信息检索的基本流程、 信息检索的评价指标、测试文档集和常见的i r 模型等几个部分; 第三章:跨语言信息检索概述,介绍了跨语言信息检索的相关概念及研究现 状、跨语言信息检索常用方法,最后介绍了跨语言信息检索的关键技术; 第四章:介绍了偏最小二乘回归方法,给出了计算方法推导的过程,并介绍 了成分确定的方法; 第五章:提出了基于语言信息检索模型,分类算法; 第六章:给出了以上研究内容的实验结果。根据实验的结果,我们进行了总 结和分析; 第七章:总结全文,并展望了下一步的工作。 基于中间语义的跨语言信息检索研究 2 1 信息检索简介 第二章。信息检索概述 信息检索作为一个学科来发展始于2 0 世纪4 0 年代末,1 9 5 0 年国际数学 会议上c a l v i nw m o o e r s 发表的题为把信息检索看作是时间性的通讯的论 文中最早出现了信息检索( i n f o r m a t i o nr e t r i e v a l ) - - 词。论文指出,“信息检索是一 种时间性的通讯形式 ,“在时间上从一个时刻通往一个较晚的时刻,而空间上可 能还在同一地点。这一看法,揭示了信息检索固有的通讯本质,并进一步指出 信息检索是一种特殊的通讯过程,包括信息的存储与获取两个环节,是一种延时 性的通讯形式。信息检索有广义和狭义之分,广义的信息检索包括信息的存储和 检索,狭义的信息检索只包含检索一个方面【1 2 】【1 3 】。本文只研究文本检索,即部 分有用的文本片断和用户的查询的匹配过程。检索系统检出的文档的主题即核心 内容与用户的信息需求相匹配。 信息检索( i n f o r m a t i o nr e t r i e v a l ,简称瓜) 是一门研究从一定规模的文档库 ( d o c u m e n tc o l l e c t i o n ) 中找出满足用户提出的需求( u s e ri n f o r m a t i o nn e e d ) 的信息 的学问。和数据库检索不同的是,一方面,r 处理的主要数据往往是无结构 ( u n s t r u c t u r e d ) 或者半结构的( s e m i s t r u c t u r e d ) ,最典型的例子如没有任何结构的文 章或者有t a g 标记的h t m l 文档;另一方面,取的检索结果也往往是不精确的, 而不象数据库查询那样正确率一定是1 0 0 。比如,查关于“伊拉克战争 的文 章,可能会漏掉有关“巴格达 或者其它城市的战斗。因此,瓜系统有可以相 比较的性能评价指标。 信息检索起源于图书情报查询,一开始处理的文档数目和规模极其有限,随 着硬件处理能力的提高、大规模数据以及w w w 的出现,r 技术也日益发展。 从处理对象的格式来说,现代瓜不仅处理单纯的文本格式数据( r e x 0 ,而且 处理包括图像、图形、音频、视频在内的各种载体格式,甚至w e b 这种复杂 的载体。从处理的技术来说,包括自然语言处理m l p ) 、人工智能、模式识别、 机器学习、神经网络、数理统计、运筹学等等学科和科目在内的技术纷纷被应用 于现代瓜。 从应用来说,瓜技术不仅可以用于搜索引擎、信息代理等一些传统的信息 应用,还可以用于话题跟踪、内容安全、生物信息学等新型应用。 从概念或者名词来说,最近一些年来出现了w e b 挖掘( w e bm i n i n g ) 、知识 挖掘( k n o w l e d g em i n i n g ) 、知识发现( k n o w l e d g ed i s c o v e r y ) 、内容管理( c o n t e n t 4 基于中间语义的跨语言信息检索研究 m a n a g e m e n t ) 、内容计算( c o n t e n tc o m p u t i n g ) 等等新名词、新学科,有些其实就 是m ,有些可能学科渊源或者处理内容有所不同,但是瓜技术是这些名词的 主要内容,或者说这些都是传统瓜的拓展,是现代浓的内容。可以说,现代 瓜的发展可以说是百花齐放、绚丽多彩,引无数英雄尽折腰。 从信息检索的发展来说,可以分为三个大的阶段 1 1 手工信息检索 这个阶段的信息检索手段是书本式和卡片式,包括检索型和资料型的工具书 等。至今这些检索工具仍在发挥作用。 2 ) 机械信息检索 机械信息检索的发展期是2 0 世纪4 0 至5 0 年代,生命周期很短暂,是手工 检索向计算机信息检索的过渡阶段。这一阶段的主要检索手段包括穿孔卡片和缩 微制品检索。 3 ) 计算机信息检索 计算机信息检索起源于2 0 世纪5 0 年代初。1 9 5 4 年美国海军兵器中心图书 馆利用工b m 7 0 1 机开发计算机信息检索系统,它标志着计算机信息检索阶段的 开始。计算机信息检索可分为4 个发展阶段:脱机检索,联机检索,光盘检索, 网络检索【1 4 】。 2 2 信息检索的基本流程 信息检索的基本流程如图2 1 所示。首先,用户提出检索需求,系统为用户 的需求生成查询表达式,然后对查询表达式进行分析处理,产生检索系统的查询 语言。在后台,通过索引器对文档集建立索引,并生成文档表示。这样,查询语 言和文档表示就是一个匹配的过程,产生检索结果。通过相关反馈机制,调整查 询表达式,从而使检索结果更加符合用户的需求。 我们一般将信息检索分为三个重要过程:文档集的逻辑表示、用户的信息需 求表示即查询的表示、相似匹配及其的排序【l5 1 。 文档集的逻辑表示即是文档集的索引过程。理论上看来,信息的检索是很简 单的。例如有一堆文件和一个想利用这些文件中的信息解决问题的用户。计算机 可以把这些文件都遍历一遍,留下有用的,去掉那些无助于解决问题的文件,这 就完成了一次信息的检索。但是,这个方案显然是不可行的,时间复杂度非常高 效率低下。给定某个查询词,我们与其去了解某一篇文档中含有哪些词,不如去 利用哪些文档含有某个词的信息。文档集都是由若干词所组成,在逻辑上,每个 文档就可看成由这些词索引表示,文档集用倒排文件表示。文档集索引过程方便 检索的执行。 基丁中间语义的跨语言信息检索研究 用户的信息需求大多用自然语言来描述,通过与文档集预处理相似的过程, 把用户需求转变成查询表达式,这样生成了信息检索系统可以处理的查询。 文档和查询的相似匹配及其排序能使用户可比较文档和查询的相关程度并 且获取相关文档,这是信息检索中最重要的过程。查询和文档进行相似匹配,查 询结果按文档和查询相关性大小返回给用户,可以认为排在越前面的文档和查询 越相关,更加符合用户的信息需求。 图2 - 1 信息检索的基本流程图 2 3 信息检索评价 信息检索效果的最根本的评价,应该是信息对需求者的满足程度。它是因人、 因时、因环境而变的,但是因为用户已有的知识无法衡量,因此在信息检索这一 技术领域,通常用检索的实际效果来评价检索的质量。最基本常用的评价指标包 括【l6 】:检索精度( 又称为查准率,p r e c i s i o n ,p ) ,召回率( 又称为查全率,r e c a l l ,r ) , 前n 选的精度( t o pnp r e c i s i o n ,p n ) ,1 1 点平均精度( 1 1 - p o i n ta v e r a g ep r e c i s i o n ) , 3 点平均精度( 3 - p o i n ta v e r a g ep r e c i s i o n ) ,f 度量值( f m e a s u r e ) 以及p r 等。 2 3 1 检索精度和召回率 对于某测试文档集,假定给定用户查询q ,查询对应相关文档的总数为r 。 在检索系统返回的结果集中,总的文档数为a ,结果集和相关文档集的交集中 的总文档数为b 。那么,召回率是指结果集中相关文档个数和相关文档总数的 比值,精确率是指结果集中相关文档个数和结果集的文档总数的比值,公式如下: 召回率: r = 一b r 基丁中间语义的跨语言信息检索研究 精确率; p = 堡 彳 我们可用图2 2 表示上述几个集合之间的关系: 图2 - 2 精确率和召回率的文档关系图 精确率和召回率是一对互逆关系的指标,召回率的增大伴随着精确率不断减 小,因此检索时要权衡这两个检索性能指标。单纯追求精确率,召回率会降低, 用户所获得的信息可能不全面,也就不能满足用户的信息需求。如果只考虑提高 召回率,这样会检索出来较多的与用户的信息需求不相关文档,同样用户的信息 需求不能得到很好地满足。总之,我们要综合考虑精确率和召回率,使检索结果 尽量满足用户的信息需求。 2 3 2 前n 选精度 ,在检索返回的结果中,用户往往对排在前面的结果最感兴趣,而一般不会浏 览后面的结果。因此,排在前面的结果的质量也直接影响用户对检索的满意程度, 于是前n 选精度也是在信息检索中一个有用且常用的指标。这里n 通常取为5 , l o ,2 0 或者1 0 0 0 2 3 31 1 点平均精度和3 点平均精度 假设用户可以一次检查检索结果集合a 里的所有文档,那么用上面定义的 p r e c i s i o n 和r e c a l l 就足够了。但是实际情况却是a 中的文档首先根据相似程度 被排序,然后用户从前向后依次查看文档。在这种情况下,p r e c i s i o n 和r e c a l l 会随着用户查看的进度而变化。于是就有了用p r e c i s i o n 和r e c a l l 的曲线图来评 价检索系统性能的方法1 1 点平均精度和3 点平均精度。 7 基于中间语义的跨语言信息检索研究 把r e c a l l 分为0 ,1 0 ,2 0 、1 0 0 这1 1 个等级,分别计算它们对应 的p r e c i s i o n ,无法直接计算的点则可以用插值法等方法来确定。这样绘制出来的 曲线可以直观的反映对一个查询的检索效果。当我们需要衡量检索算法在检索多 个不同的查询时总的检索性能时,则可以对所有查询,在同一个r e c a l l 等级上对 各个p r e c i s i o n 值取平均。而1 1 点平均精度就是对1 1 个r e c a l l 等级上对应的 p r e c i s i o n 值取平均,这也是目前最常用的标准评价方法之一。同样3 点平均精度 就是对3 个r e c a l l 等级上对应的p r e c i s i o n 值取平均。 2 3 4f - m e a s u r e 指标 检索精度和召回率是两个相互关联的评价标准。通常一个系统的检索精度提 高了,其召回率往往会下降,因此只用任何一个进行评价都可能失之偏颇。除了 1 1 点平均精度以外,f m e a s u r e 也是对检索精度和召回率综合考察的指标。它的 定义为: , ,( ) = 1 r ( j ) 二+ 1 一p ( j ) ( 2 - 1 ) 其中j 是指在有序的结果列中的前j 个文档,p ( j ) 矛- t lr ( j ) 分别为前j 篇文档的 精度和召回率。 2 3 5pxr 指标 有时候对于较精确的查询,系统返回的结果比较少( 例如几十个左右) ,用1 1 点平均精度来衡量时,大多数r e c a l l 点上的值都无法直接得到,使得这种评价方 法失去了意义。另外,对于不同的用户查询,检索的质量可能有很大的差别。对 于某个查询,检索结果列表中没有用户需要的信息的情况很有可能方生,即精度 和召回率均为o 。对于这种情况,f m e a s u r e 就无法进行度量了。因而人们提出 了用pxr 作为一种补充指标来评价检索的综合性能。 2 4 测试文档集 在前面提到了评价方法中,注意到对于召回率的评价有一个前提,就是已知 对于用户查询,在整个文档集合中相对应的相关文档都己经确定了。而这一点经 常无法满足,尤其是在w e b 环境下,相关文档的完整集合不可能找到。另外,不 同的查询使用相同的检索方法效果可能相差很大,因此有必要通过一个标准的测 8 基于中间语义的跨语言信息检索研究 试集,来对不同的系统不同的检索方法进行公平的评价如何构造测试集合,也 是一个重要的问题。 测试文档集为信息检索的研究提供统一的实验平台,测试文档集是伴随这信 息检索的研究而发展起来的,已经建立的很多常用的测试文档集。c a c m 等小的 测试集是比较常用的实验数据,相对来说更容易开展实验。t r e c 文档集是文本 检索会议中使用的测试文档集,它提供大规模的、统一的训练语料和测试语料, 而且有对检索模型的统一评分方法和评测软件,它也是现在信息检索研究常用的 测试集。 此外,各研究机构也建立了一些其他的测试文档集。c w t ( c h i n e s ew e b t e s t c o l l e c t i o n ) 是由北大网络实验室构建的中文网页的w e b 测试文档集。c l e f ( c r o s s l a n g u a g ee v a l u a t i o nf o r u m ) 是欧洲委员会资助的数字图书馆研究中的一部分,它 的评测语料库用来进行跨语言检索的研究。n t c ( n a c s i st e s tc o l l e c t i o n ) 也是由 日本国立信息研究所( n i i ) 建立的亚洲语种跨语言的测试文档集合。 这些测试文档集的建立在一定程度上促进了信息检索的研究,为检索模型的 研究提供了统一的测试平台。 2 5ir 模型:b o oie a n 、v s m 、p m 、l m 在信息检索中,“相关 这个词经常出现,它在信息检索中是一个核心概念。 计算机信息检索的目的就是找出相关的文件,而尽可能的减少对不相关文件的检 索。对于人类的智力而言,从文件集合中检索出对于某一个查询相关的文件是完 全可能的。要让计算机来完成这件事,必须建立模型,对于如何确定文件是否相 关进行量化的分析。检索模型的本质也就是对相关度的建模,我们用什么形式来 表示文档和查询,以及用什么理论看待它们之间的关系,进行相关大小计算,就 产生了不同的检索模型。 信息检索算法的研究已经开展了半个多世纪,人们提出了许多种信息检索的 算法模型,下面是比较常见的几种模型: 1 布尔模型( b o o l e a nm o d e l ) ,它是许多商业信息检索系统的理论基础。在布 尔模型中,文档和查询都被表示为索引项的集合。也就是说,这种模型是集合论 的一种应用【1 7 】 2 向量空间模型( v e c t o rs p a c em o d e l ) ,把文档和查询表示成一个n 维空间中 的向量,用距离作为相似度的度量。这种模型使用的是代数理论知识,向量空间 检索系统有s m a r t 1 s 】。 3 概率模型( p r o b a b i l i s t i cm o d e l ) ,把检索看作是文档和查询之间匹配成功的 概率估计问题,使用概率理论作指导【19 1 ,较为著名的概率检索系统有o k a p i 2 0 1 。 9 基于中间语义的跨语言信息检索研究 4 语言模型( l a n g u a g em o d e l ) ,与前面的模型不同,这种基于语言模型的检 索模型,把查询看作是由文档生成的,那么检索时一个文档与查询的相关性,就 转化为这个文档能够生成该查询的概犁2 l 】。 这里布尔模型是最简单的检索模型,只有向量空间模型和概率模型近十几年 应用在商业产品上,而基于语言模型的检索模型,则是在近几年才刚刚开始研究。 下面分别对这四种模型作详细的介绍。 2 5 1 布尔模型 传统布尔模型【2 l 】是较早研究的简单检索模型,建立在集合和布尔代数理论基 础上,这样布尔模型有着设计简单、形式简洁和计算处理代价比较小的优点。在 布尔模型中,一个查询词与文档的关系只有两种:在文档中出现或不出现。因此, 索引项的权重是二值的:即0 ,1 。一个查询式可以用“与( a n d ) 或( o r ) ”,“非 ( n o t ) 三种运算符来连接,成为一个布尔表达式。 我们将文档记录组成以关键词或查询词为标识的倒排文件,一个主题词后跟 与该词相关的文档集合。查询式由查询词及词间严密的逻辑关系符组成。系统处 理用户的查询式时,首先按查询词在倒排文件中找到相同的主题词,取出文档集 合,然后根据查询式中的词中的逻辑关系进行集合运算。如果查询式为“aa n db ”, 表示以词a 检索出的文档集合与以词b 检索出的文档集合进行集合交运算;查询 式为“ao rb ,表示以词a 检索出的文档集合与以词b 检索出的文档集合做逻 辑并运算。 布尔模型的简单、严密,使其操作过程达到了高度统一的标准,便于计算机 模拟;检索查询式中的词间的几种逻辑关系便于用户表达不同的搜索需求,如用 “a n d 联结两个较宽泛的词,以求检出较专指文档,或将一组同以、近义词以 “o r ”连接,以求检出比较全的文档。一般来说,用a n d 连接的索引项越多,获 取的文档就越少,而且文档数量的减少将非常明显;用户用0 r 连接的索引项越 多,获取文档的数量就越多。 但传统布尔检索模型还存在以下致命的弊病: 1 很难控制返回文档数量。有时候返回文档太多,需要用户进一步从中选 取更贴切的文档,费时费力,有时竟一篇相关文档都没有找到; 2 凡是返回的文档都被认为对用户同等重要,而不依相关的不同对其进行 排序输出; 3 文档索引项以及用户的查询式不作任何区别重要程度的标识,对采用的 词都同等看待,不进行加权处理,影响检索的精度; 4 布尔查询式有时会产生反常的结果,如“o r 的处理,对查询式“a o r 1 0 基于中间语义的跨语言信息检索研究 b o r co r o rz ”,文档只与其中某一个词相关和文档与其中所有词相关一样 作为命中文档,无区别的同等输出;同样,“a n d 的处理也是如此,对查询式 “a a n dba n dca n d z ,文档与其中除某一词外的所有词相关和文档与查 询式中无一词相关一样被作为不命中文档处理。 这些缺点的存在,影响了系统的检索效果,为了提高检索效率,现在很多研 究者都对其做了许多改进。经过对布尔模型中限制条件的修改,扩展的布尔模型 2 2 1 就应用的非常成功。 2 5 2 向量空间模型 向量空间模型2 3 j 是s a l t o n 等人于6 0 年代提出来的,是一种简单高效的文档表 示模型。向量空间模型简而言之就是把文档和查询表示成有索引项构成的向量空 间中的一个点,通过计算向量之间的距离,来判定文档于查询之间的相似程度。 向量模型中,索引词的权重是非二元权重,这样可以进行文档和查询的部分匹配, 使得以相似度大小排序的检索结果集比布尔模型得到的结果集更合理,能更好的 匹配用户的信息需求。 向量空间模型表示方法是在文本中提取其特征项组成特征向量,并以某种方 式为特征项赋权,如:文档d 可表示成d ( 6 ,t 2 ,? ) ,其中如是特征项,1 k n 。 由于特征项的重要程度不同,可用附加权重来进行量化,这样文档d 可表示为 “,;如,;厶,w ) ,简记为d ( f 1 ,乞,厶) ,这时说项气项权重为,l k n 。 给定一自然语言文档d ,w 1 ;t 2 ,;一厶,h j ,在暂不考虑气在文档中的先后 顺序并要求t 互异( 即没有重复) 时,可以把看成一个t 2 ,j 看成一个n 维的坐 标系,而w l ,w 2 ,k 为相应的坐标值,因而d 【川,。h ) 被看成是n 维空间中的 一个向量。称d ( w l ,。w ,) 为文档的向量表示或向量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论