(管理科学与工程专业论文)基于维基百科的语义相关度计算研究.pdf_第1页
(管理科学与工程专业论文)基于维基百科的语义相关度计算研究.pdf_第2页
(管理科学与工程专业论文)基于维基百科的语义相关度计算研究.pdf_第3页
(管理科学与工程专业论文)基于维基百科的语义相关度计算研究.pdf_第4页
(管理科学与工程专业论文)基于维基百科的语义相关度计算研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(管理科学与工程专业论文)基于维基百科的语义相关度计算研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 语义相关度计算是自然语言处理的基础性工作之一,在很多领域都有着广 泛的应用,例如信息检索、词义排歧、智能问答、自动摘要和机器翻译等。不 同于长文本,短词语相关度计算最大的困难在于词语本身,因为它没有包含足 以从中获取可靠语义特征的信息。而人类在比较词语的相关度时,不仅是根据 词语本身,还利用了在日常生活学习中积累的大量常识。因此计算机也需要依 赖大量的一般意义或专门领域的世界知识来进行语义概念的扩充,以在扩充后 的概念空间中进行语义相关度的计算。 目前,词语相关度计算主要有两种方法。一种是基于大规模文集的统计方 法,另一种是基于某种分类体系或世界知识的知识库的方法。其中对基于统计 和基于分类体系方法的研究比较多且很成熟,但在进一步提高计算精度方面遇 到了瓶颈。而最近提出的以维基百科作为世界知识的方法在准确度提升上取得 了很大的成功,但其仍然存在着一些不足和可以进一步完善的地方。 本文以维基百科作为知识库,在分析和总结已有基于统计的传统方法和基 于维基百科的最新方法基础上,对语义相关度计算中一词多义现象和维基百科 中链接结构的利用问题进行了深入研究。本文的主要研究工作和贡献如下: ( 1 ) 研究了语义相关度计算的背景和存在的问题,阐述了相关度的概念和 评价体系,并对现有的相关度计算方法进行分析,对比了各自的优缺点。 ( 2 ) 通过建立模型,详细论述了现有基于维基百科的算法在一词多义或多 词一义情况遇到的难题,并提出了一种考虑词对语境变化的自适应计算方法。 ( 3 ) 由于现有基于维基百科的方法都忽略了维基百科中存在的大量硬编码 的、高质量的链接关系信息。本文提出利用链接结构进行语义概念的扩充和筛 选的方法,来提高相关度计算的准确性和健壮性。 ( 4 ) 选取目前应用最广的标准测试集w o r d s i m i l a r i t y - 3 5 3 对实验结果进行分 析和比较。结果表明我们提出的两种方法都优于现存所有的方法,计算结果同 人类判断之间的相关系数r 从0 7 5 分别提升到0 8 0 和0 7 8 。此外,我们的方法 更具适应性,更容易为人类所理解和接受。 最后,本文还指出了该领域值得进一步研究的问题。 关键词:语义相关度自然语言处理维基百科知识库世界知识 a b s t r a c t a b s t r a c t s e m a n t i cr e l a t e d n e s sc o m p u t i n gi so n eo ft h eb a s i cw o r k so fn a t u r el a n g u a g e p r o c e s s i n g , a n dh a sb e e nw i d e l ya p p l i e di nf i e l d ss u c ha si n f o r m a t i o nr e t r i e v a l ,w o r d s e n s ed i s a m b i g u a t i o n , i n t e l l i g e n t a n s w e r , a u t o m a t i cs u m m a r ya n dm a c h i n e t r a n s l a t i o na n ds oo n u n l i k el o n gd o c u m e n t s ,s h o r tt e x ts e g m e n t st y p i c a l l yd on o t c o n t a i ne n o u g hi n f o r m a t i o nt oe x t r a c tr e l i a b l es e m a n t i cf e a t u r e s h u m a n sd on o t j u d g et e x tr e l a t e d n e s sm e r e l ya tt h el e v e lo ft e x tw o r d s ,n l e yu s e av a s ta m o u n t so f c o m n l o nk n o w l e d g ea c q u i r e df r o md a i l yl i v ea n ds t u d y l i k eh u m a n s ,c o m p u t e r s a l s on e e dt or e l yo nal a r g en u m b e ro fc o m m o n - s e n s ea n dd o m a i n - s p e c i f i cw o r l d k n o w l e d g ef o re x p a n d i n gs e m a n t i cc o n c e p t ,a n dc o m p u t es e m a n t i cr e l e v a n c ei nt h e e x p a n d e dc o n c e p ts p a c e t h e r ea r et w ow a y sf o rc o m p u t i n gs e m a n t i cr e l a t e d n e s sa tp r e s e n t o n el 【i n di s t h es t a t i s t i c a la p p r o a c hb a s e do nal a r g es c a l ec o r p u s ,a n dt h eo t h e rk i n di st h e k n o w l e d g eb a s ea p p r o a c hb a s e do nah i e r a r c h i c a lt a x o n o m yo rw o r l dk n o w l e d g e a m o n gt h e m ,t h em e t h o db a s e do ns t a t i s t i c so rt a x o n o m yi sm o r em a t u r e ;h o w e v e r t h e r e a r em a n yo b s t a c l e sf o ri m p r o v i n gp r e c i s i o nb yu s i n gt h o s et w om e t h o d s r e c e n t l y , t h ea p p r o a c hu s i n gw i k e p e d i aa sk n o w l e d g er e p o s i t o r yf o rr e l a t e d n e s s c o m p u t i n gh a sa c h i e v e dag r e a ta c h i e v e m e n ti np r e c i s i o ni m p r o v i n g , h o w e v e rt h e r e a r es t i l ls o m es h o r t c o m i n g sa n dd e f e c t sc a nb ef i l r t h e ri m p r o v e d b a s e do na n a l y z i n ga n ds u m m a r i z i n gal a r g ev o l u m eo fr e s e a r c h e so nt h e e x i s t i n gt r a d i t i o n a ls t a t i s t i c a lm e t h o d sa n dt h el a t e s tm e t h o d sb a s e do nw i k i p e d i a , t h i st h e s i sm a i n l yi n v e s t i g a t e st h ep o l y s e m yp h e n o m e n aa n dt h ew i k i p e d i a sl i n k u t i l i z a t i o ni ns e m a n t i cr e l a t e d n e s sc o m p u t i n g t h em a i nc o n t r i b u t i o n sa n d i n n o v a t i o n so ft h et h e s i sa r ea sf o l l o w s ( 1 ) f i r s t l y , t h i st h e s i sd i s c u s s e st h eb a c k g r o u n da n dk e yi s s u eo fs e m a n t i c r e l a t e d n e s sc o m p u t i n g , d e s c r i b e st h ec o n c e p t sa n de v a l u a t i o ns y s t e mo fs e m a n t i c r e l a t e d n e s s r e s e a r c ho nt h et r a d i t i o n a ls e m a n t i cr e l a t e d n e s sa l g o r i t h m s ,t h i sp a p e r p r e s e n t st h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h o s em e t h o d s ( 2 ) b yb u i l d i n gam o d e l ,t h i st h e s i sd i s c u s st h ep o l y s e m yp h e n o m e n o na n dt h e c o r r e s p o n d i n g l yd i f f i c u l ti nt h ee x i s t i n gm e t h o db a s e do nw i k i p e d i a , a n dp r e s e n ta n e w s e l f - a d a p t i v ea l g o r i t h mb yc o n s i d e r i n gt h es e m a n t i cc o n t e x to f t h ew o r d - p a i r ( 3 ) a st h ee x i s t i n gm e t h o d sb a s e do nw i k i p e d i ai g n o r e dt h ee x i s t e n c eo f al a r g e n n u m b e ro fh 雒d c o d e d ,h i g h - q u a l i t yl i n kr e l a t i o n s h i pi n f o r m a t i o ni nw i k i p e d i a t h i s p a p a p r o p o s e sam e t h o du s i n gt h el i n ks t r u c t u r et oe x p a n da n df i l t e rt h es e m a n t i c c o n c e p t s t h i sm e t h o dc a ni m p r o v et h ea c c u r a c ya n dr o b u s t n e s so ft h er e l a t e d n e s s c o m p u t i n g ( 4 ) s e l e c tt h em o s tw i d e l yu s e ds t a n d a r dt e s ts e tw o r d s i m i l a l i t y - 3 5 3f o rt e s t i n g , a n a l y z et h ee x p e r i m e n t a lr e s u l t sa n dc o m p a r ei tw i t ha l lt h eo t h e rm e t h o d t h e r e s u l t ss h o wt h a to u rt w op r o p o s e dm e t h o d sa l es u p e r i o rt oa l le x i s t i n gm e t h o d s ,t h e c o r r e l a t i o nc o e f f i c i e n tro fc o m p u t e dr e l a t e d n e s ss c o r e sw i t hh u m a nj u d g m e n t sw a s u p g r a d ef r o m0 7 5t oo 8 0a n d0 7 8r e s p e c t i v e l y , i na d d i t i o n , o u rm e t h o di sm o r e a d a p t a b l e , m o r ee a s i l yu n d e r s t o o da n da c c e p t e db ym a n k i n d f i n a l l y , t h et h e s i sa l s od i s c u s s e ss o m ec h a l l e n g i n gt o p i c sw h i c hd e s e r v ef u r t h e r r e s e a r c hi nt h ef u t u r e k e yw o r d s :s e m a n t i cr e l a t e d n e s s ,n a t u r a ll a n g u a g ep r o c e s s i n g , w i k i p e d i a , k n o w l e d g eb a s e , w o r l dk n o w l e d g e 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者签名: 签字日期:塑! ! :茎:12 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人 提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 肋公开口保密( 年) 作者签名: p 奶型妻 签字同期:趁! ! :茎:12 导师签名: 签字同期: 第一章绪论 1 1 引言 第1 章绪论 “小明要过生日了,他会喜欢这个礼物吗? 小蕾向智能机器入s m a r t 提问,s m a r t 立刻回答说:“当然了,他肯定喜欢米老鼠的 。“那米老 鼠和猫是什么关系呀? 小蕾又接着问。s m a r t 回答道:“米老鼠和猫都 是可爱的小动物啊。一回答这样日常的问题对于幼儿园的小朋友来说都再 简单不过了,但对于s m a r t 这样的机器人来说就是一项非常具有挑战性的 任务了。首先j 他需要通过摄像头观察周围的环境,通过图像处理和模式 识别技术知道小蕾拿的是一个米老鼠玩具。其次,s m a r t 通过搜索知识库 学习到小明的背景信息,如小明是个小男孩,今天是小明7 岁的生日,他 和小蕾是好朋友等等。通过进一步复杂的逻辑推理得知,过生日的时候朋 友之间会送礼物,米老鼠是一种非常可爱且受欢迎的动物玩具,小男孩都 喜欢米老鼠,猫和老鼠都是小动物等常识。在这个过程中,智能机器人 s m a r t 需要知道“玩具 和“米老鼠 、“礼物一和“生日”、“男孩一 和“米老鼠 、“猫 和“老鼠一等词语之间具有某种较强的关联性,并 进行逻辑推理才能回答出这样的问题。 近年来,随着人工智能技术( n i l s j n i l s s o n 1 9 9 9 ) 特别是自然语言处理 ( n l p ) 技术( a n n ek a o ,s t e v e r p o t e e t ,2 0 0 6 ) 快速发展,电脑对问题和命令的 回答会更加智能化、更加人性化。从信息到知识再到智能的转换是一个智 能体( 包括动物、人或人工实体) 生存、发展并与外部世界产生联系的一个 基本过程( 李赞,2 0 0 9 ) 。人类能够轻松地理解自然语言、回答问题、交流沟 通,而这对计算机来说是一个不可逾越的障碍。其本质原因是人类不仅仅 根据语言本身来进行推理和判断,而是依赖于丰富的世界知识及强大的逻 辑推理能力进行思维。人类不会把一段文字仅仅看成一些符号,而会将其 与概念、公理、事实相结合,利用大脑中积累的世界知识分析出更为深刻 的内涵。 1 2 研究背景 随着计算机网络技术的发展,特别是搜索引擎技术的普及以及廉价存 储介质的广泛使用,人类的生产信息能力远远超过了对信息的处理、组织 第一章绪论 和吸收能力。i n t e r n e t 已成为人类有史以来最庞大的信息发布和交流的平 台,为人与人、人与计算机之间共享信息资源提供了方便的途径。在 w e b 2 0 ( 博客、r s s 、维基百科等) 、语义网络、搜索引擎等技术的推动下, i n t e m e t 正朝着智能化、语义化、个性化方向发展( 汤代禄、韩建俊等,2 0 0 7 ) 。 提供智能化的信息抽取和知识挖掘工具,让计算机更深入地处理并应用互 联网知识,实现人与计算机、计算机与计算机之间的知识共享已成为一个 热门且有重要意义的课题。 计算机要能够智能的、自动化的抽取和挖掘信息,对自然语言的处理 和理解就显得十分的必要。近年来,语义相关度计算在自然语言处理( n l p ) 领域有着非常的广泛的应用,如在信息检索( g a b r i l o v i e h ,2 0 0 2 ) 、文本分类 ( b a k e r ,1 9 9 8 ) 、词义排歧( p a t w a r d h a n ,2 0 0 5 ) 、基于实例的机器翻译、智能 问答( j i j k o u n ,2 0 0 4 ) 、自动摘要( g a u c h ,c h o n g 1 9 9 5 ) 、拼写纠正( b u d a n i t s k y , 2 0 0 6 ) 、意见挖掘( 蔡健平,林世平,2 0 0 7 ) 、词汇选择( w u ,p a l m e r ,1 9 9 4 ) 、复 合名词的解释( k i m ,b a l d w i n ,2 0 0 5 ) 和信息系统关键词分类( c h u a n g ,c h i e n , 2 0 0 5 ) 等方面都有广泛的应用。语义相关度计算作为一个基础性的研究课 题,正在为越来越多的研究人员所关注。 相关度研究最早起源于信息检索领域,最开始主要是使用基于规则的 方法,随着大规模语料库的引入,统计方法以其优越的性能在随后几十年 间一直占据统治地位。 基于统计的语义挖掘方法通常需要借助于大量的语料知识库,这些语 料可以从报纸、杂志、小说以及互联网网站上获得。根据分布式假说,基 于任何一种自然语言的语料都可以被描述为词语的分布式结构,统计词语 在单一文档以及语料库所有文档中出现的频率等信息可以发现词语和文 档之间的关系,而词语与词语在同一文档上下文中共同出现的特征也可以 反映出典型的语义关联关系。人类之所以能够深入地理解自然语言,是因 为人类拥有丰富的世界知识和强大的逻辑推理能力,可以为文本、语言中 出现的概念、关系、事实等提供更为丰富的语义背景和语用知识。换句话 说,自然语言的文本通常不会重复包含这些众所周知的语义背景信息。 因此,基于传统语料库的统计方法只能挖掘出语料库本身所包含了的 语义信息,更深入的语义挖掘任务需要依赖包含丰富背景知识的知识库。 近年来,研究者们发现纯粹的统计方法存在难以突破的瓶颈,于是越来越 多的方法采用了统计与规则相结合的策略( b i m a n g ,2 0 0 7 ) 。 为了获得外部世界的语言规则和语义信息,实现基于语义知识的智能 信息处理,通过人工总结语义知识并形成知识库的方法获得一致认可,并 2 第一章绪论 取得了巨大成功。许多研究机构都建设了大规模的语义词典或知识库,最 著名的有普林斯顿大学的w o r d n e t ( f e l l b a u mc ,1 9 9 8 ) 、c y c 的常识知识库 ( l e n a td ,g u h ar ,1 9 9 0 ) 、i e e e 的建议上层共用知识本体( s u m o ) ( a d a m p e a s e ,i a nn i l e s ,2 0 0 2 ) 等。在中文信息处理领域,一些著名的语义知识资源 包括北京大学计算语言所的现代汉语语义词典( 王惠、詹卫东等,2 0 0 3 ) 、梅 家驹的同义词词林( 梅家驹等,1 9 8 3 ) 、董振东的知网( 董振东,1 9 9 8 ) 。 鉴于人类语言知识的复杂性,许多语义知识库主要依赖于人工构建, 耗费了大量的人力物力和财力,在构建完成后也需要投入大量的时间和精 力进行维护和扩充。许多词典和知识库是都面向某一特定领域的,在知识 覆盖的深度和广度上都收到较大的限制。如何充分利用信息检索技术,从 互联网上大量的语料资源中自动挖掘语义关系、总结语义知识,构建大模 的语义知识库正成为当前十分热门的研究方向。 维基百科( w w w w i k e p e d i a o r g ) 是一个基于w i k i 技术的多语言百科全 书,也是一部用不同语言写成的网络百科全书。现已成为i n t e r n e t 上最大 的、使用最广泛的开放式电子百科全书,也成为由互联网参与者以自由贡 献、共同协作方式构建的大规模知识库的典范。近年来,越来越多的研究 者认识到w i k i p e d i a 中蕴含了丰富的人类知识,可以利用信息抽取、自然 语言处理等技术实现大规模的语义知识挖掘,应用于智能信息处理的诸多 方面。 作为语义知识库,w i k i p e d i a 包含了数以百万的文档语料,在质量上和 数量上都是其他语料知识库所无法比拟的。它还提供了许多结构化和半结 构化的数据,包括反映语义层次关系的分类层次、文档页面间链接引用等。 作为一个覆盖领域广泛,知识增长和更新速度快速的自由、免费、内容开 放的百科全书,w i k i p e d i a 为语义关系知识的抽取、语义词典或知识库的构 建等应用提供了可靠的、丰富的、低成本的内容资源。 g a b r i l o v i c h 和m a r k o v i t c h ( 2 0 0 7 ) 提出的基于维基百科的显示语义分析 ( e s a ) 方法在计算语义相关度方面获得了非常巨大的成功,其计算精度比 以往任何方法都要高,且方法更容易被人所理解。由此也反映出维基百科 作为知识库的优势和其中蕴藏的大量丰富的语义信息。 1 3 本文的工作 由于现有基于维基百科语义相关度计算方法没有考虑词语之间的语境关系 对词语概念获取的影响,在遇到一词多义和多词一义的情况下,语义解释就会 遇到困难。本文就是以维基百科作为知识库首先获取词语对的语境,然后在既 3 第一章绪论 定语境下,有选择的获取、扩充词语的语义概念,最后进行相关度比较。其次, 现有基于维基百科的方法忽略了维基百科中存在的大量硬编码的、高质量的链 接关系信息。本文提出利用链接结构进行语义概念的扩充和筛选的方法,来提 高相关度计算的准确性和健壮性。 本文的结构安排如下: 第一章绪论,综述了本研究课题的背景及应用领域,介绍了本文研究的主 要工作和论文的结构安排。 第二章,主要对语义相关度计算的相关技术和相关度的定义和评价标注做 了叙述。 第三章,详述了现有语义相关度计算的方法和各自的优缺点,并提出了改 进的方法。 第四章,基于w i k i p e d i a 的自适应显示语义分析方法的介绍。 第五章,基于w i k i p e d i a 链接结构的显示语义分析方法的介绍。 第六章结论与展望,对全文的工作进行了总结,并提出了下一步的工作展 望。 4 第2 章语义相关度计算相关技术介绍 第2 章语义相关度计算相关技术介绍 语义相关度计算的核心问题是文本特征的选取以及相关度的评价。本 章首先将介绍语义相关度的基本概念、评价体系以及相关度计算的基础理 论和相关技术。此外,重点介绍了文本特征的选取技术,它涵盖了众多学 科领域,包括语言学中自然语言理解,数学领域的统计学,以及计算机领 域的人工智能、神经网络等研究。 2 1 语义相关度的概念 “猫 和“老鼠 的相关性是多少? “米老鼠 和“玩具 的相似性 又是多少? 在实际的应用中,有时需要把这种复杂的关系用一个简单的数 量来度量,而词语语义相关度的量化就是其中的一种。 2 1 1 语义相关度定义 任何一种知识结构都是通过既定的规则相互关联的,揭示和挖掘其中 各种知识元素间的相关联系是组织知识和获取知识的有效途径。相关性是 人类语言和思想中最基本的元素,存在于人类生活中的方方面面。无论是 从事于科学研究工作还是处理日常琐事,人们总是将相关概念进行归类处 理,并建立联想发散机制。一直以来,心理学家和信息科学研究者都努力 将人类的相关性认识形式化和可计算化。心理学家关心的是用什么样的相 关性理论来解释人们的相关性认识,而信息科学研究者更关心如何在电脑 上模拟出入对相关性的判断,用来衡量信息检索用户的提问与信息之间的 相关程度( 裘江南,罗志成等,2 0 0 9 ) 。 相关度这个概念,涉及到词语的词法、句法、语义和语用等方面。其 中,对词语相关度影响最大的是词语的语义。 在本文中,相关度被定义为一个0 到1 之间的实数。 定义1 :两个词语之间存在概念相关,就认为它们语义相关。所谓概 念相关是指概念之间存在世界知识关系中的一种或多种关系。概念之间存 在的关系越多,认为概念相关度就越高。所谓相关度是对概念相关程度的 数量刻画。 关于两个词语m 和w 2 的语义相关度s r 计算公式如下: s 第2 章语义相关度计算相关技术介绍 艘( m ,w 2 ) - - p 口( m ,耽) “c ( 2 1 ) 其中,a m ,忱是计算m 和w 2 是否存在概念相关( 直接关系或间接关系) 关系:是,返回1 ,否则返回0 。p 可以理解为关系c f 的权值,对相关度贡 献程度有z p = l 。 2 1 2 单词和概念的关系 各种计算相关度的方法都使用概念( c o n c e p t s ) 和单词( w o r d s ) 的说法。在 本文中,概念( c o n c e p t s ) 是指某一个单词( w o r d s ) 的某一个特定的语义。需要 明确的是,在本文中,当我们说这两个单词是“相关的一,也就是说它们 表示的是相关的概念。这里的相似不是指分布模型或共现模型中的仅仅是 单词本身的相关,而是单词之间的语义相关( d a g a n ,2 0 0 0 d a g a n ,1 9 9 9 ) 。 虽然也能够从分布模型或共现模型中的相关度推断出语义上的相关( d a g a n 2 0 0 0 w e e d s 。2 0 0 3 ) ,但它们是两个不同的概念。 2 1 3 相关度、相似度和语义距离的含义与区别 在这个研究领域内,相关度、相似度和语义距离三个名词都被使用过, 甚至同一作者也交叉使用这三个词。 r e s n i k ( 1 9 9 5 ) 曾经尝试使用实例的方法来解释相关度和相似度的关 系。r e s n i k 举了一个实例为: 汽车和汽油 看起来比“汽车和自行车更加的相近,但是实际上 后者更加的相似。在本文中,我们认为相似性是相关性的一个特例。相关 度概念与包含关系、反义关系、功能联系关系和其他非典型关系( m o r r i sa n d h i r s t ,2 0 0 4 ) 等联系紧密。 语义距离这个词也许让人更加混淆,因为它一般能被用在相似度计算 方面,也被用在相关度计算方面。如果两个概念的相似度或相关度高的话, 它们的语义距离就是相近的,反之是遥远的。大多数时候,这样的用法是 正确一致的,但也不尽然;反义的概念就是不相似,因此语义距离遥远, 但他们同时又是很相关的,故语义距离又是相近的。于是,在目前大多数 论文中,都将相关度和语义距离成反比的这样的一个观点纳入其中。但遗 憾的是由于大量的方法既测量相似的关系,也测量相反的关系,但都是使 用距离来表示,这就造成了表达上的混乱。因此,读者需要在具体的环境 6 第2 章语义相关度计算相关技术介绍 下,根据上下文来区别对待相关度、相似度和语义距离这三个名词的准确 含义。 2 2 语义相关度评价体系 语义相关度的计算方法在信息检索、文本挖掘和自然语言处理等领域 有着广泛的应用,到目前为止已经有许多不同的方法被提出来。但是,语 义相关度很难被明确地评价。目前有三种评价语义相关度的方法。 第一种方法( l i n ,1 9 9 8 b ) 是从理论上检查一个方法是否具备完备的数 学性质。比如检查它能否作为一个指标,指标是否是奇偶的,参数投影是 否为平滑函数等等。这种分析方法在比较多种方法时显得非常租糙,在评 估单个方法时比较适用。 第二种方法是和人类的判断进行比较。只要正确定义人类对相似性和 相关性的判断,这种方法显然是能最有效地评估相关度的“好坏 。因为 人类对概念和背景知识有更为深刻的理解,具备天生的判别语义相关度的 能力,人工标注的语义相关度也被认为是种“黄金标准 。但它的主要 缺陷在于很难得到一个可信任的、客观的判断集用来进行比较,需要设计 一个心理语言学( p s y c b o l i n g u i s t i c ) 实验,来验证结果。在实验室环境下, 利用真人作为受试者来判断语义相关程度的实验已经开展过。早在1 9 6 5 年,作为对“文本相似度与意义( 同义词) 的相似度之间的关系一的研究的 一部分,r u b e n s t e i n 和g o o d e n o u g h 让5 1 个受试者对6 5 对词汇做出“同义 判断一。这些词汇对经过精心挑选,从“高度同义一到“语义不相关 , 并且这些实验对象被要求依照他们自己的“意义的相似度 在1 0 - 4 1 0 的 范围内对它们估值。还有一个类似的研究,m i l l e r 和c h a r l e s 从r u b e n s t e i n 和g o o d e n o u g h 的6 5 对词汇中选取3 0 对,1 0 对语义相关度“高层( 3 - - 4 ) , 1 0 对中层( 1 3 ) ,1 0 对低层( o 1 ) 一,然后让3 8 个对象对3 0 对进行语义 相关度判断。研究者们曾经对人工标注语义相似度的相关程度进行过实验 ( b u d a n i t s k ya n dh i r s tg 2 0 0 1 ) ,发现对于同样一些相关词对集合,不同人 群的标注结果存在惊人的相似性,其等级相关系数可以达到o 8 8 0 9 5 。 第三种方法是根据在特定应用中的表现来评估各种方法。即在相同条 件下,比较应用中哪种算法效率最高。裘江南和罗志成等( 2 0 0 9 ) 就利用主 题抽取这个特定的应用来评比各种相关度计算方法的效果。 在本文中,我们主要是选取第二种方法作为语义相关度计算的评价标 准,有以下两个原因: 7 第2 章语义相关度计算相关技术介绍 1 这个方法是相关度计算领域最通用的标准; 2 测试数据是经过精心挑选并经过专家打分形成的,具有很高的可信 度。 本文中使用斯皮尔曼( s p e a r m a n ) 等级相关系数作为衡量算法与人工标 注结果相关程度的重要指标,根据等级研究两个变量的相关程度,使用公 式( 2 2 ) 计算相关系数,其中d i 表示第f 个元素的等级差。在语义相关度计算 工作中,它对应于第i 个词对的相关度算法结果和人工相关度标注结果在 各自的排序列表中排序位置的差值,而n 表示所有结果的数量,即测试集 包含的所有相关词对的数量。 6 y 西: d = l 一= 一 以( 行2 一1 ) ( 2 2 ) 2 3 文本表示模型 在进行语义相关度计算之前,首要任务就是将非结构化的自然语言文 本转换成结构化的计算机可识别的信息,这就需要对文本进行形式化处 理,这种形式化的结果称为文本表示。文本表示一般会涉及以下两个问题: 一是如何确定文本表示的基本单位,用于文本表示的基本单位通常被 称为文本的特征或特征项。文本表示就是要用一定特征项构成的特征向量 来表示文本的信息,最终通过这些特征向量之间的相似度来评价文本之间 的相关程度。在不同内容的文本中,各特征项出现的频率具有一定的规律 性,不同的特征项就可以区分开不同内容的文本。 文本表示的另一个问题是采用什么样的方法来建立模型。文本表示所 采用的模型有很多种,目前通常采用的有布尔模型、概率模型和向量空间 模型。 2 3 1 布尔模型 布尔模型( b o o l e a nm o d e l ) 是目前最简单、最容易理解的模型,它是建 立在经典的集合论和布尔代数的基础上。由于集合的定义是非常直观的, b o o l e a n 模型提供了一个信息检索系统用户容易掌握的框架,查询串能够 以语义精确的布尔表达式的方式输入。 b o o l e a n 模型在文档与关键字建立了一个布尔关系,即如果西包括关 键字o ,那么关系f ( i ,j ) 一,否则f ( i ,) = 0 。而用若干关键字的布尔表达 8 第2 章语义相关度计算相关技术介绍 式来表达和解释查询g ,即q = 乜v 乜vk 之类的。布尔模型易于实现,但它 也存在着一些缺陷: 1 它的检索策略是基于二元判定标准,缺乏文档分级的概念,限制 了检索功能; 2 虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求 转换为布尔表达式; 3 不能进行精确匹配,信息需求的能力表达不足; 4 检索结果不能按照用户自定义的重要性排序输出。 除掉上述缺陷,b o o l e a n 模型仍然是文档数据库系统中的主要模型。 目前,几乎所有的商用检索系统都采用布尔检索。 2 3 2 概率模型 布尔模型是将文档表示为相互独立的项,忽略了词条之间的关联性, 而概率模型考虑了词与词之间的相关性。概率模型的基本思想是估计文档 与查询相关联的概率,并对所有文档根据关联概率进行排序,把文档分为 相关文档和无关文档。 概率模型最早由m a r o n 和k u h n 在1 9 6 0 年提出,是一种基于贝叶斯 ( b a y s e ) 决策理论的模型,其以成熟的数学理论为基础,通过赋予词的概率 值来表示这些词在相关文档和无关文档之间出现的概率,然后计算文档间 相关的概率。在该模型中,词的权值设为: og篇pp 亿3 , i i j ( 2 3 ) 式中p ,p 分别表示某词在相关文档集和无关文档集中出现的概率。 文档西与查询q 的相似度定义为: 咖( 特湍 亿4 , r 表示相关文档集,一r 表示r 的补集,p 俾i 西) 表示文档西与查询g 相 关的概率,p ( r i 西) 表示文档西与查询q 不相关的概率。 根据贝叶斯定理有: s i m ( 西,g ) =旦缈j 翌! 垄! 垒2 兰旦! 垒! p ( r l 西)p ( 西i r ) x p ( r ) ( 2 5 ) 概率模型的优点在于: 1 有严格的数学理论为基础,并采用了反馈原理; 9 第2 章语义相关度计算相关技术介绍 2 文档可以按照他们相关概率递减的顺序来排序( r a n k ) 。 主要缺点在于: 1 开始时需要把文档分为相关文档和不相关文档的两个集合,实际 上这种模型没有考虑关键词在文档中的频率; 2 使用这种模型增加了存储开销和计算量,其参数估计的难度也大。 2 3 3 向量空间模型 在信息检索技术领域中,最普遍使用的文本表示方法是基于向量空间 模型( v e c t o rs p a c em o d e l ) 。最早是由s a l t o n 在1 9 8 3 年发表的i n t r o d u c t i o nt o m o d e mi n f o r m a t i o nr e t r i e v a l 一文提出。其基本思想是:将文本表示成有特 征项构成的向量空间中的一个点,通过计算向量间的距离的远近来判断文 本之间的相似度。 在向量空间模型中,每一个文本都被表示为由一组规范化的词条向量 所构成的向量空间中的一个点,即形式化为n 维空间中的向量,因此我们 可以将文本抽象为: v ( a j ) = ( o i ,w v ) ,( ,m 协) ,似,坳) ) ,i = l ,2 ,刀 f ,r 、 其中厶是特征项i 。聊是白在文本d j 中的权重。对于一个训练文本集合, 我们就可以得到如下图所示的一个向量空间w 。 dl dl d - 白 w i i r - 白 w v k w m 图2 h空间向量模型的文本表示 w 通常是一个稀疏矩阵。训练文本和待分类文本在向量空间模型中都 使用相同的形式表现。待分类文本的向量越接近训练文本的向量,说明其 与训练空间中的文本的相似度越大,越有可能和训练文本属于同一个类 别。其计算方法主要运用t f i d f 公式,目前存在多种t f i d f 公式,一种 比较普遍的t f i d f 公式: 1 0 第2 章语义相关度计算相关技术介绍 嘶)。厦tf丽(t,d)菰log(n丽ni+001) 亿7 ) 其中w ( t ,j ) 为词t 在文本d 中的权重,而矿( f ,d ) 为词t 在文本d 中的词 频,n 为训练文本的总数,n i 为训练文本集中出现t 的文本数,分母为归 一化因子。 对两个文本西和西之间的内容相关度( d e g r e eo fr e l e v a n c e ) 度量被称 s i r e ( & ,西) 。对于文档西( m l ,w i z 胁) 和文档西( - ,w y 2 坳) ,我们可以借助向量 之间的某种距离来表示它们之间的相似度,常用向量之间的内积进行计 算: s i r e ( & ,西) = 芝:胍脲 j 一 向量空间模型( v s m ) ,它的优点在于处理逆辑简单、快捷,它将非结 构化的文本表示为向量形式,使得各种数学处理成为可能。但向量空间模 型有以下的限制: 1 不适合与处理过长的文件; 2 检索词必须要与文件出现的词组完全一致,否则会检索不到; 3 语言的敏感度不高,语境相同但使用不同的词语无法被关联起来。 2 4 特征项的选择 所谓文本特征项,就是用于描述文本内容的原始特征,是内容的外在 表现形式。一个有效的特征集,必须具有彻底性和专门性。其中彻底性是 指文本所讨论的内容被特征词覆盖的程度;专门性是指特征词必须能反映 文本的具体内容,而不是泛泛之谈。为了满足彻底性要求,对文本进行结 构和内容分析,以保证对文本各部分内容的最大限度的覆盖。为了满足专 门性,需要消除停用词,选择具有实际意义的名词及其短语,特别要注意 选取面向内容的词汇。 在向量空间模型中,特征项的选择对其文本表示的效果有着非常大的 影响。通常可以选择单词或词组作为特征项,或者选取更高层次的语言单 位作为特征项,如相应词语或者短语的语义概念类等。 由于构成文本的词语数量非常之大,导致了文本表示的向量空间的维 数非常大,甚至可以达到几万维。数量过大的特征项方面导致分类算法 的性能低下,另一方面导致无法准确地获取文档的语义信息,造成表示效 第2 章语义相关度计算相关技术介绍 果不佳。因此,需要在不牺牲语义信息质量的前提下,尽量地降低特征项 空间的维数。 目前对文本特征选择的研究中,所采用的特征提取算法都是利用了特 征之间的条件独立性假设,通过构造一个权重函数,对特征集中的每一个 特征进行独立的评估,这样每个特征项都获得一个评估分,然后对所有的 特征按照其评估分大小进行排序,选取预定数目的特征作为结果的特征子 集。所以,选取多少个最佳特征以及采取什么评估函数都需要针对一个具 体的问题通过实验来决定。 为便于后面的描述,这里简要给出特征选取的一般过程。给定训练文 档集合d = d l ,d 2 ,”五) ,设r = 批t 2 ,厶) 为对d 中的文档做分词后得到的词 汇全集,用【m 】表示集合t l ,r z ,m ,。所谓“特征选取一可以看成是确定从r 到m j 的一个l l 映射,即: f - s e l e c t i o n :t 叫m 】 ( 2 9 ) 现有的用于文本特征选择的评估函数,主要有文档频率、信息增益、 期望交叉熵、互信息、2 , 5 统计、文本证据权、几率比等( 陆玉昌等,2 0 0 2 ) 。 这些评估函数可分为两类:基于统计分析的方法和基于机器学习的方法。 2 4 1 文档频率 d f ( d o c u m e n tf r e q u e n c y ) ,即文档频率( 王美方等,2 0 0 7 ) 。文档频率表 示在训练集中包含某个特征项t 的文档数。这种衡量特征项重要性的方法 基于这样一个假设:文档频率较小的特征项对分类结果的影响较小。这种 方法优先取文档频率较大的特征项而剔除文档频率较小的特征项。即特征 项按照文档频率值的大小排序。不过,这种策略不符合被广泛接受的信息 检索理论:高频词没有低频词对文档特征贡献大文档频率是最简单的特 征项选取方法,而且该方法的计算复杂度低

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论