(计算机应用技术专业论文)基于搜索引擎的问答系统若干关键技术研究与实现.pdf_第1页
(计算机应用技术专业论文)基于搜索引擎的问答系统若干关键技术研究与实现.pdf_第2页
(计算机应用技术专业论文)基于搜索引擎的问答系统若干关键技术研究与实现.pdf_第3页
(计算机应用技术专业论文)基于搜索引擎的问答系统若干关键技术研究与实现.pdf_第4页
(计算机应用技术专业论文)基于搜索引擎的问答系统若干关键技术研究与实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 搜索引擎的出现带来了互联网上信息检索方式的革命性变化,为用户在浩瀚 如海的信息空间中寻找自己所需要的资源提供了有力帮助,也因此成为互联网上 最重要和最流行的应用之一。但随着网络信息资源的日趋增多,传统搜索引擎暴 露出越来越多的缺点,如检索结果冗杂、耗费时间长、结果精确度不够等。由此, 探索新型、高效、人性化的搜索引擎或对基于搜索引擎的新型应用进行研究,为 用户的查询问题寻求最佳解答提供更加有效的帮助,是一个具有深远意义的研究 课题。 本文针对信息检索领域的两个重要研究方向自动问答系统和元搜索引 擎进行了分析和探讨,综合两项技术的优势,提出了基于搜索引擎的问答系统的 设计方案,并对其中涉及的若干关键技术( 如查询分析、检索任务管理、检索结 果处理等) 进行了研究和部分实现。目前已完成的具体工作包括:( 1 ) 以分层和 模块化设计思想作为系统的设计原则,确定了系统的三层结构,即用户应用层、 协调器层和检索源层,并在此基础上将系统划分为五大模块,完成了系统体系结 构的设计;( 2 ) 研究系统所涉及的关键技术,并对其实现上的难点做了理论和技 术准备,如提出了成员搜索引擎检索u r l 的转换方法、检索结果统一相关度排 序方法等;( 3 ) 完成了检索结果处理部分的实现工作,并对系统性能做出评估。 相比传统搜索引擎,本文所研究的系统能够更好地理解用户检索需求,从而 更准确地定位检索结果,但由于在检索过程中要同时调用多个搜索引擎,对系统 的检索时间会有一定的影响,这是为提高系统检索结果准确率所做出的一点牺 牲。在后续的研究及实现过程中,会在提高查询分析器的语义理解能力、完善知 识库的创建与管理,以及增强系统稳定性及灵活性方面做更多的工作,努力为用 户提供一个界面友好、信息丰富、回答准确、反应迅速、能充分利用w e b 信息 资源的良好的信息获取环境。 关键词:信息检索自动问答系统元搜索引擎检索结果处理 a b s t r a c t 1 1 l ea d v e n to fs e a r c he n g i n eh a sc a u s e dar e v o l u t i o ni nt h ew a y so fi n f o r m a t i o n r e t r i e v a lo nt h ei n t e m e t ,a n dh e l p e dp e o p l em u c ht of i n dr e s o u r c e st h e yw a n t e di nt h e v a s ti n f o r m a t i o ns p a c e ,t h i si sa l s ow h ys e a r c he n g i n eb e c o m e so n eo ft h em o s t i m p o r t a n ta n dp o p u l a ri n t e r n e ta p p l i c a t i o n s h o w e v e r , a s i n t e r n e ti n f o r m a t i o n r e s o u r c e sa c c u m u l a t e s ,t r a d i t i o n a ls e a r c he n g i n e sg r a d u a l l ye x p o s em o r ea n dm o r e s h o r t c o m i n g s ,s u c ha sm i s c e l l a n e o u ss e a r c hr e s u l t s ,o v e r l o n gs e a r c ht i m e ,l o w a c c u r a c y , e t c a n dt h e r e f o r e ,r e s e a r c ho ns e a r c he n g i n e sw i t hn e w s t y l e ,h i 曲 e f f i c i e n c y , a n dh u m a n i z a t i o n , o rn e wa p p l i c a t i o n sb a s e do ns e a r c he n g i n e s ,i sa p r o f o u n di s s u e t i l i sp a p e ra n a l y z e da n di n v e s t i g a t e dt w oi m p o r t a n tr e s e a r c hd i r e c t i o n si nt h e a r e ao fi n f o r m a t i o nr e t r i e v a l - - - - - a u t o m a t i c q u e s t i o n - a n s w e r i n gs y s t e m a n d m e t a s e a r c he n g i n e ,a n dc o m b i n i n gt h ea d v a n t a g e so fb o t h , t h i sp a p e rb r o u g h t f o r w a r dad e s i g np l a no naq u e s t i o n a n s w e r i n gs y s t e mb a s e do ns e a r c he n g i n e s ,a n d d or e s e a r c ha n ds o m er e a l i z a t i o nf o rs e v e r a lk e yt e c h n i q u e sr e l a t e d s of a r , w eh a v e a c c o m p l i s h e dm u c hw o r k , w h i c hi sa sf o l l o w s :( 1 ) u s i n gt h el a y e r e da n dm o d u l a r i z e d d e s i g nm e t h o d sa st h es y s t e m sd e s i g np r i n c i p l e ,w eh a v ed e f i n e dt h et h r e e l a y e r a r c h i t e c t u r eo ft h es y s t e m ,t h a ti s ,u s e r a p p l i c a t i o nl a y e r , m e d i a t o rl a y e ra n ds e a r c h s o u r c e sl a y e r , w ea l s oa c c o m p l i s h e dt h ed e s i g nw o r ko ft h es y s t e m sa r c h i t e c t u r e ;( 2 ) w er e s e a r c h e dt h ek e yt e c h n i q u e sr e l a t e dt ot h es y s t e m , a n da l s op r e p a r e df o rt h e d i f f i c u l tp o i n t so fr e a l i z a t i o nt h e o r e t i c a l l ya n dt e c h n i c a l l y , s u c ha sp u tf o r w a r dt h e t r a n s f o r ma p p r o a c hf o rm e m b e rs e a r c he n g i n e s q u e r yu r l s ,a n dt h eo r d e r i n gm e t h o d o fs e a r c hr e s u l t sw i t hu n i f i e dc o r r e l a t i o nm e a s u r e ,e t c ;( 3 ) w eh a v ec o m p l e t e dt h e r e a l i z a t i o nw o r ko fs e a r c hr e s u l tp r o c e s s o r , a n dm a d ea ne v a l u a t i o no ft h es y s t e m s p e r f o r m a n c e c o m p a r e dt ot r a d i t i o n a ls e a r c he n g i n e s t h es y s t e mr e s e a r c h e di nt h i sp a p e rc a n m a k eab e a e ru n d e r s t a n d i n go fu s e r s s e a r c hd e m a n d s ,a n dt h u sc a nd i s c o v e ra n s w e r p o s i t i o n si nam o r ep r e c i s ew a y , b u ts e a r c ht i m eo ft h es y s t e mm a yb ea f f e c t e db y r e a s o nt h a ti nt h ep r o c e s so fi n f o r m a t i o nr e t r i e v a l ,t h es y s t e mh a st oc a l lm o r et h a n o n em e m b e rs e a r c he n g i n e s ,t h i si ss o m es a c r i f i c ef o ri m p r o v i n gs e a r c ha c c u r a c y i n t h ep r o c e s so ff o l l o w u pr e s e a r c ha n di m p l e m e n t a t i o n , m o r ee n e r g yw i l lb ep u to n i m p r o v i n gt h es e m a n t i cu n d e r s t a n d i n ga b i l i t y , p e r f e c t i n gt h ef a qk n o w l e d g eb a s e s e s t a b l i s h m e n ta n dm a n a g e m e n t ,a n da l s os t r e n g t h e n i n gs t a b i l i wa n df l e x i b i l i t yo ft h e s y s t e m k e yw o r d s :i n f o r m a t i o nr e t r i e v a l ,a u t o m a t i cq u e s t i o n a n s w e r i n gs y s t e m , m e t as e a r c he n g i n e ,s e a r c hr e s u l tp r o c e s s i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得墨鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:画,亏移k 签字日期:p 鲫艿年6 月日 学位论文版权使用授权书 本学位论文作者完全了解苤鲞盘堂有关保留、使用学位论文的规定。 特授权岙鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 酥琳 导师签名: 二 7 t 可乙膨 签字日期:p 呻8 年舌月f日签字日期:矽口8 年6 月1 日 第一章绪论 1 1 选题背景及研究意义 第一章绪论 2 0 世纪9 0 年代以来,随着互联网及其相关技术在世界范围内的迅猛发展和 日益成熟,人们已经进入了信息量极大丰富的时代,与此同时,信息过载和资源 迷向的问题【l 】也呈现在用户面前。如何在浩瀚如海的信息空间里,快速、准确地 获取用户所需的信息已经成为信息时代最根本的问题之一。 搜索引擎( s e a r c he n g i n e ,s e ) 的出现很好地解决了这个问题,使得在互联 网上信息检索的方式发生了革命性的变化。用户通过搜索引擎可以快速地检索互 联网上的海量信息,并且返回结果按照重要性和相关性由高到低排序。搜索引擎 因此成为互联网最重要和最流行的应用之一。中国互联网络信息中心( a 蝌i c ) 2 0 0 8 年1 月发布的“第2 1 次中国互联网络发展状况统计报告,【2 】表明,截至2 0 0 7 年1 2 月,中国网民数已增至2 1 亿人,其中7 2 4 的用户使用搜索引擎服务,即 已有1 5 2 亿人从搜索引擎获益,半年净增3 0 8 6 万人。而在互联网更为发达的国 家中搜索引擎的使用率更高,像美国已经达到9 1 t 3 1 。 然而,日趋增多的网络信息资源,使得单个传统的通用型搜索引擎暴露出越 来越多的缺点,如: 夺返回的相关结果太多,而且只是一系列指向文档的链接和摘要,不是精 确答案,用户很难快速、准确地定位到所需的信息,需要大量时间去浏览这些网 页,从这众多的返回结果中查找他们需要的答案。 夺返回网页的质量很大程度上依赖于用户输入的关键字,而事实上,用户 可能更习惯于用自然语言来描述一个问题而不是用一系列的关键字,例如使用 “进程和线程的区别是什么? ”而不是“进程a n d 线程a n d 区别”或“进程线 程区别”。这对于那些没有使用经验的用户来说是一个很大的挑战,因为他们很 难用一两个关键字来准确表述他们的信息需求。 夺以关键词为基础的索引、匹配算法虽然很简单,可操作性强,但是这种 检索毕竟还是停留在语言的表层,没有触及语义,因此检索效果很难进一步提高。 用户对检索效果不满意。 任何一个搜索引擎都不可能1 0 0 覆盖网上信息资源,即使一些著名品牌 的搜索引擎的信息覆盖率也很少有超过3 0 ;同时,不同搜索引擎的检索结果的 重复率仅仅在1 0 3 0 之间【4 】。因而一个搜索引擎通常不能找到用户所需的所有 第一章绪论 信息,用户在进行检索时往往需要在多个搜索引擎之间进行切换,并在多个检索 结果列表中人工进行二次检索,过滤无关及重复信息,无形中浪费了大量的时间 和精力。 这些弊端使得网络用户对现有的搜索技术仍然不满意,期待更完美的技术的 出现。互联网上的信息是开放的,这等于说,任何一个用户都拥有海量的信息, 因此目前信息时代竞争的关键已不是占有信息的多少,而是谁能够以最快的速度 准确而详尽地获得自己真正想要得到的信剧5 1 。 由此,探索新型的、更高效、更人性化的搜索引擎或对基于搜索引擎的新型 应用进行研究,提高检索结果的准确性,并对其表现形式进行改进,为用户的查 询问题寻求最佳解答提供更加有效的帮助,是一个具有深远意义的课题。 1 2 本文研究目标及主要研究内容 近年来,越来越多的研究机构和公司致力于新一代信息检索系统的研究,其 中两个重要的方向就是自动问答系统( q u e s t i o na n s w e r i n gs y s t e m ,q a ) 【6 】和元 搜索引擎( m e t as e a r c he n g i n e ) 7 3 。 自动问答系统是一种新型的、智能化的信息检索形式,它是信息检索的一个 真子集,承载着信息检索的基本功能,即提供用户所需要的信息,同时,由于结 合了词法、语法、语义处理以及命名实体识别、信息抽取等技术,因此可以接受 用户以自然语言的形式提出的问句,并提供准确简洁的答案。自动问答系统是具 备了一定的理解能力的信息检索系统,是信息检索理论与技术研究发展的重要方 向之一。 元搜索引擎是一种基于搜索引擎的搜索引擎,它在信息检索时通过调用其它 多个独立搜索引擎来完成检索功能,并能够将多个搜索引擎查询的结果信息进行 融合、再加工后向用户二次陈列,以强化检索效果、提高检索质量。 本文的研究目标集中于一个基于搜索引擎的问答系统,希望能向用户提供一 个界面友好、信息丰富、回答准确、反应迅速、能充分利用w e b 信息资源的信 息获取环境。 系统借鉴自动问答系统的部分思想,利用元搜索( m e t as e a r c h ) 技术,模拟 用户行为,选取几个使用率相对较高的知名搜索引擎作为源 s o u r c e ) ,充分利 用各种商业搜索引擎的强大检索能力,同时利用自然语言处理、语义扩充、相关 反馈等关键技术,对多个成员搜索引擎的返回结果进行融合( 包括整合、去重及 相关度分析) ,并从中自动抽取出最佳答案返回给用户,用户亦可对返回答案做 进一步的编辑。 第一章绪论 1 3 本文组织结构 本文全篇共分为六章。第一章绪论主要讨论课题研究的背景以及所做的主要 工作;第二章探讨系统相关技术,分别对自动问答系统和元搜索引擎进行介绍, 阐述了两种系统的工作原理、优缺点,以及实现过程中遇到的瓶颈;第三章对本 文主要研究目标基于搜索引擎的问答系统进行总体设计,介绍了系统设计思 想和原则,展示了系统总体框架图;第四章研究了系统所涉及的一些关键技术, 为实现做了理论和技术上的准备;第五章按照从检索结果获取到抽取出最佳答案 的流程对系统核心之一,检索结果处理部分的实现做了详细介绍。论文最后对本 文的研究工作进行总结并对后续工作进行展望。 第二章相关技术探究 2 1 自动问答系统 第二章相关技术探究 自动问答技术是自然语言处理领域中一个非常热门的研究方向,其具体应用 自动问答系统的设计目标就是让计算机系统用简洁、准确的答案,自动地回 答用户用自然语言提出的问题,帮助用户快速、有效地找到所需的信息。 不同于现有的搜索引擎,自动问答系统具有常规w e b 搜索引擎所没有的优 势:一方面,它采用自然语言处理技术,能够完成对用户自然语言方式提问的理 解,而非若干关键字的组合,从而可以更加忠实地表达用户的意图;同时,自动 问答系统能够完成答案的自动生成,它不简单地返回与用户问题相关的大量网页 链接,而是把目标定为返回给用户经过提炼的问题答案,从而在很大程度上减少 了用户信息定位的时间。 例如,若用户将“进程和线程的区别是什么? ”这样的问题直接提交,现有 搜索引擎并不会对问题进行一定程度的语义方面的理解,而只简单地进行分词、 扩展等词法方面的处理,从而导致返回成千上万的相关网页( 如g o o g l e 和b a i d u 分别会查询到1 7 7 ,0 0 0 个和6 7 ,8 0 0 个符合的结果) ,其实真正和问题相关的网页 数量极为有限,极端情况下,问题的精确答案就在某一网页中,但用户却不得不 花费大量的时间和精力在冗余的返回结果中对答案进行定位。如果将自动问答技 术应用其中,便可以在一定程度上缩小检索范围,并最终以简短的形式直接给出 问题的正确答案,为用户提供方便。 2 1 1 自动问答系统发展及研究概况 早在6 0 年代人工智能研究刚开始的时候,有些人就提出了让计算机用自然 语言来回答人们的问题,这就是指自动问答系统【8 】。问答系统在8 0 年代的自然 语言处理领域曾风行一时,因为t u r i n g 实验告诉人们如果计算机能够像人一样 与人进行对话,就可以认为计算机有智能,所以研究者们为了探索语言理解技术, 纷纷研究自然语言问答系统。但是,由于当时的条件限制,所有的实验都是在非 常受限的领域,甚至是固定段落上进行的,所以自动问答一直被限制在特殊领域 的专家系统【9 】。此后,由于大规模文本处理技术的兴起,问答系统的研究受到了 冷落。 最近几年,随着网络和信息技术的快速发展,同时人们想更快地获取信息的 4 第二章相关技术探究 愿望也重新促进了自动问答技术的发展。最近有越来越多的公司和科研院所参与 了自动问答技术的研究,比如,微软和i b m 1 0 】等著名的跨国公司。在每年一度 的文本信息检索( t r e c ) 会议【u 】上,自动问答( q u e s t i o na n s w e r i n gt r a c k ) 是 最受关注的主题之一。越来越多的大学和科研机构参与了t r e c 会议的q u e s t i o n a n s w e r i n gt r a c k 。在2 0 0 0 年1 0 月召开的a c l 2 0 0 0 国际计算语言学学术会议上, 有一个专题讨论会,题目是“o p e n d o m a i nq u e s t i o n a n s w e r i n g ”l l 2 。 目前,国外已经开发出一些相对成熟的问答系统。麻省理工( m i t ) 就开发 出一个问答系统s t a r t 1 3 】,从1 9 9 3 年开始发布在i n t e m e t 上,网址如下: h t t p :w w w a i m i t e d u p r o j e c t s i n f o l a b 。可以回答一些有关地理、历史、文化、科 技、娱乐等方面的简单问题。比如:对于问题“w h a ti st h el o n g e s tr i v e ri nt h e w o r l d ? s t a r t 将会回答“w i t hal e n g t ho f 4 ,1 8 0m i l e s ,t h en i l er i v e ri st h el o n g e s t r i v e r i n t h e w o r l d 另外还有一个比较成熟的问答系统a n s w e r b u s 【1 4 】【1 5 】的网址是: h t t p :m i s s h o o v e r s i u m i c h e d u z z h e n g q a n e w 。a n s w e r b u s 是个多语种的自动问 答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德语、意大 利语和葡萄牙语的问题。 国内也有一些研究机构参与了自动问答技术的研究:清华大学、中科院、复 旦大学、哈尔滨工业大学、香港科技大学等高校和科研机构,但是参与中文自动 问答技术研究的科研机构比较少,而且基本没有成型的中文自动问答系统。 2 1 2 自动问答系统体系结构及核心问题 自动问答系统,尤其是开放域的自动问答系统,是包含信息存储、知识表示、 信息检索、信息抽取、自然语言处理等多方面的研究技术的综合性应用系统。其 体系结构一般包括三个主要组成部分,也代表了自动问答系统需要解决的三个核 心问题【l3 】:问题理解、信息检索和答案抽取,如图2 1 所示。 问题理解的任务是充分理解用户提出的问题,把用户的查询意图转化成相应 的查询向量;信息检索的任务是快速检索出相关文档,提供答案抽取的文档集; 答案抽取是将答案从信息检索返回的相关文档中抽取出来并进行评价【1 6 】。 ( 1 ) 问题理解 对问题的理解是问答系统首先进行的分析工作,这个过程分析的效果对后面 的处理有着重要的影响。问题理解模块需要完成以下几部分工作:确定问题的类 型、提取出问题的关键词、依据问题的类型等因素对问句进行适当的扩展。对中 文问答系统来讲,首先要对问题进行分词以及词性标注等,这将涉及到复杂和庞 大的汉语语言学和自然语言处理技术的研究,也正是中文问答系统比英文问答系 统开发难度大的主要原斟1 7 l 。 问题理解阶段还要针对于不同类型的问题制定相应的答案抽取规则,以便在 第二章相关技术探究 答案抽取阶段应用这些规则来抽取问题的答案。比如对于询问日期的问题,我们 就可以规定,答案中必须含有时间信息。 图2 1 自动问答系统体系结构 ( 2 ) 信息检索 信息检索的任务就是利用前面提取出来并扩展得到的关键字到文档库中查 找相关的文档并返回一些最相关的文档。在问答系统中的信息检索模块也可以直 接调用已有检索系统,比如s m a r t 系统,或者也可调用i n t e m e t 上的搜索引擎比 如g o o g l e 。 ( 3 ) 答案抽取 一般搜索引擎返回的是一堆网页,而问答系统需要返回的是简短的、准确性 较高的答案。这样,通过信息检索模块搜索出来的相关文档就要提交给答案抽取 模块来提炼答案。答案可以是一句话、一段文摘,或者是图片。对于那些问时间 地点的问题,就可以用很短的语句来回答,而对于询问原因、事件的问题就需要 较长的语句才能回答。比如对于问题一3 1 4 事件是怎么回事? 就不是用一句 话就能回答的。所以答案的抽取还需要依据问题理解阶段判断得到的问题的类 型。 第二章相关技术探究 2 1 3 自动问答系统的评测方法 自动问答系统需要一个评价机制来衡量其性能。对自动问答系统的评价可以 从测试集、问答信息、系统实用性和软件体系结构方面进行【l 踟。 其中,应用较多的是利用测试集进行系统评价,具体方法如下:首先需要建 立一个测试集,这个测试集是人工做出来的问题和答案对的集合。把这个测试集 中的问题提交给问答系统,让问答系统自动地给出答案,然后把问答系统自动找 出的答案和测试集中的答案,进行人工的对比。如果问答系统给出的答案通过人 工的对比基本正确,则可以判断这个答案是正确的,否则可以判断这个答案是错 误的。这样就可以计算出问答系统的准确率,公式如下: 准确率= 答对的问题数问题总数公式( 2 1 ) 这种评测方法简单而有效,但是需要大量的测试来提高其评测的准确率,本 课题在对系统做整体性能测试时,也正是通过大集合的测试数据,应用本方法对 实现的系统进行性能评测。 自动问答系统中还经常出现下面几个定义,它们是评价系统某些方面性能的 指标【1 9 】: 查准率= 检索到的相关文档数检索到的文档总数公式( 2 2 ) 查全率= 检索到的相关文档数库中相关文档总数公式( 2 3 ) 2 2 元搜索引擎 元搜索引擎,又称为多元搜索引擎或集合式搜索引擎【2 0 1 ,是当今学术界研究 的热门领域之一。它是一种在搜索引擎的基础上建立起来的可以同时或分时查询 多个搜索引擎( 包括普通搜索引擎或其它元搜索引擎,统称为成员搜索引擎) 的 网络信息检索系统,产生于上世纪9 0 年代末,是为了弥补或在一定程度上解决 传统的独立搜索引擎存在的信息资源覆盖率不广、检索效率不高等问题。 2 2 1 元搜索引擎工作原理及性能评价指标体系 传统搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索 引擎则完全不同,它们一般没有自己独立的数据库,却更多地提供统一界面( 或 进一步提供统一检索方式和结果整理) ,形成一个由多个分布的、具有独立功能 的成员搜索引擎构成的虚拟整体【2 1 1 。元搜索引擎可以同时检索其多个成员搜索引 擎,并对成员引擎返回的结果信息进行融合、再加工后二次陈列给用户。 具体说来,一般元搜索引擎主要由三部分组成查询请求模块、检索接口 代理模块、检索结果处理和显示模块【2 2 】。 第二章相关技术探究 查询请求模块:实现用户的个性化检索设置的要求、成员搜索引擎的调度方 案、检索时间的限制、返回结果量的限制。 检索接口代理模块:实现将用户的个性化查询请求转化为可被成员搜索引擎 识别的固定格式。 检索结果处理和显示模块:实现把调用的成员搜索引擎检索到的结果去重、 合并、排序和按一定的格式返回给用户。 三部分之间的流程关系如图2 2 所示,根据箭头的流向可以看出元搜索引擎 在处理用户查询请求时的流程。 用户查询查询结果 厂 查询请求 、硷索结果处理和显亲、 1 i r 。l 检索接口代理、 j 成员搜索引擎 厂 成员搜索引擎l 、厂 成员搜索引擎n 、 接口代理 接口代理 图2 2 元搜索引擎体系结构 元搜索引擎的核心问题是查询前处理( 包括检索请求提交机制和检索接口代 理) 和检索结果合成。具体内容包括如下:解决如何调用成员搜索引擎、如何获 取查询词在成员搜索引擎中的查询结果以及如何评价、排序、呈现结果等。 作为一种搜索引擎,元搜索引擎也有搜索引擎的一些基本指标,如查全率、 查准率、响应速度、响应时间、用户负担等,但由于成员搜索引擎个体差异很大, 如果结合它们的性能来对元搜索引擎进行评价将很难得出精确的结果,因此元搜 索引擎的评价主要依靠下面的几个指标 2 3 】: ( 1 ) 是否允许用户浏览并选择要调用的成员搜索引擎: 第二章相关技术探究 ( 2 ) ( 3 ) ( 4 ) ( 5 ) 是否覆盖多种网络资源类型,是否可提供主题范畴的目录服务; 是否支持逻辑匹配检索、短语检索、自然语言检索等高级检索特性,是 否能够实现检索请求的本地化转换; 是否提供了足够多的检索选项和功能设置,比如:是否支持并行检索、 是否提供高级检索服务、是否可设置每个成员引擎返回的检索结果数量、 是否能够自动检查链接的有效性等; 是否注重检索结果的输出格式,检索结果的信息描述是否全面等。最常 见的形式是将各个成员搜索引擎返回的结果进行集中的去重处理后以统 一的输出格式和相关度指标进行排列输出。 2 2 2 元搜索引擎与传统搜索引擎相比的优势 元搜索引擎与传统独立搜索引擎最大的区别就是不需要自己维护独立的索 引库,这样就可以投入更多的精力来研究和完善检索界面和检索结果的处理,形 成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟整体,用户通过元搜 索引擎的功能实现对这个虚拟整体中各成员搜索引擎数据库的查询、显示等操 作。元搜索引擎中各成员搜索引擎各自保持其原来的局部数据模式和检索指令, 由元搜索引擎提供一个全局外部模式,用以接受用户检索输入和结果输出。 元搜索引擎的这种构成方式使得它与传统搜索引擎相比,有着诸多的优越 性,如: 1 统一的用户界面。用户只需在一个操作界面进行相应的操作,而不用去 了解各个成员搜索引擎的语法( 如:是用“a n d ”还是“+ ”还是空格进行关键字 的组合等) ,跟单独使用一个通用搜索引擎一样方便。 2 整合了多个搜索引擎的结果【2 4 】。由于各个成员搜索引擎的检索覆盖范围 不尽相同,在相同关键字的情况下,通常搜索的结果集会大相径庭。用户为了获 得准确的搜索结果,通常要在多个搜索引擎之间不停地切换查找,元搜索引擎技 术将所有成员搜索引擎的搜索结果进行了二次处理,并一次性显示给用户,给用 户一个清晰简洁的界面,降低了检索的代价。用户只需一次输入检索词,就可以 得到多个搜索引擎的搜索结果,提高了搜索效率和质量。 3 增加了w e b 搜索的覆盖范引2 5 1 。独立搜索引擎由于其各方面条件的限 制,索引数据库的覆盖范围窄,且搜索结果中常含有很多无用信息,给用户带来 许多困扰。元搜索引擎建立在多个成员搜索引擎基础之上,对多个数据库进行查 询,从一定程度上弥补了独立搜索引擎的缺点,信息检索的覆盖面要宽广得多, 查全率也有了很大的提高。 4 由于元搜索引擎介于独立搜索引擎和用户之间,在设计元搜索引擎时, 可以方便地对用户的搜索行为和搜索兴趣进行跟踪,建立用户模型,并根据用户 第二章相关技术探究 模型进行成员搜索引擎的调度和搜索结果整合,便于实现个性化服务。 5 降低搜索引擎工程的复杂度。由于元搜索引擎是建立在其它搜索引擎的 基础之上的,因此无需建立其自己的庞大的索引数据库,也省去了维护的代价, 大大降低了工程的复杂度,实现起来更为经济。 2 2 3 元搜索引擎的局限性 元搜索引擎要在保持各成员搜索引擎独立的基础上实现对它们的高效集成 并非一件易事,所以目前元搜索引擎的一个突出问题是仅仅集成了各成员搜索引 擎都具有的那部分最简单的功能机制,即最低常用分母( l o w e s t c o m m o n d e n o m i n a t o r ) t 2 6 j 现象。总的说来,目前元搜索引擎的检索功能不如独立 搜索引擎的检索功能完善,它的出现虽然提供了更多的在多个搜索引擎中检索的 机会,大大提高了用户查询信息的覆盖面,但由于其诞生时间较短,许多技术细 节仍不成熟,这必然导致元搜索引擎在检索结果上不尽人意。 究其原因,主要是由于大部分成员搜索引擎互不兼容,相互操作性差,而且 用户接口不一致,使得检索式处理非常复杂。这不仅要求精确掌握各个搜索引擎 在查询时调用c g i 的格式,还要做到将当前检索式转化成各个成员搜索引擎能 够识别的相应格式。 其次,由于不同搜索引擎反馈的结果页面格式相差很大,对于这些页面的处 理难度也是相当大,一方面要解析页面找到查询结果,同时还要能够把这些结果 的内容抽取出来,目前采用最多的是固定查找和智能判断相结合的策略。 再者,作为一个元搜索引擎,如何能够将获取的信息按照相关度进行排序也 是非常复杂的问题,因为不同搜索引擎在本身查询结果排序过程中采用的算法相 差很大,甚至有一些未知的算法,而元搜索引擎必须结合这些使用不同排序算法 产生的结果,并以统一的结果形式返回给用户。这些都给元搜索引擎的发展带来 了局限性,而它的局限性就限制了资源的更有效的获取。 另外,元搜索引擎在设计时很少考虑到用户的不同情况,它把所有的用户都 看成一个个体,这就使得查询结果缺乏针对性。 2 3 小结 在明确本文研究目标和研究内容的基础上,本章对与课题相关的两项主要技 术自动问答和元搜索引擎技术进行探究,着重介绍了自动问答系统的发展与 研究概况、体系结构和评测方法以及元搜索引擎的工作原理、性能评价指标体系 及其与传统搜索引擎相比的优势和局限性。 第二章相关技术探究 本章介绍的内容是本文所研究的系统的思想源泉和技术基础,为后续章节的 内容做了铺垫。 第三章基于搜索引擎的问答系统总体设计 第三章基于搜索引擎的问答系统总体设计 3 1 系统概述 本文所研究、设计的问答系统是以目前已经得到广泛应用的搜索引擎技术为 基础,结合中文自动问答技术和元搜索引擎的优势,对现有搜索引擎进行了改进, 从而更进一步地满足了网络用户的需求,为用户提供更便利的服务。 在设计初期,考虑到系统与传统搜索引擎相比所具有的一些特殊性,本文制 定了如下切实可行的目标: 1 系统应该支持一个自然语言的提问方式,以中文提问为主,同时支持中英文 混合提问,在提问方式上不对用户做任何限制,从而更加自然和人性化; 2 系统中的自然语言处理相关模块应该做到分词准确、避免歧义,同时应尽力 实现词库的动态扩充,使自然语言处理模块具备一定的学习能力; 3 系统应具备合适的查询扩展能力,使得能够在一定程度上扩大查询范围,提 高检索的覆盖率; 4 系统应具有高速、并行地向大型商业搜索引擎提交查询并获取结果的能力, 同时应支持多个不同特色的搜索引擎以供用户选择使用; 5 系统应具备对w e b 上的半结构化文档的处理能力,将格式信息、与问题无关 的内容信息和与问题有关的内容信息准确分离; 6 系统应拥有自己的知识库,对用户曾经检索过的问题及答案进行保存和管理, 以提高重复查询的检索效率; 7 系统用户界面应该简单、友好,便于控制,且具有较好的功能扩展性。 3 2 系统设计思想及原则 对系统的框架设计,即系统架构,是系统开发的第一步,也是系统设计中非 常重要的一个环节。本文在系统设计方面,综合采用了以下两种思想。 3 2 1 软件分层设计思想 软件分层设计是一种强有力的方法,这种方法有利于实现系统的功能和控 制。 第三章基于搜索引擎的问答系统总体设计 软件分层设计思想具有以下特点: 独立性:上层不需要了解下层的实现细节,而仅需要知道层间的接口所提供 的服务。由于每一层只实现相对独立的功能,因而可将一个难以处理的复杂问题 分解为若干个较容易处理的子问题。通过这种方式,降低整个问题的复杂程度。 封闭性:当软件其中某一层因用户需求而需要变更时,只需针对此层进行相 应修改,而其它各层均不受影响。需要指明的是,分层设计达到封闭性的前提是 各层之间定义的接口不能轻易变动。 易于实现与维护性:这种结构使得实现和调试一个庞大而又复杂的系统变得 易于处理,因为整个系统已被分解为若干个相对独立的子系统。 系统的分层设计应遵循如下原则: 第一,上层隐蔽下层复杂的实现细节,不允许跨层的信息泄露和方法调用。 第二,分层应该面向用户层,力求向用户层提供简洁明了的编程调用接口, 尽量应用开发简易性并兼顾整个系统的效率。 第三,分层应当考虑层的规模。规模过小,层间接口成本增大;规模过大, 层的实现就会过于复杂。 一一一一一一一一一一一一置!三三主;三一一一一一一j翌璺壁曼垦一 图3 1 基于搜索引擎的问答系统三层结构 m e d i a t o r 层 检索源层 分层设计思想体现在本文中便是采用三层结构来实现问答系统的功能,各层 之间通过彼此的交互而获得系统的整体一致的行为,具体层次结构如图3 1 所示。 第三章基于搜索引擎的问答系统总体设计 其中,由用户应用层来提出用户查询并接受查询结果( 用户还可对结果进 行在线编辑) ;协调器( m e d i a t o r ) 层对问题进行分析,并将经分词等处理后的 问题进行扩展,之后提交给搜索引擎,对搜索引擎的返回结果,协调器进行融合、 排序,最后将答案抽取出来返回至上一层;检索源层接受协调器的调度,调用多 个成员搜索引擎进行信息检索,搜集相关网页提交至协调器进行处理。 3 2 2 模块化设计思想 结构上将软件系统划分为若干功能模块;再由各模块联结、组合成相应结构 的软件系统,可提高软件系统的模块化、结构化水平,有助于提高软件的通用性、 重用性和扩展性。 3 3 系统体系结构 一 砖扫 j 回国回 检索结果处理器1 巴篓_、墨翻盈盈翻翻豳暖翻翻嘲 内容抽取 图3 - 2 基于搜索引擎的问答系统体系结构 为了实现更高的可靠性和稳定性,系统的架构设计综合采用分层以及模块化 第三章基于搜索引擎的问答系统总体设计 的设计思想。系统采用分层架构,从逻辑上将子系统划分成许多集合,而层间关 系的形成遵循一定的规则。通过分层,可以限制子系统间的依赖关系,使系统以 更松散的方式耦合,从而更易于维护。每一层都发挥各自不同的作用,而且其中 每一层又包括了几个大模块,并分别处于不同的层次中,每个模块的功能都不尽 相同。 从分层及模块化设计的角度出发,本文对基于搜索引擎的问答系统的体系结 构设计如图3 2 所示。在后续章节中,会陆续对系统所涉及到的几种关键技术以 及部分实现进行介绍。 3 4 小结 在对搜索引擎的发展现状进行综述,并对自动问答系统和元搜索引擎进行深 入探讨、分析之后,本章对基于搜索引擎的问答系统做框架性设计。在上面的描 述中首先分析了本文所构建系统的特点,并提出系统的设计方案。本章主要对系 统的框架进行描述,在之后的章节中将对系统所涉及的关键理论和技术点一一陈 述。 第四章系统关键技术研究 第四章系统关键技术研究 4 1 问题预处理及查询扩展 系统需要完成查询分析工作,用来接受用户输入的自然语言问句,进行分析 和扩展,产生可以用于检索的正规化查询向量。这一过程是系统首先进行的工作, 其分析结果将成为后一阶段的处理信息,所以该阶段的分析效果对后面的处理过 程有着重要的影响,若在该阶段对用户提问做了模糊分析甚至错误理解,将会致 使后面的工作变得无效和错误,最终导致答案的不准确,甚至错误。 图4 1 查询分析器工作流程 查询分析工作可以概括为两个主要的方面问题预处理和查询扩展,具体 包括对问题进行分词以及词性标注、确定问题的类型、提取出问题的关键词、依 据问题的类型等因素对关键词进行适当的扩展【2 7 1 。查询分析器的工作流程如图 第四章系统关键技术研究 4 - 1 所示。 分词和词性标注属于词法分析范畴,目前国内词法分析技术研究已经很成熟 ( 本系统的词法分析部分调用中科院的开源系统i c t c l a s l 2 8 】) ,因此查询分析器 的研究重点集中在问题分类和查询扩展,目的是从问句中提取出关于提问主旨的 重要信息和细节特征,用于抽取可能包含答案的段落,同时也考虑对用户提问进 行怎样的分析才能获得有效的答案抽取规则,使系统最后给出的答案更准确。 1 问题分类 问题分类是基于语义的分类 2 9 】,即根据答案对象的类型进行划分的,如询问 人物、地点、时间、数量等 ”】对不同类型的问题,往往有不同的处理方法,因此 在问题的分析阶段首先要对问题进行分类。在自动问答系统中所应用的分类方法 通常是基于疑问词进行分类,这种方法的好处在于人可以直观地知道问题所指向 的对象【3 0 】。 通过对大量问题的统计发现,用户提出的问题可以分为若干种类型,表4 1 列出了常见的问题类型【3 l 】: 表4 1 问题类型表 # , ;闻题类型疑闯词短语关键疑闷词 例子 ; 什么人谁哪个人何人 人工智能是筮丝么 人 什么人 哪些人提出的? 什么地方什么地点哪第2 9 届奥运会的举 地点什么地方 里哪儿何处 办城市是塑塑? 什么时间什么时候何人类第一次登上月 具体时间什么时间 时哪个时候何时球是筮丝凹 火车从天津到北京 持续时间多长时间多少时间多久 要么? 中国国民最低收入 数量多少| 几多少 是型? 有乏丝么死于南京 数量人数多少人 多少人 大屠杀? 定义什么什么+ ( 专业名词)左丝是人工智能? 程度多多+ ( 形容词) 长江有筮? 第四章系统关键技术研究 哪些方法哪些方式哪可以通过嬲丝方落 些算法哪些途径 哪些方法 改善环境? 什么方法什么方式什信息检索有丝垄星 方式 什么方法 么算、法什么途径泼 彩虹是趑形成 怎样怎么怎么样如何怎样+ ( 动词) 的? 什么原因哪些原因什 什么原因 嬲丝因素影响控制 么因素哪些因素效果? 原因 为什么为什么 应筮丝手机的辐射 很大? 其它 表4 1 与常规的问题类型表有些细微的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论