(计算机软件与理论专业论文)基于faq的自动问答技术研究.pdf_第1页
(计算机软件与理论专业论文)基于faq的自动问答技术研究.pdf_第2页
(计算机软件与理论专业论文)基于faq的自动问答技术研究.pdf_第3页
(计算机软件与理论专业论文)基于faq的自动问答技术研究.pdf_第4页
(计算机软件与理论专业论文)基于faq的自动问答技术研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南开大学学位论文使用授权书 根据南开大学关于研究生学位论文收藏和利用管理办法,我校的博士、硕士学位获 得者均须向南开大学提交本人的学位论文纸质本及相应电子版。 本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在 著作权法规定范围内的学位论文使用权,即:( 1 ) 学位获得者必须按规定提交学位论文( 包 括纸质印刷本及电子版) ,学校可以采用影印、缩印或其他复制手段保存研究生学位论文, 并编入南开大学博硕士学位论文全文数据库;( 2 ) 为教学和科研目的,学校可以将公开 的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检索、文 摘以及论文全文浏览、下载等免费信息服务:( 3 ) 根据教育部有关规定,南开大学向教育部 指定单位提交公开的学位论文;( 4 ) 学位论文作者授权学校向中国科技信息研究所和中国学 术期刊( 光盘) 电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库, 通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。 非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。 论文电子版提交至校图书馆网站:h t t p :2 0 2 1 1 3 2 0 1 6 1 :8 0 0 1 i n d e x h t m 。 本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并已通过论文答辩: 提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。 本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。 作者暨授权人签字:! 匝建送 2 0 1 0 年5 月2 6 日 南开大学研究生学位论文作者信息 论文题目 基于f a q 的自动问答技术研究 姓名师建兴学号 2 1 2 0 0 7 0 3 0 l 答辩日期2 0 1 0 年5 月2 1 日 论文类别博士口学历硕士硕士专业学位口高校教师口同等学力硕士口 院系所信息技术科学学院专业计算机软件与理论 联系电话 e m a i l s t e i n m a i l n a n k a i e d u c r l 通信地址( 邮编) : 备注: 是否批准为非公开论文 注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写( 一式两份) 签字后交校图书 馆,非公开学位论文须附南开大学研究生申请非公开学位论文审批表。 南开大学学位论文使用授权书 根据南开火学关于研究生学位论文收藏和利用管理办法。我校的博士、硕士学位获 得者均须向南开大学提交本人的学位论文纸质本及相应电子版。 本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在 著作权法规定范围内的学位论文使用权,即:( 1 ) 学位获得者必须按规定提交学位论文( 包 括纸质印刷本及电子版) ,学校可以采用影印、缩印或其他复制手段保存研究生学位论文, 并编入南开大学博硕士学位论文全文数据库;( 2 ) 为教学和科研目的,学校可以将公开 的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检索、文 摘以及论文全文浏览、下载等免费信息服务;( 3 ) 根据教育部有关规定,南开大学向教育部 指定单位提交公开的学位论文:( 4 ) 学位论文作者授权学校向中国科技信息研究所和中国学 术期刊( 光盘) 电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库, 通过其相关网站对外进行信息服务。同时本人保留在其他媒体发表论文的权利。 非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。 论文电子版提交至校图书馆网站:h t t p :2 0 2 1 1 3 2 0 1 6 1 :8 0 0 1 f i n d e x h t m 。 本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并己通过论文答辩; 提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。 本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。 作者暨授权人签字:! f 里塞益 2 0 1 0 年5 月2 6日 南开大学研究生学位论文作者信息 论文题目 基于f h q 的自动问答技术研究 姓名师建兴学号 2 l2 0 0 7 0 3 0 l 答辩日期 2 0 1 0 年5 月2 1 日 论文类别博士口学历硕十一硕十专业学位口高校教师口同等学力硕七口 院系所信息技术科学学院专业计算机软件与理论 联系电话 1 3 8 2 1 5 4 8 4 2 8e m a i l s t e i n m a i l n a n k a i e d u c n 通信地址( 邮编) : 备注:是否批准为非公开论文 覆 注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写( 一式两份) 签字后交校图书 馆,非公开学位论文须附南开大学研究生申请非公开学位论文审批表 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所取 得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任 何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的 研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文 原创性声明的法律责任由本人承担。 学位论文作者签名:短建送2 0 1 0 年5 月2 6 日 非公开学位论文标注说明 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申请 和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本说明 为空白。 论文题目 申请密级 口限制( 2 年)口秘密( 1 0 年)口机密( 2 0 年) 保密期限2 0年月日至2 0年月日 审批表编号 批准日期 2 0 年月日 限制2 年( 最长2 年,可少于2 年) 秘密1 0 年( 最长5 年,可少于5 年) 机密2 0 年( 最长1 0 年,可少于1 0 年) 摘要 摘要 随着互联网上w e b 信息爆炸性地增长,如何从海量数据中快速准确的找到 所需信息已成为亟待解决的问题。传统以关键词模式的搜索服务在一定程度上 已不能满足人们对信息获取的要求。自动问答系统利用自然语言的形式进行提 问和回答,且返回的结果更加精确,也更符合用户需求,逐渐成为热点的研究 方向。目前自动问答领域已经积累了大量的研究成果,但还没能像搜索引擎形 成商业化应用,主要由于缺少丰富的数据集支持,存在知识库规模不足、知识 获取困难的瓶颈问题。交互式问答论坛是一种流行的网络服务,上面积累了大 规模高质量的问答主题数据,为自动问答提供了天然的理想的数据集。 本文研究基于问答论坛数据集构建自动问答系统的过程。在分析总结现有 研究成果的基础上,发现自然语言句法和语义信息是影响自动问答系统性能的 核心要素。因此本文的研究工作围绕如何有效利用句法和语义信息来改进自动 问答性能展开,设计并实现了一种基于常问问题集( f r e q u e n t l y a s k e dq u e s t i o n s , f a q ) 的自动问答系统a n s w e r s 。对其中的问题集组织、问题分析和答案检 索等关键技术进行了讨论。 a n s w e r s 中问题集的组织包括论坛数据采集、数据预处理、建立索引和问题 集的更新等工作。在问题分析阶段,设计了一种基于w o r d n e t 的查询扩展方法, 增大了检索的语义覆盖面:针对问答论坛数据集,提出一种新的问题分类特征 选择方法,将句法和语义信息作为特征,在自定义的分类体系上训练出足够精 确的问题分类器,增强了问题理解能力。为了实现更加准确的答案检索,引入 依存项的概念,克服了传统标引项仅包含词形信息,而未涉及句法和语义信息 的缺点,有效地表达了问题的自然语言句法特征,从而改进自动问答系统性能。 实验采用t r e c 推荐的m r r 评测标准,在大量真实的网络数据集上,对 a n s w e r s 与基于传统向量空间模型的自动问答系统,以及问答论坛自带的“答案 搜索 服务进行性能比较。结果表明,a n s w e r s 系统性能明显优于另外两种自动 问答系统,且对数据源适应性强,系统的改进效果十分稳定。可以预见自动问 答领域具有重要的科研价值和广泛的商业前景。而本文的工作对相关网络增值 服务具有很好的指导作用,为产品化的自动问答系统积累了经验。 关键词:自动问答f a q 问题分类依存项 i a b s t r a c t a b s t r a c t a st h ee x p l o s i v eg r o w t ho fw e bi n f o r m a t i o n ,i ti sc u r r e n t l ya l lu r g e n tr e s e a r c ht o p i c t h a th o wt og e ti n f o r m a t i o nr a p i d l ya n da c c u r a t e l yf r o mt h em a s sd a t a t r a d i t i o n a l s e a r c hs e r v i c eb a s e do nk e y w o r d sh a sn o tb e e na b l et o f u l l ys a t i s f yp e o p l e s r e q u i r e m e n to fi n f o r m a t i o na c c e s s a u t o m a t i cq u e s t i o na n s w e r i n g ( q a ) s y s t e m a c c e p t su s e r sn a t u r a l - l a n g u a g eq u e s t i o n s ,a n dp r o v i d e so n eo rs e v e r a le x a c ta n s w e r s t oe a c hq u e s t i o n i ti sm o r ep r e f e r a b l e ,s oh a sb e c o m eah o tr e s e a r c hs u b j e c t b y p r e s e n t ,ag r e a ta m o u n to fr e s e a r c hr e s u l t sh a sb e e na c c u m u l a t e di nt h ef i e l do fq a h o w e v e r , t h eq a h a sn o tf o r m e dc o m m e r c i a lp r o d u c ta ss e a r c he n g i n e ,m a i n l yd u et o t h el a c ko fr i c hd a t as e ts u p p o r t q u e s t i o na n da n s w e r ( q n a ) w | e bf o r u mi sa p o p u l a r i n t e m e ts e r v i c e ,t h e yh a v ea c c u m u l a t e dal a r g e - s c a l ea n dh i g h q u a l i t yd a t a , a n da r e v e r ys u i t a b l ef o rb u i l d i n gq as y s t e m t h i sp a p e rs t u d i e st h ec o n s t r u c t i o np r o c e s so fq as y s t e m ,w h i c hi sb a s e do n q n aw e bf o r u md a t as e t s a f t e ra n a l y s i so fal a r g en u m b e ro fs t u d i e s ,w eb e l i e v e t h a tn a t u r a ll a n g u a g es y n t a xa n ds e m a n t i c so fi n f o r m a t i o ni st h ec o r ef a c t o rw h i c h a f f e c t i n gt h ep e r f o r m a n c eo fa u t o m a t i cq u e s t i o na n s w e r i n gs y s t e m s ot h i sp a p e r s t u d i e sas e r i e so fp r o g r a m st o i m p r o v et h es y s t e mp e r f o r m a n c e ,t h r o u g ht h e i n t r o d u c t i o no fn a t u r a ll a n g u a g es y n t a c t i ca n ds e m a n t i ci n f o r m a t i o ni n t ot h ep r o c e s s o fq u e s t i o na n s w e r i n g aq as y s t e mn a m e da n s w e r sb a s e do nf r e q u e n t l ya s k e d q u e s t i o n s ( f a q ) w a sd e v e l o p e d ,i n c l u d i n gq u e s t i o n so r g a n i z a t i o n ;q u e s t i o na n a l y s i s a n da n s w e rr e t r i e v a l w ei m p l e m e n tf o r u md a t ac o l l e c t i o n ,d a t ap r e p r o c e s s i n g ,i n d e x i n ga n df a q u p d a t i n gi nt h ep r o c e s so fq u e s t i o n so r g a n i z a t i o n i nt h eq u e s t i o na n a l y s i ss t a g e ,a q u e r ye x p a n s i o nm e t h o db a s e do nw o r d n e ti sp r o p o s e d ;i ti n c r e a s e st h es e m a n t i c r e t r i e v a lc o v e r a g e t h e nw eg i v ean e wf e a t u r es e l e c t i o nm e t h o db a s e do ns y n t a c t i c a n ds e m a n t i ci n f o r m a t i o n ,f o rt h eq n af o r u md a t as e t s ,a n da na c c u r a t ec l a s s i f i e ri s t r a i n e du p o nt h eq u e s t i o nt a x o n o m y , w h i c hc a ne n h a n c et h ea b i l i t yo fq u e s t i o n u n d e r s t a n d i n g t oa c h i e v ea n s w e rr e t r i e v e ,ac o n c e p to fd e p e n d e n c yt e r mi sd e f i n e d a st h ei m p r o v e m e n to ft h et e r mi nt y p i c a li n f o r m a t i o nr e t r i e v a lm o d e l s ;d e p e n d e n c y i i a b s t r a c t t e r mc a l le f f e c t i v e l ye x p r e s st h ec h a r a c t e r i s t i c so fn a t u r a ll a n g u a g e sq u e s t i o n s ,a n d i m p r o v e st h ep e r f o r m a n c eo fq as y s t e m i ne x p e r i m e n t w eu s et h em r rf o r m u l aa st h ee v a l u a t i o ns t a n d a r d sw h i c hi s r e c o m m e n db yt r e c e x p e r i m e n t a lr e s u l t ss h o wt h a t :i nal a r g en u m b e ro fr e a l n e t w o r kd a t as e t ,a n s w e r sh a sag o o ds t a b i l i t ya n da d a p t a b i l i t y i tg e t sb e t t e r p e r f o r m a n c et h a nt h es i m i l a r - q u e s t i o n - s e a r c hs e r v i c ei nq l 认f o r u m s ,a n dt h es y s t e m u p o nt r a d i t i o n a lv e c t o rs p a c em o d e l ( v s m ) q ac a nb ee x p e c t e dh a si m p o r t a n t s c i e n t i f i cv a l u ea n db r o a db u s i n e s sp r o s p e c t s o u rw o r kh a sa c c u m u l a t e de x p e r i e n c e f o r t h ep r o d u c to fq ai n t e m e ts e r v i c e k e yw o r d s :a u t o m a t i cq u e s t i o na n s w e r i n g ;f a q ;q u e s t i o nc l a s s i f i c a t i o n ; d e p e n d e n c yt e r m i i i 目录 目录 摘要i a b s t r a c t i i 第一章绪论1 第一节课题研究背景一l 1 1 1自动问答技术的发展。3 1 1 2 国内外研究现状4 1 1 3 典型的问答系统分析。4 第二节主要研究工作7 第三节论文内容组织安排9 第二章基于f a q 的自动问答系统a n s w e r s 1 0 第一节系统整体结构l o 第二节问题集的采集与组织1 1 2 2 1 问题采集12 2 2 2 数据预处理l2 2 2 3 问题索引1 3 2 2 4 问题集的更新。1 4 第三节问题分析1 4 2 3 1 句法分析1 4 2 3 2 问题分类l5 2 3 3 基于w o r d n e t 的查询扩展1 6 第四节答案检索2 0 2 4 1 传统的信息检索模型2 0 2 4 2 相似度计算方法2l i v 目录 2 4 3 基于依存项的检索模型2 3 第五节小结2 4 第三章问题分类中基于句法和语义信息的特征选择2 5 第一节问题分类介绍2 5 第二节问题分类体系2 6 第三节问题特征选择2 8 3 3 1主要动词和依存关系2 9 3 3 2 依存关系表示方案3 0 3 3 3中心名词和最高上位词3 l 3 3 4 特征提取流程3 2 第四节问题分类器3 3 3 4 1 数据分类算法3 3 3 4 2 问题分类算法3 5 第五节答案r e r a n k 模型3 6 第六节小结一3 7 第四章基于依存项的答案检索3 8 第一节问题表示3 8 4 1 1 依存句法树3 9 4 1 2问题的依存句法树表示4l 第二节基于依存项的检索模型4 3 4 2 1 x m l 文档相似度计算4 4 4 2 2 依存项定义“ 4 2 3 检索模型的改进4 6 第三节小结4 7 第五章实验结果与分析4 8 第一节问题分类实验4 8 5 1 1实验数据4 8 v 目录 5 i 2 问题分类评价指标4 9 5 i 3 结果及分析4 9 第二节自动问答系统实验5 0 5 2 3 实验数据。5 0 5 2 4 自动问答评价指标5 l 5 2 5 结果及分析5i 第六章总结与展望5 4 第一节总结5 4 第二节展望。5 5 参考文献5 6 致谢6 0 个人简历6 l v i 第一章绪论 第一章绪论 第一节课题研究背景 自动问答系统( a u t o m a t i cq u e s t i o n a n s w e r i n gs y s t e m ,q a s y s t e m ) 是一个 跨领域的综合学科,涉及到信息检索、数据挖掘、自然语言处理、机器学习等, 各个研究领域对其的研究重点不尽相同。本文从信息检索的角度来研究自动问 答系统的改进和实现。 信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 是研究对信息进行表示、存储、组织 和访问的技术【,是一门应用背景很强的学科。它系统接受用户检索需求,查询 出相关信息返回用户。1 9 4 5 年,由v a n n e v a rb u s h 首次提出了使用计算机帮助人 们从归档文件中自动获取信息的想法【2 l 。而信息检索的概念最早是由信息检索的 先驱c a l v i nn m o o e r s 于1 9 5 0 年提出的【引。最初的检索系统主要应用在图书馆的 文献检索。随着计算机与互联网技术的发展,各种各样的电子信息载体不断涌 现,信息检索系统也从批处理的文档检索发展到上世纪7 0 年代后的联机情报检 索,以至于现在的大规模的互联网信息检索和数字图书馆等领域。总之,信息 检索技术已经对科学研究和日常生活产生了积极而又深远的影响。 信息检索的目标是让用户更加方便的访问到其感兴趣的信息【4 】,检索过程如 图1 1 所示。遗憾的是,对用户信息需求( u s e ri n f o r m a t i o nn e e d ) 进行描述不 是一个简单的问题。例如,利用目前的w e b 搜索引擎( w e bs e a r c he n g i n e ) 界 面,用户还不能采用对信息需求进行完整描述的方式检索信息。因为现在的搜 索引擎基本上都是基于关键字浏览模式,但是随着搜索技术的发展,这种模式 的弊端也越来越明显,检索结果集合并不是用户所需要的最终结果,还需要从 检索结果集合中再次摘录、析取信息,才能得到用户最终想要的检索结果。由 此可见,文档检索仅仅是利用了文档中所蕴涵的关键词作为检索入口并没有揭 示出这些关键词之间的关系,更没有把检索过程与用户实际想要的答案结合起 来。在检索过程之后,用户往往还要阅读大量和自己所要求答案无关的文档, 耗费大量的时间。 另一方面,通过对搜狗实验室发布的网络日志【5 j 进行分析,可以发现,有很 第一章绪论 大一部分用户在搜索引擎中使用问题进行搜索。对于这些用户,如果仅仅使用 关键字匹配模式进行检索,将浪费掉很多的用户信息。取而代之的是,用户必 须首先将信息需求转换为搜索引擎能够处理查询( q u e r y ) ,即关键词列表。事 实上,用户感觉最直接、最自然的输入方式就是自然语言输入;信息检索系统 通过解析自然语言,理解用户的查询需求,返回恰当的结果。于是,自动问答 系统成了互联网用户的下一步渴望。 自动问答系统的用户界面类似于搜索引擎,但用户提交的查询不再是关键 词列表,而是自然语言问题,系统返回的是该问题的最佳答案或根据与问题相 关程度排序的答案列表,而不是相关的网页,是更高级形式的信息检索。它采 用自然语言处理技术,一方面能够完成对用户问题的理解过程,另一方面能够 完成答案的提交过程。克服了传统信息检索或搜索引擎的三大缺点:( 1 ) 返回信 息太多;( 2 ) 无法准确理解多个关键词的检索;( 3 ) 没有语义分析。对于自动问 答系统,用户不需要把自己的问题分解成关键字,用户可以把整个问题直接交 给系统。自动问答系统能更好地满足用户的检索需求,能更快地找出用户所需 的答案。可以说,自动问答系统就是新一代信息检索和搜索引擎的发展方向。 图1 1 信息检索过程 2 第一章绪论 1 1 1 自动问答技术的发展 事实上,自动问答并不是最近才提出来的概念。早在上世纪6 0 年代人工智 能研究刚开始的时候,就提出了尝试计算机用自然语言来回答人们的问题,这 就是早期自动问答系统。问答系统在上世纪8 0 年代的自然语言研究领域曾风行 一时。但由于当时的条件限制,所有的实验都是在受限的领域,甚至是固定段 落上进行的,所以自动问答一直被限制在特定领域的专家系统。此后,随着大 规模文本处理技术兴起,问答系统的研究受到了冷落。近年来随着网络和信息 技术的飞速发展,各种各样的信息资源正在以爆炸式的速度迅速膨胀,互联网 已成为人们获取信息的重要途径,基于w 曲的信息检索越来越受到人们重视【6 j 。 人们想更快更好的获取信息的愿望也重新促进了自动问答技术的发展。有越来 越多的公司和科研院所参与了自动问答技术的研究。例如,i b m 和微软等著名 的跨国公司。自1 9 9 9 开始至2 0 0 7 年,在美国n i s t 组织的文本信息检索会议( t e x t r e t r i e v a lc o n f e r e n c e ,t r e c ) 1 7 1 上,自动问答( q u e s t i o na n s w e r i n gt r a c k ,q a t r a c k ) 始终是最受关注的评测项目之一。2 0 0 8 年t r e c 不再涵盖q at r a c k ,而 是由n i s t 组织的另一个新的会议t a c ( t e x t a n a l y s i sc o n f e r e n c e ) 峭】主持,继续 推动q a 的研究。 目前,问答系统已经成为自然语言处理领域和信息检索领域的一个重要分 支和研究热点,通过系统化、大规模的定量评价推动研究向前发展,极大的推 动了自然语言处理和信息检索领域研究的发展,已经积累了大量的研究成果 【9 】【1o 】【1 ,包括基于不同数据集的、不同语言的自动问答研究。然而,自动问答还 没能像搜索引擎一样,形成产品化的服务,得到大范围的推广,原因如下: 1 ) 自动问答是一个综合性的研究领域,涉及到自然语言处理、信息检索、 机器学习等综合技术,技术的整体成熟程度与协作程度尚不及搜索引 擎,现有的各种算法和模型还不能完全理解和表达用户意图; 2 ) 缺少丰富的数据集支持。事实上,在某种程度上可以说自动问答系统对 先验知识的依赖程度,比对技术的要求更多。相对而言,搜索引擎只需 真实客观的反映互联网信息的本来面貌,而产品化的自动问答服务需要 具备回答各个领域各个知识层次用户问题的能力。 3 第一章绪论 1 1 2 国内外研究现状 与自动问答系统的相关技术及其产品引起了国内外许多科研机构和公司极 大的兴趣。尤其是当t r e c 上面出现问答任务以后,问答系统逐渐成为了一个 非常热门的研究方向。 国外开发的相对成熟的问答系统包括麻省理工大学人工智能实验室的 s t a r t t l 2 1 、密歇根大学的a n s w e r b u s t l 3 】、i b m 基于统计的问答系统【1 4 】等。s t a r t 是 第一个基于w e b 的自动问答系统,其特点是向用户提供准确的信息,而不是提 供一些相关信息。它采用基于知识库和信息检索的混合模式,如果用户查询在 它的知识库中可以找到,则直接反馈;如果没有,则通过搜索引擎检索w e b 处 理后反馈给用户。a n s w e r b u s 是一个基于开放领域的问答系统,它接受自然语言 的提问,从w e b 中提取问题可能的答案( 一个或多个) ,其特点是能支持包括英 语、德语、法语、意大利语、西班牙和葡萄牙语在内的多种语言。 国内也有不少大学和研究所正在进行问答系统的研究。复旦大学和中科院 都参加了q at r a c k 的竞赛,哈工大也在这方面做了一些研究。中科院计算所正 在进行的大规模知识处理科研项目n a t i o n a lk n o w l e d g ei n f r a s t r u c t u r e ( n k ) 中 的一个具体应用就是n k i 知识问答系统- h 。它以n k i 知识库为基础,向 用户提供各个领域的知识服务,其特点是向用户提供准确的信息,支持自由的 提问方式。清华大学在2 0 0 9 年也提出了要研发新一代互联网搜索引擎,类似于 自动问答系统,预计一年后将会有这个搜索引擎的中文系统雏形。 针对中文的自动问答系统,尽管相对于英文实现起来更加困难,存在着中 文的语法、语义复杂性等多种因素。鉴于自动问答系统的实用性和广泛前景, 国内许多科研机构仍投入了相当大的精力【i 5 j 【l 刚。 1 1 3 典型的问答系统分析 为了研究自动问答服务的最佳构建方案,确定最佳的数据来源,首先分析 几种典型问答系统模式及其特点。包括基于开放领域的自动问答系统、基于常 问问题集自动问答系统和交互式问答论坛。 1 1 3 1基于开放领域的自动问答系统 此类自动问答系统通常考虑采用w e b 数据( 即普通网页) 作为答案数据来 4 第一章绪论 源,这是一个很好的研究方向。开放域问答系统研究的目标是提供更自然的信 息访问交互界面,特点是:用户可以用自然语言提问的形式提出查询需求,系 统从各种数据资源中自动找出准确的答案,因此用户的提问不限于某个特定的 领域或应用。 此类系统的实现一般包括三个步骤:问题分析、信息检索和答案抽取【l , 如图1 2 所示。问题分析包括问题中的关键词提取、问题类别划分和问题理解等; 信息检索则是根据问题中的关键词和问题分析结果,采用通用w e b 搜索引擎搜 索出若干相关页面作为候选集;答案抽取就是根据问题类别以及关键词的出现 位置等信息,从候选集中提取答案。 用户提问 答案 图1 2 自动问答系统一股流程 1 1 3 2 基于常问问题集的自动问答系统 此类自动问答系统采用常问问题集( f r e q u e n t l ya s k e dq u e s t i o n s ,f a q ) 作 为数据支持。数据单元是现成的问题答案对( q u e s t i o n a n s w e rp a i r ,q h p a i r ) 。 由于答案都是事先经过预处理准备好的,所以只要实现问题与问题之间的相似 度计算,即可实现自动问答。系统接受用户提交的问题后,到“问题答案对 数据集中找到与之最为匹配的问题或问题列表,将对应的答案返回给用户即可。 因此对问题答案的定位上,有更准确,快捷和高效的特点。 这是一种简单而实用的策略,主要受到的限制是数据集的规模和质量,存 5 第一章绪论 在知识库规模不足、知识获取困难的瓶颈问题。因此不幸的是,大部分基于常 问问题集的自动问答系统,其数据集规模都比较小,通常是局限于某一领域或 某一话题的讨论,通用性差。从而,此类自动问答系统通常演化为特定领域的 专家系统:对于本领域的常见问题,往往可以返回高质量的答案;对于不常见 的或其他领域的问题,则基本得不到答案。 此外,基于常问问题集还可以设计一种通用的自动问答系统。把它作为自 动问答系统中的一个组成部分。将用户经常提问的问题和相关答案保存起来。 对于用户输入的问题,可以首先在常问问题库中检索答案。如果能够找到相应 的问题,就可以直接将问题所对应的答案返回给用户,而不需要经过信息检索、 答案抽取等许多复杂的处理过程,提高了效率;如果没有,则通过搜索引擎或 其它工具检索后并处理反馈给用户。国外近年来在该领域作了一些工作,国内 的这方面研究虽然很少,但在逐渐增多,并且基于常问问题集的问答系统在远 程教育等领域有很广泛的应用前景。 1 1 3 3 交互式问答论坛 交互式问答论坛是一种重要的互联网服务形式,本身不是自动问答系统, 而是一种网站平台,提供用户提问和回答服务。用户在此平台上可以提问、回 答或参与投票选择某一问题的最佳答案。 问答论坛将一个问题( q u e s t i o n ) 和它对应的所有答案( a n s w e r ) 称为一个 主题( t h r e a d ) 。一个主题通常包括“提问回答 、“答案投票”、“标注最佳答案 几个阶段,一个结题( c l o s e d ) 的主题通常会被提问者手动标示出一个最佳答案 ( b e s ta n s w e r ) 。主题根据其内容被划分为若干类别( c a t e g o r y 、t a g ) ,每个类 别可以看作主题集合。通用的交互式问答论坛,分类十分丰富,几乎覆盖了人 们日常生活的各个方面。 此类问答论坛的成熟的实例很多,包括英文的y a h o o ! a n s w e r s i s j 、m s n q n a 1 9 】,中文的百度知道2 0 1 、腾讯问问【2 1 1 、天涯问答【2 2 】等。他们通常持有大规 模的问答主题数据。另外,虽然问答论坛是用于人工交互的,但通常会带有一 个“相似问题搜索 功能,在全站或某一类别下尝试查找相似问题的答案,其 实现原理类似于基于f a q 的自动问答系统。如果论坛中已经包含关于该问题相 关的主题,那么用户直接浏览讨论结果即可。总体来说,问答论坛的主题数据 具有以下特点: 6 第一章绪论 数据规模大,是海量、无限的,成熟的论坛通常持有大规模的问答主题 数据,并且知识库的内容在不断的更新; 分类信息丰富,对于常见问题讨论深刻,覆盖范围广,反应了大部分用 户的需求,而且用户满意度高; 用户关注度较高,时效性相对较强,对热门话题反应迅速; 带有投票信息和手动标注的最佳答案,经过人工验证,答案的正确性和 权威性较高:如果作为自动问答系统的数据源,标注成本大大降低,查 找答案的时间大大缩短; 信息较好的得到过滤,可以取出无用的广告信息和h t m l 、x m l 等标 记语言。 综上所述,问答论坛是构建自动问答系统天然的理想的数据集。国内外已 经有多篇文献和项目技术报告对此进行了论证【2 3 1 1 2 4 1 1 2 5 1 。尤其对于y a h o o ! a n g w e r 8 论坛,专门有文献【2 6 】对其问答主题形式进行了详细分析,在美国 s t a n f o r d 大学的一个技术报告 2 7 1 ,已经有了基于y a h o o ! a n s w e r s 论坛构建自 动问答系统的尝试。 第二节主要研究工作 前面已经提到,基于f a q 的问答系统其提供了以自然语言的问题检索方式, 并能够从f a q 库中检索出与用户问题最相近的问题,以此提供答案,这种方法 具有高效、快速、准确等特点。同时,问答论坛又为自动问答系统提供了天然 的理想的数据集。因此,利用这些“问题答案对 集合,可以构建一个高质量 的基于f a q 的自动问答系统。 本文研究以问答论坛数据集作为常问问题集,构建自动问答系统的过程。 进而在信息检索过程中,通过引入自然语言句法和语义信息、重新定义组织数 据等措施,来提高自动问答系统性能,设计并实现了一种基于f a q 的自动问答 系统a n s w e r s 。 传统的信息检索系统,大都仅以关键词作为计算文档相似度的特征,这在 搜索引擎领域被证明是十分成功的。但是,针对自动问答系统,用户提交的是 自然语言问题,如果单纯依靠关键词计算文本相似度,系统性能并不十分出色。 参考大量国外自动问答的研究成剁2 8 】f 2 9 】,本文认为:自然语言的句法和语义信 7 第一章绪论 息是影响自动问答系统性能的核心内容。通过合适的方式将自然语言信息引入 到信息检索过程中,可以明显改进自动问答系统性能。因而,本文的研究工作 就是围绕着应用句法和语义信息展开。如图1 3 所示,主要包括f a q 库的采集 与组织、问题分析处理和答案检索三个部分: 1 ) 以问答论坛数据集作为系统的f a q 库源,参照搜索引擎实现原理,首 先就是数据的收集和组织。使用爬虫程序抓取论坛主题,然后对数据进 行预处理工作,包括“问题答案对 提取,词法分析、停用词消除、词 干还原等。最后交给索引器完成索引的建立,这样就完成了f a q 库的 构建任务; 2 ) 问题分析是问答系统首先进行的分析工作,对问题要进行句法分析、问 题分类和查询扩展等。句法分析是为了后面的工作做准备。此外,仅用 从问题句子中抽取出的关键词进行查询是不够的,尤其是当问题句子较 短时,往往难以找到让人满意的答案,所以需要进行查询扩展,如对关 键词进行同义词和上位词扩展;问题分类是问题分析的核心任务,可以 缩小答案检索范围,提高系统整体性能。提出一套新的问题分类体系, 将句法和语义信息作为特征,训练出足够精确的分类器,问题分类结果 用于指导答案排序; 3 ) 问句相似度计算是答案检索模块的核心问题。引用依存句法分析,将句 子表示成x m l 形式,这样将问句相似度计算转化成x m l 片段的相似 度计算问题。为此提出了依存项的概念,用来代替标引项,支持传统的 信息检索模型,最终将答案按照相似度排序返回给用户。 本文旨在研究自动问答系统中的若干关键技术,并没有深入自然语言处理 领域,目前系统只是针对英语实现,许多自然语言处理工作都是使用成熟的工 具实现,如句法分析、语法语义分析等。如需实现跨语言的自动问答系统,还 需要借助各种语言的信息处理技术。 另外需要说明的是,论文虽然是研究基于f a q 的自动问答系统的关键技术, 但实际并不只局限于此,如提出的问题分类方法和问题相似度计算模型等,可 以应用到通用的自动问答系统,或者信息检索和机器学习等领域中。 8 第一章绪论 用户界面 | 萋 句法分析x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论