故宫导游器智能问答系统的设计与实现获奖科研报告_第1页
故宫导游器智能问答系统的设计与实现获奖科研报告_第2页
故宫导游器智能问答系统的设计与实现获奖科研报告_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

故宫导游器智能问答系统的设计与实现获奖科研报告摘

要:隨着智能终端的普及,近年来开发具有智能交互功能的系统成为研究热点。智能问答系统通过问答的形式与用户沟通,可以辅助完成智能终端的任务执行,为用户提供短平快的信息。智能问答系统是智能导游器的核心功能模块。本文利用自然语言处理技术,完成了基于故宫知识图谱和常用问答对数据库的智能问答系统设计与搭建,在故宫内实测,实现了智能导游的功能。

关键词:智能问答系统;知识图谱;自然语言处理;智能导游器

1.引言

随着智能终端和物联网的快速发展,迫切需要一种在终端与用户之间交互的软件系统工具。在用户提出自然语言问题后,智能问答(QuestionAnswering,QA)系统完成自动提供信息或者完成某项任务,如订机票。目前智能QA系统在学术界和工业界都得到了广泛的关注,已存在了一些成功开发的工业产品。

智能QA系统是故宫博物院智能导游器中的重要组成部分,相当于智能终端机器的耳朵和嘴巴,用户通过智能问答系统与智能导游器进行语音或者文字互动。借助科大讯飞的语音模块,实现语音与文字的转换,语音识别模块将语音转化成文本形式,语音合成模块将文本转化成语音。本文着重介绍了自主研发的文本输入文本输出形式的中文智能问答系统设计与实现方案。

目前限定领域单轮智能问答系统的常用实现方案包括两种:基于信息检索型和基于知识图谱型[1,2]。考虑系统的可扩展性,采用两个平行的问答子系统架构,分别为基于故宫知识图谱(KnowledgeGraph,KG)的问答子系统和基于常问的问题(FrequentAskedQuestion,FAQ)集的问答子系统,结合两个系统的输出情况,生成最终的答案反馈给用户。

2.智能问答系统设计与实现方案

智能问答系统采用基于KG和FAQ两种不同数据源的问答系统结构相结合的方式实现。两个QA子系统并行完成对用户输入问题的相关处理,得到候选答案。由于KG存储的是与故宫相关的结构化数据,如果能从基于KG的QA子系统中成功获取到答案,则优先选用。而FAQ中存储了较多口语化的问题,拓宽了可以回答的问题类型,作为兜底策略。若两个子系统都没有查找到相关的信息,系统返回无相关信息。后台记录所有用户交互中提到的问题,方便确定查找新数据的方向。定期补充和更新数据到两种知识库中,提高问答系统的知识囊括量。

2.1基于KG的QA子系统

随着语义网的蓬勃发展,开源的关联数据(LinkedOpenData,LOD)越来越多,包括众多具有资源描述框架(ResourceDescriptionframework,RDF)三元组结构的知识库。这种具有RDF结构的三元组知识图谱天然地包含语义信息,与传统的关系型数据库相比,知识图谱中各实体和属性的关系更加复杂。但是纵观现有的开源LOD,有关北京故宫博物院的数据略显单薄。需要为故宫导游器定制化设计专用知识图谱。在考虑了与其它开放知识库链接的前提下,根据故宫导游应用中可能使用到的实体概念和关系,建立KG本体架构。以故宫官网、百度百科等为主要数据来源,定向收集数据,包括建筑物、人物、藏品等具体的实体与属性。KG数据存储在ApacheJENA中,完成数据准备工作。

用户输入自然语言问题,在转化成KG的查询语言SPARQL后才可从KG中获取信息,而这正是自然语言理解(NaturalLanguageUnderstanding,NLU)模块的任务。NLU模块经过中文分词将问题切分成词组,在词组集中检测到实体词和关系词,并映射到KG中的实体项和属性项,智能地组合各种语义项,获得结构化语义表示形式,进而转化成KG的查询语句,完成查询故宫KG的操作,将答案反馈给用户。NLU智能组合语义项也是语义解析的过程,需要设计并定义基本文法规则和组合语义规则,通过一种动态规划方法CYK算法实现[3]。

2.2基于FAQ的QA子系统

FAQ集知识库中保存用户经常提问的问题和相关答案。用户输入问题后,在FAQ库中查找相似问题。如果找到了最相似的问题,直接将所对应的答案返回给用户。相比于数据源为非结构化文本数据库的情况,基于FAQ的QA系统不需要经过候选文本检索、答案抽取等许多复杂的处理过程,提高了效率[1]。

为了收集关于故宫的FAQ的候选实验数据,从百度问答、360问答等社区问答网站上抓取有关故宫信息的问答对,做数据清洗后入库保存,借助ElasticSearch或Solr等开源框架建立常问问题集的倒排索引,提高了系统的检索效率。

3.结论

面向故宫导游应用的智能问答系统的设计与实现,基于KG和FAQ两种问答系统结构相结合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论