中文问答系统中答案抽取的研究与实现课件_第1页
中文问答系统中答案抽取的研究与实现课件_第2页
中文问答系统中答案抽取的研究与实现课件_第3页
中文问答系统中答案抽取的研究与实现课件_第4页
中文问答系统中答案抽取的研究与实现课件_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

--吉林大学2010年硕士论文中文问答系统中答案抽取的研究与实现--吉林大学2010年硕士论文中文问答系统中答案抽取的目录目录提要

在答案抽取的研究中,本文采纳了一种基于规则改进的问题分类方法,而后提出了一种基于依存树的语义匹配相似度算法,对问题句与候选答案句进行相似度计算,根据相似度的高低对答案进行抽取,最后通过具体的实验实现了答案抽取的全过程。

实验结果表明,在保证问题分析模块问题分类准确的情况下,得到用户所需答案的准确率可以达到92%以上,相比其它算法有效地提高了答案抽取的准确度。提要在答案抽取的研究中,本文采纳了一种基于规则改进的问人们期待更快速准确的搜索技术出现;据统计,人们花费在答案抽取的时间很长;传统的搜索引擎有很多弊端;问答系统因此产生。绪论—背景与意义人们期待更快速准确的搜索技术出现;绪论—背景与意义

问答系统主要包括问题分析、信息检索和答案抽取3个主要模块。

问题分析模块的主要工作包括对问题进行分类、抽取问题的关键词、对关键词进行扩展等;信息检索模块的主要任务是对文档库或网络搜索引擎进行检索,返回一些与问题相关的文档或网页;

答案抽取模块的主要任务则是对信息检索模块得到的候选文档或网页进行处理,得到问题的候选答案集,并通过一定的算法从候选答案集中抽取出正确答案。绪论—背景与意义问答系统主要包括问题分析、信息检索和答案抽取3个主要模块答案抽取的基本步骤一般如下:①把从信息检索模块得到的候选文档或网页进行处理,切分成单个句子,作为候选答案集。②根据问题的类型,对候选答案集进一步处理,排除兀余的句子,减少候选答案的空间。③应用相似度计算算法,计算候选答案句与问题句的相似度。④根据相似度的高低对候选答案进行排序,返回相似高的句子。对于答案为一个词的问题,根据问题的类型,采用相应的抽取策略,对返回的答案句进行分析,可能需要进行命名实体的识别工作,来返回精确的答案。绪论—简介答案抽取的基本步骤一般如下:绪论—简介本文所要做的具体工作:1.问题分析模块的处理:通过改进规则对问题进行分类,通过对问句进行词法分析和句法分析,抽取和扩展问题关键词,必要时对重写问句,为答案抽取的研究做好准备工作。

2.信息检索模块的处理:将扩展后的关键词提交给Google搜索引擎,返回与问题相关的文档和网页。

3.答案抽取模块的处理:对返回的相关文档和网页进行处理,形成问题的候选答案集,对问题句和候选答案句进行句法分析,计算问题句和候选答案句的相似度,以相似度的高低排序候选答案,根据相应的答案抽取策略,返回问题的答案。绪论—本文的工作本文所要做的具体工作:绪论—本文的工作问答系统包含三个核心模块:问题分析、信息检索和答案抽取。模块之间的关系如图所示:绪论—问答系统问答系统包含三个核心模块:问题分析、信息检索和答案抽取。模块答案抽取模块的工作流程如下:①把从信息检索模块得到的候选文档或网页切分成句子,作为候选答案集。②根据问题的类型,对候选答案集进一步处理,排除冗余的句子,减少候选答案的空间。③应用相似度计算算法,计算候选答案句与问题句的相似度。④根据相似度的高低对候选答案进行排序,返回相似高的句子。⑤对相似度高的句子进行重新分析,根据问题的类型所对应的抽取策略,返回给用户需要的答案。基于句法分析的答案抽取算法答案抽取模块的工作流程如下:基于句法分析的答案抽取算法在第③步中进行相似度计算时,需要进行如下考虑:为了使相似度的计算更加准确,需要对句子进行句法分析,得到句子中的关键词,和关键词有相同语义的词语,有时还需要考虑词语之间的顺序,以及各个词语之间的相互依存关系,根据词语的重要程度,为不同的词语设置不同的权重。基于句法分析的答案抽取算法在第③步中进行相似度计算时,需要进行如下考虑:比较典型的算法有以下几种:(1)基于模式匹配的算法原理是:根据问题的类型,制定不同类型问题的答案模板。由于答案模板的覆盖率是有限的,因此这种算法的匹配程度不是很高。(2)基于信息检索和信息抽取的算法此算法主要是基于关键词来进行检索,它只考虑离散的词语,没有对句子的句法进行更深层次的分析,没有考虑词语与词语之间的顺序以及各个词语之间的相互依存关系,仅使用了匹配词与候选答案词的距离这一个特征,注定抽取出来的结果不会是很精确的答案。答案抽取算法介绍比较典型的算法有以下几种:答案抽取算法介绍比较典型的算法有以下几种:(3)基于统计学习的算法基于统计的方法主要对测试集进行训练,来构建隐马尔可夫模型或支持向量空间模型的方法,通过分析问句与答案句的各种相关特征,计算句子作为正确答案的概率。(4)基于自然语言处理的算法此算法主要是在对句子进行处理后,把每个句子表示成一个向量,通过对问题句与答案句进行相似度计算,返回相似度高的句子,然后再把返回的句子,根据问题的类型进行处理,返回给用户所需要的答案。答案抽取算法介绍比较典型的算法有以下几种:答案抽取算法介绍每种答案抽取算法都有一定的弊端,现在所研究的答案抽取算法基本都是对句子进行句法分析处理基础之上的,得到的准确率是非常高的,因此本文提出了基于依存树的语义匹配相似度算法。答案抽取算法介绍每种答案抽取算法都有一定的弊端,现在所研究的答案抽

在进行相似度计算对答案抽取之前,首先要对句子做更深层的处理,对句子进行句法和语义分析。通过词与词之间的相互依赖关系对句子进行句法分析是目前研究句子结构和语义的主要方法之一。

在进行相似度计算时,尽量先对句子进行预处理,去除一些不必要的修饰词,得到两个意思相同的句子。句法依存结构分析在进行相似度计算对答案抽取之前,首先要对句子做更

相似度是一个0、1之间的浮点数,两个句子经过相似度计算得到的结果越大,则表示两者之间的匹配程度越高,例如:“我喜欢吃土豆”“我爱吃马铃薯”在经过语义分析之后,计算两者的相似度得到的结果为1,这样得出结论两者的语义是完全相同的。中文句子相似度计算相似度是一个0、1之间的浮点数,两个句子经过相似度的计算方法分为以下几种:(1)基于关键词的相似度计算这种计算方法对句子进行分词处理后,把句子看成词的线性序列,只是根据句子中的单词出现的频率等相关信息来计算句子的相似度。

把两个句子之间相互匹配的问题转化为向量空间中两个向量之间相互匹配的问题,两个句子的相似度可以用两个空间向量之间的夹角来衡量,夹角越小相似度越高。有一定的局限性中文句子相似度计算相似度的计算方法分为以下几种:中文句子相似度计算(2)基于语义的相似度计算采用基于语义词典进行计算。首先要计算句子中各个词语之间的相似度,然后通过词语之间的相似度再去计算句子的相似度。对句子进行分词和去除冗余信息处理后,在《同义词词林》中查找这些关键词的语义编码,通过对编码进行分析来计算词与词之间的语义距离。

评价:这种方法需要一定的语义资源作为基础,而且没有考虑词语在句子中的权重,实用性是不很高。但由于语义资源的统计还不是很全面,也没有考虑到句子的成分以及各词语之间的依存关系,因此相似度的计算还是有一定的误差。中文句子相似度计算(2)基于语义的相似度计算中文句子相似度计算(3)基于句法的搭配词对的相似度的计算举例说明:句子1:许多优秀的人才都被送往国外学习。

句子2:越来越多的人才都被送到了国外。经过对依存关系的分析和一些词语的处理后,得到句子S1中有效词搭配对:送往-人才,送往-国外,送往-学习。句子S2中有效词搭配对:送到-人才,送到-国外。有效搭配词对匹配权重加入同义词的处理,相似度有了一定程度的提高。中文句子相似度计算(3)基于句法的搭配词对的相似度的计算中文句子相似度计算(4)基于依存树的语义匹配相似度算法在本算法中,重新生成一个依存树,该依存树的根节点为核心词,孩子结点为那些依附于核心词的词语,这样得到一个高度为s的依存树,然后分层来计算依存树的语义距离和相似度,只考虑依存树的前两层。

中文句子相似度计算(4)基于依存树的语义匹配相似度算法中文句子相似度计算(4)基于依存树的语义匹配相似度算法假设第一个依存树的第二层有m个孩子结点,第二个依存树的第二层有n个孩子结点,分别计算依存树S1到依存树S2的第二层之间的相似度,同理计算出依存树S2到依存树S1的第二层之间的相似度,两者取平均值得到两棵依存树第二层之间的相似度,然后对每一层设置一定的权重,综合每层的相似度得到两个句子的之间相似度。中文句子相似度计算(4)基于依存树的语义匹配相似度算法中文句子相似度计算基本步骤如下:Step1:首先对问题进行分析,对问句进行分词和词性标注处理。Step2:对问题进行分类,制定相应的答案抽取策略。Step3:抽取进行查询的关键词。Step4:利用《同义词词林》,扩展关键词。Step5:进行信息抽取模块的处理,把第3步和第4步得到的问题关键词输入到Google网络搜索引擎中,得到一些与问题相关文档信息。Step6:对搜索出的前五个相关文档进行处理,得到一些以问题相关的独立的句子,即为测试的答案候选集,用于后面进行相似度的计算。Step7:利用相似度算法,计算问句与候选答案句的之间的相似度。Step8:根据相似度的高低,对候选答案句进行排序,返回相似度高的答案句作为问题的答案。Step9:根据问题类型,形成答案。实验方法与步骤基本步骤如下:实验方法与步骤(1)问题分类实验分析(2)相似度计算算法实验分析选取问题集中的437个问题计算最高相似度的平均值实验结果分析(1)问题分类实验分析实验结果分析(2)相似度计算算法实验分析本文对语义树的层次进行分析,对于每个层次给出不同的权值,权值的确定是在实验的过程中所确定的,在实验中设置几组权值a、b的值,然后分别计算出语句的相似度,然后计算出平均相似度。实验结果分析(2)相似度计算算法实验分析实验结果分析在今后中文问答系统研究中,还有很多工作要做:(1)问题分析模块中分词和词性标注准确度的提高(2)问题分类算法的研究(3)答案抽取算法的研究句法分析研究需要深入答案抽取算法改进展望在今后中文问答系统研究中,还有很多工作要做:展望ThankYou!谢谢聆听ThankYou!谢谢聆听--吉林大学2010年硕士论文中文问答系统中答案抽取的研究与实现--吉林大学2010年硕士论文中文问答系统中答案抽取的目录目录提要

在答案抽取的研究中,本文采纳了一种基于规则改进的问题分类方法,而后提出了一种基于依存树的语义匹配相似度算法,对问题句与候选答案句进行相似度计算,根据相似度的高低对答案进行抽取,最后通过具体的实验实现了答案抽取的全过程。

实验结果表明,在保证问题分析模块问题分类准确的情况下,得到用户所需答案的准确率可以达到92%以上,相比其它算法有效地提高了答案抽取的准确度。提要在答案抽取的研究中,本文采纳了一种基于规则改进的问人们期待更快速准确的搜索技术出现;据统计,人们花费在答案抽取的时间很长;传统的搜索引擎有很多弊端;问答系统因此产生。绪论—背景与意义人们期待更快速准确的搜索技术出现;绪论—背景与意义

问答系统主要包括问题分析、信息检索和答案抽取3个主要模块。

问题分析模块的主要工作包括对问题进行分类、抽取问题的关键词、对关键词进行扩展等;信息检索模块的主要任务是对文档库或网络搜索引擎进行检索,返回一些与问题相关的文档或网页;

答案抽取模块的主要任务则是对信息检索模块得到的候选文档或网页进行处理,得到问题的候选答案集,并通过一定的算法从候选答案集中抽取出正确答案。绪论—背景与意义问答系统主要包括问题分析、信息检索和答案抽取3个主要模块答案抽取的基本步骤一般如下:①把从信息检索模块得到的候选文档或网页进行处理,切分成单个句子,作为候选答案集。②根据问题的类型,对候选答案集进一步处理,排除兀余的句子,减少候选答案的空间。③应用相似度计算算法,计算候选答案句与问题句的相似度。④根据相似度的高低对候选答案进行排序,返回相似高的句子。对于答案为一个词的问题,根据问题的类型,采用相应的抽取策略,对返回的答案句进行分析,可能需要进行命名实体的识别工作,来返回精确的答案。绪论—简介答案抽取的基本步骤一般如下:绪论—简介本文所要做的具体工作:1.问题分析模块的处理:通过改进规则对问题进行分类,通过对问句进行词法分析和句法分析,抽取和扩展问题关键词,必要时对重写问句,为答案抽取的研究做好准备工作。

2.信息检索模块的处理:将扩展后的关键词提交给Google搜索引擎,返回与问题相关的文档和网页。

3.答案抽取模块的处理:对返回的相关文档和网页进行处理,形成问题的候选答案集,对问题句和候选答案句进行句法分析,计算问题句和候选答案句的相似度,以相似度的高低排序候选答案,根据相应的答案抽取策略,返回问题的答案。绪论—本文的工作本文所要做的具体工作:绪论—本文的工作问答系统包含三个核心模块:问题分析、信息检索和答案抽取。模块之间的关系如图所示:绪论—问答系统问答系统包含三个核心模块:问题分析、信息检索和答案抽取。模块答案抽取模块的工作流程如下:①把从信息检索模块得到的候选文档或网页切分成句子,作为候选答案集。②根据问题的类型,对候选答案集进一步处理,排除冗余的句子,减少候选答案的空间。③应用相似度计算算法,计算候选答案句与问题句的相似度。④根据相似度的高低对候选答案进行排序,返回相似高的句子。⑤对相似度高的句子进行重新分析,根据问题的类型所对应的抽取策略,返回给用户需要的答案。基于句法分析的答案抽取算法答案抽取模块的工作流程如下:基于句法分析的答案抽取算法在第③步中进行相似度计算时,需要进行如下考虑:为了使相似度的计算更加准确,需要对句子进行句法分析,得到句子中的关键词,和关键词有相同语义的词语,有时还需要考虑词语之间的顺序,以及各个词语之间的相互依存关系,根据词语的重要程度,为不同的词语设置不同的权重。基于句法分析的答案抽取算法在第③步中进行相似度计算时,需要进行如下考虑:比较典型的算法有以下几种:(1)基于模式匹配的算法原理是:根据问题的类型,制定不同类型问题的答案模板。由于答案模板的覆盖率是有限的,因此这种算法的匹配程度不是很高。(2)基于信息检索和信息抽取的算法此算法主要是基于关键词来进行检索,它只考虑离散的词语,没有对句子的句法进行更深层次的分析,没有考虑词语与词语之间的顺序以及各个词语之间的相互依存关系,仅使用了匹配词与候选答案词的距离这一个特征,注定抽取出来的结果不会是很精确的答案。答案抽取算法介绍比较典型的算法有以下几种:答案抽取算法介绍比较典型的算法有以下几种:(3)基于统计学习的算法基于统计的方法主要对测试集进行训练,来构建隐马尔可夫模型或支持向量空间模型的方法,通过分析问句与答案句的各种相关特征,计算句子作为正确答案的概率。(4)基于自然语言处理的算法此算法主要是在对句子进行处理后,把每个句子表示成一个向量,通过对问题句与答案句进行相似度计算,返回相似度高的句子,然后再把返回的句子,根据问题的类型进行处理,返回给用户所需要的答案。答案抽取算法介绍比较典型的算法有以下几种:答案抽取算法介绍每种答案抽取算法都有一定的弊端,现在所研究的答案抽取算法基本都是对句子进行句法分析处理基础之上的,得到的准确率是非常高的,因此本文提出了基于依存树的语义匹配相似度算法。答案抽取算法介绍每种答案抽取算法都有一定的弊端,现在所研究的答案抽

在进行相似度计算对答案抽取之前,首先要对句子做更深层的处理,对句子进行句法和语义分析。通过词与词之间的相互依赖关系对句子进行句法分析是目前研究句子结构和语义的主要方法之一。

在进行相似度计算时,尽量先对句子进行预处理,去除一些不必要的修饰词,得到两个意思相同的句子。句法依存结构分析在进行相似度计算对答案抽取之前,首先要对句子做更

相似度是一个0、1之间的浮点数,两个句子经过相似度计算得到的结果越大,则表示两者之间的匹配程度越高,例如:“我喜欢吃土豆”“我爱吃马铃薯”在经过语义分析之后,计算两者的相似度得到的结果为1,这样得出结论两者的语义是完全相同的。中文句子相似度计算相似度是一个0、1之间的浮点数,两个句子经过相似度的计算方法分为以下几种:(1)基于关键词的相似度计算这种计算方法对句子进行分词处理后,把句子看成词的线性序列,只是根据句子中的单词出现的频率等相关信息来计算句子的相似度。

把两个句子之间相互匹配的问题转化为向量空间中两个向量之间相互匹配的问题,两个句子的相似度可以用两个空间向量之间的夹角来衡量,夹角越小相似度越高。有一定的局限性中文句子相似度计算相似度的计算方法分为以下几种:中文句子相似度计算(2)基于语义的相似度计算采用基于语义词典进行计算。首先要计算句子中各个词语之间的相似度,然后通过词语之间的相似度再去计算句子的相似度。对句子进行分词和去除冗余信息处理后,在《同义词词林》中查找这些关键词的语义编码,通过对编码进行分析来计算词与词之间的语义距离。

评价:这种方法需要一定的语义资源作为基础,而且没有考虑词语在句子中的权重,实用性是不很高。但由于语义资源的统计还不是很全面,也没有考虑到句子的成分以及各词语之间的依存关系,因此相似度的计算还是有一定的误差。中文句子相似度计算(2)基于语义的相似度计算中文句子相似度计算(3)基于句法的搭配词对的相似度的计算举例说明:句子1:许多优秀的人才都被送往国外学习。

句子2:越来越多的人才都被送到了国外。经过对依存关系的分析和一些词语的处理后,得到句子S1中有效词搭配对:送往-人才,送往-国外,送往-学习。句子S2中有效词搭配对:送到-人才,送到-国外。有效搭配词对匹配权重加入同义词的处理,相似度有了一定程度的提高。中文句子相似度计算(3)基于句法的搭配词对的相似度的计算中文句子相似度计算(4)基于依存树的语义匹配相似度算法在本算法中,重新生成一个依存树,该依存树的根节点为核心词,孩子结点为那些依附于核心词的词语,这样得到一个高度为s的依存树,然后分层来计算依存树的语义距离和相似度,只考虑依存树的前两层。

中文句子相似度计算(4)基于依存树的语义匹配相似度算法中文句子相似度计算(4)基于依存树的语义匹配相似度算法假设第一个依存树的第二层有m个孩子结点,第二个依存树的第二层有n个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论