自然语言处理理论与实践 课件 第7、8章 问答系统、阅读理解_第1页
自然语言处理理论与实践 课件 第7、8章 问答系统、阅读理解_第2页
自然语言处理理论与实践 课件 第7、8章 问答系统、阅读理解_第3页
自然语言处理理论与实践 课件 第7、8章 问答系统、阅读理解_第4页
自然语言处理理论与实践 课件 第7、8章 问答系统、阅读理解_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

问答系统人工智能导论智能问答系统---例子(1)智能问答系统---例子(2)如何判断系统是否具有智能?图灵测试本质是问答形式因此,人工智能研究水平集中体现在智能问答能力上!汇报提纲:智能问答系统发展历程轻量级知识图谱的构建对话系统问答系统输入:问题,来源于用户;数据集合,包含在系统中,如已有的语料等输出:答案或者可能答案的集合例子描述Q&A系统的三个维度可以接受的问题

»

限定领域(指定主题)vs.开放领域(任意主题)系统包含的数据形式

»

结构(e.g.,关系数据)vs.无结构(e.g.,文本)形成答案的机制

»

抽取(e.g.,文本片段)vs.产生式(e.g.,对话)Q&A研究的基本问题Q&A的发展历程早期,基于结构数据的问答系统问题答案语法分析语义分析数据查询语句数据库基本原理

将问题转化为数据库的查询语言;»语法分析

(语言规则,启发式规则等)»语义分析

(映射解析的请求为正式的查询语言)

提交查询到数据库上得到结果AI时期去“映”例子-1LUNAR是回答关于Apollo11采集回来的岩石问题的系统;问题:

有样本中铝含量大于13%吗?•

查询:

–(TEST(FORSOMEX1/(SEQSAMPLES):T;(CONTAINX1(NPR*X2/‘AL203)(GREATERTHAN13PCT))))•

答案:

–Yes例子-2问题:

“Listtheauthorswhohavewrittenbooksaboutbusiness”查询:SELECTfirstname,lastnameFROMauthors,titleauthor,titlesWHEREauthors.id=titleauthor.authors_idANDtitleauthor.title_id=titles.id强调句法解析强调领域知识构建花费巨大很脆弱»特别是在领域知识边界的地方

所以在80年代慢慢转为NLP风格特点这类系统强调利用计算语言学的技术去减轻构建Q&A系统的代价,同时利用Q&A系统作为框架去测试计算语言学理论代表系统是BerkeleyUnixConsultantproject(UC)早期:基于结构化数据的问答系统计算语言学时期%UCWelcometoUC(UnixConsultant)version3.23ToaUC'#'prompt,pleasetypeinyourquestionsabouttheUnixfilesysteminEnglish.Toleave,justtypea'AD'or'(exit)'.Hi.HowcanIhelpyou?#HowcanIdeleteafile?Userm.Forexample,todeletethefilenamedfoo,type'rmfoo'.#Whatdoesrwhodo?

Rwhoisusedtolistallusersonthenetwork,theusers'tty,theusers'logintime,andtheusers'idletime.BerkeleyUnixConsultantproject(UC)90年代末以前的Q&A属于限定域;---强调领域知识---构建花费巨大---很脆弱»特别是在领域知识边界的地方转折点:QAtrackintheTREC-8(1999)Q&A研究从AI角度出发进入到从IR角度出发的时代同时,也进入了开放域研究的时代评论中期,基于自由文本的问答系统基本原理

1.问题分析

2.信息检索

3.答案抽取去“抽”TRECQATrackhttp://日语问答评测平台NTCIRhttp://research.nii.ac.jp/ntcir/workshop/多语言问答评测平台CLEFhttp://r.it/评测QuestionExtract

KeywordsQuerySearch

EngineCorpusDocsPassage

ExtractorAnswersAnswer

SelectorAnswer“A50-bytepassagelikely

tocontainthedesiredanswer”(TRECQAtrack)“Asimplefactoid

question”TypicalTRECQAPipelineMeanReciprocalRank(MRR):Findtheordinal

positionofthecorrectanswerinyouroutput(1st

answer,2ndanswer,etc.)anddividebyone;average

overentiretestsuite.Sample

results自由文本可以是来自较好的封闭集合(如TREC),也可以是网络数据;网络文档的缺点:---错误信息很多---日期信息不能很准确地得到网络文档的优点:---数量大---更新快评论FAQ在网络上开始大量出现;CQA横空出世;现代:基于问题答案对的问答系统基于FAQ的Q&A研究基于CQA的Q&A研究

质量用语规范总量特定领域的数量社会网络FAQ高规范大小无CQA良莠不齐口语化,不规范巨大大有FAQ与CQA的区别分类目录问题title问题body答案1答案2投票投票用户网络头衔CQA的特点用户—问题,用户—回答的网络鼓励用户参与和互动的投票/头衔等机制社会网络专家网络和社会评价系统CQA独有的特点现代:基于问题答案对的问答系统问题分类关键词提取关键词扩展问题检索查找候选问题返回最佳答案选择候选答案QA对相关问题答案问题网络用户网络交互模块去“找”问题答案语法分析语义分析数据查询语句数据库去“映”去“抽”问题分类关键词提取关键词扩展问题检索查找候选问题返回最佳答案选择候选答案QA对相关问题答案问题网络用户网络交互模块去“找”①②③不同(时代)类型的QA系统早期,基于结构数据中期,基于自由文本现代,基于QA对最近发展趋势(1)问题答案语法分析语义分析数据查询语句数据库去“映”①问题答案语法分析语义分析大规模图查询知识图谱去“映”④最近发展趋势(2)DeepLearning最近发展趋势(3)DeepLearningFor

each

(head,

relation,

tail),

make

h

+

r=tMaybe

brain

works

like:EverythingbeEmbedded.最近发展趋势(4)DeepLearning最近发展趋势(5)DeepLearning最近发展趋势(6)DeepLearningQ&A的发展历程最近发展趋势(7)机器阅读理解DEMO:/问题是否这几类系统完全没有关系?一个实际系统示例(电子基金)本体知识库半结构化知识库搜索引擎大数据管理平台智能交互系统主控流程用户问题语音识别引擎识别文本问题解析引擎解析结果FAQ数据库网页与行业数据库FAQ引擎知识库引擎数据获取答案生成搜索结果匹配结果候选答案答案语音合成引擎问答对抽取信息抽取知识表示识别模型合成模型汇报提纲:智能问答系统发展历程轻量级知识图谱的构建对话系统轻量级知识图谱的构建(/)OpenInformationExtraction中文轻量级知识图谱的构建How?Infobox汇报提纲:智能问答系统发展历程轻量级知识图谱的构建对话系统对话系统-典型结构对话系统-手工方法对话系统-手工方法:AIML人工智能标记语言人机对话、自动应答常用标签AIML示例对话系统-检索式对话对话系统-生成式对话对话系统-小冰对话系统-诗歌对联生成随机生成:孤城无处迎人道,已忆青山卧葛洪。贵貌驰开汗相寄,踏来欲折共愁吟。谁知昔劫云根里,犹有驱车肯寄伸。无限名山谁与尔,至今荣盛事田心。成名蝶散穷春魄,遥映峨峨百丈街。天力**惊百丈,生门须及百人师。藏头诗:(明月别枝惊鹊)明月壮非师子都,月敲秋署亦先停。

别人自爱淮阳恶,枝倚东斋雪渐千。惊吹江亭闲宴望,鹊临龙虎泣黄月。对话系统-手写体数字生成对话系统-风格化图片生成对话系统-综合谢谢!Q

&

A

?

第八章机器阅读理解自然语言处理理论与实践任务分类评测指标基于深度学习的阅读理解模型阅读理解概述项目实践目录总结与思考何为阅读理解机器阅读理解(MachineReadingComprehension,MRC)是一项测试机器对自然语言理解程度的任务,它要求机器根据给定的上下文回答问题,使机器具有和人类一样的对文本进行阅读、理解和推理能力。阅读理解发展历史030201阶段1:人工智能初期受限领域的知识库问答BaseballLunar阶段3:语言模型阶段GPT3.0BERTERNIE…阶段2:深度学习阶段序列模型注意力机制词向量…诸多数据集、知识库出现任务分类评测指标基于深度学习的阅读理解模型阅读理解概述项目实践目录总结与思考任务分类机器阅读理解完形填空多项选择文本抽取自由问答任务分类完型填空1首先删除文章中的一些单词或实体,接着需要在删去后留下的空白处填上所缺的部分。部分数据集会对空白处提供一组候选答案,正确答案藏于其中机器阅读理解完形填空多项选择文本抽取自由问答任务分类机器阅读理解完形填空多项选择文本抽取自由问答完型填空1CNN/DailyMail/~kcho/DMQA/

美国有线电视新闻和每日邮报掩盖新闻总结句中的实体仅输入文档让模型预测空白Hermann,K.M.,Kocisky,T.,Grefenstette,E.,Espeholt,L.,Kay,W.,Suleyman,M.,&Blunsom,P.(2015).

Teachingmachinestoreadandcomprehend.任务分类机器阅读理解完形填空多项选择文本抽取自由问答完型填空1Children'sBookTest儿童读物连续20个句子构建正文9个候选答案单词/downloads/babi/

TheGoldilocksPrinciple:ReadingChildren'sBookswithExplicitMemoryRepresentations任务分类多项选择2给定一段上下文,及相关的问题,需要机器从多个候选答案选择正确的一项。机器阅读理解完形填空多项选择文本抽取自由问答任务分类多项选择2机器阅读理解完形填空多项选择文本抽取自由问答MCTesthttps://mattr1.github.io/mctest/

难易度较低~7岁儿童内容虚构MC160

&MC500MCTest:AChallengeDatasetfortheOpen-DomainMachineComprehensionofText任务分类多项选择2机器阅读理解完形填空多项选择文本抽取自由问答RACEMCTest:AChallengeDatasetfortheOpen-DomainMachineComprehensionofText/data/RACE_leaderboard.html

难易度适中~

中考、高考英语测试人为制造问题和答案RACE-H&RACE-M任务分类多项选择2机器阅读理解完形填空多项选择文本抽取自由问答 CommonsenseQA/commonsenseqa

难易度较高~

复杂的语义环境需要利用常识进行推理选项多为单字词实体CommonsenseQA:AQuestionAnsweringChallengeTargetingCommonsenseKnowledge任务分类多项选择2机器阅读理解完形填空多项选择文本抽取自由问答ARCThinkyouhaveSolvedQuestionAnswering?TryARC,theAI2ReasoningChallenge/data/arc

难易度适中~ARC-Challenge&ARC-Easy小学水平的科学问题提供额外的语料库任务分类文本抽取3给定一段上下文,及相关的问题,需要机器从相应的上下文提取一段文本作为答案。机器阅读理解完形填空多项选择文本抽取自由问答任务分类文本抽取3 SQuAD机器阅读理解完形填空多项选择文本抽取自由问答https://rajpurkar.github.io/SQuAD-explorer/

SQuAD:100,000+QuestionsforMachineComprehensionofText阅读理解里程碑10W+人工构建的高质量问题答案文本不局限于单词或实体任务分类文本抽取3 HOTPOTQA机器阅读理解完形填空多项选择文本抽取自由问答HotpotQA:ADatasetforDiverse,ExplainableMulti-hopQuestionAnswering难易度高问题种类多样需要在多文档上进行跳跃推理https://hotpotqa.github.io/explorer.html

任务分类文本抽取3NewsQA机器阅读理解完形填空多项选择文本抽取自由问答NewsQA:AMachineComprehensionDataset文章来自CNN新闻报道存在一些无法被回答的问题段落长度较长/en-us/research/project/newsqa-dataset/

任务分类自由问答4给定多段上下文,及相关的问题,需要机器从提供的多个上下文片段中进行总结,生成或者抽取出答案机器阅读理解完形填空多项选择文本抽取自由问答任务分类自由回答4MSMACROMSMARCO:AHumanGeneratedMAchineReading文章来自Bing检索结果每个问题附有10篇文档每个问题可以有多个答案机器阅读理解完形填空多项选择文本抽取自由问答https://microsoft.github.io/msmarco/

任务分类自由回答4DuReaderDureaderachinesemachinereadingcomprehensiondatasetfromreal-worldapplications文章来自百度检索引擎和贴吧答案由人为生成问题类型多样化机器阅读理解完形填空多项选择文本抽取自由问答https://microsoft.github.io/msmarco/

任务分类评测指标基于深度学习的阅读理解模型阅读理解概述项目实践目录总结与思考评测指标评测指标AccuracyExactMatchF1ROUGE-LBLEU评测指标评测指标AccuracyExactMatchF1ROUGE-LBLEU

评测指标评测指标AccuracyExactMatchF1ROUGE-LBLEU

评测指标评测指标AccuracyExactMatchF1ROUGE-LBLEU

单词在标准答案中单词不在标准答案中单词在候选答案中TPFP单词不在候选答案中FNTNF1用于衡量预测的候选答案和标准答案之间单词的平均重叠率。常用于抽取式类型阅读理解。评测指标评测指标AccuracyExactMatchF1ROUGE-LBLEUL代表着公共最长子序列X和Y

分别为自动生成的答案和参考答案M和N分别为参考答案和候选答案的长度,即所包含词语的个数ROUGE用于计算模型生成的答案和标准答案之间的重叠字词数量来评估答案的质量。常用于自由文本类型阅读理解评测指标评测指标AccuracyExactMatchF1ROUGE-LBLEULEU用于计算生成的候选答案和标准答案之间的相似度,测试候选答案的可靠性、可读性。常用于自由文本类型阅读理解

任务分类评测指标基于深度学习的阅读理解模型阅读理解概述项目实践目录总结与思考基于深度学习的阅读理解模型1传统深度学习基本框架表示层:将字词转换为数字表示。随机或者导入预训练的词向量(如glove,word2vec)或者字符级别向量。编码层:利用编码器(如LSTM,CNN)将向量进行编码,获取包含上下文语义的表示。交互层:寻找文本与问题的有用的信息,尽可能使这两产生联系、交互。答案预测层:利用前几层积累的信息进行预测并输出答案,该层结构取决于阅读理解任务类型。基于深度学习的阅读理解模型2斯坦福注意力阅读器基于深度学习的阅读理解模型3双重注意力阅读器Onehot编码双向GRU相似度计算C2Q&Q2C注意力点乘预测词典V中每个单词的概率基于深度学习的阅读理解模型4R-Net基于深度学习的阅读理解模型1传统深度学习基本框架表示层:将字词转换为数字表示。随机或者导入预训练的词向量(如glove,word2vec)或者字符级别向量。编码层:利用编码器(如LSTM,CNN)将向量进行编码,获取包含上下文语义的表示。交互层:寻找文本与问题的有用的信息,尽可能使这两产生联系、交互。答案预测层:利用前几层积累的信息进行预测并输出答案,该层结构取决于阅读理解任务类型。基于深度学习的阅读理解模型5基于预训练语言模型的基本框架基于深度学习的阅读理解模型6KT-NET基于深度学习的阅读理解模型7SG-NET任务分类评测指标基于深度学习的阅读理解模型阅读理解概述项目实践目录总结与思考项目实践项目实践项目介绍项目准备模型构建模型训练及测试项目实践项目实践项目介绍项目准备模型构建模型训练及测试本实验结合当前流行的深度学习成果--预训练语言模型BERT和目前主流的深度学习框架Pytorch来处理传统的阅读理解数据集之一—SQuADV1.1。项目实践项目实践项目介绍项目准备模型构建模型训练及测试本实验旨在锻炼读者以下三方面能力:1)掌握数据预处理的相关操作;2)了解预训练语言模型的工作原理;3)掌握基本的阅读理解系统运作流程。其中,项目的主要思路如下:1.安装相关框架,2.获取数据集数据并进行处理,3.下载并导入预训练语言模型,4.基于预训练语言模型的阅读理解模型构建,5.模型训练,6.模型推理,7.模型测试。项目实践项目实践项目介绍项目准备模型构建模型训练及测试1数据集介绍https://rajpurkar.github.io/SQuAD-explorer

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论