版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
n背景介绍n关键技术n前沿研究2射向地面;而波长短的紫、蓝、青色光,碰象…||||n背景介绍n关键技术n前沿研究6问题类型问题query示例答案基本形态事实型事实型非事实型非事实型PS5数据开放平台| >在线解析/查询/推理>在线搜索+机器阅读理解数据:非结构化[半结构/无结构](问答对/文档) 从早期复杂流水线的DeepQA系统,到深度学习端到端的IBMWastonDeepQAProject2011利用深度MRC的开放域问答系统DrQA2016立知第一版搜索在线服务的问答系统2017.3|搜索场景问答的挑战:|李宁获得过几块奥运金牌?模型优化-多文档段落抽取(*)改进*Multi-passageBERT:AGloballyNormalizedBERTModelforOpen-domainQuestionAnswering伪相关反馈[Title]喻喻ssxx喻伪相关反馈[Title]喻喻ssxx喻个字母)零线N(英文单词NEUTRAL的第一个”A:英文单词(错误)*浅层特征方法:通过LAT识别和选择候选实体,收集文档上下文特征评分和投票海蓝之谜是哪个国家的化妆品品牌查询Query国/国度国家地点国家xx|üü•dropout是一种有效防止训练过拟合的方式•但dropout会让每次训练的模型不能保持一致性*R-Drop:RegularizedDropoutforNeuralNetworks|数据和模型优化:*Leveragingpassageretrievalwithgenerativemodelsforopendomainquestionanswering.|长答案和短答案的差异:短答案长答案答案长度较短的片段较长的摘要答案区域段落内可能跨段落,不连续阅读范围多文档段落单文档全文评价指标Bleu/Rouge/F1搜索长答案问题统计:|长答案MRC-组合式问答从搜索结果每个单文档抽取若干片段组合成精选摘要答案组合式问答:•定义:给定问题Q,文档D,将D划分为完整语义片段(启发式分句),预测答案为若干片段组合{Si}Html标签能一定程度反映页面结构、文本关系、展示重要度特征,选择特定标签作为结构符号输入•<p><br><tr><td>•<h><strong>一般预训练方法都是句子级别的,没有有效挖掘文档级别的特殊信息,因此引入两类网页相关的预训练任务•句子选择ComQA:CompositionalQuestionAnsweringviaHierarchicalGraphNeuralNetworks,www20213sentg2sentg1sentgsent1sent2sent3初试数据长答案MRC-组合式问答从搜索结果每个单文档抽取若干片段组合成精选摘要答案3sentg2sentg1sentgsent1sent2sent3初试数据01010101ü采用主动学习,通过模型反馈不断优化数据,使数据增益最大ü点击日志挖掘同一个文档曝光下语义相同/不同的query,进行样本增强/对抗加入训练加入训练新模型层次聚类模型筛选标注|YesSent2SentnSent1<EOS1><EOS2><EOSn>YesSent2SentnSent1<EOS1><EOS2><EOSn>判断类观点问答:•以组合式问答建模判断类观点问题querytitle<EOSi> query title Sent1 <EOS1>Sent2<EOS2><EOSn>|sigmoidBERTanswer_listquestionsepsigmoidBERTanswer_listquestionsep列表类问答:•依托网页结构解析和表示,保持答案信息的完整性answer_list| 排序排序 召回召回稠密段落检索 排序排序 召回召回稠密段落检索•稀疏检索(SparseRetrieval):基于关键字词构建倒排检索优点:细粒度精确召回缺点:比较严重的语义鸿沟•稠密向量检索(DenseRetrieval)基于向量表示的ANN优点:解决查询和文档之间的语义鸿沟缺点:从符号到向量表示的过程损失了一定的语义ü稠密段落检索(PassageRetrieval):通过深度语义学习表示,从大规模文本中检索出和查询相关的段落(包括自然段、任意句子、词片段)更细粒度、更精准的语义检索和匹配|交互式非交互式(万级)(十万级)交互式非交互式(万级)(十万级)×速度慢,需要在线对doc长文本进行表示(百级)|•非交互式异形双塔模型,进行Query-Passage的语义表示学习•对比学习优化Query-Passage匹配ü非交互式:适合大规模检索场景,离线计算passage表示ü对比学习:通过网页搜索日志和问答对数据获取大量正负样本,进行大规模对比学习优化向量表示的冗余性*BarlowTwins:Self-SupervisedLearningviaRedundancyReduction|•Cross-batch负采样:大幅增加样本数,提高训练效率,缓解训练和推理的负样本分布不一致•构建更高质量的负样本:提出一种混合降噪负采样方式ApproximateNearestNeighborNegativeContrastiveLearningforDenseTextRetrievalRocketQA:AnOptimizedTrainingApproachtoDensePassageRetrievalforOpen-DomainQuestionAnswering•非降噪负采样:通过已有召回模型(例如BM25)进行topk采样•降噪负采样:使用已有召回模型和初始训练的召回模型进行•InverseClozeTask(ICT):从段落内随机|•利用全网数据进行预训练(包括百科、微信、知乎、问答点击网页等多源),预处理后1T•利用点击/曝光未点击数据构造偏序对•利用问答对数据构造偏序对•有监督训练•人工标注4分类问答匹配| >在线解析/查询/推理>在线搜索+机器阅读理解 n背景介绍n关键技术n前沿研究DPR(Karpukhinetal.,2020)3(Wangetal.,2018)*DanqiChen,ACL2020tutorial-opendomainquestionandansweringDistillation(Izacard,etal.,2020)T5(Raffeletal.,2020)GPT3(Brownetal.,202(Hard)(Hard)•基于kbqa和短答案日志挖掘<q,a>,samples)048End-to-EndTrainingofMulti-DocumentReaderandRetrieverforOpen-DomainQuestionAnsweringP:鲸鱼是一种海洋哺乳动物。和脂肪酸、亚油酸等营养成分,在遇到高温是会把知识融合到模型中:知识图谱特朗普是前美国总统位于波音747是位于型号前美国总统UNKUNKUNK华盛顿UNKUNKUNK波音747UNKUNKUNK特朗普官邸位于哥伦比亚特区的白宫。总统专用客机被称为“空军一号”,专用直升机被称为“海军陆战队一号”Q:特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 办公室设备采购及使用说明
- 智慧城市交通管理与运输优化方案设计
- 农产品销售质量免责协议
- 石油钻机开孔施工方案
- 医疗行业医疗企业营销策略方案
- 中山柔性布袋风管施工方案
- 智能科技展览活动免责承诺书
- 山西膜结构施工方案
- 租房北阳台改造方案
- 航空清洁排水沟施工合同
- 水上交通行业安全培训
- 《电气工程讲》课件
- 甘肃省兰州市城关区2022-2023学年三年级上学期期末数学试卷
- 全域土地综合整治规划方案
- GB/T 26940-2023牡蛎干
- 计算机网络安全第9章VPN
- ERAS标准病房评审标准表
- 工程开工令(两令)
- 黑龙江省哈尔滨市松北区2023-2024学年六年级上学期期末数学试题
- 香港朗文英语2B期中试卷
- 慢性乙肝护理查房课件
评论
0/150
提交评论