【复旦大学】2023年搜索引警中的智能问答报告_第1页
【复旦大学】2023年搜索引警中的智能问答报告_第2页
【复旦大学】2023年搜索引警中的智能问答报告_第3页
【复旦大学】2023年搜索引警中的智能问答报告_第4页
【复旦大学】2023年搜索引警中的智能问答报告_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎中的智能问答张奇复旦大学智能问答--从PC到移动信息载体关键字、语音

图像、

POI输入设备自然语言(语音)、环境搜索(用户阅读)问答(机器阅读)任何可联网的设备信息、知识、常识关键词10条链接问句答案手机、

Pad网页、

APP(眼镜、车载、音箱、服务机器人)Q

:学生证买火车票—年能用几次?A

:4次。Q

:大红袍是什么茶?A

:乌龙茶。智能问答--无处不在的问答引擎Q

:汽车没电了打不着火怎么办?A

:首先需要—根跨接电线,然后将两车的车头面对面

…智能问答--无处不在的问答引擎查询类别问题类型问答24%医疗非事实类20%小说9%教育7%2%人物知识4.5%购物网很卡是什么原因交首付款注意事项折耳兔怎么养故乡鲁迅发生的变化的原因

石家庄市银监局投诉电话是多少

疝气会影响生育吗①

约1/4用户查询是问答需求②

更长尾,更偏向自然语言描述事实类,非事实类,观点类没有房产证的酒店拆迁如何补偿低烧可以进藏吗用户需求强,难度大

问题类型多眼镜蛇和眼镜王蛇的区别蜂蛹泡酒的功效人有多少颗牙齿

什么是幽门螺旋杆菌智能问答--来自搜索的问题分布苹果烫网

在手机怎么注册淘宝账号落地签证是什么意思吗搜索请求占比

怎么办猕猴桃和奇异果有什么区别腰肌劳损挂什么科大米生

了还能吃影响搜发索

大因素速突观然点变类慢的原因家原能减神经绷紧怎么回事顶

络意思伤的水泡会自然充电器可以托运es9p%是什么手机信号不好肥吗

2%消吗智能问答--解决方案基于社区的问题回答Community-basedQuestionAnswering基于知识图谱的问题回答Knowledge-basedQuestionAnswering阅读理解Machine

ReadingComprehension智能问答--解决方案基于社区的问题回答Community-basedQuestionAnswering基于知识图谱的问题回答Knowledge-basedQuestionAnswering阅读理解Machine

ReadingComprehension智能问答--

基于社区的问题回答用户

:iPhone

死机了怎么办苹果8突然卡死,主界面不能动

,在线急等我的肾7突然无法操作,这种情况怎么解决?用户输入与标准问法差别很大智能问答-

语义匹配Apple

官方支持

:如果您的、

或开不了机或死机怎么办智能问答--

语义匹配脑袋测得出的东西叫智商

,小孩子发烧38脑袋测不出的东西叫智慧;发烧41度怎么办

北京大学

眼睛看得到的地方叫视线

,盐酸氯丙嗪

耳朵听得到的动静是声音

,定金

订金耳朵听不到的动静是声誉;嘴里说得出来的话叫内容

,嘴里说不出来的话叫内涵;

失之毫厘,谬以千里!…

…眼睛看不到的地方叫视野;基于句子表示的方法基于交互关系的方法智能问答--

语义匹配AggregationDocumentMatching

signalsDocumentQueryRepresentationDocumentRepresentationNeuralNetworkNeuralNetworkMatching

scoreMatching

scoreQueryQuery智能问答--

语义匹配DSSM:

Learning

DeepStructuredSemantic

ModelsforWebSearch

usingClick-through

Data

(Huang

et

al.,

CIKM’13)智能问答--

语义匹配Matchpyramid智能问答--

语义匹配Convolutional

neuraltensornetworkarchitectureforcommunity-basedquestionanswering,

IJCAI2015CNN-DSSMCNTN短文本蕴含信息不足,通过自适应注意力机制从外部知识中抽取信息,增强文本表示智能问答--

语义匹配智能问答--

语义匹配Adaptive

Multi-Attention

Network

IncorporatingAnswer

InformationforDuplicateQuestion

Detection,SIGIR2019智能问答--

语义匹配Adaptive

Multi-Attention

Network

IncorporatingAnswer

InformationforDuplicateQuestion

Detection,SIGIR2019智能问答--

语义匹配Adaptive

Multi-Attention

Network

IncorporatingAnswer

InformationforDuplicateQuestion

Detection,SIGIR2019Existingmethodstypicallyhave

framed

thereasoningproblemasa

semantic

matching

task.Thebothsentencesare

encoded

andinteractedsymmetricallyandin

parallel.Theroleofthetwosentences

is

obviously

different.智能问答--

语义匹配Asynchronous

Deep

Interaction

NetworkforNatural

Language

Inference

,EMNLP2019智能问答--

语义匹配Asynchronous

Deep

Interaction

NetworkforNatural

Language

Inference

,EMNLP2019智能问答--

语义匹配Asynchronous

Deep

Interaction

NetworkforNatural

Language

Inference

,EMNLP2019Query和Doc的多层交互

,三层QRNN提供了由浅到深的语义编码能力Attention机制建模Query和Doc的语义—致性

,利用Query重构Doc上下文

表示的能力

,语义信息层层递进D

hidden1

D

hidden2

D

hidden3多层表示学习QRNN-ATT智能问答--

语义匹配QueryEmbeddings:DocEmbeddings:qrnn

1

qrnn2

qrnn

3

att

1

Q

hidden1

att2

Q

hidden2

Qhidden3sigmoidBilinearmax基于QRNN和注意力机制的表示学习序列表示,

3倍加速于LSTM注意力机制加强Query-Doc的交互智能问答--

语义匹配单层QRNN-ATT(Sogou)DocEmbeddings:QueryEmbeddings:BilinearSimMatrixQ

hiddensigmoidD

hiddenBilinearDembdDAttChrome浏览器怎么删除Chrome浏览器历史怎么删除哪些精致的游戏游戏的细节能精致到什么程度男生自己理头发男生多久理一次头发合适中国的美食有哪些美食中国国庆节手抄报怎么画国庆手抄报的画公安和狱警哪个好公安跟狱警哪个好考些港澳通行证如何续签卡式往来港澳通行证怎么续签简单的赚钱方法网上最简单的赚钱方法智能问答--

语义匹配Query-问题匹配

精度损失(实际为不相同

,模型判定为相同)手机为什么冲不进电为何手机充不进去电该怎么解决华为手机怎样截长屏华为手机怎么长截图三种方式实现长图截屏司法考自学如何通过自学参加司法考试洗衣液瓶子废物利用洗衣液瓶子别扔了这样改造放在卫生间太实

用了看到的人都夸好显腿长的穿法除了高跟鞋这些显腿长的穿法你知道几个蚂蚁会员有几个蚂蚁会员一共有几个等级小程序可以有朋友圈吗微信小程序怎么分享朋友圈打工和创业的区别创业和打工的差别有多大看完此文就明白为

什么和老板想的不同智能问答--

语义匹配Query-问题匹配

召回损失(实际为相同

,模型判定为不相同)智能问答--

语义匹配答案质量问题智能问答--

语义匹配答案非所问智能问答--

语义匹配答案权威性问题智能问答--

语义匹配答案时效性问题智能问答--

语义匹配语料库怎么构建智能问答--

语义匹配弱监督数据如何使用周杰伦蜡像什么时间亮相上海杜莎夫人蜡像馆?智能问答-

阅读理解文章问题答案+智能问答-

阅读理解2015年之前的模型

:单词匹配、逻辑回归、分类等

2015年之后的模型

:神经网络答案结束位置答案开始位置问题文章+Squad1.0/2.0搜索问答文档类型Wiki的段落网页文本文档质量高质量页面种类多,质量差异大UGC内容低质文档长度平均长度138个词,

300词

以下占比98%平均长度约460字(视频等非文本页内容少

除外)600字以上占比约1/3文档是否有答案1.0一定存在答案

2.0不一定存在答案不一定存在答案单个搜索结果答案可能错误搜索中的答案可能客观错误智能问答--阅读理解的挑战面临复杂的互联网文档,文档质量、文本长度千差万别,机器阅读理解难度更大,更具挑战性。智能问答-

阅读理解R-NET:

MACHINE

READINGCOMPREHENSIONWITHSELF-MATCHING

NETWORKS,ACL2017模型假设文本中存在正确答案,而真实场景面临不存在答案的情况;模型容易出现常识性错误,对于涉及推理的问题效果不好;思路①

对答案存在性进行判断,避免错答;②

充分利用外部知识,不仅有利于处理复杂推理问题,也有助于提高答案抽取的精度

和置信度;加入答案存在性判断在字、词表示基础上加入外部知识

表示(全局/局部词频、LexicalAnswerType、

Entity类型、

POS、网页质量特征等)智能问答-

阅读理解①②问题--词级别和句子级别的分层交互,解决文联合学习答案存在概率和起止位置概率

增强上下文相关的表示能力sogou.cips.test10.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

00.5

0.6

0.7

0.8

0.9

1precision

baseline

new智能问答-

阅读理解问题:网页通常包含长文本,模型往往因为长距离依赖导致丢失重要信息思路:以词为单位的表示和注意力机制基础上,融入以句子为单位的长距离信息传

递和注意力机制recall智能问答-

阅读理解问题:采用DistantlySupervised方法标注的数据噪声影响大思路:更新Loss

Function考虑全部文档的结果以及文档之间的相关性,并引入基于

Bootstrapping的数据增强机制DocumentGated

ReaderForOpen-DomainQuestionAnswering

,SIGIR2019智能问答-

阅读理解问题:采用DistantlySupervised方法标注的数据噪声影响大思路:更新Loss

Function考虑全部文档的结果以及文档之间的相关性,并引入基于

Bootstrapping的数据增强机制DocumentGated

ReaderForOpen-DomainQuestionAnswering

,SIGIR2019智能问答-

阅读理解ReCO:A

LargeScaleChinese

ReadingComprehension

Dataseton

OpinionFactoid

ProblemComprehension

RetrievalReCO:A

LargeScaleChinese

ReadingComprehension

DatasetonOpinion

,AAAI2020智能问答-

阅读理解ReCO:A

LargeScaleChinese

ReadingComprehension

DatasetonOpinion

,AAAI2020智能问答-

阅读理解ReCO:A

LargeScaleChinese

ReadingComprehension

DatasetonOpinion

,AAAI2020智能问答-

阅读理解ReCO:A

Larg

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论