2024机器阅读理解技术及应用

上传人：1*** IP属地：山东上传时间：2024-09-30 格式：DOCX 页数：10 大小：236.73KB 积分：4.8 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2017赛变成了一个类似于ImageNet一样大家可以刷榜的竞赛，所有的人都在争取第一，但这也同时变相的促进了技术的进步；最早MSA周铭老师的队伍，后来科大讯飞和哈工大的老师一起做，成绩也都不错；SQuAD1.0的时候榜单上最好的成绩是83%左右，但是后来斯关注Google出了个模型叫做Bert，我们内部笑称它是大力出奇迹，它的具体原理很简单就是找一个model能够融合我所有的数据，然后不管让它自己训练去，Google资金充足算力强，需要等两周，但对于我们普通公司来说，会等待更长的时间。NLP是一件比较综合的事情，做好还是比较难的，我们这一行有两个不太好的状况我们现在拿到的GPU最早是给Image设计的，都是四四方方的，它对图像处理是得天独厚的NVDIA对图像的处理20NLPDNNImage我们语言不是一个规则的东西，做结构化分析和链式分析都不是很好做，这些事情在GPU上运行是非常非常难受的，需要做很多额外的预处理操作；回到Bert，它真的是大力出奇问答系统在自然语言处理里其实已经有很多很多年了，他是一个NLP的标杆性应用，我们学生们的理解水平；现在问答在NLP里面有很多作为核心技术的应用，比如说智能客服和siri图1实用问答系统的举例WolframAlpha图2问题“明天需要带伞吗？”然后Bingbot，比较传统的结构它是一个模块化的系统，第一步，有了用户的query以后，我们并行计算querygoogledocs，然后我们在其中根据query匹配答案；阅读理解跟基于搜索的问答非常像，只不过这个问答不用你图3基于搜索的自动问答图4接下来是端到端阅读理解，阅读理解数据集sQuAD我之前已经讲过，它是以Wikipedia（span）。还有一个不太有名的比较复杂的数据集是MSMARCO，它的问题来自搜索引span，还需要做一些提取和综合答案，因为比较复杂，所以做图5词Focuswords，焦点词分为显性和隐性两种，它声明了答案的类型；第二步骤是在文章预期答案类型，同样的问答类型的识别可以用粗颗粒答案类型和直接使用query中的焦点图6模型整体结构示意图成四块：最底层是Representation（特征表示层），作用是看这个词在这个场景中是什么答案，我们要在model中把问题的信息通过这个机制对每一个字进行重新表示，利用注意力机制融合问题和篇章信息，我们用的模型是Match-LSTM、BiDAF和DCA等；最后我spanSpan应的细节大家可以再paper上面找，我这里就不详细讲了。如果大家想做这个方面的问答AI真正的落地。对话的用户体验是一个更自然的体验，我对和个对话用户体验很认同。因为对任何人来说最重要的事情就是时间；因为这个时间都是24小时，时间过去了再也不会学习App如何使用其实是我们并不关心的。我们年轻人来说还好，但是对于我们的父母和吃，我们并不关心App是在哪里？怎么用？如何选取优惠现在慢慢的大家都开始关注小程popularApp吸引力了，有了小程序，可以慢

人人文库> 全部分类> 专业文献 > IT计算机

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2024机器阅读理解技术及应用

文档简介

温馨提示

最新文档

评论

2024机器阅读理解技术及应用

文档简介

温馨提示

最新文档

评论

相关文档