OPPO 知识图谱及其在小布助手中的应用_第1页
OPPO 知识图谱及其在小布助手中的应用_第2页
OPPO 知识图谱及其在小布助手中的应用_第3页
OPPO 知识图谱及其在小布助手中的应用_第4页
OPPO 知识图谱及其在小布助手中的应用_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

oppo李向林OPPO高级NLP算法工程师目录CONTENT背景知识图谱在小布助手中的应用总结与展望背景-小布助手小布助手是OPPO旗下有趣贴心,无处不在的AI助手,月活跃用户破亿|背景-oppo知识图谱>知识图谱可以看作定义实体关系的语义网络>2020年开始立项,构建数亿实体和数十亿关系的高质量通用知识图谱,支持了每天数百万次的小布问答请求>逐渐扩展到商品图谱、健康图谱和风控等多个垂类oppo知识图谱整体架构|知识图谱构建核心算法实体分类实体分类实体对齐实体对齐信息抽取信息抽取知识图谱算法-实体分类>实体分类定义和价值•图谱schema规范化的关键特征•实体对齐和链接任务重要特征•规则+预训练语言模型文本分类•组织2021CCKS通用百科知识图谱实体类型推断评测任务,贡献大规模实体分类数据集,吸引了数百只队伍参赛知识图谱算法-实体对齐•多源相同实体合并,增加实体关系,减少信息冗余•基本假设:等价实体有相似的属性;等价实体有相似的邻接实体Dedupe候选实体对选择相似特征计算/聚类对齐模型数据预处理知识图谱算法-实体对齐算法流程Dedupe候选实体对选择相似特征计算/聚类对齐模型数据预处理>Dedupe+BERT语义分类两阶段对齐•Dedupe工具进行第一阶段对齐•基于BERT语义分类对第一阶段对齐结果调整和补充对齐对齐知识图谱算法-信息抽取•基于百度CASREL模型抽取常见属性•基于MRC模型抽取长尾属性:奥特曼的人间体|知识图谱算法-总结和展望•基于迁移学习扩展到商品分类、游戏分类等垂域场景•多模态、节点表示学习等多策略对齐方案•借助大规模预训练语言模型少(零)标记样本关系抽取算法•事件抽取算法知识图谱应用-小布知识问答>小布助手对话领域划分 今年几岁了你是男是女今年几岁了我有点难过你的爸爸是谁我有点难过检索式检索式生成式任务对话任务对话定个闹钟打开微信倒计时...Semantic知识问答知识问答印度首都的面积周杰伦老婆是谁消防车为什么是星星为什么眨眼睛...知识图谱知识图谱知识图谱应用-知识问答分类结构化问题结构化问题印度首都的面积周杰伦的老婆是谁消防车为什么是红色的天空为什么是蓝色非结构化非结构化(开放域)问题知识图谱 DeepQA知识问答-结构化问题(KBQA)分类 实体关系查询基础链式查询多变量约束类型类型比较推理查询查询在线推理计算知识问答-KBQA整体算法架构查询在线推理计算II QueryII QueryI领域识别分类抽取链接实体识别别名挖掘新词发现挂载属性识别模板语义Query解析 属性归一 模板挖掘离线答案生成离线据库|搜索点击日志 线上query知识问答-实体抽取搜索点击日志 线上query>小布助手场景下实体特点•别名:卷福、抖森和周董•语音识别错误:疯马奥特曼、风慢奥特曼->风马奥特曼queryquery筛选 实体识别倩雅集倩雅集1111特征聚类特征聚类|知识问答-实体链接 李白 实体消歧实体识别知识问答-实体链接算法实体消歧实体识别实体样本:名称相同,非主义项,全局共现流行度丰富度候选实体选取候选实体选取实体链接-千言比赛消歧模型优化•多任务:语义匹配+实体类型分类•对抗学习•统计特征融合•百度千言实体链接比赛第二名知识问答-Query解析算法•基于模板的方法,高准确低召回•查询图方法(QueryGraph)•用户问题和问题中心词在图谱中扩展2的子图(Subgraph)相似度2•模板+查询图+语义匹配pipeline•高效,badcase修复简单1.SemanticparsingonFreebasefromquestion-answerpairs.J.Berant,A.Chou,...32.SemanticParsingviaStagedQueryGraphGeneration:QuestionAnsweringwithKnowledgeBase.3Wen-tauYihMing-WeiChangXiaodongHeJianfengGao3.QuestionAnsweringwithSubgraphEmbeddings.AntoineBordes,JasonWeston,...志板语义匹配模型模型模板挖掘q:刘德华多少岁了ans:59岁模板库远程监督模板挖掘远程监督模板挖掘Query解析-在线模板匹配印度的首都有多大的的_query相似模板知识问答-模板语义匹配query相似模板>模板存在长尾说法欠召回问题•离线生成模板向量+在线向量召回Query模板模板推理计算属性识别查询识别多条件查询排序复杂问题解析-多约束和对比推理推理计算属性识别查询识别多条件查询排序多约束问题•重庆的男演员有哪些?分类性别:男•刘德华和张学友谁年龄大?分类精排排序输出语义向量编码在线双塔模型海量网页数据答非所精排排序输出语义向量编码在线双塔模型海量网页数据答非所离线query预处理模型知识问答-MRC模型优化>多个开源数据集融合•Macbert-large+rikinet•rikinet对网页长文本数据效果最优•负样本增强-训练集中答案mask后作为负样本总结和展望:•图谱构建算法:建设高质量知识图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论