百知识图谱新进展_第1页
百知识图谱新进展_第2页
百知识图谱新进展_第3页
百知识图谱新进展_第4页
百知识图谱新进展_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、知心时代 百度知识图谱新进展 青玉案元夕 百度 百度搜索引擎 97 7Billion 覆盖中国的网民 % 每天的搜索量 百度每天的搜索query来自全球138个国家 百度的产品 User Generated Content (UGC) 多种垂类产品 超过3亿 已解答问题 来自520万网民 贡献的1000万词条 超过800万的吧 NLP NLP百度 UGC 知道 百科贴吧 LBS MapNuomi Group Buy 国际化 葡语 阿语泰语 搜索 网页搜索 移动云 移动搜索 百度云 语音助手 商业产品 文库音乐 广告 百度NLP 百度NLP 百度NLP-多元化团队 语言学人才 百度 NLP 系统

2、实现人才 产品设计人才 架构、前端、客户端工程开发人才 算法开发人才 学术人才 百度NLP 基本方法 基础资源 词典语料 规则方法统计与机器学习方法 网页 日志 基础架构/平台 应用系统 智能交互深度问答机器翻译 用户理解 话语分析 自动文摘 网页理解 文本生成 Query理解 APP理解 专名识别 分词、词性 形态分析 组块分析 主干分析 依存分析 逻辑推理 语义计算 语义表示 文本理解 上层技术 词法 基础分析 句法语义 用户建模 用户行为预测 NLP业务 应用产品 搜索产品LBS产品国际化产品用户消费产品移动产品 知识挖掘 提纲 百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消

3、歧 百度知心推荐实体轮展 知识图谱的其他技术和应用 百度的知识中心 百度知心:百度的知识图谱 知心的两层含义 百度更知用户的心 百度知心 丰富的 应用 庞大的 知识库 强大的 处理技术孵化平台 “涵盖了数十领域,上亿实 体与属性,符合国际化接轨 的数据标准体系” “包括清洗、消歧、关联、推 理等能力,将无序数据变为知 识网络” “对接大搜索、移动、LBS、 国际化等公司战略产品,提供 诸如:知识聚合、检索、推荐、 交互等形态多样的应用” 快捷的 “已高效完成百亿互 联网数据的挖掘,以 及数十个创新产品的 孵化” 知识图谱定位和概况 百度知识图谱致力于构建宏大的知识网络,包含世间万物以及它们之间

4、的联系,以图文并茂 的方式展现知识的方方面面,让人们更便捷的获取信息、找到所求。 百度知心的一路走来 2012年底百度知心上线 实体基本属性 仅针对实体型query 相关实体推荐 增加用户互动的内容 搜索引擎体现社交色彩 百度知心:更加精彩的用户体验 推荐无处不在 推荐技术更加深入 百度知心:更加精彩的用户体验 百度知心:无处不在的推荐 点击后推荐 click 百度知心:无处不在的推荐 上翻后推荐 下翻上翻 通栏推荐 百度知心:无处不在的推荐 百度如何知心? 百度知心的背后 尽可能快的满足用户的当前需求 尽可能多的引导用户的延展需求 更加深刻的理解用户需求 更加丰富的需求满足方式 更加深入细致

5、的搜索/推荐/挖掘/NLP/机器学习技术 百度知心的不断进化 提纲 百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展 知识图谱的其他技术和应用 什么是推荐理由? 推荐理由的两方面作用 摘要满足 让用户一目了然的了解推荐的 实体是什么 增加吸引力 让用户更有兴趣对推荐的实体 一探究竟 百度知心推荐理由的分类 单实体型推荐理由 Q:林丹 对于推荐实体本身的描述 与query无关 覆盖面高 实体关系型推荐理由 Q:林丹 对两个实体的关系的描述 与给定query相关 覆盖面低 单实体推荐理由挖掘 百度百科网页库搜索日志 实体链指 数 据 掘 Bootstrapping

6、 Distant Supervision 推荐理由生成 基于规则的生成 实体 三元组 模板集 后 处 理 挖 推荐理由压缩 实体推荐理由 知识库 推荐理由挖掘 基于模板的挖掘 单实体推荐理由挖掘挖掘示例 doc http:/ 1. 2. 3. 1. 2. 3. 4. 1. 2. 3. 4. 5. 1. 2. 3. 4. 1. 2. 文雅丽出生于中国香港,1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子,成为 亚历山德拉王妃 文雅丽有着1/4中国血统的文雅丽是土生土长的香港女孩,1995年嫁给丹麦女王 次子约阿希姆王子,成为欧洲王室史上第一位亚裔王妃,但双方于2005年离婚。 主要成就:“北欧的戴

7、安娜王妃” (文雅丽,亚历山德拉王妃) (文雅丽,土生土长的香港女孩) (文雅丽,欧洲王室史上第一位亚裔王妃) (文雅丽,北欧的戴安娜王妃) (文雅丽,亚历山德拉王妃) (文雅丽,土生土长的香港女孩) (文雅丽,史上第一位亚裔王妃) (文雅丽,欧洲王室史上亚裔王妃) (文雅丽,北欧的戴安娜王妃) (文雅丽,亚历山德拉王妃) (文雅丽,土生土长的香港女孩) (文雅丽,史上第一位亚裔王妃) (文雅丽,北欧的戴安娜王妃) (文雅丽,亚历山德拉王妃) (文雅丽,北欧的戴安娜王妃) doc 预处理 sent related to e 抽取TAG (e, tag), 压缩TAG (e, s_tag), 过

8、滤TAG accuracy 85%+ 众测 为什么要自动化:pattern-based方法召回低 问题定义: PU Learning问题 Only positive example and unlabeled data Two steps: Mapping Stage: finding reliable negative instances Convergence Stage: classifier building 单实体推荐理由挖掘Tag Model Yu et al., 2002. PEBL: Positive Example Based Learning for Web Page Cl

9、assification Using SVM. In SIGKDD. doc http:/ 1. 2. 3. 1. 2. 3. 4. 5. 6. 1. 2. 1. 文雅丽出生于中国香港,1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子,成为 亚历山德拉王妃 文雅丽有着1/4中国血统的文雅丽是土生土长的香港女孩,1995年嫁给丹麦女王 次子约阿希姆王子,成为欧洲王室史上第一位亚裔王妃,但双方于2005年离婚。 主要成就:“北欧的戴安娜王妃” (文雅丽,成为亚历山德拉王妃) (文雅丽,土生土长的香港女孩) (文雅丽,嫁给丹麦女王次子) (文雅丽,王室史上第一位亚裔) (文雅丽,成为欧洲王室) (文雅

10、丽,北欧的戴安娜王妃) (文雅丽,土生土长的香港女孩) (文雅丽,北欧的戴安娜王妃) (文雅丽,北欧的戴安娜王妃) doc 预处理 sent related to e 抽取候选 (e, tag), 分类TAG accuracy 84% 众测 单实体推荐理由挖掘Tag Model抽取示例 实体关系型推荐理由挖掘-1 利用结构化信息自动生成关系型推荐理由 使用百科名片数据中的属性知识自动拼接生成实体关系 Query颜良 RelatedEntity关公 推荐理由在大坯山一刀杀死颜良 实体关系型推荐理由挖掘-2 基于句法分析从自由文本中挖掘实体间关系 对海量网页数据进行句法分析,从实体间的句法路径挖掘

11、实体关系 颜良关公杀死 一刀大坯山 在 大坯山 下 颜良 被 关公 突然 袭击 快马 奔到 面前 一刀 杀死 的 提纲 百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展 知识图谱的其他技术和应用 Query端/文本端分别建模 知识库中的实体 M1M2M3 M4 M5 知识库实体建模 文本端 Query端 Q:李娜 青藏高原 基于点击日志 的query扩展 MQ NERL-Q Query mention建模 MD NERL-D 文本mention建模 Query端/文本端分别建模 Q:为什么需要分别建模? A:同一个mention在query和长文本中的enti

12、ty分布可能 相差很大 例如: Query:你不知道的事 出现在query中,绝大 多数情况是歌曲名 文本:解析老干妈:“逆营销”下,你不知道的事 出现在文本中,大多 数情况不是歌曲名 上下文建模 候选实体抽取:在给定文本中定位mention及其候选entities 同义词映射: 勒布朗-詹姆斯 同义词映射: 凯文-乐福 同义词映射: 克里夫兰骑士队 同义词映射: 奥兰多魔术队 衰减率 (w,_) 1 -5-4-3-2-1012345 李娜 0 名将 HEAD 在 号 上下文建模 上下文词汇特征 目标mention左右窗口中的词 上下文实体特征 目标mention左右窗口中出现的实体 文本类别

13、特征 当前文本的所属类别 距离衰减因子 实体建模 实体文本词汇特征 实体文本中的内容词w与mention在大规模语料中的共现紧密度 实体文本实体特征 实体文本中出现的其他实体 实体文本类别特征 如百科词条的分类标签 特定小说、影视、 音乐等特定类别 的特征裁剪 实体链指决策 特征 mention与entity的自身相似度特征、上下文词相似度特征、上下文 实体相似度特征、文本类别相似度特征 mention链指到不同entity的先验概率特征 决策步骤-1:排序 从mention的所有候选实体中,基于LTR选出top-1候选 决策步骤-2:分类 基于RF模型对top-1候选进行分类,判断是否应链接

14、 注:知识库中存在实体缺失问题,因此分类的步骤必不可少 EL应用于推荐实体消歧 Q:小威Q:青藏高原 EL应用于推荐实体消歧 Q:小威 Q:青藏高原 解决上下文稀疏问题: 在N个推荐实体中,用其他 N-1个实体作为当前歧义实 体的上下文 提纲 百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展 知识图谱的其他技术和应用 模型的优化目标 右侧实体推荐的整体reward最大化 如:推荐实体的点击率(click-through rate:CTR) 主要挑战 推荐实体的动态变化性 右侧推荐实体的候选列表是在动态变化的,且用户的兴趣也会随着时 间动态变化 用户反馈数据的不

15、完备性 只有展现出来的实体会得到用户的点击反馈;那些没有展现出来的实 体永远没有机会被展现出来 基于在线学习(Online Learning)的推荐实体轮展 Calculate candidates Get Feedbacks Display Recommended items Multi-Armed Bandits 在exploration (新的推荐实体)和exploitation(好 的推荐实体)之间取得平衡 问题抽象 Display Card-Ranker Item-Rerank User - Log Preprocessing Feed Back A correct pattern

16、of a class should not extract seeds from other classes. Intra-class scoring: A correct NE of a class should not be extracted by only one pattern of the class; A correct pattern of a class should not yield a lot of NEs that cannot be extracted by other patterns of the class. Zhang et al. 2013. Bootst

17、rapping Large-scale Named Entities using URL-Text Hybrid Patterns. To appear in IJCNLP. 知识图谱的其他技术和应用: 深度问答与情感分析 面向知识图谱查询的Query理解 DE ATT 的 演过 OBV 还珠格格 1. 还珠格格演 员 2. Skip 4. (还珠格格演员) & (台湾演员) 演员 3. (台湾演员) ATT 台湾 1 2 3 解码算法: -Transition(shift-reduce) decoding 结构特征: -依存分析的结果 语义特征: -角色标签,知识库Scheme 深度问答的不

18、同产品形态 机器翻译应用 多语言翻译 情感分析 情感分类 评论观点 评论Tag 评论摘要 知识图谱的其他技术和应用: 智能交互 3轮 4轮 百度考霸:基于知识图谱的多轮交互 Q:600分可以上哪些学校推荐? 1轮 2轮 北京市 600分 能上 什么 大学 依存分析 北京市 600分 能上 什么 大学 知识库查询query has(scoreLine,LT,600).has(scoreLine,GT,550).has(type,universityScoreLine).has(province, 北京).has(type,universityScoreLine).vertices() 知识库查询

19、 Query解析与知识图谱查询 实体知识库查询机制:从自然语言Query到结构化知识库 基于实体知识库查询结果的交互生成技术 综合考虑动态交互优先级与静态交互优先级,无需人工配置 动态交互优先级 基于知识库返回结果自动统计计算出对当前搜索结果数据集“切分度” 最好的知识库属性作为交互点 静态交互优先级 基本假设:在用户日志中被经常搜索的属性是更为重要的属性 例子: 查询:630分能考上什么大学 (分析:分数线的“省份”属性对当前数据表的切分度最好,且高频 出现在高考类分数线相关的query中) 交互:哪个省份的呢? 基于知识图谱的多轮交互技术 Q:北京大学分数线Q:那清华的呢Q:它的排名是多少

20、 基于知识图谱的对话指代消解 Q:美女多的大学Q:理科女生学什么专业好 基于知识图谱的泛需求满足 智能交互:去哪儿订票 智能交互:多模交互 1 2 3 多模输入(文字/语音/图片) 多模输出(文字/语音/图片) 多轮交互 基于植物知识图谱, 根据植物属性进行多 轮交互 知识图谱的其他技术和应用: App Tagging App Tagging 应用 基于tag的app搜索与推荐技术有助于提高移动端app分发 软件游戏 知识图谱的其他技术和应用: 需求图谱与兴趣图谱 在百度指数上线后,需求图谱 作为新功能受到用户好评 百度指数需求图谱 百度风云榜兴趣图谱 小结 实体推荐理由 推荐实体消歧 推荐实

21、体轮展 向用户展现更多信息,提升对用户兴趣 基于多种数据源挖掘单实体型推荐理由以及实体关系型推荐理由 消除歧义,真正实现实体级别的推荐 NERL:实体识别与链指 实现右侧推荐实体的动态调整,不断优化展现实体质量 基于在线学习算法 谢谢! Q&A 百度NLP 基本方法 基础资源 词典语料 规则方法统计与机器学习方法 网页 日志 基础架构/平台 应用系统 智能交互深度问答机器翻译 用户理解 话语分析 自动文摘 网页理解 文本生成 Query理解 APP理解 专名识别 分词、词性 形态分析 组块分析 主干分析 依存分析 逻辑推理 语义计算 语义表示 文本理解 上层技术 词法 基础分析 句法语义 用户建模 用户行为预测 NLP业务 应用产品 搜索产品LBS产品国际化产品

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论