




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
知心时代 百度知识图谱新进展 青玉案 元夕 百度 百度搜索引擎 977Billion 覆盖中国的网民 每天的搜索量 百度每天的搜索query来自全球138个国家 百度的产品 UserGeneratedContent UGC 多种垂类产品 超过3亿已解答问题 来自520万网民贡献的1000万词条 超过800万的吧 NLP NLP 百度 UGC 知道 百科 贴吧 LBS Map Nuomi GroupBuy 国际化 葡语 阿语 泰语 搜索 网页搜索 移动云 移动搜索百度云语音助手 商业产品 文库 音乐 广告 百度NLP 百度NLP 百度NLP 多元化团队 语言学人才 百度NLP 系统实现人才 产品设计人才架构 前端 客户端工程开发人才 算法开发人才 学术人才 百度NLP 基本方法基础资源 词典 语料 规则方法 统计与机器学习方法网页日志 基础架构 平台 应用系统 智能交互 深度问答 机器翻译 用户理解 话语分析自动文摘网页理解 文本生成Query理解APP理解 专名识别分词 词性形态分析 组块分析主干分析依存分析 逻辑推理语义计算语义表示 文本理解上层技术 词法 基础分析句法 语义 用户建模用户行为预测 NLP业务 应用产品 搜索产品 LBS产品 国际化产品 用户消费产品 移动产品 知识挖掘 提纲 百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展 知识图谱的其他技术和应用 百度的知识中心 百度知心 百度的知识图谱 知心的两层含义百度更知用户的心 百度知心 丰富的应用 庞大的知识库 强大的 处理技术 孵化平台 涵盖了数十领域 上亿实体与属性 符合国际化接轨的数据标准体系 包括清洗 消歧 关联 推理等能力 将无序数据变为知识网络 对接大搜索 移动 LBS 国际化等公司战略产品 提供诸如 知识聚合 检索 推荐 交互等形态多样的应用 快捷的 已高效完成百亿互 联网数据的挖掘 以及数十个创新产品的孵化 知识图谱定位和概况百度知识图谱致力于构建宏大的知识网络 包含世间万物以及它们之间的联系 以图文并茂的方式展现知识的方方面面 让人们更便捷的获取信息 找到所求 百度知心的一路走来 2012年底百度知心上线 实体基本属性 仅针对实体型query相关实体推荐 增加用户互动的内容 搜索引擎体现社交色彩 百度知心 更加精彩的用户体验 推荐无处不在 推荐技术更加深入 百度知心 更加精彩的用户体验 百度知心 无处不在的推荐 点击后推荐 click 百度知心 无处不在的推荐上翻后推荐 下翻 上翻 通栏推荐 百度知心 无处不在的推荐 百度如何知心 百度知心的背后 尽可能快的满足用户的当前需求尽可能多的引导用户的延展需求 更加深刻的理解用户需求更加丰富的需求满足方式 更加深入细致的搜索 推荐 挖掘 NLP 机器学习技术 百度知心的不断进化 提纲 百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展 知识图谱的其他技术和应用 什么是推荐理由 推荐理由的两方面作用摘要满足 让用户一目了然的了解推荐的实体是什么 增加吸引力 让用户更有兴趣对推荐的实体一探究竟 百度知心推荐理由的分类 单实体型推荐理由Q 林丹 对于推荐实体本身的描述 与query无关 覆盖面高 实体关系型推荐理由Q 林丹 对两个实体的关系的描述 与给定query相关 覆盖面低 单实体推荐理由挖掘 百度百科 网页库 搜索日志 实体链指 数 据 掘 Bootstrapping DistantSupervision 推荐理由生成基于规则的生成 实体三元组 模板集 后处理挖 推荐理由压缩 实体推荐理由知识库推荐理由挖掘基于模板的挖掘 单实体推荐理由挖掘 挖掘示例 doc 1 2 3 1 2 3 4 1 2 3 4 5 1 2 3 4 1 2 文雅丽出生于中国香港 1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子 成为亚历山德拉王妃 文雅丽 有着1 4中国血统的文雅丽是土生土长的香港女孩 1995年嫁给丹麦女王次子约阿希姆王子 成为欧洲王室史上第一位亚裔王妃 但双方于2005年离婚 主要成就 北欧的戴安娜王妃 文雅丽 亚历山德拉王妃 文雅丽 土生土长的香港女孩 文雅丽 欧洲王室史上第一位亚裔王妃 文雅丽 北欧的戴安娜王妃 文雅丽 亚历山德拉王妃 文雅丽 土生土长的香港女孩 文雅丽 史上第一位亚裔王妃 文雅丽 欧洲王室史上亚裔王妃 文雅丽 北欧的戴安娜王妃 文雅丽 亚历山德拉王妃 文雅丽 土生土长的香港女孩 文雅丽 史上第一位亚裔王妃 文雅丽 北欧的戴安娜王妃 文雅丽 亚历山德拉王妃 文雅丽 北欧的戴安娜王妃 doc 预处理 sentrelatedtoe 抽取TAG e tag 压缩TAG e s tag 过滤TAGaccuracy85 众测 为什么要自动化 pattern based方法召回低问题定义 PULearning问题 Onlypositiveexampleandunlabeleddata Twosteps MappingStage findingreliablenegativeinstancesConvergenceStage classifierbuilding 单实体推荐理由挖掘 TagModel Yuetal 2002 PEBL PositiveExampleBasedLearningforWebPageClassificationUsingSVM InSIGKDD doc 1 2 3 1 2 3 4 5 6 1 2 1 文雅丽出生于中国香港 1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子 成为亚历山德拉王妃 文雅丽 有着1 4中国血统的文雅丽是土生土长的香港女孩 1995年嫁给丹麦女王次子约阿希姆王子 成为欧洲王室史上第一位亚裔王妃 但双方于2005年离婚 主要成就 北欧的戴安娜王妃 文雅丽 成为亚历山德拉王妃 文雅丽 土生土长的香港女孩 文雅丽 嫁给丹麦女王次子 文雅丽 王室史上第一位亚裔 文雅丽 成为欧洲王室 文雅丽 北欧的戴安娜王妃 文雅丽 土生土长的香港女孩 文雅丽 北欧的戴安娜王妃 文雅丽 北欧的戴安娜王妃 doc 预处理 sentrelatedtoe 抽取候选 e tag 分类TAGaccuracy84 众测 单实体推荐理由挖掘 TagModel抽取示例 实体关系型推荐理由挖掘 1利用结构化信息自动生成关系型推荐理由 使用百科名片数据中的属性知识自动拼接生成实体关系 实体关系型推荐理由挖掘 2基于句法分析从自由文本中挖掘实体间关系 对海量网页数据进行句法分析 从实体间的句法路径挖掘实体关系 颜良 关公 杀死 一刀 大坯山 在大坯山下颜良被关公突然袭击快马奔到面前一刀杀死的 提纲 百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展 知识图谱的其他技术和应用 Query端 文本端分别建模 知识库中的实体 M1 M2 M3 M4 M5 知识库实体建模 文本端 Query端Q 李娜青藏高原基于点击日志的query扩展 MQNERL Q Querymention建模 MDNERL D 文本mention建模 Query端 文本端分别建模Q 为什么需要分别建模 A 同一个mention在query和长文本中的entity分布可能相差很大例如 Query 你不知道的事 出现在query中 绝大多数情况是歌曲名 文本 解析老干妈 逆营销 下 你不知道的事 出现在文本中 大多数情况不是歌曲名 上下文建模候选实体抽取 在给定文本中定位mention及其候选entities 同义词映射 勒布朗 詹姆斯 同义词映射 凯文 乐福同义词映射 克里夫兰骑士队 同义词映射 奥兰多魔术队 衰减率 w 1 5 4 3 2 1 0 1 2 3 4 5 李娜0 名将 HEAD 在 号 上下文建模 上下文词汇特征 目标mention左右窗口中的词 上下文实体特征 目标mention左右窗口中出现的实体 文本类别特征 当前文本的所属类别 距离衰减因子 实体建模 实体文本词汇特征 实体文本中的内容词w与mention在大规模语料中的共现紧密度 实体文本实体特征 实体文本中出现的其他实体 实体文本类别特征 如百科词条的分类标签 特定小说 影视 音乐等特定类别的特征裁剪 实体链指决策 特征 mention与entity的自身相似度特征 上下文词相似度特征 上下文 实体相似度特征 文本类别相似度特征 mention链指到不同entity的先验概率特征 决策步骤 1 排序 从mention的所有候选实体中 基于LTR选出top 1候选 决策步骤 2 分类 基于RF模型对top 1候选进行分类 判断是否应链接 注 知识库中存在实体缺失问题 因此分类的步骤必不可少 EL应用于推荐实体消歧 Q 小威 Q 青藏高原 EL应用于推荐实体消歧 Q 小威 Q 青藏高原解决上下文稀疏问题 在N个推荐实体中 用其他N 1个实体作为当前歧义实体的上下文 提纲 百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展 知识图谱的其他技术和应用 模型的优化目标 右侧实体推荐的整体reward最大化 如 推荐实体的点击率 click throughrate CTR 主要挑战 推荐实体的动态变化性 右侧推荐实体的候选列表是在动态变化的 且用户的兴趣也会随着时 间动态变化 用户反馈数据的不完备性 只有展现出来的实体会得到用户的点击反馈 那些没有展现出来的实 体永远没有机会被展现出来 基于在线学习 OnlineLearning 的推荐实体轮展 Calculatecandidates GetFeedbacks DisplayRecommendeditems Multi ArmedBandits 在exploration 新的推荐实体 和exploitation 好的推荐实体 之间取得平衡 问题抽象 Display Card Ranker Item Rerank User Log PreprocessingFeedBack DictionaryGeneration BanditAlgorithm CandidateGeneration 推荐实体轮展系统流程 提纲 百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展 知识图谱的其他技术和应用 知识图谱的其他技术和应用 专名挖掘 LearningNEsusingUrl textHybridPatterns IsitpossibletoextractNEsfromwebpagetitlesonly Yes 99 NEscanbefoundinsomewebpagetitles Url texthybridpatterns Urlconstraintsshouldbetakenintoconsideration Simpletextpatternsareenoughforcredibleurl website Complicatedtextpatternsareneededforlow qualityurl Url texthybridpatternlearning utp up tp c f Example Zhangetal 2013 BootstrappingLarge scaleNamedEntitiesusingURL TextHybridPatterns InIJCNLP S2 LearningNEsusingUrl textHybridPatterns Zhangetal 2013 BootstrappingLarge scaleNamedEntitiesusingURL TextHybridPatterns ToappearinIJCNLP Inter classEstimatorInner classEstimatorscorer OptionPat seed OverviewMulticlassCollaborativeLearner Sn MulticlassSeedsS1 BootstrappingPat GenerationSeedExtraction LearningNEsusingUrl textHybridPatterns MulticlassCollaborativeLearning MCL NEsofmultipleclassesareextractedsimultaneously BootstrappingNEsandurl texthybridpatternsiteratively Asmallsetofseedsisrequiredforeachclass Inter classandintra classscoringapproachesareusedforcontrolling thequalityofNEsandpatternsyieldedineachiteration Inter classscoring AcorrectNEofaclassshouldnotbeextractedbypatternsofotherclasses Acorrectpatternofaclassshouldnotextractseedsfromotherclasses Intra classscoring AcorrectNEofaclassshouldnotbeextractedbyonlyonepatternoftheclass AcorrectpatternofaclassshouldnotyieldalotofNEsthatcannotbeextractedbyotherpatternsoftheclass Zhangetal 2013 BootstrappingLarge scaleNamedEntitiesusingURL TextHybridPatterns ToappearinIJCNLP 知识图谱的其他技术和应用 深度问答与情感分析 面向知识图谱查询的Query理解 DE ATT的 演过OBV还珠格格 1 还珠格格 演员 2 Skip 4 还珠格格 演员 台湾 演员 演员3 台湾 演员 ATT台湾 123 解码算法 Transition shift reduce decoding结构特征 依存分析的结果语义特征 角色标签 知识库Scheme 深度问答的不同产品形态机器翻译应用 多语言翻译 情感分析 情感分类 评论观点 评论Tag 评论摘要 知识图谱的其他技术和应用 智能交互 3轮 4轮 百度考霸 基于知识图谱的多轮交互Q 600分可以上哪些学校推荐 1轮2轮 北京市600分能上什么大学 依存分析 北京市600分能上什么大学知识库查询queryhas scoreLine LT 600 has scoreLine GT 550 has type universityScoreLine has province 北京 has type universityScoreLine vertices 知识库查询 Query解析与知
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【7历期中】安徽省滁州市2023-2024学年七年级下学期期中历史试卷(含解析)
- 新手必看的项目管理考试试题及答案
- 微生物检验技术的未来趋势试题及答案分析
- 提升2025年证券从业资格证考试能力试题及答案
- 2025年注会学习计划的灵活性及其对效果的影响试题及答案
- 全面掌握证券从业试题及答案
- 2025注册会计师考试全面回顾试题及答案
- 微生物检验技师资格考试的解读与试题及答案
- 项目管理计划控制试题及答案
- 打造学习兴趣的特许金融分析师考试试题及答案
- 四川省会计师事务所服务收费标准
- 幼儿园中班科学活动《各种各样的鸟》课件
- 化学品泄露应急处置培训
- 中国矿产资源集团招聘笔试题库2024
- 高速公路机电工程实施性施工组织设计计划作业指导书
- 部编版二年级下册语文课文必背内容(课文、古诗、日积月累)
- 深海采矿技术及环境影响
- 小儿推拿知识完整版课件
- 山东省枣庄市滕州市2023-2024学年八年级下学期期末数学试题
- 人教版4年级上册音乐测试(含答案)
- 老年心理慰藉实务 课件 项目6-10 老年家庭心理慰藉-老年死亡心理慰藉
评论
0/150
提交评论