版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
知心时代——百度知识图谱新进展知心时代——百度知识图谱新进展《青玉案·元夕》百度《青玉案·元夕》百度百度搜索引擎97
7Billion覆盖中国的网民
%
每天的搜索量百度每天的搜索query来自全球138个国家百度搜索引擎977Billion覆盖中国的网民%百度的产品User
Generated
Content
(UGC)
多种垂类产品
超过3亿已解答问题
来自520万网民贡献的1000万词条超过800万的吧百度的产品UserGeneratedContent(UNLPNLP@百度UGC知道…百科贴吧LBSMapNuomi…Group
Buy国际化葡语…阿语泰语搜索网页搜索…移动云…移动搜索
百度云
语音助手商业产品文库音乐…广告NLPNLP@百度UGC知道…百科贴吧LBSMapNuomi百度NLP百度NLP百度NLP百度NLP百度NLP-多元化团队语言学人才百度NLP系统实现人才产品设计人才
架构、前端、客户端工程开发人才算法开发人才学术人才百度NLP-多元化团队语言学人才百度系统实现人才产品设计人才百度NLP基本方法基础资源词典语料规则方法统计与机器学习方法
网页
日志基础架构/平台应用系统智能交互深度问答机器翻译用户理解话语分析自动文摘网页理解
文本生成Query理解
APP理解
专名识别分词、词性
形态分析组块分析主干分析依存分析逻辑推理语义计算语义表示文本理解
上层技术词法基础分析
句法语义
用户建模用户行为预测NLP业务应用产品搜索产品LBS产品国际化产品用户消费产品移动产品知识挖掘百度NLP基本方法词典语料规则方法统计与机器学习方法基础架构提纲•
百度知心概要介绍•
百度知心实体推荐理由•
百度知心推荐实体消歧•
百度知心推荐实体轮展•
知识图谱的其他技术和应用提纲•百度知心概要介绍•百度知心实体推荐理由•百度的知识中心
百度知心:百度的知识图谱•
知心的两层含义
百度更知用户的心百度知心百度的知识中心 百度知心:百度的知识图谱百度知心丰富的
应用庞大的知识库强大的处理技术孵化平台“涵盖了数十领域,上亿实体与属性,符合国际化接轨的数据标准体系”“包括清洗、消歧、关联、推理等能力,将无序数据变为知识网络”
“对接大搜索、移动、LBS、
国际化等公司战略产品,提供
诸如:知识聚合、检索、推荐、
交互等形态多样的应用”快捷的
“已高效完成百亿互联网数据的挖掘,以及数十个创新产品的孵化”知识图谱定位和概况百度知识图谱致力于构建宏大的知识网络,包含世间万物以及它们之间的联系,以图文并茂的方式展现知识的方方面面,让人们更便捷的获取信息、找到所求。丰富的庞大的强大的处理技术孵化平台“涵盖了数十领域,上亿实“百度知心的一路走来2012年底百度知心上线实体基本属性仅针对实体型query
相关实体推荐百度知心的一路走来2012年底百度知心上线实体基本属性仅针对增加用户互动的内容搜索引擎体现社交色彩百度知心:更加精彩的用户体验增加用户互动的内容搜索引擎体现社交色彩百度知心:更加精彩的用推荐无处不在推荐技术更加深入百度知心:更加精彩的用户体验推荐无处不在推荐技术更加深入百度知心:更加精彩的用户体验百度知心:无处不在的推荐点击后推荐click百度知心:无处不在的推荐点击后推荐click百度知心:无处不在的推荐
上翻后推荐下翻上翻百度知心:无处不在的推荐下翻上翻通栏推荐百度知心:无处不在的推荐通栏推荐百度知心:无处不在的推荐百度如何知心?百度知心的背后尽可能快的满足用户的当前需求尽可能多的引导用户的延展需求更加深刻的理解用户需求更加丰富的需求满足方式更加深入细致的搜索/推荐/挖掘/NLP/机器学习技术百度知心的不断进化百度如何知心?百度知心的背后尽可能快的满足用户的当前需求更加提纲•
百度知心概要介绍•
百度知心实体推荐理由•
百度知心推荐实体消歧•
百度知心推荐实体轮展•
知识图谱的其他技术和应用提纲•百度知心概要介绍•百度知心实体推荐理由•什么是推荐理由?推荐理由的两方面作用摘要满足让用户一目了然的了解推荐的实体是什么增加吸引力让用户更有兴趣对推荐的实体一探究竟什么是推荐理由?推荐理由的两方面作用让用户一目了然的了解推荐百度知心推荐理由的分类
单实体型推荐理由
Q:林丹•
对于推荐实体本身的描述•
与query无关•
覆盖面高
实体关系型推荐理由
Q:林丹•
对两个实体的关系的描述•
与给定query相关•
覆盖面低百度知心推荐理由的分类 单实体型推荐理由 实体关系型推荐单实体推荐理由挖掘百度百科网页库搜索日志实体链指数据掘Bootstrapping
DistantSupervision
推荐理由生成基于规则的生成
实体三元组模板集后处理挖推荐理由压缩
实体推荐理由
知识库推荐理由挖掘
基于模板的挖掘单实体推荐理由挖掘百度百科网页库搜索日志实体链指数据掘Boo单实体推荐理由挖掘—挖掘示例doc
/view/452602.htm....1.2.文雅丽出生于中国香港,1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子,成为亚历山德拉王妃[文雅丽]有着1/4中国血统的文雅丽是土生土长的香港女孩,1995年嫁给丹麦女王次子约阿希姆王子,成为欧洲王室史上第一位亚裔王妃,但双方于2005年离婚。主要成就:“北欧的戴安娜王妃”(文雅丽,亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,欧洲王室史上第一位亚裔王妃)(文雅丽,北欧的戴安娜王妃)(文雅丽,亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,史上第一位亚裔王妃)(文雅丽,欧洲王室史上亚裔王妃)(文雅丽,北欧的戴安娜王妃)(文雅丽,亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,史上第一位亚裔王妃)(文雅丽,北欧的戴安娜王妃)(文雅丽,亚历山德拉王妃)(文雅丽,北欧的戴安娜王妃)doc
预处理
[sent
related
to
e]抽取TAG
[(e,
tag),…]压缩TAG
[(e,
s_tag),…]过滤TAG
accuracy
85%+
众测单实体推荐理由挖掘—挖掘示例dochttp://baike••为什么要自动化:pattern-based方法召回低问题定义:
PU
Learning问题
–
Only
positive
example
and
unlabeled
data
–
Two
steps:••Mapping
Stage:
finding
reliable
negative
instancesConvergence
Stage:
classifier
building单实体推荐理由挖掘—Tag
ModelYu
et
al.,
2002.
PEBL:
Positive
Example
Based
Learning
for
Web
Page
Classification
Using
SVM.
In
SIGKDD.•为什么要自动化:pattern-based方法召回低•Madoc
/view/452602.htm...文雅丽出生于中国香港,1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子,成为亚历山德拉王妃[文雅丽]有着1/4中国血统的文雅丽是土生土长的香港女孩,1995年嫁给丹麦女王次子约阿希姆王子,成为欧洲王室史上第一位亚裔王妃,但双方于2005年离婚。主要成就:“北欧的戴安娜王妃”(文雅丽,成为亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,嫁给丹麦女王次子)(文雅丽,王室史上第一位亚裔)(文雅丽,成为欧洲王室)(文雅丽,北欧的戴安娜王妃)(文雅丽,土生土长的香港女孩)(文雅丽,北欧的戴安娜王妃)(文雅丽,北欧的戴安娜王妃)doc
预处理
[sent
related
to
e]抽取候选
[(e,
tag),…]分类TAG
accuracy
84%
众测单实体推荐理由挖掘—Tag
Model抽取示例doc/vie实体关系型推荐理由挖掘-1
利用结构化信息自动生成关系型推荐理由•使用百科名片数据中的属性知识自动拼接生成实体关系实体关系型推荐理由挖掘-1•使用百科名片数据中的属性知识自动Query颜良RelatedEntity关公推荐理由在大坯山一刀杀死颜良实体关系型推荐理由挖掘-2
基于句法分析从自由文本中挖掘实体间关系•对海量网页数据进行句法分析,从实体间的句法路径挖掘实体关系颜良关公杀死一刀大坯山在
大坯山
下
颜良
被
关公
突然
袭击
快马
奔到
面前
一刀
杀死
的Query颜良RelatedEntity关公推荐理由在大坯山提纲•
百度知心概要介绍•
百度知心实体推荐理由•
百度知心推荐实体消歧•
百度知心推荐实体轮展•
知识图谱的其他技术和应用提纲•百度知心概要介绍•百度知心实体推荐理由•Query端/文本端分别建模知识库中的实体M1M2M3M4M5知识库实体建模文本端
Query端Q:李娜
青藏高原
基于点击日志
的query扩展
MQNERL-QQuery
mention建模
MDNERL-D文本mention建模Query端/文本端分别建模知识库中的实体M1M2M3M4MQuery端/文本端分别建模
Q:为什么需要分别建模?
A:同一个mention在query和长文本中的entity分布可能
相差很大
例如:Query:你不知道的事出现在query中,绝大多数情况是歌曲名文本:……解析老干妈:“逆营销”下,你不知道的事……
出现在文本中,大多
数情况不是歌曲名Query端/文本端分别建模Query:你不知道的事出现在q上下文建模
候选实体抽取:在给定文本中定位mention及其候选entities
同义词映射:勒布朗-詹姆斯同义词映射:
凯文-乐福
同义词映射:
克里夫兰骑士队同义词映射:奥兰多魔术队上下文建模 同义词映射:同义词映射:同义词映射:1衰减率𝑑(w,𝑚_𝑐𝑢𝑟)1-5-4-3-2-1012345李娜0名将HEAD在号上下文建模
•
上下文词汇特征
•
目标mention左右窗口中的词
•
上下文实体特征•
目标mention左右窗口中出现的实体•
文本类别特征•
当前文本的所属类别距离衰减因子1衰减率𝑑(w,𝑚_𝑐𝑢𝑟)1-5-4-3-2-1实体建模
•
实体文本词汇特征
•
实体文本中的内容词w与mention在大规模语料中的共现紧密度
•
实体文本实体特征•
实体文本中出现的其他实体•
实体文本类别特征•
如百科词条的分类标签特定小说、影视、音乐等特定类别的特征裁剪实体建模•实体文本中出现的其他实体特定小说、影视、实体链指决策•
特征•
mention与entity的自身相似度特征、上下文词相似度特征、上下文实体相似度特征、文本类别相似度特征•
mention链指到不同entity的先验概率特征•
决策步骤-1:排序•
从mention的所有候选实体中,基于LTR选出top-1候选•
决策步骤-2:分类•
基于RF模型对top-1候选进行分类,判断是否应链接•
注:知识库中存在实体缺失问题,因此分类的步骤必不可少实体链指决策•特征•mention与entitEL应用于推荐实体消歧Q:小威Q:青藏高原EL应用于推荐实体消歧Q:小威Q:青藏高原EL应用于推荐实体消歧Q:小威
Q:青藏高原解决上下文稀疏问题:在N个推荐实体中,用其他N-1个实体作为当前歧义实体的上下文EL应用于推荐实体消歧Q:小威 Q:青藏高原提纲•
百度知心概要介绍•
百度知心实体推荐理由•
百度知心推荐实体消歧•
百度知心推荐实体轮展•
知识图谱的其他技术和应用提纲•百度知心概要介绍•百度知心实体推荐理由••
模型的优化目标–
右侧实体推荐的整体reward最大化•
如:推荐实体的点击率(click-through
rate:CTR)•
主要挑战–
推荐实体的动态变化性•
右侧推荐实体的候选列表是在动态变化的,且用户的兴趣也会随着时间动态变化–
用户反馈数据的不完备性•
只有展现出来的实体会得到用户的点击反馈;那些没有展现出来的实体永远没有机会被展现出来基于在线学习(Online
Learning)的推荐实体轮展•模型的优化目标–右侧实体推荐的整体reward最
Calculatecandidates
GetFeedbacks
DisplayRecommended
itemsMulti-Armed
Bandits在exploration
(新的推荐实体)和exploitation(好
的推荐实体)之间取得平衡问题抽象 Calculate Get DisplayMulti-ArDisplayCard-RankerItem-RerankUser
-
LogPreprocessing
Feed
Back
&
Dictionary
Generation
BanditAlgorithm
CandidateGeneration推荐实体轮展系统流程DisplayCard-RankerItem-RerankU提纲•
百度知心概要介绍•
百度知心实体推荐理由•
百度知心推荐实体消歧•
百度知心推荐实体轮展•
知识图谱的其他技术和应用提纲•百度知心概要介绍•百度知心实体推荐理由•知识图谱的其他技术和应用:专名挖掘知识图谱的其他技术和应用:专名挖掘Learning
NEs
using
Url-text
Hybrid
Patterns•
Is
it
possible
to
extract
NEs
from
webpage
titles
only?–
Yes!
99%
NEs
can
be
found
in
some
webpage
titles•
Url-text
hybrid
patterns–
Url
constraints
should
be
taken
into
consideration•
Simple
text
patterns
are
enough
for
credible
url
(website)•
Complicated
text
patterns
are
needed
for
low-quality
url•
Url-text
hybrid
pattern
learning–
utp
=
(up,
tp,
c,
f)–
Example:Zhang
et
al.
2013.
Bootstrapping
Large-scale
Named
Entities
using
URL-Text
Hybrid
Patterns.In
IJCNLP.LearningNEsusingUrl-textHyS2Learning
NEs
using
Url-text
Hybrid
PatternsZhang
et
al.
2013.
Bootstrapping
Large-scale
Named
Entities
using
URL-Text
Hybrid
Patterns.To
appear
in
IJCNLP.
Inter-class
EstimatorInner-class
Estimator
scorerOption
Pat.
seed•
Overview
Multiclass
Collaborative
LearnerSn
Multiclass
SeedsS1
……
BootstrappingPat.
GenerationSeed
ExtractionS2LearningNEsusingUrl-textLearning
NEs
using
Url-text
Hybrid
Patterns•
Multiclass
Collaborative
Learning
(MCL)–
NEs
of
multiple
classes
are
extracted
simultaneously–
Bootstrapping
NEs
and
url-text
hybrid
patterns
iteratively•
A
small
set
of
seeds
is
required
for
each
class–
Inter-class
and
intra-class
scoring
approaches
are
used
for
controllingthe
quality
of
NEs
and
patterns
yielded
in
each
iteration•
Inter-class
scoring:
A
correct
NE
of
a
class
should
not
be
extracted
by
patterns
of
other
classes;
A
correct
pattern
of
a
class
should
not
extract
seeds
from
other
classes.•
Intra-class
scoring:
A
correct
NE
of
a
class
should
not
be
extracted
by
only
one
pattern
of
the
class;
A
correct
pattern
of
a
class
should
not
yield
a
lot
of
NEs
that
cannot
be
extracted
by
other
patterns
of
the
class.Zhang
et
al.
2013.
Bootstrapping
Large-scale
Named
Entities
using
URL-Text
Hybrid
Patterns.To
appear
in
IJCNLP.LearningNEsusingUrl-textHy知识图谱的其他技术和应用:深度问答与情感分析知识图谱的其他技术和应用:深度问答与情感分析面向知识图谱查询的Query理解DE
ATT的演过
OBV
还珠格格1.
还珠格格^演
员2.
Skip4.
(还珠格格^演员)
&
(台湾@演员)
演员
3.
(台湾@演员)
ATT
台湾123解码算法:-Transition(shift-reduce)
decoding结构特征:-依存分析的结果语义特征:-角色标签,知识库Scheme面向知识图谱查询的Query理解DE ATT演过1.还珠格
深度问答的不同产品形态机器翻译应用
–
多语言翻译 深度问答的不同产品形态情感分析情感分类评论观点评论Tag评论摘要情感分析情感分类评论观点评论Tag评论摘要知识图谱的其他技术和应用:智能交互知识图谱的其他技术和应用:智能交互3轮4轮
百度考霸:基于知识图谱的多轮交互
Q:600分可以上哪些学校推荐?1轮
2轮3轮4轮 百度考霸:基于知识图谱的多轮交互北京市
600分
能上
什么
大学依存分析
北京市
600分
能上
什么
大学
知识库查询queryhas('scoreLine',LT,'600').has('scoreLine',GT,'550').has('type','universityScoreLine').has('province','
北京').has('type','universityScoreLine').vertices()
知识库查询Query解析与知识图谱查询
•
实体知识库查询机制:从自然语言Query到结构化知识库北京市600分能上什么大学依存分析 •
基于实体知识库查询结果的交互生成技术–
综合考虑动态交互优先级与静态交互优先级,无需人工配置–
动态交互优先级•
基于知识库返回结果自动统计计算出对当前搜索结果数据集“切分度”最好的知识库属性作为交互点–
静态交互优先级•
基本假设:在用户日志中被经常搜索的属性是更为重要的属性–
例子:•
查询:630分能考上什么大学•
(分析:分数线的“省份”属性对当前数据表的切分度最好,且高频出现在高考类分数线相关的query中)•
交互:哪个省份的呢?基于知识图谱的多轮交互技术•基于实体知识库查询结果的交互生成技术–综合考虑动Q:北京大学分数线Q:那清华的呢Q:它的排名是多少基于知识图谱的对话指代消解Q:北京大学分数线Q:那清华的呢Q:它的排名是多少基于知识图Q:美女多的大学Q:理科女生学什么专业好基于知识图谱的泛需求满足Q:美女多的大学Q:理科女生学什么专业好基于知识图谱的泛需求智能交互:去哪儿订票智能交互:去哪儿订票智能交互:多模交互123多模输入(文字/语音/图片)多模输出(文字/语音/图片)多轮交互基于植物知识图谱,根据植物属性进行多
轮交互智能交互:多模交互1多模输入(文字/语音/图片)基于植物知识知识图谱的其他技术和应用:App
Tagging知识图谱的其他技术和应用:AppTagging
App
Tagging•
应用
–
基于tag的app搜索与推荐技术有助于提高移动端app分发软件游戏 AppTagging软件游戏知识图谱的其他技术和应用:需求图谱与兴趣图谱知识图谱的其他技术和应用:需求图谱与兴趣图谱在百度指数上线后,需求图谱作为新功能受到用户好评百度指数需求图谱在百度指数上线后,需求图谱百度指数需求图谱百度风云榜兴趣图谱百度风云榜兴趣图谱小结实体推荐理由推荐实体消歧推荐实体轮展向用户展现更多信息,提升对用户兴趣基于多种数据源挖掘单实体型推荐理由以及实体关系型推荐理由消除歧义,真正实现实体级别的推荐NERL:实体识别与链指实现右侧推荐实体的动态调整,不断优化展现实体质量基于在线学习算法小结实体推荐理由推荐实体消歧推荐实体轮展向用户展现更多信息,谢谢!Q&A谢谢!Q&A知心时代——百度知识图谱新进展知心时代——百度知识图谱新进展《青玉案·元夕》百度《青玉案·元夕》百度百度搜索引擎97
7Billion覆盖中国的网民
%
每天的搜索量百度每天的搜索query来自全球138个国家百度搜索引擎977Billion覆盖中国的网民%百度的产品User
Generated
Content
(UGC)
多种垂类产品
超过3亿已解答问题
来自520万网民贡献的1000万词条超过800万的吧百度的产品UserGeneratedContent(UNLPNLP@百度UGC知道…百科贴吧LBSMapNuomi…Group
Buy国际化葡语…阿语泰语搜索网页搜索…移动云…移动搜索
百度云
语音助手商业产品文库音乐…广告NLPNLP@百度UGC知道…百科贴吧LBSMapNuomi百度NLP百度NLP百度NLP百度NLP百度NLP-多元化团队语言学人才百度NLP系统实现人才产品设计人才
架构、前端、客户端工程开发人才算法开发人才学术人才百度NLP-多元化团队语言学人才百度系统实现人才产品设计人才百度NLP基本方法基础资源词典语料规则方法统计与机器学习方法
网页
日志基础架构/平台应用系统智能交互深度问答机器翻译用户理解话语分析自动文摘网页理解
文本生成Query理解
APP理解
专名识别分词、词性
形态分析组块分析主干分析依存分析逻辑推理语义计算语义表示文本理解
上层技术词法基础分析
句法语义
用户建模用户行为预测NLP业务应用产品搜索产品LBS产品国际化产品用户消费产品移动产品知识挖掘百度NLP基本方法词典语料规则方法统计与机器学习方法基础架构提纲•
百度知心概要介绍•
百度知心实体推荐理由•
百度知心推荐实体消歧•
百度知心推荐实体轮展•
知识图谱的其他技术和应用提纲•百度知心概要介绍•百度知心实体推荐理由•百度的知识中心
百度知心:百度的知识图谱•
知心的两层含义
百度更知用户的心百度知心百度的知识中心 百度知心:百度的知识图谱百度知心丰富的
应用庞大的知识库强大的处理技术孵化平台“涵盖了数十领域,上亿实体与属性,符合国际化接轨的数据标准体系”“包括清洗、消歧、关联、推理等能力,将无序数据变为知识网络”
“对接大搜索、移动、LBS、
国际化等公司战略产品,提供
诸如:知识聚合、检索、推荐、
交互等形态多样的应用”快捷的
“已高效完成百亿互联网数据的挖掘,以及数十个创新产品的孵化”知识图谱定位和概况百度知识图谱致力于构建宏大的知识网络,包含世间万物以及它们之间的联系,以图文并茂的方式展现知识的方方面面,让人们更便捷的获取信息、找到所求。丰富的庞大的强大的处理技术孵化平台“涵盖了数十领域,上亿实“百度知心的一路走来2012年底百度知心上线实体基本属性仅针对实体型query
相关实体推荐百度知心的一路走来2012年底百度知心上线实体基本属性仅针对增加用户互动的内容搜索引擎体现社交色彩百度知心:更加精彩的用户体验增加用户互动的内容搜索引擎体现社交色彩百度知心:更加精彩的用推荐无处不在推荐技术更加深入百度知心:更加精彩的用户体验推荐无处不在推荐技术更加深入百度知心:更加精彩的用户体验百度知心:无处不在的推荐点击后推荐click百度知心:无处不在的推荐点击后推荐click百度知心:无处不在的推荐
上翻后推荐下翻上翻百度知心:无处不在的推荐下翻上翻通栏推荐百度知心:无处不在的推荐通栏推荐百度知心:无处不在的推荐百度如何知心?百度知心的背后尽可能快的满足用户的当前需求尽可能多的引导用户的延展需求更加深刻的理解用户需求更加丰富的需求满足方式更加深入细致的搜索/推荐/挖掘/NLP/机器学习技术百度知心的不断进化百度如何知心?百度知心的背后尽可能快的满足用户的当前需求更加提纲•
百度知心概要介绍•
百度知心实体推荐理由•
百度知心推荐实体消歧•
百度知心推荐实体轮展•
知识图谱的其他技术和应用提纲•百度知心概要介绍•百度知心实体推荐理由•什么是推荐理由?推荐理由的两方面作用摘要满足让用户一目了然的了解推荐的实体是什么增加吸引力让用户更有兴趣对推荐的实体一探究竟什么是推荐理由?推荐理由的两方面作用让用户一目了然的了解推荐百度知心推荐理由的分类
单实体型推荐理由
Q:林丹•
对于推荐实体本身的描述•
与query无关•
覆盖面高
实体关系型推荐理由
Q:林丹•
对两个实体的关系的描述•
与给定query相关•
覆盖面低百度知心推荐理由的分类 单实体型推荐理由 实体关系型推荐单实体推荐理由挖掘百度百科网页库搜索日志实体链指数据掘Bootstrapping
DistantSupervision
推荐理由生成基于规则的生成
实体三元组模板集后处理挖推荐理由压缩
实体推荐理由
知识库推荐理由挖掘
基于模板的挖掘单实体推荐理由挖掘百度百科网页库搜索日志实体链指数据掘Boo单实体推荐理由挖掘—挖掘示例doc
/view/452602.htm....1.2.文雅丽出生于中国香港,1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子,成为亚历山德拉王妃[文雅丽]有着1/4中国血统的文雅丽是土生土长的香港女孩,1995年嫁给丹麦女王次子约阿希姆王子,成为欧洲王室史上第一位亚裔王妃,但双方于2005年离婚。主要成就:“北欧的戴安娜王妃”(文雅丽,亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,欧洲王室史上第一位亚裔王妃)(文雅丽,北欧的戴安娜王妃)(文雅丽,亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,史上第一位亚裔王妃)(文雅丽,欧洲王室史上亚裔王妃)(文雅丽,北欧的戴安娜王妃)(文雅丽,亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,史上第一位亚裔王妃)(文雅丽,北欧的戴安娜王妃)(文雅丽,亚历山德拉王妃)(文雅丽,北欧的戴安娜王妃)doc
预处理
[sent
related
to
e]抽取TAG
[(e,
tag),…]压缩TAG
[(e,
s_tag),…]过滤TAG
accuracy
85%+
众测单实体推荐理由挖掘—挖掘示例dochttp://baike••为什么要自动化:pattern-based方法召回低问题定义:
PU
Learning问题
–
Only
positive
example
and
unlabeled
data
–
Two
steps:••Mapping
Stage:
finding
reliable
negative
instancesConvergence
Stage:
classifier
building单实体推荐理由挖掘—Tag
ModelYu
et
al.,
2002.
PEBL:
Positive
Example
Based
Learning
for
Web
Page
Classification
Using
SVM.
In
SIGKDD.•为什么要自动化:pattern-based方法召回低•Madoc
/view/452602.htm...文雅丽出生于中国香港,1995年嫁给丹麦腓烈特王储的弟弟约阿希姆王子,成为亚历山德拉王妃[文雅丽]有着1/4中国血统的文雅丽是土生土长的香港女孩,1995年嫁给丹麦女王次子约阿希姆王子,成为欧洲王室史上第一位亚裔王妃,但双方于2005年离婚。主要成就:“北欧的戴安娜王妃”(文雅丽,成为亚历山德拉王妃)(文雅丽,土生土长的香港女孩)(文雅丽,嫁给丹麦女王次子)(文雅丽,王室史上第一位亚裔)(文雅丽,成为欧洲王室)(文雅丽,北欧的戴安娜王妃)(文雅丽,土生土长的香港女孩)(文雅丽,北欧的戴安娜王妃)(文雅丽,北欧的戴安娜王妃)doc
预处理
[sent
related
to
e]抽取候选
[(e,
tag),…]分类TAG
accuracy
84%
众测单实体推荐理由挖掘—Tag
Model抽取示例doc/vie实体关系型推荐理由挖掘-1
利用结构化信息自动生成关系型推荐理由•使用百科名片数据中的属性知识自动拼接生成实体关系实体关系型推荐理由挖掘-1•使用百科名片数据中的属性知识自动Query颜良RelatedEntity关公推荐理由在大坯山一刀杀死颜良实体关系型推荐理由挖掘-2
基于句法分析从自由文本中挖掘实体间关系•对海量网页数据进行句法分析,从实体间的句法路径挖掘实体关系颜良关公杀死一刀大坯山在
大坯山
下
颜良
被
关公
突然
袭击
快马
奔到
面前
一刀
杀死
的Query颜良RelatedEntity关公推荐理由在大坯山提纲•
百度知心概要介绍•
百度知心实体推荐理由•
百度知心推荐实体消歧•
百度知心推荐实体轮展•
知识图谱的其他技术和应用提纲•百度知心概要介绍•百度知心实体推荐理由•Query端/文本端分别建模知识库中的实体M1M2M3M4M5知识库实体建模文本端
Query端Q:李娜
青藏高原
基于点击日志
的query扩展
MQNERL-QQuery
mention建模
MDNERL-D文本mention建模Query端/文本端分别建模知识库中的实体M1M2M3M4MQuery端/文本端分别建模
Q:为什么需要分别建模?
A:同一个mention在query和长文本中的entity分布可能
相差很大
例如:Query:你不知道的事出现在query中,绝大多数情况是歌曲名文本:……解析老干妈:“逆营销”下,你不知道的事……
出现在文本中,大多
数情况不是歌曲名Query端/文本端分别建模Query:你不知道的事出现在q上下文建模
候选实体抽取:在给定文本中定位mention及其候选entities
同义词映射:勒布朗-詹姆斯同义词映射:
凯文-乐福
同义词映射:
克里夫兰骑士队同义词映射:奥兰多魔术队上下文建模 同义词映射:同义词映射:同义词映射:1衰减率𝑑(w,𝑚_𝑐𝑢𝑟)1-5-4-3-2-1012345李娜0名将HEAD在号上下文建模
•
上下文词汇特征
•
目标mention左右窗口中的词
•
上下文实体特征•
目标mention左右窗口中出现的实体•
文本类别特征•
当前文本的所属类别距离衰减因子1衰减率𝑑(w,𝑚_𝑐𝑢𝑟)1-5-4-3-2-1实体建模
•
实体文本词汇特征
•
实体文本中的内容词w与mention在大规模语料中的共现紧密度
•
实体文本实体特征•
实体文本中出现的其他实体•
实体文本类别特征•
如百科词条的分类标签特定小说、影视、音乐等特定类别的特征裁剪实体建模•实体文本中出现的其他实体特定小说、影视、实体链指决策•
特征•
mention与entity的自身相似度特征、上下文词相似度特征、上下文实体相似度特征、文本类别相似度特征•
mention链指到不同entity的先验概率特征•
决策步骤-1:排序•
从mention的所有候选实体中,基于LTR选出top-1候选•
决策步骤-2:分类•
基于RF模型对top-1候选进行分类,判断是否应链接•
注:知识库中存在实体缺失问题,因此分类的步骤必不可少实体链指决策•特征•mention与entitEL应用于推荐实体消歧Q:小威Q:青藏高原EL应用于推荐实体消歧Q:小威Q:青藏高原EL应用于推荐实体消歧Q:小威
Q:青藏高原解决上下文稀疏问题:在N个推荐实体中,用其他N-1个实体作为当前歧义实体的上下文EL应用于推荐实体消歧Q:小威 Q:青藏高原提纲•
百度知心概要介绍•
百度知心实体推荐理由•
百度知心推荐实体消歧•
百度知心推荐实体轮展•
知识图谱的其他技术和应用提纲•百度知心概要介绍•百度知心实体推荐理由••
模型的优化目标–
右侧实体推荐的整体reward最大化•
如:推荐实体的点击率(click-through
rate:CTR)•
主要挑战–
推荐实体的动态变化性•
右侧推荐实体的候选列表是在动态变化的,且用户的兴趣也会随着时间动态变化–
用户反馈数据的不完备性•
只有展现出来的实体会得到用户的点击反馈;那些没有展现出来的实体永远没有机会被展现出来基于在线学习(Online
Learning)的推荐实体轮展•模型的优化目标–右侧实体推荐的整体reward最
Calculatecandidates
GetFeedbacks
DisplayRecommended
itemsMulti-Armed
Bandits在exploration
(新的推荐实体)和exploitation(好
的推荐实体)之间取得平衡问题抽象 Calculate Get DisplayMulti-ArDisplayCard-RankerItem-RerankUser
-
LogPreprocessing
Feed
Back
&
Dictionary
Generation
BanditAlgorithm
CandidateGeneration推荐实体轮展系统流程DisplayCard-RankerItem-RerankU提纲•
百度知心概要介绍•
百度知心实体推荐理由•
百度知心推荐实体消歧•
百度知心推荐实体轮展•
知识图谱的其他技术和应用提纲•百度知心概要介绍•百度知心实体推荐理由•知识图谱的其他技术和应用:专名挖掘知识图谱的其他技术和应用:专名挖掘Learning
NEs
using
Url-text
Hybrid
Patterns•
Is
it
possible
to
extract
NEs
from
webpage
titles
only?–
Yes!
99%
NEs
can
be
found
in
some
webpage
titles•
Url-text
hybrid
patterns–
Url
constraints
should
be
taken
into
consideration•
Simple
text
patterns
are
enough
for
credible
url
(website)•
Complicated
text
patterns
are
needed
for
low-quality
url•
Url-text
hybrid
pattern
learning–
utp
=
(up,
tp,
c,
f)–
Example:Zhang
et
al.
2013.
Bootstrapping
Large-scale
Named
Entities
using
URL-Text
Hybrid
Patterns.In
IJCNLP.LearningNEsusingUrl-textHyS2Learning
NEs
using
Url-text
Hybrid
PatternsZhang
et
al.
2013.
Bootstrapping
Large-scale
Named
Entities
using
URL-Text
Hybrid
Patterns.To
appear
in
IJCNLP.
Inter-class
EstimatorInner-class
Estimator
scorerOption
Pat.
seed•
Overview
Multiclass
Collaborative
LearnerSn
Multiclass
SeedsS1
……
BootstrappingPat.
GenerationSeed
ExtractionS2LearningNEsusingUrl-textLearning
NEs
using
Url-text
Hybrid
Patterns•
Multiclass
Collaborative
Learning
(MCL)–
NEs
of
multiple
classes
are
extracted
simultaneously–
Bootstrapping
NEs
and
url-text
hybrid
patterns
iteratively•
A
small
set
of
seeds
is
required
for
each
class–
Inter-class
and
intra-class
scoring
approaches
are
used
for
controllingthe
quality
of
NEs
and
patterns
yielded
in
each
iteration•
Inter-class
scoring:
A
correct
NE
of
a
class
should
not
be
extracted
by
patterns
of
other
classes;
A
correct
pattern
of
a
class
should
not
extract
seeds
from
other
classes.•
Intra-class
scoring:
A
correct
NE
of
a
class
should
not
be
extracted
by
only
one
pattern
of
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024智能物流系统研发与实施合同
- 2024沈阳房屋租赁安全协议
- 2023-2024年质量员之土建质量专业管理实务基础试题库和答案要点
- 2024某科技公司与云服务提供商关于数据存储的合同
- 2024年环保设备研发与技术转让合同
- 2024年版的授权代理合同:国际品牌的中国市场代理
- 2024幼儿园幼儿教育科研成果转化应用合同3篇
- 劳务派遣项目评估协议书
- 劳务派遣工作地点协议书
- 2024年金融科技产品研发保密协议
- 二氧化碳可降解塑料生产项目建议书
- 化工装置常用英语词汇对照
- 幼儿园幼儿教育数学领域核心经验
- 病例讨论麻醉科PPT课件
- EBZ220A掘进机幻灯片
- 集体跳绳赛规则
- 煤矿调度工作培训内容
- 机械原理课程设计-旋转型灌装机运动方案设计
- 标准《大跨径混凝土桥梁的试验方法》
- 1、食品安全与营养健康自查制度(学校食堂)
- 四氯化硅的提纯
评论
0/150
提交评论