ppt大数据安全与保密ppt5 知识图谱1_W_第1页
ppt大数据安全与保密ppt5 知识图谱1_W_第2页
ppt大数据安全与保密ppt5 知识图谱1_W_第3页
ppt大数据安全与保密ppt5 知识图谱1_W_第4页
ppt大数据安全与保密ppt5 知识图谱1_W_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、知识图谱与安全保密 洪亮2020-02-16武汉大学数据科学与智能实验室Part 1 知识图谱的由来和概念 发展背景关联语义化 数据信息知识智慧 数据库 知识库 大规模知识融合 知识关联语义化 知识图谱 机器可理解 发展历史专家系统 知识库+推理机=智能知识工程 框架、脚本 Web2.0 群体智慧语义 Web RDF、OWL 人工智能诞生 符号主义连接主义行为主义 Web1.0 人工构建大规模知识库HTML、XML 本体概念 知识图谱 Web3.0 大规模知识获取 知识图谱工业应用 1950-19701970-19901990-20002000-20062006至今

2、 1950-1970:人工智能诞生1956年达特茅斯会议,提出“人工智能(Artificial Intelligence,AI )”概念。 三大流派: 符号主义(Symbolism) 连接主义(Connectionism) 行为主义 (Actionism) “人工智能来了,再过十年机器就要超越人类了!” 计算机有限的内存和处理速度 计算难度指数级增长 常识与推理(莫拉维克悖论)70年代后期 人工智能发展遭遇瓶颈,出现了第一次低谷。 莫拉维克悖论: 实现人类独有的高阶智慧只需要非常少的计算能力,但是实现无意识的技能和感知 却需要极大的运算能力。-困难的问题易解,简单的问题难解 “要让电脑如成人般

3、地下棋是相对容易的,但是要让电脑有如一岁小孩般 的感知和行动能力却是相当困难,甚至是不可能的。”Hans Moravik 1970-1990:专家系统人工智能开始转向建立基于知识的系统,通用领域-限定领域通过知识库+推理机实现智能。 综合数据库知识库 解释器推理机 知识获取Why、How信息专业知识用户知识工程师人机交互界面 专家系统模型: lh6 1990-2000: 网Web1.0 Web 1.0:文档互联 用户 网站 静态单向行为 1989年,英国科学家Tim Berners-Lee发明了网(World Wide Web)。 1994年, 网联盟(World Wide Web Conso

4、rtium,W3C)创建,是Web技术领域最具权威和影响力的国际中立性技术标准机构。 发布互联网内容标记语言: HTML(1997), XML(1998) 为互联网环境下大规模知识表示和共享奠定了基础。 谷歌创始人: Lawrence Edward Page(左) 1998年,PageRank搜索引擎技术被发明, 谷歌(Google)成立。 Sergey Brin(右) 幻灯片 8lh6知网算吗liang hong, 2019/5/4 2000-2006:群体智慧Web2.0Web2.0:数据互联 强调用户生成内容,易用性,参与文化和终端用户互操作性。 互联网知识: 封闭 开放互联 集中 分布

5、 专家内部定义 群体智慧 2006至今:知识图谱Web3.0:知识互联 构建人与机器都可理解的 网,使网络更加智能化。 知识图谱 强大的语义处理能力使构建“知识之网”成为可能 Web3.0 强大的开放互联能力 知识图谱2012年5月17日,Google首次提出知识图谱概念,其目的在于推动传统的基于关键词的搜索向基于语义的搜索升级,改善用户的搜索质量和体验 构建知识图谱的本质,就是让机器具备认知能力,理解这个世界。 知识图谱与人工智能人工智能需要机器智能,特别是认知智能,认知智能依赖知识图谱 计算智能 快速计算和记忆存储能力 规则明确 特定领域感知智能 视觉、听觉、触觉等感知能力 语音 图像 视

6、频认知智能 能理解会思考 理解 推理 解释 认知智能的理解、推理、解释任务不仅需要数据,更需要知识背景 知识图谱是知识的图谱表示,这种知识表示方式适合理解、推理、解释 知识图谱是实现认知智能的关键技术,是实现机器认知智能的使能器 知识图谱的概念认知智能 基于知识图谱的认知智能 推理理解解释 知识图谱中知识的图谱表示方式,体现了: 知识图谱以结构化三元组的形式存储现实世界中的实体以及实体之间的关系,表示为G=(E, R,S),其中E =(e1,e2,e|E|)表示实体集合;R =(r1,r2,r|R|)表示关系结合;S包含于E R E表示知识图谱中三元组的集合。 知识图谱:在数据库系统上利用图谱

7、这种抽象载体表示知识这种认知内容。 实体: 具有可区别性且独立存在的某种事物,如: 姚明、叶莉 类别:主要指集合、类别、对象类型、事物的种类,如: 姚明、叶莉的类型均为“人” 属性、属性值:实体具有的性质及其取值,如: 姚明具有“身高”这一属性,这一属性的属性值为“2.26” 关系:不同实体之间的某种联系,如: 姚明与叶莉之间的关系为“配偶” 知识图谱包含的知识维度:实体、类别、属性、关系等多颗粒度、多层次语义单元的关联 规则知识:建立事实之间的联系事实知识:建立概念之间的联系概念知识:知识的最基本内容 知识图谱 = 知识定义(Schema)+ 知识实例(Instance) 语义网络、语义网、

8、链接数据与知识图谱 p 语义网络(Semantic Network) 相互连接的结点和边来表示知识:结点表示对象、概念,边表示结点之间的关系 语义网络优点:容易理解和展示;相关概念容易聚类 语义网络缺点: 结点和边的值没有标准,完全是由用户自己定义 多源数据融合比较困难,因为没有标准 无法区分概念节点和对象节点 无法对节点和边的标签进行定义虽然由于缺少标准,语义网络比较难应用于实践, 但其表达形式简单直白,符合自然。 从知识表示的角度看,知识图谱本质上是一种大型的语义网络 语义网络、语义网、链接数据与知识图谱 p 语义网(Semantic Web)和链接数据(Linked Data) 语义网目

9、的是使得网络上的数据变得机器可读而提出的一个通用框架 “Semantic”就是用更丰富的方式来表达数据背后的含义,让机器能够理解数据。 链接数据是用于定义如何利用语义网技术在网上发布数据,其强调在不同的数据集间创建链接 使用 RDF 和SPARQL(RDF查询语言)技术语义网和链接数据是为了链接数据,使机器可读 从技术实现的角度看,知识图谱是对链接数据的进一步包装 知识图谱的数据模型知识图谱的数据模型:RDFRDF是资源描述框架(Resource Description Framework)的简称,是W3C提倡的一个数据模型,用于描述资源,属性和值之间的关系。 常以三元组的形式表示。 资源:可

10、以用URI表示的一切事物及概念 属性:描述资源的一个特定的方面或特征 值:描述属性的字符串 RDF(以James Watt为例): 值 资源 属性 知识图谱的数据模型RDF/XML是用XML的格式来表示RDF数据。XML的技术比较成熟,有许多现成的工具来存储和解 析XML,因此具有良好的可解释性。然而,XML的格式太冗长,不便于阅读。 p 用XML表示的RDF示例: 知识图谱的数据模型N-Triples,即用多个三元组来表示RDF数据集,是最直观的表示方法。在文件中,每一行表示一个三 元组,方便机器解析和处理。 p 用N-Triples表示的RDF示例: Turtle, 是一种RDF序列化方式

11、,比RDF/XML紧凑,且可读性比N-Triples好。 p 用Turtle表示的RDF示例: p RDFs在RDF数据层的基础上引 入模式层,定义类、属性、关系、属性的定义域与值域来描述与约束资源,构建最基本的类层次体系和属性体系,支持简单的上下位推理。 基于RDFs的推理: 知识图谱的数据模型p OWL进一步扩展RDFS词汇, 可声明类间互斥关系、属性的传递性等复杂 语义,支持基于本体 的自动推理,提供了 一组合适web传播的描 述逻辑的语法,对机 器友好,但认知复杂 性限制了工程应用 知识图谱的数据模型知识图谱的数据模型:属性图 基本结构:五元组(顶点,边,顶点与边的映射,顶点或边的标签

12、,顶点或边的属性) 能处理较为复杂的知识结构 有对于顶点和边上属性的内置支持,不需改变图的整体结构 属性图查询Cypher 最初是图数据库 Neo4j 中实现的属性图数据查询语言。 Cypher 也是一种声明式语言 p 查询 James Watt 的出生地名及其位置。p 查询属于第一次工业革命时期1750年以后出 生的代表人物的姓名、国家和出生日期。 MATCH (:Person name: James Watt)-:born_on-(x:Place)RETURN , x.location MATCH (x:Person)-:belong_to-(y:Period) WHERE x

13、.birthDate =date(“1750-01-01”) AND = “the first industrial revolution” RETURN ,x.nation,x.birthDx.locationGlosgowSx.nationx.birthDateRebort FultonAmerica1765-11-14George StephensonBritain1781-06-092020/3/1827知识图谱的逻辑架构 模式层在数据层之上,是知识图谱的核心,存储经过提炼的知识 SpouseManagePersonP

14、ersonPersonCompanySpouseManage比尔盖茨梅琳达盖茨比尔盖茨微软模式层 数据层 数据层存储真实的数据,实体和实体之间的关系形成知识图谱。 知识图谱存储管理基于关系的知识图谱存储原生知识图谱存储知识图谱的存储管理架构 知识图谱存储管理架构 知识问答语义搜索知识图谱查询应用GCOREPGQL知识图谱检索CypherGremlinSPARAQL 知识图谱数据模型 RDF图模型属性图模型 大型分布式系统与框架 知识图谱存储管理架构图 知识图谱构建技术架构知识获取 知识表示 知识融合 实体识别知识图谱抽取 关系抽取 非结构化数据 半结构化数据 实体消歧 实例层 模式层 冲突消解

15、 实体对齐 框架匹配 结构化数据 知识图谱的分类知识图谱的分类:通用知识图谱与行业知识图谱 通用知识图谱面向开放领域的通用知识图谱,如: 行业知识图谱 面向特定领域的行业知识图谱,如: 常识类、百科类 金融、电信、教育等 数据来源: 数据来源: 互联网、知识教程等 行业内部数据 主要应用于知识获取的场景,要求知识全面,如主要应用于行业智能商业和智能服务,要求精准如: 搜索引擎,知识问答 投资决策、智能客服等 典型代表: Google KG典型代表: 各行业根据自己数据模式构建 通用知识图谱项目 面向语言知识图谱 WordNet:155,327个单词,同义词集117,597个,同义词集之间有22

16、种关系链接 事实性知识图谱 OpenCyc:23.9万个实体,1.5万个关系属性,209.3万个事实三元组 Freebase:4000多万实体,上万个属性关系,24多亿个事实三元组 DBpedia:400多万实体,48,293种属性关系,10亿个事实三元组 YAGO2:960万实体,超过100个属性关系,1亿多个事实三元组 互动百科:800万词条,5万个分类 行业知识图谱项目 领域知识图谱 Kinships:人物亲属关系,104个实体, 26种关系,10,800个三元组 UMLS:医疗领域,医学概念间关系,135个实体,49种关系,6,800个三元组 机器自动构建知识图谱 NELL:519万实

17、体,306种关系, 5亿候选三元组 Knowledge Vault:4500万实体,4469种关系,2.7亿三元组 Knowledge Vaulte应用:Google智能问答 Part 2 知识图谱的关键技术 知识获取知识获取 p 知识获取的目标是从海量的文本数据中通过信息抽取的方式获取知识,其方法根据所处理的数据源的不同而不同。分为: 结构化数据 半结构化数据 非结构化文本数据p 文本信息抽取:从非结构化文本数据中进行知识抽取 实体识别 实体消歧 关系抽取 抽取 知识获取知识获取之实体识别:从文本中识别出实体的命名性指称项,并标明其类别 三大类:实体类、时间类、数字类 七小类:人名、机构名、

18、地名、时间、日期、货币和百分比如:今年五月,姚明要参加博鳌论坛。 (时间:今年五月 实体:姚明 机构:博鳌论坛) p 实体识别任务的产生: -命名实体形式多变:如姚明、小巨人、姚主席、明王都是指同一个人 -命名实体的语言环境复杂:如彩霞在某些条件下是人名,在另外的条件下可能是自然现象 p 命名实体识别的方法: -基于规则的实体识别方法 -基于机器学习的实体识别方法 知识获取知识获取之实体识别: p 命名实体识别的方法: 基于规则的实体识别方法基于命名实体词典的方法:采用字符串完全匹配或部分匹配的方式,从文本中找出与词典最相似的短语完成实体识别 例:中文人名的识别规则示例:,例如:姚明 中文地名

19、的识别规则示例:,例如:北京市 优点:规则简单 缺点:需要构建词典和规则;性能受词典规模和质量的影响 知识获取知识获取之实体识别: p 命名实体识别的方法: 基于机器学习的实体识别方法利用预先标注好的语料训练模型,使模型学习到某个字或词作为命名实体组成部分的概率,进而计算一个候选字段作为命名实体的概率值。若大于某一阈值,则识别为命名实体。 分为:基于特征的方法、基于神经网络的方法 知识获取之实体消歧: p 任务的产生: 指称多样性:同一实体在文本中会有不同的指称,如:姚明爸爸想念小孙女,笑言等长大让她进上海女篮( “小孙女”和“她”都指“姚沁蕾”) 指称的歧义性:相同的实体指称在不同的上下文中

20、可以指不同的实体知识获取之实体消歧: p 实体消歧方法: 基于聚类的实体消歧:将指向同一个目标的实体的指称项聚到同一类别下 目标实体列表E没有给定 对每个实体指称项o,抽取其特征(上下文的词,实体,概念)组成特征向量 计算指称之间的相似度 采用某种聚类方法对指称项聚类 基于实体链接的消歧:一个命名实体的文本指称项链接到知识库中相应实体 目标实体列表E给定 将实体指称项与其在实体表中对应实体进行链接实现消歧知识获取之关系抽取:自动识别实体之间具有的某种语义关系 根据抽取文本的范围不同,分为 句子级关系抽取 语料(篇级)关系抽取p 关系抽取任务的难点: 同一个关系可以具有多种不同的词汇表示方式 同

21、一个短语或词可能表达不同的关系 同一对实体之间可能存在不止一种关系 需要结合上下文 关系有时在文本中找不到任何明确表示,隐含在文本中 关系抽取依赖词法、句法分析等基本的自然语言处理工具,但该工具性能并不高知识获取之关系抽取 p 关系抽取的方法 基于模板的方法X 配偶 Y朱丽倩刘德华 配偶夫妻关系(X ,Y)X 妻子 Y黄晓明妻子 杨颖X 老婆 Y叶莉陶虹姚明 老婆徐峥 老婆基于触发词/字符串 基于依存句法 基于机器学习的方法知识获取之 抽取 p :发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或多个角色参与的一个或多个动作组成的事情或者状态的改变。 p 要素: 发生的时间、地点、

22、参与 的角色、与之相关的动作或状态的改变 p 抽取:从描述 的文本中抽取出用户感兴趣的 信息并以结构化的形式呈现出来 p 相关概念: 指称、 触发词、 元素、元素角色、 类别 知识获取之 抽取 抽取任务的基础工作: 识别 触发词及 类型 抽取 元素(Event Argument) 同时判断其角色(Argument Role) 抽出描述 的词组或句子 知识融合知识融合:通过对多个相关知识图谱的对齐、关联和合并,使其称为一个有机的整体,以提供 更全面知识 p 知识融合的主要技术挑战为两点: 数据质量的挑战: 如命名模糊,数据输入错误、数据丢失、数据格式不一致、缩写等。 数据规模的挑战: 数据量大、数据种类多样性、多种关系、更多链接等。知识融合 知识融合方法分类 方法简介 特点 框架/本体 元素级匹配 基于字符串:前缀距离、后缀距离、编辑距离 基于语言学:利用元素之间的语义关联,如近义词、同根词, 利用元素的约束信息,如取值范围,常利用WordNet只利用元素的直接信息 匹配 结构级匹配 基于图:转化为发现最大公共子图的问题 利用不同元 基于分类体系:类别体系对框架至关重要,只匹配分类关系 素之间的概 基于统计分析的匹配:挖掘样本中的规律,对元素进行分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论