文献阅读(1):垂直知识图谱的构建与应用研究_第1页
文献阅读(1):垂直知识图谱的构建与应用研究_第2页
文献阅读(1):垂直知识图谱的构建与应用研究_第3页
文献阅读(1):垂直知识图谱的构建与应用研究_第4页
文献阅读(1):垂直知识图谱的构建与应用研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1):垂直知识图谱的构建与应研究章录基本信息题:垂直知识图谱的构建与应研究作者:阮彤 王梦婕 王昊奋 胡芳槐关键词:知识获取、知识融合、语义搜索、辅助开、关系发现DOI:10.13266/j.issn.2095-5472.2016.027引:阮彤,王梦婕,王昊奋,等垂直知识图谱的构建与应研究J/OL.知识管理论坛,2016,1(3): 226-234摘要:的/意义:提出构建法:数据驱动的增量式知识图谱;构建垂直知识图谱法/过程:知识图谱的形式化定义提出构建法研究构建的细节与难点结果/结论:本法具有可性名词记录:名词开放链接数据户成内容信息框Relational Database to RDFW

2、rapperD2RRDF封装器远程监督Distant SupervisionResource Definition Framework资源描述框架、引本篇是我涉及知识图谱领域的第篇献,在原来之前对知识图谱没有任何了解。阅读之后发现本篇确实适合初学者。先告诉我们什么是知识图谱:种描述真实世界客观存在的实体、概念及它们之间的关联关系的语义络。(歌提出来的)知识图谱的分类:通知识图谱:不向特定领域,强调知识的度垂直知识图谱(业知识图谱),向特定领域,基于业数据构建,强调知识的深度两类知识图谱的构建现状:通知识图谱:相对成熟,如歌知识图谱、百度“ 知”、搜狗“ 知” 等商知识图谱垂直知识图谱:构建,缺

3、乏统的构建法第章引部分思维导图如下:、知识图谱的形式化定义知识图谱G = 模式图Gs + 数据图Gd + 者关系R,即G=。模式图Gs = Ns 类结点集合,即知识图谱中的概念Es 属性边集合 ,即对应概念之间的语义关系数据图Gd = Nd 结点集包含实例结点和字符串结点Ed 边连接两个结点表条三元组事实关系Rrdf:type,表数据图中的实例与所属概念之间的关系知识图谱的定义例如下图所:另外,知识图谱的技术优势:易于修改数据模式,具有良好的动态可扩充性,可进增量式的数据模式设计语义互操作特性和“链接数据”原则使得不同来源的数据集成更为便可逐渐要求内容供应商提供持可于开发语义检索、动问答等应第

4、章形式化定义部分思维导图如下:三、相关作通知识图谱:底向上早期通过构建,此后基于维基百科构建,近年来基于开放域知识抽取构建。使增量迭代的法从量的页数据中学习质量三元组来构建知识图谱。垂直知识图谱:顶向下+底向上需要预先构建模式图,本法:数据驱动的增量式知识图谱,将百科知识作为类重要的知识源,同时将增量迭代法于本类型的知识抽取。模式图:顶向下数据图:底向上法的好处:保障数据抽取的质量本章思维导图如下:四、垂直知识图谱的构建总体流程顶向下和底向上相结合的式。顶向下:通过本体编辑器或构建的法预先构建垂直知识图谱的模式图,进构建数据图;底向上:在构建数据图时,利多种抽取技术获得知识源中的实体、属性和关

5、系,并将这些置信度的抽取结果合并到知识图谱中。知识来源的分类:结构化知识:量的链接开放数据和存放在关系数据库中的领域知识半结构化知识:维基百科、百度百科等百科站提供的信息框(Infobox)和不同领域下的垂直站点包含的量表格和列表数据结构化知识:络数据中量的纯本内容,知识覆盖度最,但抽取难度最步骤:知识来源知识获取知识融合知识图谱构建,再进不断地增量迭代来丰富所构建的知识图谱。(这构建过程称为:数据驱动的增量式知识图谱构建)。流程如下图所:4.2 知识获取知识获取阶段需要从知识源中获取实体、同义词关系、“ 属性-值” 关系以构建数据图Gd,同时需要获取实体类型以构建关系R。本知识获取的法:多策

6、略学习。多策略学习是指利不同知识源之间的冗余信息,使较易抽取的信息来辅助抽取那些不易抽取的信息。结构化知识、半结构化知识:易抽取的信息结构化知识:难抽取的信息抽取法如下图所:D2R,封装器在这插图描述D2R:Relational Database to RDF,对于结构化知识中的关系数据库数据,可以通过D2R映射的法将其转化成知识图谱中的链接数据。封装器(Wrapper):向某具有特殊结构的数据源的信息抽取法。远程监督(Distant Supervision):远程监督是种基于假设“ 如果两个实体存在某种关系,那么任何包含这对实体的句都很有可能表达相同的关系”、利已知的实体关系对动标注本的法。

7、知识融合知识获取阶段得到的仅仅是个个孤的抽取图谱,我们需要将这些抽取结果集成到知识图谱中,以进知识融合。但是有个问题需要解决:数据冲突。包括:个短语对应多个实体;实体属性名不致;实体属性缺失;实体属性值不致;实体属性值对多映射等。知识融合阶段主要对数据进实体匹配和模式对齐。实体匹配旨在发现具有不同标识但代表真实世界中同对象的那些实体,并将这些实体合并为个具有全局唯标识的实体对象添加到知识图谱中。前采的法:聚类,关键在于定义合适的相似度度量。般要参考实体的以下特征:字符相似,具有相同描述的实体可能代表同实体;属性相似,具有相同属性-值关系的实体可能代表同对象;结构相似,具有相同的相邻实体可能指向

8、同个对象。模式对齐主要包括实体属性和属性值的整合。实体属性的整合可以考虑的特征有:属性的同义词、属性两端的实体类型、属性在抽取过程中对应的模式等。当融合来不同知识源的数据出现数据冲突时,还可以考虑知识源的可靠性以及不同信息在各知识源中出现的频度等因素。本对搜索引擎提供的知识卡进合并,提供了种在线知识融合的思路:该案先提出种基于概率的实体评分算法找与知识卡最相关的维基百科词条,由此合并代表同实体的不同知识卡。然后,将维基百科的信息框与DBpedia 本体的映射关系作为训练数据,设计四维特征训练出属性对齐模型。最后使相似度阈值对属性值进去重与合并,形成值簇。(这我不是太理解QAQ)本章思维导图如下

9、:五、垂直知识图谱的例研究中医药知识图谱对于中医药知识图谱数据图的构建,本分别使D2R 映射法从曙光医院的关系数据库中抽取药品信息;构造MicrosoftOffice 软件的封装器,从“98 版证名分类标准” 等国家标准以及曙光医院以Microsoft Word 格式存储的临床知识库中抽取疾病、药等信息;利模式和远程监督结合的法迭代地学习百科和中医药站下的纯本知识。由于从多个数据源中抽取数据,不同的数据源之间会存在重复或冲突。本对数据源的可信度进评分,基于数据来源以及数据在不同来源中出现的次数,对数据项进排序,以解决数据冲突问题。途:进中医药相关的然语问答,中医药辅助开海洋知识图谱海洋知识图谱主要包括鱼类知识、海洋经济知识和海岛知识。海洋经济知识由领域专家收集并存储在MicrosoftWord 档中,本使Microsoft Word 封装器将其转化映射成海洋知识图。海岛知识源于海洋数字图书馆提供的关系数据库,使D2R 映射具D2RQ19完成数据转化,形成海岛知识图。为了构建鱼类知识图的模式图,本利HTML 封装器从fishdb 和FishBase 中抽取概念和上下位关系,从百科页中抽取概念的属性,并利多策略学习法从以上数据源中迭代地抽取同义词关系。5.3企业知识图谱先,领域专家构建业知识图谱模式图,包含物、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论