基于图的知识图谱数据管理_第1页
基于图的知识图谱数据管理_第2页
基于图的知识图谱数据管理_第3页
基于图的知识图谱数据管理_第4页
基于图的知识图谱数据管理_第5页
已阅读5页,还剩130页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于图的知识图谱数据管理报告人:邹磊zoulei@112 1知识图谱概述 2从不同角度和学科研究 3从数据管理层面的讨论 4一些开放性问题 3 1知识图谱概述 2从不同角度和学科研究 3从数据管理层面的讨论 4一些开放性问题 2012年5月16日,Google发布“知识图谱”的新一代“智能”搜索功能。5本质上是基于图的语义网络,表示实体和实体之间的关系!6•RDF是知识图谱数据的事实标准•RDF是由W3C组织提出的一种描述资源概念模型的语言•RDF是语义网的一个基石•语义网的目标是网络上的资源是“机器可理解”(Machineunderstandable)7 “知立方” “知立方”工业应用8工业应用 工业应用 BioModels,Biosamples,ChEMBL,Ensembl,Atlas,ReactomeandUniProtRDF数据集类别统计9传统的HTML只是考虑网页的显示,例如字体、段落格式等;而不是网页中的内容的语义。语义网考虑的是内容的语义。Google结构化数据测试工具FacebookGraphSearc产品发布会---MarkZuckerberg“MyfriendswholiveinCanada”“PhotosofmyfriendswholiveinCanada”WilliamTunstall-Pedoe:TrueKnowledge:Open-DomainQuestionAnsweringusingStructuredKnowledgeandInference.AI•RDF中任何实体都被称之为资•实体的属性需要被定义•实体间关系需要被定义•不同数据集直接互相链接构成海量的关联数据-一个集成的Web”数据库”xmlns:y=/wikiy:Washington_DC并且出生地是并且出生地是1718年构建的城市的人有哪些?”}RDF数据库“1809-02-12"“1865-04-15"”“1718”“UnitedStates”“1776” 1知识图谱概述 2从不同角度和学科研究 3从数据管理层面的讨论 4一些开放性问题 数据库自然语言处理知识工程机器学习知识库构建[Mendesetal.111亿三元组1.8亿三元组25.3亿三元组知识表示代表模型:TransE[Bordes•对每个事实(Subject,Predicate,Object),将其中的predicate作为从subject到object的翻译操作•每个Subject/Predicate•优化目标:Beijing−China≈Ottawa−Canada=Capital语义解析SemanticParsing[Zettlemoyeretal.,语义解析就是将自然语言映射成机器可以表达的形式。E.g.,“WhichstatesbordersNewMexico?”Lambda表达式[AlonzoChurch,1940]ax.state(x)∧borders(x,new_mexico)“Simplytyped-calculuscanexpressvariesdatabasequerylanguagessuchasrelationalalgebra,fixpointlogicandthecomplexobjectalgebra." 1知识图谱概述 2从不同角度和学科研究 3从数据管理层面的讨论 4一些开放性问题 应用系统数据应用系统数据SELECT?nameWHERESELECT?nameWHERE{?m<hasName>?name.?m<bornOnDate>?bd.}“1809-02-12"“1865-04-15"”“1718”“UnitedStates”“1776”TTasT4“1809-02-12"“1865-04-15"”“1718”“UnitedStates”“1776”SELECT?nameWHERE{?m<hasName>?name.?m<bornOnDate>?bd.SQLSELECTT2.objectSQLWHERET1.property="bornIn"ANDT2.property="hasName"ANDT3.property="bornOnDate"ANDT1.subject=T2.subjectANDT2.subject=T3.subjectANDT1.object=T4.subjectANDT4.propety=“foundingYear“ANDT4.object="1718"ANDT3.objectLIKE'%1976%'30三种典型基于关系数据库的优化策略基本思路:划分三元组表、生成更加简单的查询。•M.T.Özsu."ASurveyofRDFDataManagementSystems",Front.Comp.Sci.,2016.•LeiZou,M.T.Özsu.“Graph-basedRDFDataManagement”,DataScienceandEngineering,2(1):56-70(2017)我们的方法---gStore[Zouetal.,VLDB11;VLDBJ14]==子图匹配研究主题研究主题建模RDF数据•统一的结构和内容编码方法•一种高度平衡树VS-tree索引•基于索引的多级过滤机制代码:除了SPARQL语法解析器外均为独立开发的,目前有14万行C++,完成自主知识产权;共计6人年,目前是版本v0.3.0.包括全部的系统代码;详细的用户手册;与目前最好的开源和工业系统在多个Benchmark数据集上的对比测试报告;系统使用演示视频。接口:C++,Java,python,PHP等API接口;接收实验环境,,,年开始的项目;目数据集规模45,212,7455,077,2479组学和法国国家科学研究中心CNRS)•I3S实验室CNRS(法国国家科学研究中心)输出查询结果了”性较差”(我们的系统)“gStore性能要好于其他对比系统”(秒)(秒)1Q4542142632163215311425查询三元组数返回列数C1,C28,104615-7986699S2-S7OpenKG查询终端主页:(数据库名)(查询样例)(结果格式)(开始查询)表示此查询终端所对应的数据集是旅游景点在查询样例中选择相应的选项,例如q1,•目前主页上共包括9个RDF数据集查询终端,分别是旅游信息、音乐、紧急事故、中文地理信息以及五个乳腺癌相关的数据集。•我们将为OpenKG长期维护并不断改善这些SPARQLEndpoint,有任何问题请及时向我们提出:bookug@JavaAPI样例程序:JavaAPI样例程序:initializetheGStoreserver'sIPaddressandport.forsparqlendpoint,URLcanalsobeusedhere,like:80GstoreConnectorgc=newGstorbuildanewdatabasebyaRDFfile.notethattherelativepathisrelatedtogseexecuteSPARQLqueryonthisdatabase.unloadthisdatabase.also,youcanloadsomeexistdatabasedirectlyandthenquery.gStore-D:分布式系统[Peng;Zou,etal.,VLDBJ主要技术手段:•利用PartialEvaluationandAssembly方案来解决分布式SPARQL匹配;•分布式环境下的优化归并策略主要技术问题:如何找到“跨界匹配”背景:部分执行(PartialEvaluation)[Jones,1996;Fanetal.,f(x)→f(s,d)→f"(fs),d)→最终结果已知输入未知输入部分解哪些是“已知输入”和“部分解”?部分解合并•用户没有计算机学科背景,无法掌握SPARQL等计算机查询语言•RDF知识图谱是“弱模式”数据,不同于关系数据是基于模式的数据。•提供方便的用户访问接口•数据库和自然语言处理的交叉研究•学术界和工业界共同关心的问题OrenEtzioni,AAAIFellow更加大胆地研究自然语言的搜索和问答”语义结构化表达方式语义结构化表达方式─→•基于自然语言的语法规则推导的方法,e.g.,CDG[ZettlemoyerandCollins,2005]语义解析语义解析学习器!训练得到!待语义解析的语句语义结构化表达─→─→语义待语义解析的语句语义结构化表达─→─→解析器解析器•将自然语言问答转换为子图匹配问题•基于子图匹配结果的消歧•基于结构的查询图生成策略 1知识图谱概述 2从不同角度和学科研究 3从数据管理层面的讨论 4一些开放性问题 1.WenfeiFan,YinghuiWu,JingboXu,FunctionalDependenciesforGraphs,SIGMOD,2016.2.BinbinHe,LeiZou,DongyanZhao:UsingConditionalFunctionalDependencytoDiscoverAbnormalDatainRDFGraphs.SWIM2014:43:1-43:7百度2014年7月的“吉林大学”词条目前的“吉林大学”词条回顾一下这个例子!“PhotosofmyfriendswholiveinCanada”每秒中有多少照片和用户关系会被插入和删除?在结构近似的基础上,在结构近似的基础上,提出“语义结构近似”我们的方法WeiguoWeiguoZheng(指导学生),LeiZou,etal.,SemanticSPARQLSimilaritySearchOverRDFKnowledgeGraphs,inVLDB2016.“机器的归机器,人的归人!ℽXiaoyongDu:InteractivePredicateSuggestionfor96-109表示学习(机器学习)+数据质量(数据管理)主语谓词宾语《美国队长3》导演乔·卢素《重庆森林》导演王家卫《十面埋伏》歌手张艺谋语义解析(自然语言处理)+查询执行(数据管理)这附近最近的邮 局在哪儿。?语义解析(自然语言处理)+查询执行(数据管理)这附近最近的邮 局在哪儿。? 1知识图谱概述 2从不同角度和学科研究 3从数据管理层面的讨论 4一些开放性问题 5系统应用 •方正电子知识出版系统•方正电子知识出版系统{?s<http://www.founder.106.attr:name>{?s<http://www.founder.106.link:12855>?o.//思想学派受影响于}{?s<http://www.founder.106.link:12855>?o.//哲学家受影响于}?o<http://www.founder.106.attr:name>"黑格尔".}//删除所有与黑格尔有关的三元组{{?s<http://www.founder.106.attr:name>"黑格尔".}{?o<http://www.founder.106.attr:name>"黑格尔".}}•中科院微生物所-全球微生物中心•中科院微生物所-全球微生物中心细菌陆生菌放线菌门放线菌纲微球菌目微球菌科微球菌属</ontology/gcmAnnota</data/gcmAnnotation1/taxSELECT?taxonId?name{}?taxonIdannotation:parentTaxidtax?nameIdannotation:taxi?nameIdannotation:nameclass‘scienti.的菌株”#ofTriples#ofEntities3,594,457,749414,953,654••中科院微生物所-全球微生物中心#ofTriples#ofEntities3,594,457,749414,953,654</ontology/gcmAnnota</data/gcmAnnotation1/taxSELECT(COUNT(?geneid)AS{{?taxonidannotation:ancestorTaxidtaxonom?geneidaannotati?geneidannotation:x-ta{?geneidaanno?geneidannotation:x-taxontaxonomy:1270.}}“和藤黄微球菌物种或者下面的菌株相关的基因的个数”••中科院微生物所-全球微生物中心#ofTriples#ofEntities3,594,457,749414,953,654“查询藤黄微球菌下面的菌株相关的基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论