大规模知识图谱数据存储_第1页
大规模知识图谱数据存储_第2页
大规模知识图谱数据存储_第3页
大规模知识图谱数据存储_第4页
大规模知识图谱数据存储_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2语义大数据背景下的知识图谱技术数据存储的发展历史知识图谱数据存储知识图谱时态信息存储上半场人民的名义知识图谱大数据时代大数据时代,强调的是对大规模数据综合处理的能力。从数据库到大数据(1)DBBD大数据的出现,必将颠覆传统的数据管理方式。在数据来 源、数据处理方式和数据思维等方面都会对其带来革命性 的变化。从数据库(DB)到大数据(BD),不只是一个简单的技术演进,两者有着本质上的差别。来源:开源技术社区 Nock(洛神)从数据库到大数据(2)池塘捕鱼大海捕鱼从数据库到大数据(2)数据规模MBGB/TB/PB池塘捕鱼大海捕鱼从数据库到大数据(2)数据类型数据种类单一(少数几种)以结构化数据为

2、主数据种类繁多包含着结构化、半结构化 以及非结构化的数据半结构化和非结构化数据 所占份额越来越大池塘捕鱼大海捕鱼从数据库到大数据(2)数据模式先有模式然后产生数据难以预先确定模式模式在数据出现之后才能确定 且模式随着数据量的增长处于不 断的演变之中池塘捕鱼大海捕鱼从数据库到大数据(2)处理对象数据仅作为处理对象数据能作为一种资源来辅助 解决其他诸多领域的问题池塘捕鱼大海捕鱼从数据库到大数据(2)处理方法One Size Fits AllNo Size Fits All池塘捕鱼大海捕鱼从数据库到大数据(3)以计算为中心转变到以数据处理为中心。 数据思维大数据应用挑战1: 多源异构数据难以融合涉密

3、部门企业内部数据顾军.生于1963年.江苏南通人.中国核工业公司内部数据、新闻网站、论坛帖子、微博 多源异构数据难以融合信息聚合、数据融合需求迫切!大数据应用挑战2:数据模式动态变迁困难当前数据模式动态变迁困难,当客户新需求、业务新认知时程序员需痛苦的修改数据结构及业务逻辑,带来扩展性差、对客户响应慢、维护成本高等不良情况。我们需要:可自由扩展的数据模式!响应速度慢人员投入大数据结构难改动扩展性差维护成本高大数据应用挑战3:非结构化数据计算机难以理解计算机无法理解非结构化数据的语义企业迫切需要将非结构化数据结构化Web of Document大数据应用挑战4:数据使用专业程度过高行业智能问答大

4、幅降低数据使用门槛Knowledge Graph: The key for Smart DataThings, not strings!什么是知识图谱?知识图谱旨在描述真实世界中存在的各种实体或概念,以 及它们之间的关联关系。其中:每个实体或概念用一个全局唯一确定的ID来标识,称为标识符;每个属性值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。现实世界中有多种类型的事物事物之间有多种类型的链接知识图谱与本体知识图谱并不是本体的替代品,它是在本体的基础上进行了丰富和扩 充,这种扩充主要体现在实体(Entity)层面。本体中突出和强调的是概念以及概念之间的关联关系,而知识图

5、谱则 是在本体的基础上,增加了更加丰富的关于实体的信息。本体描述了知识图谱的数据模式(schema),即为知识图谱构建数 据模式相当于为其建立本体。知识图谱助力人工智能语义搜索私人助理聊天机器人穿戴设备GoogleBing百度SiriGoogle Now微软小娜百度度秘微软小冰小黄鸡公子小白Apple WatchTicwatch计算知识引擎临床决策支持出行助手IBM Watson Health出门问问百度知识图谱业务需求技术方案数据挑战4. 数据使用专 业程度过高3. 数据模式动 态变迁困难语义理解数据关联探索业务动态扩展智能数据检索1. 非结构化数据 计算机难以理解2. 多源异构数 据难以融

6、合知识图谱助力商业智能数据结构化数据融合自由扩展数据模式行业智能问答知识图谱的适用场景数 据 场 景知识图谱为数据赋能图结构特性数据语义特性消 费 场 景图数据探索路径分析关联分析图谱可视化图结构消费场景自然语言检索智能BI语义标注知识推理数据语义消费场景知识图谱适用于处理:关系复杂的数据、类型繁多的数据、结构多变的数据。 作为数据融合与链接的纽带,整合结构化、半结构化和非结构化数据多源异构数据需要融合统一使用有半结构或非结构化数据需要结构化数据中存在一定数量不同类别的实体业务上更加关注数据中实体的关联,而不仅仅是数据本身知识图谱的不适用场景不适用数据场景存储通常的二进制数据日志数据流式数据需

7、借助其它工具存储和处理并与知识图谱进行数据链接不适用消费场景数据统计数据计算需要结合其它工具和方法使用TIPS知识图谱不是银弹!依据问题寻找方法。不要为了用知识图谱也用知识图谱!数据存储的发展历史伴随阿波罗登月计 划,商业数据库雏 形诞生。IBM的 IMS,Mainframe,以 及navigational数据 库技术浮现。埃德加弗兰克科 德,IBM公司研究 员,发表题为“大 型共享数据库的关 系模型”的论文, 被誉为“关系数据 库之父”IBM的校企联合计划 中,与加利佛尼亚 柏克莱分校Ingres数 据库研究项目携手 创建了RDMBS的原 型R系统因IBM战略主导分级 结构数据业务并将 萌芽

8、期的关系型数 据结构业务剥离; 柏克莱Ingres数据库 研究项目联合 Oracle创建了第一 个商业RDBMS.IBM发布DB2(一套 自主开发的关系型 数据库管理系统)Terodata Corporation发布第 一个大规模并行处理数据库专用平台,或者说是“无共享架构”数据库。由于无需共 享数据库,文件架构 中不存在单一瓶颈而 降低系统运行速度的 特性,所以google称 之为sharding。PC机数据库应用浮 现,比如:Ashton- Tole公司的DBase lll,微软公司的 Access等等。19621979196819701974198319841985“数据库”诞生在IDS

9、横行的年代,(硅谷的所在地) 加利福尼亚州,数 据库一词最早流行 于系统研发公司的 技术备忘录中第一个商业RDBMS出现数据存储的发展历史)GemStone/S-首 个面向对象型商业 数据库浮现。这一 年,加利福尼亚柏 克莱分校Michael Stonebraker发表 了 关 于 shared nothing architecture(SN 的研究论文Kognitio公司发布第一款内存 数据库,相比传 统的基于磁盘的数 据库管理系统,内 存栅障以及高速缓 存冲刷指令为内存 数据库提供简单高 效的原子性,保证 了与中央处理器本 身原子操作的一致 性服务。关系型数据库管 理系统扩展添加 关系型多

10、维数据 模型。第一款商用多值数 据库KDB发布。 KDB封装了丰富的 命令实现运行控制、 内存操纵、寄存器 操纵、断点设置、 堆栈跟踪等许多功 能。这一年9月,两个斯坦福大学博 士生发明了谷歌搜 索引擎。瑞典MySQL AB 公司发布推广第 一款开源数据 库MySQL英国Endeca公 司发布第一款商 用数据库搜索产 品。该公司为波音公司、美国人口普查局、 福特、国际商用机器 公司、东芝等大型公 司和机构提供搜索服 务。这一年google公 司成立。1986199219881989199119941995199619981999第一款开源的文 件数据库发布, Berkeley DB 介于 关系

11、数据库与内存 数据库之间,使用 方式与内存数据库 类似,它提供的是 一系列直接访问数 据库的函数,而不 是像关系数据库那 样需要网络通讯、 SQL解析等步骤。第一款对象关系数 据库管理系统 Illustra发布,它支持对复杂数据类型的面向对象管理,同时又提供高效的 查询语言。随后跟 风的有notably, PostgreSQL等等。数据仓库行业 标准提出IBM研究员率先提出并 解释了数据仓库一词的 行业标准第一款多维数据库发布Arbor公司发布第 一款多维数据库 Essbase。多维数据 库允许用户以更为 口语化的英语来询 问问题,使用一种 在线分析处理(OLAP)的软件。数据存储的发展历史复

12、杂事件处理技 术解决方案提供 商Streambase发 布第一款time- series DBBMS第一款商用NOSQL图形数据库管理系统NEO4j发布,它是一个嵌入式的、基于磁盘的、具备 完全的事物特性的 Java持久化引擎, 但是它将结构化数 据存储在网络上而 不是在表中。Facebook基于静态 批处理的Hadoop智 商封装并发布了一个 开源项目数据仓 库Hive,可以将结构 化的数据文件映射为 一张数据库表,并提 供简单的sql查询功 能,可以将sql语句 转换为MapReduce 任务进行运行。Hbase发行,在 Hadoop之上提供了类 似于Bigtable的能力, 是一个适合于

13、非结构化 数据存储的数据库,采 用基于列的而不是基于 行的模式。基于资源描述框架(资源-属性-属性 值)的高性能图形 数据库管理系统或 称为三元组法数据 管理系统浮现20022007200320052007200820102011NoSQL数据库解决 方案提供商 MarkLogic发布第 一款XML数据库。第一款内容管理数 据库ModeShape 发布。(其前身是 “JBossDNA”) 实 现 了 JCR 2.0 (JSR-283)规范,用以提供在不同系 统上的内容存储。商用Hadoop首次发布在Hadoop生态系统 中,规模最大、知名 度最高的Cloudera公 司由来自Facebook、

14、 谷歌和雅虎的前工程 师杰夫店哈默巴切、 克里斯托弗比塞格利 亚、埃姆阿瓦达拉以 及现任CEO、甲骨文 前高管迈克奥尔森合 作发布了第一款商用 Hadoop20092009去SQL化浪潮由分布式文档存 储数据库 MongoDB引发 了一场去SQL化 的浪潮数据仓储一体 机推出Netezza公司将存 储、处理、数据库 和分析融入到一个 高性能数据仓库设 备中,资料仓储软 硬体整合数据仓库 数据库浮现。数据存储的发展历史内存数据库管理 系统演化为SAP HANA第一款事务存储 型开源数据库发 布FoundationDB 引发业内新兴热 词 “multi- modelDBMS” 的浮现。Hadoop

15、框架集成 新功能组件:+Apache Spark;+Apache Drill(schemaless SQL);+presto(federated multi-DBMSSQL)市场需求程序应用可以自行判断数据流的激活状态并快速集成数据进行实时分析处理,Translyticaldatabase与Transaction andanalytical database进入人们的关注视野,比如VoltDB(version5.6)201220142012201220132015201420152015Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式,而是像Dremel一样借鉴了MPP

16、并行数据库的思想另起炉灶,因此可做更多的查询优化,从而省掉不必要的shuffle、sort等开销。相比已有的Hive系统虽然也提供 了SQL语义,眼但由于Hive底层 执行使用的是MapReduce引擎, 仍然是一个批处理过程,难以满 足查询的交互性。大数据处理 作为云服务 体系接入到 企业应用值得注意的是UC柏克莱为加州 大学系统中历史最悠久的学校, Spark 是 UC Berkeley AMP lab 所 开 源 的 类 Hadoop MapReduce的通用并行框架, Spark, 拥 有 Hadoop MapReduce所具有的优点;但 不同于Hadoop MapReduce的 是J

17、ob中间输出结果可以保存在 内存中,从而不再需要读写 HDFS,因此Spark能更好地适 用于数据挖掘与机器学习等需要 迭代的MapReduce的算法。 Spark是在Scala语言中实现的, 它将Scala用作其应用程序框架。 与Hadoop不同,Spark和Scala 可以像操作本地集合对象一样轻 松地操作分布式数据集。亚马逊Redshift发布作为基于云数据仓库的 服务,亚马逊Redshift 发布Impala查询系统Impala是Cloudera公司主导开 发的新型查询系统,它提供SQL 语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。数据存储的发展历史网状数据库

18、层次数据库关系数据库面向对象数据库NoSQL大数据存储与处理框架网状数据库网状模型中以记录为数据的存储单位,记录包含若干数据 项;网状数据库的数据项可以是多值的和复合的数据。每 个记录有一个惟一地标识它的内部标识符,称为码( DatabaseKey,DBK),它在一个记录存入数据库时由 DBMS自动赋予。DBK可以看作记录的逻辑地址,可作记 录的替身,或用于寻找记录。第一个网状数据库管理系统也是第一个DBMS是美国通用 电气公司Bachman等人在1964年开发成功的IDS( IntegratedDataStore)。层次数据库层次数据库也是按记录来存取数据的;层次数据模型中最 基本的数据关系

19、是基本层次关系,它代表两个记录型之间 一对多的关系,也叫做父子关系(PCR);数据库中有且 仅有一个记录型无父亲,称为根节点;其他记录型有且仅 有一个双亲。最著名最典型的层次数据库系统是IBM公司的IMS(InformationManagementSystem)关系数据库关系数据模型是以集合论中的关系概念为基础发展起来的;关系模型中无论是实体还是实体间的联系均由单一的结构类型-关系来表示;在实际的关系数据库中的关系也称 表;一个关系数据库就是由若干个表组成。1974年,SQL语言被提出,功能包括查询、操纵、定义和 控制,是一个综合的、通用的关系数据库语言,同时又是 一种高度非过程化的语言,只要

20、求用户指出做什么而不需 要指出怎么做。典型代表:Oracle、MySQL、SQL Server面向对象数据库关系数据库的能很好地处理所谓的“表格型数据”,却对 越来越多复杂类型的数据无能为力。面向向对象的关系型 数据库系统对数据提供了理论上的完美性,但是并未带来 市场的反应。失败原因:企图用新型数据库系统来取代现有的数据库系 统,对许多已经运用数据库系统并积累了大量工作数据的 客户来说,无法承受新旧数据间的转换而带来的巨大工作 量及巨额开支。另外,其查询语言极其复杂。NoSQL(1)NoSQL,Not Only SQL。随着web2.0的快速发展,非关 系型、分布式数据存储得到了快速的发展,它

21、们不保证关 系数据的ACID特性。NoSQL概念在2009年被提了出来, 解决关系数据库的性能及扩展性瓶颈。优势:大数据量高性能高可用灵活的数据模型NoSQL(2)NoSQL四大家族键值(Key-Value)数据库列存储数据库文档型数据库图形(Graph)数据库NoSQL适用场景数据模型比较简单需要灵活性更强的IT系统对数据库性能要求较高不需要高度的数据一致性NoSQL键值存储数据库使用到一个哈希表,表中有一个特定的键和一个指针指向 特定的数据。相关数据库Redis、Tokyo Cabinet/Tyrant、Voldemort、 Berkeley DB典型应用内容缓存,适合混合工作负载并扩展大

22、的数据集数据模型一系列键值对优势快速查询劣势存储的数据缺少结构化NoSQL列存储数据库应对分布式存储的海量数据;键仍然存在,但是指向了多 个列,这些列是由列家族来安排的。相关数据库Cassandra, HBase, Riak典型应用分布式的文件系统数据模型以列簇式存储,将同一列数据存在一起优势查找速度快,可扩展性强,更容易进行分布式扩展劣势功能相对局限NoSQL文档型存储数据库以半结构化的文档作为数据模型,文档以特定的格式存储(如JSON);可看作是键值数据库的升级版,允许之间嵌 套键值。相关数据库MongoDB、CouchDB典型应用Web应用数据模型半结构化的文档优势数据结构要求不严格劣势

23、查询性能不高,而且缺乏统一的查询语法NoSQL图形数据库与其他行列以及刚性结构的SQL数据库不同,图形数据库 使用灵活的图形模型,能够扩展到多个服务器上。相关数据库Neo4J、InfoGrid、InfiniteGraph、AllegroGraph、 Cayley、Stardog、Titan、OrientDB、ArangoDB、 OpenLink Virtuoso、VertexDB 典型应用社交网络,推荐系统等。专注于构建关系图谱数据模型图结构优势利用图结构相关算法。劣势需要对整个图做计算才能得出结果,不容易做分布式的集 群方案。大数据存储与处理框架知识图谱数据存储知识图谱最适合处理关联密集型的

24、数据,因此首先需要需 要存放的是节点和边的数据。用图数据库。是否所有的事物都作为实体放入到知识图谱中去呢?视数据需求而定:对于不需要进行关系延伸计算的数据不放入图谱,这些 数据可使用适应的存储并与知识图谱中实体作链接; 对于结构固定、实体属性信息丰富的实体类,使用其它 数据库存储更能体现优势;知识图谱数据存储数据思维!在现实应用中,还有一些不适合放入知识图谱中的数 据(日志、事件,需要频繁统计、计算)怎么办?使用其它的存储和计算框架进行存储和处理,同时 实现与知识图谱中数据的链接。知识图谱数据存储No Size Fits All !知识图谱数据存储 使用图数据库TIPS图数据存储知识图谱是基于

25、图的数据结构,其存储方式主要有两种方 式:RDF存储 和 图数据库(Graph Database)。A triplestore or RDF store is a purpose-built database for the storage and retrieval of triples through semantic queries. A triple is a data entity composed of subject-predicate-object. WikipediaA graph database has a more generalized structure than

26、a triplestore, using graph structures with nodes, edges, and properties to represent and store data. WikipediaRDF存储和图数据库的发展趋势图数据存储从零开始构建灵活不受约束基础维护的难度和工作量巨大基于现有关系数据库或NoSQL数据构建可以基础存储实现的强大功能,不需要分心管理底层的数据存 储可按数据和应用的需求采用不同的底层存储基于现有数据库存储三元组表(S,P,O)问题:大量自连接操作的开销巨大3store Harris03基于现有数据库存储属性表:属性相似的主语聚为一张表问题:

27、1、 RDF灵活性2、 属性未定查询Jena property table Wilkinson0基于现有数据库存储垂直分割:以谓语划分三元组表问题:1、大量数据表2、删除属性代价大Vertical partitioning Abadi07, VLDNative RDF 存储方案六重索引:SPO、SOP、PSO、POS、OSP、OPS优点:三元组模式查询(triple pattern)的高效执行任意两个三元组模式的高效归并连接(merge-join)问题:1、6倍空间开销,如果是 (S, P, O, C) 四元组呢?2、更新维护代价大Hexastore Weiss08, VLDB, RDF-3X

28、 Neumann08, VLDB使用列数据模型存储三元组表,建立六重索引RDF列式存储优于行式存储Native RDF 存储方案Wang10, DBTA图数据模型:节点、边、节点属性、边属性Neo4j节点存储(node store)关系存储(relationship store)属性存储(property store)优点:图查询语言、图挖掘算法缺点:分布式存储实现代价高,数据更新速度慢,大 节点处理慢图数据库(原生图存储)应用多节点分布式服务器集群系统将三元组数据分布式存储。商业:AllegroGraph、Microsoft Trinity Zeng13, VLDB、 OpenLink Vi

29、rtuoso、BigOWLIM开源:Bigdata ()分布式B+树:动态分片(dynamic sharding) triple store:SPO、POS、OSPquad store: SPOC、POCS、OCSP、CSPO、PCSO、 SOPC分布式存储方案Jingwei分布式大规模RDF数据服务器 Wang12, APWeb分布式存储方案大规模知识图谱存储解决方案数据思维依据数据特点进行数据存储结构选 择与设计No Size Fits All没有一种通用的存储方案能够解决 所有问题基础存储支撑灵活基础存储可扩展、高可用 按需要进行数据分割 适时使用缓存和索引善于利用现有成熟存储 保持图形

30、部分数据的精简 不在图中作统计分析计算 在应用中进行扩充迭代指导思想整体原则大规模知识图谱存储最佳实践(1)1. 基础存储可按数据场景选择使用关系数据库、NoSQL数据库及内存数据库。基础存储保证可扩展、高可用2. 数据分割属性表:依据数据类型划分基本类型:整数表、浮点数表、日期类型表、 集合类型:List型表、Range型表、Map型表、大属性单独列表:例如数量超过10M的属性单独列表大规模知识图谱存储最佳实践(2)3. 缓存与索引使用分布式 Redis 作为缓存,按需对数据进行缓存。对三元组表按需进行索引,最多情况下可建立九重索引SPO、SOP、PSO、POS、OSP、OPSSPO、POS

31、、OSP4. 善于使用现在成熟存储$ElasticSearchfi$fifiNoSQL大规模知识图谱存储最佳实践(3)5. 对于非关系型的数据尽量不入图存储,避免形成大节点非关系型的数据,使用适合的数据存储机器进行存储,通过实 体链接的方式实现与图谱数据的关联。fl$6. 不直接在图存储中进行统计分析计算yfiyflfi$,y$fio信息的时态性时态特性是信息的客观存在。知识和数据是不断更新的,这些变化的时间点同样代表 了有意义的信息。时态信息的需求与技术一直伴随着数据库技术的发展而 产生和发展。时态数据库的发展趋势本体的版本化本体的构建发展的过程中,知识工程师通常希望把旧的本 体也保存下来,

32、形成了本体的版本化信息。基本意义有:记录语义变化兼容性检测版本选择深化规则基于时态逻辑的本体版本管理线性时间模型分叉时间模型基于混合逻辑的本体版本管理知识图谱中的时态信息事实的生成时间某事实的有效时间段某一对象在特定历史时刻的状态知识图谱在过去特定时间的版本李达康为了修路, 在全县搞强行摊 派捐款一位农妇被逼喝 农药自杀县政府被闹21年前王大路背锅,引 咎辞职李达康与易学习 资助王大路创业王大路多年经营, 拥有今天的大路 集团赵立春要求吕州 市长李达康批地李达康拒接批地赵立春调离李达 康至林城高育良批地高、李冲突原因基本时间模型连续模型把时间看作同构于实数,每一个实数对应于一个时间点。因此,在

33、时间轴的两个时间点之间,可以存在其它的时间点。步进模型把数据的状态看成是时间的函数;当时间点上的数据状态发生变化时才记录状态变化,否则保持不变。时间序列上任一点上数据的值对应于上一次数据 改变时保持的状态,如果要查询当前数据的取值,需要回溯。离散模型把时间和整数映射起来,在相邻的两个时间点之间不存在另一个时间点;任一时间点有前驱和后继时间点。恒定模型有些数据是不随时间变化的,例如:籍贯、出生地等;这些数据只有其本身固有的属性。基本时态元素时间点基于点的时间元素(Pointbased),又称为时刻(Time Points)时间区间时间区间是指一段时间,有固定的起止时间点时间跨度指持续的一段时间,

34、表示时间的长度;与时间区间不同的是,时间跨度没有时间起点,也没有时间终点。时间元素NowNow是一个时间变元,随着当前时间的变化而变化,记录了随时间变化的信息,它的有效值依赖于当前时间。时间粒度指描述时间数据的最小时间单位,是表示时间点之间离散化程度的因素;时间粒度反映了时态信息系统中时间点描述的最小单位,时间粒度越小,离散的时间点 越多,描述的事件的变化信息越精细准确。三种时间用户自定义时间指用户根据自己的需要或理解定义的时间。这种时间的属性值一般是时间点,用户本身会解释他所给出的时间信息,数据库系统不需要解释该数据 的含义,只需将此时间域等同于其他一般的属性域来理解。有效时间指一个对象(事

35、件)在现实世界中发生并保持的那段时间,或者该对象在现实世界中为真的时间。有效时间既可以反映过去和现在的时间,还可以 反映将来的时间。事务时间指一个数据库对象进行操作的时间,是一个事实存储在数据库中的时间,它记录着对数据库修改或更新的各种操作历史,对应于现有事务或现有数 据库状态变迁的历史。有时也称事务时间为系统时间(system time)。四种时态数据库快照数据库回滚数据库历史数据库双时态数据库快照数据库快照数据库(Snapshot Database)是以在特定的时刻的 瞬间快照来建立模型,来考虑现实世界,尽管现实世界是 变化的,快照数据库只是反映了某一个瞬间的情况。快照数据库支持用户定义时

36、间,不能进行与时间相关的任 何工作。回滚数据库回滚数据库(Rollback Database)支持事务时间,按事务时间进行编址, 保存了每次事务提交,状态演变之前的状态。回滚数据库记录了数据库事务变化历史,它实现的是事务时间轴。任何 一个更新语句的执行将产生一个新的数据库状态。新状态不会覆盖旧的 状态。因此没有数据会被物理删除。通过将一个元组的事务结束时间设为执行语句的当时时间,从而实现元组在语义上的“删除”。事务时间区间可以看成是该元组 在快照数据库中存在的历史。历史数据库记录事实的有效时间的数据库称为历史数据库。历史数据库记录了在有效时间轴上的一系列的数据库状态,可能是过去、现在或将来。它

37、 可以被看作是记录了事实在真实世界的变化过程。历史数据库上的查询语言必须具有有效时间演算能力。同时更新语句 必须指明修改语句涉及哪些数据库状态。双时态数据库双时态数据库由时态关系组成,其时态关系是一个四维结构。其中两 维是属性和元组,另外两维是事务时间和有效时间,一个时态关系可 以看成是一个历史关系的序列。对时态关系的一个回滚操作则是选取 了一个特定的历史关系,可对该历史关系进行查询。而每一个事务则 引起一个新的历史关系的建立。双时态数据库综合了回滚数据库和 历史数据库的优良特性,它即保存 了数据库变迁的历史,又保存了现 实世界的真实的数据属性。四种时态数据库总结严格意义上的双时态数据库是不存

38、在的,需要花费大量的存储空间 为代价的。回滚数据库的主要意义在于数据库系统的管理和维护,当当版本的 数据库出现问题时,进行回滚。历史数据库记录的是事实的有效时间,因此是具备应用意义的数据 库。目前常用的数据库可约视为快照数据库,它们不具备时太含义。知识图谱时态信息存储在知识图谱存储中应用的为历史数据库,同时也借鉴回滚数据库的 思想进行知识图谱的版本信息管理。历史数据库:记录事实的有效时间,用有限的数据冗余实现数据时 态信息的应用。回滚数据库:在特定的时间点(可视为回滚点,但不用于真实的回 滚操作)对知识图谱数据进行独立的数据备份,形成知识图谱的版 本记录,实现对特定历史状态的查询,满足一些特定

39、应用场景的使 用需要。在基础知识图谱的基 础上,构建针对时态数据处理的中间件; 对于特定类型的时序 型数据,采用其它的 存储机制进行存储。实现历史数据库的时态信息 处理在中间件层实现针对时间的查 询和演算,并针对数据更新时 针对数据库状态进行修改的实 现机制。实现知识图谱的版本管理设定知识图谱版本生成的策略, 定时生成知识图谱的快照版本。知识图谱时态信息存储实现设计 原则12知识图谱 + 时态信息更多知识图谱系列文章请关注plantdata服务号和知识图谱实战群79常见的图数据存储应用场景分析使用图数据库进行数据存储复杂应用场景存储的最佳实践下半场常见的图数据存储 Graph DBMS常见的图

40、数据存储 RDF stores图数据存储的选用指标数据存储支持数据操作和管理方式 支持的图结构实体和关系表示 查询机制数据存储支持fiflfl flflNeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB数据操作和管理方式fi$flAPINeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB支持的图结构fi$;A;Afi3$434Neo4jTitanVirtu

41、osoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB实体和关系表示SchemaInstancefi;Afi;A;A;AfififiNeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDB查询机制fiAPIyflNeo4jTitanVirtuosoAllegroGraphDEXFilamentG-StoreHyperGraphDBInfiniteGraphSonesvertexDBneo4jN

42、eo4j is a highly scalable native graph database that leverages data relationships as first-class entities, helping enterprises build intelligent applications to meet todays evolving data challenges.特点:原生图存储和处理支持ACID事务处理自带一套易于学习的查询语言 Cypher不使用 schema社区最活跃neo4j 存储结构TitanTitan是一个分布式的图数据库,支持横向扩展,可容纳数 千亿

43、个顶点和边。 Titan支持事务,并且可以支撑上千并 发用户和 计算复杂图形遍历。Titan的特性弹性与线性扩展、分布式架构、可容错支持 ACID 和最终一致性.支持多种存储后端,支持高可用和热备支持位置、数字范围和全文检索原生支持 TinkerPop 软件栈VirtuosoOpenLink Virtuoso是一个混合模型数据库,实现了Web, 文件和数据库服务器功能以及本机XML存储和通用数据访问 中间件,提供单一服务器解决方案。Virtuoso提供了扩展的对象关系模型,它提供了关系型数据 访问,类型继承,运行时数据类型,迟绑定,基于id的访问 等数据访问方式。提供CSV、RDF文件形式的数据导入,支持从外部的数据库 进行库、表、数据的关联。详细资料详细的介绍与使用文档请搜索并关注微信公众号:PlantData 知识图谱实战93应用场景分析与知识图谱建模知识图谱构建的基本步骤应用场景分析知识图谱本体构建(Schema构建)概念上下位关系属性关系实体实体的属性实体之间的关系创投知识图谱创投知识图谱描述创业企业与投资机构之间以投资为主线的 多种关系,包含:企业产品、创始人、股东、高管、行业、 细

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论