Chaer厦门大学林子雨大数据技术原理与应用第五章NoSQL数据库_第1页
Chaer厦门大学林子雨大数据技术原理与应用第五章NoSQL数据库_第2页
Chaer厦门大学林子雨大数据技术原理与应用第五章NoSQL数据库_第3页
Chaer厦门大学林子雨大数据技术原理与应用第五章NoSQL数据库_第4页
Chaer厦门大学林子雨大数据技术原理与应用第五章NoSQL数据库_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

厦门大学计算机科学系2015年版

第5章NoSQL数据库

(PPT版本号:2015年6月第1.0版)

《大数据技术原理与应用》温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字提纲5.1NoSQL简介5.2NoSQL兴起的原因5.3NoSQL与关系数据库的比较5.4NoSQL的四大类型5.5NoSQL的三大基石5.6从NoSQL到NewSQL数据库本章小结欢迎访问《大数据技术原理与应用》教材官方网站:本PPT是如下教材的配套讲义:21世纪高等教育计算机规划教材《大数据技术原理与应用——概念、存储、处理、分析与应用》(2015年6月第1版)厦门大学林子雨编著,人民邮电出版社ISBN:978-7-115-39287-95.1NoSQL简介通常,NoSQL数据库具有以下几个特点:(1)灵活的可扩展性(2)灵活的数据模型(3)与云计算紧密融合5.2NoSQL兴起的原因1、关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面:(1)无法满足海量数据的管理需求(2)无法满足数据高并发的需求(3)无法满足高可扩展性和高可用性的需求2、关系数据库的关键特性包括完善的事务机制和高效的查询机制。但是,关系数据库引以为傲的两个关键特性,到了Web2.0时代却成了鸡肋,主要表现在以下几个方面:(1)Web2.0网站系统通常不要求严格的数据库事务(2)Web2.0并不要求严格的读写实时性(3)Web2.0通常不包含大量复杂的SQL查询5.3NoSQL与关系数据库的比较比较标准RDBMSNoSQL备注数据库原理完全支持部分支持RDBMS有关系代数理论作为基础NoSQL没有统一的理论基础数据规模大超大RDBMS很难实现横向扩展,纵向扩展的空间也比较有限,性能会随着数据规模的增大而降低NoSQL可以很容易通过添加更多设备来支持更大规模的数据数据库模式固定灵活RDBMS需要定义数据库模式,严格遵守数据定义和相关约束条件NoSQL不存在数据库模式,可以自由灵活定义并存储各种不同类型的数据查询效率快可以实现高效的简单查询,但是不具备高度结构化查询等特性,复杂查询的性能不尽人意RDBMS借助于索引机制可以实现快速查询(包括记录查询和范围查询)NoSQL没有索引,虽然NoSQL可以使用MapReduce来加速查询,但是,在复杂查询方面的性能仍然不如RDBMS表5-1NoSQL和关系数据库的简单比较5.3NoSQL与关系数据库的比较比较标准RDBMSNoSQL备注一致性强一致性弱一致性RDBMS严格遵守事务ACID模型,可以保证事务强一致性NoSQL放松对事务ACID四性的要求,而是遵守BASE模型,只能保证最终一致性数据完整性容易实现很难实现任何一个RDBMS都可以很容易实现数据完整性,比如通过主键或者非空约束来实现实体完整性,通过主键、外键来实现参照完整性,通过约束或者触发器来实现用户自定义完整性但是,在NoSQL数据库却无法实现扩展性一般好RDBMS很难实现横向扩展,纵向扩展的空间也比较有限NoSQL在设计之初就充分考虑了横向扩展的需求,可以很容易通过添加廉价设备实现扩展可用性好很好RDBMS在任何时候都以保证数据一致性为优先目标,其次才是优化系统性能,随着数据规模的增大,RDBMS为了保证严格的一致性,只能提供相对较弱的可用性NoSQL任何时候都能提供较高的可用性表5-1NoSQL和关系数据库的简单比较(续)5.3NoSQL与关系数据库的比较比较标准RDBMSNoSQL备注标准化是否RDBMS已经标准化(SQL)NoSQL还没有行业标准,不同的NoSQL数据库都有自己的查询语言,很难规范应用程序接口技术支持高低RDBMS经过几十年的发展,已经非常成熟,Oracle等大型厂商都可以提供很好的技术支持NoSQL在技术支持方面仍然处于起步阶段,还不成熟,缺乏有力的技术支持可维护性复杂复杂RDBMS需要专门的数据库管理员(DBA)维护NoSQL数据库虽然没有DBMS复杂,也难以维护表5-1NoSQL和关系数据库的简单比较(续)5.4NoSQL的四大类型NoSQL数据库虽然数量众多,但是,归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库5.4NoSQL的四大类型NoSQL数据库虽然数量众多,但是,归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库5.4.1键值数据库相关产品Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached数据模型键/值对典型应用内容缓存,比如会话、配置文件、参数、购物车等优点扩展性好,灵活性好,大量写操作时性能高缺点无法存储结构化信息,条件查询效率较低使用者百度云数据库(Redis)、GitHub(Riak)、BestBuy(Riak)、Twitter(Redis和Memcached)、StackOverFlow(Redis)、Instagram(Redis)、Youtube(Memcached)、Wikipedia(Memcached)列列族族数数据据库库相关产品BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS数据模型列族典型应用分布式数据存储与管理优点查找速度快,可扩展性强,容易进行分布式扩展,复杂性低缺点功能较少,大都不支持强事务一致性使用者Ebay(Cassandra)、Instagram(Cassandra)、NASA(Cassandra)、Twitter(CassandraandHBase)、Facebook(HBase)、Yahoo!(HBase)文文档档数数据据库库相关产品CouchDB、MongoDB、Terrastore、ThruDB、RavenDB、SisoDB、RaptorDB、CloudKit、Perservere、Jackrabbit数据模型版本化的文档典型应用存储、索引并管理面向文档的数据或者类似的半结构化数据优点性能好,灵活性高,复杂性低,数据结构灵活缺点缺乏统一的查询语法使用者百度云数据库(MongoDB)、SAP(MongoDB)、Codecademy(MongoDB)、Foursquare(MongoDB)、NBCNews(RavenDB)图图形形数数据据库库相关产品Neo4J、OrientDB、InfoGrid、InfiniteGraph、GraphDB数据模型图结构典型应用应用于大量复杂、互连接、低结构化的图结构场合,比如社交网络、推荐系统等优点灵活性高,支持复杂的图形算法,可用于构建复杂的关系图谱缺点复杂性高,只能支持一定的数据规模使用者Adobe(Neo4J)、Cisco(Neo4J)、T-Mobile(Neo4J)5.5NoSQL的的三三大大基基石石NoSQLCAPBASE最终一致性所谓谓的的CAP指的的是是::C(Consistency)::一致致性性,,是是指指任任何何一一个个读读操操作作总总是是能能够够读读到到之之前前完完成成的的写写操操作作的的结结果果,,也也就就是是在在分分布布式式环环境境中中,,多多点点的的数数据据是是一一致致的的;;A:(Availability)::可用用性性,,是是指指快快速速获获取取数数据据,,可可以以在在确确定定的的时时间间内内返返回回操操作作结结果果;;P(ToleranceofNetworkPartition):分区容容忍性性,是是指当当出现现网络络分区区的情情况时时(即即系统统中的的一部部分节节点无无法和和其他他节点点进行行通信信),,分离离的系系统也也能够够正常常运行行。CAP理论告告诉我我们,,一个个分布布式系系统不不可能能同时时满足足一致致性、、可用用性和和分区区容忍忍性这这三个个需求求,最最多只只能同同时满满足其其中两两个,,正所所谓““鱼和和熊掌掌不可可兼得得”。。(a)初始始状态态一个牺牺牲一一致性性来换换取可可用性性的实实例(b)正常常执行行过程程一个牺牺牲一一致性性来换换取可可用性性的实实例(c)更新传传播失失败时时的执执行过过程一个牺牺牲一一致性性来换换取可可用性性的实实例当处理理CAP的问题题时,,可以以有几几个明明显的的选择择:CA:也就就是强强调一一致性性(C)和可可用性性(A),放放弃分分区容容忍性性(P),最最简单单的做做法是是把所所有与与事务务相关关的内内容都都放到到同一一台机机器上上。很很显然然,这这种做做法会会严重重影响响系统统的可可扩展展性。。传统统的关关系数数据库库(MySQL、SQLServer和PostgreSQL),都都采用用了这这种设设计原原则,,因此此,扩扩展性性都比比较差差CP:也就就是强强调一一致性性(C)和分分区容容忍性性(P),放放弃可可用性性(A),当当出现现网络络分区区的情情况时时,受受影响响的服服务需需要等等待数数据一一致,,因此此在等等待期期间就就无法法对外外提供供服务务AP:也就就是强强调可可用性性(A)和分分区容容忍性性(P),放放弃一一致性性(C),允允许系系统返返回不不一致致的数数据图5-5不不同同产品品在CAP理论论下的的不同同设计计原则则说起BASE(BasicallyAvailble,Soft-state,Eventualconsistency),不不得不不谈到到ACID。一个个数据据库事事务具具有ACID四性::A(Atomicity):原原子性性,是是指事事务必必须是是原子子工作作单元元,对对于其其数据据修改改,要要么全全都执执行,,要么么全都都不执执行C(Consistency):一一致性性,是是指事事务在在完成成时,,必须须使所所有的的数据据都保保持一一致状状态I(Isolation):隔隔离性性,是是指由由并发发事务务所做做的修修改必必须与与任何何其它它并发发事务务所做做的修修改隔隔离D(Durability):持持久性性,是是指事事务完完成之之后,,它对对于系系统的的影响响是永永久性性的,,该修修改即即使出出现致致命的的系统统故障障也将将一直直保持持BASE的基本本含义义是基基本可可用((BasicallyAvailble)、软软状态态(Soft-state)和最最终一一致性性(Eventualconsistency):基本可可用基本可可用,,是指指一个个分布布式系系统的的一部部分发发生问问题变变得不不可用用时,,其他他部分分仍然然可以以正常常使用用,也也就是是允许许分区区失败败的情情形出出现软状态态“软状状态((soft-state)”是是与““硬状状态((hard-state)”相相对应应的一一种提提法。。数据据库保保存的的数据据是““硬状状态””时,,可以以保证证数据据一致致性,,即保保证数数据一一直是是正确确的。。“软软状态态”是是指状状态可可以有有一段段时间间不同同步,,具有有一定定的滞滞后性性BASE的基本本含义义是基基本可可用((BasicallyAvailble)、软软状态态(Soft-state)和最最终一一致性性(Eventualconsistency):最终一一致性性一致性性的类类型包包括强强一致致性和和弱一一致性性,二二者的的主要要区别别在于于高并并发的的数据据访问问操作作下,,后续续操作作是否否能够够获取取最新新的数数据。。对于于强一一致性性而言言,当当执行行完一一次更更新操操作后后,后后续的的其他他读操操作就就可以以保证证读到到更新新后的的最新新数据据;反反之,,如果果不能能保证证后续续访问问读到到的都都是更更新后后的最最新数数据,,那么么就是是弱一一致性性。而而最终终一致致性只只不过过是弱弱一致致性的的一种种特例例,允允许后后续的的访问问操作作可以以暂时时读不不到更更新后后的数数据,,但是是经过过一段段时间间之后后,必必须最最终读读到更更新后后的数数据。。最最终终一致致性最终一一致性性根据据更新新数据据后各各进程程访问问到数数据的的时间间和方方式的的不同同,又又可以以区分分为::因果一一致性性:如果果进程程A通知进进程B它已更更新了了一个个数据据项,,那么么进程程B的后续续访问问将获获得A写入的的最新新值。。而与与进程程A无因果果关系系的进进程C的访问问,仍仍然遵遵守一一般的的最终终一致致性规规则“读己己之所所写””一致致性:可以以视为为因果果一致致性的的一个个特例例。当当进程程A自己执执行一一个更更新操操作之之后,,它自自己总总是可可以访访问到到更新新过的的值,,绝不不会看看到旧旧值单调读读一致致性:如果果进程程已经经看到到过数数据对对象的的某个个值,,那么么任何何后续续访问问都不不会返返回在在那个个值之之前的的值最最终终一致致性最终一一致性性根据据更新新数据据后各各进程程访问问到数数据的的时间间和方方式的的不同同,又又可以以区分分为::会话一一致性性:它把把访问问存储储系统统的进进程放放到会会话((session)的上上下文文中,,只要要会话话还存存在,,系统统就保保证““读己己之所所写””一致致性。。如果果由于于某些些失败败情形形令会会话终终止,,就要要建立立新的的会话话,而而且系系统保保证不不会延延续到到新的的会话话单调写写一致致性:系统统保证证来自自同一一个进进程的的写操操作顺顺序执执行。。系统统必须须保证证这种种程度度的一一致性性,否否则就就非常常难以以编程程了5.6从从NoSQL到NewSQL数数据库库图5-6大大数数据引引发数数据处处理架架构变变革5.6从从NoSQL到NewSQL数数据库库图5-7关关系系数据据库、、NoSQL和和NewSQL数据据库产产品分分类图图本章小小结本章介介绍了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论