大数据技术导论(第二版)课件:大数据管理_第1页
大数据技术导论(第二版)课件:大数据管理_第2页
大数据技术导论(第二版)课件:大数据管理_第3页
大数据技术导论(第二版)课件:大数据管理_第4页
大数据技术导论(第二版)课件:大数据管理_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术导论

大数据管理010203数据管理概述大数据管理NoSQL列式数据库HBase01PARTONE数据管理概述数据管理概述1.数据库管理与操作系统1)操作系统。操作系统负责计算机资源管理,包括CPU管理、存储器管理、文件管理和设备管理。就文件管理而言,基本操作是文件名的增、删、改、查,是粗粒度管理。2)数据库管理。管理的粒度比操作系统要细,基本操作是对文件内容的增、删、改、查。2.传统关系数据管理存在的问题1)计算机存储的本质是线性的,传统关系型数据库是基于行式存储的(见图4.2),导致对列的扩充非常困难,需要大量的移动操作。2)传统数据库表是不可分的对象,当表的体量变得非常大时,管理的效率会大幅度下降。02PARTTWO大数据管理NoSQLNoSQL概述

NoSQL泛指非关系型的数据库。随着互联网Web2.0网站的兴起,传统的关系型数据库在应付Web2.0网站,特别是超大规模和高并发的SNS类型的Web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集和多重数据种类带来的挑战。NoSQL概念演变如图4.3所示。NoSQL概述

对于NoSQL并没有一个明确的范围和定义,但是它们都普遍存在下面一些共同特征。1)不需要预定义模式:数据中的每条记录都可能有不同的属性和格式。2)无共享架构:传统数据库需要统一存放到服务器上。NoSQL往往将数据划分后存储在各个本地服务器上。3)弹性可扩展:可以在系统运行的时候动态增加或删除节点,不需要停机维护。4)分区:相对于将数据存放于同一个节点,NoSQL数据库需要将数据进行分区,将记录分散在多个节点上面,并且通常分区的同时还要复制。这样既提高了并行性能,又能保证没有单点失效的问题。需要注意的是,NoSQL和SQL各有所长,成功的NoSQL必然会适用于某些场合或某些应用,在这些场合中NoSQL会胜过SQL。NoSQL概述NoSQL符合大数据全量思维、容错思维的理念。给我们的启示:要有上善若水的境界,不忘自己的初心。NoSQL分类及主要产品类型部分产品列存储Hbase文档存储MongoDBkey-value存储TokyoCabinet/Tyrant、BerkeleyDBMemcacheDB、Redis图存储Neo4J标签存储XML1.健值数据库——Redis

关系型数据库处理一对多的问题,需要把外键放在多的一端。而健值数据库Redis可以在任何一端来管理一对多的关系。

键值数据库使用简单的键值方法来存储数据。键和值都可以是从简单对象到复杂复合对象的任何内容。【以WordCount的Map和Reduce为例】Redis是内存型的键值数据库,键类型是字符串,值类型可以是字符串、字符串集合(Set)、sortedset、字符串列表(List)、哈希(Hash)等。NoSQL分类及主要产品2.图数据库——Neo4J

图数据库使用灵活的图形模型,主要产品:Neo4J,InfoGrid,InfiniteGraph。

社交网络只是代表了图形数据库应用的冰山一角,但用它们来作为例子可以让人很容易理解。下图显示“黑客帝国”这部电影的Neo4j实现。问:谁是Neo的朋友?Neo朋友的朋友?谁在恋爱?显然关系数据库和健值数据库都无法回答,而用Neo4j很容易回答。NoSQL分类及主要产品3.文档数据库——MongoDB

文档数据库不同于关系数据库,关系数据库是高度结构化的,而文档数据库允许创建许多不同类型的非结构化的或任意格式的字段,与关系数据库相互补充、扩展。

文档数据库是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。

文档型数据库可以看作是键值数据库的升级版,主要产品:MongoDB。国内也有文档型数据库SequoiaDB已经开源。NoSQL分类及主要产品4.标签数据库

XML其实和HTML文件一样,是一个文本文件,意思是可扩展标记语言,是一类比较简单的数据存储语言。XML运用一系列简单的标记描述数据,而这些标记可以用便捷的方式建立,可扩展标记语言占用的空间比二进制数据要多,但可扩展标记语言极其简单,易于掌握和使用。

XML的宗旨是传输数据,而与其同属标准通用标记语言的HTML主要用于显示数据。这就意味着程序可以更容易地与Windows、macOS、Linux以及其他平台下产生的信息结合,然后可以很容易地将XML数据加载到程序中并进行分析,最终以XML格式输出结果。NoSQL分类及主要产品03PARTTHREE列式数据库HBase概述

HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。HBASE数据模型HBASE数据模型HBASE数据模型1、四元组

HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格,因此,可以视为一个“四维坐标”,即[行键,列族,列限定符,时间戳]键值[“201505003”,“Info”,“email”,1174184619081]“xie@”[“201505003”,“Info”,“email”,1174184620720]“you@163.com”HBASE数据模型2、概念视图行键时间戳列族contents列族anchor"n.www"t5anchor:=”CNN”t4anchor:my.look.ca="CNN.com"t3contents:html="<html>..."t2contents:html="<html>..."t1contents:html="<html>..."HBASE数据模型3、物理视图行键时间戳列族contents"n.www"t3contents:html="<html>..."t2contents:html="<html>..."t1contents:html="<html>..."行键时间戳列族anchor"n.www"t5anchor:=”CNN”t4anchor:my.look.ca="CNN.com"HBase系统架构(1)HBase由一个Master主服务器和许多个Region服务器构成。(2)主服务器Master负责管理和维护HBase表的分区信息,维护Region服务器列表,分配Region,负载均衡.(3)Region服务器负责存储和维护分配给自己的Region,处理来自客户端的读写请求(4)客户端并不是直接从Master主服务器上读取数据,而是在获得Region的存储位置信息后,直接从Region服务器上读取数据(5)客户端并不依赖Master,而是通过Zookeeper来获得Region位置信息,减轻Master负载。

(6)一个Region服务器有多个Store构成。(7)一个Store由多个HFile构成。(8)一个HFile就是一个HDFS块。HBase系统架构HBASE案例

基本信息房源身份证姓名性别北京上海苏州南京杭州三亚武汉海口南宁合肥天津沈阳北戴河1张男112李女113王男11大数据管理(一张表)小数据管理(13张表)身份证姓名性别北京1张男12李女03王男0身份证姓名性别上海1张男02李女13王男09x13=12713HBase应用场景HBase常用Shell命令(1)create:创建表(2)list:列出HBase中所有的表信息例1:创建名称为tempTable的表,包含3个列族f1,f2和f3HBase常用Shell命令

(3)put:向表、行、列指定的单元格添加数据一次只能为一个表的一行数据的一个列添加一个数据

(4)scan:浏览表的相关信息

(5)get:获得单元格的值(通过表名、行、列、时间戳、时间范围和版本号来)HBase常用Shell命令例2:向tempTable中的第r1行、第“f1:c1”列,添加数据值为“hello,dblab”在添加数据时,HBase会自动为添加的数据添加一个时间戳,当然,也可以在添加数据时人工指定时间戳的值HBase常用Shell命令例3:(1)从tempTable中,获取第r1行、第“f1:c1”列的值(2)从temp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论