云计算与大数据技术 课件 第3章 海量数据存储与管理技术_第1页
云计算与大数据技术 课件 第3章 海量数据存储与管理技术_第2页
云计算与大数据技术 课件 第3章 海量数据存储与管理技术_第3页
云计算与大数据技术 课件 第3章 海量数据存储与管理技术_第4页
云计算与大数据技术 课件 第3章 海量数据存储与管理技术_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

存储虚拟化-存储架构基本知识数据存储与管理技术云计算数据存储和数据管理核心技术主要涉及海量数据的分布式存储技术、海量数据管理技术。云计算系统基础设施部分由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式保证数据的可靠性。存储分类常见存储的分类存储分类(服务器类型)封闭系统的存储开放系统的存储内置存储外挂存储直连式存储(DAS)网络存储(FAS)网络接入存储(NAS)存储区域网络(SAN)封闭系统:大型机开放系统:指基于Windows、UNIX、Linux等操作系统的服务器数据存储与管理技术集中式存储和分布式存储大型机服务厂商有IBM、思科、联想等,比如IBMZ15™大型机数据存储与管理技术存储接口技术不同设备、功能层之间的通信规则称为接口。硬件接口的种类繁多,如数据接口、通信接口、软件接口、管理接口等等。

磁盘按照接口类型我们可以分为ATA、SATA、SCSI、SAS、FC等等。集中式存储技术集中式存储就是一个可以支持基于文件的网络附加存储(NAS)以及基于数据块的SAN的网络化的存储架构。由于其支持不同的存储协议为主机系统提供数据存储,因此也被称为多协议存储。集中式外挂存储类型分为直连式存储(Direct-AttachedStorage,简称DAS)、网络附加存储(NetworkAttachedStorage,简称NAS)、存储区域网络(StorageAreaNetwork,简称SAN)三类。数据存储与管理技术集中式存储数据存储与管理技术分布式存储

分布式存储采用“标准的x86服务器硬件+存储软件”的架构,将标准X86/ARM服务器通过高速以太网或Infiniband(无限带宽)互连,通过分布式存储软件将服务器本地的机械硬盘、固态硬盘等存储介质组织成统一的大规模存储资源池。

分布式存储实现了存储的硬件与软件解耦,数据中心能够以标准化硬件搭建存储平台,提升IT敏捷性,降低运维成本,符合软件定义数据中心的发展趋势。分布式存储分布式存储分布式存储分布式文件存储采用分布式文件系统(DistributedFileSystem-DFS)完成数据存入,取出和删除,可以当做key/value的存取。分布式文件系统现在比较出名的有Google的GFS(未开源),Hadoop平台的HDFS(Hadoopdistributedfilesystem)。文件存储适合多客户端有目录结构数据。典型应用场景有日志存储、多个用户有目录结构的文件存储共享。目前分布式文件系统主要用于大数据的存储场景。分布式存储分布式块存储适合客户端使用,典型使用场景有docker容器、虚拟机远程挂载磁盘存储分配、日志存储等。分布式对象存储适合更新变动较少的数据,没有目录结构,不能直接打开/修改文件。典型使用场景有图片存储、视频存储、文件、软件安装包、归档数据等。存储虚拟化-分布式存储分布式文件系统网络文件系统网络文件系统(NetworkFileSystem,NFS)是个分布式的客户机/服务器文件系统,NFS的实质在于用户间计算机的共享,它允许网络中的计算机之间通过TCP/IP网络共享资源。分布式文件系统分布式文件系统分布式文件系统把大量数据分散到不同的节点上存储,大大减小了数据丢失的风险。分布式文件系统具有冗余性,部分节点的故障并不影响整体的正常运行,而且即使出现故障的计算机存储的数据已经损坏,也可以由其它节点将损坏的数据恢复出来。因此,安全性是分布式文件系统最主要的特征。分布式文件系统分布式存储根据其架构分为(1)中间控制节点架构:以HDFS为代表,NameNode节点存放管理数据,DataNode节点存放业务数据。(2)完全无中心架构--计算模式:以Ceph为代表,客户端通过设备映射关系的CRUSH数据分布算法(CRUSH数据分布算法和一致性哈希算法思想相同),明确写入的位置,从而达到客户端与存储节点的直接通信。(3)完全无中心架构--一致性哈希:以Swift为代表,通过将设备制定为哈希环,然后通过数据名称计算出对应的哈希值,从而映射到哈希环的某个位置实现数据定位。分布式文件系统HDFS是Master和Slave的主从结构。将设备分为主设备和从设备,主设备负责分配工作并整合结果,或作为指令的来源;从设备负责完成工作,一般只能和主设备通信)。(1)NameNode:分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等;(2)SecondaryNameNode:辅助NameNode,分担其工作,紧急情况可以辅助恢复;

(3)DataNode:Slave节点,实际存储数据、执行数据块的读写并汇报存储信息给NameNode。分布式文件系统HDFS分布式文件系统分布式文件系统Ceph分布式文件系统

Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统。同时支持对象存储RGW(radosgateway)、块存储RBD(Radosblockdevice)和文件存储(CephFS)3种存储访问接口,Ceph在存储的时候充分利用存储节点的计算能力,将数据存储均衡分布,被广泛应用于云计算框架OpenStack或CoudStack整个存储后端,为云计算平台提供虚拟机存储和对象访问能力。当然Ceph也可以单独作为存储,例如部署一个集群作为对象存储、SAN存储、NAS存储等。分布式文件系统分布式文件系统

Ceph可以提供对象存储、块设备存储和文件系统服务,其对象存储可以对接网盘应用业务等,其块设备存储可以对接当前主流的IaaS平台软件,如:OpenStack、CloudStack、Zstack、Eucalyptus等。分布式对象存储由于文件系统空间组织的特点,当我们访问一个文件的时候,首先需要找到文件对应的元数据,然后根据元数据信息找到数据的位置,并读取数据。这个过程可能要涉及到多次次的磁盘访问。对于互联网应用来说,多次磁盘访问会显著降低性能,影响用户的体验。比如国内的今日头条,淘宝、京东等互联网应用会产生海量的图片访问,文件系统很难满足性能和扩展性需求,为了保证横向扩展能力、降低访问延时,对象存储应运而生。对象存储在数据处理层面的特点是将待处理的数据看作一个整体。分布式对象存储Swift对象存储

Swift特点是存储大对象,典型的应用如网盘类的存储引擎、存储虚拟机镜像、图片存储、邮件存储、存档备份和日志文件存储等数据。因为没有中心单元或主控结点,Swift提供了无限扩展能力、冗余和持久性。分布式对象存储Swift总体架构分布式对象存储Haystack对象存储

Facebook的业务场景是大量图片只写一次,从不更新,不定期会读,极少删除。Facebook对其照片应用开发了Haystack对象存储。Haystack与前面swift的差异是其存储的是小对象。分布式对象存储Haystack架构存储虚拟化-分布式数据库分布式数据库数据库架构模型数据库常用的架构模型分为共享计算存储资源(shared-Everything)的单机集中式数据库架构、共享存储的架构、不共享资源的分布式架构。分布式数据库数据库架构模型

分布式数据库OLTP和OLAP融合的数据库联机事务处理(OnLineTransactionProcessing)是一种快速响应、实时在线的一种数据处理方式,是关系型数据的主要应用,面向存储和管理日常运营的数据,例如:生产\销售\运营管理系统、制造执行系统(manufacturingexecution,简称MES)系统、人事管理系统、超市零售系统等。分布式数据库联机分析处理(OnLineAnalyticalProcessing)存储和管理与分析和决策相关的数据,用于分析数据并做出决策。是一种离线的、复杂场景的数据计算方式,通常需要对大量的历史数据查询和分析,涉及的历史周期比较长,数据量大。OLAP主要面向于复杂查询操作,聚焦于数据的聚合、汇总、分组计算、窗口计算等数据加工和操作,需从多维度去使用和分析数据。典型的应用场景有:报表、金融风险预警系统、反洗钱系统、数据集市、数据仓库等。分布式数据库传统的数据仓库(OLTP+OLAP+ETL)架构分布式数据库大规模并行处理数据库

MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。

MPP数据库通常有无Master和Master-Slave两种架构方式,该领域的产品主要是商业产品,如无Master的MPP架构的独立厂商Teradata的数据库Asterdata和华为的自研数据库GaussDB,HP的Vertica。主从(Master-Slave)MPP架构的产品:EMC的Greenplum,IBM的Netezza数据仓库数据库。分布式数据库MPP架构分布式数据库

分布式数据库分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。

分布式数据库的基本思想是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,以获取更大的存储容量和更高的并发访问量。分布式数据库分布式数据库发展数据库的发展经历了SQL、NoSQL、NewSQL、DistributedSQL。NoSQL数据库主要用于解决SQL的可扩展性问题,它是没有架构的并且建立在分布式系统上,这使得它易于扩展和分片。分布式数据库NewSQL和分布式数据库(DistributedSQL)

应用领域需要的数据库产品既具有一个单机的关系型数据库的特性,又有分布式的分片与同步特性。NewSQL和分布式数据库(DistributedSQL)正是为了这个目的而生的,实现了SQL的完整支持和可靠的分布式事务。分布式数据库NewSQL数据库NewSQL是基于NoSQL模式构建的分布式数据库,它通常采用现有的SQL类关系型数据库为底层存储或自研引擎,并在此之上加入分布式系统,从而对终端用户屏蔽了分布式管理的细节。分布式数据库分布式数据库分布式数据库是指数据在物理上分布而在逻辑上集中管理的数据库系统。物理上分布是指分布式数据库的数据分布在物理位置不同并由网络连接的节点或站点上;逻辑上集中是指各数据库节点之间在逻辑上是一个整体,并由统一的数据库管理系统管理,不同的节点分布可以跨不同的机房、城市甚至国家。分布式数据库分布式数据库

DistributedSQL数据库使用的是特殊的底层存储引擎,来构建水平可伸缩的数据库。它在NewSQL的功能基础上,往往提供的是“地理分布”功能,用户可以跨可用区、区域甚至在全球范围内分布数据。

Google的Spanner、蚂蚁集团的OceanBase、PingCAP的TiDB、CockroachLabs公司的CockroachDB就是很好的例子,这些引擎通常比NewSQL的目标更高。

分布式数据库分布式数据库数据分片是分布式数据库的关键设计,将存放在同一个数据库实例中的数据分散存放到多个数据库实例上,进行多台设备存取以提高性能,在切分数据的同时可以提高系统整体的可用性。数据同步是分布式数据库的基础,由于数据库理论传统上是建立在单机数据库基础上,而引入分布式理论后,一致性原则被打破,因此需要引入数据库同步技术来帮助数据库恢复一致性。分布式数据库分布式数据库产品

PG-XC(类似PostgreSQL-XC)架构风格的分布式数据库产品有中兴的GoldenDB、华为的GaussDB300、腾讯的TDSQL、亚信科技AntDB等等。NewSQL风格分布式数据库有Google(谷歌)的Spanner、PingCAP的TiDB、蚂蚁集团的OceanBase、巨杉的SequoiaDB、星环的NuoDB、CockroachDB和YugabyteDB等等。分布式数据库分布式数据库云原生OLTP型分布式数据库,OLTP与OLAP融合为HTAP(HybridTransaction/AnalyticalProcessing,混合事务分析处理/融合交易分析处理)数据库。云原生数据库典型的产品有AWS的Aurora、微软的CosmosDB、阿里的PolarDB、腾讯的CynosDB、华为的Taurus等等。

存储虚拟化-存储虚拟化和云存储存储虚拟化存储虚拟化

存储虚拟化是指将物理存储资源通过虚拟化技术集中到一个大容量的资源池并实行单点统一管理,无需中断应用即可改变存储系统和数据迁移。

虚拟化存储环境下,无论后端物理存储是什么设备,服务器及其应用系统看到的都是其物理设备的逻辑映像。。存储虚拟化实现原理存储虚拟化实现原理存储虚拟化分类存储虚拟化分类存储虚拟化分类存储虚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论