《大数据存储技术与应用》 课件 项目三 浅析云存储服务_第1页
《大数据存储技术与应用》 课件 项目三 浅析云存储服务_第2页
《大数据存储技术与应用》 课件 项目三 浅析云存储服务_第3页
《大数据存储技术与应用》 课件 项目三 浅析云存储服务_第4页
《大数据存储技术与应用》 课件 项目三 浅析云存储服务_第5页
已阅读5页,还剩245页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务一了解云存储起源文件系统的作用?硬盘接口的种类?RAID存储的类型?典型的数据备份策略?回顾任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。任务描述:本节任务阐述了分布式存储、云存储技术的起源和发展,进而介绍了云存储的定义和特点。任务教学目标:了解分布式存储了解云存储起源及发展掌握云存储概念及特点任务概要教学内容什么是分布式存储云存储技术的起源云存储技术的发展一二三四五云存储概念云存储的特点什么是分布式存储知识点一(一)分布式云存储特性01可扩展02低成本03高性能04易用(二)分布式存储系统的挑战容错C负载均衡事务与并发控制压缩/解压缩易用性DEFG数据分布A一致性B

(三)分布式存储数据分类包括所有格式的办公文档、文本、图片、图像、音频和视频信息等。一般存储在关系数据库中,可以用二维关系表结构来表示。结构化数据的模式(Schema,包括属性、数据类型以及数据之间的联系)和内容是分开的,数据的模式需要预先定义。介于非结构化数据和结构化数据之间,HTML文档就属于半结构化数据。它一般是自描述的,与结构化数据最大的区别在于,半结构化数据的模式结构和内容混在一起,没有明显的区分,也不需要预先定义数据的模式结构。非结构化数据结构化数据半结构化数据(三)分布式存储系统分类分布式文件系统1分布式键值(Key-Value)系统2分布式表格系统3分布式数据库4(四)分布存储系统对应的数据类型分布式存储系统数据类型分布式文件系统非结构化数据分布式键值(Key-Value)系统比较简单半结构化数据分布式表格系统较为复杂半结构化数据分布式数据库结构化数据云存储技术的起源知识点二(一)云存储是由云计算逐步演变分化而来云计算是一种典型的破坏性创新,它利用技术进步效应,从IT产业不断高涨的成本投入和运营商薄弱环节切入,重构传统的IT市场结构,创新或优化IT产品和服务。广域网和互联网云存储技术的发展知识点三

云存储技术的发展1数据爆发的推动2数据安全的制约3发展趋势云存储概念知识点四云存储概念云存储通过网络和分布式文件系统将分散的存储设备连接、整合成一个高效、便捷、可靠的系统,通过某种应用软件共同一致地对外提供在线数据存储和业务访问服务。云存储概念云存储的特点知识点五(一)与传统存储对比比较项云存储传统存储架构不仅是一种架构,更是一种服务。底层采用分布式架构和虚拟化技术,易于扩展,单点失效不影响整体服务针对某种特殊应用而采用的专用、特定的硬件组件构成的架构服务模式按需使用,按使用计费,服务提供商可迅速交付和响应用户通过整机购买或租货获取存储容置容量支持PB级以上无限扩展针对某个特定的应用存储,由应用需求决定容量,难于扩展数据管理不仅提供传统访问方式,而且提供海置数据的管理和对外的公众服务支撑,同时采用保护数据安全的策略,采取如分片存储、EC、ACL、证书等多重保护策略和技术,用户可灵活配置用户数据管理员可见,信息不够安全。通常使用RAID提供数据保护,用户无法灵活配置个性化存储策略和保护策略(二)云存储技术特点低成本高可靠服务模式高可用动态伸缩安全性大容量规范化任务小结通过使用云存储,企业获得了以下好处:①节约了采购存储设备的成本。②缩短了系统建设周期。③减少了维护存储设备的人力和资源费用。另一方面,云存储服务商通过云化的管理,也获得了不少益处:①自身的存储资源整合后,将多余的存储空间租赁给企业,不仅有效利用了资源,也降低了运营成本。②快速便捷地为用户部署了远程存储资源,颠覆了用户对存储设备部署的体验。③云存储虚拟化和智能管理技术使服务商能够对云存储系统进行简便、高效的运营维护。拓展训练Xena独立学习OpenStack社区正式发布第24个版本Xena,OpenStack作为广泛部署的开源云基础设施软件,其新版本增加了对新型硬件功能的支持,优化了各类组件间的集成,通过减少技术债务来维护OpenStack软件的稳定可靠性。OpenStack作为全球最活跃的开源项目之一,开发者积极参与并由此构建了一个充满活力的社区,在Xena版本为期25周的开发中,来自125个组织/机构的680多位开发者累计提交了15000项修改。1.阅读2021年10月6日OpenStack社区发布的Xena版本文档。2.了解Xena版本的最新特性。3.尝试安装部署Xena版本。拓展训练1.分布式存储系统的分类?2.云存储的定义?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务二浅谈云存储基础技术文件系统的作用?硬盘接口的种类?RAID存储的类型?典型的数据备份策略?回顾任务描述:本节任务阐述了存储空间管理、数据使用及存储、存储高可用技术、数据备份和数据一致性处理问题,同时,对云存储基础技术问题进行了剖析。任务教学目标:掌握云存储基础技术任务概要任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。教学内容存储空间管理数据使用及存储存储高可用技术一二三四五

数据备份数据一致性处理存储空间管理知识点一(一)存储空间管理存储空间就是存储的物理空间主要有卷、RAID技术及LUN3种。

(二)卷简单卷是物理磁盘的一部分,通过将卷扩展到相同或不同磁盘上的未分配空间上,以增加现有简单卷的大小。跨区卷是一种和简单卷结构相似的动态卷,其将来自多个磁盘的未分配空间合并到一个逻辑卷中。带区卷由两块或两块以上的硬盘组成,也是一种动态卷。当文件存到带区卷时,系统会将数据分散存于各块硬盘的空间。镜像卷是具有容错能力的动态卷。(三)RAID0(四)RAID1(五)RAID5(六)RAID10(七)RAID技术级别特征原理单元冗余性能利用率最多坏用途缺陷RAID0条带分片分散存入2块硬盘2否读写速度2倍100%0/2SWAP/TMP不冗余,数据难恢复RAID1镜像相同数据存入2块硬盘2是写速度不变读速度2倍50%1/2数据备份读写速度没加,利用率低RAID4校验分片分散存入2块硬盘校验码存入第3块硬盘3是读写速度2倍2/3=66%1/3用的很少1.坏盘时另外2块需要重新计算还原坏盘数据2.校验码盘压力大成为瓶颈RAID5校验分片和校验码混合存储3是读写速度2倍2/3=66%1/3用的不多坏盘时另外2块需要重新计算还原坏盘数据RAID101+02块硬盘1组先做RAID1多组RAID1再做RAID04是读写速度N倍N为组数2/42/41∈2用的最多-数据使用及存储知识点二(一)早期存储设备——纸带(二)早期存储设备——卡片(三)早期存储设备——磁鼓IBM650计算机上的16英寸长磁鼓,有40个磁道,容量10KB,每分钟12,500转。(四)磁盘驱动器(五)存储角色的演变数据的增涨导致了以“计算”为中心到以“数据存储”为中心的的观念革新。存储领域的两个重要转折点:并行存储:比如磁盘阵列技术(RAID)。网络存储:NAS,SAN存储高可用技术知识点三(一)存储高可用技术在高可用技术中,根据不同的应用环境,从性能、经济等方面考虑,主要有双机热备、双机互备、集群并发存取3种。(二)双机热备份方式(三)双机互备方式(四)群集并发存取方式(五)对存储系统的要求双机热备份方式:系统运行时,只有主服务器与存储系统进行数据交换。当发生主机故障切换时,要求存储系统能与备份服务器快速建立数据通道,以支持业务的快速切换。双机互备份方式:系统运行时,两台主机需要同时对磁盘阵列进行读写操作,这要求存储系统具备良好的并发读取能力和一定的负载均衡功能。(五)对存储系统的要求群集并发存取方式:并发处理能力数据共享能力大规模与可扩展性可管理性高可用性(六)数据备份数据备份一般是指利用备份软件把数据从磁盘备份到磁带进行离线保存(最新的备份技术也支持磁盘到磁盘的备份,也就是把磁盘作为备份数据的存放介质,以加快数据的备份和恢复速度)。(六)数据备份数据备份在一定程度上是可以保证数据安全的,但应用于容灾系统时却面临众多问题。备份窗口恢复时间备份间隔数据的可恢复性介质的保管和运送备份的成本数据备份知识点三(一)常规备份实现方式010302备份方式增量备份完全备份差量备份(二)增量备份只有那些在上次完全制定的备份策略自动或手动将数据备份到磁带上。(三)差异备份备份那些从上次完全备份后被修改过的文件。数据一致性处理知识点四(一)数据一致性处理数据一致性是指关联数据之间的逻辑关系是否正确和完整。可以理解为应用程序自己认为的数据状态与最终写入到磁盘中的数据状态是否一致。数据一致性问题文件共享中的数据一致性问题时间不同步引起的数据一致性冋题Cache引起的数据一致性问题任务小结云存储基础技术包括:存储空间管理(卷、RAID技术、LUN技术)数据存储技术存储高可用技术数据备份数据一致性处理拓展训练Xena独立学习OpenStack社区正式发布第24个版本Xena,OpenStack作为广泛部署的开源云基础设施软件,其新版本增加了对新型硬件功能的支持,优化了各类组件间的集成,通过减少技术债务来维护OpenStack软件的稳定可靠性。OpenStack作为全球最活跃的开源项目之一,开发者积极参与并由此构建了一个充满活力的社区,在Xena版本为期25周的开发中,来自125个组织/机构的680多位开发者累计提交了15000项修改。1.阅读2021年10月6日OpenStack社区发布的Xena版本文档。2.了解Xena版本的最新特性。3.尝试安装部署Xena版本。拓展训练1.卷的分类?2.数据的一致性如何处理?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务三浅谈云存储关键技术存储空间管理?数据存储技术?数据备份的分类?如何进行数据一致性处理?回顾任务描述:本节任务对云存储的关键技术:存储虚拟化、分布式扩展模式进行了剖析。任务教学目标:掌握云存储关键技术任务概要任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。教学内容存储虚拟化分布式扩展模式一二存储虚拟化知识点一(一)存储虚拟化将存储资源集中到一个大容量的资源池并实行单点统一管理,无需中断应用即可改变存储系统和数据迁移,提高整个系统的动态适应能力。

(一)存储虚拟化010203存储虚拟化04多租户模型虚拟化感知能力存储虚拟化实施全局访问空间(二)全局访问空间全局访问空间是指将磁盘和内存资源聚集成一个单一的虚拟存储池进行管理,计算节点可以随意地访问到云存储设备空间的任意地方,这种访问釆用同样的访问路径或者方式。(三)多租户模型多租户架构中,每个租户、子租户和用户都可以施加独立的策略,不同层级的策略略有不同,针对不同用途的租户、子租户和用户,可以分别釆用最优的策略,以提升服务质量和运营效率。(四)虚拟化感知能力单数据中心面向数据块的云存储主要服务于虚拟机的环境,运行于计算节点之上的虚拟机会根据负载、故障和节能等种种情况下在不同的物理机之间进行飘动。支持这种飘动的实现需要共享的存储来得到相应的效率。多数据中心虚拟化感知能力发生在跨数据中心或跨独立的两个或多个云存储设备之间。这种数据流动的能力是通过数据中心间的联邦(指数据中心通过自治和合作,以耦合的方式集成在一起,共同向外提供统一服务的实现)机制来实现的。(五)存储虚拟化实施(五)存储虚拟化实施主要用途:异构存储系统整合和统一数据管理。实现方式:通过在存储域网(SAN)中添加虚拟化引擎实现。优点:与主机无关,不占用主机资源。能够支持异构主机、异构存储设备。使不同存储设备的数据管理功能统一构建统一管理平台,可扩展性好。缺点:部分厂商数据管理功能弱,难以达到虚拟化统一数据管理的目的。部分厂商产品成熟度较低,仍然存在和不同存储和主机的兼容性问题。(六)基于存储设备的存储虚拟化技术主要用途:在同一存储设备内部,进行数据迁移实现方式:在存储控制器上添加虚拟化功能,常见于中高端存储设备。优点:与主机无关,不占用主机资源。数据管理功能丰富。缺点:一般只能实现对本设备内磁盘的虚拟化。不同厂商间的数据管理功能不能互操作。多套存储设备需要配置多套数据管理软件,成本较高。(七)基于网络的存储虚拟化技术主要用途:使服务器的存储空间可以跨越多个异构的磁盘阵列,常用于在不同磁盘阵列之间做数据镜像保护。实现方式:一般由操作系统下的逻辑卷管理软件完成(安装客户端软件),不同操作系统的逻辑卷管理软件也不相同。优点:支持异构的存储系统。不占用磁盘控制器资源。缺点:占用主机资源,降低应用性能。存在操作系统和应用的兼容性问题。主机数量越多,实施/管理成本越高。分布式扩展模式知识点二(一)Scale-Up和Scale-Out扩展(二)分布式扩展模式关键技术高速网络连接技术关键技术分布式文件系统(三)高速网络连接技术以太网(三)高速网络连接技术InfiniBand架构(三)高速网络连接技术基于RapidIO的互联架构RapidIO是由Motorola和Mercury等公司率先倡导的一种高性能、低引脚数、基于数据包交换的互连体系结构,是为满足和未来高性能嵌入式系统需求而设计的一种开放式互连技术标准。(四)RapidIO特性RapidIO①可靠性⑥支持“任意拓扑类型”⑤每个处理器都有自己的内存子系统选择的推送架构④面向大量数据传输的高性能信息传递③100ns交换机直通式延迟②微秒级以下的端到端数据包发送(五)分布式文件系统根据计算环境和所提供功能的不同,文件系统可划分为4个层次:BDAC单处理器单用户的本地文件系统多处理器多用户的本地文件系统多处理器单用户的本地文件系统多处理器多用户的分布式文件系统分布式文件系统(DistributedFileSystem,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统(五)分布式文件系统(六)存储空间管理器带内模式带外模式(七)分布式文件系统的发展NFS和AFSXFSSAN、NASSAN和NAS两种体系结构相结合1980s1990s2000s1995—2000大致分为三个阶段:(八)经典分布式文件系统介绍1.NFS允许网站中的计算机之间通过TCP/IP网络共享资源C/S结构基于RPC协议实现(八)经典分布式文件系统介绍2.AFS主要用于管理分布在网络不同节点上的文件。与普通文件系统相比,AFS的主要特点在于3个方面:分布式、跨平台、高安全性。(八)经典分布式文件系统介绍3.TigerShark/GPFS被设计用于支持大规模实时交互式多媒体应用,如交互电视(InteractiveTelevision,ITV)。GPFS通过共享磁盘结构来实现它的强大的扩展性。(八)经典分布式文件系统介绍支持长时间的文件实时访问大磁盘块写分块数据复制数据一致性数据安全性系统可扩展性3.HadoopHDFS(八)经典分布式文件系统介绍Hadoop是一个基于Java的支持数据密集型分布式应用的分布式文件系统。不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。3.Hadoop

(八)经典分布式文件系统介绍Lustre文件系统是一个高度模块化的系统,主要由3部分组成:客户端(Client)对象存储服务器(ObjectStorageTarget,OST)元数据服务器(MetaDataServer,MDS)。4.Lustre(八)经典分布式文件系统介绍是一个可扩展的分布式文件系统,用于大型的、分布式的、对海量数据进行访问的应用。运行于廉价的普通硬件上,但提供了容错复制功能,可以给大量的用户提供总体性能较高的可靠服务。5.GoogleFS(八)经典分布式文件系统介绍OpenStack是一个项目和一个开源软件。它提供了一个部署云的操作平台或工具集。宗旨在于,帮助组织运行为虚拟计算或存储服务的云,为公有云、私有云,也为大云、小云提供可扩展的、灵活的云计算。6.OpenStackSwift任务小结1、在云存储关键技术中,主要有两方面内容:存储虚拟化和分布式扩展方式。2、存储虚拟化中主要包括全局访问空间、多租户模型、虚拟化感知能力、存储虚拟化实施技术。拓展训练Xena独立学习OpenStack社区正式发布第24个版本Xena,OpenStack作为广泛部署的开源云基础设施软件,其新版本增加了对新型硬件功能的支持,优化了各类组件间的集成,通过减少技术债务来维护OpenStack软件的稳定可靠性。OpenStack作为全球最活跃的开源项目之一,开发者积极参与并由此构建了一个充满活力的社区,在Xena版本为期25周的开发中,来自125个组织/机构的680多位开发者累计提交了15000项修改。1.阅读2021年10月6日OpenStack社区发布的Xena版本文档。2.了解Xena版本的最新特性。3.尝试安装部署Xena版本。拓展训练1.基于存储设备的存储虚拟化技术?2.基于网络的存储虚拟化技术?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务四浅析存储架构什么是存储虚拟化?数据存储的分布式扩展方式?什么是全局访问空间?什么是多租户模型?回顾任务描述:本节任务对典型的DAS、NAS、SAN存储架构进行了剖析,并对几种存储架构进行了比较。任务教学目标:了解DAS架构了解NAS架构了解SAN架构任务概要任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。教学内容DAS架构NAS架构SAN架构一二三四DAS、NAS和SAN的比较DAS架构知识点一(一)直连式存储(DAS)一种直接与主机系统相连接的存储设备,如作为服务器的计算机内部硬件驱动。(二)服务器种类—硬盘驱动器台式机架式刀片式(三)DAS—优点高性能。服务器—存储,不通过网线,没有网络结构。而是直接连接。可作本地启动盘。而ssd固态盘的流行,优点更明显。大容量存储。多个磁盘组合成一个逻辑盘,即raid。提高存取性能。操作单个文件资料,同时多个物理硬盘并行工作。实施简单:无须专业人员操作和维护,节省用户投资。(四)DAS—使用环境DAS使用环境服务器在地理分布上很分散通过SAN(存储区域网络)或NAS(网络直接存储)在它们之间进行互连非常困难时。01存储系统必须被直接连接到应用服务器上时eg:MicrosoftClusterServer02包括许多数据库应用和应用服务器在内的应用它们需要直接连接到存储器上,群件应用和一些邮件服务也包括在内。03(五)DAS—缺点扩展性差。服务器与存储设备直接连接的方式导致出现新的应用需求时,只能为新增的服务器单独配置存储设备,造成重复投资。资源利用率低。DAS方式的存储长期来看,存储空间无法充分利用,存在浪费。可管理性差。DAS方式数据依然是分散的,不同的应用各有一套存储设备。管理分散,无法集中。异构化严重。DAS方式使得企业在不同阶段采购了不同型号、不同厂商的存储设备,设备之间异构化现象严重,导致维护成本居高不下。NAS架构知识点二(一)网络存储设备(NetworkAttachedStorage)NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的机制。(二)NAS—优点01NAS可以即插即用02NAS通过TCP/IP网络连接到应用服务器03专用的操作系统支持不同的文件系统,提供不同操作系统的文件共享。04经过优化的文件系统提高了文件的访问效率,也支持相应的网络协议。(三)3.NAS—缺点01NAS设备与客户机通过企业网进行连接,因此数据备份或存储过程中会占用网络的带宽。02NAS的可扩展性受到设备大小的限制。03NAS访问需要经过文件系统格式转换,所以是以文件一级来访问的,不适合Block级的应用,尤其是要求使用裸设备的数据库系统。SAN架构知识点三(一)存储区域网络(StorageAreaNetwork)指存储设备相互连接且与一台服务器或一个服务器群相连的网络。接口连接设备通信控制协议SAN(二)SAN依据存储局域网类型分为FCSAN和IPSAN1.光纤交换机2.HBA主机总线适配卡1.以太交换机FC:FibreChannel光纤通道(三)光纤和网线光纤:单模(黄色),多模(橙色)单模距离:大约10-20公里多模距离:几百米-2公里网线:传输距离不超过100米(四)FCSANFCSAN的特点:1、FCSAN扩大服务器和存储之间距离2、FCSAN传输距离通常不超50公里3、FCSAN互操作性是主要问题4、存储价格贵,需要HBA卡IPSAN的优势:1、千兆/万兆交换机替代光纤交换机2、客户端的iSCSI卡替换HBA卡3、iSCSI接口存储设备替换光纤磁阵4、IPSAN扩展性更好FC-HBA卡ISCSI-HBA卡(五)SAN误区早期的SAN存储系统多数由FC存储设备构成,导致很多用户误以为SAN就是光纤通道设备。SAN代表的是一种专用于存储的网络架构,与协议和设备类型无关。(六)SAN优点设备整合数据集中高扩展性总体拥有成本低SAN优点DAS、NAS和SAN的比较知识点四(一)DAS、NAS和SAN的比较NAS、SAN与CAS的比较知识点五(一)全局访问空间内容寻址存储(ContentAddressedStorage,CAS)具有面向对象存储特征,基于磁记录技术,它按照所存储数据内容的数字指纹寻址,具有良好的可搜索性、安全性、可靠性和扩展性。(二)SAN、NAS与CAS比较任务小结1、直连式存储(DAS):这是一种直接与主机系统相连接的存储设备,如作为服务器的计算机内部硬件驱动。2、NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的机制。3、存储区域网络(SAN)是指存储设备相互连接且与一台服务器或一个服务器群相连的网络。4、SAN由3个基本的组件构成:接口、连接设备和通信控制协议。拓展训练Xena独立学习OpenStack社区正式发布第24个版本Xena,OpenStack作为广泛部署的开源云基础设施软件,其新版本增加了对新型硬件功能的支持,优化了各类组件间的集成,通过减少技术债务来维护OpenStack软件的稳定可靠性。OpenStack作为全球最活跃的开源项目之一,开发者积极参与并由此构建了一个充满活力的社区,在Xena版本为期25周的开发中,来自125个组织/机构的680多位开发者累计提交了15000项修改。1.阅读2021年10月6日OpenStack社区发布的Xena版本文档。2.了解Xena版本的最新特性。3.尝试安装部署Xena版本。拓展训练1.DAS?2.NAS?3.SAN的架构?4.NAS的架构?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务五浅析对象存储系统什么是DAS?NAS存储架构?SAN存储架构?SAN存储的优势和缺点?回顾任务描述:本节任务阐述了对象存储系统,剖析了对象存储与传统存储的差异,最后介绍了软件定义存储(SDS)和典型的对象存储系统OpenStackSwift。任务教学目标:了解结构化数据与非结构化数据了解对象存储与传统存储了解为什么要用OpenStackSwift任务概要任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。教学内容结构化数据与非结构化数据对象存储系统定义对象存储与传统存储一二三四软件定义存储(SDS)五为什么是OpenStackSwift结构化数据与非结构化数据知识点一(一)结构化数据结构化数据部分1部分2……互相关联层次分明例如:数字,符号;关系型数据库(二维表)场景:财务系统、医疗数据库、教育一卡通等(一)结构化数据数据库的二维表Execl的电子成绩单二维:有行有列图书馆:图书管理软件(二)半结构化数据半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。<name>A</name><age>13</age><gender>female</gender></person><person><name>B</name><gender>male</gender></person>常见的半结构数据有XML和JSON,对于对于两个XML文件,

第一个可能有第二个可能有(三)非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据。场景:医疗影像系统、教育点播系统,文件服务器等

A图像B文本C视频D超媒体E非关系型数据库(三)非结构化数据非结构化数据的存储要求持续性可访问性低成本可管理型(四)结构化数据与非结构化数据完全结构的数据如:关系型数据库面向对象数据库中的数据完全无结构的数据如:声音图像文件半结构的数据如:HTML文档对象存储系统定义知识点二对象存储系统定义1.对象不是要管理块和文件,纯粹的对象存储系统管理的是对象。更精确的讲,所有现在的对象存储系统把文件作为对象来管理。2.元数据对象由元数据(可提供对象中数据的上下文关系信息)、有效负载和实际数据组成。3.固定对象纯对象存储代表一个固定内容的仓库,意味着对象可以被创建、删除和读取,但不能被修改。4.冗余性对象存储通过在多个节点上存储相同对象的多个副本实现冗余性和高可靠性。对象存储系统定义5.协议支持对象存储通常通过基于HTTP协议的RESTAPI访问。6.应用软件支持与集成访问对象存储依赖于RESTAPI,除了客户化应用程序集成,一些商业应用,特别是备份和归档应用,已经增加了对于对象存储集成的支持,主要连接到AmazonS3云存储。7.云功能通过互联网进行共享访问;多租户和不同用户数据的安全隔离;云的计量和收费的自动跟踪。8.用例对象存储在经常变化的非常大的非结构化数据存储中工作的非常好,也可作为不活跃数据的交易存储层之外的存储层,或者是归档存储。对象存储与传统存储知识点三(一)各存储系统比较

块存储文件存储对象存储传输单位块文件对象:携带自定义元数据的文件传输协议光纤,iSCSI,SATACIFS&NFS基于HTTP的REST/SOAPAPI云数据固定属性固定文件属性支持自定义云数据适用场景交易数据和高频次改变的数据文件数据简易存储及共享内容长项交易数据简单访问、易于管理可扩展性和分布式访问文件修改可在存储上即时更改文件可在存储上即时更改文件额外的对象会被创建限制难以跨数据中心扩容在十亿节点下,元数据和扩展性会成为瓶颈并不是为了高频次操作的数据设计的(二)对象存储分类具备云功能的水平扩展NAS第二代对象存储系统CAS对象存储分类020301(三)对象存储组成结构对象存储系统存放容器A=ID1容器B=ID2……对象1=ID3对象2=ID4……对象存储系统:容器(Bucket)+对象(Object)+(四)对象存储—分层结构对比扁平化的更少的元数据存储和访问(五)对象存储—特点1容量:TB-EB数量:十个-百亿对象字节:数个-万亿字节超强扩展性2动态数据保护级别-保留期限-复制分数等基于策略自动化管理3同一种架构,同一套系统不同用户,不同应用多租户4后台数据扫描完整性校验自动化对象修复完整性/安全性(六)对象存储—应用场景1存储资源池2网盘应用3集中备份4归档和分级存储软件定义存储(SDS)知识点四(一)软件定义存储(SDS)是一种数据存储方式,所有存储相关的控制工作都仅在相对于物理存储硬件的外部软件中,在一个服务器上或者作为操作系统(OS)或hypervisor的一部分。(二)SDS系统一共分为4个层次01存储路由(Storagerouting)02存储韧性(Storageresilience)03物理硬件(physicalhardware)04带外控制器(Out-of-bandcontroller)(三)软件定义存储的优点SDS系统可以高效地管理存储规模,提髙基础设施的运营效率。软硬件的解耦合允许在标准服务器硬件之上构筑一个统一的存储系统。SDS解决方案通常是开源的,这意味着更好的标准、更多的工具,以及避免锁定到单一供应商那里。为什么是OpenStackSwift知识点四为什么是OpenStackSwift是一种全新的存储系统可以安装在所谓的商品硬件之上Swift是一个对象存储系统Swift拥有广泛的用途Swift任务小结实现对象存储的多种方式:CAS、第二代对象存储系统、具备云功能的水平扩展NASSDS方案是存储非结构化数据的最佳选择:存储路由(Storagerouting)存储韧性(Storageresilience)物理硬件(physicalhardware)带外控制器(Out-of-bandcontroller)Swift是一个对象存储系统,可以安装在所谓的商品硬件(commodityhardware)之上,是一个在保障数据可用性前提下易于扩展容忍故障的分布式系统。拓展训练Xena独立学习OpenStack社区正式发布第24个版本Xena,OpenStack作为广泛部署的开源云基础设施软件,其新版本增加了对新型硬件功能的支持,优化了各类组件间的集成,通过减少技术债务来维护OpenStack软件的稳定可靠性。OpenStack作为全球最活跃的开源项目之一,开发者积极参与并由此构建了一个充满活力的社区,在Xena版本为期25周的开发中,来自125个组织/机构的680多位开发者累计提交了15000项修改。1.阅读2021年10月6日OpenStack社区发布的Xena版本文档。2.了解Xena版本的最新特性。3.尝试安装部署Xena版本。拓展训练1.对象存储的定义?2.实现对象存储的几种方式?3.为什么SDS方案是存储非结构化数据的最佳选择?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务六走进Swift什么是DAS?NAS存储架构?SAN存储架构?SAN存储的优势和缺点?回顾任务描述:本节任务对OpenStackSwift对象存储组件进行了系统的阐述,剖析了Swift的特性、典型应用场景和Swift组件的支撑技术CAP理论。任务教学目标:了解Swift特性了解Swift应用场景了解CAP理论任务概要任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。教学内容Swift简介Swift的特性Swift应用场景一二三四CAP理论简介五知识拓展:CAP理解Swift简介知识点一(一)Swift的简介(一)Swift的简介(二)Openstack官网Openstack官网:https:///queens/(三)Openstack界面(四)Swift开发历史2009年,一组在RackSpace工作的开发者和工程师针对快速增长的数据而开始Swift的研发。经过一年多努力,他们开发出了一个可以替代原有存储系统的对象存储系统。Swift的目标是创建一个类似于Amazon的S3(SimpleStorageService)的可以运行在云计算环境下的简单存储系统,能够存储PB级的数据并且高度可用。2010年7月,RackSpace将Swift的代码贡献给了OpenStack社区,至此,Swift成为了一个开源的超量存储系统。(五)Swift商业发展Swift在一些本土互联网公司有一些成功的应用,包括新浪、美团、爱奇艺、凤凰网等。国外的应用更为广泛。早在2010年,Swift就迎来了第一个Rackspace之外的商用案例——韩国电信,大家很熟悉的维基百科、ebay等也是Swift的用户。随着互联网技术的应用架构逐渐被传统行业接受,对象存储和Swift将受到越来越广泛的关注。从OpenStackKilo版本的数据来看,Swift社区呈现出多元化的特点而且正在健康的发展。(五)Swift商业发展Swift的特性知识点二(一)Swift的特性存放大量非结构化数据、支持多租户、可以高扩展的持久性对象存储系统。Swift通过RESTAPI来存放、检索和删除容器中的对象。可扩展性高并发对称系统架构数据持久性设备要求低管理友好性开发的友好性7个OpenStack官网中,列举了Swift的20多个特性(二)极高的数据持久性定义:可理解成数据的可靠性。是指数据存储到系统中后,到某一天数据丢失的可能性。例如:AmazonS3的数据持久性是11个9。即如果存储1万(4个0)个文件到S3中,1千万(7个0)年之后,可能会丢失其中1个文件。Swift:在数据复制3份的情况下,数据持久性的SLA能达到10个9。(二)极高的数据持久性Swift:独特的、分布式的架构设计。对象1对象1对象1对象1集群区域A区域B区域C写操作:至少两个副本完成,一个写操作才算完成。审计器:保证数据不会出故障。复制器:保证对象在集群中有足够副本。(三)完全对称的系统架构定义:Swift的各节点完全对称,从而极大地降低系统维护成本。(去中心化)武汉机房单点故障Swift元数据存储是完全均匀随机分布,存储多份。整个Swift集群中没有一个角色是单点的,架构设计上保证无单点业务。(四)可扩展性1数据存储容量2性能(吞吐量)由于Swift的对称设计架构,扩容只需简单地添加机器,系统自动化完成数据迁移,促使各存储节点重新达到平衡状态。(五)高并发为满足Web应用需要,只有大量存储空间是不够的,更重要是存储系统可以支持高度的并发性。Swift通过采用“无共享”的方法以及其他方法来提高处理高并发的能力。(六)硬件设备要求低集群中单个设备的可靠性不那么重要,所以可以在普通的硬件设备上。根据应用程序对错误的容忍度以及更换故障设备的能力,来选用不同质量和配置的硬件。(七)开发的友好性Swift可以通过互联网直接使用。同时为多个应用提供数据存储服务。应用开发者:专注开发应用,不用担心数据存储问题。Swift小功能概览:静态网站托管自动作废对象有时间期限的URL资源限量直接通过HTML表格上传版本控制多区域读访问控制列表(八)管理友好性低价标准设备高性能高容量高持久性架构优美代码简介多测试日志体现Swift应用场景知识点三(一)Swift应用场景1云平台虚拟机镜像存储引擎例子:openstack私有云、dropbox普通非结构化数据资料例子:大量的公司或企业(二)Swift应用场景2数据分析例子:医药-财务-大数据公司备份、归档和灾难恢复例子:所有用户

(三)Swift应用场景静态网站托管例子:网站公司、创业公司等CAP理论简介知识点四(一)背景云存储世界中的用户需求那么多有没有一种万能的存储系统可以满足所有可能?(二)用户需求(CAP)一致性(Consistency):源数据变,副本同步更新可用性(Availability):操作可以,立马相应分区容错性(Partition-tolerance):网络不互通的承受能力大数据中的分布式系统:不可能同时满足这三种需求!!!(三)分布式存储—示意图武汉上海北京写??(三)分布式存储—示意图副本B和C,一致or不一致第1种等到B、C三份数据一致后返回强一致性第2种读操作立即返回,容忍BC和A读取不一致弱一致性结论:副本越多,耗时更长,可用性(立即返回数据能力)越差!结论:可用性明显提高,副本也可以读,但一致性差!知识拓展:CAP理解知识点五C-A-P关系解释断开数据A例子:若数据A只在节点1保存。分区后,其他的不能访问。无法容忍!做法:数据A多复制副本,分区出现,会分布多个区域!容忍度提高!分区:原本不同节点互通,因为故障,不通,最后分成几个独立区域!多副本——数据可能不一致?要一致——等待全部数据更新成功——可用性问题?C-A-P总结满足:分区容忍度加副本可能:数据不一致性数据完全一致若复制时间足够不能及时响应可用性差应用—开发云存储架构根据业务,确定你要C—A—P的哪两个??例子1:银行系统(考虑一致性C),A和P要考虑降低一个。

分布式数据系统,分区容错性P肯定需要。则放弃A,考虑CP。例子2:Web网站(考虑可用性A),C和P要考虑降低一个。

分布式数据系统,分区容错性P肯定需要。则放弃C,考虑AP。而Swift存储系统:考虑AP,放弃C。强调“最终一致性”任务小结1.Swift应用场景:引擎、普通存储、数据分析、备份和托管等。3.Swift特性主要包括数据持久性、对称架构等七个。3.CAP是设计分布式存储架构的基础经典理论。拓展训练Xena独立学习OpenStack社区正式发布第24个版本Xena,OpenStack作为广泛部署的开源云基础设施软件,其新版本增加了对新型硬件功能的支持,优化了各类组件间的集成,通过减少技术债务来维护OpenStack软件的稳定可靠性。OpenStack作为全球最活跃的开源项目之一,开发者积极参与并由此构建了一个充满活力的社区,在Xena版本为期25周的开发中,来自125个组织/机构的680多位开发者累计提交了15000项修改。1.阅读2021年10月6日OpenStack社区发布的Xena版本文档。2.了解Xena版本的最新特性。3.尝试安装部署Xena版本。拓展训练1.Swift的特性?2.CAP经典理论?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务七Swift工作原理Swift的特性?Swift的应用工作场景?CAP定义?CAP理论?回顾任务描述:本节任务对Swift的概念、工作原理进行了系统阐述,剖析了Swift的总体架构以及虚节点和环的工作原理。任务教学目标:了解Swift核心概念及架构理解Swift工作原理任务概要任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。教学内容核心概念总体架构Swift的工作原理一二三核心概念知识点一(一)Swift逻辑结构账号A账号B账号C容器容器容器对象对象(二)SwiftURLURL:网址形式的访问具体信息的方式。对Swift的服务请求都是通过RESTAPI用URL的访问。例子:/v1/account/container/object账号容器对象(三)账号账号:一个租户。它可以是个人、部门或公司等。

Swift通过创建账号使多个用户和应用可以同时并发地使用存储系统。账号的数据库存储下属,容器信息(名称、创建日期等)(四)容器容器:类似于文件系统中的目录。容器的数据库存储下属,对象信息(名称、创建日期等)【注意:同一账号,不同容器名称不同账号,相同容器名称】(五)对象对象:类似于文件系统中的文件。对象存储核心信息(图片、录像、日志等)文件总体架构知识点二公网私网代理节点存储节点URL请求(一)Swift部署架构(二)代理服务器Proxyserver对外的SwiftRESTAPI接口负责处理对swift的所有请求至少两台代理服务器(HTTP服务器)对内连接和通信swift集群中每个组件查询账号-容器-对象位置,并反馈对外对内(四)总体架构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论