《大数据存储技术与应用》全套教学课件_第1页
《大数据存储技术与应用》全套教学课件_第2页
《大数据存储技术与应用》全套教学课件_第3页
《大数据存储技术与应用》全套教学课件_第4页
《大数据存储技术与应用》全套教学课件_第5页
已阅读5页,还剩688页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据存储技术与应用》全套可编辑PPT课件课程核心知识:大数据存储基础知识、云存储服务、结构化数据存储技术、半结构化数据存储技术、非结构化数据存储技术的技能要素。课程介绍:以能力为本位、以职业实践为主线、以项目课程为主体。培养技能目标:大数据存储基础知识、大数据存储架构、大数据存储服务等技能要素。课程简介课时分配基础篇大数据存储技术与应用5G时代背景下,新一代信息技术正在不断的影响着社会生产和人民的生活。洞察数据价值,储存数据资源,挖掘数据金矿,是时代赋予大数据工程师的特殊使命。篇章引入章节任务大数据存储技术与应用项目一走进大数据存储任务一走进大数据全套可编辑PPT课件Linux系统安装和部署?Linux网络环境的配置?Linux网络服务的配置?Linux常用的系统管理命令?回顾任务引入-大数据疫情防控大数据在疫情防控指挥过程中发挥了哪些作用?大数据行程卡如何标注我们的行程动态?大数据如何发现密切接触者?大数据在疫苗接种过程中发挥的作用?任务引入-大数据疫情防控任务描述:在学习大数据存储之前,首先要理解“大数据”的概念,熟悉大数据分类,随后进一步理解大数据处理的流程。任务教学目标:了解大数据的定义了解大数据的特征掌握大数据处理流程任务概要教学内容大数据概念与特征大数据分类大数据处理流程一二三大数据概述知识点一(一)什么是大数据?1.什么是大数据在信息技术中,“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。低价值密度多样高速大量真实大数据5V特征(二)大数据的特征大数据5V特征:Volume(大量)Velocity(高速)Variety(多样)Veracity(真实)Value(低价值密度)(二)大数据的特征1.大量数据单位之间的换算关系单位换算关系Byte(字节)1Byte=8bitKB(Kilobyte,千字节)1KB=1024ByteMB(Megabyte,兆字节)1MB=1024KBGB(Gigabyte,吉字节)1GB=1024MBTB(Trillionbyte,太字节)1TB=1024GBPB(Petabyte,拍字节)1PB=1024TBEB(Exabyte,艾字节)1EB=1024PBZB(Zettabyte,泽字节)1ZB=1024EB企业海量数据集,已经达到10TB~PB级数据规模。(二)大数据的特征172.数据种类多数据来自多种数据源,数据的类型和格式逐渐丰富,已打破了以前所限定的结构化;数据多样性的增加主要是由于新型多结构数据;大数据具有多层结构,主要是因为大数据会呈现出多变的形式和类型。3.处理速度快4.数据精度高5.价值密度低INTERNETOFANYTHING大数据分类知识点二(一)按结构化特征分类19结构化数据半结构化数据非结构化数据(二)按数据处理时效性分类20实时处理数据、准实时处理数据和批量处理数据。(三)按按存储方式分类21关系数据库存储、键值数据库存储、列式数据库存储、图数据库存储、文档数据库存储等。(四)按交换方式分类22ETL(extract,抽取;transform,转换;load,加载)方式、系统接口方式、FTP方式、移动介质复制方式等。大数据处理流程知识点三从数据分析全流程的角度,大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。概要大数据技术大数据采集大数据治理大数据存储分析与应用大数据分析大数据应用日志数据业务数据设备数据其他数据数据清洗数据转换数据集成结构化数据存储半结构化数据存储非结构化数据存储大数据技术数据抓取数据导入传感设备自动信息采集(一)大数据采集INTERNETOFANYTHING(二)大数据治理现实世界中数据大体上都是不完整、不一致的“脏”数据,无法直接进行分析和应用,或分析结果差强人意,为了提高数据的质量,产生了数据治理技术。(三)大数据存储通过构建大数据存储系统对各阶段海量数据进行有效存储。(四)分析与应用利用大数据分析计算、数据可视化等技术对海量数据进行分析计算和应用。本章从大数据的基本概念出发,阐述了大数据的5V特征、大数据的分类与处理流程。针对大数据存储存在的问题,详细阐述了大数据存储架构、技术路线、关键技术,并结合德拓大数据处理平台讲解了大数据存储技术的应用领域。包括如下内容:1.大数据概念:定义、分类。2.大数据处理流程:采集、治理、存储、分析与应用。任务小结课外研读大数据标准独立学习到今天,我们国家已经有12项大数据国家标准正式获批发布。我们可以通过研读《GB/T38667-2020信息技术大数据数据分类指南》标准来识别数据的类别,国家大数据标准由全国信息技术标准化委员会组织专家进行撰写更新。通过研读《合作式智能交通系统车用通信系统应用层及应用数据交互标准》来研究5G+智慧交通应用数据交互的格式。1.大数据的5V特征?2.大数据的分类?3.描述大数据的处理流程?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目一走进大数据存储任务二走进大数据存储技术什么是大数据?大数据的5V特征?大数据的分类?大数据的处理流程?回顾5G时代的到来,各种数据呈几何级增加,数据已然成为一种非常宝贵的战略资源备受关注。大数据存储与管理技术成为大数据技术中的主要问题之一。任务引入上网购物会产生哪些数据?每日出行会产生哪些数据?个人拨打电话、微信会产生哪些数据?视频监控会产生哪些数据?任务引入-5G时代的大数据任务描述:本节阐述了大数据存储架构和大数据存储技术路线,分析了大数据存储技术,介绍了大数据存储发展过程中的几种大数据存储系统。任务教学目标:理解大数据存储系统架构理解大数据存储技术路线掌握大数据存储架构、存储技术的具体应用任务概要教学内容按技术分类按数据结构分类一二按技术分类知识点一(一)大数据存储技术概述42改进现有的数据存储与管理技术,以满足大数据应用中数据被高效、安全地长期保存、快速管理、实时调用和实时处理的需求,是大数据技术中的主要问题之一,也是大数据存储的目标所在。按技术分类基于嵌入式架构的存储基于X86架构的存储基于云技术的存储按数据结构分类结构化数据存储架构半结构化数据存储架构非结构化数据存储架构(二)大数据存储架构1.存储架构分类节点NVR(NetworkVideoRecorder,网络硬盘录像机)架构主要面向小型高清监控系统。基于嵌入式架构的存储系统这种架构有存储系统扩展性好、硬件平台通用、数据可充分共享等优点。基于X86架构的存储系统结构模型由4层组成,分别是存储层、基础管理层、应用接口层和访问层。基于云技术的存储方案(二)大数据存储架构2.按技术分类(三)基于嵌入式架构的存储系统45(四)基于云技术的存储方案46云存储系统的结构模型由4层组成,分别是存储层、基础管理层、应用接口层和访问层。按数据结构分类知识点二(一)结构化数据存储架构48大数据存储按照数据结构分为:结构化数据存储架构半结构化数据存储架构非结构化存储架构。典型的结构化数据存储系统:PostgreSQL数据存储系统;GreenPlum并行数据存储系统等。(二)半结构化数据存储系统49典型的半结构化数据存储系统有Redis和ElasticSearch。(三)非结构化数据存储架构50非结构化数据存储是指为文档、视频、音频等非结构化数据设计的存储架构。云存储服务根据教学实际进行选择,在客户端VMWare中安装配置。(三)非结构化数据存储架构51GreenPlum数据库是一种大规模并行处理(MPP)数据库服务器,GreenPlum架构特别适合大规模数据分析、机器学习和AI。大数据存储架构按技术分类可以分为:嵌入式架构、X86架构和云存储架构;按照数据结构分类,可以分为:结构化数据存储架构、半结构化数据存储架构和非结构化数据存储架构。包括如下内容:1.大数据存储:定义。2.大数据存储架构:按技术分类、按数据结构分类。任务小结课外研读国产大数据平台独立学习中兴通讯在数据库领域具备超过十八年的技术积累,自2002年开始先后自主研发文件数据库、内存数据库、分布式数据库等产品并大规模服务电信领域产品;2014年率先拓展金融行业分布式数据库,该产品完全自主研发并获得100多项相关专利。GoldenDB数据库是全场唯一一个通过全部50项测评、并获得满分的选手。1.按技术分类,大数据存储架构有哪些?2.什么是嵌入式存储架构,应用场景有哪些?3.简述云存储架构?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目一走进大数据存储任务三走进大数据存储应用大数据存储架构?嵌入式存储架构,应用场景?云存储架构?非结构化存储架构?回顾5G时代的到来,各种数据呈几何级增加,数据已然成为一种非常宝贵的战略资源备受关注。大数据已经应用到各个领域。任务引入大数据在电力领域的具体应用?大数据在农业领域具体的应用?大数据在医疗领域具体的应用?大数据在教育领域的具体应用?任务引入-大数据应用任务描述:本节任务以医疗和电力系统为案例,阐述了大数据存储技术在行业领域的具体应用。任务教学目标:了解大数据存储技术在医疗系统中的应用了解大数据存储技术在电力系统中的应用理解大数据存储架构、存储技术的具体应用。任务概要教学内容大数据存储技术应用智能大数据处理平台医疗大数据融合平台智慧国土大数据融合平台能源电力大数据融合平台一二三四五大数据存储技术应用知识点一大数据存储技术应用64如今,大数据技术已广泛应用于工业、能源、医疗、金融、电信、交通等行业,如何整合数据、利用数据创造价值是大数据存储技术的关键点。本节以医疗大数据、能源电力大数据为例,解读大数据存储技术的应用。智能大数据处理平台知识点二智能大数据处理平台66DANA智能大数据开发平台以“数据智能”为目标,着手于“数据是谁”、“数据从哪里来”、“数据到哪里去”三个基本问题,提供大数据基础开发平台,让用户更好的应用和组织数据,为开发者和公司提供更加容易运营、开发、部署应用的环境,用户也不再需要关心和管理私有云的基础设施,包括网络、存储、服务器、开发服务等。智能大数据处理平台671.数据集成提供数据库、文件、日志、网页、实时流数据的抽取、清洗、转换方案。2.数据库服务提供大数据时代稳定可靠、可弹性伸缩的数据库服务。Stock数据库引擎根据不同业务开发对各类数据库的需求,提供便捷统一的数据库管理、使用、监控、运维等服务。Lemur是基于内存存储的高性能结构化数据库,支持标准SQL语法,可提供每秒百万级别的交互事务,更提供高效的实时数据分析能力。Teryx帮助构建PB级别的分布式OLAP数据仓库。智能大数据处理平台683.存储服务Fox文件系统提供无限扩展、NAS协议标准文件存储服务。Boa块存储提供高性能、高可靠的块级随机存储。Cayman非结构数据仓库提供私有对象存储和高效率的非结构化数据管理。智能大数据处理平台694.大数据处理服务DANA平台提供丰富和强大的数据处理服务引擎,例如:Eagles实时搜索与分析引擎实现海量实时在线快速搜索和准确分析服务。Phoenix消息中间件低延时、高性能的特点轻松应对海量消息的发送和接收,服务于大数据领域中数据管道、曰志服务、流处理数据中心等应用方案。智能大数据处理平台70Eel流媒体引擎支持RTMP、RTSP,HTIP、HLS等多种流媒体协议,轻松实现多媒体文件的直播、点播以及虚拟直播等功能。Dodo调度引擎以接流程自动调用组件的形式帮助处理分布式任务的调度、执行和监控。智能大数据处理平台71Mustang实时流计算引擎,基于SparkStreaming实时流计算框架,满足所有对实时性要求富的流计算应用场景和系统需求。Leopard智能媒体数据处理引擎针对海量文档、图片、音视频等数据进行有效快速处理。医疗大数据融合平台知识点三医疗大数据融合平台73随着大数据在互联网、电子商务、公共服务等行业的成功应用,医疗卫生行业的信息化也迎来自己的“大数据时代”。目前,医疗卫生系统的信息化日趋成熟,但随着省级医院与基层、公共卫生机构之间的数据共享和互联互通建设的推进,数据数量的增加、数据所需处理速度的提高、数据类型和标准的多样化、系统之间的数据孤岛等问题逐渐显现。医疗大数据融合平台74医疗大数据平台帮助医院取得如下几个方面的成果和业务价值:数据孤岛打通。患者健康档案。医务人员绩效管理。全面数据分析。高效决策支持。智慧国土大数据融合平台知识点四智慧国土大数据融合平台76各级国土部门在国家省、市、县等基础上,基本建成以全国遥感建设一张图,综合监管平台、公共服务平台为主题的国土资源信息化框架体现,积累了海量的国土、人事、事件、财务等数据。当前需要在现有数据基础上,利用超融合、云计算等技术,解决数据计算和存储的问题,实现国土信息化由传统的以业务需求建设为主转向以数据驱动为民众带来更优化服务体验的目标。智慧国土大数据融合平台77智慧国土大数据融合平台的建设,其主要应用价值:分布式集群实现底层架构无限扩张,多副本机制确保数据安全可靠。解决因业务口径不同而产生的数据标准不统一、类型不匹配、格式不一致、语义不一致等问题。从各个环节、各个维度进行记录、管控、分析。让数据分析成为决策的第一手科学依据。能源电力大数据融合平台知识点五能源电力大数据融合平台79电力行业是国民经济的命脉,但我国电力工业面临能源枯竭、温室气体排放和严重雾霾的三重挑战,以投资劳动增长的发展方式已难以为继。虽然衡量我国电力工业发展的重要指标—装机容量始终在增长,但是其增速已经大大放缓。一方面,电力工业近年来快速增长透支的产品需要时间来慢慢消化;一方面,我国电力需求的增速也在逐步放缓。这就要求根据新的形势和国际规则探索新的发展模式,迎接所面临的各种挑战。能源电力大数据融合平台80通过电力大数据融合平台的建设,可以最大限度地发挥数据的价值。大力提升生产集约化和管理现代化水平提高智能电网的信息化水平增强操作控制的自动化能力提升用电服务的互动化水平大数据技术已广泛应用于各个行业,如何整合数据、利用数据创造价值是大数据存储技术的关键点。本节对大数据存储技术的典型应用进行了介绍,对大数据存储应用的平台价值进行了剖析。包括如下内容:1.大数据存储技术应用。2.智能大数据处理平台。3.大数据典型应用案例。任务小结调研要求:调研我国大数据存储技术的产业化情况。调研了解我国大数据存储主流技术及产品特性。要求:

各学员通过调研、搜集网络数据等方式完成。

考核方式:

针对国产大数据存储主流技术之一所带来的影响,学员从不同角度进行讨论,提出国产大数据存储技术未来的发展方向。作业调研国产数据存储产业现状1.医疗大数据平台帮助医院取得哪几个方面的成果和业务价值?2.概述内存计算?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目二浅析大数据存储技术任务一浅析文件系统大数据存储架构?嵌入式存储架构,应用场景?云存储架构?大数据在医疗领域的应用?回顾任务引入-计算机系统计算机系统中有各种存储器,如CPU内部的通用寄存器组、CPU内的Cache(高速缓存)、CUP外部的Cache、主板上的主存储器、主板外的联机(在线)磁盘存储器以及脱机(离线)的磁带存储器和光盘存储器等。任务描述:在LINUX系统中有一个重要的概念:一切都是文件。在UNIX系统中,把一切资源都看作是文件,包括硬件设备。任务教学目标:了解文件系统的核心了解访问文件的流程了解日志文件系统XFS文件系统任务概要教学内容文件系统的作用文件系统的核心概念访问文件的流程一二三日志文件系统四XFS文件系统五文件系统对比六文件系统的作用知识点一文件系统是一种存储和组织数据的方法,它使得对数据的访问和查找变得容易。01文件系统通常使用硬盘和光盘等存储设备,也可能仅仅是一种访问数据的界面。02文件系统向用户提供底层数据访问的机制。03文件系统的概述文件系统的核心概念知识点二文件系统的核心概念文件名元数据(Metadata)inodePosixindode硬链接软链接LinuxVFSFHS文件读写执行属性文件系统的核心概念硬链接软链接文件系统的核心概念$chmod[options]mode[,mode]file1[file2...]chmod的八进制语法的数字说明:r4w2x1-0chmod使用语法举例:访问文件的流程知识点三1234命令只传递了一个绝对路径通过inode-table寻找父路径在父目录表中寻找对应文件inode查找到inode指定文件访问文件的流程日志文件系统知识点四(一)日志文件系统在文件系统发生变化时,先把相关的信息写入一个被称为日志的区域,然后再把变化写入主文件系统的文件系统。在文件系统发生故障(如内核崩溃或突然停电)时,日志文件系统更容易保持一致性,并且可以较快恢复。在回写模式中,只有元数据被记录到日志中,数据会被直接写入主文件系统。这种模式能提供较好的性能,不过有较大的风险。回写在顺序模式中,只有元数据被记录到日志中,但在日志被标记为提交前,数据会被写入文件系统。顺序在数据模式中,元数据和文件内容都先被写入日志中,然后在提交到主文件系统。数据(二)日志的级别XFS文件系统知识点五(一)XFS历史103XFS,一种高性能的日志文件系统,最早于1993年,由SiliconGraphics为他们的IRIX操作系统而开发,是IRIX5.3版的默认文件系统XFS特别擅长处理大文件,同时提供平滑的数据传输。(二)XFS特性容量大1对文件系统元数据提供了日志支持2分配组提供了可伸缩和并行特性3条带化分配4基于Extent的分配方式5可变块尺寸6延迟分配7稀疏文件8(三)文件系统对比1.FAT文件系统的数据访问方式(二)文件系统对比2.Ext2文件系统的数据访问方式本章从文件系统的基本概念出发,阐述了文件系统的作用、核心概念、访问流程、日志文件系统、XFS文件系统、文件系统对比。包括如下内容:1.文件系统的作用:概念。2.文件系统核心概念:文件名、元数据、inode、Posixinode、硬链接软链接、LinuxVFS、FHS、文件的读写执行属性。3、访问文件的流程4、日志文件系统、XFS文件系统、文件系统对比。任务小结课外研读大数据标准独立学习到今天,我们国家已经有12项大数据国家标准正式获批发布。我们可以通过研读《GB/T38667-2020信息技术大数据数据分类指南》标准来识别数据的类别,国家大数据标准由全国信息技术标准化委员会组织专家进行撰写更新。通过研读《合作式智能交通系统车用通信系统应用层及应用数据交互标准》来研究5G+智慧交通应用数据交互的格式。1.简述日志的三个级别?2.XFS文件系统的特性?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目二浅析大数据存储技术任务二

浅析RAID磁盘阵列文件系统?文件系统的作用?XFS?日志文件系统?回顾任务引入-磁盘阵列系统磁盘阵列的英文名称是RedundantArrayofIndependentDisks(RAID),即独立冗余磁盘阵列。RAID可以通过一些技术(软件或硬件)将多个硬盘整合成为一个较大的磁盘设备;而这个较大的磁盘可不止存储功能而已,它还具有数据保护的功能。任务描述:磁盘阵列的英文名称是RedundantArrayofIndependentDisks(RAID),即独立冗余磁盘阵列。任务教学目标:理解硬盘物理结构。了解各种硬盘参数了解数据保护技术了解RAID类型及配置方法任务概要教学内容硬件结构硬盘阵列结构一二硬盘结构知识点一(一)硬盘物理结构磁头:内容磁头是硬盘中最昂贵的部件,也是硬盘技术中最重要和最关键的一环。磁道:当磁盘旋转时,磁头若保持在一个位置上,则每个磁头都会在磁盘表面划出一个圆形轨迹,这些圆形轨迹就叫做磁道。扇区:磁盘上的每一个磁道按512个字节为单位划分为弧段,这些弧段便是磁盘的扇区。柱面:硬盘通常由重叠的一组盘片构成,每个盘面都被划分为数目相等的磁道,并从外缘的“0”开始编号,具有相同编号的磁道形成一个圆柱,称之为磁盘的柱面。平均访问时间磁头从起始位置到到达目标磁道位置,并且从目标磁道上找到要读写的数据扇区所需的时间。转速是硬盘内电机主轴的旋转速度,也就是硬盘盘片在一分钟内所能完成的最大转数。传输速率硬盘读写数据的速度,单位为兆字节每秒(MB/s)。容量作为计算机系统的数据存储器,容量是硬盘最主要的参数。缓存硬盘控制器上的一块内存芯片,具有极快的存取速度,它是硬盘内部存储和外界接口之间的缓冲器。硬盘参数(二)硬盘主要参数(三)硬盘接口种类ATASATAⅢIDESCSISATASASSATA

Ⅱ(三)硬盘接口种类IDE接口STAT接口硬盘阵列结构知识点二(一)硬盘数据保护技术SMARTS.M.A.R.T的全称为“Self-MonitoringAnalysisandReportingTechnology”,即“自我监测、分析及报告技术”。

(一)硬盘数据保护技术DFTDFT(DriveFitnessTest,驱动器健康检测)技术是IBM公司为其PC硬盘开发的数据保护技术。RAID全称为独立磁盘冗余阵列(RdeundantArrayofIndependentDisks),基本思想就是把多个相对便宜的硬盘组合起来,成为一个硬盘阵列组,使性能达到甚至超过一个价格昂贵、容量巨大的硬盘。(一)硬盘数据保护技术(二)盘阵硬件磁盘阵列卡又称RAID卡,一般在配置服务器的时候作为一个内置选配部件,为服务器增添RAID配置功能磁盘阵列卡软件仿真RAID俗称软RAID,是通过CPU计算RAID校验码,以软件控制的方式,在读写数据的时候按照RAID的模式写入多块磁盘软件仿真RAID内通过以太网或者光纤与存储交换机连接,为局域网内的服务器提供存储服务,一般会提供块存储或者NAS服务外接式盘阵(二)盘阵硬件1.磁盘阵列柜(二)盘阵硬件1.RAID磁盘阵列卡(三)RAID类型详解RAID0RAID10和RAID01RAID5RAID13124(三)RAID类型详解RAID0可以把多块硬盘连成一个容量更大的硬盘组,可以提高磁盘的性能和吞吐量。1.RAID0(三)RAID类型详解把一个磁盘的数据镜像到另一个磁盘上,在不影响性能情况下最大限度的保证系统的可靠性和可修复性上,具有很高的数据冗余能力,但磁盘利用率为50%。2.RAID1(三)RAID类型详解奇偶校验(XOR)条带存储,校验数据分布式存储,数据条带存储单位为块。3.RAID5(三)RAID类型详解RAID10是先做镜象,然后再做条带。4.RAID10(三)RAID类型详解RAID01是先做条带,然后再做镜像。5.RAID01(四)RAID配置方法在计算机一开机后立即按下<F2>或<Del>,进入UEFI设置实用程序。(四)RAID配置方法选择创建RAID磁盘卷选项,然后按下<Enter>。(四)RAID配置方法输入磁盘卷名称,然后按下<Enter>或仅按下<Enter>接受磁盘卷名称。(四)RAID配置方法选择所需的RAID级别(四)RAID配置方法选择要加入RAID阵列的硬盘(四)RAID配置方法选择RAID阵列的等量分割大小(四)RAID配置方法选择创建磁盘卷(四)RAID配置方法mdadm工具RAID实验磁盘阵列是大数据存储底层支撑技术,本节任务将从物理磁盘结构开始,系统剖析磁盘、阵列技术和RAID系统配置。包括如下内容:1.硬盘物理结构。2.各种硬盘参数。2.硬盘保护技术。任务小结课外研读大数据标准独立学习到今天,我们国家已经有12项大数据国家标准正式获批发布。我们可以通过研读《GB/T38667-2020信息技术大数据数据分类指南》标准来识别数据的类别,国家大数据标准由全国信息技术标准化委员会组织专家进行撰写更新。通过研读《合作式智能交通系统车用通信系统应用层及应用数据交互标准》来研究5G+智慧交通应用数据交互的格式。1.盘阵硬件样式有哪三种?2.简述RAID0磁盘阵列技术?3.简述RAID5磁盘阵列技术?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目二浅析大数据存储技术任务三

浅析数据安全大数据存储架构?嵌入式存储架构,应用场景?云存储架构?大数据在医疗领域的应用?回顾任务引入-数据丢失8月5日,前沿数控在微博上发表长文《腾讯云给一家创业公司带来的灾难》,文章中表示,“2018年7月20日,我们近千万元级的平台数据全部丢失,包括经过长期推广导流积累起来的精准注册用户以及内容数据,这瞬间将一家创业公司摧毁”。任务描述:本节任务要求从备份策略入手,通过系统学习,对大数据时代的数据安全有一个初步的认识,为后续项目实践打下基础。任务教学目标:了解文件系统的核心了解访问文件的流程了解日志文件系统XFS文件系统任务概要教学内容数据备份策略文件级备份与块级备份Rsync介绍一二三快照技术四数据备份策略知识点一(一)为什么要备份计算机本身也是一个相当不可靠的机器受到恶意攻击人为操作失误132(二)数据备份方式手动备份U盘光盘(二)数据备份方式使用备份程序下载一个备份程序。有免费提供的程序和要购买的程序,但都提供了许多相同的基本功能。使用购买的程序备份数据比手动备份好的其中一个优点是定时和自动化选项。这使可以不用担心数据备份工作。(三)备份的常见策略与关键技术全部备份即把硬盘或数据库内的所有文件、文件夹或数据作一次性的复制。0102指对上一次全部备份或增量备份后更新的数据进行备份。03差异备份提供运行完整备份后变更的文件的备份。增量备份差异备份(三)备份的常见策略与关键技术系统处于停机或维护状态下的备份。这种情况下,备份的数据与系统中此时段的数据完全一致。系统处于正常运转状态下的备份。这种情况下,由于系统中的数据可能随时在更新,备份的数据相对于系统的真实数据可有一定滞后。冷备份热备份对系统的一部分进行备份选择式备份文件级备份与块级备份知识点二(一)文件级备份与块备份概念块级是指以扇区为基础,一个或多个连续的扇区组成一个块,也叫物理块。它是在文件系统与块设备(例如:磁盘驱动器)之间。块级概念(一)文件级备份与块备份概念物理块(驱动层)磁盘驱动器(扇区)逻辑块(文件系统如:NTFS,EXT4,XFS,JFS)132文件级概念:文件级是指文件系统,单个文件可由一个或多个逻辑块组成,且逻辑块之间是不连续分布。逻辑块大于或等于物理块整数倍。块备份备份是以磁盘块为基本单位将数据从主机复制到备机。也就是说每次备份数据都是以一个扇区(512B)为单位来进行备份。文件备份文件备份是以文件为基本单位将数据从主机复制到备机。同样,我们是以一个完整的文件来做为备份单位的。而大小是由文件本身来决定。(二)备份模式的区别备份机制块备份块备份避免了当文件出现一个小的改动的时候,就需要对整个文件做备份,只是会去做改动部分的备份,有效的提高了备份效率,节省了备份时间。文件备份文件备份模式下,文件即使一个很小的改变,也需将整个文件备份。这样如果一个文件很大的情况下,就会大幅度的降低备份效率,增加磁盘开销和备份时间。(二)备份模式的区别高效性块备份块备份可以做到高效的实时备份,这种写入操作都是基于磁盘扇区的,所以,很快就能被识别。文件备份文件备份是很难做到实时备份的,因为它的每次修改都是基于文件的,而文件的哪部分被修改,系统很难实时捕获到。(二)备份模式的区别实时性块备份块备份是在文件系统之下对数据进行复制,所以它不受文件系统限制,可以支持各种文件系统包括RAW分区。文件备份文件备份是以单个文件为单位对数据进行复制,所以它受文件系统限制,仅能对部分支持的文件系统做备份,不支持RAW分区。(二)备份模式的区别支持度Rsync介绍知识点三rsync是类unix系统下的数据镜像备份工具——remotesync。一款快速增量备份工具RemoteSync,远程同步支持本地复制,或者与其他SSH、rsync主机同步。sync概念(一)rsync介绍(二)sync特点可以镜像保存整个目录树和文件系统。可以很容易做到保持原来文件的权限、时间、软硬链接等。无须特殊权限即可安装。第一次同步时rsync会复制全部内容,但在下一次只传输修改过的文件。rsync在传输数据的过程中可以实现压缩及解压缩操作,因此可以使用更少的带宽。可以使用scp、ssh等方式来传输文件,当然也可以通过直接的socket连接。支持匿名传输,以方便进行网站镜象。(三)sync配置概述配置文件/etc/rsyncd.confpath=/home/backup///需要做镜像的目录readonly=yes//只读hostsallow=,0//允许主机hostsdeny=/0//禁止主机logfile=/var/log/rsyncd.log//日志记录文件的存放位置快照技术知识点四快照的作用主要是能够进行在线数据恢复,当存储设备发生应用故障或者文件损坏时可以进行及时数据恢复,将数据恢复成快照产生时间点的状态。快照的作用(一)快照技术概念与作业基于文件系统式基于子系统式的基于卷管理器/虚拟化式(二)快照的三种基本形式即写即拷贝即写即拷快照可以在每次输入新数据或已有数据被更新时生成对存储数据改动的快照。分割镜像快照分割镜像快照引用镜像硬盘组上所有数据。每次应用运行时,都生成整个卷的快照,而不只是新数据或更新的数据。(三)快照的两种类型进行冷快照拷贝是保证系统可以被完全恢复的最安全的方式。在进行任何大的配置变化或维护过程之前和之后,一般都需要进行冷拷贝,以保证完全的恢复原状(rollback)。冷快照拷贝暖快照拷贝利用服务器的挂起功能。当执行挂起行动时,程序计数器被停止,所有的活动内存都被保存在引导硬盘所在的文件系统中的一个临时文件(.vmss文件)中,并且暂停服务器应用。暖快照拷贝发生的所有的写操作都立即应用在一个虚硬盘上,以保持文件系统的高度的一致性。服务器提供让持续的虚拟硬盘处于热备份模式的工具,以通过添加REDO日志文件在硬盘子系统层上复制快照拷贝。热快照拷贝(四)快照的三种使用方法(五)快照与镜像、复制的区别镜像、快照和复制是三种不同的功能。镜像是通过从一个I/O创建两个I/O来复制数据。复制是通过网络传输数据对象(文件)任务小结1.系统角色不同,备份需求也不同,针对个人电脑常用:手动备份、备份到云端。2.在企业里常见的备份策略有:全部备份、增量备份、差异备份、冷备份、热备份。3.块备份是以磁盘块为基本单位将数据从主机复制到备机。4.文件备份是以文件为基本单位将数据从主机复制到备机。5.rsync是类unix系统下的数据镜像备份工具——remotesync。6.快照的作用主要是能够进行在线数据恢复,当存储设备发生应用故障或者文件损坏时可以进行及时数据恢复,将数据恢复成快照产生时间点的状态。课外研读大数据标准独立学习到今天,我们国家已经有12项大数据国家标准正式获批发布。我们可以通过研读《GB/T38667-2020信息技术大数据数据分类指南》标准来识别数据的类别,国家大数据标准由全国信息技术标准化委员会组织专家进行撰写更新。通过研读《合作式智能交通系统车用通信系统应用层及应用数据交互标准》来研究5G+智慧交通应用数据交互的格式。1.简述数据备份的两种类型?2.简述块备份和文件备份的区别?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务一了解云存储起源文件系统的作用?硬盘接口的种类?RAID存储的类型?典型的数据备份策略?回顾任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。任务描述:本节任务阐述了分布式存储、云存储技术的起源和发展,进而介绍了云存储的定义和特点。任务教学目标:了解分布式存储了解云存储起源及发展掌握云存储概念及特点任务概要教学内容什么是分布式存储云存储技术的起源云存储技术的发展一二三四五云存储概念云存储的特点什么是分布式存储知识点一(一)分布式云存储特性01可扩展02低成本03高性能04易用(二)分布式存储系统的挑战容错C负载均衡事务与并发控制压缩/解压缩易用性DEFG数据分布A一致性B

(三)分布式存储数据分类包括所有格式的办公文档、文本、图片、图像、音频和视频信息等。一般存储在关系数据库中,可以用二维关系表结构来表示。结构化数据的模式(Schema,包括属性、数据类型以及数据之间的联系)和内容是分开的,数据的模式需要预先定义。介于非结构化数据和结构化数据之间,HTML文档就属于半结构化数据。它一般是自描述的,与结构化数据最大的区别在于,半结构化数据的模式结构和内容混在一起,没有明显的区分,也不需要预先定义数据的模式结构。非结构化数据结构化数据半结构化数据(三)分布式存储系统分类分布式文件系统1分布式键值(Key-Value)系统2分布式表格系统3分布式数据库4(四)分布存储系统对应的数据类型分布式存储系统数据类型分布式文件系统非结构化数据分布式键值(Key-Value)系统比较简单半结构化数据分布式表格系统较为复杂半结构化数据分布式数据库结构化数据云存储技术的起源知识点二(一)云存储是由云计算逐步演变分化而来云计算是一种典型的破坏性创新,它利用技术进步效应,从IT产业不断高涨的成本投入和运营商薄弱环节切入,重构传统的IT市场结构,创新或优化IT产品和服务。广域网和互联网云存储技术的发展知识点三

云存储技术的发展1数据爆发的推动2数据安全的制约3发展趋势云存储概念知识点四云存储概念云存储通过网络和分布式文件系统将分散的存储设备连接、整合成一个高效、便捷、可靠的系统,通过某种应用软件共同一致地对外提供在线数据存储和业务访问服务。云存储概念云存储的特点知识点五(一)与传统存储对比比较项云存储传统存储架构不仅是一种架构,更是一种服务。底层采用分布式架构和虚拟化技术,易于扩展,单点失效不影响整体服务针对某种特殊应用而采用的专用、特定的硬件组件构成的架构服务模式按需使用,按使用计费,服务提供商可迅速交付和响应用户通过整机购买或租货获取存储容置容量支持PB级以上无限扩展针对某个特定的应用存储,由应用需求决定容量,难于扩展数据管理不仅提供传统访问方式,而且提供海置数据的管理和对外的公众服务支撑,同时采用保护数据安全的策略,采取如分片存储、EC、ACL、证书等多重保护策略和技术,用户可灵活配置用户数据管理员可见,信息不够安全。通常使用RAID提供数据保护,用户无法灵活配置个性化存储策略和保护策略(二)云存储技术特点低成本高可靠服务模式高可用动态伸缩安全性大容量规范化任务小结通过使用云存储,企业获得了以下好处:①节约了采购存储设备的成本。②缩短了系统建设周期。③减少了维护存储设备的人力和资源费用。另一方面,云存储服务商通过云化的管理,也获得了不少益处:①自身的存储资源整合后,将多余的存储空间租赁给企业,不仅有效利用了资源,也降低了运营成本。②快速便捷地为用户部署了远程存储资源,颠覆了用户对存储设备部署的体验。③云存储虚拟化和智能管理技术使服务商能够对云存储系统进行简便、高效的运营维护。拓展训练Xena独立学习OpenStack社区正式发布第24个版本Xena,OpenStack作为广泛部署的开源云基础设施软件,其新版本增加了对新型硬件功能的支持,优化了各类组件间的集成,通过减少技术债务来维护OpenStack软件的稳定可靠性。OpenStack作为全球最活跃的开源项目之一,开发者积极参与并由此构建了一个充满活力的社区,在Xena版本为期25周的开发中,来自125个组织/机构的680多位开发者累计提交了15000项修改。1.阅读2021年10月6日OpenStack社区发布的Xena版本文档。2.了解Xena版本的最新特性。3.尝试安装部署Xena版本。拓展训练1.分布式存储系统的分类?2.云存储的定义?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务二浅谈云存储基础技术文件系统的作用?硬盘接口的种类?RAID存储的类型?典型的数据备份策略?回顾任务描述:本节任务阐述了存储空间管理、数据使用及存储、存储高可用技术、数据备份和数据一致性处理问题,同时,对云存储基础技术问题进行了剖析。任务教学目标:掌握云存储基础技术任务概要任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。教学内容存储空间管理数据使用及存储存储高可用技术一二三四五

数据备份数据一致性处理存储空间管理知识点一(一)存储空间管理存储空间就是存储的物理空间主要有卷、RAID技术及LUN3种。

(二)卷简单卷是物理磁盘的一部分,通过将卷扩展到相同或不同磁盘上的未分配空间上,以增加现有简单卷的大小。跨区卷是一种和简单卷结构相似的动态卷,其将来自多个磁盘的未分配空间合并到一个逻辑卷中。带区卷由两块或两块以上的硬盘组成,也是一种动态卷。当文件存到带区卷时,系统会将数据分散存于各块硬盘的空间。镜像卷是具有容错能力的动态卷。(三)RAID0(四)RAID1(五)RAID5(六)RAID10(七)RAID技术级别特征原理单元冗余性能利用率最多坏用途缺陷RAID0条带分片分散存入2块硬盘2否读写速度2倍100%0/2SWAP/TMP不冗余,数据难恢复RAID1镜像相同数据存入2块硬盘2是写速度不变读速度2倍50%1/2数据备份读写速度没加,利用率低RAID4校验分片分散存入2块硬盘校验码存入第3块硬盘3是读写速度2倍2/3=66%1/3用的很少1.坏盘时另外2块需要重新计算还原坏盘数据2.校验码盘压力大成为瓶颈RAID5校验分片和校验码混合存储3是读写速度2倍2/3=66%1/3用的不多坏盘时另外2块需要重新计算还原坏盘数据RAID101+02块硬盘1组先做RAID1多组RAID1再做RAID04是读写速度N倍N为组数2/42/41∈2用的最多-数据使用及存储知识点二(一)早期存储设备——纸带(二)早期存储设备——卡片(三)早期存储设备——磁鼓IBM650计算机上的16英寸长磁鼓,有40个磁道,容量10KB,每分钟12,500转。(四)磁盘驱动器(五)存储角色的演变数据的增涨导致了以“计算”为中心到以“数据存储”为中心的的观念革新。存储领域的两个重要转折点:并行存储:比如磁盘阵列技术(RAID)。网络存储:NAS,SAN存储高可用技术知识点三(一)存储高可用技术在高可用技术中,根据不同的应用环境,从性能、经济等方面考虑,主要有双机热备、双机互备、集群并发存取3种。(二)双机热备份方式(三)双机互备方式(四)群集并发存取方式(五)对存储系统的要求双机热备份方式:系统运行时,只有主服务器与存储系统进行数据交换。当发生主机故障切换时,要求存储系统能与备份服务器快速建立数据通道,以支持业务的快速切换。双机互备份方式:系统运行时,两台主机需要同时对磁盘阵列进行读写操作,这要求存储系统具备良好的并发读取能力和一定的负载均衡功能。(五)对存储系统的要求群集并发存取方式:并发处理能力数据共享能力大规模与可扩展性可管理性高可用性(六)数据备份数据备份一般是指利用备份软件把数据从磁盘备份到磁带进行离线保存(最新的备份技术也支持磁盘到磁盘的备份,也就是把磁盘作为备份数据的存放介质,以加快数据的备份和恢复速度)。(六)数据备份数据备份在一定程度上是可以保证数据安全的,但应用于容灾系统时却面临众多问题。备份窗口恢复时间备份间隔数据的可恢复性介质的保管和运送备份的成本数据备份知识点三(一)常规备份实现方式010302备份方式增量备份完全备份差量备份(二)增量备份只有那些在上次完全制定的备份策略自动或手动将数据备份到磁带上。(三)差异备份备份那些从上次完全备份后被修改过的文件。数据一致性处理知识点四(一)数据一致性处理数据一致性是指关联数据之间的逻辑关系是否正确和完整。可以理解为应用程序自己认为的数据状态与最终写入到磁盘中的数据状态是否一致。数据一致性问题文件共享中的数据一致性问题时间不同步引起的数据一致性冋题Cache引起的数据一致性问题任务小结云存储基础技术包括:存储空间管理(卷、RAID技术、LUN技术)数据存储技术存储高可用技术数据备份数据一致性处理拓展训练Xena独立学习OpenStack社区正式发布第24个版本Xena,OpenStack作为广泛部署的开源云基础设施软件,其新版本增加了对新型硬件功能的支持,优化了各类组件间的集成,通过减少技术债务来维护OpenStack软件的稳定可靠性。OpenStack作为全球最活跃的开源项目之一,开发者积极参与并由此构建了一个充满活力的社区,在Xena版本为期25周的开发中,来自125个组织/机构的680多位开发者累计提交了15000项修改。1.阅读2021年10月6日OpenStack社区发布的Xena版本文档。2.了解Xena版本的最新特性。3.尝试安装部署Xena版本。拓展训练1.卷的分类?2.数据的一致性如何处理?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务三浅谈云存储关键技术存储空间管理?数据存储技术?数据备份的分类?如何进行数据一致性处理?回顾任务描述:本节任务对云存储的关键技术:存储虚拟化、分布式扩展模式进行了剖析。任务教学目标:掌握云存储关键技术任务概要任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。教学内容存储虚拟化分布式扩展模式一二存储虚拟化知识点一(一)存储虚拟化将存储资源集中到一个大容量的资源池并实行单点统一管理,无需中断应用即可改变存储系统和数据迁移,提高整个系统的动态适应能力。

(一)存储虚拟化010203存储虚拟化04多租户模型虚拟化感知能力存储虚拟化实施全局访问空间(二)全局访问空间全局访问空间是指将磁盘和内存资源聚集成一个单一的虚拟存储池进行管理,计算节点可以随意地访问到云存储设备空间的任意地方,这种访问釆用同样的访问路径或者方式。(三)多租户模型多租户架构中,每个租户、子租户和用户都可以施加独立的策略,不同层级的策略略有不同,针对不同用途的租户、子租户和用户,可以分别釆用最优的策略,以提升服务质量和运营效率。(四)虚拟化感知能力单数据中心面向数据块的云存储主要服务于虚拟机的环境,运行于计算节点之上的虚拟机会根据负载、故障和节能等种种情况下在不同的物理机之间进行飘动。支持这种飘动的实现需要共享的存储来得到相应的效率。多数据中心虚拟化感知能力发生在跨数据中心或跨独立的两个或多个云存储设备之间。这种数据流动的能力是通过数据中心间的联邦(指数据中心通过自治和合作,以耦合的方式集成在一起,共同向外提供统一服务的实现)机制来实现的。(五)存储虚拟化实施(五)存储虚拟化实施主要用途:异构存储系统整合和统一数据管理。实现方式:通过在存储域网(SAN)中添加虚拟化引擎实现。优点:与主机无关,不占用主机资源。能够支持异构主机、异构存储设备。使不同存储设备的数据管理功能统一构建统一管理平台,可扩展性好。缺点:部分厂商数据管理功能弱,难以达到虚拟化统一数据管理的目的。部分厂商产品成熟度较低,仍然存在和不同存储和主机的兼容性问题。(六)基于存储设备的存储虚拟化技术主要用途:在同一存储设备内部,进行数据迁移实现方式:在存储控制器上添加虚拟化功能,常见于中高端存储设备。优点:与主机无关,不占用主机资源。数据管理功能丰富。缺点:一般只能实现对本设备内磁盘的虚拟化。不同厂商间的数据管理功能不能互操作。多套存储设备需要配置多套数据管理软件,成本较高。(七)基于网络的存储虚拟化技术主要用途:使服务器的存储空间可以跨越多个异构的磁盘阵列,常用于在不同磁盘阵列之间做数据镜像保护。实现方式:一般由操作系统下的逻辑卷管理软件完成(安装客户端软件),不同操作系统的逻辑卷管理软件也不相同。优点:支持异构的存储系统。不占用磁盘控制器资源。缺点:占用主机资源,降低应用性能。存在操作系统和应用的兼容性问题。主机数量越多,实施/管理成本越高。分布式扩展模式知识点二(一)Scale-Up和Scale-Out扩展(二)分布式扩展模式关键技术高速网络连接技术关键技术分布式文件系统(三)高速网络连接技术以太网(三)高速网络连接技术InfiniBand架构(三)高速网络连接技术基于RapidIO的互联架构RapidIO是由Motorola和Mercury等公司率先倡导的一种高性能、低引脚数、基于数据包交换的互连体系结构,是为满足和未来高性能嵌入式系统需求而设计的一种开放式互连技术标准。(四)RapidIO特性RapidIO①可靠性⑥支持“任意拓扑类型”⑤每个处理器都有自己的内存子系统选择的推送架构④面向大量数据传输的高性能信息传递③100ns交换机直通式延迟②微秒级以下的端到端数据包发送(五)分布式文件系统根据计算环境和所提供功能的不同,文件系统可划分为4个层次:BDAC单处理器单用户的本地文件系统多处理器多用户的本地文件系统多处理器单用户的本地文件系统多处理器多用户的分布式文件系统分布式文件系统(DistributedFileSystem,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统(五)分布式文件系统(六)存储空间管理器带内模式带外模式(七)分布式文件系统的发展NFS和AFSXFSSAN、NASSAN和NAS两种体系结构相结合1980s1990s2000s1995—2000大致分为三个阶段:(八)经典分布式文件系统介绍1.NFS允许网站中的计算机之间通过TCP/IP网络共享资源C/S结构基于RPC协议实现(八)经典分布式文件系统介绍2.AFS主要用于管理分布在网络不同节点上的文件。与普通文件系统相比,AFS的主要特点在于3个方面:分布式、跨平台、高安全性。(八)经典分布式文件系统介绍3.TigerShark/GPFS被设计用于支持大规模实时交互式多媒体应用,如交互电视(InteractiveTelevision,ITV)。GPFS通过共享磁盘结构来实现它的强大的扩展性。(八)经典分布式文件系统介绍支持长时间的文件实时访问大磁盘块写分块数据复制数据一致性数据安全性系统可扩展性3.HadoopHDFS(八)经典分布式文件系统介绍Hadoop是一个基于Java的支持数据密集型分布式应用的分布式文件系统。不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。3.Hadoop

(八)经典分布式文件系统介绍Lustre文件系统是一个高度模块化的系统,主要由3部分组成:客户端(Client)对象存储服务器(ObjectStorageTarget,OST)元数据服务器(MetaDataServer,MDS)。4.Lustre(八)经典分布式文件系统介绍是一个可扩展的分布式文件系统,用于大型的、分布式的、对海量数据进行访问的应用。运行于廉价的普通硬件上,但提供了容错复制功能,可以给大量的用户提供总体性能较高的可靠服务。5.GoogleFS(八)经典分布式文件系统介绍OpenStack是一个项目和一个开源软件。它提供了一个部署云的操作平台或工具集。宗旨在于,帮助组织运行为虚拟计算或存储服务的云,为公有云、私有云,也为大云、小云提供可扩展的、灵活的云计算。6.OpenStackSwift任务小结1、在云存储关键技术中,主要有两方面内容:存储虚拟化和分布式扩展方式。2、存储虚拟化中主要包括全局访问空间、多租户模型、虚拟化感知能力、存储虚拟化实施技术。拓展训练Xena独立学习OpenStack社区正式发布第24个版本Xena,OpenStack作为广泛部署的开源云基础设施软件,其新版本增加了对新型硬件功能的支持,优化了各类组件间的集成,通过减少技术债务来维护OpenStack软件的稳定可靠性。OpenStack作为全球最活跃的开源项目之一,开发者积极参与并由此构建了一个充满活力的社区,在Xena版本为期25周的开发中,来自125个组织/机构的680多位开发者累计提交了15000项修改。1.阅读2021年10月6日OpenStack社区发布的Xena版本文档。2.了解Xena版本的最新特性。3.尝试安装部署Xena版本。拓展训练1.基于存储设备的存储虚拟化技术?2.基于网络的存储虚拟化技术?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务四浅析存储架构什么是存储虚拟化?数据存储的分布式扩展方式?什么是全局访问空间?什么是多租户模型?回顾任务描述:本节任务对典型的DAS、NAS、SAN存储架构进行了剖析,并对几种存储架构进行了比较。任务教学目标:了解DAS架构了解NAS架构了解SAN架构任务概要任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。教学内容DAS架构NAS架构SAN架构一二三四DAS、NAS和SAN的比较DAS架构知识点一(一)直连式存储(DAS)一种直接与主机系统相连接的存储设备,如作为服务器的计算机内部硬件驱动。(二)服务器种类—硬盘驱动器台式机架式刀片式(三)DAS—优点高性能。服务器—存储,不通过网线,没有网络结构。而是直接连接。可作本地启动盘。而ssd固态盘的流行,优点更明显。大容量存储。多个磁盘组合成一个逻辑盘,即raid。提高存取性能。操作单个文件资料,同时多个物理硬盘并行工作。实施简单:无须专业人员操作和维护,节省用户投资。(四)DAS—使用环境DAS使用环境服务器在地理分布上很分散通过SAN(存储区域网络)或NAS(网络直接存储)在它们之间进行互连非常困难时。01存储系统必须被直接连接到应用服务器上时eg:MicrosoftClusterServer02包括许多数据库应用和应用服务器在内的应用它们需要直接连接到存储器上,群件应用和一些邮件服务也包括在内。03(五)DAS—缺点扩展性差。服务器与存储设备直接连接的方式导致出现新的应用需求时,只能为新增的服务器单独配置存储设备,造成重复投资。资源利用率低。DAS方式的存储长期来看,存储空间无法充分利用,存在浪费。可管理性差。DAS方式数据依然是分散的,不同的应用各有一套存储设备。管理分散,无法集中。异构化严重。DAS方式使得企业在不同阶段采购了不同型号、不同厂商的存储设备,设备之间异构化现象严重,导致维护成本居高不下。NAS架构知识点二(一)网络存储设备(NetworkAttachedStorage)NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的机制。(二)NAS—优点01NAS可以即插即用02NAS通过TCP/IP网络连接到应用服务器03专用的操作系统支持不同的文件系统,提供不同操作系统的文件共享。04经过优化的文件系统提高了文件的访问效率,也支持相应的网络协议。(三)3.NAS—缺点01NAS设备与客户机通过企业网进行连接,因此数据备份或存储过程中会占用网络的带宽。02NAS的可扩展性受到设备大小的限制。03NAS访问需要经过文件系统格式转换,所以是以文件一级来访问的,不适合Block级的应用,尤其是要求使用裸设备的数据库系统。SAN架构知识点三(一)存储区域网络(StorageAreaNetwork)指存储设备相互连接且与一台服务器或一个服务器群相连的网络。接口连接设备通信控制协议SAN(二)SAN依据存储局域网类型分为FCSAN和IPSAN1.光纤交换机2.HBA主机总线适配卡1.以太交换机FC:FibreChannel光纤通道(三)光纤和网线光纤:单模(黄色),多模(橙色)单模距离:大约10-20公里多模距离:几百米-2公里网线:传输距离不超过100米(四)FCSANFCSAN的特点:1、FCSAN扩大服务器和存储之间距离2、FCSAN传输距离通常不超50公里3、FCSAN互操作性是主要问题4、存储价格贵,需要HBA卡IPSAN的优势:1、千兆/万兆交换机替代光纤交换机2、客户端的iSCSI卡替换HBA卡3、iSCSI接口存储设备替换光纤磁阵4、IPSAN扩展性更好FC-HBA卡ISCSI-HBA卡(五)SAN误区早期的SAN存储系统多数由FC存储设备构成,导致很多用户误以为SAN就是光纤通道设备。SAN代表的是一种专用于存储的网络架构,与协议和设备类型无关。(六)SAN优点设备整合数据集中高扩展性总体拥有成本低SAN优点DAS、NAS和SAN的比较知识点四(一)DAS、NAS和SAN的比较NAS、SAN与CAS的比较知识点五(一)全局访问空间内容寻址存储(ContentAddressedStorage,CAS)具有面向对象存储特征,基于磁记录技术,它按照所存储数据内容的数字指纹寻址,具有良好的可搜索性、安全性、可靠性和扩展性。(二)SAN、NAS与CAS比较任务小结1、直连式存储(DAS):这是一种直接与主机系统相连接的存储设备,如作为服务器的计算机内部硬件驱动。2、NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的机制。3、存储区域网络(SAN)是指存储设备相互连接且与一台服务器或一个服务器群相连的网络。4、SAN由3个基本的组件构成:接口、连接设备和通信控制协议。拓展训练Xena独立学习OpenStack社区正式发布第24个版本Xena,OpenStack作为广泛部署的开源云基础设施软件,其新版本增加了对新型硬件功能的支持,优化了各类组件间的集成,通过减少技术债务来维护OpenStack软件的稳定可靠性。OpenStack作为全球最活跃的开源项目之一,开发者积极参与并由此构建了一个充满活力的社区,在Xena版本为期25周的开发中,来自125个组织/机构的680多位开发者累计提交了15000项修改。1.阅读2021年10月6日OpenStack社区发布的Xena版本文档。2.了解Xena版本的最新特性。3.尝试安装部署Xena版本。拓展训练1.DAS?2.NAS?3.SAN的架构?4.NAS的架构?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目三浅析云存储服务任务五浅析对象存储系统什么是DAS?NAS存储架构?SAN存储架构?SAN存储的优势和缺点?回顾任务描述:本节任务阐述了对象存储系统,剖析了对象存储与传统存储的差异,最后介绍了软件定义存储(SDS)和典型的对象存储系统OpenStackSwift。任务教学目标:了解结构化数据与非结构化数据了解对象存储与传统存储了解为什么要用OpenStackSwift任务概要任务引入-云存储技术随着计算机技术、互联网技术的发展,以及近些年全球数据爆发式地增长,催生了云计算技术。而云存储就是脱胎于云计算技术的新型存储方式,由于它廉价、便捷等优势,备受青睐,在短短几年便得到了充分的发展与应用。教学内容结构化数据与非结构化数据对象存储系统定义对象存储与传统存储一二三四软件定义存储(SDS)五为什么是OpenStackSwift结构化数据与非结构化数据知识点一(一)结构化数据结构化数据部分1部分2……互相关联层次分明例如:数字,符号;关系型数据库(二维表)场景:财务系统、医疗数据库、教育一卡通等(一)结构化数据数据库的二维表Execl的电子成绩单二维:有行有列图书馆:图书管理软件(二)半结构化数据半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。<name>A</name><age>13</age><gender>female</gender></person><person><name>B</name><gender>male</gender></person>常见的半结构数据有XML和JSON,对于对于两个XML文件,

第一个可能有第二个可能有(三)非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据。场景:医疗影像系统、教育点播系统,文件服务器等

A图像B文本C视频D超媒体E非关系型数据库(三)非结构化数据非结构化数据的存储要求持续性可访问性低成本可管理型(四)结构化数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论