《大数据存储技术与应用》 课件 项目二 浅析大数据存储技术_第1页
《大数据存储技术与应用》 课件 项目二 浅析大数据存储技术_第2页
《大数据存储技术与应用》 课件 项目二 浅析大数据存储技术_第3页
《大数据存储技术与应用》 课件 项目二 浅析大数据存储技术_第4页
《大数据存储技术与应用》 课件 项目二 浅析大数据存储技术_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据存储技术与应用》大数据存储技术与应用项目二浅析大数据存储技术任务一浅析文件系统大数据存储架构?嵌入式存储架构,应用场景?云存储架构?大数据在医疗领域的应用?回顾任务引入-计算机系统计算机系统中有各种存储器,如CPU内部的通用寄存器组、CPU内的Cache(高速缓存)、CUP外部的Cache、主板上的主存储器、主板外的联机(在线)磁盘存储器以及脱机(离线)的磁带存储器和光盘存储器等。任务描述:在LINUX系统中有一个重要的概念:一切都是文件。在UNIX系统中,把一切资源都看作是文件,包括硬件设备。任务教学目标:了解文件系统的核心了解访问文件的流程了解日志文件系统XFS文件系统任务概要教学内容文件系统的作用文件系统的核心概念访问文件的流程一二三日志文件系统四XFS文件系统五文件系统对比六文件系统的作用知识点一文件系统是一种存储和组织数据的方法,它使得对数据的访问和查找变得容易。01文件系统通常使用硬盘和光盘等存储设备,也可能仅仅是一种访问数据的界面。02文件系统向用户提供底层数据访问的机制。03文件系统的概述文件系统的核心概念知识点二文件系统的核心概念文件名元数据(Metadata)inodePosixindode硬链接软链接LinuxVFSFHS文件读写执行属性文件系统的核心概念硬链接软链接文件系统的核心概念$chmod[options]mode[,mode]file1[file2...]chmod的八进制语法的数字说明:r4w2x1-0chmod使用语法举例:访问文件的流程知识点三1234命令只传递了一个绝对路径通过inode-table寻找父路径在父目录表中寻找对应文件inode查找到inode指定文件访问文件的流程日志文件系统知识点四(一)日志文件系统在文件系统发生变化时,先把相关的信息写入一个被称为日志的区域,然后再把变化写入主文件系统的文件系统。在文件系统发生故障(如内核崩溃或突然停电)时,日志文件系统更容易保持一致性,并且可以较快恢复。在回写模式中,只有元数据被记录到日志中,数据会被直接写入主文件系统。这种模式能提供较好的性能,不过有较大的风险。回写在顺序模式中,只有元数据被记录到日志中,但在日志被标记为提交前,数据会被写入文件系统。顺序在数据模式中,元数据和文件内容都先被写入日志中,然后在提交到主文件系统。数据(二)日志的级别XFS文件系统知识点五(一)XFS历史19XFS,一种高性能的日志文件系统,最早于1993年,由SiliconGraphics为他们的IRIX操作系统而开发,是IRIX5.3版的默认文件系统XFS特别擅长处理大文件,同时提供平滑的数据传输。(二)XFS特性容量大1对文件系统元数据提供了日志支持2分配组提供了可伸缩和并行特性3条带化分配4基于Extent的分配方式5可变块尺寸6延迟分配7稀疏文件8(三)文件系统对比1.FAT文件系统的数据访问方式(二)文件系统对比2.Ext2文件系统的数据访问方式本章从文件系统的基本概念出发,阐述了文件系统的作用、核心概念、访问流程、日志文件系统、XFS文件系统、文件系统对比。包括如下内容:1.文件系统的作用:概念。2.文件系统核心概念:文件名、元数据、inode、Posixinode、硬链接软链接、LinuxVFS、FHS、文件的读写执行属性。3、访问文件的流程4、日志文件系统、XFS文件系统、文件系统对比。任务小结课外研读大数据标准独立学习到今天,我们国家已经有12项大数据国家标准正式获批发布。我们可以通过研读《GB/T38667-2020信息技术大数据数据分类指南》标准来识别数据的类别,国家大数据标准由全国信息技术标准化委员会组织专家进行撰写更新。通过研读《合作式智能交通系统车用通信系统应用层及应用数据交互标准》来研究5G+智慧交通应用数据交互的格式。1.简述日志的三个级别?2.XFS文件系统的特性?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目二浅析大数据存储技术任务二

浅析RAID磁盘阵列文件系统?文件系统的作用?XFS?日志文件系统?回顾任务引入-磁盘阵列系统磁盘阵列的英文名称是RedundantArrayofIndependentDisks(RAID),即独立冗余磁盘阵列。RAID可以通过一些技术(软件或硬件)将多个硬盘整合成为一个较大的磁盘设备;而这个较大的磁盘可不止存储功能而已,它还具有数据保护的功能。任务描述:磁盘阵列的英文名称是RedundantArrayofIndependentDisks(RAID),即独立冗余磁盘阵列。任务教学目标:理解硬盘物理结构。了解各种硬盘参数了解数据保护技术了解RAID类型及配置方法任务概要教学内容硬件结构硬盘阵列结构一二硬盘结构知识点一(一)硬盘物理结构磁头:内容磁头是硬盘中最昂贵的部件,也是硬盘技术中最重要和最关键的一环。磁道:当磁盘旋转时,磁头若保持在一个位置上,则每个磁头都会在磁盘表面划出一个圆形轨迹,这些圆形轨迹就叫做磁道。扇区:磁盘上的每一个磁道按512个字节为单位划分为弧段,这些弧段便是磁盘的扇区。柱面:硬盘通常由重叠的一组盘片构成,每个盘面都被划分为数目相等的磁道,并从外缘的“0”开始编号,具有相同编号的磁道形成一个圆柱,称之为磁盘的柱面。平均访问时间磁头从起始位置到到达目标磁道位置,并且从目标磁道上找到要读写的数据扇区所需的时间。转速是硬盘内电机主轴的旋转速度,也就是硬盘盘片在一分钟内所能完成的最大转数。传输速率硬盘读写数据的速度,单位为兆字节每秒(MB/s)。容量作为计算机系统的数据存储器,容量是硬盘最主要的参数。缓存硬盘控制器上的一块内存芯片,具有极快的存取速度,它是硬盘内部存储和外界接口之间的缓冲器。硬盘参数(二)硬盘主要参数(三)硬盘接口种类ATASATAⅢIDESCSISATASASSATA

Ⅱ(三)硬盘接口种类IDE接口STAT接口硬盘阵列结构知识点二(一)硬盘数据保护技术SMARTS.M.A.R.T的全称为“Self-MonitoringAnalysisandReportingTechnology”,即“自我监测、分析及报告技术”。

(一)硬盘数据保护技术DFTDFT(DriveFitnessTest,驱动器健康检测)技术是IBM公司为其PC硬盘开发的数据保护技术。RAID全称为独立磁盘冗余阵列(RdeundantArrayofIndependentDisks),基本思想就是把多个相对便宜的硬盘组合起来,成为一个硬盘阵列组,使性能达到甚至超过一个价格昂贵、容量巨大的硬盘。(一)硬盘数据保护技术(二)盘阵硬件磁盘阵列卡又称RAID卡,一般在配置服务器的时候作为一个内置选配部件,为服务器增添RAID配置功能磁盘阵列卡软件仿真RAID俗称软RAID,是通过CPU计算RAID校验码,以软件控制的方式,在读写数据的时候按照RAID的模式写入多块磁盘软件仿真RAID内通过以太网或者光纤与存储交换机连接,为局域网内的服务器提供存储服务,一般会提供块存储或者NAS服务外接式盘阵(二)盘阵硬件1.磁盘阵列柜(二)盘阵硬件1.RAID磁盘阵列卡(三)RAID类型详解RAID0RAID10和RAID01RAID5RAID13124(三)RAID类型详解RAID0可以把多块硬盘连成一个容量更大的硬盘组,可以提高磁盘的性能和吞吐量。1.RAID0(三)RAID类型详解把一个磁盘的数据镜像到另一个磁盘上,在不影响性能情况下最大限度的保证系统的可靠性和可修复性上,具有很高的数据冗余能力,但磁盘利用率为50%。2.RAID1(三)RAID类型详解奇偶校验(XOR)条带存储,校验数据分布式存储,数据条带存储单位为块。3.RAID5(三)RAID类型详解RAID10是先做镜象,然后再做条带。4.RAID10(三)RAID类型详解RAID01是先做条带,然后再做镜像。5.RAID01(四)RAID配置方法在计算机一开机后立即按下<F2>或<Del>,进入UEFI设置实用程序。(四)RAID配置方法选择创建RAID磁盘卷选项,然后按下<Enter>。(四)RAID配置方法输入磁盘卷名称,然后按下<Enter>或仅按下<Enter>接受磁盘卷名称。(四)RAID配置方法选择所需的RAID级别(四)RAID配置方法选择要加入RAID阵列的硬盘(四)RAID配置方法选择RAID阵列的等量分割大小(四)RAID配置方法选择创建磁盘卷(四)RAID配置方法mdadm工具RAID实验磁盘阵列是大数据存储底层支撑技术,本节任务将从物理磁盘结构开始,系统剖析磁盘、阵列技术和RAID系统配置。包括如下内容:1.硬盘物理结构。2.各种硬盘参数。2.硬盘保护技术。任务小结课外研读大数据标准独立学习到今天,我们国家已经有12项大数据国家标准正式获批发布。我们可以通过研读《GB/T38667-2020信息技术大数据数据分类指南》标准来识别数据的类别,国家大数据标准由全国信息技术标准化委员会组织专家进行撰写更新。通过研读《合作式智能交通系统车用通信系统应用层及应用数据交互标准》来研究5G+智慧交通应用数据交互的格式。1.盘阵硬件样式有哪三种?2.简述RAID0磁盘阵列技术?3.简述RAID5磁盘阵列技术?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目二浅析大数据存储技术任务三

浅析数据安全大数据存储架构?嵌入式存储架构,应用场景?云存储架构?大数据在医疗领域的应用?回顾任务引入-数据丢失8月5日,前沿数控在微博上发表长文《腾讯云给一家创业公司带来的灾难》,文章中表示,“2018年7月20日,我们近千万元级的平台数据全部丢失,包括经过长期推广导流积累起来的精准注册用户以及内容数据,这瞬间将一家创业公司摧毁”。任务描述:本节任务要求从备份策略入手,通过系统学习,对大数据时代的数据安全有一个初步的认识,为后续项目实践打下基础。任务教学目标:了解文件系统的核心了解访问文件的流程了解日志文件系统XFS文件系统任务概要教学内容数据备份策略文件级备份与块级备份Rsync介绍一二三快照技术四数据备份策略知识点一(一)为什么要备份计算机本身也是一个相当不可靠的机器受到恶意攻击人为操作失误132(二)数据备份方式手动备份U盘光盘(二)数据备份方式使用备份程序下载一个备份程序。有免费提供的程序和要购买的程序,但都提供了许多相同的基本功能。使用购买的程序备份数据比手动备份好的其中一个优点是定时和自动化选项。这使可以不用担心数据备份工作。(三)备份的常见策略与关键技术全部备份即把硬盘或数据库内的所有文件、文件夹或数据作一次性的复制。0102指对上一次全部备份或增量备份后更新的数据进行备份。03差异备份提供运行完整备份后变更的文件的备份。增量备份差异备份(三)备份的常见策略与关键技术系统处于停机或维护状态下的备份。这种情况下,备份的数据与系统中此时段的数据完全一致。系统处于正常运转状态下的备份。这种情况下,由于系统中的数据可能随时在更新,备份的数据相对于系统的真实数据可有一定滞后。冷备份热备份对系统的一部分进行备份选择式备份文件级备份与块级备份知识点二(一)文件级备份与块备份概念块级是指以扇区为基础,一个或多个连续的扇区组成一个块,也叫物理块。它是在文件系统与块设备(例如:磁盘驱动器)之间。块级概念(一)文件级备份与块备份概念物理块(驱动层)磁盘驱动器(扇区)逻辑块(文件系统如:NTFS,EXT4,XFS,JFS)132文件级概念:文件级是指文件系统,单个文件可由一个或多个逻辑块组成,且逻辑块之间是不连续分布。逻辑块大于或等于物理块整数倍。块备份备份是以磁盘块为基本单位将数据从主机复制到备机。也就是说每次备份数据都是以一个扇区(512B)为单位来进行备份。文件备份文件备份是以文件为基本单位将数据从主机复制到备机。同样,我们是以一个完整的文件来做为备份单位的。而大小是由文件本身来决定。(二)备份模式的区别备份机制块备份块备份避免了当文件出现一个小的改动的时候,就需要对整个文件做备份,只是会去做改动部分的备份,有效的提高了备份效率,节省了备份时间。文件备份文件备份模式下,文件即使一个很小的改变,也需将整个文件备份。这样如果一个文件很大的情况下,就会大幅度的降低备份效率,增加磁盘开销和备份时间。(二)备份模式的区别高效性块备份块备份可以做到高效的实时备份,这种写入操作都是基于磁盘扇区的,所以,很快就能被识别。文件备份文件备份是很难做到实时备份的,因为它的每次修改都是基于文件的,而文件的哪部分被修改,系统很难实时捕获到。(二)备份模式的区别实时性块备份块备份是在文件系统之下对数据进行复制,所以它不受文件系统限制,可以支持各种文件系统包括RAW分区。文件备份文件备份是以单个文件为单位对数据进行复制,所以它受文件系统限制,仅能对部分支持的文件系统做备份,不支持RAW分区。(二)备份模式的区别支持度Rsync介绍知识点三rsync是类unix系统下的数据镜像备份工具——remotesync。一款快速增量备份工具RemoteSync,远程同步支持本地复制,或者与其他SSH、rsync主机同步。sync概念(一)rsync介绍(二)sync特点可以镜像保存整个目录树和文件系统。可以很容易做到保持原来文件的权限、时间、软硬链接等。无须特殊权限即可安装。第一次同步时rsync会复制全部内容,但在下一次只传输修改过的文件。rsync在传输数据的过程中可以实现压缩及解压缩操作,因此可以使用更少的带宽。可以使用scp、ssh等方式来传输文件,当然也可以通过直接的socket连接。支持匿名传输,以方便进行网站镜象。(三)sync配置概述配置文件/etc/rsyncd.confpath=/home/backup///需要做镜像的目录readonly=yes//只读hostsallow=192.168.1.1,10.10.10.10//允许主机hostsdeny=0.0.0.0/0//禁止主机logfile=/var/log/rsyncd.log//日志记录文件的存放位置快照技术知识点四快照的作用主要是能够进行在线数据恢复,当存储设备发生应用故障或者文件损坏时可以进行及时数据恢复,将数据恢复成快照产生时间点的状态。快照的作用(一)快照技术概念与作业基于文件系统式基于子系统式的基于卷管理器/虚拟化式(二)快照的三种基本形式即写即拷贝即写即拷快照可以在每次输入新数据或已有数据被更新时生成对存储数据改动的快照。分割镜像快照分割镜像快照引用镜像硬盘组上所有数据。每次应用运行时,都生成整个卷的快照,而不只是新数据或更新的数据。(三)快照的两种类型进行冷快照拷贝是保证系统可以被完全恢复的最安全的方式。在进行任何大的配置变化或维护过程之前和之后,一般都需要进行冷拷贝,以保证完全的恢复原状(rollback)。冷快照

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论