版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、存储是什么?,存储基础学习Step by Step,日期:,密级:对内公开,目录,认识存储,01,存储控制器与RAID,02,网络存储概念,03,几点技术,04,认识存储,当我们想到存储,磁带,光盘,软盘,U盘,移动硬盘,存储卡,硬盘,认识存储,那么,让我们来看看我们平时怎么使用存储 一段场景: 以笔记本使用移动硬盘的过程为例: 插上移动硬盘的USB线(画面暂停,线路闪烁,出现文字:连接,笔记本屏幕显示:“找到新硬件”、“安装驱动”、“硬件可以使用” 随后打开我的电脑,看到新增加的“D盘”。 此时,鼠标点击D盘,屏幕弹出“未格式化,无法访问”,格式化是什么意思? 为什么需要做完格式化才能使用硬
2、盘?,解释: 每个操作系统都会支持一个或多个文件系统。不同的文件系统要求数据按不同的格式进行组织和存取。格式化就是选择一种文件系统格式,对硬盘进行划分和组织。这样,操作系统就能根据硬盘的文件系统格式对硬盘进行数据存取了。没有用文件系统格式化的硬盘,我们称为“裸硬盘”或“裸设备”。,认识存储,认识存储,“在了解文件系统之前,让我们先来看看硬盘是什么怎么存放数据的”硬盘的Sector、Byte、Bit树形结构。每个Sector(扇区)是512个字节,硬盘就是以sector为单位进行数据的存取。一块普通的40GB硬盘,一共有近8千万个这样的sector,硬盘就像一个巨大的图书馆,每个Sector就是
3、一个书架,每一个bit就是一本书。 “ 我们仍然可以用图书馆来做类比。如果我们在存放图书的时候,既不登记,也不标记,就随便往一个书架上一扔,其结果肯定是在需要取这本书的时候根本无法找到” 所以,图书馆一个最主要的职能就是编目、分类和索引,对书架位置、书架类别进行编排,对存入图书馆的每一本书进行登记,建立索引。这样在我们取书的时候,根据书的编号就可以很快找出我们需要的书。,编目,文件系统就是相当于一个图书馆的管理系统,硬盘就是存放书的书库。而格式化的过程,就是按照管理系统的要求,对书库进行编号、分类、建立索引的过程。当然,不同的文件系统就像不同国家的图书馆,编号、分类和建立索引的方法是不一样的。
4、所以,我们一定要在使用硬盘之前,选择一种特定的文件系统格式来对硬盘进行“格式化”,认识存储,认识存储,我们来看一个文件 “我爱北京天安门.txt”写入文件系统的过程。,文件分区表,数据区,我爱北京天安门.txt,文件地址,分配文件地址,写入数据,认识存储,我们再来看从文件系统读取文件 “我爱北京天安门.txt” 的过程。,文件分区表,数据区,我爱北京天安门.txt,文件地址,找到文件地址,找到数据,读取数据,刚才我们演示了一个简单的文件系统,也就是咱们windows常说的FAT32格式。NTFS分区的存取方法比FAT32要复杂一些,但容量大、存取效率也比较高。(NTFS是新技术文件系统的缩写。
5、微软推出NTFS文件系统就是为了弥补FAT文件系统的一些不足,其中最大的改进是容错性和安全性能。) 了解了文件系统,我们可以来格式化这个硬盘啦。 我们可以在windows下做一个实验,右键点硬盘,在菜单中选择“格式化”,在弹出的屏幕中选择“NTFS”格式,选择快速格式化, “快速格式化”就是不检查硬盘的磁道好坏,直接建立NTFS文件系统,所以速度较快。硬盘格式化完毕,尝试打开并拷贝、读出数据。 好了,到现在,我们已经完成了一个“裸硬盘”变成一块可使用的存储空间的过程。,认识存储,认识存储,“让咱们来回顾一下使用的过程,做一个小结” 咱们在使用这个硬盘时,有这么几个步骤: 连接:使用一种接口标准
6、(USB和USB转IDE接口) 找到新硬件:操作系统扫描发现硬件(确定硬盘连接的位置和硬件地址) 安装驱动程序:操作系统安装接口驱动程序 选择文件系统对硬盘进行组织划分(NTFS) 实际上,不管是Windows PC、Linux服务器还是IBM、SUN、HP的UNIX小型机,大家使用存储的基本过程都是一样的。 Unix服务器的硬盘使用过程: 连接:使用一种接口标准(SCSI、FC、SATA、SAS) 找到新硬件:操作系统扫描发现硬件 安装驱动程序:操作系统安装接口驱动程序 格式化:选择文件系统格式对硬盘数据块进行组织划分(IBM AIX一般是JFS,SUN Solaris是UFS或VxFS,H
7、P是HFS等),认识存储,“我们知道了计算机怎么使用硬盘,再来看看下面的几个小实验” “这是我们刚才用NTFS格式化了的硬盘,我们写一个我爱北京天安门.txt到这个硬盘中。然后把设备中止,删除设备。这个时候Windows弹出对话框你可以安全地断开该设备了” “为什么我们需要中止设备才能安全地断开设备呢?” “这里需要给大家介绍一个重要的概念文件系统的Buffer(缓存)机制” “文件系统为了能够快速响应操作系统的读写操作,并不需要每次写入数据时都是“真实”地写到硬盘上,而是内部设立了一个叫Buffer(缓存)的机制,取用内存或硬盘中的一些连续空间作为“缓存”,这样在硬盘写数据的时候,可以迅速地
8、写到Buffer中,文件系统再适时将Buffer中的内容写到硬盘上去”。,操作系统,硬盘,缓存,写操作,读操作,写操作,读操作,Write back 与 Write through,认识存储,这就像图书馆并不是每次把读者的还书都直接送回书库,而是在接待台这里先办理完手续,等累积到一定数量,再成批送回书库。 “Buffer机制是所有文件系统都普遍使用的一种提高文件系统性能的方法,但存在一种危险:即如果突然断电、或者存储突然断开连接,有可能Buffer中的数据就来不及写到硬盘上,导致一部分数据丢失,严重的甚至导致文件系统损坏,整个空间无法读写。大家都有系统死机或突然断电的经历,重新启动后Windo
9、ws往往需要Checkdisk,这个 Checkdisk就是在Buffer数据丢失后,文件系统自我修复的方法。 这样,大家就很容易理解为什么断开U盘、外置硬盘这样的外置存储设备时,最好先“停用设备”,这个时候,文件系统实际上是自动在后台做了一个将buffer数据“刷”到硬盘上的操作,这样就保证了文件系统和数据文件的数据完整和正确。,目录,认识存储,01,存储控制器与RAID,02,网络存储概念,03,几点技术,04,存储控制器与RAID,在存储设备中,存储控制器是一个非常重要的概念。在介绍“存储控制器”在存储系统中的功能之前,我们先简单介绍一下与存储控制器诞生紧密相关的另一个概念RAID 事实
10、上,人们对数据安全和可靠性的关注,远远早于网络存储的诞生。早在xxxx年,即使人们仅仅在以DAS,甚至只是简单实用服务器内部的硬盘作为存储的时候,由于担心硬盘损坏导致的数据丢失,人们开发了一种叫做RAID的技术,英文全称是 “Redundancy Array of Inexpensive Disks” 翻译为“廉价磁盘冗余阵列”。 大家可能会想,一个技术里面怎么会出现“廉价”这样的字样?这是因为在此之前,有过其他一些非常昂贵的磁盘容错技术,但因其实现成本高昂,影响了技术的普及使用。人们在寻找一种不通过磁盘本身的昂贵改造,而是直接利用市场上的普通“廉价”硬盘,也能够提供不错的硬盘数据保护的方法。
11、,存储控制器与RAID,从根本上来说,RAID技术就是通过多块硬盘,以某种方式形成一定的数据冗余。这样,当一块或多块硬盘损坏时,数据还能够依靠这样的冗余保存下来,不至于丢失。 大家可能都经常听说过RAID0、RAID1、RAID5,RAID10,偶尔听到RAID2、3、4甚至RAID6的应用。不同的RAID级别,就是不同的冗余方法。 RAID0并不是一种真正的RAID技术,因为它并不提供数据冗余,只是一种把整块数据分成若干小块,分散在多块硬盘上保存的方法(这种方法叫Stripe,条带化),目的是在读写时可以同时读写多块硬盘,提高读写性能。 RAID1就是用一块硬盘和另一块硬盘建立镜像关系,始终
12、保持两块盘数据完全一致,这样当一块硬盘损坏后,数据仍然保留在另一块硬盘中。RAID10就是用一组盘做成RAID0后与另一组盘做镜像。 RAID5的做法是在条带化的时候,同时将条带的奇偶校验结果写到另一个位置。这样,数据校验作为数据的冗余信息就被记录下来。如果一块硬盘损坏,可以通过其他硬盘上的校验信息“反算”出丢失部分的数据。 其他RAID技术基本原理都比较接近,只是具体处理方法上有些差异。,举例:硬盘故障时数据读写过程,Parity1,part1,Disk1,数据位,校验位,Parity2,part2,Parity3,part3,Parity4,part4,一次写操作,一次读操作,Disk2,
13、Disk3,Disk4,Disk5,读操作时,根据校验位Parity1-Parity4,按照算法可计算出Part5的值,举例:硬盘故障,RAID5重建过程,Parity1,part1,Disk1,数据位,校验位,Parity2,part2,Parity3,part3,Parity4,part4,Disk2,Disk3,Disk4,Disk5,存储控制器与RAID,RAID技术不仅带来了数据安全性的提高,还意外地带来了性能的提高,因为“条带化”使得数据的读写可以同时对多块盘进行,大大提高了数据的读写效率。 由于RAID技术很好地在成本、安全性、性能各方面取得了很好的平衡,推出之后迅速成为了业界标
14、准,并成为存储设备的基础技术。 因为RAID需要在读写数据时进行计算(尤其是RAID5),尤其当硬盘损坏时,计算工作量更加巨大。因此,虽然大部分主机操作系统也提供软件的RAID功能(比如Windows NT/2000/2003 Server),但为了不占用宝贵的主机CPU计算资源,往往都是通过在存储端设计专用于RAID计算的功能模块,这就使存储控制器的最初来源。到今天仍然有很多人把它称之为RAID控制器。,LUN(卷),在硬盘都采用RAID方式管理之后,控制器的另一个作用就是将RAID组“虚拟”成一块逻辑硬盘提供给主机,这样,主机就不需要关心硬盘RAID的细节,只要把这块逻辑硬盘当成一块普通硬
15、盘进行读写,数据就得到了RAID保护,同时也提高了性能。 当然,由于RAID组是把多块硬盘组合成一个组,形成了一个很大的容量。在实际管理中,往往并不是一个RAID组提供成为一块硬盘。存储控制器提供了将一个RAID组任意切分成不同大小分配给主机是用的功能。这些在RAID组上切出来分配给主机的空间,我们一般称之为LUN (Logical UNit),中文一般也称之为“卷”。 从主机的角度来看,分配给自己的LUN,实际就是完全把它当成一块硬盘。,LUN的切割分配和主机端操作,Disk1,Disk2,Disk3,Disk4,对四块磁盘做Raid,服务器 1,服务器 2,服务器 3,LUN 1,LUN
16、2,LUN 2,SAN,存储控制器的功能,RAID组管理、LUN的划分是一个存储控制器最基本的功能。除此之外,存储控制器还有几个非常重要的功能: 1、配置1个或多个连接端口,提供足够的前端服务器访问带宽支持。 2、因为主机的I/O速度,一般要快于后端硬盘的读写速度。同时优化读写过程,将前端不同大小的I/O数据块批量写到硬盘。需要在存储控制器中设置缓存(Cache)来进行I/O流量的调节,达到性能优化的目的。 3、随着网络存储的发展,今天的存储控制器的功能越来越丰富,针对各种应用需要,很多产品增加了象“数据快照”、“远程复制”等多种多样的功能。,目录,认识存储,01,存储控制器与RAID,02,
17、网络存储概念,03,几点技术,04,什么是网络存储?,我们已经了解了计算机使用硬盘过程、文件系统、文件系统的Buffer机制、RAID、LUN、存储控制器等概念。现在咱们进入一个奇妙的世界网络存储。 在介绍网络存储之前,咱们再做两个小实验,对象仍然是咱们前面写了“我爱北京天安门.txt”的这块硬盘。 实验1、这个时候,另一台笔记本想要读取这个文件。我们把移动硬盘重新连接到这一台笔记本上,我们再次看到“发现硬件”、“安装驱动”这个熟悉的过程。这个时候,“我的电脑”里出现了D盘。我们再去尝试用鼠标点击这个硬盘。提醒一下大家,上一次我们第一次使用这个硬盘的时候,点击没成功,提示我们要建立文件系统。那
18、么这一次呢? 双击后打开了D盘,双击文件,打开了文件。 为什么我们这一次不需要再“格式化”或“建立文件系统”了呢?因为上一次,我们已经把按照NTFS文件系统的格式要求,把硬盘“格式化”成了NTFS文件存储格式,新的PC如果也同样使用NTFS文件系统,就可以马上识别出硬盘的数据格式。如果再格式化,就会把这个文件清掉了。,什么是网络存储?,实验2、现在又有另一个计算机需要使用“我爱北京天安门.txt”文件,这次不同的是,整个计算机不是使用的windows2000或者windows xp操作系统,而是用的Windows98。我们再试一次,将U盘插入PC,系统找到硬盘,双击D盘,系统提示“不能识别的系
19、统格式”,不能读取。 为什么这次又读取不成功呢? 因为很简单,Windows98不支持NTFS文件系统,因此无法识别硬盘上的文件格式。 聪明的听众此时可能会想到:在windows之间、在windows和UNIX之间、在不同厂商的UNIX之间,如果大家不使用同一种文件系统,那么即使把硬盘连接上来,也是不能够在主机间分享数据文件的。那么有没有一种文件系统是大家都共同使用的呢?答案是很可惜,由于厂商竞争原因,并没有一种得到普遍支持和广泛应用的本地文件系统在现实世界里使用,仍然是各行其是,各做各的。,什么是网络存储?,从刚才的实验中,我们还看到,总是把硬盘拔来拔去,一般PC的移动硬盘还可以,但如果是服
20、务器应用,不能随便中断的数据库,我们就不能再这么做了。同时,USB硬盘也无法允许多个PC同时连接和使用。 因此,人们就希望采用某些协议和连接方式,使得多个服务器都能访问到同一个数据设备。 这个想法,从上世纪80年代就变成了商品,那时候使用的是SCSI协议。SCSI在应用层,采用SCSI指令集(读/写/锁定)等,作为操作系统和应用系统操作存储的接口,底层采用并行SCSI协议,用类似于环路的方式连接硬盘。动画图示主机连接一个SCSI总线,然后陆续挂上硬盘,最后终结。 “由于环路上可以有主机,也可以有硬盘,每个SCSI通道,也就是一个SCSI环路可以最多支持16个设备,因此可以多台主机(一般最多4台
21、)共同访问SCSI盘的环路” 后来大家发现SCSI环路的扩展限制、并行协议的距离和维护性缺陷,在90年代,开发了一个专用协议FC (Fibre Channel)协议。,什么是网络存储?,FC协议是一个串行协议,够支持更远的传输距离和更多的连接设备。同时FC协议不仅能够以环路的方式工作,还能够以叫做Fabric,也就是交换式的方式进行工作。 这样,存储设备的扩展能力、最大容量和能够连接的主机数量就大大提高了。从理论上来说,一条光纤环路最多可以挂255个设备。而Fabric最大设备数可以达到1600万个。 到这里,大家可能会问:为什么不使用以太网这个天生的网络协议呢?这是由历史发展的过程造成的,在
22、90年代中期,人们面临需要共享数据设备要求的时候,以太网还停留在MB和10MB时代,而从大量服务器共享存储设备的要求来说,这个带宽能力是远远不能满足需要的。 因此FC第一代协议在1997年FC第一代协议和产品面市的时候,就是1Gbps的标准,大大高于当时以太网主流的10Mbps/100Mbps标准。,什么是网络存储?,有了新的协议和连接标准,人们就可以把多个服务器连接到一个或多个存储设备上啦。 用SCSI总线把两台主机和8块硬盘连接到一起。 这样的方式我们并不称之为“网络存储”,因为连接能力和扩展能力的限制,存储还只能以“环路”的方式进行简单连接。,什么是网络存储?,右图是用Fibre Cha
23、nnel的Fabric方式,通过网络连接大量主机和存储设备。 我们提到网络,通常是指在服务器前端的局域网或WAN广域网。而这个在服务器后端新构建的网络,是完全为服务器集中使用存储设备构建的,我们把它取名为“Storage Area Network”SAN,“存储区域网”,什么是网络存储?,今天,构建存域网SAN的方式一般有两种,一种是用传统的Fibre Channel协议,叫做FC-SAN,目前主要工作在2Gbps速率上,2006年将逐步升级到4Gbps。另一种是在以太网基础上,使用基于TCP/IP的iSCSI协议,叫做IP-SAN,目前主要工作在1Gbps速率,明年将全面升级到10Gbps.
24、 Tip: IP-SAN并不需要使用专门的iSCSI交换机,服务器端和存储端的软件或硬件协议将SCSI指令打包装入TCP/IP包,普通LAN-Switch即可传输,主机是如何使用SAN?,下一步,让我们来看一看主机在连接到SAN中,如何使用存储设备。 请大家回忆一下前面PC使用外置硬盘的过程,包括我们已经建立的“文件系统”、“格式化”、“Buffer”的概念。 右图,一台主机连接到SAN网络中,后台有若干个逻辑磁盘。 主机使用SAN中磁盘的过程和前面我们学习的那个过程是完全一致的。,服务器,服务器,服务器,交换机,磁盘阵列,磁盘阵列,磁盘阵列,1、发现一块硬盘 2、格式化,在UNIX环境中一般
25、叫做 MakeFS,即Make Filesystem建立文件系统, 实际上是用文件系统格式去格式化硬盘,主机是如何使用SAN?,这里请大家注意,不是只要以FC或者iSCSI方式进行主机和存储连接,就称之为SAN。SAN的核心在于通过网络方式进行多主机与多存储间的整合和统一访问。如果仅仅是每台主机各自单独连接独立的存储设备,我们把这种方式称之为DAS (Direct Attached Storage),为什么要用网络存储,现在,我们已经解决了如何把多个存储设备和多台主机间连接起来的问题。 我们来看一看,从实际应用的需要,我们究竟为什么要把存储设备都通过网络联系起来?为什么不能每台主机后面挂一个存
26、储设备就解决问题? DAS最大的问题在于,分散的存储设备,一般都是随着业务扩展逐年购买的,往往来自于不同的厂商,使用不同的协议(闪烁FC、SCSI、Ultra SCSI、IDE),管理方式各不一样,而且一般受技术和成本的限制,每个存储设备的容量、功能、性能都非常有限。 右图是赛迪网在2001年给出的DAS成本和SAN成本TCO的差异。,为什么要用网络存储,随着业务需求扩大、数据量膨胀,会导致设备管理、数据管理的大问题。设备的升级、扩容、调整、数据安全管理都非常困难,尤其是用户的数据已经放到存储设备中之后,业务又不允许中断。这样的管理几乎是不可能完成的任务。 因此,当用户的应用和数据量到达一定的
27、水平,就必须考虑将分散在各种平台上的数据整合(consolidate)到一个统一的平台,进行统一管理。一方面提升数据和设备的使用效率,一方面大大降低维护和管理成本。,为什么要用网络存储,容量不够啦。,容量又不够啦。,要上新系统啦。,容量又不够啦。,需要备份所有的数据啦。,备份带宽不够啦。,业务不能中断啊,可不可以调配一下这些DAS的容量啊。,容灾怎么办啊。,又怎么啦。,DAS怎么这么多毛病啊,累死了,还要不要人活啦。,网络存储的一些问题,SAN的使用,从根本上是要建立一个开放、高性能、高可靠、高可扩展 性的存储资源平台,从而能够应对快速的业务变化和数据增长。 因此,存储系统的应用,往往是和“数
28、据集中”“数据整合”“服务器整合” 等需求是紧密联系在一起的。只有进行了数据集中,才有可能对数据 进行有效管理,这是存储的基本逻辑。 当然,数据一旦集中之后,又会产生一些新的问题。我们来看下面的几 个例子。,财务系统,Linux,电子邮件,WEB系统,SUN/Solaris,Windows,内部文档,HP/NT,JFS,交易系统,IBM/AIX,网络存储的一些问题,SAN网络,提供一个卷给IBM服务器,IBM机器将该卷格式化为JFS文件系统,windows机器试图访问该卷上的JFS文件系统,不认识该卷上的JFS文件系统,回去通知服务器吧,不认识,认命吧,这个实验表明,在一个SAN环境中,有Wi
29、ndows、Linux、IBM AIX、SUN Solaris几个主机,当一个逻辑硬盘被IBM AIX格式化为JFS文件系统格式后,Windows主机无法访问这个硬盘。 这个道理我们已经很清楚,因为Windows不支持IBM AIX的JFS文件系统,因此无法读取JFS文件系统数据。,第一个实验,NTFS,财务系统,Linux,电子邮件,WEB系统,SUN/Solaris,Windows B,内部文档,HP/NT,交易系统,Windows A,SAN网络,提供一个卷给Windos A服务器,Windows A机器将该卷格式化为NTFS文件系统,认识该卷上的NTFS文件系统,回去通知服务器吧,网络
30、存储的一些问题,第二个实验,我也可以读写这个NTFS文件系统了。如果Windows A机器写一个新文件到这个NTFS文件系统,我能看见吗?,我试试看能不能读写这个NTFS文件系统。,我怎么看不见Windows A写的那个文件呢?,其实原因很简单。我们还是拿图书馆来类比。假设现在一个图书馆的书库,也被另一个图书馆共享。A图书馆往书库里存了10本书,这个时候,B图书馆并不知道A图书馆的这个动作,并未更新它的目录,因此无法知道书库里已经多了这10本书。 办法只有一个,就是每次图书馆放入新书的时候,都发一个通知给其他图书馆,让大家都更新自己的图书目录。 遗憾的是,大家要注意一点,目前所有的商用文件系统
31、,都没有这种通知功能,也没有明确这种通知机制和格式的标准。,所以大家还会想到,如果多个主机同时对一个逻辑硬盘进行读写,由于缺乏这种协调机制,就会造成严重的冲突,导致数据错误和不可用。 不同主机的同一个操作系统还会出现这样的问题,那么不同操作系统问题就更大了。比如Windows喜欢在启动的时候,对每一块它看到的硬盘都写一个“签名”。如果这个签名写到UNIX的磁盘上,很可能会彻底破坏这个磁盘的文件格式,导致数据丢失。 由此可见,多机读写,导致硬盘上数据一团糟。,网络存储的一些问题,那么怎么避免这样的问题呢? 在SAN领域有一个叫做 “LUN Masking” 的功能,直接翻译就是LUN屏蔽。所谓L
32、UN就是咱们刚才说的逻辑硬盘,至于逻辑硬盘和物理硬盘有什么区别,咱们在上一讲“RAID技术”中已详细介绍。 在IP-SAN中,通过简单的VLAN划分,就能根据需要,让主机只能访问指定的硬盘,或者让硬盘只能被指定的主机访问。 在FC-SAN中实现这个功能要复杂一些,要么是要求存储系统具备这个功能,能够主动识别前端主机的FC卡地址WWN,要么需要在中间加入FC交换机来使用一个叫Zoning的功能实现。,网络存储的一些问题,下面我们讨论网络存储中几个非常重要的问题: 、数据安全性 通过网络存储将数据都集中之后,首先需要考虑的问题就是:数据都集中到一个或几个海量存储设备中之后,数据丢失将会带来的损失也
33、相应增大了很多。同时,存储网络支持着很多前端运用的运行,一旦出现故障,可能就会影响到多个运用中断。 因此,从网络存储出现的第一天,数据安全性就是一个最重要的问题。不仅存储设备需要做到高可靠、各种部件冗余、连接链路冗余,还需要配合一整套的数据备份恢复体系,对于要求严格的用户,甚至还需要建立远程备份恢复系统,来保障数据的安全性。,网络存储的一些问题,2、性能 数据集中后,整个存储域网(SAN)和存储设备,均需要支持来自不同应用服务器的数据存取需要。这对整个SAN和存储设备都提出了很高的性能要求。 3、扩展性 建立存域网的一个重要原因,是需要克服DAS系统扩展困难,标准不一的问题。因此,存域网应该能
34、够提供非常方便的,从性能、功能、容量等各个方面的扩展能力,能够动态地随着用户的业务需求而调整和扩展。 4、兼容性 存域网既需要支持各种操作系统、应用系统、文件系统。又需要支持各种类型的存储系统,能够把各种存储设备集中到统一的平台上进行管理。 5、管理 建立存域网的另一个非常重要的原因,就是要降低DAS系统管理维护成本高的弊病,因此需要搭建一个标准化、通用、易管理的平台,来降低维护和管理的人员和专业技 能的要求。,网络存储之梦,数据处理模块,数据处理模块,数据处理模块,数据处理模块,容量模块,数据处理模块,数据处理模块,数据处理模块,数据处理模块,数据处理模块,容量模块,容量模块,容量模块,容量
35、模块,容量模块,容量模块,容量模块,容量模块,容量模块,容量模块,容量模块,容量模块,容量模块,容量模块,容量模块,容量模块,容量模块,复制模块,远程启动模块,复制模块,远程启动模块,数据安全模块,数据快照模块,数据安全模块,数据快照模块,备份模块,NAS模块,备份模块,NAS模块,容灾模块,NAS模块,容灾模块,镜像模块,容灾模块,镜像模块,容量模块,网络存储系统,应用服务器,应用网络,存储网络,服务器增加,需要提升存储系统的性能,网络连接模块,网络连接模块,网络连接模块,网络连接模块,需要增加存储容量,应用发生变化时可动态增加各种功能模块,一个应用运行的情况,因此,网络存储的目标,是要建立
36、一个高可靠、高性能、高可扩展性、兼容性强、管理简便的存储资源平台,从而能够应对快速的业务变化和数据增长。 从使用者的角度,也就是用户需求的角度,都存有一个对网络存储的梦想: 下图将演示:一个坚固大存储池,分成数据处理、数据安全管理、存储容量等几个层面。当主机增多时,简单加入几个数据处理模块,即提高了系统性能;数据量增长时,简单加入几个容量模块,即可,整体容量就得到扩展,数据哗哗进入;需要进行备份和远程容灾时,简单加入数据安全管理模块,就具备了将数据抽出,复制到远端的功能。 请注意,在完成各种调整的时候,应用主机是完全不需要知道后台的变化,甚至不需要停机,就可以动态地获得各种新的资源服务! 这样
37、一个“透明的”“可以动态地扩展调整”“安全”的“存储池”,用今天的IT语言描述,就是“存储的资源化或存储服务化”,把存储变成一种可以随时获得的资源,具备随时根据应用需求提供数据存取服务的能力。 用户从这种资源化中,可以以最低的采购、运行、维护、管理成本,完全根据应用的需要来获得适合的数据服务。,NAS是什么?,现在咱们考虑一个问题:我们建立了SAN,将数据集中起来。为了避免服务器间的文件系统冲突和数据错误,通过LUN Masking的方式对LUN进行了隔离。然而,在某些应用中,的确需要多个主机共享数据,有时甚至是不同操作系统主机间需要进行共享。这个方面的一个典型例子是多台Web服务器访问同一个
38、Web数据源。 大家也许立刻可以想到我们平时做数据共享的一种常用方式:文件共享。 在Windows主机上,通过建立共享文件夹,让其他主机可以同时读写这个文件。第一个打开文件的主机可以写,第二个用“只读”方式打开。第一个写完,其他主机也可以写回。 问题:为什么在这种情况下就不会出现文件系统的冲突和数据混乱呢? 原因是:在使用这种“网络共享”出来的文件夹或者磁盘的时候,并不需要我们来“格式化”硬盘。因为共享出来的空间已经不是“硬盘设备”,是连接到这快存储空间的主机已经建立了文件系统之后共享出来的文件夹!,NAS是什么?,让我们来看一张图: 典型的SAN、NAS,文件系统在不同位置的图。 大家可能会
39、问:是不是大家都访问同一个文件系统,就解决了数据共享的问题了呢? 答案是:其实在这种访问机制中还有一个重要的“幕后英雄”。NFS和CIFS。我们前面说过,由于文件系统之间缺乏相互通知的机制和标准,导致了无法共享同一个硬盘设备。但在通过网络共享文件方面,却存在两个得到认可的标准协议:NFS和CIFS,NFS是用于访问UNIX主机的,CIFS是用于访问Windows主机的。相当于,不同的文件系统在通过网络交换数据的时候,都先转化成NFS或CIFS,通讯完成后再把接收到的文件转化成主机自身的文件系统格式。这种文件系统仅仅可以用来做网络文件共享,不能用来做硬盘的格式化管理。,NAS是什么?,一张在SA
40、N环境中,通过NAS网关的方式提供NAS服务的图。一部分应用通过SAN来直接访问硬盘块设备,另一部分应用通过NAS来进行文件共享访问。 这个图也就是用NAS网关实现的“SAN+NAS”。但这还不是真正的体系和服务融合方式,仅仅是简单的叠加在一个网络中。因为NAS仅仅只是接入到SAN中的一个文件服务器,并没有融合到SAN的资源平台中。另外需要提醒大家的是,无论NFS/CIFS,都是基于IP的应用层协议,必须通过IP网络实现。,NAS是什么?,因此,这种共享方式早在网络存储之前就已存在,一般称之为“文件服务器”,通过设置一个专用的服务器,向外提供NFS/CIFS共享服务,接受来自各种主机的文件访问
41、。 当然,我们也可以发现,由于NFS/CIFS方式是通过至少两次文件格式转换才完成数据的读写,而且只能以“文件”为单位,一定程度上影响了访问效率和应用模式。一般适用于基于文件共享、文件级传输的应用类型,比如刚才提到的Web服务等。而对于数据库一类,以“块”为单位数据读取的应用,则有些不太适宜。 所谓NAS,英文为Network Attached Storage,翻译为“网络附属存储”。事实上就是指提供NFS/CIFS服务功能的存储设备。从结构上来说,就是架在SAN或DAS存储之上的一个专用服务器。(一般而言,NAS会针对文件共享这种应用,专门对文件系统和操作系统进行优化,使得文件访问的效率大大
42、高于普通服务器)。 因此,目前市场上将SAN和NAS当成两种不同存储结构和技术的看法是错误的,NAS严格意义上是存储之上的一种应用服务。只是由于历史上厂商竞争,各说各话,对市场产生的概念误导。SAN和NAS之间完全不是相互排斥的技术,而是处于不同层面的技术,完全可以统一在一个架构之中。,FC-SAN,FC-SAN从上个世纪末开始了存储资源化的尝试,希望在FC协议基础上在服务器后端建立起网络存储平台。 FC-SAN产品的大规模应用国际上是在98、99年,尤其是2000年问题测试和“.com”泡沫期间,高速成长了几年,之后开始衰退。2003年,随着IT行业的复苏,又开始不断增长。 FC-SAN发展
43、的根本动力,是Internet和电子商务应用带来应用的变化和数据的高速膨胀,DAS方式完全不能适应这样的变化,因此迅速被FC-SAN蚕食。 FC-SAN在设备整合、数据集中方面向前迈进了一大步,使IT用户真正开始将存储作为一个完整的系统考虑,从过去存储仅仅作为服务器的一个配件,开始将存储系统作为IT基础设施的重要组成部分来进行规划。 但在用户在网络存储的梦想鼓舞下,开始大规模部署使用FC-SAN的时候,FC-SAN的一系列问题也逐步暴露出来。,FC-SAN,图示:一个大规模的FC-SAN应用环境 FC-SAN的主要问题体现在: 一、由于FC协议发展时间太短,参与开发和产品化的企业较少,导致产品
44、在兼容性、互通性上出现了很大的困难。即使到今天,很少有FC-SAN的实施项目能够在用户系统中顺利地安装部署,接口卡、FC交换机、FC存储系统、存储管理软件间的版本、协议实现、操作规范都相当不统一。这一点从各个FC厂商动辄几百页的兼容性列表中可见一斑。最大的FC存储系统厂商EMC号称投资了10亿美金建立测试实验室进行兼容性测试就直接体现了由于协议不成熟带来的困境。 二、由于FC协议应用的局限性,一方面带来系统的高昂成本,另一方面造成了FC-SAN维护管理人员的稀缺。用户在采购FC-SAN之后,往往不得不长期求助于供应商提供专业服务。据统计,在国内,用户每年花在FC-SAN的系统保修服务的费用在3
45、-5个亿,占当年采购成本的15%左右。如果再算上系统安装部署阶段的专业服务费用支出,以5年计算,整个服务费用支出与系统采购达到1:1!,FC-SAN,三、从技术方面看,FC协议设计时为了追求性能,大幅度简省了协议管理功能和协议控制功能,基本上只能算一个二层协议。到今天也没有形成哪怕一个得到普遍接受和使用的管理协议(类似IP中的SNMP、CHAP、RIP、MPLS等)。使得FC-SAN用户真正面临业务扩展延伸、多存储平台整合等问题时,要么只能整网使用个别厂商昂贵的私有协议设备,要么只能妥协业务要求。 四、FC-SAN高昂的成本和协议封闭,使得产品的开发、升级、扩容代价高昂。从2000年以来,存储
46、市场中最大的中端部分就一直5年不变地维持着前端两个存储控制器,后端两个(最多四个)光纤环路的结构。不仅产品本身无法进行性能和处理能力扩展,产品型号向上的升级也是完全无法实现。沾到FC-SAN的所有产品都身价高昂,无论是备份软件的FC-SAN模块,甚至SCSI硬盘简单更换连接口成为FC硬盘,都要翻上几倍的价钱。 五、在存储借助FC-SAN成为独立系统的过程中,存储产商纷纷在磁盘控制器中开发了各种各样的数据管理功能(如卷管理、数据快照、远程复制等)。同样,由于缺乏统一的数据操作标准,各个厂商之间的功能完全无法互通,一旦用户使用了两家以上的存储设备,又重新陷入和DAS系统一样难以统一管理的泥潭之中。
47、 以上问题,使得用户使用网络存储的目标产生了严重的偏离,很多用户甚至开始质疑为什么要放弃DAS而使用昂贵的FC-SAN.,FC-SAN,我们来看几个场景 1、用户在环境中高高兴兴买来一堆SAN设备,开始部署使用。一会儿管理员报告:领导,咱们的卡的软件版本和咱们存储系统的软件版本不兼容,恐怕要换一个。一会儿又报告:领导,咱们的备份软件不支持咱们的数据快照功能。一会儿报告:领导:供应商说,如果要上容灾备份,这个系统不支持,需要重新买另外一个系统。我们原来的数据如果要倒进新系统,需要购买“数据迁移”专业服务。用户晕中 2、用户一怒之下,决定重新购买另一家的产品,现在环境中有了两台存储设备。管理员汇报
48、:领导,我们主机上装的厂商甲的链路管理软件和现在厂商乙的软件冲突,不能在一个机器上用。用户只好把新买的机器挂到另一个主机上去。一会儿管理员汇报。一会儿报告:领导,新机器运行Oracle数据库特别慢,供应商说我们应该购买他们的Oracle应用加速软件和专业服务,一个License和配套服务大概50万。用户晕中 3、最后一个场景,系统管理员来向用户辞职,领导,和FC-SAN战斗一年,我也变成存储专家了,XX厂商给我出30万年薪让我去工作,看来存储的钱真的好挣.,IP-SAN,IP网络是一个开放,高性能,高可扩展,可靠性高的网络平台 IP网是国际互连网,企业内部网络的主要形式。经过多年发展,IP网络
49、实现了最高的可管理性和互操作性。 TCP/IP协议弹性强,适应网络的各种变化,无需停止服务即可实网络变更。 1G的以太网已经普及,2006年会扩展到10G。FC在2008年才能到4G。 不同厂家的IP网设备兼容性好。网络设备采购成本低廉。 以太网知识普及,以太网多年的发展培养了无数的网络管理人员。 IP SAN的基本想法是通过高速以太网络连接服务器和后端存储系统。将SCSI指令和数据块经过高速以太网传输,继承以太网的优点,实现建立一个开放、高性能、高可靠性,高可扩展的存储资源平台。,IP-SAN,IP-SAN优点 实现弹性扩展的存储网络,能自适应应用的改变。 已经验证的传输设备保证运行的可靠性
50、 以太网从1G向10G及更高速过渡,只需通过简单的升级便可得到极大的性能提升,并保护投资 IP跨长距离扩展能力,轻松实现远程数据复制和灾难恢复 大量熟悉的网络技术和管理的人才减少培训和人力成本 将以太网的经济性引入存储 降低用户总体拥有成本。,目录,认识存储,01,存储控制器与RAID,02,网络存储概念,03,几点技术,04,网络存储的主要协议和技术,SCSI(Small Computer System Interface) 即小型计算机系统接口,可以划分为SCSI-1、SCSI-2、SCSI-3 Ultra320 SCSI传输速率可以达到320MB/s FC ( Fibre Channel
51、 ) 光纤信道,一种数据传输技术,用于计算机设备之间数据传输,传输率可以达到1或2 Gbps。光纤通道支持三种架构:点对点、仲裁环和交换式架构。但它的兼容性亦被诟病,这个主要是因为(就像早先的 SCSI技术)产商有时会以不同的方式解读标准,而且以多种方式实现。 iSCSI 互联网小型计算机系统接口,是一种在TCP/IP上进行数据块传输的标准。iSCSI可以实现在IP网络上运行SCSI协议,使其能够在诸如高速千兆以太网上进行快速的数据存取备份操作。iSCSI继承了两大最传统技术:SCSI和TCP/IP协议。,RAID技术,RAID (Redundant Array of Inexpensive
52、Disks)廉价冗余磁盘阵列 RAID有从 RAID 0 到 5等6种明确标准级别的RAID 级别。RAID 0、1、2、3、4、5 另外,其他还有6、7、10(RAID 1与RAID 0的组合)、01(RAID 0与RAID 1的组合)、30(RAID 3与RAID 0的组合)、50(RAID 0与RAID 5的组合)等。 不同RAID 级别代表着不同的存储性能、数据安全性和存储成本,RAID 0技术,RAID 0也称为条带化(stripe),将数据分成一定的大小,顺序地写到阵列的磁盘里,并行I/O,速度最快,缺点是没用冗余,RAID 1技术,RAID1即为镜像(mirror),它将数据完全
53、一致地分别写到工作磁盘和镜像磁盘,RAID1提供了最佳的数据保护,一旦工作磁盘发生故障,系统自动从镜像磁盘读取数据,不会影响用户工作。RAID1应用于对数据保护极为重视的应用。,RAID 2技术,RAID2 称为纠错汉明码磁盘阵列,阵列中序号为2N的磁盘(第1、 2、4、6)作为校验盘,其余的磁盘用于存放数据,磁 盘数目越多,校验盘所占比率越少。RAID2在大数据存储额情 况下性能很高,RAID2的实际应用很少。,RAID 3技术,RAID3 RAID3为单盘容错并行传输阵列盘。它的特点是将检验盘减小为一个(RAID2校验盘 为多个,RAID1检验盘为1比1),数据以位或字节的方式存于各盘(分
54、散记录在组内 相同扇区号的各个磁盘机上)。它的优点是整个阵列的带宽可以充分利用,使批量数 据传输时间减小;其缺点是每次读写要牵动整个组,每次只能完成一次I/O。,RAID 4技术,RAID4是一种可独立地对组内各盘进行读写的阵列。其校验盘也只有一个。 RAID4和RAID3的区别是条带化的方式不一样, RAID3是按位或按字节交叉存取,而RAID4是按块(扇区)存取,可以单独地对某个盘进行操作,它无需象RAID3那样,那怕每一次小I/O操作也要涉及全组,只需涉及组中两台磁盘机(一台数据盘,一台检验盘)即可。从而提高了小量数据的I/O速率。但面对随机的分散的写操作,单一的校验盘往往成为性能瓶颈。
55、,RAID 5技术,RAID5与RAID3的机制相似,但是数据校验的信息被均匀的分散到的阵列的各个磁盘上,这样就不存在并发写操作时的校验盘性能瓶颈。阵列的磁盘上既有数据,也有数据校验信息,数据块和对应的校验信息会存储于不同的磁盘上,当一个数据盘损坏时,系统可以根据同一带区的其他数据块和对应的校验信息来重构损坏的数据。,RAID 6技术,RAID6是一种双奇偶校验独立存取的磁盘阵列。它的冗余的检、纠错信息均匀分布在所有磁盘上,而数据仍以大小可变的块以交叉方式存于各盘。这类盘阵列可容许双盘出错。 RAID 6的实现代价最高,因为RAID 6不仅要支持数据的恢复,又要支持校验的恢复,这使RAID 6
56、控制器比其他级R A I D更复杂和更昂贵。,RAID 10技术,RAID10是RAID1和RAID0的结合,先做镜像然后做条带化,既提高了系统的读写性能,又提供了数据冗余保护,RAID10的磁盘空间利用率和RAID1是一样的,为50。RAID10适用于既有大量的数据需要存储,又对数据安全性有严格要求的领域,比如金融,证券等。,RAID 01技术,RAID01也是RAID0和RAID1的结合,但它是对条带化后的数据进行镜像。但与RAID10 不同,一个磁盘的丢失等同于整个镜像条带的丢失,所以一旦镜像盘失败,则存储系统成为一个RAID-0 系统(即只有条带化)。RAID01的实际应用非常少。,主
57、机系统高可用技术,双机热备方式 双机互备方式 群集并发存取方式,双机热备,在双机热备份方式中,主服务器运行应用,备份服务器处于空闲状态,但实时监测主服务器的运行状态。一但主服务器出现异常或故障,备份服务器立刻接管主服务器的应用。也就是目前通常所说的active/standby 方式,主要通过纯软件方式实现双机容错。 当前应用最广泛的双机热备份软件主要有LifeKeeper,Rose HA, DataWare和MSCS。,双机互备,在这种方式中,没有主服务器和备份服务器之分,两台主机互为备份。主机各自运行不同应用,同时还相互监测对方状况。当任一台主机宕机时,另一台主机立即接管它的应用,以保证业务的不间断运行。也就是目前通常所说的Active/Active方式,主要通过纯软件方式实现双机容错。通常情况下,支持双机热备的软件都可以支持双机互备份方式,当前应用最广泛的双机互备软件主要有LifeKeeper,Rose HA, DataWare和MSCS。,群集并发存取方式,在这种方式下,多台主机一起工作,各自运行一个或几个服务。当某个主机发生故障
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 比粗细课件教学课件
- 2024健身房与会员之间的会员服务合同
- 2024年建筑工人劳务雇佣协议
- 2024年度艺人非独家合作合同及演出安排
- 2024年广告发布与媒体推广合同
- 2024年度废旧物资回收利用合同的履行
- 2024年度技术研发计算机软件开发合同
- 制作高端课件教学课件
- 04年数据中心运维服务合同
- 2024年废弃物处理服务合同(含危险废物)
- 妊娠期高血压护理查房医学课件
- 新部编人教版四年级上册语文课件(第16课 风筝)
- 临床诊断与思维步骤课件
- 放射科危急值制度考试试题与答案
- 通信发展的前世今生儿童科普(课堂PPT)课件(PPT 38页)
- 老年人口腔保健知识PPT课件
- 荒芜土地恢复与重建的生态工程汇总
- 怎么才能快速学会做账
- 第四章龋病的预防
- 内镜中心进修护士培训计划
- 深圳市不动产登记申请表
评论
0/150
提交评论