浅谈数据存储管理_第1页
浅谈数据存储管理_第2页
浅谈数据存储管理_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅谈数据存储管理

体积存储管理技术得到越来越多的关注和应用。随着各行各业信息化程度的提高,企业数据急剧膨胀,尤其是近年来卫星遥感技术的发展,海量数据存储管理在国民经济中应用的越来越广泛。结合近年来从事的海量数据存储管理研究及实际项目研发,谈谈海量存储管理的若干技术。1网络存储的实现海量信息存储早期采用大型服务器存储,基本都是以服务器为中心的处理模式,使用直连存储(DirectAttachedStorage),存储设备(包括磁盘阵列,磁带库,光盘库等)作为服务器的外设使用。随着网络技术的发展,服务器之间交换数据或向磁盘库等存储设备备份数据时,开始通过局域网进行,这主要依赖网络附加存储(NetworkAttachedStorage)技术来实现网络存储。NAS实际上使用TCP/IP协议的以太网文件服务器,它安装优化的文件系统和瘦操作系统(弱化计算功能,增强数据的安全管理)。NAS将存储设备从服务器的后端移到通信网络上来,具有成本低、易安装、易管理、有效利用原有存储设备等优点,但这将占用大量的网络开销,严重影响网络的整体性能。为了能够共享大容量,高速度存储设备,并且不占用局域网资源的海量信息传输和备份,就需要专用存储区域网络(StorageAreaNetwork)来实现。目前海量存储系统大多采用SAN存储架构的文件共享系统,所有服务器(客户端)都以光纤通道(FibreChannel,简称FC)直接访问盘阵上的共享文件系统(如图1所示)。数据在存储上是共享的,数据在任何一台服务器(客户端)上都可以直接通过FC链路进行访问,无需考虑服务器(客户端)的操作系统平台,存储区域网络(SAN)避免了对传统LAN带宽的依赖和影响。SAN存储架构可以方便的通过扩展盘阵数量以达到扩展存储容量的目的,且不影响数据共享效率。2存储的技术在网络存储中的应用分级存储是当今存储策略中最有影响力的方案,它的主要意图在于在几乎不降低效率的同时,极大的降低存储成本,是最具性价比的存储策略。分级存储又称为数据生命周期管理,它的理论依据是数据的价值随时间的推移而变化(一般是降低),并借鉴了计算机系统结构设计的缓存/主存/硬盘的设计原理。通常采用分级存储(也称为分层存储)技术,将价值最大的数据保存在等级最高、性能最好的存储资源上,以保证高性能、高可靠性,通常这部分数据在所有存储量中占的比例相对较小,但应用频繁,所要求的访问实时性也较高;而对应用不太频繁的数据,可以存储在相对廉价的存储资源上。根据需要可划分为两级、三级存储,目前应用较多的三级存储:在线、近线、离线。在线设备一般采用性能较高的高端盘阵(例如光纤盘阵),近线设备一般采用普通的大容量盘阵(如SATA盘阵),离线设备一般采用磁带库设备。在需要离线数据的时候,可以将磁带库中的数据恢复到近线(或在线)设备上。分级存储的技术保证了重要数据的高可用性,又最大程度的降低了整个存储系统的成本,在工程应用中被普遍采用。分级存储技术需要迁移、回迁软件的配合才能真正发挥作用,具体来讲就是定时(如每天)或条件触发(如存储空间空闲率小于一定的阈值)迁移,按照算法(如存储最久数据或或最久未访问等)将满足条件的数据迁移到低一级存储设备上。如果要访问离线数据,还需要把相关数据恢复到在线设备上。技术实现路线既可以采用成熟的商业软件,也可以根据业务具体情况自行研发,还可以在封装商业软件的命令加入自身的业务处理逻辑。3效性不高,疗效评价难由于在海量数据存储管理系统中,每天都有大量的新数据到达(没有节假日),且这些数据通常是根据上级数据产生系统不定时到达的,如果靠人工操作程序来完成数据的入库归档工作,成本无疑太过巨大,效率低、容易出错,且时效性不高。因此,数据自动化归档技术就成为海量存储管理系统中的一个关键技术,特别是针对卫星数据,要求接收处理后要及时入库归档。自动化归档一般设计为后台服务进程,开机即启动,7×24小时随服务器运行。自动化归档需要完成数据接收、数据解析、数据入库、日志记录、状态反馈等工作。对于海量数据(尤其是大文件数据),一般不采取全部入关系数据库的做法,这样会使关系数据库的库体急剧膨胀,而适宜存储在共享文件系统中。归档操作完成数据文件从接收区到数据存储共享区的数据搬移,并从文件名、文件头或专门的元数据文件中抽取出用于管理、查询的元数据信息,把元数据信息插入到关系数据库中,利用成熟的关系数据库优化性能以方便对这些数据的查询、管理。4业务控制进程多将会出现分化,有利于统一监视方式在一个完整的海量数据存储管理系统中,通常包括数据接收、数据归档、数据备份、数据迁移(回迁)、数据输出等多个后台业务进程,这些业务进程各负其责,共同完成一些业务流程。如果这些进程直接进行通信完成控制指令(反馈)的交互,则各个业务进程的通信工作就会显得复杂,而且也不便于集中控制流程、掌握业务运行情况。因此在海量数据存储管理系统中需要有一个业务控制进程,各个业务进程受业务控制进程的调度指挥,并把业务执行情况反馈给业务控制进程,而不必关心负责自己的任务处理完后下一步该执行什么任务,业务控制进程负责接收各业务进程的状态反馈,并根据状态反馈决定接下来该向什么业务进程发送调度指令。这样各业务进程之间避免了直接的耦合,各业务进程只负责和总指挥(业务调度控制进程)通信,业务控制进程不负责具体业务,仅负责业务流程的控制,也有利于业务控制进程统一监视记录业务的执行情况。对于需要人工控制干预(或发起业务)的情况,也可由前台界面把控制信息发送给业务控制进程,由业务控制进程调度相关的业务进程,并反馈执行情况,这样就避免了前台界面与各个业务进程进行通信,降低了复杂度。常见的海量数据存储管理系统业务流程如图2所示。5多进程模式的实现在海量数据存储管理系统中,为提高收发、归档、服务、备份等业务的处理能力,常采用并发设计。并发设计可以采用多线程和多进程两种模式。一个业务处理可以采用单进程多线程的方式,也可以采用多进程的方式。前者由进程的主线程完成任务消息的接收,针对每个任务,启动一个线程进行业务处理,一次业务处理完毕,相应的业务线程也就随之结束。后者则由多个业务进程并发的从消息队列中获取任务消息(同一个消息可保证不会被取走两次),分别进行处理。对于多进程的模式,需要有一个进程控制程序,根据任务的繁忙程度,负责启动或停止相应的业务进程。但作为系统业务中心的调度程序一般不采用并发,而采用主备模式。6调整业务需求,及时上传数据上传海量数据存储管理系统通常还包括对外提供数据服务的功能,这也是数据存储管理系统发挥价值的关键所在。提供服务的方式一般包括以下几种:API调用、订单服务、实时推送等。API调用通常用于实时性要求高、使用方式灵活的场景下,API调用对使用者有一定的编程要求,编程者可在API的基础上实现更复杂、更强大的功能。订单服务由数据使用者通过网站填写订单,存储管理系统接收到订单后查询数据库,提取满足条件的数据,并提供给订单提交者。实时推送主要针对少量对特定数据实时性要求高的场景,一旦接收到相关种类的数据,就向数据使用者(或应用系统)推送对应的数据,使数据使用者在第一时间获取到数据。使用何种服务模型要根据业务的情况具体分析,在大型的海量存储管理系统中一般都同时采用多种数据服务模型,对不同的服务需求采用不同的服务模式,充分发挥每种服务模型的优点。7存储分布式海量数据存储管理技术的发展如火如荼的进行中,海量存储管理目前要面对的问题包括海量数据存储管理数据量的持续增加、存储管理业务的容错处理、文件系统与关系数据库的无缝连接等。目前海量存储管理技术在在以下几个方面面临着重大的发展机遇:IPSAN技术:将存储和IP网络相结合,使得用户可以在IP网络上传输块级的存储流量负载。IPSAN具有SAN的大部分优点,成本却远低于SAN,且由于其存储与访问同时基于IP使得存储、计算和网络可以结为一体,为数据密集型的网格计算提供良好的基础。对象存储技术:为了解决文件数量的增加而产生的,基本的存储单元是对象而不是块,对象存储设备相对于块设备具有更高的智能,对象是智能化、封装的更好的块。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论