版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
云计算
纠删码目录S概述背景纠删码结合0102030401概述one概述
随着信息资源爆炸性增长,云文件系统凭借高性能、高扩展、高可用、易管理等特点,成为云存储和大数据的基础和核心。由于硬件损坏和软件故障等原因,可能造成数据的损坏和丢失。云文件系统一般采用完全副本技术来提升容错能力,提高数据资源的使用效率和系统性能。但完全副本的存储开销随着副本数目的增加呈线性增长,存储副本时造成额外的写带宽和数据管理开销。纠删码在没有增加过量的存储空间的基础上,通过合理的冗余编码来保证数据的高可靠性和可用性。02背景two背景
信息资源的爆炸性增长,对存储系统在存储容量、数据可用性和可靠性方面带来了新的挑战。在这种情况下,云文件系统作为云存储和大数据的核心基础,被推倒了浪潮之巅。以Google文件系统(GoogleFileSystem,GFS)和Hadoop分布式文件系统(HadoopDistributedFileSystem,HDFS)为代表的云文件系统具有高性能、高扩展、高可用、易管理等特点,成为云存储的关键。two背景为了实现存储系统的高扩展性,保证数据的高可用和高可靠性,数据一般采用分块的方式来分布式存储和管理。为了保证在节点失效和数据损坏的情况下数据依然可用,必须对数据进行冗余存储。主要的数据冗余机制有完全副本和纠删码两种。云文件系统一般采用完全副本的方式进行容错。但完全副本存储方式数据量随副本数目的增加呈线性增长趋势,存储副本时占用额外的写带宽,造成硬件和维护成本的增加。two背景
纠删码提供了另一种面向存储优化的冗余机制来保护存储的数据。在分布式存储系统中,纠删码将数据编码成数据块和校验块,分别存储在不同的节点中。当系统中部分节点失效或者部分数据块损坏时,云文件系统仍能根据剩余的数据块来恢复原文件,从而保障数据的可靠性。纠删码技术以其较强的容错能力,高空间利用率等特点,越来越多地被用于大规模存储系统设计,如RAID、Robustore及OceanStore等都是基于纠删码技术的容错存储系统。03纠删码three纠删码阵列纠删码阵列纠删码,特别是MDS类阵列纠删码软硬件实现简单、廉价,存储效率、编译码复杂度和更新复杂度达到最优。其主要用于RAID技术中,进行磁盘阵列纠错。但不能满足多点纠错的需求。里德·所罗门类纠删码RS类码空间利用率高可扩展性强,能够根据需求增加冗余数据量,提供更高的容错能力。其缺点是需要在有限域上进行复杂的计算,计算复杂度高。低密度奇偶校验类纠删码LDPC类纠删码具有低译码复杂度和良好的纠错能力,但是译码过程具有概率性,不能保证100%的译码成功。three纠删码云文件系统部署在动态变化的普通硬件上,节点失效是常态而不是异常,阵列纠删码不能实现多点容错,因而不能满足云文件系统的可靠性需求。LDPC类纠删码是非确定性编码,不能满足数据的高可用性,主要用于增加数据读取速率和降低网络开销,因而不适合用作云文件系统的数据存储。RS类纠删码容错能力强,空间利用率高,可扩展性好,因而十分适合云文件系统,但需改进编码和译码算法,以降低编译码的复杂度。
04结合four结合编码对象
减少冗余信息造成的存储开销,是将纠删码技术运用于云文件系统的最主要原因。然而,由于云文件系统中文件比较大,文件块也比较大,这给纠删码的应用带来了挑战,需要选择合适的编码对象。通常有单文件编码和跨文件编码两种方式。
在云文件系统中,单文件编码与跨文件编码之间的选择,与云文件系统存储的文件大小密切相关,也是纠删码存储开销和纠删码实现复杂度的综合权衡。如果云文件系统中文件普遍较大,文件块数较多,则单文件编码的存储开销也较小,应选择单文件编码。反之,则应根据存储开销和实现复杂度来选择。若侧重减小存储开销,应选择跨文件编码;若希望保持纠删码系统简单,则应选择单文件编码。four应用编码时机一般来说,纠删码进行编码的时机分为同步编码和异步编码两种。同步编码能够在存储数据时即节省存储开销和写数据带宽,但降低了部分读数据的性能,实现较为复杂。异步编码一般将文件系统中的数据分为热数据和冷数据两类。热数据使用完全副本的方式存储,充分提高读取数据的带宽,而对冷数据进行纠删码编码,以节省存储开销。采用异步编码时,何时进行异步编码是一个研究的热点问题。因此,纠删码编码时机的选择,是数据的读写性能和存储开销的综合权衡。four应用数据更改
纠删码系统中,如何维护数据更改后纠删码的一致性,是系统设计需要考虑的一个重要问题。云文件系统中数据采用流式读追加写的访问,极大降低了维护纠删码一致性的复杂性。数据中只有最后一个数据块可能被追加写(append),因而只需考虑最后一个数据块的编码问题。一般有两种方式,一种是最后一个数据块不进行编码,仍采用完全副本的方式存储,追加写的数据添加到最后一个数据块中。这种方式比较简单,不需要更新校验块,其缺点是由于文件块较大,最后一个块不编码也造成了相当大的存储空间浪费。另外一种方式是用完全副本构造最后一个数据块,追加写完数据后,重新生成校验块。
four结合数据访问方式在基于纠删码的分布式存储系统中,数据访问有两种方式,一种是客户端只读取数据块,另一种方式是根据带宽或者其他因素选择合适的数据块和校验块,在客户端进行解码恢复出完整的数据。第一种方式需要在后台定期检查数据块和校验块是否正常,如果出错则需解码恢复。若客户端访问数据时系统正进行数据恢复,则会造成一定的访问延迟。第二种方式可以读取不同的数据块和校验块,有效增加了读数据的带宽,但造成了客户端巨大的解码开销。four结合数据访问性能在云文件系统中,副本不仅用于增强数据的可用性,也能提高数据访问的性能和实现负载均衡。将纠删码引入云文件系统后,文件副本较少(通常为1或者2),不可避免造成了数据访问性能的下降。为了应对这种性能下降,一种策略是选择异步编码,先充分利用完全副本来增强数据访问的性能,等数据访问平稳后再采用纠删码技术减小存储空间。另一种策略是使用缓存(Cache)技术。Cache常用于临时缓存数据到访问较快的地方,来提高数据访问的性能。在云文件系统中,可以用Cache存储新写入文件的多倍副本,待该数据的访问平稳后再删除Cache中的数据。结语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年企业文化展示系统项目投资申请报告代可行性研究报告
- 2024年矿业测量仪器项目资金申请报告代可行性研究报告
- 新冠肺炎的护理查房
- 盆景项目可行性研究报告
- 年产xx家居节能项目可行性研究报告(项目说明)
- 高三一轮复习课件 自然地理之地质灾害
- 5.1植被课件高中地理人教版(2019)必修一
- 大班下学期语言教案:月亮姑娘做衣裳
- 舌系带护理诊断及措施
- 纪律教育活动启动会
- 新版RoHS环保知识培训教学内容
- 2025届炎德英才大联考物理高二上期末学业水平测试试题含解析
- 2024年执业药师资格继续教育定期考试题库附含答案
- 蚯蚓与土壤肥力提升2024年课件
- 店铺管理运营协议合同范本
- 天津市和平区2024-2025学年高一上学期11月期中英语试题(含答案含听力原文无音频)
- 2024年全国烟花爆竹储存作业安全考试题库(含答案)
- 2024年高中化学教师资格考试面试试题与参考答案
- DB11-T 2315-2024消防安全标识及管理规范
- 全科医生转岗培训结业考核模拟考试试题
- 吃动平衡健康体重 课件 2024-2025学年人教版(2024)初中体育与健康七年级全一册
评论
0/150
提交评论