重复数据删除关键技术研究进展_图文_第1页
重复数据删除关键技术研究进展_图文_第2页
重复数据删除关键技术研究进展_图文_第3页
重复数据删除关键技术研究进展_图文_第4页
重复数据删除关键技术研究进展_图文_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 付印金等 : 重复数据删除关键技术研究进展 将 索引和元数据存放在 ( ) 设备上 , 以利用其随机读的优势 来 改 进 系 统 的 这种采用新 型 存 储 设 备 来 实 现 系 统 吞 吐 量 吞吐量 的提升的策略简单有效 , 但随机写仍然引起瓶颈 , 也 提高了系统的构建成本 在重 复 数 据 删 除 过 程 中 , 索引查询是影响系统 吞吐量至关重要的 一 环 而索引结构大容量和缺乏 局部性的特 点 , 使得优化重复数据删除系统的 ? 性 能 成 为 难 点 这些策略利用数据流中固有的 文件访问的层次性以及新型存 重复局部性 、 储介质的性能优势来避免重复数据删除系统的索引 查询瓶颈

2、 , 其巧妙构 思 为 我 们 以 后 进 行 重 复 数 据 删 除技术的研究提供了启发 高可靠数据配置策略 由于重复数 据 删 除 系 统 中 存 在 数 据 共 文件间具有高度的依赖性 , 使得提高数据的可靠 享, 性至关重要 如果一个共享的数据 则 丢 失, 所有 共 享 该 令 的 文 件 将 都 会 丢 失 数 据 丢失而损失的数据量 的共 为 享度 大小的乘积 : 和 )纠错编码技术 为获得更高的数据可靠性和更低的存储容量需 求, 一些研究者将纠 错 编 码 技 术 应 用 到 重 复 数 据 删 除系统上 , 如 纠删码( , , ) 和 编 码 等 公司的 均采用 和 公 司

3、 的 编码来纠 错 , 能 在 两 个 磁 盘 同 时 失 效 时 恢 复 数 据 等人提出了重复数据删除存储系统 , 在将变长的数据 打包成固定大 小对象的基础上 , 采用基于 校验来提高数据的 可靠性 公司的 备份存储系统 采用纠删 码 在 存 储 节 点 之 间 组 织 数 据 来 提 高 可 靠 性 这些纠错编码技术能够更加节省存储空间 , 但在 纠错过程中需要进行大量的计算 为平 衡 降低 数 据 冗余 与 保 持 数 据 的高 可 靠 性, 目前的重复数据删除系统只是简单地应用传统的副 如何利用重复数据 本策略和纠错编码 技 术 来 实 现 删除系统基于内容寻址的特点设计数据布局策

4、略以 获得更多性能和可靠性优势仍然是一个亟待解决的 问题 系统可扩展性 随着企 业 存 储 系 统 的 不 断 扩 展 , 其容量达到 目前 , 由数十上 级甚至 级的规模 百个存储节点构成大规模分布式存储系统在企业越 尽管重复 数 据 删 除 系 统 能 够 提 高 资 源 利 来越普遍 但面对如此大容量的存储空间需求和高吞吐量 用率 , 需求 , 重复数据删除系统必须具有良好的可扩展性 早期的重复数据删除系统往往采用单服务器结 构 如 公司的 和 公 司 的 均采用单服务 器 结 构 , 具有配置简单和 × 重复数据删除操作 的 共 享 度 越 高, 的数据缩减比 率 而相应的

5、越 大, 丢失 引起 的 数 据 损 失 量 因 此, 如何在降低 也 越 大 数据冗余度和提高 数 据 可 靠 性 之 间 进 行 平 衡 , 是重 复数据删除技术研究中一个具有挑战性的问题 )副本策略 同时最 为保 持 重 复 数 据 删 除 系 统 的 高 可 靠 性 , 小化数据冗余 量 , 等 人 提 出 了 一 种 基 于 副 , 本的 策 略 根据每个 的共享度在设备上 放置不同数目的副本以提高重复数据删除系统的数 通过建模 分 析 得 到 为 保 持 重 复 数 据 删 除 据可靠性 系统的高可靠性 , 每一个 的副本数目 为 一 个关于 满足如下关系式 : 共享度 的函数 ,

6、 ( ( ( ) , , , × ) ) 其中 , 分别表 示 不 同 的 空 间 利 用 率 和 和 为常数 , 比 鲁棒性 ; 副本数阈值 为系统中的最大 较数据镜像和本地 压 缩 相 结 合 的 传 统 方 法 , 这种副 本策路能够获得更 高 的 可 靠 性 , 同时节省近一半的 但由于每个 需 存储空间 至 少 有 两 个 副 本, 要超过一倍 的 数 据 冗 余 量 ; 另 外, 由于 副本 数目是变 化 的 , 在 读 写 数 据 时 会 引 起 通 信 开 销 大、 管理困难等问题 性能低 、 ? 容易管理的优点 , 但限制了系统的扩展能力 的研究者设计了利用多个节点

7、构成的服务器集群进 并采 行重 复 数 据 删 除 的 策略 , 用基于内存和磁盘的两级 索引消除系统 ? 瓶颈 , 使得重复数据 删 除 系 统 具 有 更 高 的 系 统 扩 展 能力 也 公司设计 的 备 份 系 统 采用服务器集群结 构 进 行 重 复 数 据 删 除 , 并通过分 布 表将数 据 均 匀 地 分 配 到 各 个 存 储 节 点 上 , 以提高系统的可扩展性 等人设计的重复数据 删除系统 通过 服 务 器 集 群 并 行 的 顺 序 索 引查询和索引更新 来 避 免 随 机 磁 盘 索 引 查 询 瓶 颈 , 提高系统的 吞 吐 量 ? 等 人 为 基 于 的 全局重复

8、数据删除阵列设 计 了 一 种 支 , 持服务器集群的可扩展数据路 由 策 略 两个节点 ( ) 计算机研究与发展 , 的系统就能存储下 并达到 级的数据量 , 的 吞吐量 随着数据存储要求的不断提高以及重复数据删 除技术应用的广泛 普 及 , 重复数据删除系统的扩展 性变得越来越重要 如何在集群系统的各个节点之 间进行负载均 衡 和 优 化 来 消 除 系 统 性 能 瓶 颈, ? 这将给我们进行重复数据删除技术研究带来更多的 挑战和机遇 中允许文件间共享 数 据 内 容 , 给数据的安全管理带 来了隐患 )重复数据 删 除 技 术 的 诞 生 是 基 于 磁 盘 技 术 而与此 同 时 新

9、 型 存 储 介 质 也 在 迅 速 发 的迅速发展 , 并具有许多磁盘所不具有的优点 在构建重复数 展, 据删除系统时 , 如何 利 用 这 些 新 型 存 储 设 备 的 优 势 来提升和优化整体系统的性能是值得关注的问题 近年来学术界对重复数据删除技术进行了深入 的研究和探讨 , 其应 用 范 围 正 在 从 二 级 存 储 向 主 存 储延伸 , 从存储 领 域 向 通 信 领 域 扩 展 随 着 绿 色 进程的不断推进 , 重复数据删除技术还能走得更远 , 并成为网络存储领域的核心技术 参 考 文 献 结束语和未来研究展望 本文对当前重复数据删除技术的研究现状进行 了深入的分析和总

10、结 , 包括重复数据删除系统体系 以及设计和实现具有高数 结构和基本原理的 介 绍 , 据缩减率 、 高吞吐量 、 高可靠和可扩展的重复数据删 除系统所涉及的几项关键技术 通过分析可以看出 , 比较传统的存储系 统 , 重复数据删除系统能够删除 冗余数据以节省数 据 存 储 空 间 , 在远程数据传输过 但其缺点也很明显 , 在线进 程中还能节省网络带宽 行重复数据删除容易引起性能瓶颈 ; 此外 , 由于删除 了冗余数据 , 使得数据的可靠性降低 如何在利用重 复数据删除技术优点的同时避免这些缺点仍然是一 个富有挑战的问题 随着网络存储技术的不断发展 , 目前 , 重复数据 删除技术还存在一些

11、尚未解决的关键问题 )尽管目前有各种类型的数据划分策略 , 但都 不能很好 地 解 决 数 据 缩 减 率 与 性 能 之 间 的 平 衡 关 系 目前 , 仍然有许多人在为设计更优的数据划分策 略而努力 一些研究 者 提 出 基 于 分 层 在 不 同 的 粒 度 分别 应 用 与 之 匹 配 的 划 分 策 略 来 缩 减 数 据 量 , , , , , : ? : ? ? ? ? , : , ? : ? ? ? ? ? , , , ? ? , : , : , , , : , ( ) ( ) ( 敖莉 ,舒继武 ,李明强 重复数据删除技 术 软 件 学 报 , ( ) : ) , , ,

12、? ? , : , : , , , : ? ? , : , : , , ? ? , : , : : , ? ? ? ? , : , : , , : ? ? , : , : , 也许对这 个 问 题 的 解 决 具 有 一 定 的 指 导 意义 , 但目前还没有成熟的产品来支持这一方案 )由于索引 查 询 操 作 严 重 影 响 了 重 复 数 据 删 除系统的性能 , 索引的查询优化成为当前重 如何通过优化元 复数据删除技术最 热 门 的 研 究 点 数据组织结构和数据布局来提高性能仍然是重复数 据删除技术研究亟 须 解 决 的 问 题 特别是为满足扩 展性 , 在多节点构成的集群系统环境下

13、, 如何在节点 间进行负载均衡和 优化来消除系统性能瓶颈需 ? 要我们进行更多的研究 )尽管现有 的 数 据 保 护 策 略 能 够 保 证 一 定 的 然而它们具有各自的缺陷 如何在重复 数据可靠性 , 数据删除系统读写数据的过程中保证数据完整性和 一致性仍然是个难题 此外 , 由于重复数据删除系统 付印金等 : 重复数据删除关键技术研究进展 ? ? , : , : , , : ? ? ? ; ? ? , , , : ? ? , : , : ? : ? ? ? ? ? ? ? , , ? ? , : , : : ? : ? ? ? ? ? ? , , , ? ? , : , : , , :

14、, ? ? : : , , : ? ? , : , : , , ? ? : , : , , ? ? : , : , , ? ? : , : : , , ? : , ? : , , : , , , , ( ) : , : , , ? ? , : , : : , , , ? ? : , , ? ? , : , : , , ? ? , : , : ? ( ) : , , ? ? , : , : , , , , : , ? ? : , ? ? , : , : : , , , ? ? : , : , ? ? , : , : : , , , ? ? , : , : : , , , , , ? : ? ,

15、: : , , , , ? ? ? , : , : : ? ? ? ? ? ? , : ? ? , : , : : , , ? ? , : , : , , , , : ? ? , : , , , : : , ? ? : : , , , ? ? , : , : , , , ? ? , : , : ( ) 计算机研究与发展 , , , , , ( ) , , ( ) 计算机研究与发展 征订启事 ( ) 计算机研究与发展 是中国科学院计算技术研究所 和中国计算机学会联合主办 、 科学出版社出版的学术性刊物 , 中国计算机学会会 刊 主要刊登计算机科学技 最新科研成果和重大应用成果 读者对象为从事计算 机 研 究 与 开 发 的 研 究 人 员 、 术领域高水平的学术论文 、 工程技术人员 、 各大专院校计算机相关专业的师生以及高新企业研发人员等 计算机研究与发展 于 是我国第一个计算机刊物 , 现已成 为 我 国 计 算 机 领 域 权 威 性 的 学 年创刊 , 术期刊之一 并历次被评为我国计算机类核心期刊 , 多次被评为 “ 中国百种杰出学术 期 刊 ” 此 外

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论