博士生付忞的论文被TPDS录用-信息存储系统教育部重点实验室

博士生付忞的论文被TPDS录用

点击次数:次发布时间：2015-06-17 15:09作者：admin

实验室博士生付忞的论文《Reducing Fragmentation for In-line Deduplication Backup Storage via Exploiting Backup History and Cache Knowledge》被 IEEE Transactions on Parallel and Distributed Systems （TPDS）录用。

数据去重作为一种非常有效的数据缩减技术，已经被广泛应用于备份和归档系统中。然而，数据去重的机制（重复数据块被指针取代）使得后续备份的数据流在物理上离散地分布，并最终碎片化。碎片问题会严重降低系统的读性能（即数据恢复性能）。我们发现碎片来自两种不同的容器：稀疏容器和乱序容器。稀疏容器会降低系统的恢复性能和垃圾回收效率，而乱序容器会在内存不足的情况下严重降低恢复性能。

付忞等博士生在冯丹教授的指导下，设计了一个新的数据去重系统解决碎片带来的挑战。（1）为了减少稀疏容器，我们提出了基于历史感知的重写算法（HAR），HAR 比现有算法更准确地识别碎片，因此存储开销更小且恢复性能更好；（2）为了减少乱序容器的影响，我们提出了缓存感知过滤器（CAF）并实现了最有缓存替换算法（OPT），它们的观察是用户恢复文件的顺序可以和备份文件的顺序相同；（3）为了减少垃圾回收的元数据开销，我们提出一种容器标记算法（CMA），CMA 可以将元数据开销降低2个数量级。

这项研究成果发表在中国计算机学会推荐的 A 类期刊 IEEE TPDS 上。本工作受国家973计划(2011CB302301)、国家自然科学基金(61025008,61173043,61232004)和国家863计划(2013AA013203)等项目的资助。

图1 去重率比较

图2 恢复性能比较