实验室博士生付忞的论文《Reducing Fragmentation for In-line Deduplication Backup Storage via Exploiting Backup History and Cache Knowledge》被 IEEE Transactions on Parallel and Distributed Systems (TPDS) 录用。
数据去重作为一种非常有效的数据缩减技术,已经被广泛应用于备份和归档系统中。然而,数据去重的机制(重复数据块被指针取代)使得后续备份的数据流在物理上离散地分布,并最终碎片化。碎片问题会严重降低系统的读性能(即数据恢复性能)。我们发现碎片来自两种不同的容器:稀疏容器和乱序容器。稀疏容器会降低系统的恢复性能和垃圾回收效率,而乱序容器会在内存不足的情况下严重降低恢复性能。
付忞等博士生在冯丹教授的指导下,设计了一个新的数据去重系统解决碎片带来的挑战。(1)为了减少稀疏容器,我们提出了基于历史感知的重写算法(HAR),HAR 比现有算法更准确地识别碎片,因此存储开销更小且恢复性能更好;(2)为了减少乱序容器的影响,我们提出了缓存感知过滤器(CAF)并实现了最有缓存替换算法(OPT),它们的观察是用户恢复文件的顺序可以和备份文件的顺序相同;(3)为了减少垃圾回收的元数据开销,我们提出一种容器标记算法(CMA),CMA 可以将元数据开销降低2个数量级。
这项研究成果发表在中国计算机学会推荐的 A 类期刊 IEEE TPDS 上。本工作受国家973计划(2011CB302301)、国家自然科学基金(61025008,61173043,61232004)和国家863计划(2013AA013203)等项目的资助。
图1 去重率比较
图2 恢复性能比较