实验室博士生付忞的论文《Design Tradeoffs for Data Deduplication Performance in Backup Workloads》被第13届USENIX文件和存储技术会议 (13th USENIX Conference on File and Storage Technologies (FAST’2015))作为长文全文录用。
数据去重已经成为了现代备份系统必不可少的组件,然而数据去重的分块、指纹索引、碎片消除、读算法(数据恢复算法)都给系统的设计带来了新的挑战。现有的文献往往专注于一个点,比如指纹索引,而没有从系统的层面考虑模块之间的互相作用。数据去重系统可以被看成一个多维参数空间,每一个现有系统设计或潜在系统设计可以被看作参数空间的一个点,代表了不同的性能权衡。付忞等博士生在冯丹教授的指导下,分析和总结了数据去重系统的参数空间,并尝试寻找潜在的更好的设计方案:(1)为了更好地理解和分析参数空间,发现潜在的更好的设计方案,我们提出了一种数据去重的分类法;(2)为了能够比较参数空间的设计方案,我们设计和实现了开源数据去重框架Destor,目前Destor不仅涵盖了超过10篇现有文献的核心思想,而且实现了我们讨论的整个参数空间;(3)为了找到一些合理的设计方案,我们使用多种备份负载对整个参数空间进行了测试,主要关注的性能指标,包括备份性能、恢复性能、内存开销、存储成本等。
这项研究成果发表在中国计算机学会推荐的 A 类国际会议 FAST 2015(2015年2月16日-19日,美国加州圣克拉拉)。FAST 是数据存储领域的旗舰会议。本届会议收到130篇投稿,收录28篇,录用率为21.5%。本工作受国家973计划(2011CB302301)、国家自然科学基金(61025008, 61173043, 61232004, 6140050892)和国家863计划(2013AA013203)等项目的资助。