实验室博士生付忞的论文“Accelerating Restore and Garbage Collection in Deduplication-based Backup Systems via Exploiting Historical Information”被2014年USENIX年度技术会议(2014 USENIX Annual Technical Conference,ATC 2014)录用。
论文旨在解决数据去重备份系统中的恢复和垃圾回收操作效率低下的问题。数据去重系统中的数据块会被多次备份共享,导致一次备份的数据在在磁盘上不是连续分布,降低了读性能;被用户删除的失效数据也离散地分布在磁盘,导致垃圾回收的效率很低,垃圾回收的开销与数据块的数量成正比,同时与定时的备份操作和紧急的恢复操作竞争存储带宽。我们的观察发现碎片分为两类,即稀疏容器和乱序容器。乱序容器可以通过增加恢复缓存解决,稀疏容器直接放大了读操作,因此更为严重。现有的解决方案在备份的过程中识别出碎片化的数据块,并将碎片数据块重新写到新的物理地址。这种方法使用一个重写缓冲区,将连续到来的重复数据块暂时放在缓冲区中,然后在缓冲区的范围内分析重复数据块的物理地址,找出物理地址不连续的数据块,将它们重写。这种方法牺牲一定的存储效率换取读性能。然而由于缓冲区的大小有限,现有方法不能准确地识别稀疏容器,因而损失了太多存储效率,同时获得的恢复性能提升有限。我们提出了一种准确识别稀疏容器的方法,称为历史感知的重写算法(HAR)。HAR的观察是,在备份应用中,稀疏容器有继承的特点,即一个数据块在当前备份是属于稀疏容器的,则在下一次备份也是属于稀疏容器。因此HAR在备份时记录下稀疏容器信息,用于下一次备份的重写。HAR的存储效率和恢复性能都优于现有重写算法。此外论文还实现了Belady的最优缓存替换算法,可以减少乱序容器对恢复性能的影响。为了简化垃圾回收的引用管理操作,论文还提出了容器标记算法,将引用管理的粒度从块级提升到容器级,将元数据开销减少了2个数据级。
ATC是计算机系统领域的旗舰会议,由于ATC注重计算机系统领域的前沿技术以及侧重系统和实践性的工作,所以竞争非常激烈。本届会议收到241篇投稿,仅录用44篇论文,录用率为18%。