信息存储系统教育部重点实验室

硕士生吴婕的论文被会议MSST 2017录用


实验室硕士生吴婕的论文“A Cost-efficient Rewriting Scheme to Improve Restore Performance in Deduplication Systems ”被第33届大规模存储系统及技术国际会议(33rd International Conference on Massive Storage Systems and Technology (MSST 2017)) 作为长文全文录用。

数据去重技术常被用于备份系统中消除周期性备份的冗余数据,减少存储开销。然而在驱虫备份系统中,新旧版本的数据备份共享数据块,使得原来逻辑上连续的数据流分散在不同的存储容器中,形成了大量的数据碎片,造成了数据恢复效率低下的问题。现有基于容器的选择性重写的方法发现在恢复时容器中存在的非引用数据块耗费了有限的磁盘读取带宽,于是在数据备份过程中选择含有较多可引用块的容器进行去重,重写剩下引用非选择容器的数据块。我们发现随着备份的次数和文件数目的增加,越来越多数据块被重写到新的容器中,造成了容器间存在大量的冗余数据。这些冗余数据块同样也浪费了恢复带宽,降低了恢复效率。

硕士生吴婕在华宇教授的指导下,提出一种基于子模函数最大化模型的重写方法(SMR),减少恢复过程中的读取的非引用和冗余数据块,以提高数据恢复性能。SMR将基于容器的选择性重写的问题视作一个最优选择问题,首先限制恢复过程中需要读取的容器数目,接着建立子模函数最大化模型选择在该数目限制下含有最多的非引用且非冗余数据块的容器集合,从而使得在恢复过程中读取尽可能少的存储容器即可恢复数据流。大量实验结果表明,SMR比现有的其他容器选择重写算法能够同时获得更高的去重效果和恢复效率。

MSST是存储系统及技术领域享有盛誉的国际学术会议,本届MSST共收录长文19篇,短文6篇。

注:本文为原创,如转载请注明出处。

分享文章

Share