实验室博士生李鹏飞的论文“Improving the Restore Performance via Physical-Locality Middleware for Backup Systems”被The annual ACM/IFIP Middleware conference(Middleware 2020)作为长文全文录用。
数据去重技术是提升存储空间效率的关键所在,被广泛应用于数据存储系统中,特别是备份系统。数据按照版本进行存储,但是当数据经过去重处理后,旧数据与新数据是分开存储的,且一个版本的数据流同时包含新数据和旧数据,因此去重系统的数据有严重的碎片化问题,从而导致数据的恢复性能变差。同时,碎片化问题随着备份版本的增多而更加严重。
博士生李鹏飞在华宇教授的指导下提出了通过增强数据物理局部性的中间件来提升备份系统恢复性能的方案,称为HiDeStore。为了增强数据的恢复性能,HiDeStore分析了数据块的分布规律,并提出使用两个哈希cache的策略对数据块进行冷热划分。在每个版本被处理完后,将热的数据块保存在临近的活动容器中,冷的块保存在归档容器中。同时,更新相应的数据块列表,以保证原数据可以被正确地恢复。另外,提出了相应的优化策略减少上述操作的开销。在广泛使用的去重数据集上的测试结果表明,相较于最新的去重系统,HiDeStore可以在保证高去重率的情况下提升约1.6x的恢复性能。
Middleware会议是讨论中间件系统的创新和最新科学进展的国际会议。该研究工作得到了国家自然科学基金(61772212)项目的资助。
图1 HiDeStore的整体系统结构图
图2 HiDeStore在不同工作负载下的恢复性能