信息存储系统教育部重点实验室

李晓露老师的论文被会议FAST 2023录用


分布式存储系统广泛部署纠删码(Erasure Code)来保证数据可靠性,同时降低存储成本。然而纠删码的数据修复开销很高,修复1个数据块需要读取k个块。为了提升数据修复性能,现有的工作提出理论上修复带宽更低的纠删码,如再生码(Regenerating Code),或者基于经典纠删码(RS码)设计并行修复(Parallel Repair)算法。然而,再生码虽然理论上最小化修复带宽,但数据修复节点负载远高于其他节点,造成负载不均衡;基于RS码的并行修复算法虽然使得负载分布更均衡,但是依然修复带宽很高。那么,纠删码是否有可能在修复带宽和节点负载之间做一个权衡,为分布式存储系统提供更好的性能呢?

信息存储及应用实验室李晓露讲师,胡燏翀教授,冯丹教授,分析了再生码通过并行修复来为分布式存储系统提供更好的“带宽-负载”权衡的可能性。文章将数据并行修复建模为有向图染色问题,分析发现,通过将再生码不同的修复操作分布到不同的节点,可以在带宽和负载之间进行权衡。在再生码所有的并行修复方案中,存在一个方案(MLP,Minimum-load point)能在提供最小节点负载的同时尽可能最小化修复带宽,有可能进一步提升分布式存储系统的数据修复性能。然而,这个MLP对应的方案很难找到,再生码的高分包数使得传统的基于Brute Force搜索的方法无法在多项式时间内求解。因此,文章提出启发式算法来求解一个较优的解。文章提出了再生码并行修复框架ParaRC,并在阿里云进行了大规模数据修复实验。实验结果显示,再生码的并行修复可以进一步提升降级读以及节点修复的性能。其中,与RS码并行修复相比,降级读与节点修复性能提升约51.9%和70.2%;与传统再生码修复相比,降级读与节点修复性能提升约59.3%和39.2%。

注:本文为原创,如转载请注明出处。

分享文章

Share