信息存储系统教育部重点实验室

博士生谢燕文的论文被会议ICPP 2017录用


实验室博士生谢燕文的论文“Non-sequential Striping for Distributed Storage Systems with Different Redundancy Schemes”被2017年并行处理与分布式计算领域的国际学术会议 International Conference on Parallel Processing (ICPP) 2017作为长文全文录用。

大规模分布式存储系统往往存储冗余数据以保证数据的高可用性与高可靠性。根据数据的访问热度,系统往往同时采用两种冗余策略,对热数据采用多副本策略以提供高性能,而冷数据采用纠删码策略以提供高存储利用率。首先,热数据转换为冷数据时,其策略转换往往带来巨大的编码开销,包括计算、网络和存储等,其中网络占主要开销,造成网络IO突增,影响数据的在线服务。其次,热数据往往根据应用场景采用适合的副本放置策略,而且其副本布局会因为故障恢复、负载均衡等原因而改变,导致数据转冷时数据布局呈现多样性,增加数据转换的难度。最后,数据转换后,要求多副本数据的同条带内的不同数据块分布在多个域上,而现有方法面对多种数据布局时,并不能保证无位置相关块的产生,转换后迁移位置相关块进一步带来网络和存储的开销。

博士生谢燕文在冯丹教授的指导下,提出了一种非数据条带的纠删码数据布局方法,在保障数据的高可靠性的前提下,降低多副本数据转换过程的网络开销,适用于多种多样的多副本布局方式。首先,随着分布式存储系统倾向于聚集小数据成大块进行存储,一写多读,纠删码常用于冷数据等特点,非顺序条带的数据布局方法并不会带来巨大的额外开销与维护操作。其次,在数据转换前,使用贪心算法构建条带,优先选取那些编码时能够减少网络开销、不带来位置相关块的数据块组成条带,在条带内数据块聚集的节点上进行编码,并合理分布校验块,从而保障转换的低开销与高可靠。

这项研究成果发表在中国计算机学会推荐的B类国际会议ICPP 2017 (2017年8月14日- 8月17日,英国布里斯托)。ICPP是并行处理和分布式计算领域享有盛誉的国际学术会议,本届会议收到211篇投稿,最终录用60篇,录用率为28.4%。

注:本文为原创,如转载请注明出处。

分享文章

Share