人工智能(AI)应用已被广泛运用于各种领域,如图像分类、自然语言处理和自动驾驶。分布式深度神经网络(DNN)训练对于人工智能应用十分重要。不幸的是,分布式训练涉及多个训练机器节点,使得DNN训练容易受到系统故障的影响。检查点技术(Checkpointing)可用于为DNN训练提供容错保证,但会带来较高的运行时开销。
为了实现高性能和低延迟的高频次检查点,信息存储与光显示功能实验室博士生陈梦雷在华宇教授的指导下,提出了一种用于分布式DNN训练的轻量级检查点系统。通过层级细粒度地流水线化执行异步检查点,从而减少检查点开销。图1展示了提出的细粒度异步检查点的执行过程。通过软硬件协同设计了高效的持久内存(PM)管理器,实现在检查点系统中利用新型硬件,从而进一步减少检查点延迟。图2展示了该检查点系统可以实现低于4%的额外执行开销。
这项研究工作题为“A Cost-Efficient Failure-Tolerant Scheme for Distributed DNN Training”,发表在中国计算机学会推荐的B类国际学术会议The 41st IEEE International Conference on Computer Design (ICCD 23)。
图 1 细粒度异步检查点的执行过程
图 2 不同检查点系统的额外执行开销
研究工作得到了国家自然科学基金(No. 62125202, No. U22B2022和No. 61821003)的资助。