信息存储系统教育部重点实验室

博士生王霖的论文被会议Euro-Par 2024录用


随着人工智能服务的迅速发展,预测服务系统(PSSes)已被广泛应用。然而,PSSes在多节点上运行时容易出现掉队节点(如节点减速或故障),这会导致预测延迟增加。为了解决这个问题,传统的方法是使用复制技术,将相同的预测任务分配给多个节点,但这会导致资源开销显著增加。近年来,编码分布式计算(CDC)因其资源效率更高而受到关注,它将预测任务编码为奇偶校验单元,通过解码进行预测重建。然而,现有的CDC方法在准确性和延迟之间存在权衡。简单的编码器和解码器可以降低延迟,但准确性较低;复杂的编码器和解码器可以提高准确性,但延迟较高。

为了解决这个问题,信息存储系统教育部重点实验室博士生王霖,以及硕士生刘玉雪,在导师胡燏翀教授的指导下,提出了AsymCDC框架,该框架采用了非对称的设计,将简单的编码器和复杂的解码器相结合。AsymCDC框架的编码器基于线性计算,能够快速编码预测任务,从而降低预测延迟。解码器则基于可逆神经网络(INN),能够精确解码掉队节点的结果,从而提高预测准确性。此外,研究团队还提出了一种解码器压缩方法,能够有效利用知识蒸馏技术,减小解码器的尺寸,从而降低解码时间。

实验结果表明,AsymCDC框架在预测准确性和延迟方面均优于现有方法。与现有方法相比,AsymCDC框架在将预测延迟降低20%左右的同时,预测准确率仅仅降低了不超过2.6%。此外,AsymCDC框架还具有较好的可扩展性,能够处理大规模的预测任务。

图1 准确率对比

2 预测延迟对比

AsymCDC框架的提出为弹性预测服务系统的设计提供了新的思路和方法。未来,研究团队将进一步优化AsymCDC框架,提高其性能和可扩展性,并将其应用于更多的实际场景中。

该研究课题为“Asymmetric Coded Distributed Computation for Resilient Prediction Serving Systems”发表在中国计算机学会推荐的B类国际学术会议Inter national European Conference on Parallel and Distributed Computing (Euro-Par 2024)。该研究工作得到了国家重点研发计划青年科学家项目(No.2021YFB0301400)资助。

注:本文为原创,如转载请注明出处。

分享文章

Share