信息存储系统教育部重点实验室

博士生刘飞帆的论文被会议DAC 2026录用


大型语言模型的分布式推理服务常常会出现负载不均衡问题,因此前缀 KV 缓存被广泛用于提升推理效率。当前关于负载均衡的前沿研究主要集中在热点缓存副本机制上,但这种方式会导致缓存副本数量有限,依然引发严重的节点负载不均,进而拉高推理延迟。

实验室博士生刘飞帆在胡燏翀老师的指导下,共同提出了一种基于纠删码的前缀 KV 缓存框架ECPrefix。该框架通过将热点前缀缓存编码为分块并分散存储到多个节点,替代传统副本策略以实现更均衡的负载分布。此外,ECPrefix 设计了自适应条带配置与流水线读取优化,有效降低解码开销并提升缓存读取速度。在多种大模型上的实验表明,与最先进的方法相比,ECPrefix 最多可降低52.3% 的首 token 延迟(TTFT)。

图1 负载均衡方面纠删码对比副本示意图

图2 ECPrefix整体结构图

该研究成果被DAC 2026录用。DAC是系统结构领域最重要的国际会议之一,也是中国计算机学会推荐的A类会议。该研究工作得到了国家自然科学基金(No. 62272185,No. U25A20423)的资助。

注:本文为原创,如转载请注明出处。

分享文章

Share