实验室博士生李鹏飞的论文“ROLEX: A Scalable RDMA-oriented Learned Key-Value Store for Disaggregated Memory Systems”被The 21st USENIX Conference on File and Storage Technologies (FAST 2023)作为长文全文录用。
与传统分布式系统不同的是,分离式内存系统将完整的服务器分成独立的组件以提高系统资源的利用率,包括由内存资源构建的内存池和计算资源构成的计算池。在这样的系统架构中,通过有序索引提供高效的范围查询性能至关重要。然而,现有的有序索引方案要么在分离式内存系统中引入了多次昂贵的网络往返开销,要么严重依赖计算能力不足的内存节点来处理频繁的数据请求,因而无法在分离式内存系统中提供高效的数据存储和访问性能。
博士生李鹏飞在华宇教授的指导下为分离式内存系统设计了一个面向单边RDMA操作的学习型的键值存储方案,称为ROLEX。通过将数据修改和模型重训练操作分离,支持旧模型访问修改后的数据而无需立即重训练模型,降低了模型的重训练频率和开销。基于重训练分离的学习型模型,计算节点通过单边RDMA操作直接访问和修改远程的数据。为了减少网络带宽的消耗,ROLEX使用异步、原地重训练的策略在内存节点上利用少量的计算资源对修改后的数据进行重训练。其他节点使用重定向的策略在下一次读数据时同步修改后的模型。在系统及真实的工作负载上的测试结果表明,相较于最先进的分布式索引方案,ROLEX在动态负载情况下提升1.3到2.8倍的系统性能。
该研究工作得到了国家自然科学基金(62125202、U22B2022)项目的支持。
图1 ROLEX的整体结构图
图2 ROLEX在YCSB不同负载下的吞吐量