部署在对象云存储系统上的各种应用程序具有不同的延迟服务水平目标(SLO),在系统存储资源受限的情况下,为应用程序提供服务质量保障带来了挑战。对于来自不同应用的请求,现有方法通常决定其何时由哪个存储设备处理。然而,系统规模的不断扩大与资源管理机制的日趋复杂,要求新的方法对系统内部结构信息有更强的捕捉能力,从而为每个请求选择最佳的存储设备进行处理。
信息存储及应用实验室博士生张望,在施展副教授指导下,设计了一个名为Graph3PO的混合框架。该框架包含预测、决策和控制三个模块。首先,预测模块提取对象云存储系统的历史拓扑信息与存储设备队列信息,以形成时序图。由于GCN与GRU善于捕捉负载数据的结构信息与时序信息,Graph3PO以时序图建模负载,使用GCN与GRU来预测请求从发送到处理完毕,在不同存储设备上所耗费的时间。然后,基于预测结果,决策模块为每个请求选择当前最佳的存储设备进行处理。最后,当请求在存储设备队列中排队出现高SLO违例风险时,控制模块决定是否在队列中对请求进行调度,或是向决策模块报告是否需要发起对冲请求。实验结果表明,Graph3PO的SLO违约率比四个最先进的方法低2.8到201.1倍。
图1 Graph3PO的预测模块
该研究成果被SC 2023录用。SC是系统结构领域最重要的国际会议之一,也是中国计算机学会推荐的A类会议。该研究工作得到了国家自然科学基金(No.61821003、No.61832020及No.U22A2027)与阿里巴巴创新研究计划等项目的资助。