跨节点部署的数据并行(Data Parallel)深度神经网络(DNN)训练系统已被广泛应用于各个领域,而系统性能往往受制于工作者之间同步梯度的通信开销。Top-k稀疏化压缩是缓解通信瓶颈的最有效的方法之一。然而,传统的Top-k仍然存在性能问题:1) DNN每一层的梯度通常表示为多个维度的张量,而传统Top-k所选择的最大k个元素仅集中在所有维度中的部分维度,因此训练可能会丢失很多维度信息(称之为维度缺失),从而导致收敛性能降低...
随着人工智能服务的迅速发展,预测服务系统(PSSes)已被广泛应用。然而,PSSes在多节点上运行时容易出现掉队节点(如节点减速或故障),这会导致预测延迟增加。为了解决这个问题,传统的方法是使用复制技术,将相同的预测任务分配给多个节点,但这会导致资源开销显著增加。近年来,编码分布式计算(CDC)因其资源效率更高而受到关注,它将预测任务编码为奇偶校验单元,通过解码进行预测重建。然而,现有的CDC方法在准确性和延...
基于日志结构合并树(LSM-tree)的键值存储(KVS)在存储系统中因为其优异的写性能得到了广泛应用。尽管如此,LSM-tree 内部合并过程导致的高写入放大也提出了新的挑战。而 KV 分离的 LSM-tree 成功地减小了写放大,但也带来了严峻的空间放大问题,这在成本敏感的场景中不容忽视。虽然垃圾回收(GC)操作能够减小空间放大,但是现有的 GC 策略仍然存在不足,缺乏对工作负载特征的全面考虑。此外,目前 KV 分离的 LSM-tree 也忽略了索...
实验室博士生殷文的论文“Temperature-based Backdoor Attacks on Thermal Infrared Object Detection”于2024年2月27日被IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) 录用。CVPR是中国计算机学会推荐的A类国际学术会议。在云边融合的安全存储系统中,边缘端的视频监控是常用的数据采集方式。其中,可见光目标检测可以有效采集车辆、行人等数据信息。然而,可见光目标检测不能在黑暗和温度敏感的场景...
新型的分离式内存架构(disaggregated memory)将内存和计算资源从传统整机(monolithic server)中分离出来,构建独立的、高速网络互联的计算池和内存池,以提高资源利用率和服务弹性。现有工作采用单版本设计思路以简化存储结构,但是存在写阻塞读和大量undo日志占用网络资源等限制。使用多版本设计可以避免单版本的限制,但是现有多版本分布式事务系统为传统整机架构设计,并不适用于新型分离式内存架构。实验室博士生张铭...
人工智能(AI)应用已被广泛运用于各种领域,如图像分类、自然语言处理和自动驾驶。分布式深度神经网络(DNN)训练对于人工智能应用十分重要。不幸的是,分布式训练涉及多个训练机器节点,使得DNN训练容易受到系统故障的影响。检查点技术(Checkpointing)可用于为DNN训练提供容错保证,但会带来较高的运行时开销。为了实现高性能和低延迟的高频次检查点,信息存储与光显示功能实验室博士生陈梦雷在华宇教授的指导下,提出了...
实验室博士生彭周旋的论文“AdaptHM:A Fully Adaptive Data Migration Strategy for Hybrid Memory Systems”于2023年11月8日被IEEE Transaction on Computer-Aided Design of Integrated Circuits and Systems (TCAD)录用。IEEE TCAD是中国计算机学会推荐的A类国际学术期刊。数据迁移策略被广泛应用于现有的各种混合异构内存系统中,其作用是将被频繁访问的数据迁移到好的快速内存设备,以提升系统的整体性能表现。然而,...
持久内存(Persistent Memory, PM)结合了传统易失性内存与磁盘存储器的特性,既具有较高的访问性能,又可以确保数据在断电后不会丢失,同时还具有TB级的超大容量。此外,持久内存可以绕过操作系统被应用程序直接访问,极大地提升了存储访问性能。然而,持久内存的动态分配需要考虑元数据的崩溃一致性,这使得传统的易失性内存分配器无法被应用于持久内存。为了解决持久内存的动态分配问题,信息存储与光显示功能实验室硕士生向...
新兴的分区命名空间(ZNS) SSD为主机提供细粒度的、性能可预测的存储管理。ZNS SSD将地址空间划分为多个Zone,每个Zone必须按顺序写入,且不能被覆盖。然而,写约束导致频繁地对文件元数据进行小的修改,以记录更新数据块的最新逻辑块地址,从而增加了fsync()系统调用的开销。通过综合分析了真实ZNS SSD上fsync的元数据开销,发现:(1)大多数元数据块的更新大小(如几十字节)远远小于区域的IO单元(如4 KiB),频繁的fsync会导致严...
随着现代计算机系统对存储和I/O需求的持续增长,具有数据去重(Deduplication)功能的SSDs(Solid State Drives)在云平台中得到了广泛部署以满足高性能存储需求。在多租户场景中,由于内存资源有限,来自不同租户的多个I/O流同时运行时,会出现指纹缓存的争用。然而,现有的全局和固定指纹管理方案难以适应不同租户的负载特性,在多租户环境中争用指纹缓存空间影响系统性能,指纹计算和指纹查找的开销导致的性能下降。为了解...