实验室博士生朱蔚霖的论文“LpaqHP: A High Performance FPGA Accelerator for LPAQ Compression”被53rd International Conference on Parallel Processing (ICPP)录用。LPAQ算法具有极高的压缩率,可大幅减少数据的体量。然而LPAQ算法的压缩速率极低,无法投入实际的实用。LpaqHP总体架构博士生朱蔚霖在童薇副教授的指导下提出了LpaqHP——通过解除算法的比特级数据依赖性并使用FPGA对算法进行加速,实现一个字节内八个比特的...
实验室博士生张津通的论文“SchInFS: A File System Integrating Functions of the Block I/O Scheduler for ZNS SSDs” 被42nd IEEE International Conference on Computer Design (ICCD 2024) 录用。新兴的分区命名空间(ZNS)SSD将地址空间划分为顺序写入的区域,并将垃圾回收(GC)转移到主机,从而提供更稳定的性能、更大的容量和更长的设备寿命。然而,顺序写入约束给ZNS设备上的文件系统设计带来了一些问题,特别是导...
实验室博士生殷文的论文“Backdoor Attacks on Bimodal Salient Object Detection with RGB-Thermal Data”于2024年07月21日被ACM International Conference on Multimedia (ACM MM) 录用。ACM MM是中国计算机学会推荐的A类国际学术会议。在云边融合的安全存储系统中,边缘端的视频监控是常用的数据采集方式。其中,可见光—热显著目标检测可以充分利用可见光和热红外来有效采集车辆、行人等数据信息,将图像中最受注意的目标分...
存算一体(Computing-in-Memory,CIM)架构能通过原位计算有效加速矩阵向量乘法(Matrix-vector multiplication,MVM),减少数据搬运的开销,有望解决传统冯诺伊曼体系结构的“存储墙”瓶颈。现有软件层面的通信优化工作主要通过精心设计静态的数据布局来减少通信距离;硬件层面的磨损均衡和错误处理工作通过动态调度来提高系统寿命,但却导致数据布局随机化,增加通信距离。为了平衡通信性能和可靠性,同时让现有CIM编译器与...
跨节点部署的数据并行(Data Parallel)深度神经网络(DNN)训练系统已被广泛应用于各个领域,而系统性能往往受制于工作者之间同步梯度的通信开销。Top-k稀疏化压缩是缓解通信瓶颈的最有效的方法之一。然而,传统的Top-k仍然存在性能问题:1) DNN每一层的梯度通常表示为多个维度的张量,而传统Top-k所选择的最大k个元素仅集中在所有维度中的部分维度,因此训练可能会丢失很多维度信息(称之为维度缺失),从而导致收敛性能降低...
随着人工智能服务的迅速发展,预测服务系统(PSSes)已被广泛应用。然而,PSSes在多节点上运行时容易出现掉队节点(如节点减速或故障),这会导致预测延迟增加。为了解决这个问题,传统的方法是使用复制技术,将相同的预测任务分配给多个节点,但这会导致资源开销显著增加。近年来,编码分布式计算(CDC)因其资源效率更高而受到关注,它将预测任务编码为奇偶校验单元,通过解码进行预测重建。然而,现有的CDC方法在准确性和延...
基于日志结构合并树(LSM-tree)的键值存储(KVS)在存储系统中因为其优异的写性能得到了广泛应用。尽管如此,LSM-tree 内部合并过程导致的高写入放大也提出了新的挑战。而 KV 分离的 LSM-tree 成功地减小了写放大,但也带来了严峻的空间放大问题,这在成本敏感的场景中不容忽视。虽然垃圾回收(GC)操作能够减小空间放大,但是现有的 GC 策略仍然存在不足,缺乏对工作负载特征的全面考虑。此外,目前 KV 分离的 LSM-tree 也忽略了索...
实验室博士生殷文的论文“Temperature-based Backdoor Attacks on Thermal Infrared Object Detection”于2024年2月27日被IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) 录用。CVPR是中国计算机学会推荐的A类国际学术会议。在云边融合的安全存储系统中,边缘端的视频监控是常用的数据采集方式。其中,可见光目标检测可以有效采集车辆、行人等数据信息。然而,可见光目标检测不能在黑暗和温度敏感的场景...
新型的分离式内存架构(disaggregated memory)将内存和计算资源从传统整机(monolithic server)中分离出来,构建独立的、高速网络互联的计算池和内存池,以提高资源利用率和服务弹性。现有工作采用单版本设计思路以简化存储结构,但是存在写阻塞读和大量undo日志占用网络资源等限制。使用多版本设计可以避免单版本的限制,但是现有多版本分布式事务系统为传统整机架构设计,并不适用于新型分离式内存架构。实验室博士生张铭...
人工智能(AI)应用已被广泛运用于各种领域,如图像分类、自然语言处理和自动驾驶。分布式深度神经网络(DNN)训练对于人工智能应用十分重要。不幸的是,分布式训练涉及多个训练机器节点,使得DNN训练容易受到系统故障的影响。检查点技术(Checkpointing)可用于为DNN训练提供容错保证,但会带来较高的运行时开销。为了实现高性能和低延迟的高频次检查点,信息存储与光显示功能实验室博士生陈梦雷在华宇教授的指导下,提出了...