信息存储系统教育部重点实验室

博士生李鹏飞、陈章玉的论文被期刊JCST录用


实验室博士生李鹏飞的论文“An Enhanced Physical-Locality Deduplication System for Space Efficiency”、博士生陈章玉的论文“Approximate Similarity-Aware Compression for Non-Volatile Main Memory”被Journal of Computer Science and Technology (JCST)录用。

随着嵌入式设备、应用程序和系统产生大量数据,重复数据消除技术成为提高存储空间效率的关键。然而,现有的去重系统在消除重复数据后,存储系统中会产生大量碎片化的数据块,从而降低原数据流的恢复性能,并增加垃圾回收的开销。现有方案没有在存储数据块时达到较高的物理局部性,很难在重复数据消除、原数据恢复和垃圾回收性能之间达到较好的平衡。

博士生李鹏飞在华宇教授的指导下提出了一种高性能的重复数据消除方法,称为HiDeStore,通过在重复数据消除阶段增强新备份版本的物理局部性来解决上述问题。具体而言,HiDeStore在重复数据消除阶段识别出热的数据块,并将热的数据块存储到活动容器中。在处理完一个备份版本后将未出现在新备份中的数据块从活动容器中移动到归档容器中。此外,HiDeStore使用独立容器删除的方案直接删除过期的容器,避免了用于逐个识别过期数据块和回收碎片空间的开销。通过采用业界广泛使用的数据集进行实验的结果表明,与最先进的方案相比,HiDeStore分别将重复数据消除和恢复性能提高了1.4倍和1.6倍,并达到了较高去重率以及较低垃圾回收开销。

该研究工作得到了国家自然科学基金(62125202、U22B2022)项目的支持。

图1 HiDeStore的整体结构图

图2 HiDeStore分别在(a)Linux Kernel, (b)Gcc和(c)Fslhomes数据集下的恢复性能

基于多媒体数据的计算机视觉、机器学习、图像和视频处理等应用广泛使用位图数据以存储像素等具体视觉信息,这些数据暂存在内存中供后续应用访问,占用了大量的内存空间和能耗。和传统的DRAM相比,新型非易失内存(Non-Volatile Memory)具有高存储密度和免动态刷新的优势,适合存储位图数据。然而,非易失内存存在写延迟高和耐久性有限的问题。传统图像软件编码方案难以在非易失内存控制器层面实现。另一方面,由于位图数据内容多样,不具有固定的数据模式,现有针对非易失内存数据的精确和近似压缩方案效率有限。

为了解决上述问题,博士生陈章玉在华宇教授指导下提出一种相似性感知的近似数据压缩方案SimCom,通过降低微小的数据精度换取非易失内存写性能的大幅提升。实验测试发现非易失内存写请求中的位图数据普遍存在像素级别的相似性。当非易失内存模块控制器收到可近似数据的写请求时,自适应地检测相似数据,通过基字和次数对数据内容进行近似压缩,同时重用基字的最低位以对较小的次数进行数值编码,降低相似数据的写开销。实验结果表明,在3%的精度损失下,与现有的FPC/BDI/BiScaling压缩方案相比,SimCom的写优化降低了18.3%/22.2%/21.1%的能耗和17.3%/24.9%/28.8%的写操作延迟。

该研究工作得到了国家自然科学基金(62125202、U22B2022)的支持。

图3 SimCom的系统架构图

注:本文为原创,如转载请注明出处。

分享文章

Share