数据压缩是降低存储成本、提升数据传输效率的重要基础技术。上下文混合压缩算法(Context Mixing, CM)能够通过精细的预测建模获得极高压缩比,但其在CPU平台上的吞吐率较低。以LPAQ为代表的CM压缩算法需要逐bit完成预测、混合和编码,且依赖离散的哈希状态访问,导致难以持续发挥SIMD并行能力,也难以随着线程数增加获得接近线性的吞吐扩展。
针对上述问题,华中科技大学信息存储及应用实验室硕士生魏攀悦(第一作者)及朱蔚霖、瞿艺飞同学,在童薇教授指导下,提出了面向LPAQ压缩算法的多层并行设计LPAQMP。LPAQMP从字节级并行和任务级并行两个层面协同优化:在字节级,通过重构预测器、混合器和算术编码器的数据通路,消除byte内bit 间残余依赖,实现稳定的8路SIMD 并行;在任务级,提出全局回滚哈希表(Global Rollback Hash Table, GRHT),以全局共享状态结构替代线程私有哈希表副本,降低内存冗余和缓存/TLB失效率,提升多线程扩展能力。

图1 LPAQMP冲突解决与并行化实现示意图
LPAQMP可以有效解决LPAQ在CPU上难以并行化的问题,如图1所示。首先,针对预测器中的哈希冲突,设计冲突检测单元、静态状态转移表和状态合并单元,将原本可能串行化的冲突访问转化为寄存器内并行计算。其次,将分散的bit级状态访问重构为按哈希表项聚合加载,并结合预取机制降低访存开销。最后,重构混合器权重布局并引入全局误差耦合机制,使混合计算和权重更新能够并行执行。上述技术从“冲突消除—访存优化—多线程共享状态”三个层面提升LPAQ的CPU执行效率。

图2 SECRET架构图及核心部件硬件实现示意图
实验结果显示LPAQMP在保持高压缩比的同时,压缩吞吐率达到152.67MB/s,相比LPAQ-CPU提升约12.3倍,相比现有先进实现提升约1.2倍;在32线程下获得约25.36倍加速,表现出接近线性的线程扩展能力。与Lizard、Zstd、Brotli、XZ等高压缩率软件压缩算法相比,LPAQMP在吞吐率上保持优势,同时压缩比平均提高约13%至39%。
本工作题目为“LPAQMP: Multilayer Parallel Design for LPAQ Compression”,成果已被数据压缩领域重要国际会议Data Compression Conference(DCC 2026)录用。该工作得到了国家自然科学基金项目(No.62172178)的支持。