实验室博士生孙园园的论文“DLSH: A Distribution-aware LSH Scheme for Approximate Nearest Neighbor Query in Cloud Computing”被2017年度云计算领域的顶级国际学术会议ACM Symposium on Cloud Computing (SoCC) 2017作为长文全文录用。
海量存储系统消耗大量系统资源,例如计算、存储和网络等来支持查询相关请求操作,然而实时处理和分析海量高维数据仍然是一个巨大的挑战。因此,近邻查询服务由于其具有实时性而在实际应用中受到越来越多的关注。局部灵敏哈希(Locality Sensitive Hashing,LSH)具有哈希计算简单和能够维持数据相似性的特性,被广泛应用于支持近邻查询服务。然而传统LSH的哈希函数需要随机选择映射向量,并且是独立于数据分布的,这需要利用大量的哈希表来保证查询的精确度,从而带来严重的内存空间开销。同时,查询操作中大量不相关的元素被探测并需要进行进一步距离计算来进行精确比较,带来较大的查询时延。
博士生孙园园在华宇教授的指导下,提出了一种基于数据分布感知的近邻查询方法,该方法利用数据的主成分作为局部灵敏哈希的投影向量,并进一步量化索引表中每个哈希函数的权值和调整每个哈希表中哈希函数的间隔大小,以在保证近邻查询精确度的同时减少构建索引所需的哈希表数量,从而减少哈希表的空间开销。进一步地,该方法根据近邻查询结果的哈希冲突频率来精炼查询结果集合,消除大量不相关的元素,极大地减小了用于距离计算的数据量,减小了查询时延,相关方法能够充分利用数据分布的特性,满足快速查询特性,并具有良好的可拓展性。
这项研究成果发表在中国计算机学会推荐的B类国际会议SoCC 2017 (2017年9月25日-9月27日,美国加州圣克拉拉)。SoCC是云计算领域享有盛誉的国际学术会议,本届会议收到203篇投稿,最终录用48篇,录用率为23.6%。