2008年高性能分布式计算会议HPDC'08文章录用结果揭晓,华中科技大学计算机学院计算机外存储系统国家重点专业实验室博士生夏鹏的论文《FARMER: A Novel Approach to File Access Correlation Mining and Evaluation Reference Model for Optimizing Peta-Scale File System Performance》被收录为大会宣读论文。
High-Performance Distributed Computing (HPDC) 是高性能计算领域顶级会议之一,平均录取率大约在17%左右,该会议所关注议题包括:高速网络,软件,高性能分布式计算和并行处理,大规模、高效计算以及存储通信。
文章介绍了一种新颖的挖掘和评价文件相关性的模型— FARMER。该模型借鉴了信息检索领域中向量空间模型的知识将文件访问次序和文件语义属性结合起来评价文件相关度。
FARMER模型由以下几个阶段组成:1将原始数据从trace文件中提取(Extracting)出来,并有一定的清理(cleaning)操作;2构建访问关系图;3挖掘(Mining)和评价(Evaluating)文件相关性(具体过程下段介绍);4整理结果,排序(Sorting)。FARMER模型的文件相关性挖掘和评价方法主要有两个部分组成:文件语义属性挖掘和文件访问频率挖掘。前者把文件看作成一个由各个语义属性表示的一维向量空间,那么两个文件之间的语义距离(用来描述两个文件语义关系程度),就可以利用信息检索领域中的相似度计算公式来得到。文件访问频率的计算就是通过统计两两文件之间的相对访问概率(访问文件A后访问其后继B的计数比上文件A总的访问计数)。在得到上述的两个方面的评价结果后通过统一的方程将他们结合起来所计算出的结果就是两个文件之间的相关度。
在已有的方法中,由于没有找到一种比较合适的方法将访问频率挖掘和语义属性挖掘结合,所以并不能完全的反映文件相关性。FARMER通过一种合适的方式同时考虑这两种因素对文件相关性进行评价。通过在HUSt系统上的测试发现,不论是考虑何种应用(高性能计算,普通用户和服务器),FARMER都能够很好的挖掘和评价文件的相关性,在已经实现的应用中(利用相关性进行预取),FARMER预取算法能够显著的提高元数据的缓存命中率(最高可达30%)并且降低元数据服务器响应时间(最高可达35%)。