首 页 最新通知 图片新闻 项目快讯 项目简报 项目概况 国际会议 信息交流 联系我们

博士生夏鹏论文获得HPDC08会议录用

点击次数:发布时间:2008-04-08 21:55作者:admin

      2008年高性能分布式计算会议HPDC'08文章录用结果揭晓,华中科技大学计算机学院计算机外存储系统国家重点专业实验室博士生夏鹏的论文《FARMER: A Novel Approach to File Access Correlation Mining and Evaluation Reference Model for Optimizing Peta-Scale File System Performance》被收录为大会宣读论文。
      High-Performance Distributed Computing (HPDC) 是高性能计算领域顶级会议之一,平均录取率大约在17%左右,该会议所关注议题包括:高速网络,软件,高性能分布式计算和并行处理,大规模、高效计算以及存储通信。

        文章介绍了一种新颖的挖掘和评价文件相关性的模型— FARMER。该模型借鉴了信息检索领域中向量空间模型的知识将文件访问次序和文件语义属性结合起来评价文件相关度。

      FARMER模型由以下几个阶段组成:1将原始数据从trace文件中提取(Extracting)出来,并有一定的清理(cleaning)操作;2构建访问关系图;3挖掘(Mining)和评价(Evaluating)文件相关性(具体过程下段介绍);4整理结果,排序(Sorting)。FARMER模型的文件相关性挖掘和评价方法主要有两个部分组成:文件语义属性挖掘和文件访问频率挖掘。前者把文件看作成一个由各个语义属性表示的一维向量空间,那么两个文件之间的语义距离(用来描述两个文件语义关系程度),就可以利用信息检索领域中的相似度计算公式来得到。文件访问频率的计算就是通过统计两两文件之间的相对访问概率(访问文件A后访问其后继B的计数比上文件A总的访问计数)。在得到上述的两个方面的评价结果后通过统一的方程将他们结合起来所计算出的结果就是两个文件之间的相关度。

      在已有的方法中,由于没有找到一种比较合适的方法将访问频率挖掘和语义属性挖掘结合,所以并不能完全的反映文件相关性。FARMER通过一种合适的方式同时考虑这两种因素对文件相关性进行评价。通过在HUSt系统上的测试发现,不论是考虑何种应用(高性能计算,普通用户和服务器),FARMER都能够很好的挖掘和评价文件的相关性,在已经实现的应用中(利用相关性进行预取),FARMER预取算法能够显著的提高元数据的缓存命中率(最高可达30%)并且降低元数据服务器响应时间(最高可达35%)。

项目简介及成果展示



    本项目针对下一代互联网的高效性、可扩展性、安全性和高服务,提出建立一种新的存储模式,即“多层次、可扩展的存储对象”模式,并研究相关的核心技术,达到统一和更新网络存储,组建PB级的基于存储对象的存储系统。项目重点研究内容包括:基于存储对象的分布体系结构;高速通道;海量数据存储网络;数据组织与共享机制;存储按需部署与服务质量;GIS分布存储示范应用系统。预期在存储系统理论和核心技术方面获得突破,形成有自主知识产权的信息存储技术。本项目由华中科技大学主持,参加单位有武汉大学测绘遥感信息工程国家重点实验室,清华大学计算机系,北京大学计算机系,中科院计算所,解放军通信指挥学院等。
相关链接

华中科技大学 信息存储与应用实验室
地址: 湖北省武汉市珞喻路1037号 华中科技大学南一楼中501室 邮编:430074
Tel:(027)87542463 (027)87557649 Fax:(027)87545004