信息存储系统教育部重点实验室

存储服务与应用


存储服务与应用方向,研究复杂网络环境下的存储系统结构和相应存储软件,如存储管理、存储虚拟化、存储服务软件。研究面向存储密集型应用的各类解决方法,富媒体应用的性能敏感性需求解决方法,数据中心和高性能计算的能效敏感性需求解决方法等。

1. 广域网存储

广域网存储系统U-Stor的研发目的在于:针对下一代互联网的特点,实现对PB级大规模分布式网络存储系统的有效管理及应用。

服务系统主要分为两大部分,分别是对广域网海量存储系统的有效管理和统一、灵活的访问。

提供存储服务的底层架构由分布在互联网范围内的存储资源构成,网络连接复杂、节点数量庞大,给实现对资源的统一访问提出了很高的挑战,因此需要把传统的面向存储区域网的虚拟化技术进行扩展,采用分布式架构并通过灵活定制的策略进行管理。

围绕这两个方面主要有三个部分的主要工作:

① 广域网存储资源发现和管理;

② 广域网存储服务、文件系统和规则管理;

③ 分布式存储虚拟化。

广域网存储资源发现和管理以及广域网存储服务均在已完成了工程原型并进行了较为广泛的测试,公开域名ustor.hust.edu.cn,且已开启公网访问以及IPv6专门路由通道,后者也有专用门户ustor6.hust.edu.cn;存储虚拟化系统正在进行研发,随后的工作中还将围绕其开展数据管理方面的多项工作。

U-Stor的存储资源管理基于SNIA发布的产业界标准SMI-S,其基于SMI-S的异构网络存储设备统一管理软件管理范围大,扩展性好,在软件中采用了多项创新技术提高了管理的效率,改善了传统存储资源管理在广域网环境的适应性。广域网存储服务软件已在国家发改委《面向下一代互联网的智能网络存储系统研究与产业化项目》分项CNGI-04-5-1D的示范系统中进行了部署,存储资源可以通过广域网络跨地理区域注册进系统进行统一管理。在当前已完成部署的实验存储系统中,可纳入管理的容量总计近150TB,设计容量可达PB级,按照存储子系统所属网络地域划分为多个区域实施管理,区域间可使用IPv4/IPv6广域网进行连接。

U-Stor的存储服务采用了应用广泛的Web方式,并且借助于服务数据的XML描述实现了文件服务的虚拟化,进而在广域网存储服务软件中采用了协作机制克服了传统广域网存储服务在规模增长时的性能瓶颈,同时提高了系统的可用性,改善了扩展性。在软件中创新性的采用了文件服务规则管理技术提供了灵活的数据管理方法,提高了数据管理的效率。广域网存储服务软件已在国家发改委《面向下一代互联网的智能网络存储系统研究与产业化项目》分项CNGI-04-5-1D的示范系统中进行了部署,实现了用户数据在线共享、用户定制规则管理等功能。可直接使用域名http://ustor.hust.edu.cn/ (IPv4) http://ustor6.hust.edu.cn (IPv6) 通过浏览器、WebDav虚拟卷、广域文件系统进行访问,经校园网用户内部试用效果良好,随后的开发中还将对管理、访问和安全机制做更多的改进。

(1) 分布式存储虚拟化



图1 分布式存储虚拟化结构

带外虚拟化

在进行存储虚拟化时,实现管理和数据传输路径的分离,

避免在虚拟化管理节点上形成性能瓶颈

块级统一存储池

在全系统范围构成全局统一的存储池,实现卷的集中管理

虚拟化策略定制

使用开放式的虚拟化策略语言和相关软件联动实现所管理

存储资源的动态、按需分配

(2) 面向下一代互联网的存储服务

面向下一代互联网的文件服务,需要充分适应广域网的结构和应用特点,在性能和规模上具备高度的延展性,并且在系统构成和应用环境高度复杂的情况下仍然可以进行有效的管理,确保服务质量。

图2 面向下一代互联网的存储服务图示

资源描述规范化

基于SNIA发布的产业界标准SMI-S实现存储资源的统一描述,更符合多类型、多结构存储资源的管理需要

对等资源查找

有结构对等网络的可扩展资源查找方法充分利用了对等网络技术和机器学习机制,具备很好的可扩展性,降低了网络开销、改善了资源搜索效率

规则管理方法

在面对来自互联网的复杂而多变的用户需求和运行环境时,使文件服务具有良好的适应性和可管理性

图3  面向下一代互联网的存储服务界面

2. 应用案例1:电视台数据化全自动视频服务系统

从2000年开始,电视台节目播放系统就开始了从模拟向数字的转换,而早期数字式的系统就其结构而言多为C/S双层结构上的工作流系统,有的则是建立在本地专用局域网络平台上的分布式应用。电视节目以图像、视频、音频信息为主体,如果不采用相关压缩技术,比较传统数据而言将带来巨大的信息处理量,同时多媒体信息和传统数据信息相比较,不仅具有空间上的相关性而且还有时间上的相关性。所以在这样一个系统中要实现在本地和网络上的平滑播放和传送具有相当的难度,主要的困难集中在几个技术领域:信息存储、数据传输以及播放。多媒体信息对于存储系统的高要求主要集中在吞吐率和容量上,而且在广播电视播放领域,尤其是无压缩的情况下这类要求显得尤为苛刻;播放过程还要与上传等过程相互协调,要实现平滑、不间断的播放,系统工作的安全性、可靠性必须得到高质量的保证。从2000年到2003年,实验室通过与相关企业合作,针对上述挑战研发了“电视台数据化全自动视频服务系统”。

图4电视台数据化全自动视频服务系统结构

图5 系统实地部署

图6 系统中使用的自研磁盘阵列

3. 应用案例2:高可信海量数据存储中心

随着社会信息化的不断深入,社会对计算机系统的依赖越来越大,但传统的计算机信息系统在诸如火灾、水灾、地震、战争或人为破坏等灾难面前非常脆弱,计算机系统的硬件、数据、系统和服务都会受到不同程度的破坏。一旦灾难发生在通信、金融或军事系统,如果不能够及时应付灾难,恢复系统功能,将造成不可估计的损失。

因此,实验室面向国家关键行业、空间数据海量存储、大型企业应用等对信息存储的实际需求,对高可信海量数据存储中心体系结构、类型和实现方法展开了研究,重点包括数据安全存储、安全访问方法,数据备份、系统容灾方法,以及异构存储资源管理方法。在上述研究内容中,逐步建立可信对象存储理论,以指导高安全性数据中心构建和高效可靠运行。

总体结构及管理框架如图7所示。

图7 高可信数据中心总体结构及管理框架

图8基于审计日志的存储入侵检测系统结构

图9 入侵检测系统工作流程

4. 应用案例3:装载机远程服务系统与智能化挖掘机

与机械学院合作完成2003年国家863项目子项目:装载机远程服务系统与智能化挖掘机

装载机和挖掘机是应用最广泛的两种工程机械,也是中国产量和销量最大的两种工程机械。

图10 装载机和挖掘机 

装载机远程服务管理与专家系统模块

机载控制模块:读取销售系统的售后服务管理系统相关的装载机信息(如机型,售后时间,销售地域等);

远程数据传输模块:确定服务顺序并向远程诊断专家系统提出状态检测与故障诊断请求,为指定的信息化装载机提供远程状态检测与故障诊断的主动服务;

远程服务管理与专家系统:存储装载机的工况及故障信息,采用SQL Sever数据库。查询界面用浏览器方式;

远程服务系统三种信息交换方式

信息化装载机通过GPRS网关接入Internet网与远程服务系统交换数据。

便携机以短程无线数传模块与信息化装载机交换数据,再以无线/有线方式接入Internet网上与远程服务系统交换数据。

当信息化装载机处于无线通讯网信号覆盖范围以外时,通过便携机现场进行数据采集,由便携机专家系统进行诊断,或者返回办事处通过Internet网回传数据,由专家系统进行诊断。

图11远程数据传输系统结构图

图12远程数据传输控制器

图13远程数据传输控制器封装 

图14 远程数据传输系统结构

建立了基于时域和频域特征提取的无故障标准库生成软件包,并与专家系统无缝集成。

建立基于CAN总线技术的装载机信息交换协议。

开发了基于Internet的ASP的装载机远程服务管理与专家系统软件,实现了对客户的零距离服务。

实现以GPRS无线网络为主的,无线数传以及标准串口为辅的数据传输通道,应用于装载机远程数据传输,满足工业化应用多种的实际需要。

分享文章

Share