虚拟技术降低分布式存储系统部署成本

2012-11-09 06:41于翔
中国教育网络 2012年4期
关键词:存储系统虚拟化集群

文/于翔

虚拟技术降低分布式存储系统部署成本

文/于翔

校园网存储系统可充分利用虚拟化与分布式技术的特点,采用多层次的模块化应用,使整个存储系统从硬件架构到软件的应用方式变得更加灵活和易扩展,同时又因为虚拟化与分布式技术本身的安全特性,系统在数据安全性上具有先天优势,从而实现低成本部署数据存储服务系统,为校园网络建设提供低成本、高扩容的存储保证。

系统凸显低成本、高扩容

天津城市建设学院通过Ubuntu系统搭建开源的Hadoop存储应用基础,在服务器虚拟化平台上运行,从而获得能够拥有更快、更稳定、更安全的硬件保障,使用iSCSI技术,尽可能降低存储部署成本,使其能够方便灵活地被使用。该系统是基于虚拟化的分布式校园网存储系统,利用VMware虚拟化平台将服务器硬件存储资源进行整合,通过建立Lun将服务器的磁盘阵列进行划分,组成多个磁盘逻辑,然后通过在Lun上安装Ubuntu操作系统及搭建iSCSI服务器端,使得存储硬件资源能够灵活地应用在Hadoop系统中。Hadoop将部署在虚拟化硬件平台上构成一个分布式的文件系统,通过WebDAV协议建立与客户端服务器的应用通信。用户可以通过访问客户端服务器将文件通过WebDAV以HTTPS方式传输到Hadoop存储集群中保存。

该系统的设计充分利用虚拟化与分布式技术的特点,采用多层次的模块化应用使得整个存储系统从硬件架构到软件的应用方式都变得灵活和易扩展,同时又因为虚拟化与分布式技术本身的安全特性,系统在数据安全性上具有先天优势,从而实现数据存储服务的部署低成本,为校园网络建设提供低成本、高扩容的存储保证。

采用云存储与iSCSI技术

存储系统采用底层云存储技术与应用层iSCSI技术,为用户提供跨系统应用平台支持。工作原理如图1所示。

系统由多台数据存储服务器通过iSCSI网络构成一个庞大的数据存储服务集群,每台存储服务器都由磁盘阵列通过iSCSI协议与点播服务器建立通信,在点播服务器本地生成一个磁盘镜像。虚拟化的VMware将服务器硬件存储资源进行整合,通过建立Lun将服务器的磁盘阵列进行划分,组成多个磁盘逻辑,然后通过在Lun建立存储资源池并提供给应用服务器。

采用VMware ESXi Server虚拟系统作为应用服务器集群底层系统,各应用服务器系统可在VMware虚拟系统上建立逻辑上的关联。VMware允许多个操作系统并行运行在一台高性能服务器上,与多个高性能服务器运行同一任务,同时通过网络对操作系统进行备份和管理,能够依据应用服务使用状况对操作系统实施迁移和复制,从而扩大网络应用处理带宽。

我们在VMware层上安装Ubuntu系统平台以及搭建Hadoop分布式存储系统。Hadoop系统能将数据同时分割成许多小块和备份,并通过点播服务器(NameNode)将其存放于不同的数据存储服务器中。在Hadoop的系统中有一台Master,它主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。每一台Slave通常具有Data Node的功能并负责TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。

在NameNode上部署WebDAV(Webbased Distributed Authoring and Versioning)应用,实现应用服务器对存储资源的通信,从而让用户调用Hadoop上的数据。WebDAV是基于HTTP 1.1的一个通信协议。它为HTTP 1.1添加了一些扩展(就是在GET、POST、HEAD等几个HTTP标准方法以外添加了一些新的方法),使得应用程序可以直接将文件写到应用服务器(Application Server)上,从而替代传统的FTP传输文件模式。

存储系统结构设计

整个存储系统硬件设备由多台应用服务器与iSCSI存储阵列以总线型网络构成。应用服务器上安装VMware ESXi系统,通过嵌入VMkernel代码,让该系统通过标准网络适配器连接iSCSI存储设备,在资源池中建立iSCSI SAN资源。在VMware ESXi的平台上根据应用需求虚拟出两个服务器集群(如图2),一部分集群作为应用群,为系统提供内网DNS服务、应用服务、监控服务等;另一部分作为Hadoop集群,作为整个系统的应用存储平台为用户提供存储操作。两个集群在存储应用上主要通过WebDAV协议建立通信。

该系统采用硬件层虚拟化与软件层分布式存储系统的方式,目的是实现整个存储系统在硬件资源与软件资源上的分布式灵活部署特点。通过硬件虚拟化可以合理地调配硬件资源,使用Hadoop的存储平台可以根据需求在已有的硬件平台上实现分布式多点多片存储,在保证系统可扩容前提下,对数据储存的容灾性和整个系统稳定性上有了新的提升。

系统应用分为两部分

基于服务器虚拟化(VMware)系统,制作出的云存储阵列,其中“云主机”控制云系统内的服务器集群,进行数据的写入与读出,由“云主机”提供的API接口(主要是WebDAV协议也可采用其他协议)进行与客户应用服务器之间的数据存储、数据备灾、数据应用,这样能够尽可能地利用“云”的效率。

在图2中,系统应用主要分为存储服务与应用服务两部分。存储服务主要以Hadoop系统为主,通过应用服务中的局域网D N S构建头结点与存储结点关系,在局域网内建立私有云存储集群。WebDAV部署在Hadoop头结点服务器上,通过建立映射可在Windows或Linux系统上建立本地文件夹,从而实现为应用服务器提供存储服务功能。用户通过访问应用服务器间接获得云存储资源,例如:一台拥有WebDAV协议共享网络硬盘的考试报名系统,其MSSQL数据库存储在Hadoop中,随着用户注册信息的逐年增加,系统可根据容量需求进行分布式扩容存储容量。

本系统通过集群应用、网格技术或分布式文件系统等功能,将网络中大量不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。通过虚拟化技术将iSCSI与云存储系统结合,为大型企业和机构提供异地数据存储服务,并且通过云存储系统平台为企业提供跨平台服务应用解决方案,实现部署灵活、可扩展性和安全性高的特点,从而降低数据存储、应用和维护成本。

(作者单位为天津城市建设学院)

Hadoop

Hadoop这个名字不是一个缩写,它是一个虚构的名字。该项目的创建者,Doug Cutting如此解释Hadoop:“这个名字是我孩子给一个棕黄色的大象样子的填充玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子是这方面的高手。”

Hadoop 由 Apache Software Foundation 公司于2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由Google Lab开发的Map/Reduce和Google File System(GFS)的启发。2006年3月份,Map/Reduce和Nutch Distributed File System(NDFS) 分别被纳入称为Hadoop的项目中。Hadoop是最受欢迎的在Internet上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果要grep一个10TB的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是Hadoop在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。

Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如 C++。

猜你喜欢
存储系统虚拟化集群
分布式存储系统在企业档案管理中的应用
海上小型无人机集群的反制装备需求与应对之策研究
基于OpenStack虚拟化网络管理平台的设计与实现
天河超算存储系统在美创佳绩
对基于Docker的虚拟化技术的几点探讨
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
浅析虚拟化技术的安全保障
H3C CAS 云计算管理平台上虚拟化安全防护的实现
勤快又呆萌的集群机器人