全国山洪灾害防治管理平台建设中的若干关键技术研究与实践

2016-12-14 05:32王树伟
关键词:山洪机柜虚拟化

陈 煜,王树伟,林 林,刘 颖

(中国水利水电科学研究院 信息中心,北京 100038)

全国山洪灾害防治管理平台建设中的若干关键技术研究与实践

陈 煜,王树伟,林 林,刘 颖

(中国水利水电科学研究院 信息中心,北京 100038)

全国山洪灾害防治管理平台是承载全国范围山洪灾害调查评价数据采集、审核、汇集、监测、预警和信息管理服务等重要任务的专业信息处理平台。本文结合全国山洪灾害防治管理平台建设实践,论述了高性能计算、高可靠性存储、云计算和氟冷一体化机柜等关键技术的研究与应用,并结合IT新技术和新产品的集成应用实践,提出了实用、经济和环保的大型水利专业信息化云端平台建设一体化解决方案。

山洪灾害;并行计算;云计算;氟冷一体化机柜;管理平台

1 研究背景

全国山洪灾害防治管理平台是承载全国范围山洪灾害调查评价数据采集、审核、汇集、监测、预警和信息管理服务等重要任务的专业信息处理平台。该平台的建设在充分利用建设单位现有信息化资源和技术优势的基础上运用了大量计算机科学界的新技术,以资源整合和信息共享为核心手段,集成建立具有高性能计算、高可靠性存贮、综合信息服务和高速安全信息交换功能的专业信息处理平台,支持汇集全国各省区山洪灾害调查评价成果,形成国家级山洪灾害调查评价数据库和山洪灾害监测预警信息管理服务系统,建立与水文、气象、国土部门信息交换和知识共享渠道,管理全国山洪灾害监测预警信息,进行山洪灾害风险评估、趋势分析与预报,提供山洪灾害预警信息宏观服务,为国家防总和其他政府部门防灾决策提供技术支撑,为社会公众提供山洪灾害防御信息服务。

全国山洪灾害防治管理平台建设工作包括中央本级和地方各级分布式信息管理平台的硬件平台、信息系统和专业软件等建设内容。其中,中央本级硬件平台建设任务为全国山洪灾害防治提供高效、便捷、安全、可靠的中央级专业信息平台运行环境。本文仅针对中央本级硬件平台建设过程中涉及的高性能计算、高可靠性存储、云计算、氟冷一体化系统及其整体平台架构等关键技术问题的研究与应用进行讨论。

2 平台总体架构

全国山洪灾害防治管理平台(中央本级)主要由高性能科学计算集群(HPCC)、高可靠性数据存储集群(HASC)、山洪灾害防治信息服务系统(ISCS)、高速光纤信息交换网络系统(HFNS)、安全无线网络接入系统(SWLS)、计算机机房改造及其配套设施完善等内容,为全国山洪灾害防治提供高效、便捷、安全、可靠的中央级专业信息平台运行环境。平台总体架构如图1所示。

HPCC提供高速度、高精度、大容量并行计算能力,支持山洪灾害预测、预报和预警处理过程中的各种计算密集型应用;HASC提供高可靠性快速读写大吞吐量存储能力,支持全国山洪灾害调查评价数据汇集和存储管理应用;ISCS提供基于云计算的虚拟化信息服务能力,支持全国山洪灾害调查评价数据采集、审核、汇集、监测、预警等专业信息服务应用;HFNS和SWLS提供双信道高速、宽带、安全网络通信传输能力,支持全国山洪灾害防治管理平台的数据交换与信息共享;计算机机房改造及其配套设施完善提供基于第IV代制冷技术的氟冷一体化机柜、不间断电力供应和机房运维自动监控能力,支持全国山洪灾害防治管理平台的正常运行。

图1 全国山洪灾害防治管理平台总体架构

3 关键技术研究与应用

3.1 高性能计算 高性能计算(High performance computing,HPC)是指使用多个处理器或多台计算机的计算系统及其环境[1]。大多数基于集群的HPC系统使用高性能网络互连(例如InfiniBand、Myrinet等),常用简单的总线拓扑结构组织高性能网络拓扑,网状网能够改善高性能网络效能及数据传输速率,实现更高的网络性能。

山洪灾害防治管理需要实时处理大量山洪灾害调查评价数据,进行动态建模、精细计算和仿真分析。该平台采用刀片架构建立并行计算集群,是性价比较为优越的有效解决方案之一,支持山洪灾害预测、预报和预警过程中各种计算密集型应用业务的高性能科学计算。

全国山洪灾害防治管理平台的高性能科学计算集群系统架构见图2,集群配置我国自主知识产权的曙光TC6400H刀箱架构平台,64台双路刀片服务器作为集群并行计算节点,每个刀片服务器配置2颗Intel Xeon E5-2620 v2处理器(6核心,主频2.1GHz),8×8GB DDR3 1600MHz ECC REG四通道内存,2个千兆以太网接口,1个56Gb FDR InfiniBand网络接口,1块300GB SAS硬盘。集群支持Linux和Windows操作系统,提供Fortran、C、C++语言编程环境和MPI、OpenMP并行计算程序库。集成后的计算集群整体为64个计算节点、128个CPU、768核、4TG内存,双精度浮点计算峰值能力达到12.9万亿次/s,能够满足全国山洪灾害防治管理平台的计算密集型应用需求。

3.2 高可靠性存储 全国山洪灾害防治管理平台需要面向全国,实时处理和存储管理大量山洪灾害调查评价数据,大容量、快速存取和高可靠性是对山洪灾害防治管理数据存储应用的关键需求。充分利用传统网络存储技术(Network Storage Technologies)和现代并行存储(PDS:distributed Parallel Da-ta Storage Technology)技术,建立高可靠性存储集群,支持山洪灾害数据存储管理和大数据处理应用业务。

图2 高性能计算集群系统架构

传统网络存储大致可分为3种结构:(1)直连式存储(DAS:Direct Attached Storage);(2)网络存储设备(NAS:Network Attached Storage);(3)存储网络(SAN:Storage Area Network)[2]。随着信息技术的发展及其应用普及,数据爆炸性增长,PB规模的非结构化数据越来越常见,针对海量非结构化数据处理的密集型I/O及海量并发访问需求的PDS技术应运而生,并逐渐成为代表存储技术、网络通信技术以及数据管理技术集成发展方向的新型存储体系架构。

全国山洪灾害防治管理平台节点级存储(包括计算节点、管理节点、业务逻辑节点等)采用DAS技术,结构化数据存储采用NAS技术,数据汇总和容错/容灾处理采用SAN技术,非结构化数据存储和高性能计算、流式计算过程中的数据存储采用PDS技术。

全国山洪灾害防治管理平台的NAS存储集群系统架构见图3,包括我国自主知识产权的曙光DS900 NAS盘阵列3台,配置6个DS900-G10控制器和72GB一级Cache,对外提供12个10Gb、12个1Gb IP主机接口以及12个4Gb FC主机接口(其中12个10Gb以及12个1Gb IP可分别接入2个数据网络的以太网交换机,组成冗余数据访问链路,为上层计算节点提供NAS存储服务),提供NFS和CIFS两种NAS存储访问协议,共配置6套满配24块7200RPM 4TB SATA硬盘扩展柜,可对外提供504TB裸容量的数据存储空间。

并行存储系统由索引控制器、数据控制器、管理控制器和应用服务器客户端等组成。其中,索引控制器用于管理存储系统的所有索引数据和命名空间,对外提供单一的全局映像。数据控制器用于提供数据存储空间,并实现支持多个副本文件的并行存取。管理控制器提供统一的控制管理界面,管理员通过该节点管理整个存储系统。应用服务器客户端向上层应用提供数据访问接口。

图3 NAS存储集群系统架构

图4 并行存储系统架构

全国山洪灾害防治管理平台的并行存储系统(架构见图4)采用固态硬盘(SSD)+串行连接SCSI(SAS)硬盘分级存储结构的ParaStor200存储系统,设计裸容量为56.88TB,聚合带宽为不低于3GB/s;采用SSD和SAS磁盘相结合的优势在于热点数据优先存放在SSD分区,冷数据自动迁移到SAS分区,热数据可以回迁(数据迁移策略、综合数据访问频率、文件大小等迁移策略均可干预和定制),数据迁移过程在SSD和SAS磁盘之间以数据块级别并发实现,速度快且对存储性能影响较小,整个数据迁移过程自动。

3.3 云计算 云计算是基于互联网的、大众参与的、以服务形式提供的计算模式,其目的是资源分享与整合,其计算资源是动态、可伸缩、且被虚拟化的[3]。云计算的技术特征是:弹性、透明、积木化、通用、动态、多租赁和大用户、大数据、大系统。云计算既是商业模式又是技术模式。云服务是商业模式,云计算平台是技术模式。云服务也可以通过传统技术提供,云平台技术也可以支持传统应用。云平台技术与云服务相结合是最理想的云计算,也是云计算的发展趋势。

云计算采用虚拟化技术和云服务理念实现计算资源的动态配置和可伸缩,从而能够有效避免信息化应用项目按高标准配置建设造成投入运行初期大量资源闲置而形成的投资浪费,以及按低标准配置建设随着运行周期的延长和应用推广的深入而需要不断增加投入扩大建设规模和提升系统性能,导致反复重构系统而形成的浪费和麻烦[4]。

全国山洪灾害防治管理平台建设,考虑到随着山洪灾害调查评价数据的不断丰富和山洪灾害监测、预警和信息服务应用不断发展,会对平台的计算资源、存储资源和网络资源不断提出越来越高的新要求,基于虚拟化技术搭建全国山洪灾害防治管理信息服务云平台,可以为国家级山洪灾害调查评价数据审核汇集和山洪灾害监测预警信息管理及服务应用提供高效、稳定、可靠,并具有可扩展、灵活管理和架构开放等特点的运行环境。

全国山洪灾害防治管理平台的应用服务和数据服务区系统架构见图5,采用虚拟化技术配置6台物理服务器作为公用计算资源池,模拟成多台逻辑服务器,分别部署国家级山洪灾害调查评价数据审核汇集系统、国家级山洪灾害监测预警信息管理及服务系统,并为以后的计算资源动态扩展提供基础;配置4台物理机搭建数据库服务器RAC实时应用集群,提供数据存储管理功能;配置2台服务器作为ArcGIS应用服务器,提供地图应用服务;配置2台物理服务器用作虚拟化控制服务器,确保虚拟化系统的可控性、可靠性和可监控性;配置12盘位的存储设备和双控制器,通过双光纤交换机将应用物理服务器、ArcGIS服务器和数据库服务器等进行连接,实现数据存储的集群和冗余,提供负载均衡及灾备。

图5 全国山洪灾害防治管理平台云计算系统架构

虚拟化系统物理服务器集群配置我国自主知识产权的浪潮NF8460M 3服务器产品6台,采用Xenserver 6.2进行虚拟化管理;数据库服务器集群配置我国自主知识产权的浪潮NF8420M3服务器产品4台,数据库管理系统采用Oracle Database Enterprise Edition 11G附加Oracle Real Application Cluster 11G;地理信息系统服务器集群配置我国自主知识产权的浪潮NF8420M 3服务器产品2台,地理信息管理系统采用ESRI ArcGIS 10.2 for server、ArcGIS 10.2 for Desktop、ArcGIS 10.2 Engine。虚拟化10台虚拟服务器,分别用于以下运行:(1)山洪灾害分析评价软件;(2)数据分析软件&文档实时协同编辑系统;(3)山洪灾害调查过程质量控制软件;(4)Java应用服务器软件&监测预警系统;(5)审核汇集系统;(6)山洪模拟系统;(7)审核汇集客户端;(8)数据同步软件;(9)数据分析软件;(10)文档实时协同编辑系统。

3.4 氟冷一体化机柜系统 全中山洪灾害防治管理平台采用机柜排级(Row Level)技术特点的氟冷一体化机柜系统,保障平台核心设备和关键系统的安全运行。

氟冷一体化机柜系统突破传统空调开放式送风和地板下送风的冷池制冷方法,采用密封气流水平送风模式,列间空调采用水平风幕高压送风,以25~27℃定点将冷空气直接送入机柜,缩短了空气的循环路径,提高了回风温度,极大地提高了运行效率,满足高密度机房制冷需求[5]。列间空调装配采用数字化无刷直流外转子电机的离心式风机(EC风机),气流分布均匀,送风更精准。风机可独立控制,维修时不影响其它EC风机工作。在智能化的基础上,采用灵活的接管方式,上、下两种方式均可选择,配备进口二通或三通比例水调节阀,根据负荷需要自动调节制冷量,温控精度更高,节能效果显著。氟冷一体化机柜系统以热通道封闭为基础,通过机柜内部服务器自身风机的循环,省去了空调系统的室内循环风机,降低了空调系统功耗,提高了空调运行效率,可以大幅度降低数据中心电源使用效率(PUE:Power Usage Effectiveness)。配置氟泵节能模块,在低温季节以氟泵运行代替压缩机制冷运行,极大地降低了空调功耗。铝镁合金机柜带有制冷、监控、布线、配电和防雷等各个子系统,全封闭式系统节能、环保、稳定、可靠。

4 结论

全国山洪灾害防治管理平台是承载全国范围山洪灾害调查评价数据采集、审核、汇集、监测、预警和信息管理服务等重要任务的专业信息处理平台。该平台在建设过程中深入研究并采用了高性能计算、高可靠性存储、云计算和氟冷一体化机柜系统等关键技术,成功实践了实用、经济、环保的大型水利专业信息化云端平台建设一体化解决方案,为全国山洪灾害防治提供高效、可靠、安全的信息化运行资源环境。建设成果具有下列突出优点。

(1)高性能计算集群。采用多并发链接转换线缆技术(InfiniBand)网络集成64个计算节点,共计128个CPU、768核、4TB内存,实测运算能力达到浮点双精度计算12.26万亿次/s,是目前全国水利系统计算速度最快和计算能力最强的高性能计算平台。

(2)高可靠性存储集群。利用传统网络存储技术(NST)和现代并行存储技术(PDST)建立高可靠性存储集群,配置PDS和NAS分级存储器,提供504TB+56.88TB(裸容量)的数据存储空间,并配置后备磁带库和数据自动备份恢复系统确保高可靠性。

(3)虚拟化服务器集群。采用虚拟化技术建立动态可伸缩的服务器资源池,为应用平台提供灵活的虚拟服务器配置,分别部署国家级山洪灾害调查评价数据审核汇集系统、山洪灾害监测预警信息管理及服务系统,并为后续的计算资源扩展建立技术基础和管理基础。

(4)氟冷一体化机柜系统。采用新一代机柜排内循环制冷,有效解决高密度制冷瓶颈,降低机房PUE值,节能降耗,降低对机房环境的依赖,具有高制冷能力、高可用性和节能环保等特点。

这一系列新技术及系统集成后构成的一体化解决方案,体现了多层次的技术创新和模式创新,对于水利专业大型信息化平台及其运行环境建设,具有重要参考价值。

[1] (德)Georg Hager Gerhard Wellein.高性能科学计算与工程计算[M].北京:机械工业出版社,2013.

[2] 刘鹏,等.中国云存储发展报告[M].北京:电子工业出版社,2013.

[3] 吴基传,等.云计算技术发展报告[M].第三版.北京:科学出版社,2013.

[4] 广小明,等.虚拟化技术原理与实现[M].北京:电子工业出版社,2012.

[5] (美)Douglas Alger.数据中心经典案例赏析[M].北京:人民邮电出版社,2014.

The Research and practice of key techniques used in constructing management platform of national mountain torrent disaster prevention

CHEN Yu,WANG Shuwei,LIN Lin,LIU Ying
(Information center of China Institute of Water Resources and Hydropower Research,Beijing 100038,China)

The national mountain torrent disaster prevention management platform is a professional information processing platform.It has many important functions,such as nationwide mountain torrent disaster investigation and evaluation;data collecting,examining and verifying,marshalling,monitoring and early warning;information management service.Based on the practice of building the nationwide mountain torrent disaster prevention platform,this thesis expounds the research and practice of key techniques used in high performance computing;high reliability storage;cloud computing;fluorine cold integrated cabinet.Also on the basis of the new IT techniques,and practice of the integrated application of new products,it proposes a practical,economical and environmental protective eproject which can construct a huge water resource information integrated cloud platform.

mountain torrent disaster;parallel computing;cloud computing;fluorine coldintegrated cabinet;management platfrom

P337

A

10.13244/j.cnki.jiwhr.2016.01.006

1672-3031(2016)01-0036-06

(责任编辑:王成丽)

2015-10-29

中国水利水电科学研究院专项(IT0145C01201500000)

陈煜(1968-),男,北京人,本科,高级工程师,主要从事计算机科学、软件开发、网络工程和水利信息化技术的研究。E-mail:chenyu@iwhr.com

猜你喜欢
山洪机柜虚拟化
一种计算机联锁机柜工程图纸的自动化生成方法
BIM技术在铁路信号室内机柜布置中的应用研究
优雅地表达
基于OpenStack虚拟化网络管理平台的设计与实现
对基于Docker的虚拟化技术的几点探讨
一种机柜装舱通用工装的设计
浅析虚拟化技术的安全保障
H3C CAS 云计算管理平台上虚拟化安全防护的实现
三维激光扫描技术在山洪灾害调查中的应用
湖北省山洪沟治理思路浅析