风云静止气象卫星地面应用工程计算机网络系统发展

2016-04-14 10:50赵现纲谢利子卫兰林曼筠国家卫星气象中心北京100081
关键词:气象卫星计算资源风云

赵现纲 谢利子 卫兰 林曼筠(国家卫星气象中心,北京 100081)



风云静止气象卫星地面应用工程计算机网络系统发展

赵现纲谢利子卫兰林曼筠
(国家卫星气象中心,北京 100081)

摘要:计算机网络系统是风云系列静止气象卫星地面应用工程的重要组成部分,是卫星在轨管理和卫星观测数据接收、处理、存档、服务的重要支撑。自第一颗静止气象卫星发射以来,计算机网络系统规模不断扩大,其架构经历了近二十年的滚动发展和持续改进。对该发展历程和取得的成果进行了回顾,并对未来计算机网络系统建设所面临的诸多机遇和挑战进行了分析。最后,基于灵活的作业和资源调度技术,设计了具有良好可靠性和可扩展性的我国新一代静止气象卫星风云四号地面应用工程计算机网络系统架构。

关键词:风云气象卫星,地面应用系统,云计算,资源调度

0 概述

地面应用工程作为风云气象卫星五大系统之一,负责卫星的日常运行管理和卫星的状态监视,实现卫星数据的接收、实时处理和广泛应用[1]。其中,计算机网络系统(CNS,Computer Network and Storage)则是支撑地面应用系统运行的骨架和基石,负责计算环境支撑、资源分配、作业调度、数据传输以及产品分发。在风云二号系列气象卫星地面应用系统中,计算机网络系统不仅是地面应用系统运行的支撑,还是数据处理的指挥调度中心。计算机网络系统的架构设计直接影响到地面应用系统的稳定性、可靠性、时效性、安全性、可扩展性和可维护性。

自1997年发射第一颗风云静止气象卫星FY-2A至今,我国共累计成功发射7颗风云二号静止气象卫星,其中FY-2A/B/C/D已离轨,目前在轨运行的静止气象卫星为FY-2E/F/G三颗。回顾我国静止气象卫星的发展历程,其计算机网络系统架构一直随着信息技术浪潮的变革而持续改进。静止气象卫星计算机网络系统的发展也经历了从大型机到小型机,再到通用X86计算平台的变革过程。其网络互联带宽也由10Mb逐步提升至10Gb。所采用的存储技术也由单一的磁带、磁盘发展到目前磁盘阵列、网络存储以及分布式存储等多种存储技术共存的局面。地面应用系统的业务能力也由单星观测提升至目前的双星加密观测、高频次区域扫描和多星统一管理,实现了国内外多颗卫星资料的统一接收和处理。风云二号静止气象卫星地面应用系统体现了自主创新和集成创新,成果具有自主知识产权,工程总体质量和水平达到同期国际先进水平,被誉为“天地一体化的典范、地面应用系统的楷模”[2]。风云二号C星地面应用系统获得国家科技进步一等奖,这也是国家对于地面应用系统工程(包括计算机与网络系统)的具体肯定。

展望未来,FY-4A作为我国第二代静止气象卫星的首颗卫星,与FY-2系列卫星相比,其卫星平台、工作模式、星载仪器、观测密度和精度均有很大的变化和提高。表1列出了两代卫星仪器数、通道数、产品数量的对比。经测算,FY-4A卫星原始数据量是风云二号单星的160倍,经过定位、定标和光谱图处理后形成的一级数据约为风云二号单星的80倍。数据量百倍的增长和近乎苛刻的服务质量要求对地面应用系统的计算机网络架构设计提出了新的挑战。

表1 FY-2E、FY-4A卫星仪器、通道及产品数量对比表Table 1 The comparison between FY-2E and FY-4A satellite on instruments,number of channels and product

FY-4A气象卫星地面应用工程计算机网络系统在继承FY-2系列气象卫星地面应用系统建设成功经验的同时,需要结合当前流行的云计算、物联网、大数据等新技术,建设气象卫星数据处理与服务私有云,进一步提升系统的可靠性、可扩展能力、管理能力和服务能力。统筹考虑静止、极轨两个系列计算资源的共享使用,摒弃竖井式建设模式,规避信息孤岛和单点故障。设计开发云平台、自主资源调度软件,实现对不同品牌、不同架构计算资源的统一整合、管理与使用;通过计算虚拟化、网络虚拟化、存储虚拟化,实现更加灵活的计算环境规划、部署和动态迁移。未来的网络将以40Gb、100Gb带宽互联,存储将以存储虚拟化为媒介,对SAN、IPSAN进行整合,辅以NAS、集群NAS等多种各具特点的存储技术。基于卫星需求,通过融合相关领域先进技术和产品,FY-4A气象卫星地面应用系统将成为集气象卫星大数据处理、应用、服务功能于一身的新一代气象卫星数据中心。

1 历史发展回顾

1.1初始创建

风云系列静止气象卫星的第一代计算机网络系统初建于20世纪80年代末—90年代初,在当时是从无到有的创新工程,以FY-2A星地面应用系统计算机网络系统为代表。系统采用了集中式的架构,以大型机IBM4381、富士通M770为主要的处理服务器,辅以各类监控管理终端,集中完成各类卫星数据和任务的处理;同时,采用自主研发的、定制的通信接口和专用网络实现数据传输和交换。

FY-2A业务系统由指令和数据接收站,资料中心和运行控制中心组成。在资料中心,对卫星资料进行处理的核心计算机选取了当时性价比较高的富士通大型机,配置了多台终端用于数据交互和系统管理。前端的卫星数据接收处理采用两套工作站。设备之间的网络互联采用10Mbps以太网。目前来看,这些核心处理设备的配置和性能还不如现在一台主流的PC机,但在当时的环境下,该套设备的处理能力和稳定性在业界位列前茅。该套系统从立项到完成系统调试花费了近6年的时间,自1991年设备安装后,持续稳定运行超过10年,很好的承载了FY-2A星的在轨测试和试验运行,以及后续系统的开发改进。整个系统的建设是一个摸索学习的过程,培养了一大批卫星数据处理以及大型机系统的专业人才。

在2000年初,为了满足FY-2A/B星双星共同运行的需要,对上述FY-2A计算机网络系统进行了改造与扩建。资料中心增加了四台UNIX服务器;设备之间的网络互联也由10Mbps以太网一跃升级为1000Mbps骨干互联和100Mbps桌面接入。

“定制化”是第一代风云卫星计算机网络系统建设的特点,从计算资源、存储资源到网络连接,都存在着相当大比例的定制设备,这也是当时IT设备百家争鸣、通用性差的时代特征所导致的。该阶段IT系统的建设和维护难度都很高,整个系统是一个封闭神秘的黑匣子。

1.2业务化运行

FY-2A/B星同属于风云二号(01)批次卫星,作为试验应用卫星,其在轨寿命较短。风云二号(02)批次卫星包含FY-2C/D/E三颗卫星,从FY-2C星开始,所有卫星均为业务卫星,业务化运行对地面系统的性能和稳定性提出了更高的要求。因此,计算机网络系统再次升级换代,建成了如图1所示的风云二号(02)批多星管理地面系统IT架构。第二代计算机网络系统在主机方面以IBM power系列AIX小机双机HA架构为特点;在网络方面,采用标准以太网实现数据的传输与交换;在存储方面,引入光纤存储网络SAN支撑实时业务处理,采用磁带库进行数据近线存储,在线存储容量达到TB级;在数据处理和任务管理方面,引入任务级分布式处理的理念[3],对复杂的卫星数据接收处理和管理流程进行任务归类,通过定制负载均衡调度软件LSF实现复杂作业流的调度和管理[4]。从第二代计算机网络系统开始,我国静止气象卫星地面系统开始进入了业务化运行,采用该架构的计算机网络系统成功支撑了多颗卫星业务(包括我国风云卫星以及如MTSAT等国外部分卫星)的稳定运行,期间各项运行指标均满足中国气象局设定的业务考核要求。

图1 风云二号(02)批地面系统架构图示Fig.1 The ground segment architecture of FY-2(02)

风云二号(03)批次包括F/G/H三颗卫星,目前已经发射FY-2F和FY-2G两颗。H星计划于2017年底发射。风云二号(03)批次气象卫星地面系统的计算机网络部分架构沿用了前期高端UNIX小机加高端SAN存储的结构。如处理主机采用IBM Power 780双机,存储采用日立VSP高端SAN。在网络部分使用了诸如IRF等虚拟化堆叠技术[5]以提高核心网络的稳定性,不同品牌网络设备之间采用三层互联。该架构很好地承载了双星加密以及高频次区域观测业务的稳定运行。

“双路冗余”是第二代风云卫星计算机网络系统建设的主要特点。如计算节点的双机HA,存储双活,网络双链路。通过双路冗余的设计有效避免了单点故障,提升了业务运行的可靠性。不过,仍存在资源调度与业务逻辑强耦合,应用与计算资源强耦合的问题。维护工作的难度将随着设备规模的增加而急剧上升。

2 FY-4A卫星计算机网络系统介绍

2.1新一代IT支撑系统的设计理念

回顾风云系列静止气象卫星计算机网络系统多年的发展历程,其IT支撑系统综合性能有超过1万倍的增长,骨干网络带宽也从几兆的专用通信接口发展到万兆。第一代IT支撑系统可称之为大型机时代,其主要问题是设备购置成本高,使用维护难度大。系统间接口极其复杂且兼容性问题导致系统故障率高,业务运维压力很大;第二代IT支撑系统可称之为高可用服务器时代,其主要问题是系统的通用性和扩展性较差,主机和存储设备可选择余地不大,长期在此架构上开发的各类应用,其迁移难度和工作量都很高,不利于系统的可持续性发展。

根据气象卫星发展规划,至2020年,还将计划发射近10颗气象卫星。随着观测仪器种类的增加、仪器观测能力的大幅提升,气象卫星获取的原始观测数据信息量将呈爆炸性增长,而后续处理所产生的临时数据以及产品数据量会以几何级数膨胀;卫星遥感反演技术的深入研究,将使得卫星遥感产品的种类日益丰富,多仪器、多星融合产品也将不断涌现,通过IT支撑系统生成的数据信息量倍增;而卫星观测与地面观测、数值预报联动等新的应用方向,将进一步提高对卫星遥感产品的时效要求;这些因素都对IT支撑系统的综合性能提出更高要求,现有的第二代计算机网络系统难以满足需求,气象卫星业务的发展呼唤新一代IT支撑系统的到来。

近年业界流行的云计算[6]是一种崭新的IT建设理念,提出了IT资源持续发展、异构平台整合以及跨系统互操作与协同管理的理想计算环境,目的是让各类资源按需分配并随需求和负载的变化而弹性伸缩。风云静止气象卫星的下一代IT支撑系统的建设,将全方面借鉴和采纳云计算的先进理念和成熟技术。

在主机系统的设计方面,小型机凭借其稳定可靠和单机综合处理能力强大的特性,使得它在以往的IT支撑系统中得到广泛应用,在某些高可靠应用环境以及单机计算能力有特殊要求的应用场景应该予以保留。与此同时,通用X86机架服务器、刀片服务器不论从市场占有率还是设备可靠性方面都有了长足的进步[7]。新一代IT支撑系统内部一定是异构计算资源并存,需实现资源的统一管理调度。从长远看,X86通用计算设备的可靠性不断提高,RAS特性不断完善,从理论上已经具备取代小型机的可能。但从应用迁移的角度而言,其在气象卫星地面应用系统内完全取代传统UNIX服务器还需要一个过渡的过程。

在网络系统的设计方面,新一代的IT支撑系统将继续采用硬件广域网加速设备和应用软件优化并用的方法优化广域网传输[8]。骨干网络带宽将升级至40Gbps/100Gbps,多路万兆网卡聚合将成为高端服务器接入的普遍方式。为强化网络的稳定性,新一代的IT支撑系统除了提高单个设备的可靠性、设置冗余链路和节点等措施之外,还将优先选用扁平化的网络设计、采用IRF/VSS/vPC等虚拟化技术[9]简化网络结构、提高网络的可管理性。在集群计算网络以及共享文件系统方面将采用IB互联,充分发挥IB网络低延迟高带宽的特性。

众所周知,CPU不是数据处理能力的全部,对于气象数据处理而言,数据IO能力更受关注,具体指标包括数据读写带宽、延迟以及IOPS。新一代IT支撑系统架构开始由“以计算为中心”转向“以数据为中心”,数据处理模式由单胖节点顺序处理转变为多瘦节点并行处理。由此,IO能力可并行扩展的分布式存储系统、本地计算技术[10]将成为优选设备和策略。在海量数据归档方面,磁带库的性价比无可替代。采用自建近线存储和公有云存储服务相结合方式以满足卫星观测数据存档业务在容量和可靠性两方面不断提高的迫切需求。

2.2FY-4A计算机网络系统结构设计

FY-4A计算机网络系统(FY-4A CNS)是FY-4A气象卫星地面应用系统数据处理的基础支撑平台,其结构如图2所示。FY-4A计算机网络系统的设计充分考虑了资源统一管理和调度、业务逻辑与资源调度剥离、统一运维管理、应用评价与持续改进以及未来多星IT系统资源共享等问题。

图2 FY-4A计算机网络系统结构示意图Fig.2 The ground segment architecture of FY-4A

F Y- 4 A C N S将采用网络虚拟化技术构建40Gb/100Gb核心网络互联;通过基于资源调度的私有云技术构建计算资源池[11],实现异构计算资源的统一池化,对外提供资源管理与作业调度标准接口,轻松支持与其他信息系统的统管共用通过存储虚拟化[12]、分布式存储等技术构建10PB级存储资源池;通过统一网管实现集中资源监控;通过资源调度保证作业处理的高可靠和高时效,实现硬件计算资源和虚拟化计算资源的统一管理和调度;通过应用运行特征抓取分析平台,为各类应用提供持续性的优化支持。通过对资源的统一池化,将使IT系统从“双路冗余”提升至“多路冗余”,通过容器、虚拟化技术实现应用的封装与漂移,将各类复杂应用彻底与计算资源剥离,应用服务在计算资源池内无缝漂移,使系统整体达到可用性不低于99.99%的业务目标。

2.3FY-4A计算机网络应用软件

硬件是躯干,软件是灵魂。FY-4A计算机网络系统通过自主开发资源调度软件实现资源池化,实现对异构物理主机和虚拟主机的统一管理和灵活调度;通过系统监视管理软件实现业务运维现代化,通过典型应用测试与优化分析软件实现各类应用以及业务系统的持续性改进。

系统监视管理软件负责统一管理风云四号卫星地面应用系统计算机平台的所有IT资产,实现资产的注册登记与集中管理;在此基础上,通过设置各类配置参数,采用多种手段统一采集系统运行过程中的各类信息,实现对各类硬件资源、软件资源、基础设施环境状态实时、准实时监视,并将监视信息以可视化的方式统一展现;系统通过结合运维人员的工作经验,设置故障报警阈值,实现对各类故障的分级报警与及时上报;系统还依据统计分析、数据挖掘等技术,生成各类运维报表,降低运维人员的工作强度,提高系统维护的便捷性,实现IT系统的量化运维和精准管理。

图3 FY-4A地面应用系统分级调度结构图Fig.3 The hierarchical scheduling architecture of FY-4A ground segment

资源调度软件主要负责底层计算资源的调度,实现跨异构负载均衡调度集群的统一计算资源调度。业务逻辑与资源调度剥离是目前云计算数据中心发展趋势,如元调度器MESOS被列为APACHE基金会的重点项目。如图3所示,资源调度分系统从地面应用系统各系统的二级业务调度接收其提交的单个作业,根据作业的输入、输出和约束条件等生成可运行的作业指令,并根据当前资源实际负载、作业资源需求、资源池特性等情况分配作业到具体的资源池以及计算资源上运行。在作业运行过程中,监视作业状态,并根据需要将作业状态返回给各系统二级调度,对异常作业和调度故障能够根据提前定义好的故障处理策略进行自动或半自动处理。通过资源调度实现异构资源的池化,实现对风云卫星地面应用系统IT资源统一管理和统一调度,彻底抛弃竖井式架构,消灭信息孤岛和单点故障。

典型应用测试与优化分析软件负责评估和了解应用系统资源使用及其合理性,对资源消耗最大的应用提出优化建议,力保资源使用率保持在合理范围。CNS将建立典型应用量化测量软件,对各类典型应用的资源需求与资源消耗实际状况进行收集与评估(评估指标包括通用指标和微架构级指标),对典型应用本身和资源配置提出优化建议,确保资源使用率保持在合理范围。对业务系统内各类应用、算法进行量化评价,包括业务上线前对应用进行体检、在业务运行过程中对应用和平台进行评估并提供优化建议,从而支撑风云四号科研试验卫星业务系统的持续改进。

3 总结

风云系列卫星从立项至今已经发展了四十多年,地面应用工程计算机网络系统也经历了二十多年的滚动发展。计算机网络系统的架构由两方面因素决定:一是卫星数据处理和服务的时效性、可靠性需求;二是信息技术、产品的发展变化。采纳合适的产品、技术,开发灵活的应用软件以构建满足风云系列气象卫星业务运行的IT支撑系统是地面系统建设的重要工作内容。本文回顾了我国静止气象卫星地面应用工程计算机网络系统架构的发展变化,对三代IT支撑系统进行了详细的介绍。展望未来,自主研发基于资源调度的气象卫星数据处理云是气象卫星地面系统发展的方向和目标,新一代静止气象卫星计算机网络系统将以气象信息化中“集约化建设、资源充分共享”为指导原则,以云计算、资源调度、大数据等前沿技术为技术路线,构建成为以自主创新、高可靠、易扩展、可持续优化、具备与其他系统统管共用为特点的新一代大气卫星观测数据中心。

参考文献

[1]董超华,许健民,张文建,等.风云三十年——国家卫星气象中心成立三十周年纪念.国家卫星气象中心,2001.

[2]杨军,许健民,董超华,等.气象卫星及其应用.北京:气象出版社,2012.

[3]胡华平,金士尧,王维.分布式系统高可用方案的选择.系统工程与电子技术,2000,22(3):65-67.

[4]贾树泽,杨军,施进明,等.新一代气象卫星资料处理系统并行调度算法研究与应用.气象科技,2010,38(1):96-101.

[5]黄石平,谢健,阚宏宇.IRF虚拟化技术在网络中的应用研究.实验技术与管理,2014(11):124-126.

[6]陈康,郑纬民.云计算:系统实例与研究现状.软件学报,2009,20(5):1337-1348.

[7]黄昆.x86服务器市场如何提升数据、系统、应用及业务的高可用性.中国金融电脑,2012(2):88.

[8]卫兰,林曼筠,赵现纲,等.广域网加速在FY-3气象卫星数据传输中的应用.应用气象学报,2012,23(1):121-128.

[9]周烨,李勇,苏厉,金德鹏,等.基于虚拟化的网络创新实验环境研究.电子学报,2012,40(11):2152-2157.

[10]崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发.计算机研究与发展,2012,49(S1):12-18.

[11]刘永金,黄科.运营商业务平台云计算资源池建设方案探讨.电信科学,2013,29(9):201-206+211.

[12]吕小兵.存储虚拟化整合技术研究.航空制造技术,2015(6):83-85.

The Development of Computer Network and Storage System in Fengyun Geostationary Meteorological Satellite Ground Segment

Zhao Xiangang,Xie Lizi,Wei Lan,Lin Manyun
(National Satellite Meteorological Centre,Beijing 100081)

Abstract:Computer Network and Storage(CNS)system is an important component of the meteorological satellite engineering.CNS supplies resources and environments for the satellite in-orbit management,satellite observation data receiving,processing,archiving and service.Since the first geostationary meteorological satellite was launched,the scale of the computer network of the ground segment has been greatly expanded; its architecture has experienced nearly twenty years of rolling development and continuous improvement.In this paper,the development process and the results are reviewed.The opportunities and challenges of CNS construction are well analyzed.Finally,based on the flexible job and resource scheduling technology,a new structure with high scalability and reliability of CNS for FY-4Ageostationary meteorological satellite is raised up.

Keywords:Fengyun,ground segment,cloud computing,resource scheduling

通信作者:谢利子(1982—),Email:xielizi@cma.gov.cn

收稿日期:2015年10月22日;修回日期:2015年12月29日

DOI:10.3969/j.issn.2095-1973.2016.01.015

第一作者:赵现纲(1976—),Email:xgzhao@189.com

资助信息:国家高技术研究发展计划(2011AA12A104)

猜你喜欢
气象卫星计算资源风云
风云三号E星初样星
基于模糊规划理论的云计算资源调度研究
窃听风云(九)
改进快速稀疏算法的云计算资源负载均衡
基于Wi-Fi与Web的云计算资源调度算法研究
耦合分布式系统多任务动态调度算法
象甲风云
H-2A发射“向日葵”9气象卫星
美空军又一退役气象卫星在轨解体
风云气象卫星在产品应用中前行