雷静+商琴+林锐+宗丹
摘要:本文探讨了高性能计算平台的风险分析和应对策略。从硬件、数据、应用三个主要方面分析了高性能计算平台存在的潜在风险。并针对各类风险,结合工作实际经验,提出了多项应对措施,对提升高性能计算平台的系统安全有重要作用[1]。
关键词:高性能计算平台;系统安全;硬件风险;数据风险
中图分类号:TP311.5 文献标识码:A 文章编号:1007-9416(2017)09-0185-02
1 引言
高性能计算平台是支撑船舶工程研制的高复杂度的信息化系统,随着应用的深入,实际运维和管理中面临许多与高性能计算模式和应用相关的风险[2]。
如何有效管理高性能计算平台系统风险,需要对风险的影响进行有效分析与评估,制定有效的风险应对策略,提高高性能计算平台的可靠性、有效性,保障系统的安全稳定运行。作者梳理了高性能计算平台的系统状态,并从硬件、应用及数据等几个方面分析了系统运行风险及风险应对策略。
2 高性能计算平台简介
本单位高性能计算平台功能架构包含:
2.1 基础设施层
(1)硬件设备层。共计50台套设备,其中管理节点9台(管理节点、IO节点、统计数据库节点等)、计算节点32台(刀片计算节点30台、胖节点2台)、软件许可服务器3台、GPU 2台、虚拟服务器3机、存储1台。
(2)系统软件层。包含并行调度系统、远程二维/三维可视化管理系统、并行文件系统、集群渲染调度系统、高性能计算平台监控软件。
(3)共享软件资源层。包含仿真前处理工具、仿真求解工具、仿真后处理工具。
2.2 流程管理层
包含仿真业务流程、平台及工具集成、仿真数据管理。
2.3 专业应用层
覆盖本单位研发过程的主要专业,如总体、船体、结构、动力等,如图1所示。
3 高性能计算平台风险分析
风险指信息系统遭受损失、伤害、毁灭的可能性。风险评估是一个结合技术手段,为识别管理问题、制定管理策略服务的系统工程。它为降低风险、实施风险管理和控制提供了重要依据。风险评估是加强信息系统建设和管理的关键环节,是发现信息系统存在问题,找到解决途径的有效手段[3]。
3.1 硬件风险
高性能计算平台硬件风险可能由以下原因引起:
(1)异常断电,且断电时间大于UPS保障时间导致宕机。
(2)硬件老化或出现其他不可预期故障。
物理机许可服务器上部署的许可大部分已过维保期,且许可的申请与物理机信息绑定,如果物理機故障,必须申请新的许可才能使用,受到CAE厂家响应时间的限制。
(3)以太网交换机、infiniband交换机、存储硬件故障。
3.2 数据风险
(1)高性能计算平台Vertical数据库采用3冗余方式,最多只可有一台机器宕机,否则会导致数据库宕机。
(2)许可服务器物理机节点属于单节点运行,且该节点上部署了大量不同厂家的许可,并大部分CAE软件许可已过维保期。如果许可数据异常,许可需要重新申请,周期和申请结果无法预估,且申请许可需要硬件相关信息。
(3)虚拟化平台故障将导致虚拟机许可数据异常。
(4)服务器硬件故障导致许可异常。
3.3 应用风险
应用风险可能由以下原因引起:
(1)人为误操作或平台本身潜在问题,导致高性能计算平台服务异常。
(2)服务升级、补丁部署导致服务崩溃。
(3)平台本身潜在问题导致服务器宕机。
(4)目前许可服务器物理机节点许可数据分布集中,许可服务应用程序异常将导致大量CAE共享软件无法使用。
4 风险应对策略
4.1 硬件风险应对策略
4.1.1 增加架构冗余度
对风险发生时会造成较大损失或延误工程进度的故障点,可增加架构冗余度。
(1)磁盘阵列。具体措施包括增加二级冗余存储,实现存储热备,防止数据丢失,或增加1:1存储,进行数据复制,当其中一台存储故障不影响使用。
(2)图像处理服务器。增加1台图像处理服务器,当一台宕机,用户可以使用其它图像处理服务器做图形处理任务。
(3)许可服务器物理机。将必须部署在物理服务器上的许可,进行分散部署,至少部署在2台物理许可服务器上。需要再新增1台物理许可服务器。
4.1.2 提供冷备份手段
目前架构中为单点设计的计算网络交换机、管理网络交换机和刀箱IB交换模块单点故障,上述节点故障可能性较小且配置简单,为避免单点故障,可采用冷备手段,增加冗余设备,在故障时可在30分钟内实现替换和故障修复。
4.1.3 加强对厂商的服务约束
对必须部署在物理机许可服务器上的软件许可,在采购时对迁移做明确要求,要求5年内厂家提供1次免费的许可迁移服务等。
4.2 应用风险应对策略
4.2.1 增强架构的冗余设计
对高风险或关键节点采用冗余架构,采用冗余热备方式确保系统正常。
4.2.2 加强整机备份
对于采用虚拟机部署的应用服务,采用系统整机备份,保证虚拟机失效后能快速恢复系统。
4.2.3 有效备份配置文件
对于关键应用,确保安装文件和配置文件的完整备份,确保故障发生时,可快速有效恢复。对数据库等重要数据进行定期备份或增量备份。
4.3 数据风险应对策略
针对数据风险有2种应对策略。
4.3.1 整机备份
对于采用虚拟机进行部署的管理节点以及许可服务器,采用整机备份方式,应对数据风险,可实现快速恢复。
4.3.2 数据库及数据文件备份
数据库及数据文件备份,根据系统数据应用情况进行实际分析,可采用部署后一次性备份,或是采用增量备份的方式。
4.4 其他改进措施
高性能计算平台属于系统体量大、复杂度高、技术难度大的信息系统,为降低风险发生造成的损失,按照监控—预警—诊断—修复的步骤,每日巡检,加强故障的预防和处理。
(1)通过信息化手段对平台进行实时监控,对出现异常的节点,采用人工进行故障排查。
(2)通过信实时监控软件,对僵尸进程、长期大量占用存储的用户、高性能计算平台瓶颈进行预警。
(3)根据日志提示信息查看相关服务。遇到复杂问题,采用多台关联设备、多个关联服务并行排查的方式,提高问题定位的准确性。
(4)规范故障的修复处理,并加强过程的管理和记录,此外通过周期性的定期巡检和即时性的事件处理,实现系统的稳定运行。
5 结语
风险控制管理是信息系统管理的一个重要组成部分,良好的风险管理可以防止和减少项目中潜在问题的影响,只有通过科学的分析和方法,将风险问题和项目任务紧密结合起来,并且转化为知识和技术积累。在高性能计算平台运营的过程中,将不断提升风险管理意识和水平,降低风险发生的概率或转移风险,减少风险对整个平台所造成的影响[4]。
参考文献
[1]邓涛.构建信息系统风险评估,提升网络信息安全[J].信息技术与信息化,2015,(3):40-41.
[2]聂元铭,安靖,文晖.云计算信息安全风险探究[J].信息网络安全,2011,(10):15-16.
[3]赵可.信息系统风险评估对网络和信息安全的重要意义探讨[J].硅谷,2014,(2):166.
[4]李智.信息系统风险管理和控制的研究与探讨[J].科技信息,2013,(8):425.endprint