唐彬彬,叶 丹,俞晓峰,梁 强
(广东电网有限责任公司河源供电局,广东 河源 517000)
主站机房季度定检信息作为定期分析主站设备运行状态的依据,对于主站设备故障诊断、缺陷处理等方面有重要意义[1]。在常规主站机房设备定检过程中,通常依据设备资产表逐一进行设备的检查和信息备份,但此种方法存在效率低和智能化程度低等问题[2]。同时,对于承载重要信息的机房设备,逐一操作扩大了工作范围的同时,增加了工作中误操作的风险[3]。因此,本文通过分析机房主机设备定检的业务特点,采用智能运维思维设计基于机房已有硬件资源的批量主机设备自动定检信息获取的功能,在不影响设备正常运行监测的基础上全面提升效率,降低了维护成本和作业过程风险点,提高设备的精细化管理水平[4]。
本文基于Qt Design Studio界面和bash shell进行设计,由图形界面控制、主控制流程、自动交互流程以及信息获取流程等组成,主要功能论述如下。
图形界面控制功能依托于调度自动化系统Qt图形设置软件设计功能界面,并集成对应运行程序,通过界面热点触发完成主站机房设备巡检信息自动获取操作,实现巡检操作的可视化。图形界面具备巡检信息运行开始、巡检信息运行结束、巡检主机设备列表编辑与保存、巡检主机已完成设备列表展示以及实时程序运行信息实施展示等内容。
主控制流程功能实现各子功能的交互与调用,协调完成主机地址管理与获取、执行程序发送与执行、巡检获取文件回传等关键功能,逐一实现批量巡检设备信息获取的全流程。批量巡检设备信息获取流程如图1所示。
图1 批量巡检设备信息获取流程
自动信息交互流程负责用户地址管理、用户账号管理、用户密码管理和执行程序的下发与执行。调用用户地址管理子程序完成当前执行巡检设备地址获取,用户账号和密码子程序完成对应巡检设备的账号、密码获取,因此在完成用户地址、账号和密码的调用后,即可建立与被定检设备的信息交互。执行程序下发完成定检信息获取程序的下发至对应地址的主机设备,随后主控制流程功能触发定检信息获取程序,在完成单台主机设备的信息获取后,将所收集的设备运行信息按主机名命名的文件夹集中保存至指定目录,最后删除远程主机设备中的定检信息获取程序文件和所收集的设备运行信息并递归定检至下一台主机设备。自动信息交互流程如图2所示。
图2 自动信息交互流程
定检信息获取流程是完成主机设备信息查询和获取核心组成部分,在执行自动信息交互流程后定检信息获取程序由主控制程序完成触发和执行。首先检查当前账号是否具备巡检信息获取的权限,其次设定执行结果输出状态,当执行成功后输出“完成”标识符,执行失败后反馈“失败”标识符,最后依据流程逐一完成主机设备操作系统版本信息、设备厂商信息、IP/MAC地址、CPU信息、磁盘信息、内存信息、系统信息、文件系统信息、系统运行时负载情况、物理内存使用情况、交换分区使用情况、集群信息、日志文件信息、密码周期检查、数据库运行状态检查以及数据库信息等信息的获取,并将获取信息保存至对应路径下的文件夹中。定检信息获取流程如图3所示。
图3 定检信息获取流程
在可视化界面可通过查询巡检主机已完成设备列表和运行设备信息巡检设备计数确定本次巡检信息获取工作结束,可在指定位置将本次巡检所有主机的信息拷贝至移动终端,完成信息备份和开展线下主机设备运行状态分析。
采用本文方法开展机房主机设备巡检信息自动获取的实用化过程中发现仍存在待进一步优化的空间,优化提升总结如下。
(1)不同主机操作系统的匹配方面。机房主机设备存在操作系统版本不同、操作系统不同的特点,因此在开展机房主机设备巡检信息自动获取时需考虑操作系统版本和操作系统不同时查询命令的匹配。本文可实现通用版本Linux和麒麟2种操作系统的自动信息获取,实现主机设备巡检覆盖,但存在少量主机设备应用Windows等其他操作系统的情况。本文所涉及的主机设备巡检信息获取在不同操作系统上存在改进空间。
(2)业务流程优化方面。本文所设计的界面化操作主机设备信息自动获取当前只能实现逐一巡检,在巡检过程中只有完成当前巡检主机信息回传至指定路径后才能开始下一台主机设备的巡检。相对于逐一主机设备的手动巡检采用本文的方法虽极大提升了效率,但在硬件资源满足条件的基础上可以进一步优化业务流程,实现多台主机设备的并行执行,提升定检效率。
(3)主机设备业务运行状态的方面。因部分主机存在运行业务多、硬件异常等情况,在执行主机巡检过程中存在卡顿的问题,如果不进行处理,将会无法继续执行。当前本文采用手动跳过步骤继续执行的方法,但此种方式过于烦琐,下一步采用的方法会主动判断查询子信息所消耗时间,当时间超过一定阈值后自动跳转至下一步骤继续执行,并对异常运行步骤进行统计记录,便于后期分析排查。
(4)主机设备多网段方面。机房主机设备因设备众多和业务区分要求具备多IP地址网段的特点,本文所采用的方法不能实现跨网段执行,因此在进行主机设备信息获取时需要提前依据网段编辑主机设备地址文件,在对应网段部署此功能的主机上分别执行[5]。
机房主机设备巡检信息自动获取功能是基于机房已有硬件资源的部署实现,在实际应用中证明采用此方法可实现机房主机设备信息高效批量获取,极大提升工作效率和减少误操作。此方法可在具备大量主机设备的调度自动化系统机房、通信网络运行机房、信息中心机房以及数据中心等场景进行部署使用,具备较好的应用前景。