摘 要:在物联网和人工智能飞速发展的大背景下,针对高校网络设备运维中存在的问题,基于物联网和人工智能,从设计目标、系统架构和应用场景几个方面对运维新方案进行阐述。方案依托自主研发的网络设备管理器,独立于需要维护的校园网络,无需改造现有校园网架构和设备,成为高校网络设备运维的一种新模式。
关键词:物联网;网络设备;运维方案;人工智能;高校;网络设备管理器
中图分类号:TP399 文献标识码:A 文章编号:2095-1302(2025)02-0-03
0 引 言
高校是一个高度依赖网络的单位,其网络组成又具有一定的复杂性。高校网络一般由校园网络、运营商网络、各部门专网和托管网络等构成。网络设备分布较松散,这给网络设备运维带来了较大的挑战。鉴于当前物联网技术已趋于成熟,本文将研究使用物联网技术监控和维护高校网络设备。
1 高校网络设备管理现状
1.1 网络设备管理方式
当前网络设备运维方式主要分为:现场运维和远程运维[1]。现场运维时,工作人员需到现场并通过网络设备调试接口对设备进行人为问题分析和处理。远程运维指工作人员通过网络设备自身提供的SSH、Telnet、Web等管理服务对设备进行维护。在此基础上网络设备厂商提供了集中管理设备的平台,但这些平台只局限于通过设备自身提供的服务和现有的网络环境进行设备状态的监控和设备管理。
1.2 网络设备管理中存在的问题
高校当前网络设备管理中存在的问题如下:
(1)使用自身网络环境运维自身网络设备。在远程运维环境下,如果用于进行设备管理的网络环境已经出现问题,工作人员无法通过现有远程运维手段进行有效运维。
(2)网络设备自身提供的网络管理服务(SSH、Telnet、Web等)本就存在服务故障,而这些服务也占用了网络设备的有限资源。
(3)现场运维人工成本逐年递增。
针对上述存在的问题,需要寻求一种不依赖于自身网络通信,并能很好接管现有网络设备的远程设备运维方案。
2 网络设备运维方案
2.1 方案设计目标
本方案设计的目标是为了解决以下几个问题:
(1)网络设备运维使用外管模式。在外管模式下,网络设备运维的通信环境不能依赖需要运维的设备,即不能使用设备自身的通信环境来运维设备。运维通信必须与需运维的设备通信环境独立。
(2)不改变当前校园网络结构和架构,以一种较低成本的方式增强网络运维能力。设备运维能力的增强不应改变当前校园网络的架构。方案只是以最低的成本和在不改变现有网络的基础上增强网络设备的运维能力。
(3)减少运维系统与校园网络的关联。当运维系统出现故障时,不会影响校园网络的正常运行。
(4)方案应考虑人工智能的应用,以提供智能运维能力。
2.2 方案简介
方案使用自主研发的网络设备管理器(核心设备)。核心设备通过CONSOLE口连接网络设备,并通过CONSOLE口对网络设备进行监控。核心设备基于多种物联网通信协议与MQTT(Message Queuing Telemetry Transport)消息队列通信。MQTT协议是一种基于发布/订阅(Publish/Subscribe)模式的“轻量级”通信协议[2-3],该协议构建于TCP/IP协议上。MQTT消息队列集群主要负责核心设备与系统数据库之间的信息(监控信息)传递工作。系统数据库采取多类型数据库异构集群的方式,通过异构的方式充分发挥各数据库的特性。方案具备设备故障预警、设备监控仪表盘、设备远程维护、设备环境监测、设备故障预测、设备故障智能维护等功能。
2.3 系统架构
运维系统由网络设备接入层、异构数据库集群、传统运维平台和AI运维构成。运维系统架构如图1所示。
2.3.1 网络设备接入层
网络设备接入层由核心设备、网关和MQTT集群组成。核心设备是管理网络设备的设备。它通过RJ 45接口与网络设备的CONSOLE口连接,通过RS 232通信方式监控网络设备。核心设备除了可以管理网络设备外,还可以搭载设备环境传感器。核心设备通过环境传感器(如:温度、湿度、气体传感器等[4])监测网络设备的存放环境。网络设备真实的存放环境参数有温度、湿度、有毒气体体积分数、磁感应强度等。这些参数能从物理参数的角度反映设备是否出现故障或出现故障的可能性。这是传统网络设备运维方案无法实现的。
核心设备选用国产ESP32S3芯片作为主控芯片。主控芯片通过UART1连接RS 232串口通信芯片,将网络设备标准命令下发到网络设备,并获取网络设备返回信息。主控芯片使用5G通信模块或其他物联网协议通信模块与MQTT集群传输监测信息。图2所示为核心设备的硬件框架。
核心设备主要负责监测网络设备和控制网络设备。核心设备工作流程如图3所示。
2.3.2 异构数据库集群
异构数据库集群是系统数据库和系统的数据核心。其用于存储网络设备输出的原始监控日志、通过AI模型处理后的向量数据、系统配置和显示数据等。这些数据大部分不是传统的关系型数据,所以需要使用一种异构的方式将非结构化数据、向量数据和关系型数据存储起来,发挥各类型数据库的特长。
NoSQL(Not only SQL)是对不同于传统关系型数据库的数据库管理系统的统称[5]。NoSQL的类型有:键值数据库、内存数据库、文档数据库、图数据库、向量数据库和时间序列数据库等。
方案将不同类型的非关系型数据存储到对应的NoSQL数据库中。表1列举了方案中主要的非关系型数据项和对应的数据类型、数据库。
2.3.3 传统运维与AI运维平台
设备运维平台应具备以下几个主要功能:
(1)故障预警。故障发生时,第一时间将故障通知发送给管理和维护人员。
(2)设备状态仪表盘。通过直观的方式显示各个被监控设备的运行状态。
(3)远程维护。当故障发生时,能通过远程方式恢复设备运行。
随着人工智能的发展,从技术层面已具备将特定领域的大数据应用到自然语言处理、机器学习模型和大语言模型中的能力,从而实现自动化执行、简化工作流程和预测的目的。实现网络设备AI运维的总体思路如下:
(1)收集并汇总网络设备的运行日志(特别是故障日志)、设备操作手册、故障处理手册等大数据。
(2)筛选清洗数据,去除“噪声”数据[7],识别与系统性和可能性问题相关的数据,并标注数据。
(3)将筛选和标注后的大数据应用到具体的AI模型中进行训练。
(4)将训练后的模型运用到实际的问题中,对比模型预测值和实际值,调整优化模型参数和数据,再训练模型,直至模型能覆盖绝大多数问题。
3 方案应用场景及衍生和运维新模式
3.1 作为NMS的备用方案
网络管理系统(Network Management System, NMS)的目的是管理网络,使网络高效运行。各大厂商NMS有eSight(华为)、RIIL(锐捷)、iMC(H3C)等[8]。图4描述了基于物联网的网络设备运维方案与传统NMS管理手段的不同。本方案管理手段直接作用于网络设备的物理层面,更加直接、高效和稳定。本方案核心设备安装方便,直接与网络设备的CONSOLE口连接,无需配置和改造网络设备。
传统NMS是内管模式。网络设备使用自身的SNMP服务管理自身的控制接口。SNMP是广泛应用于TCP/IP网络的网络管理标准协议,该协议能够支持网络管理系统,用以监测连接到网络上的设备是否有任何引起关注的情况[9]。网络设备SNMP服务运行在很小的网络设备上,常因设备资源不足而出现问题,如老旧网络设备因SNMP版本过低而出现安全问题等。SNMP协议是基于TCP/IP协议研发的,即SNMP与NMS的通信基于自身网络设备的网络环境。如果网络设备出现故障,且已经影响SNMP的正常通信,那么必然导致NMS出现问题。在这种情况下,唯一的维护办法是工作人员到设备现场通过控制口处理设备故障。而本方案使用外管模式。独立的设备维护通信线路(物联网:4G、5G、 ZigBee、蓝牙等[10])完全独立于需要管理的网络设备,管理服务也完全独立于需要管理的网络设备。本方案不论是作为传统NMS的替代方案,还是作为一种备用方案都具有较好的可行性。
3.2 提供网络设备云托管服务
网络设备托管服务商可以向服务对象提供核心设备,通过4G或5G直接提供远程运维服务。此应用场景具有部署简单,不影响服务对象现有设备、配置和网络环境等优势。服务对象只需将需要托管的网络设备接入核心设备即可,无需考虑VPN等隧道问题,维护人员可直接在场外维护高校的网络设备。
3.3 网络设备存放环境监测
本方案提供了环境传感器,可以将核心设备部署到需要检测网络设备存放环境的区域,用于检测本区域的温度、湿度、有毒气体体积分数和磁感应强度等物理参数,将这些参数作为运维的辅助参考。
3.4 网络设备运维新模式
本方案讨论了一种建立在物联网专网上的网络设备运维模式。设备运维使用外管模式。外管模式指的是设备管理独立于被管理设备本身和其运行环境。本方案中设备运维服务独立于被管理设备,设备运维网络独立于被管理设备网络。在外管模式下,网络设备运维具有低依赖性、部署灵活、高扩展性和不影响原有网络等特点。
4 结 语
本方案依托自研的核心设备,通过物联网协议创建了网络设备运维物联专网。此专网独立于需要维护的校园网络,无需改造现有校园网架构和设备,部署方便快捷。本方案暂未对物联网安全做出讨论研究。
参考文献
[1]王利平,庞晓艳,朱雨,等.基于物联网和移动互联的二次设备运维技术研究与应用[J].中国电力,2019,52(3):177-184.
[2]姚丹,谢雪松,杨建军,等.基于MQTT协议的物联网通信系统的研究与实现[J].信息通信,2016(3):33-35.
[3]任亨,马跃,杨海波,等.基于MQTT协议的消息推送服务器[J].计算机系统应用,2014,23(3):77-82.
[4]钱志鸿,王义君.面向物联网的无线传感器网络综述[J].电子与信息学报,2013,35(1):215-227.
[5]申德荣,于戈,王习特,等.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013,24(8):1786-1803.
[6]靳强勇,李冠宇,张俊.异构数据集成技术的发展和现状[J].计算机工程与应用,2002(11):112-114.
[7]蒲天骄,乔骥,韩笑,等.人工智能技术在电力设备运维检修中的研究及应用[J].高电压技术,2020,46(2):369-383.
[8]段海新,杨家海,吴建平.基于Web和数据库的网络管理系统的设计与实现[J].软件学报,2000(4):468-472.
[9]张杰.基于SNMP的网络管理系统的研究与实现[D].上海:东华大学,2008.
[10]王保云.物联网技术研究综述[J].电子测量与仪器学报,2009,23(12):1-7.
作者简介:程 通(1982—),男,四川成都人,硕士,工程师,研究方向为物联网和系统设计。
收稿日期:2024-01-23 修回日期:2024-03-01