张冬梅 徐东镪
摘 要:通信机房内动力环境设备日常告警数据中的一些关键信息可以用来与综合资源管理系统数据进行对比、稽核。文章通过优化动环设备资源编码规则,基于Python开发动环告警大数据分析工具,实现了动环告警数据与综合资源管理系统数据的准确关联与稽核,从而形成闭环管理,提升了动环资源数据准确性,节约了人工成本,提高了运维效率。
关键词:动环告警;Python;大数据;数据稽核
中图分类号:TP311 文献标识码:A文章编号:2096-4706(2021)22-0034-04
Abstract: Some key information in the daily alarm data of power environment equipments in the communication room can be used to compare and audit with the data of the integrated resource management system. By optimizing the coding rules of power environment equipment resources and developing the power environment equipment alarm big data analysis tool based on Python, this paper realizes the accurate correlation and auditing between power environment equipment alarm data and integrated resource management system data, so as to form a closed-loop management, improve the accuracy of power environment resource data, save labor cost and improve operation and maintenance efficiency.
Keywords: power environment equipment alarm; Python; big data; data auditing
0 引 言
近年來,通信运营商因动力环境(以下简称动环)设备故障引发的通信网络业务中断风险日益增多,并引起重视,尤其是在高温、雷雨、冰冻雨雪等灾害性天气下对通信重要业务的电源保障能力直接决定了一个通信运营商的通信服务能力,而完好、准确的动环监控在故障通知和处理中起着非常重要的作用,其中,动环资源中的所属机房、所属区县、设备类型等资源信息的准确性对动环监控中的故障派单起着关键性作用,因此动环设备原始告警数据中含有准确的、可用的设备资源信息,可以用来进行二次的数据开发挖掘利用,可作为稽核综合资源管理系统资源准确性的数据来源。
1 动环告警处理基本原理和流程
1.1 FSU监控单元基本原理
在现有的电信运营商的通信机房中,常见的动环设备类型有变压器、变换设备、高压配电、低压交流配电、发电机组、开关电源、低压直流配电、UPS设备、蓄电池、空调、节能设备、动环监控、智能电表和其他设备,而每种设备类型都有很多不同的设备子类。通过安装动环监控设备,现场设备的告警就可以通过FSU(Field Supervision Unit,现场监控单元)设备,以SDH、PTN等传输承载方式传送到LSC(Local Supervision Center,区域监控中心)和CSC(Central Supervision Center中央监控中心),一般情况下,县市区域中心设置LSC,省级区域中心设置CSC。这样,从FSU,LSC到CSC就组成了一套动环监控系统,它能对通信机房的动力设备及环境进行遥测、遥信、遥控和遥调,实时监视其运行参数,监测和处理故障,记录和处理相关数据,从而实现通信机房少人或无人值守和集中维护。
FSU硬件的设计应遵循结构化、规范化、模块化、集成化的方式实现,以提高系统的可靠性、可维修性和维护保障性。
1.2 动环告警监控流程
FSU采集到动环设备告警信息后,通过定义的A/B接口传送至LSC、CSC,最后由CSC进行封装成标准化告警后传给集中故障系统,集中故障系统根据告警中的设备ID和综合资源管理系统数据进行关联,将告警信息关联到综合资源管理系统的站点、机房、区县等信息,从而实现告警的派单,及时通知动力维护人员进行故障处理。除此之外,还可进行容量管理,动环拓扑管理等功能,具体如图1所示。
2 主要的技术手段及软件设计
2.1 提出一种新的动环资源编码方法
现有的综合资源管理系统动环资源编码方法由机房编码+设备类型编码+序号组成,这种编码能较快地关联出通信机房资源信息,实现动力设备告警的快速定位,但缺点是如果机房名称或者其他信息发生了变化,机房编码就会改变,这样动环编码就会失效,无法实现资源关联。通过研究告警报文发现,告警中含有FSU_ID和DEVICE_ID这2个字段,而且是不改变的,但DEVICE_ID是存在重复的,进一步分析得知,同一个FSU下的动环设备DEVICE_ID不会重复,根据此结论,重新制定编码规则,以通过FSU_ID+DeviceID和LSC_ID+DeviceID作为综合资管系统、集中故障监控系统,动环运维系统间关联的唯一编码,这样就避免了因机房资源变化引起编码变化,从而造成各种系统间数据无法匹配的情况,动环告警信息流如表1所示。
2.2 软件设计
基于上述优化后的动环编码方法,集中故障系统和综合资源管理系统就可以通过该编码的唯一性特点进行一对一准确关联。由于Python语言中Numpy和Pandas数据科学包对数据分析和处理有独特优势,因此,可以通过编写Python软件程序来进行数据处理和数据稽核。该程序主要分为数据读取模块、数据清洗模块,数据提取模块,数据整合模块和数据输出模块,通过对告警大数据的清洗、整理和分析,利用Pandas的字符串方法提取动环告警大数据中设备编码、设备类型等关键信息,利用编码匹配方法与综合资管数据进行核对校验,对匹配不一致的数据派发异常编码工单,运维人员登陆综合资源管理系统进行数据核对和修改后,实现闭环管理。
2.3 技术特点
2.3.1 数据向量化
向量化数据处理特征,利用多维数组方法提升内存运行效率,节约计算资源。
2.3.2 快速部署
基于Python开发语言实现,Python是一种开源、可移植的、面向对象的解释性高级开发语言,拥有功能强大的内置和第三方库,既可以开发小工具,也可以开发企业级应用,同时利用Docker云原生技术,可以快速部署Linux服务器上或网络云上。
2.3.3 编码统一性
优化现有动环编码方法,以FSU_ID+设备ID和LSC_ID+设备ID作为综合资管系统、集中故障监控系统,动环运维系统间唯一编码,该编码具有不可变、唯一性的特点,适用于系统间数据关联。
2.3.4 数据接口丰富
pandas的数据IO读写接口非常丰富,可支持HTML、HDF5、JSON、SQL、SPAA、SASS、Stata、CSV、Excel等常見文件格式,可以通过reader和writer功能模块实现数据文件的读写。
2.4 软件基础环境配置
基础环境概述:操作系统OS版本为Ubuntu 20.04,Python版本为3.8.5,编译器为Visual StudioCode,版本为1.63.2,安装Python和Pandas最简单的方法是通过Anaconda或者是MiniAnaconda进行安装,推荐使用MiniAnaconda安装,节省安装空间。Anaconda发行版是一个用于数据分析和科学计算的跨平台发行版,这是推荐大多数用户安装方法。
首先,在Ubuntu Linux中创建虚拟环境Python38,命令为conda create -n python38 python=3.8.5,创建完成后使用命令conda info --env查看创建的虚拟环境,conda环境就像一个virtualenv,允许指定特定版本的Python和一组Python库。已安装好的虚拟环境如图3所示。
其次,创建好虚拟环境后,使用命令conda activate python38进行虚拟环境激活,这样可以避免不同安装包之间的冲突。
最后,使用conda命令安装Numpy,Pandas包,具体命令为conda install pandas,conda install numpy,本机安装的Pandas版本为1.2.2,numpy版本为1.19.2,如果使用pip安装命令,则为pip install pandas,pip install numpy,安装包列表如图4所示。
为确保Pandas安装成功和相关硬件和软件的运行正常,可以利用test方法来进行安装后的测试,pd.test()是Pandas的一套详尽的单元测试,涵盖了97%的代码库,安装成功测试如图5所示。
其他依赖包安装推荐
numexpr:用于加速某些数值运算。numexpr使用多核以及智能分块和缓存来实现大幅加速。建议2.7.0或更高版本。
bottleneck:用于加速某些类型的nan评估。bottleneck使用专门的Cython例程来实现大幅加速。建议1.2.1 或更高版本。
2.5 代码编写
本软件基于Visual StudioCode编译器开发,软件版本为最新的1.63.2,代码编写完成后,可以点击在终端中运行Python文件运行程序,为防止在读取文件时候发生读取IO异常,可以在程序中加入try except来捕获异常,避免程序崩溃,同时,在分析告警文件中发现很多分隔符不规范的问题,可以read_csv功能中加入on_bad_lines = “skip”来解决。运行结果如图6所示。
3 应用情况
通过开发动环告警大数据分析程序,每月可开展集中故障系统动环告警大数据和综合网络资源管理系统的数据进行对比分析,最后输出设备类型不一致数据,同时,针对设备类型不一致数据,则由集中故障系统触发电子运维系统(EOMS)资源勘误工单,如图7所示。运维人员在收到工单后,在综合网络资源管理系统侧发起动环资源调整流程,对异常编码进行资源修改,调整完成后,系统再次进行比对,直至完全一致,完结工单,最后形成资源调整的闭环管理方式,这样就可以不断提升动环资源中设备类型和设备编码字段的准确性,这样就解决了通信网络资源管理中数据稽核方法的难题,实现了人工稽核转为系统自动稽核,提升了运维工作效率,从而有针对性的提高网络资源数据的准确性。根据统计,自2021年5月至2021年11月间,该工具在中国移动重庆公司开展应用以来,已累计处理分析动环告警大数据超过1.7亿条,累计处理数据10.7 GB,动环告警数据与网络资源数据的关联匹配率达到99.5%以上,动环资源设备类型字段的准确率达到99.57%,动环告警监控准确率由之前的92%提升至99.5%以上,改善效果明显。
4 结 论
动环设备与其他通信设备相比具有种类多,其共可分为约26大类设备,83子类设备,同时动环数据采集设备FSU设备的厂家品牌较多,动环运维系统不能对全部动环设备实时进行信息采集,这就造成动环运维系统上的设备类型存在人工录入,不能保证100%准确,而FSU进行数据配置时必须按照集团动环告警标准化规范进行配置,简言之,就是告警信息中所携带的设备类型是最准确的。由于设备类型的准确性在故障监控和告警处理中具有重要作用,目前集中故障监控根据《中国移动动环标准化字典表》进行标准化后,形成规范的设备类型和告警信息,再与资管数据中的动环资源所属机房字段进行匹配,定位故障发生的机房、设备类型和名称,通知维护人员及时处理和故障发布。但在日常资源管理工作中,动环资源的设备类型、设备子类的字段的准确性缺乏系统稽核的手段,往往只能采取现场检查、核实的方式进行,往往费时费力,效果提升不好。
本文通过研究动环告警编码方法,对现有动环编码进行了优化,通过对通信网络动环设备告警大数据进行数据分析和提取关键信息,实现了对综合资源管理系统动环资源数据的稽核,提高了資源数据准确性。开发了基于Python的动环告警大数据分析工具,可定期实现对集中故障和综合资源管理系统两个系统的告警数据和资源数据进行对比稽核,提升了系统间关联数据的准确性,进而提升了动环资源管理水平,有力支撑了动环告警监控工作,有利于缩短因停电造成的动环设备故障历时,同时,节约了人工运维和开发成本,提高了运维效率。
参考文献:
[1] 余辉雄.面向大数据分析下配网主动式运维分析 [J].通信电源技术,2019,36(12):119-120.
[2] 李栋.大数据分析在网络监控中的实现与应用 [J].通信管理与技术,2020(4):44-46.
[3] 任帅.动环集中运维管理平台应用探析 [J].通信电源技术,2020,37(3):64-67.
[4] 张帆.数据分析在科学统筹通信运营商动力运维成本中的应用研究 [J].信息与电脑(理论版),2018(17):153-154+157.
[5] 孔令诚.接入网机房动环监控自动派单的分析与实现 [J].中国新通信,2018,20(2):87-88.
作者简介:张冬梅(19xx—),女,汉族,重庆人,副教授,硕士研究生,研究方向:电子信息技术。