刘天龙,王 振,任 帅
(中国移动网络事业部基础网络维护室,北京 100033)
近年来网络运营成本逐年上涨,降本增效压力明显增加;通信电源空调设施逐步老化,重大和重要故障数量持续增加,磷酸铁锂电池、高压直流等技术不断推广;线上化、智能化的管理手段逐步应用;数据中心、核心机楼、节点机房和末端站点的维护管理方式差异性显著增加。本文将就以上内容结合现网情况开展分析,共同探讨维护方式智能化、维护能力专业化、维护体系差异化的发展趋势。
随着“动环设施集中运维管理平台”上线,中国移动组织开发了“动环专业风险字典表”,各省发现的隐患根据预期损失(断电、制冷中断、监控失效、高能耗)、隐患产生环节(设计规划环节、设备采购环节、工程实施环节、运维环节)、所属系统等维度进行归并,同时上报现场整改条件和预计完成日期,形成了有效的闭环管理,对于经验积累和分析提供了素材,保障了隐患排查工作系统性开展。
以往中国移动对于机房运行的分析主要局限于各省公司数据报送,时效性差、准确率不高,自2020年以来通过平台抓取温度、门禁、负载电流等数据,对机房运行质量进行分析。容量预警方面在系统内固化不同架构的数学模型,通过采集电流,自动计算负载容量比,实现全网容量预警监测。温度分析方面通过采集机房温度数据,对于过低和过高的情况进行自动识别,主动发掘温控管理盲点。
传统机房巡检严重依赖人工,不少局站现场工作人员60%以上的工作时间都用在机房巡检上。通过巡检机器人、光纤测温技术,以及智能化平台等手段,动态监测机房温湿度和烟感、局部热点,以及人员出入管理等,极大地减少了现场运维人员的重复性工作。
多个省公司在数据中心引入巡检机器人,智能规划巡检路线,动态监测温度、湿度、烟感、人员活动等信息,可在一定程度上替代人工巡检。采用光纤测温技术对电缆、高温机柜等设施进行在线监测,可实现大范围、低成本、高可靠的温度探测,对预防火灾和机房热岛防治有较好效果。在机房出入方面构建线上管理系统,实现机房出入申请、审批、安全教育、人脸识别开门端到端全流程电子化。
智能革命正在到来,将逐步重构现有的运维方式。如同智能工业机器人对劳动密集型企业乃至整个产业竞争格局的重塑。在动环运维中引入智能化技术,可大大简化一线人员的重复性劳动,大幅降低人工参与环节,提高工作效率,释放更多的创新活力[1]。
传统风冷空调系统构成相对简单,单台空调自成一个循环系统,维护压力不大。数据中心及部分核心机楼采用水冷空调系统,当前已经投运的40余个大型数据中心园区,近年来发生多起水冷空调系统故障。在故障分析中发现,不少数据中心仅有1~2名自有人员对水冷系统有较为深入的理解,属地维护人员对水冷系统的掌握程度不容乐观。有的数据中心在BA系统未完成验收情况下即投运,冷机工作在纯手动状态、寒冷季节仍采用冷机制冷。一旦发生意外,现场值守人员难以快速应急处理。
空调群控系统作为空调系统的大脑,复杂度和重要性也在逐步提升,需要专业技术人员进行操作,目前也缺乏建设、验收和维护标准,现网已发生多次故障案例。目前中国移动正在制定相关标准,近期将全网发布。
电源系统是设备类型最多的系统,从功能上来讲可以分为电源引入层、变配电层、不间断电源层和末端配电层。自维设备主要包括发电机组、变压器、高低压配电系统、不间断电源(UPS、高压直流、-48V开关电源)和列头柜。近年来部分数据中心自建自维110 kV/66 kV/35 kV变电站,全网大力推广磷酸铁锂电池和高压直流系统,对电源专业人员的维护要求越来越高。通信电源专业特别是现场作业操作的安全对通信企业的安全生产有着至关重要的作用[2]。通过内外部培训、割接项目、扩容工程等方式,培养和提高电源维护人员的综合素质,使其具备在各类设备单点故障的情况快速抢通的能力至关重要。
2015年中国移动开始了动环监控系统集中采购,结束了各省公司“各自为战”的局面。但是由于前期多年的独立建设和分配厂家变动频繁的原因,目前各省的动环监控厂家数量过多、不同厂家对接困难等问题一直没有完全解决,通过标准B接口构建省动环监控平台直连FSU的二级架构已经越来越成为共识。随着数据中心的建设,园区级集中管理手段成为迫切的管理需求,通过DCIM系统对动环监控系统、BA系统、供储油控制系统、安防监控系统等进行综合管理已经成为数据中心建设标准配置。
随着动环监控内容的逐步扩充和系统复杂度的不断升级,单纯的查看告警、简单的量化统计已经难以发挥出系统的作用。如何发挥动环监控系统的作用?水冷空调系统AI智能控制、多维度电源系统能效分析、自动化蓄电池放电管理等应用正在“从梦想照进现实”。
“闻道有先后,术业有专攻”。电源、空调、动环监控等无论是从技术原理还是设备系统均有很大差异,在规模越来越大、集中化程度越来越高的趋势下,员工专业细分,选择一个专业方向投入更多精力,锻造更长的长板,是个人发展和公司人才培养的双赢模式。
各省也应不拘一格培养人才,大胆尝试招聘相关专业人才、加强理论实操培训等方式,保证员工在每个阶段(岗前、在岗、后续)都有对应的培训培养方案及跟踪计划[3]。用更加细化的分工来应对大规模集中化,用更加专业化的技能来凸显专业价值。
随着中国移动3+3+X数据中心战略的落地,不同类型局站所对应的维护模式逐步形成了以少量技术、管理复合型人才自有人员为主,三方维护团队协维的管理模式。数据中心一般设置三级部门机构,以10人以内的自有团队为核心,对数据中心运维进行全面管理。采用购买三方维护服务的方式开展日常运维,包括7×24小时值守、日常巡检、维护作业等内容。
核心机楼维护模式比较复杂,一般是沿用历史维护模式,各省情况不尽相同。北方省份自维成分居多,南方省份协维成分居多。近年来随着老员工的退休,全国范围都开始逐步引入三方协维队伍。
协维人员管理除了甄别资质(高低压特种操作证、制冷证)和技术能力,后期培养也至关重要。建议通过各种培训、演练、操作等机会培养三方人员的安全责任意识和实际动手能力,中国移动也在2020年组织编制了《动环实操培训教材》[4]。
鉴于目前自有人员数量和机房数量,汇聚机房和基站的维护应全部划入代维管理。这类站点分布在城市、乡镇、农村等广大地域上,依靠自有人员难以实现维护覆盖。站点内动环设备以开关电源、蓄电池和舒适型空调为主,技术要求相对较低、影响范围可控,目前大多数省份是以代维为主,其他三方单位为辅,自有人员进行监督检查。
在维护人员和费用压减的大背景下,各类站点的维护模式应因地制宜,收敛和培养自有人员的核心管理、技术能力,将简单、重复、技术含量较低的维护工作外包,并建立一套完善的入职测评、能力培养和定期考核制度。同时应努力打造智能化监控维护手段,减少人工工作量,向着自动驾驶网络不断迈进[5]。
通信电源空调维护应该在维护规程指导下,充分结合本地配置架构和业务要求,探索开展分类分级的维护服务。成本压力的传导会倒逼更加激进的探索和改革,通信电源空调维护依然任重道远,厂家众多、智能化程度较低、属地化要求高等一系列问题都亟待解决。