徐世军
(中国电信股份有限公司惠州分公司,广东 惠州 516000)
(1)机房数量逐年增加。随着4G向5G网络不断升级和云服务、大数据产业的迅猛发展,电信网络业务范畴不断扩大,数据通信机房数量骤增,逐步形成多个IDC数据通信集群。
(2)机房设备更新换代频繁。通信机房的设备随着网络升级不断升级和扩容,如动力机房整流模块数量及蓄电池组随着通信设备的需求不断调整,智能化程度越来越高,基本都提供RS485接口及相关配套协议,给智能化管控带来了便利。
(3)机房设备多元化。机房设备采购均采用框架协议,设备厂商和种类虽有限制,但集采价格内设备的稳定性和安全系数有下降趋势,对安全管控的要求提高到更高级别。
对于重点机房,安排机房管理人员24 h值班,规定时间巡视机房设备通信状态环境变化信息、测量和记录机柜负载电流等数据。这对管理人员的素质要求相对较高,需要对各专业的设备有所了解,突发应急事件发生时,按照应急处置预案有条不紊地处置问题。但是,实际中,机房管理人员发现问题后不能有效处置,没有规范的流程和制度,缺乏科学有效的管理方式,对机房设备的运行安全和稳定性提出了严峻挑战。
在原有动环监控系统基础上升级改造的集约动环平台,通过集中平台管控,对数据采集信息进行大数据比对分析和规则判断,通过分区域分专业下发派单机制,及时提醒设备专管员,第一时间通过智能手机收到APP告警信息,并通过APP进行故障处理考核,闭环处理故障,起到了有效保障机房设备安全稳定运行的作用。
动环集约系统实现对通信局站内各种动力设备、空调设备及机房环境的监控、智能维护和综合管理,保障电信动力系统运行的可靠性,降低维护成本。该系统是实现通信动力设备由分散维护向集中维护改革的有效工具和手段。动环集约系统集中并融合了现代计算机技术、自动控制技术、通信技术、传感器技术和人机技术的最新成果而构成的计算机集成系统[1]。动环集约系统采用点到点的拓扑结构,由监控中心(SC-Supervision Center)和端局(SU-Supervision Unit,又名监控单元)构成。动环集约化系统平台是在原有动力设备及环境集中监控系统基础上的升级拓展应用,相较于前期系统具备如下优势:基于云平台数据开发,提供了固定网络IE浏览和移动网络APP浏览两种便捷方式访问动环数据;解决了数据浏览、数据监控、报表处理、故障回单只能在监控中心操作的历史。目前,智能终端日渐普及,移动网络支持高速传输条件下,专业维护人员能方便快捷地掌握现场情况的第一手信息。
监控中心SC由本地服务器模式升级到云服务器模式,底端SU升级到具备嵌入式系统功能,数据通过统一的B接口协议上传到监控中心统一的云服务器;监控中心是集中监控系统的维护和管理中心,对数据进行统一梳理筛选后,对异常信息集中派单,通过北向接口与派单系统相互关联,做到按照区域、专业、职能进行派单;省去了监控站SS,略去了中间环节,减少了动环监控本身的故障点,提高了系统的稳定性[2]。省级集约动环平台具备管理各地市各监控站的职能,应用于通信机房动环监控配套项目。动环集约平台通过DCN网络监控局站组成局域网,监控单元SU通过采集器监控端局的各类测点。
动环集约化系统在结构上更简捷,从C/S架构向B/S架构方向发展,从PC端应用向智能终端应用方向发展,从固定监控模式向移动监控模式方向发展[3]。它综合利用计算机技术、控制技术、物联网技术、云计算和大数据分析技术,完成了对机房数据的实时数据采集和本地或远程的自动控制,为安全生产、管理、优化和故障诊断提供了一整套完整的数据和技术支持。动环集约化系统平台的数据采集技术,部分综合运用虚拟仪器软件开发平台和基于WEB的远程数据采集两个部分(分别针对于前期有自主监控平台的厂家提供虚拟RMU端口、新建SU采用B接口协议直接上传),以XML为基础的WML语言标准为基础,为便捷的人机界面提供了先决条件。动环集约化系统平台涉及实时监视功能模块、告警功能模块、系统自诊断监视功能模块、系统用户管理功能模块以及远程设备管理功能模块5大功能[4]。
(1)实时数据采集和监视功能。实时故障告警输出,告警的过滤和排序,告警跳转到实时数据的浏览以及告警派障;动环集约系统通过各SU,将机房设备的运行参数在底端预处理后,上报给动环集约平台的数据服务器;设备主管人员通过PC端或者APP端方便查询实时数据信息。
(2)设备故障告警功能。动环集约系统在被监控的各类设备出现异常的情况下,会以APP推送形式将告警信息发送到相关人员的手机上。派单根据区域专业不同,自动下发给设备专管员,由专管员在规定时效范围内回单。
(3)系统自诊断功能。动环集约系统对所有设备的通信状态进行轮询通信检测,判断自身设备是否通信正常,如出现网络异常,将立即上报采集设备异常告警数据。
(4)系统用户管理功能。动环集约系统将管理权限分为区域划分、专业划分和操作级别。对于各级管理人员的管理范围和权限可以自由管理,在PC或智能终端上登录,可查询、操作指导范围内设备的相关业务。
(5)远程管理功能。动环集约系统提供远程管理功能,维护人员可以通过PC或智能终端登录集约云平台,修改和调整远端站端采集设备配置。其中,告警规则在在线方式下可以进行灵活调整(集约平台配置方案选择相应的模板)。升级和扩容设备后,系统配置只需要刷新相应的配置即可。
(1)与传统动环系统相较,动环集约化系统采用云架构,满足了动环监测管理数据的存储、计算,并能与公司内部政务云平台、派单告警平台融合,实现信息共享。全系统实时监测,利用大数据和规则判定和智能派单,不需要在监控中心安排值班人员,减少了人员成本;与传统动环系统比较,系统智能派单区别于传统监控模式由值班人员电话通知的方式,减少了人为因素导致的系统派单不及时、责任界定不清、回单不及时不能闭合处理等问题。
(2)与传统动环系统相较,当前计算机CPU的处理能力显著提升,网络带宽明显增加,促进了大数据时代的信息传输。动环集约系统平台在可控的时间内可获取、管理、处理和组织海量数据。动环集约系统引入大数据分析与挖掘技术,从而为判定潜在问题提供预警机制。最显著的应用案例是蓄电池内阻监测应用和PUE能耗监测应用,提供大数据建模、数据分析和数据挖掘,对异常数据提供预警机制,由此得出大数据推进精英决策,进一步提高了信息社会的智能化水平。
(3)与传统动环系统相较,计算机智能算法技术被应用于动环集约化系统,制定相关规则、制定计算模型、设计相应算法,用于解决各类复杂问题。区别于传统监控的只还原现场数据信息的呈现,动环集约化系统将带来更多的趋势化分析报告,为设备维护保养提供科学的数据支撑。
(4)与传统动环系统相较,动环集约化系统在节能减排方面单独划分模块进行管理,依托计算机网络技术、通信技术、计量控制技术,实现电源监控与能耗管控相结合的创新能源监控平台;系统的实施可实现对通信机房内PUE数值的动态监测,自动分析对标结果,系统利用分析后的数据,根据节能监测标准进行科学的专家咨询决策。数据采集系统引入多协议智能数据采集网关模型,集成数据采集、数据传输和数据接收一体化运作。
(5)与传统动环系统相较,动环集约化系统引入统计分析系统SAS,为实现预警、预测、异常分析和辅助决策等提供技术支撑;采用B/S架构,基于微软.NET平台技术,采用多层架构,模块化、组件化设计;适用于强大的数据库体系,使数据整合和分析具备现场应用价值。
通信机房前端采集主机采用嵌入式系统,先行在站点做数据采集,具备自动巡回监测、系统自诊断监测等功能。软测试可以简化系统硬件机构,缩小系统体积,降低系统功耗,提高测控系统的可靠性。
动环集约系统布局感知层、网络层、服务层和应用接口层4层体系机构。每层都提供相应的安全控制,如访问控制、设备认证、数据完整性和传输机密性与可用性,以及提供针对DCN网络病毒和攻击的防御能力。
动环集约系统平台涉及各种各样终端与云端的交互,不同的通信协议对系统的稳定性和后续延展性影响深刻,在协议架构、协议功能、协议特定、报文结构、资源模型以及安全机制方面,都做了兼容性研究[5]。机房设备种类多、生产厂家多,通信协议各不相同。因此,为提高系统的兼容性,通过与各厂家沟通索取设备的协议文本、测试软件等资料,通过协议开发方式,将上述不同设备悉数接入动环系统。在设备扩容时,可以根据需要进行通信方式的扩充、协议模块内容的扩充,如开关电源新增整流模块设备,增加相应模块就能接入该系统进行集中监控。
动环集约系统平台利用现有IP网络或E1网络资源将各个分散机房集中管控,通过底端采集、中心处理、报警派单和处理消单等形成一个完整的闭环链路。该系统的上线运行通信机房所有设备监测数据信息都集中到云平台,融入大数据挖掘分析、平台接口融合等多层技术,使系统的应用更具现实意义。操作便捷性方面,可选择PC和智能终端两种方式进行设备管控。该系统使得监控人员彻底改变了传统的集中式监控模式,使数据的应用更加贴近于实际维护工作,摆脱了固定值班人员值守的老旧模式。该集约化动环系统对所有设备数据信息进行采样、分析和规则比对,对异常告警进行派单,根据告警的级别产生相应的时效要求,以提示设备管理者及时了解故障情况,在规定时效范围内回单处理。
动环集约化系统平台对PUE能耗管控的应用,通过对通信机房能源数据的采集获取,对机房供电负荷安全、机房节能应用发挥关键性作用。能耗数据的采集主要来自两个方面:一方面来源于现场智能仪表、传感器采集的原始数据;另一方面来源于根据供电局的计费系统数据分析后得出的数据。通过上述方式完成由传统人工抄表方式到自动化、信息化的转变,实现了对企业重要能源的采集与监测。PUE能耗在线监测系统用到的数据源种类形式繁多,数据通信形式多样。如何更好地发挥各类仪表的性能,保证最优的测量精度,是能耗监测系统的核心工作。在现有条件下,保障A类重要局房数据源为实际仪表采集数据,逐步延伸到B、C、D类机房[6]。
通过对通信机房PUE能耗划分小精细化管控试点,采样机房列柜机架的入口温度、出口温度及机架内温度,采用自动化控制模式,实现冷池智能温控,达到节能预期10%的目标。
首先,采用冷池内部温度和外部温度作为设定空调启停温度和调节风速的依据。在冷池内布置多个温度探测点,选择冷池内需要保障的温度值,将实测值与需要保障的值进行比较。如果实测值偏低,则可以调高空调的启停温度;反之,则可以调低空调的启停温度。同时,比较冷池内外的温差,根据设定标准温差实时调节空调的送风风速。调节方式与温度的调节方式一样。
其次,改空调控制由人工调节为自动调节。空调的设定温度和风速如果是人工调节,将不能满足动态需要,而且费时费力,可以通过技术手段采用自动调节。自动调节的实施主要有两种方式:一是直接通过通信协议设定空调;二是将自动分析的设定需求上报集中监控中心,由监控中心对空调进行远程设定。
最后,直接通过通信协议对空调进行设定。由于空调的现有通信接口已经被集中监控占用,所以必须扩展通信口行。串口扩展后,集中监控将不受任何影响,与原来一样监控空调。本方案将可以通过扩展的另一个通信口对空调实施智能调节。
综上所述,实时监测和自动化调节解决了人工调节费时、费力且不能满足温度不断变化的需求。不改变空调原有的控制方式,只是自动调节空调工作点温度,大大降低了改造的安全隐患。通过改造数据采集技术、大数据分析技术、智能联控技术,促使空调工作更加智能化,大大降低了能源浪费。
5.4.1 应急能力大大增强
动环集约化平台系统综合运用云平台采集模式和计算机大数据分析技术,保障了系统的高效运行,既提高了资源利用率,又提升了系统的应急能力。
5.4.2 运维效率大幅提升
依托动环集约化平台,动力机房数量增加、设备数量增加、人力基本不变的矛盾得到了很好解决。通过智能化电子工单管理等手段,维护工作井然有序开展。故障隐患的集中上报处理,使执行有力、运行质量稳步提升,降低了重大断电事故率。
5.4.3 科学指导系统优化和技术改造
依托动环集约化平台,系统提供设备性能评估,通过统计分析历史数据,评估设备的性能,并作为设备大修、改造或更新的依据。设备考核与选型时,统计各厂家各型号设备故障率、平均故障修复时间、重要告警总历时、电源效率、误告警率以及平均使用年限等,对设备进行综合考核,将同类设备分厂家进行排序,以作参考。
本文涉及的动环集约化系统平台已在广东电信惠州分公司上线试运行,运行效果良好。目前,系统正在探索精细化管控发展方向,对机房管理中实际存在的问题做拓展性应用研究。灵活、及时地把最新的技术应用到集约化系统平台,才能使系统不断与实际工作融合,保障通信机房的高效、安全、稳定运行,不断满足通信业发展的需求。
电信机房中运行的众多关键设备,与机房的动力保障和环境保障有着密切关系。安全可靠的动环集约化系统平台,对保障设备的正常运行起着重要作用。电信运营商面临的问题包括机房的业务安全等级高、设备运行环境要求高、机房多、设备多以及人员配备少等。动环集约化系统可为通信机房设备的运行维护提供良好保障,及时预见和分析设备故障,及时发现、排除设备故障,有效降低设备损坏情况的发生,减少维修的时间和费用,降低运营成本,有效监控和管理出入机房的人员,增强机房的安全防范,实现主管领导和设备主管随时掌控机房设备的运行情况,浏览和查询机房设备数据信息,快速响应快速闭环处理各类设备故障。