唐晓晖
(广西广播电视台,广西 南宁 530022)
随着三网融合的逐步推进,互联网技术、数字技术的迅速发展,广电行业迎来一系列转型升级。面对技术迭代、内容创新、市场竞争等多重挑战,广电行业积极探索与互联网、移动互联网等新媒体融合,在内容方面,推进内容的多样性和个性化;在网络方面,推进光纤到户(Fibre To The Home,FTTH)光纤化网络升级改造工作;在新技术应用方面,广泛应用人工智能、大数据、云计算等新兴技术;在技术管理方面,针对不同的业务、终端和机房,建设了对应的运维管理系统,如终端管理系统、机房动环系统及各种业务平台监控系统等。然而,目前,已建成的这些运维管理系统还是分散的信息孤岛,故障处理不透明、不及时,提供业务支持的时效性不高,尚没有统一管理形成有效的联动,极大地限制了运维工作的便利性、及时性和主动性。为了有效提高运维部门对故障的预防能力,缩短故障恢复周期,提高安全播出技术保障水平,提升服务质量和用户体验,建设一个可以实现整体业务的统一管理、监控和告警、故障诊断的主动运维系统势在必行[1]。
目前,广电网络的传输形态已由单项电视节目广播转变为视频、数据、通话的全业务综合服务[2]。广电网络在转型的同时,必须增强客户的感知、提升服务质量、提高运营效能、降低运营成本,并保证电视信号传输的实时性、安全性和通畅性。因此,主动运维系统的建设目标主要包括以下几方面。
(1)提高网络运维效率。通过建设主动运维系统,实现故障监测、分析和处理的自动化,从而提高运维效率,减少人工干预的错误和延误。
(2)提升网络的可靠性和稳定性。实时监测广电网络的运行状态,及时发现并解决潜在问题,避免网络故障的发生或扩大。
(3)提升用户体验和服务质量。实时监控用户终端的使用情况。通过终端配置更改、软件升级、设备重启等操作,解决终端设备故障,保证终端设备的稳定运行,提升用户体验和服务质量,提高用户满意度。
(4)提供数据分析和智能决策支持。对广电网络的运行数据和网络资源进行分析和挖掘,提取有价值的信息和趋势,为决策提供科学依据[3]。同时,通过以基础数据为支撑产生的智能决策,可以优化资源配置、调整运营策略,提升广电网络的运行效率和盈利能力。
为达到上述建设目标,主动运维系统需要具备以下功能:实时监测广电网络设备的运行状态,分析网络的性能指标及故障情况,并进行相应的管理和优化措施,实现故障预警和主动运维,同时提供实时的数据可视化和报表分析,帮助决策者了解网络运营状况,制定优化方案,提升运维效能和用户体验[4]。主动运维系统的具体设计需求包括以下6个方面。
(1)监控与数据采集。系统需要能够实时监控网络的各个节点和设备的运行状态,通过定期采集关键指标数据,如设备的硬件状态、在线情况等,为故障诊断和性能分析提供数据支持。
(2)故障诊断与自愈。系统需要能够对网络中可能出现的故障进行快速诊断和定位,结合历史数据和实时监测数据,进行故障识别和预警。诊断出故障后,系统要能自动启动相应的恢复流程,或者提供操作建议给运维人员进行处理。
(3)终端运维管理。系统提供全面的终端运维管理功能,包括设备配置管理、日志管理、设备重启、版本管理等,通过规则引擎和自动化脚本,实现设备配置的自动下发和变更,设备软件版本的自动升级以及设备重启等功能。
(4)流程管理与控制。系统对故障设定相应的处理流程,从故障的产生、分析、派工、维修等环节进行管控,以确保从故障产生到最终修复的每一个步骤都能正确有效地执行。对每一个处理步骤进行记录和归档,以便于后续的审查和分析。
(5)网络资源管理。系统为维护人员提供透明的网络状态,支持实时了解网络情况、资源的分布、光纤芯连接状态、设备连接、规格型号等网络参数,快速辅助分析、打印图纸与表格、设备器材统计等维护辅助工作。
(6)用户界面与操作体验。建立好的用户界面和操作体验,方便运维人员进行系统管理和操作。通过可视化显示系统状态、告警信息和运维指标,提供直观的运维监控和管理工具,提高运维人员的工作效率和准确性。
根据以上所述的各种需求,主动运维系统的系统架构设计为数据层、应用层和表现层,如图1所示。
图1 主动运维系统架构图
数据层负责实现对广电基础数据(包括各大业务平台、网络设备以及终端数据)的采集、过滤、增加、修改、查询等操作,并将处理后的数据通过MySQL数据库以及SQLite数据库进行存储。
应用层主要分为集中监控、智能处理、资源管理三大功能模块。各功能模块根据所需的数据调用数据层数据库以及用户界面传递来的数据,同时通过外部接口与第三方系统进行交互,支撑各种业务的开展。
表现层以Web端为主体,微信App群组为辅。Web端指通过浏览器直接调用应用层接口,与数据库进行交互,实现系统与用户直接的交换,以及消息事件的处理[5]。
本系统所有服务部署在内网中,且系统中的所有数据均在后台进行处理,最终使用内部Web网站或微信App展示结果,避免公网网际协议(Internet Protocol,IP)架设服务器对外。使用者为实名验证的运维人员。
集中监控功能模块负责对所有业务平台、网络设备、终端的运行情况进行监控以及告警呈现。系统以简单网络管理协议(Simple Network Management Protocol,SNMP)为主、Agent为辅的采集手段与监控设备交互,部署的采集服务器能快速进行监控信息的获取、过滤、储存,对不同的数据来源实现统一管理。集中监控模块具备以下功能。
(1)多呈现方式。以Web网页与微信App为媒介,易于使用,方便管理;可在多个场景使用,如大屏展示、工单拦截、光纤故障诊断等。同时,可将告警信息发布至对应的微信App群组,使运维人员实时收到设备故障信息。
(2)精简的告警信息。经过聚合、过滤的信息包含以下内容:告警ID,告警设备信息的唯一标识码;故障原因,告警设备告警原因,如断电、链路中断等;告警/恢复时间,发生告警和恢复的时间;影响范围,告警设备影响的业务范围、用户数;用户信息,所受影响的用户详细信息,包括用户所属网格、姓名、电话、地址。
(3)短信提醒。集中监控模块与客服短信平台对接,根据告警级别、影响业务范围,第一时间发送告警短信给对应级别的运维人员;通过与BOSS系统的数据对接获取受影响用户的简要信息,对受影响的用户精准发送信息,降低客服人员的压力。
(4)与智能处理模块联动。
智能处理模块具有以下功能。
(1)权限管理。根据数据库中存储的实名认证的运维人员信息进行安全验证,通过运维权限控制运维人员查询、处理的故障层级,同时可以记录运维人员发送过的历史指令,可以有效追踪和溯源各项处理指令。
(2)系统自动处理权限管理。运维人员需将所有网络设备、系统平台、终端设备的覆盖业务、影响范围录入智能处理模块,根据影响范围规定系统自动处理的权限,避免系统过度处理造成更大故障。
(3)内外网访问。架设微信群组服务器,通过该服务器进行微信消息的获取以及发布,隔离外网直接访问内网设备的安全隐患。机房运维人员可通过浏览器访问呈现,在内网环境运行;一线运维人员可在微信群操作使用,使用方法安全便捷。
(4)网络设备信息查询。SNMP、Web读写、安全外壳协议(Secure Shell,SSH)、Telnet等方式,实现对网络设备、系统平台实时状态的一键查询。
(5)终端设备信息查询。根据SN查询无源光网络(Passive Optical Network,PON)终端所在光线路终端(Optical Line Terminal,OLT)PON口的光功率信息。此为光纤链路信息的重要指标。
(6)故障设备处理。根据查询返回信息呈现的设备型号、软件版本,终端设备带账号、光功率和在线时长等信息,在自动处理权限内进行设备故障的简单处理。例如,设备软件版本可根据系统里的版本管理关联当前软件版本存在问题以及推荐进行版本升级;根据在线时长等信息判断进行设备重启操作。
(7)故障分析接口。根据故障分析排查的处理流程,对以上网络设备与平台系统获取的信息进行充分的分析,把可能存在的故障信息呈现给装维人员。
网络资源管理模块的建设范围包括:基于广电接入端入网方式,实现空间资源、管杆网、光缆网、电缆网、用户终端网元设备的全面管理,实现端到端、全程全网的网络资源管理、维护,通过与BOSS系统、OSS综合调度系统、集中客服系统、专业网管系统等接口交互,实现基于地理信息平台的网络资源管理。通过网络资源管理,为网络运营决策分析、网络维护支撑、业务技术支撑提供服务。提供的服务如下。
(1)网络运营决策分析服务。实现网络建设的总体布局、网络资产投入情况、用户及市场情况分析,满足广电各类网络资源数据分析需求,支撑网络运营决策。
(2)网络维护支撑服务。为割接、应急、抢修、网优提供数据支持;实时掌握网络维护情况,通过对网络故障率、故障影响分析,用户、业务与故障关联分析,提高维护质量;为网络运维巡检提供网络支撑手段;资源预警通过资源承载的不同业务需求,根据不同的业务级别呈现,为专线运维服务。
(3)业务技术支撑服务。可进行最佳路由分析、最短路由分析、网络覆盖分析、资源利用率分析、闲置资源查询等;支撑业务分级、分类管理,如可按照家客、集客等业务的维护等级、响应要求等进行资源管理分类。
运维人员可以通过大屏实时监控机房设备、传输链路、终端设备的运行状态。相比于目前不同设备、不同业务平台需要运维人员切换及巡查不同的网管系统,主动运维系统可以实现全链路、全业务、跨平台的集中监控,可以为故障的预警、故障的排查提供更及时、更高效、更准确的判断,为运维人员处理故障争取了宝贵的时间,也可在网络规划建设中提供数据支撑和理论依据。
当系统监控的设备发生故障,主动运维系统在大屏监控界面展现告警信息的同时,还可以通过短信平台以及微信服务器,将告警信息根据告警级别通知到对应的技术负责人员,大大减少了因监控运维人员人为疏漏导致的安全播出事件。
出现大批量终端设备同时掉线的告警信息时,系统可以根据网络资源管理功能,结合BOSS系统的终端设备地址信息以及地理信息系统(Geographic Information System,GIS)组件,判断是否属于光缆链路中断所导致的故障。根据系统模型匹配属于光缆故障时,及时推送信息给相关运维人员,同时启动客服工单拦截,发信短信至受影响用户,以降低客服人员以及一线运维人员的压力。
系统在监控界面提示告警时,运维人员可通过告警界面直接链接进入故障处理界面,并可根据系统分析的故障原因以及处理流程,选择一键恢复故障或者手动处理。对于一些计划性的设备重启、设备切换等操作,可以设置定时任务授权系统自动处理,及时清理设备长时间运行所产生的冗余,释放内存,恢复设备的运行速度,以消除设备的故障隐患,保障设备高效稳定运行。
主动运维系统的网络资源管理模块,给广电网络的管网规划以及现在正在全面推进的FTTH网络改造提供了数据和系统支撑。在规划光纤改造项目时,系统可根据改造区域覆盖的用户数、并发流量以及现网光缆分布情况,对光分配网(Optical Distribution Network,ODN)网络结构、光链路衰减、光分路器的布置以及接入机房设计等方面进行综合规划设计。
广电网络主动运维系统的建设是一个复杂而持续的过程,需要充分考虑广电网络的特点和运维需求,结合先进的技术手段和方法,实现系统的高效运行和管理。需要与相关的广电网络设备提供商和运维团队紧密合作,不断改进和完善系统功能和性能,确保广电网络的稳定运行。