广电机房智能运维管理的研究与应用

2021-04-07 00:28刘明亮梁刚毅
电视技术 2021年2期
关键词:广电机房运维

刘明亮,梁刚毅

(广州珠江数码集团股份有限公司,广东 广州 510335)

0 引 言

随着信息技术和互联网技术的快速发展,我国广电运营商的机房规模、设备类型及设备数量逐年急剧增长,给传统依赖人工的运维模式带来了极大挑战。愈发标准化的机房设备、机房环境以及物联网、大数据、人工智能及机器人等技术的快速迭代,使智能化管理成为可能。目前,在广电机房实施智能管理已成为必然。

1 运维管理的背景及现状

1.1 运维管理技术发展历程

随着技术的演进,运维管理技术的发展大致可分为4 个阶段,如图1 所示。

1.1.1 人工阶段

该阶段机房和服务器选型、软硬件初始化、服务上下线、配置管理以及运行监控等,运维工作完全靠人工操作。技术人员大量使用表格和文档记录设备和机房的配置信息和运维信息,自动化程度低。

1.1.2 自动化阶段

为了简化操作流程,提升运维工作效率,运维工程师开始将部分运维操作和重复性工作编写成脚本自动执行。工具的产生是运维自动化的一个典型标志。这个阶段大量日常工作通过自动执行程序完成,提升效率的同时,逐渐降低了出错率。

1.1.3 平台化阶段

随着业务的持续发展,大量分散脚本的管理出现低效且复杂的问题。将自动化脚本和工具进行整合,从系统层面构建更加易用和高效的运维管理工具即运维平台化。围绕开源工具和开源平台,企业开始结合自身的业务场景特点构建自己的运维平台,包括监控平台、告警平台及自动化平台等。这些平台一定程度上提高了业务测试和上线效率,降低了发生潜在风险的概率,提高了系统可用性。具有平台化思想的开源工具几乎覆盖了运维工作的全部维度,如表1 所示。

1.1.4 智能运维阶段

通过将技术和场景进行匹配,运维管理形成了具体的智能化运维方案,有针对性地缓解了运维的痛点和难点问题。智能化运维是指采用广义算法解决已知问题的一种智能化运维方案。例如,通常的告警策略是设置一个阈值范围(上限、下限),某个指标超出阈值时触发告警。然而,对于一些特定场景,这样的告警策略是无效的。图2 是珠江数码智能电视平台某服务器的网络出口流量走势图。可以看出,每天凌晨3 点到6 点是网络出口流量一天的低谷期,晚上20 点到22 点是全天的高峰期。机械地按照固定的阈值设置告警非常不准确,需要通过历史数据智能化地拟合出一条趋势线,以这条线上、下界的一定范围设置动态的告警阈值才能更加准确地发出告警。

图1 运维管理技术发展的4 个阶段

表1 典型的开源运维平台示例

图2 珠江数码智能电视平台某服务器的网络出口流量走势

此外,智能运维可以被用于故障分析,实现故障实时溯源,从而指导运维人员进行准确高效的应急排障,降低企业损失。在算法层面上,基于算法的运维方式(Algorithmic IT Operations,AIOps)使用的各类算法[1],如基于指数平滑的二次和三次平滑算法、基于差分整合移动平均自回归模型(Autoregressive Integrated Moving Average model,ARIMA)的算法、基于深度学习的前馈神经网络及循环神经网络(Rerrent Neural Network,RNN)算法等已经比较成熟,并大量应用在图像图形处理和语音识别等领域。在算力层面上,基于云计算和大数据技术的数据处理能力已经足够,如Hadoop、Spark 等开源大数据生态系统,如时序数据的处理能力已经能够支撑智能化的复杂计算场景。目前,国内大多数成熟的互联网企业都已经探索尝试了AIOps,并取得了不错的收益。

1.2 广电机房智能化管理现状

现阶段,广电机房运维工作大致包括设备管理、配置管理、业务上下线、日志采集和分析、告警和流量监控、故障排查以及一些日常优化等。随着云化和虚拟化的逐步落实,运维工作还将扩展到容量管理、弹性扩缩容、安全管理以及分析和定位因引入各种容器和开源框架导致的故障等范畴。

快速解决故障和降低故障率是运维工作的首要任务。现阶段系统愈发复杂,需要运维人员关注的服务数量急剧增长,已经接近人工能够完成的极限,因此急需引进和普及新的技术。但是,广电机房智能化管理的成功落地案例非常少,主要是因为智能化运维的应用门槛较高,处在运维经验、行业知识及新技术的交叉领域。广电机房的运维人员熟悉运维场景,熟知运维的痛点和难点,并且具备一定的行业知识,但由于缺乏对新技术的了解,无法判断所遇到的困难是否可通过新技术解决。此外,设备供应商的研发人员因缺乏运维经验和行业知识而无法将技术和场景匹配。因此,智能化运维管理的发展需要两者的共同努力。在宏观层面,设备厂商要根据智能化运维框架和理念推出智能化运维平台,针对不同运维场景提供个性化解决方案。在微观层面,广电机房的运维人员要将运维过程的痛点和难点场景化,尝试采用新技术解决问题,通过将孤立的场景和技术进行匹配,逐步提高智能化运维水平。

智能化运维不是一个跳跃发展的过程,而是一个长期演进和不断迭代的过程,其根基是自动化运维、监控、数据收集、分析和处理等具体工作。

2 智能化运维的发展与展望

广电机房智能化运维建设尚未形成一套成熟的指导方案,建议广电机房运维人员优先在重复的日常工作和能够严格按照既定流程执行的工作中挖掘需求场景,在掌握新技术的专业人员协助下,将场景和技术进行匹配,形成可实施和可落地的方案[2]。

2.1 基础设备与机房的可视化管理

近年来,在机房管理领域兴起了一种新的管理模式,即数据中心基础设施管理(Data Center Infrastructure management,DCIM)。DCIM 是一套包含特定软硬件设备和传感器的管理平台,能够将机房内部所有设备和环境关联起来,实现如集中监控、容量预测、模型规划、事件处置及运营成本控制等目标[3]。DCIM 平台收集的设备和环境信息,结合第三方资源管理和监控平台数据,即可建立一套能够实现设备管理、动环监控、安保监控以及参观演示的可视化管理平台。

值得关注的是,当前无论是DCIM 管理平台还是可视化管理平台,都只是完成了数据采集、统计分析及可视化展示,并没有实现智能化管理和决策的功能。未来,可通过智能化运维管理在全生命周期提升运维效率并降低能耗。在监控侧,通过部署集中监控平台实现资源池化,对全网多机房进行集中共管,节省运维人力投入;在运维侧,通过电子巡检、电子维保、风险管理及故障预测,降低单柜运维成本;在运营侧,通过部署智能上架柜位推荐、资产U 位自识别及资源精确分析等功能,提高资源利用率;在节能侧,通过看诊调优了解能源去向,识别能耗最大点,实时调节制冷系统,将能源效率指标(Power Usage Effectiveness,PUE)降到最低。

2.2 运维自动化

尽管目前的技术已经能获取设备的运行状态、网络流量数据乃至数据库的告警信息,但如何运用这些信息是运维人员的一个新课题。一方面,随着热备和集群等高可靠技术的普及,部分设备运行状况异常并不一定会对业务产生实质影响;另一方面,当业务出现异常时,成千上万条告警信息堆积在一起,使得快速判断故障根源困难重重。系统的复杂度和运维难度的增加,客观上要求系统必须实现数字化和维护自动化。

运维自动化是使用算法自动执行重复性和有标准化流程的工作,并对执行过程和执行结果进行有效监管,实现从监测、诊断、分析及恢复的闭环。简单地说,它是将事件与流程相关联,一旦发生性能超标或宕机等事件,便可按照预定义的流程自动启动故障响应和恢复机制。运维自动化还可以协助运维人员完成日常的重复性工作,如日常巡检、业务调整及补丁部署等,减少乃至消除重复性工作对运维人员精力的耗费。此外,运维自动化可以通过部署自动化监控系统,及时发现故障隐患并将相关信息主动推送给运维人员,将损失降到最低。

2.3 智能巡检机器人

尽管当前监控和告警平台的搭建已近完善,但大多平台仍通过在操作系统上安装Agent 访问设备驱动读取硬件状态数据。所有监控状态的数据抓取都受限于驱动程序,而驱动程序的编写人员所关注的重点在于设备能否正常运行,而不在于设备的状态监控。因此,通过驱动程序所抓取的硬件状态参数有限。例如,绝大部分服务器以RAID1 或RAID5方式搭建冗余磁盘阵列,确保数据安全。当其中一块硬盘损坏时,由于系统仍运行正常,无法通过监控平台发现这块坏盘,只能通过人工巡检看到设备的硬盘告警灯才能发现。可见,机房巡检在未来一段时间仍是广电机房运维的日常工作之一。在实际操作过程中,机房巡检一般通过人工方式进行,每1 ~2 h 进行1 次。机房设备数量上升,增加了机房巡检的工作量。在这种情况下,使用智能巡检机器人代替人工巡检,是一种有效提升巡检效率和准确性的选择。

一直以来,人工巡检都有耗时费力、标准不统一、高度依赖个人经验以及巡检数据不可追溯等痛点,且人工难以长时间对同一对象进行观察,无法长期监测水管漏水、油管漏油、变压器放电、机器异形以及线路异物等设备状态。随着人工智能技术的发展,尤其是机器人、计算机视觉及无轨导航技术的成熟,利用智能巡检机器人长时间稳定地巡检、分析和识别机房整体运行状况成为可能。通过自动执行巡检任务、智能规划巡检路线以及定时对机房进行巡检,可准确识别设备的指示灯和外露塑壳开关状态,及时上报异常,提升运维效率;通过集成各类传感器收集温湿度、噪声及空气质量等数据,可及时感知机房环境变化;通过分析巡检异常情况自动生成巡检报告,及时报送告警信息至相关人员的邮箱和手机,可实现远程无人巡检。

由于机房的实际环境不同,使用智能巡检机器人时需要重点关注某些问题,如冷通道封闭门可能阻挡巡检机器人进入冷通道巡检,机柜门可能妨碍巡检机器人识别设备状态等,因此需要提前论证技术方案的可行性。

3 结 语

智能化运维管理技术在广电机房运维中的应用是一个不断演进发展的过程。就目前来看,建设智能化运维管理平台仍处在概念阶段。广电从业者可结合运维的痛难点对智能化运维的场景进行挖掘和研究,与设备厂商共同推进广电机房智能化运维管理领域的技术发展。

猜你喜欢
广电机房运维
探讨大数据在广电新媒体中的应用
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
广电新闻出版整合对广电业发展影响的思考
基于ITIL的运维管理创新实践浅析
N通信公司机房节能技改实践
新型有线电视机房UPS系统的配置
大功率发射机房冷却送风改造
EPON技术在广电网络的应用