冷迪,陈瑞,李英,王旭勇
(深圳供电局有限公司,广东 深圳 518000)
5G、AI、大数据等新技术的发展与叠加,让联接变得无处不在,网络中的新设备数量雨中泪也不断增加,大大增加了网络的复杂性。飞速发展的科学技术推动投资消费的快速增长,也驱动各行各业的数字化转型升级,随之而来的是网络与业务的高复杂化与高质量的挑战。摆脱传统信息中心的运维模式,实现运营智能化备受关注,AIOps不断趋于成熟为这一实现提供了方便[1]。
AIOps源自2016年著名IT研究机构Gartner词库中的Algorithmic IT Operations,即基于算法的运维方式。现在国内对AIOps的理解一般遵照清华大学裴丹教授的解释,AIOps即Artificial Intelligence for IT Operations将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。AIOps 不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据中不断地学习,不断地提炼并总结规则。再通俗一些来说,AIOps就是AI+OPS,也就是人工智能运维或者智慧运维或者智能运维。AIOps本身实际上也是一种多层技术平台,它通过数据分析和机器学习方法从形式多样的IT运营工具和设备中收集的大数据中进行学习,自动实时确定并反应处理问题,实现IT运营的智能化,解放运维人员的双手。
AIOps的一切是为了通过模仿人类思维,但超过人类思维速度,去解决大规模的数据分析问题,它的关键在于其算法的智慧程度,一个AIOps工具或者部署是否优秀取决于其在用的人工智能算法是否先进。当然如果算法不够好,不能达到真正的人脑智慧程度,由于计算机的运算速度与效率远远超过人脑正常的辨识反应速度,AIOps也能够很好地实现其目的,可以将原本借助人工处理系统运维所要消耗的时长极大地减少。很多早期的AIOps采用监督式学习来辅助运维人员节省时间提高工作效率,把运维人员从纷繁复杂的告警和噪音中解脱出来,这实际上并没有达到预期的效果。
通常AIOps由数据源、大数据平台、计算(运算)和分析、算法、无人监督的机器学习、可视化、自动化组成[2]。数据源一般来自企业现场的实时收集或者其他系统的数据汇聚。大数据平台用于将各种各样的数据进行标签化存储并进行历史数据分析和实时数据响应。计算(运算)和分析则是根据已有数据进行数据挖掘分析生成新的数据,或者根据特殊需要进行数据处理完成特定的生成目标。算法用来提高计算(运算)和分析的效率,充分发挥机器的运算能力,减少运作时间。无人监督的机器学习则是最核心的,通过动态调整带有参数的算法,不断优化系统计算(运算)和分析效能。可视化则与常规的运维相似,为运维管理人员提供可视化信息,帮助其理解信息辅助决策。自动化则是解放运维人员的双手与大脑,自动生成解决问题的办法或者改进已有的解决方案。
在企业信息系统运维过程中,常常会面对一些低级问题带来的麻烦,这一方面是由于信息处理过程繁琐,另一方面是问题发现能力跟不上需求,通常可以把企业信息系统运维常见问题归纳为四类:故障点定位消耗时间长、维护人员压力大、专业维护人员招聘困难、信息监控工具能力弱。
就目前来讲,很多大型生产型企业又配备了大量的监控系统,这些监控系统一般都能够发现系统出现了故障,然而这些故障具体发生在什么位置,如何才能快速解决故障,避免对用户产生使用影响,要求更高一些,让用户在无感知的情况下消除故障让系统恢复正常,是十分严峻的问题。通常是需要依赖于专家,凭借专家的丰富经验进行逐点排查,这就会导致故障点定位消耗大量的时间,再加上故障修复时间,整个问题的解决时间会更长。
也正是由于故障发现解决周期会很长,在一些对即时性要求较高的企业,维护人员的工作压力非常大,一是故障发生随机性太大,无法知晓何时会发生故障,另外一方面,为了能够更快地发现故障解决问题,一些企业建设了一些非常复杂的信息监测监控系统,由于行业的独特性与复杂性,这些系统大部分都需要维护人员手动设置阈值,这就使得所有的压力中心又返回到维护人员身上。这对维护人员的要求一方面要熟悉业务,能够对生产线信息很敏感的感知并动态地调整告警发现规则,又要求维护人员具备很强的计算机操作能力、图形图像辨知能力,这自然而然地给企业带来新型维护人员招聘难的难题[3]。
对于现阶段的电力企业来讲,信息机房数据中心具有很大的作为空间,打破传统的以人为主的运维模式,升级监控方式方法可以从故障探测与智能预警、信息系统健康画像、智能扩缩容、智能预案推荐几个方面入手,实现数据中心告警故障自愈,从而达到智能化运营的目的。
在故障探测与智能预警方面,通过历史数据的时间序列分析和大规模数据的机器学习进行故障探测,并通过数据拟合的方式进行业务健康状态预测。并配合监控系统实现智能预警,以邮件、微信、短信等方式实时告知运维人员系统的健康状态,防患于未然。
在信息系统健康画像方面,通过对现实业务进行标准化整合,建立业务健康数据指标。该信息系统健康指标需要满足对机房内平台,主机、服务器、应用的健康状态评估的准确性。利用智能化的健康指标KPI,研究能够描述业务健康状况的信息系统健康画像模型[4]。基于大数据平台,可以快速创建仪表板实时显示健康度整体动态。
在智能扩缩容方面,一是要建立业务系统的负载走势算法模型,业务负载走势算法模型及智能预测,依托于业务的负载趋势数据,包含平台、系统、应用的负载数据等,通过对这些数据的收集、OLAP、存储及初步分析处理形成有价值的模型训练数据,通过线性回归、移动平均算法等趋势预测算法训练出智能预测业务负载走势算法模型,该模型需要满足业务负载及预测的准确性、实时性等需求。二是要实现服务器承载能力智能评估,服务器承载能力智能评估过程除了考虑不同机型对应的表现有区别外,不同应用相差差异也比较大,而且,不同业务的各类限制的指标也各不相同,有cpu决定的,有IO决定的等等。服务器承载能力智能评估需要满足不同业务类型在不同机型上面的承载能力的准确判断。三是要基于业务系统的负载走势算法模型及智能预测,以及服务器承载能力智能评估,通过AI智能决策,自动调度作业平台扩缩容任务,实现自动扩缩容。扩缩容调度任务需要满足,操作一致性,操作原子性等功能及业务需求。
在智能预案推荐方面,一是要实现故障处理预案数据收集、OLAP,及存储管理,通过理解业务,收集告警数据、告警处理历史数据告警收敛和防御、系统预定收敛和防御规则,通过FTA、健康诊断数据等,进行OLAP及数据存储。针对常见故障,建议故障处理预案(套餐),并录入到系统中。(非常见故障,如一年发生1-2次的,由于数据量少无法达到数据收集和分析的最低要求,不列入研究目标。)二是要建立故障处理计算模型,基于流式计算框架,根据故障处理预案数据,并通过机器学习相关算法,对故障进行聚类收敛,例如利用LSTM算法主要解决普通回环神经网络的权重小的问题,输入不同寻常数据并利用LSTM来训练神经网络收敛算法,最终到大规模场景下的神经网络,再将模型应用于生产系统,以实现对故障决策的智能判断。对于故障的AI智能判断需要满足非常高的准确性判断[5]。
综上所述,基于Aiops的信息机房数据中心的智能化运营,最终要实现常见故障的自愈修复。常见故障需满足两点要求:出现次数需符合数据分析对故障量的要求,且能够通过专家人工进行步骤编排实现解决,举例如:数据库故障(归档空间不足、集群服务异常、服务异常等)、操作系统故障(磁盘空间不足,CPU内存性能不足)。
工业化与信息化时代,大数据与人工智能技术飞速发展,在许多行业已经普遍应用且颇为成熟,这也助推着智能运维AIOps技术的不断发展。对于一些实时数据量大、生产运营框架复杂不利于故障排查、用户即时性体验要求高的企业中,利用AIOps技术平台红利实现信息机房数据中心的智能化运营,前景广阔。