AWS发布Amazon DevOps Guru

2020-01-07 08:07佚名
中国信息化周报 2020年49期
关键词:开发人员可用性警报

佚名

近日,AWS发布了完全托管的运营服务Amazon DevOps Guru。该服务利用机器学习技术,帮助开发人员通过自动检测操作问题和建议补救措施,提高应用程序可用性。Amazon DevOps Guru应用了支持Amazon.com和AWS的机器学习技术,通过自动收集和分析应用程序指标、日志、事件和痕迹等数据,识别偏离正常操作模式的行为。

当Amazon DevOps Guru识别出可能导致服务中断的异常应用程序行为时,它将向开发人员发出问题详细信息(例如,涉及的资源、问题时间表和相关事件等),并通过Amazon Simple Notification Service(SNS)以及Atlassian Opsgenie和PagerDuty等合作伙伴集成服务来帮助开发人员快速了解问题的潜在影响,并提出具体的修复建议。开发人员利用Amazon DevOps Guru的修复建议可以有效减少修复时间,无需手动设置或机器学习专业知识即可提高应用程序的可用性和可靠性。

为了摆脱本地部署的限制并向全球扩展业务运营,越来越多的组织开始转向基于云的应用程序部署和微服务架构,这也导致应用程序为满足客户需求而变得越来越分散。开发人员需要更多的自动化方式来维护应用程序的可用性,减少花费在检测、调试和解决运营问题上的时间和精力。错误的代码或配置更改、不平衡的容器集群或CPU、内存、磁盘等资源耗尽带来的应用程序宕机事件将不可避免地导致不良客户体验和收入损失。

企业需要花费大量资金和开发人员时间来部署多个监测工具,而这些监测工具通常是分开管理的,并且针对负载平衡器错误或应用程序请求率下降等常见问题开发和维护自定义警报。对于希望通过设置阈值以识别和警告应用程序资源异常状况的企业来说,不仅很难设置准确的阈值,涉及诸多手动操作,并且要求阈值必须随着应用程序使用情况的变化而不断更新(例如,在假日购物季时突增大量请求)。如果阈值设置得太高,开发人员在运营性能已经严重受损前无法收到警报。当阈值设置得太低时,开发人员则可能得到过多误报并最终忽略警报。

即使开发人员对潜在的操作问题已经有所警觉,仍然很难寻找和确认问题根源。使用现有工具,开发人员通常很难从图形和警报中确定问题根源,而即使找到根本原因,也往往无法解决问题。每次故障排除都是冷启动,团队必须花费数小时或数天来识别问题,这种工作既耗时又繁琐,从而减缓了解决操作故障的时间,并可能延长应用程序的中断时间。Amazon DevOps Guru的机器学习模型采用了亚马逊过去20多年为Amazon.com构建、扩展和维护高可用应用程序的运营专业知识。这使Amazon DevOps Guru能够自动检测运营故障(例如,警报遗漏或配置错误,资源耗尽的早期警告,可能导致停机的配置更改等),提供有关资源和相关事件的背景,并建议补救措施,而无需开发人员具备任何机器学习经验。开发人员只需在Amazon DevOps Guru控制台中单击几下,即可自动提取和分析所有资源的历史应用程序和延迟、错误率、请求率等基础架构指标,以建立操作基线,然后Amazon DevOps Guru就可以开始通过预先训练的机器学习模型识别与既定基线的偏差。

当Amazon DevOps Guru分析系统和应用程序数据以自动检测异常时,它还将这些数据分组为运营洞察,包括异常指标、随着时间的推移对应用程序行为可视化、以及有关补救措施的建议。Amazon DevOps Guru还将相关的应用程序和基础架构指标(例如Web应用程序延迟峰值、磁盘空间用尽、错误的代码部署、内存泄漏等)相关联并进行分组,以减少冗余警报并帮助用户关注高严重性问题。客户可以通过查看配置更改历史记录、部署事件以及系统和用户活动,以在Amazon DevOps Guru控制台中生成需要优先关注的潜在操作问题事件列表。为了帮助客户快速解决问题,Amazon DevOps Guru提供了具有补救步骤的智能建议,并与AWS Systems Manager集成运行手册和协作工具,使客户能够更有效地维护应用程序并管理其部署的基础架构。Amazon DevOps Guru与Amazon CodeGuru(机器学习支持的开发人员工具,可提供智能建议以提高代码质量并识别应用程序中最昂贵的代码行)一起,使客户可以针对其操作数据使用自动化机器学习技术,帮助开发人员轻松提高应用程序的可用性和可靠性。

Amazon DevOps Guru通过AWS软件开发工具包(AWS SDK)支持API终端节点,使合作伙伴和客户可以轻松地将Amazon DevOps Guru集成到其现有解决方案中,以针对高严重性问题提交故障单、分级并自动通知工程师。 PagerDuty和Atlassian已将Amazon DevOps Guru集成到其运营监控和事件管理平台中,使用其解决方案的客户现在可以从Amazon DevOps Guru提供的运营见解中受益。

Amazon DevOps Guru现已在美国东部(北弗吉尼亚)区域、美国东部(俄亥俄)区域、美國西部(俄勒冈)区域、亚太(新加坡)区域和欧洲(爱尔兰)区域进行预览。

猜你喜欢
开发人员可用性警报
基于文献计量学的界面设计可用性中外对比研究
基于北斗三号的人防警报控制系统及应用
基于辐射传输模型的GOCI晨昏时段数据的可用性分析
假期终结者
Semtech发布LoRa Basics 以加速物联网应用
是谁的责任?
拉响夏日警报定格无痕迹美肌
后悔了?教你隐藏开发人员选项
空客A320模拟机FD1+2可用性的讨论
黔西南州烤烟化学成分可用性评价