张晓艺
所有IT部门都面临这个问题———当服务器、网络和应用出现问题时,必须尽快做出反应。这些情形往往具有破坏性和高压性,并可能引发影响整个组织运营和利润的停机时间。根据去年的报告,平均IT停机损失高达155万美元。更严重的问题是,暴力事件导致每年545小时的员工产能损失。
出于这些原因,企业越来越多地投资于应用性能监视(APM)、服务器监控软件以及其他解决方案。由于“基础设施监控是否是企业所需的解决方案”已不再是问题,因此问题变成了应该使用哪些监控工具。
服务器和网络监控工具的目标是确保IT服务24×7小时全天候稳定运行,并在出现问题时告警IT支持人员。这样,可以最大化正常运行时间并制定更好的灾难恢复计划。
一般来说,所有工具都有共性,但又不尽相同。以下列出了个人认为最佳的工具列表。
1. Zabbix
Zabbix是市场上最流行和健壮的实时监控解决方案之一。Zabbix是开源的,它具有一套简洁的特性,拥有完善可靠的文档,并且有活跃的社区用户、更新和支持。其他好处还包括良好的易用性,当然,它还提供了一个不受制于任何供应商锁定的解决方案。
Zabbix的众多亮点之一是它能够预测流量趋势和收集历史数据来提供系统行为预测。
主要特点:主动监控、容量规划、内置Java应用服务器监控功能、硬件监控、网页服务和虚拟机监控。
Zabbix可以为各行各业提供监控解决方案———从航空航天到金融和零售,也适用于大中型企业。Romexsoft团队依靠此工具为客户提供24×7全天候IT支持。
2. Prometheus
这是另一个开源监控工具,它基于时间序列数据提供详细的基础设施洞悉能力。它是监控高动态环境(如AWS上的容器)的可靠选择。
从本质上讲,Prometheus爬取(scrape)指标,在本地存储采样数据并在数据之上运行其“规则”来聚合或生成告警。
Prometheus的主要优势包括:
既适用于以机器为中心的架构的监控,又适用于面向服务的架构的监控;
是服务中断期间“首选”的完美工具,因为它使得用户能够快速诊断问题;
即使在故障情况下,用户始终可以查看系统的统计信息(每个Prometheus服务器都是独立的)。
3. Grafana
Grafana是一款用于时间序列的、免费的、出色的分析和监控工具。它能够创建有吸引力的、一目了然的全局数据可视化图像。特别是可以可视化系统CPU、内存、磁盘和I/O利用率等指标。
Grafana这个工具比较万能,可以创建来自不同数据源的自定义仪表板和特征数据,并将它们展示为曲线图,单一状态图、表格、热图或自由文本。
Grafana可轻松与Prometheus,Graphite,InfluxDB,MySQL,PostgreSQL,Elasticsearch集成,还可以通过插件与更多的其他数据源连接。虽然Grafana不是一个独立的解决方案,但它是一个值得考虑进监控体系的优秀插件。
4. ManageEngine OpManager
ManageEngine OpManager是一款綜合全面的监控工具,可提供服务器监控,并允许主动管理网络,执行网络配置和网络流量分析,它还有一个应用性能管理插件。但它必须安装到每个目标节点上才能正常使用。
可以设置可自定义的仪表板来监控不同组件的网络和指标,还可以将其用于LAN/WAN监控,并接收详细的流量路径可视化,查看带宽流量监测并运行各种网络系统性能指标的测定。
与前面的几个工具不同,Manage Engine属于收费工具,它将会根据业务需求提供定制性报价。
5. Amazon CloudWatch
Amazon Cloud Watch可以提供更好的应用性能、资源利用率及整体云基础设施监控状况的可视化能力,并帮助识别和纠正问题。
Cloud Watch以日志、指标和事件的形式收集运维数据。该工具在AWS和本地服务器上运行,意味着可以真正获得所有资产的统一视图;其仪表板是可配置的,允许管理员指示AWS根据预定义事件采取特定操作。
如果最近将基础设施迁移到AWS云,应考虑使用此云基础设施管理软件,至少应用到某些容量的规划上。
6. WhatsUp Gold 2017
其中一些亮点如下:
最新的“plus”版本包括混合云监控,实时性能,自动和手动故障转移,以及分布式网络的可视化;
高度可定制的告警系统,包括电子邮件、文本、松弛告警、IFTTT推送、服务重启和Web警报;
自动发现和整个网络映射;
伴随移动应用可以随时洞察应用监控;
WhatsUp Gold可为不同的用户提供完全可定制且极其友好的仪表板。
缺点:仅对Windows操作系统提供支持。
7. Icinga
Icinga是最好的免费监控工具之一,它是企业和初创公司的热门选择。其优势是适应于各种规模组织的灵活性,致力于监控基础设施和服务,而且它提供了很好的阈值分析、清晰的报告和告警。这些都可以友好地显示在仪表板上,并可以通过邮件、短信或其它消息应用进行分发。
此外,它还可以连接到许多流行的DevOps工具,为业务需求创建更加个性化的监控解决方案。包括Chef,Puppet,Graylog,Ansible等。
8. Datadog
Datadog被设计成一个为混合云生态系统提供监控的服务,它可以配置为网络、服务和应用性能提供监控。实际上,它附带了业内最大支持应用的集成列表,可以安插这些集成来获得整个生态系统的统一视图。
该工具可以聚合以下指标和事件:
SaaS和云提供商、自动化工具、数据库和通用服务器组件监控和仪表工具和源代码控制和错误跟踪解决方案。
用户根据一系列可选的图形、指标和警报来轻松自定义可视化仪表板和报告;拥有最多5台主机的小公司,可以免费获得Datadog,专业版和企业版则要按每主机定价收费。