国家计算机网络应急技术处理协调中心湖南分中心 李 晶
中国移动通信集团湖南有限公司 刘莉莉
数据中心在数据存储备份和信息交换、处理等过程中发挥着至关重要的作用,只有保障数据中心的高效运转,才能为社会发展创造可靠的条件。随着技术水平的逐步提升,对于数据中心系统功能也提出了更高的要求,应该逐步实现自动化运维管理,以减轻工作人员的负担,提高数据中心的运行效率和质量,有利于降低运行成本,符合当前信息化时代的发展潮流和趋势。本文将对数据中心自动化运维的工具进行介绍,明确数据中心自动化运维的建设方法,为实践工作提供参考。
进入到数字化时代以来,我国社会发展速度逐渐加快,多种先进科学技术的诞生,为社会改革注入了强劲的动力。数据中心是以互联网为依托的信息传递、计算和存储平台,除了依靠强大的计算机系统外,还要设置相应的配套设备,满足数据中心的高效化运行需求。因此,数据中心的运维难度相对较大,具有明显的技术性和专业性特点,对于运维管理人员的专业能力和素养提出了更高要求。逐步实现自动化运维管理,是时代发展的必然要求,可以降低运维工作中的人力、物力和财力投入,不断提高数据中心的自动化、数字化和智能化水平。
数据中心自动化运维工具主要包括了自动监控工具、自动检测配置变更工具、自动提示待维护事件工具和自动生成维护记录工具等。针对交换机、路由器和防火墙等组件的运行情况实施监控,以便及时体现工作人员进行预防和控制。通过配置的查找和维护,满足设备配置参数的设计要求。自动提示待维护事件工具的应用,能够使运维管理更具透明性,运维技术人员可以获得更加全面的故障报警信息。维护记录也实现了自动化生成,以便为今后运维管理提供依据。
(1)管理平台建设
系统运行中会出现不同类型的故障问题,这也是影响系统安全性和可靠性的主要因素,为此应该以自动化运维管理平台为依托,达到集中处理的目的。在计算机设备的运行中,可以通过运维管理平台对其实施监控,涉及服务端、计算机房、数据库、存档和相关应用等等。尤其是对于关键节点更要实施全面监控,从而在故障出现后能够及时发出警报信息,从而帮助工作人员迅速找到故障位置并处理。
(2)系统故障自动触发
自动化运维管理平台运行中出现问题时,会自动发出警报,采用人工汇报或者系统报警的方式,都需要在屏幕中运用红色标识进行处理,大大减轻了运维人员的工作量。在故障及事件处理机制构建中,应该以流程化为基本原则,为运维管理人员提供更多的便捷,出现故障问题时能够对相关事件进行自动触发,运维人员获得相应的处理流程后就能够直接按照要求进行处理,提高了故障响应速度,促进系统运行效率的提升。
(3)事件跟踪
出现事故后应该做好运维日志记录工作,通过信息的定期分析和评估,来对故障线索和根源进行获取,有利于降低系统运行的事故率。为此,在自动化运维管理平台建设中应该做好事件跟踪流程的全面优化,防止在实践中出现不规范操作行为,降低运维管理中的随意性。
(4)关键流程优化
通过关键流程的全面优化,可以使运维管理人员明确各个流程的重要性,同时借助于事件处理机制来及时响应,避免给数据中心造成难以挽回的损失。以紧急事件优先处理为基本原则,而采用常规处理的方式解决普通事件,有利于明确运维管理工作的轻重缓急,从而降低对整个系统运行的影响,有利于事件处理效率的提高。
2.2.1 设计目标
在自动化运维管理中需要借助于SQL脚本、Shell脚本和CMD脚本等,确保系统的高效运行,以增强系统稳定性及安全性。在系统设计中应该制定明确的设计目标,以满足数据中心的运行需求。首先,应该更具指导性。分析信息基础设施的运行特点,确保在系统建设中更具规范性,及时发现其中的漏洞和风险并采取控制措施,防止给数据中心造成安全风险。其次,应该确保数据的实时性。当设备出现故障问题时,应该在第一时间找到故障的原因并实施准确定位,防止系统运行效率受到影响。此外,还应该确保数据的可靠性,注重对底层监控对象的全面校验,以提高数据准确性。
2.2.2 系统平台设计
(1)顶层结构
在设计系统顶层架构的过程中,应该明确当前运维系统的运行要求,防止当前架构体系受到自动化运维管理系统的干扰。在构建自动化平台时,需要确保界面的清晰性,以图形的方式呈现关键信息,为信息运维及管理提供保障。自动化运维管理平台设计主要以信息中心、设备管理、日常巡检和运维监控等为主。
(2)底层数据抓取
基础信息采集模块是决定监控模块运行状况的关键,除了要明确系统健康状况外,还可以通过该模块对整体服务质量进行评估。如果系统资源难以满足运行需求,则会造成系统的卡顿,因此会降低整体服务质量。在对设备性能或者宽带性能进行评估时,可以充分发挥设备流量的价值,依靠系统数据信息、网络地址库和Linux系统信息等辅助分析和决策工作。在了解系统服务状态的基础上,针对故障问题实现快速响应,防止对系统功能及安全造成威胁。在应用Unix小型机和Linux系统时,可以借助于Unix Shell&Python获取服务进程,深度检测系统状况。
(3)自动化运维功能
应该明确数据中心的业务需求和特点,从而在在自动化运维功能设计中更具针对性,除了应该考虑到服务方面的要求外,还应该从安全性方面出发,为数据监管提供可靠的依据,在数据获取时保障良好的精确性和实时性。为了获取系统的健康状况,应该对日常检查与管理模块进行针对性设计,在记录时采用工作表单,以便借助于事件管理系统处理故障问题。对于数据中心运维系统运行状况的监督,需要设置相应的监控管理模块,业务系统和数据库的运行状况可以通过图形化的方式呈现出来,通过专业化命令行代码实现异地/本地灾备环境的数据库同步,以便工作人员对其进行及时处理。在数据中心运行中涉及较多类型的设备,自动化运维功能设计也应该以设备信息管理模块为核心,通过数字化档案的构建实现设备状况的实时化评估和管控,降低设备的故障率。严格监控系统运行过程中的漏洞和病毒情况,从而对运维管理系统的安全性进行评估,以便制定相应的防护措施。
(1)同时监控
同时监控功能的实现,是异地数据库和本地数据库建设中的关键,只有确保各项数据复制的及时性和精确性,才能保障数据的安全性,体现数据的应用价值。在传统工作体系下,对于数据库管理人员的依赖程度较高,同时也会存在一定的局限性。而自动化运维管理平台的构建,则可以为检查数据库服务状况、数据积压和延迟量等提供可靠保障,减轻管理人员的工作负担。通过编写Shell脚本在服务器上运维,能够快速获取本地数据并借助于信息传输机制实现实时化传送,满足数据库的运行需求。工作人员能够更加直观地获取相关数据,对于系统运行故障的定位更加精确和及时,通过发出警报体现运维人员进行处理,避免对数据安全造成威胁。
(2)可用性监控
可用性监控主要是针对数据库服务和应用服务而言,会对数据中心的运行效率和工作评估产生影响。针对其可用性实施全面监控,能够增进运维部门和研发人员的交流沟通,以便及时发现其中的异常问题并处理,使得运维部门工作效率得到全面提高。在平台前端可以实现数据信息的大批传送,满足实时监管的要求,借助于自动报警系统快速响应异常状况,从而解决了人工监控中的弊端。
(3)备用存档检查
最好各类数据和文件的备用存档检查,也是保障数据安全的关键,能够在发生异常状况时及时恢复,防止给使用者造成较大的损失。备用存档检查也应该实现自动化处理,同样是借助于Shell脚本能够满足自动化检验的要求,在结果显示中更加直观,帮助运维人员及时了解备用存档情况,以便做好数据安全性和保密性的管理。
结语:在数据中心的运维管理工作当中,应该顺应时代发展逐步实现自动化处理,以提高资源整合及利用效率,保障数据中心的良好运行效果。在实践个当中,应该以管理平台建设、系统故障自动触发、事件跟踪和关键流程优化等为重点,满足自动化运维的需求。同时,在明确设计目标的基础上,加强对顶层结构设计、底层数据抓取设计和自动化运维功能设计等各个要点的严格把控,确保设计方案的可行性,促进运维管理平台的高效运行。在系统功能实现中,应该做好同时监控、可用性监控和备用存档检查,真正体现自动化的优势和价值。