电网企业数据库自动化运维工具的研究与应用

2019-05-24 14:20吴尚王萍胡聪徐敏宋晓波金国俊
无线互联科技 2019年1期

吴尚 王萍 胡聪 徐敏 宋晓波 金国俊

摘 要:随着电力信息化的发展,电网企业数据库运维管理模式由手动式运维向自动化、标准化、规范化运维转变。文章通过数据库自动化工具的研究和应用,及时掌握数据库的运行状态,保障数据库的良好稳定运行,找出数据库的异状及发现隐患,以便及时采取对策。

关键词:数据库;自动化;运维工具

随着国网公司信息化建设步伐的加快,国网公司生产、经营和管理活动对信息系统愈加依赖,信息系统运行的可靠性和业务连续性越发重要,也为数据库运维工作带来了新的挑战,对运维人员也提出了更高的要求。为了更好地满足一线数据库运维工作要求,需要对运维技术进行优化。开展对数据库自动化工具的研究和应用,对日常运维工作的开展有很大促进和提升,首先能够提高运维效率,降低运维成本;其次能够减少对人员的依赖,实现知识积累;再次促进体系建设,支撑运维标准化。

1 电网企业数据库自动化工具建设背景

当前,国家电网公司信息化持续深化,数据库种类和数量不断增加,IT架构复杂性增长始终快于人员增长,熟悉业务的数据库运维人员积累缓慢,资源不足问题一直存在,运维人员疲于应付巡检和故障检修,因此对于数据库运维管理来说是一个巨大挑战,具体体现在以下4个方面:(1)从现有故障分析来看,80%的业务可用性和性能问题与应用和数据结构相关,且影响全局的应用类问题大部分体现在数据库层面。(2)70%的故障是业务系统使用者首先发现的,存在监测盲点,缺少主动预警和事件分析机制。(3)IT持续建设,数据库种类和数量不断增加;运维人员疲于应付巡检和故障检修,对疑难问题处置和技术研究程度不够。(4)运维自动化低导致在运维过程中获取大量杂乱信息及警报时,运维人员无法快速定位问题根源,降低了运维服务速度和服务质量。

2 数据库自动化工具

2.1 设计理念

针对电网企业数据库的特点,通过拥有原厂商认证专业人员的专业知识,按照标准定点、定期地对信息系统数据库及相关软硬件做深度巡检工作,及时掌握数据库的运行状态,保障数据库的良好稳定运行,找出数据库的异状或发现隐患,以便及时采取对策,将故障消灭在萌芽状态。通过对信息系统进行预防性检查并提出消除隐患的措施,达到其防患于未然的目的。

2.2 具体方法和做法

2.2.1 数据库深度巡检

依据数据库运维实际需求,对数据库按既定的深度巡检指标和频率进行巡检,出具巡检报告。

数據库硬件深度巡检内容包括查看设备外观及故障指示灯(整体和各部件);HMC管理平台:针对连接了HMC的设备,通过HMC查看硬件状态及日志(Service Focal Point);VPD信息收集。

操作系统深度巡检内容包括分区资源及操作系统信息收集,分区硬件资源、系统版本等;CPU和内存检查;网络通信检查;逻辑卷检查;文件系统检查;内存交换区检查;Dump设备检查;启动日志检查;系统日志检查;错误日志检查;硬件诊断(diag);数据备份检查;系统性能检查;用户登录检查;补丁程序及微码检查。

存储深度巡检内容包括存储冗余检查;存储配置合理性检查;设备运行情况检查;日志分析;关键指标检查;存储是否存在热点检查;安全防护检查与分析;存储监控和管理检查与分析。

双机环境深度巡检内容包括双机软件部署情况(HA Patch版本);双机环境状态检查;双机软件部署验证(verify)。

数据库深度巡检内容包括Oracle后台进程检查与分析;文件系统使用率检查与分析;监听状态检查;监听日志大小检查与分析;CPU使用率检查与分析;内存交换区使用率检查;数据库日志检查与分析;数据库实例状态检查;数据库控制文件检查;数据库日志文件检查与分析;数据库数据文件检查与分析;数据库后台作业检查与分析;数据库无效对象检查与分析;DBA角色用户检查。

OGG巡检包括巡检列表包括主机IP、OGG安装路径、进程类型、状态、延迟时间、检查点时长、巡检时间。

2.2.2 数据库运行状态预警数据库深度巡检

数据库性能监测包括监测列表列出监测数据库清单;监测内容包括数据库名称、版本、IP地址、告警(严重、警告、一般)、性能(平均事务响应时间、DBtime)、工作负载、主机(CPU使用率、内存使用率和磁盘繁忙度)、创建时间。平均事务响应时间是对该指标进行横向和纵向对比趋势分析;DBtime对该指标进行横向和纵向对比趋势分析;CPU使用率是对该指标进行横向和纵向对比趋势分析;内存使用率是对该指标进行横向和纵向对比趋势分析;磁盘繁忙度是对该指标进行横向和纵向对比趋势分析;工作负载是查看该负载的等待事件,通过乙方的数据库技术工具可以查询到是哪条SQL引起,并能查询该SQL执行计划情况。

查询AWR报告信息,包括数据库名称、IP、实例名、报告名称、报告生成时间、报告生成人等。生成的查询报告对AWR根据选择的数据库节点和时间进行生成。

基线管理是根据指标和日期建立数据库技术基线,便于日后运维过程中可以进行性能的比对分析。

2.2.3 数据库日志诊断

数据库日志分析能够通过数据库技术工具直接关联到相应的Trace文件,由实施工程师对告警日志、CRS日志、监听日志和ASM日志能根据错误关键字分析诊断,快速提取并展示详细错误信息。能根据时间段导出alert,trace,CRS,监听日志。

2.2.4 数据库行为分析

数据库行为分析能够追溯数据库的登录操作、连接操作、DDL操作等操作信息,定位异动行为。

DDL审计能够对Create,Truncate,Alter,Drop,Grant,Revoke等数据库操作进行监控,及时发现异常行为。

3 应用成效

目前,运维的重要性在不断地被人们所认识,根据行业统计,在IT费用中大约有3/4用于系统运维和维护开发。这也意味着,系统在开发结束并投入运营后,所要花费的成本比例高达75%。因此,提升日常运维作业的自动化水平,不仅可以有效提高运维效率,同时可以释放大量被日常运维所占用的资源,实现资源的再增值。

通过数据库自动化工具的研究和应用,国网公司对于数据库隐患排查和计划检修效率将大幅提升,大大提升了国网公司的运维质量和网络运行水平。对于数据库运维人员来说,可以减少大量非工作时间应急抢修,缩小故障检测与定位时间,提高运维效率;对于用户而言,可以减小信息系统故障带来的损失;对于业务应用客户来说,在提高国家、地方、企业网络化、信息化发展的科学性的同时,还能够提高单位和个人工作和生活的质量,促进和谐社会的建设。

3.1 经济效益

数据库自动化工具符合国网公司对运维工作标准化、规范化开展的宏观要求,也符合公司各单位合理调配服务資源、专业化队伍、降低成本的实际需求。

自动化运维工具与传统运维方式相比,将带来工作效率的提升、运维成本的降低以及运维服务质量的提升。通过自动巡检、故障定位和故障处理所形成的运维服务闭环,变被动服务为主动服务,从手动运维转为自动运维,提升运维管理自动化水平,同时提高客户服务的满意度。

数据库自动化运维工具对于运维工作所带来的收益,主要体现在:(1)通过诸如自动化巡检、自动化配置、自动化处理等模块,从运维工作规范性、故障平均处理时间、故障平均响应时间、客户满意度等方面提升管理水平,提高运维服务质量,提升服务效率。(2)节约运维人员成本。变被动服务为主动服务,从手动运维转为自动运维,将原本人工巡检的工作通过平台的自动巡检和自动定位来完成,节省人力合时间成本。(3)提升故障处理效率。通过自动巡检、故障定位和故障处理所形成的运维服务闭环,达到运维问题早发现、早解决的目标,降低因为故障的延误而带来的经济损失。

3.2 管理效益

数据库自动化运维工具应用后,提高信息运维服务的技术含量,加强信息化自动化支撑手段是解放人力资源、优化调配的重要推手。有效降低信息管理的运行维护成本,提高信息调度反应速度与准确度,提高信息通信网络资源利用率,提升通信运行管理水平和效率的目的,实现信息通信管理方式向科学化、信息化、精细化转变。

大幅提高国网公司运维管理的先进程度,有助于提升国网公司信息通信管理和技术水平。使得运维的基础性工作有了统一与规范,通过不同工作方法的尝试和制度的制定,使运维工作逐步实现了向标准化管理转变,其服务质量得到了大幅度的提升,在增强了用户的感知度的同时,也极大地提升了运维服务的效率,随着运维平台的逐步使用,根据需求不断地进行维持与优化后,将为后续的平台的发展打下良好的基础。

3.3 社会效益

数据库运维管理工具的应用,可以提高运维工作的效率和对外提供服务的能力,有效改善运维人员问题定位和解决速度,最终提高数据库运维服务能力和服务质量。

4 结语

通过本课题的研究,其成果将应用到运维日常工作中,实现运维作业的内容透明化、工作自动化、流程规范化,从而带来多方面的效益,为运维作业标准化建设更好地开展奠定坚实的基础。

数据库自动化工具以围绕高效开展运维工作为出发点,摒弃传统的以建设监控平台为目的的运检思路,改变传统的信息运维工作模式,提升技术手段,促进运维工作从被动变为主动,从手动变为自动,将日常琐碎、繁多和分散的运维工作进行高效、集中、可视和自动化管理,并提升运检人员工作效率,支撑各类信息系统的安全运行,为数据库运行提供便捷、高效、安全的技术保障。通过建设运维自动化工具,实现包括业务流程自动化、日常巡检自动化、故障快速定位与自动处理、数据自动备份、可视化展现等功能。