张宇
摘要:在信息化的今天,越来越多的行业业务依赖于自身的数据库系统,因此做好行业内的数据库系统运营维护是一项非常重要的工作。为了做好这项工作,西南空管局气象中心数据库室在分析自身业务运行现状和实际需求后,设计开发一整套维护整合方案,通过这套方案,数据库室值班员能够更好的做好维护工作,保障业务正常运行。
关键词:数据库系统;维护;方案
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)20-0008-03
1 引言
西南空管局气象中心数据库室作为全国民航气象数据传输的结点,主要业务工作为维护位于西南空管局气象中心的民航气象数据库系统(以下称为系统)的正常运行。这套系统在接收由北京下发的全球民航气象资料的同时向西南地区各个机场传输这些资料,同时还为西南地区民航行业用户提供各种数据服务。可见该系统在西南地区民航气象业务运行中的重要性,如何对这套系统做好维护工作则是数据库室日常业务工作的重点和难点。
2 业务运行现状及需求
目前数据库室负责维护的系统为7*24小时不间断运行,故要求维护人员也需要7*24小时在岗值守,保障气象数据库业务的正常运行。
鉴于以上情况,数据库室系统维护人员采取值班制度,进行24小时轮班。一般情况下当班人员的日常工作有:在每日早上、下午、晚上以及第二天凌晨对系统进行四次定时巡检;并对系统的任何突发情况要及时响应、上报和处理;还要负责气象中心其他信息设备的日常维护以及值班日记的填写和记录。
目前数据库室的业务运行存在着一些不足,主要表现在:
(1)由于系统的各种设备包括小型机、服务器、通信链路、通信设备、安全设备和终端设备。对其进行一次日常巡检看似简单,实则有较大的工作量,外加中途对其他事情的处理,一次日常巡检可能就会拖上较长时间,容易造成值班员不能准确把握各个设备的实际运行情况;
(2)在值班员外出吃饭,晚上休息时间,突发事件往往是通过用户告知,故对突发情况的应对处理会花费更多时间;
(3)日常巡检的结果为离散样本,具有间断性,不能准确描述系统在24小时内的详细运行状态;
(4)对气象数据库室值班员而言,虽然维护好系统是自身的核心和重点工作,但是经常有无法避免的其他工作,不能将所有注意力都集中在系统的运行情况上。
针对以上实际情况,数据库室的系统维护需求为:
(1)对系统进行24小时不间断监控,如果有突发事件立即提醒值班员;
(2)对系统的运行状况进行不间断记录,让值班员可以随时了解系统在某一个时刻的运行状况;
(3)值班员需要随时掌握数据库系统的运行情况。
3 维护整合方案设计
按照上述的数据库室业务运行现状以及需求分析,将针对数据库值班员的系统维护整合方案设计为三个部分:第一是实时监控;第二是实时监控的移动终端;第三是系统的历史和实时快照显示和分析。具体方案如图1显示。
其中实时监控系统运行在PC终端上,定时自动通过远程登陆和其他方式访问系统中的各个设备,获取设备硬件状态、系统状态、业务状态和网络状态等。并将获得的信息按照预先定义的阈值进行排查,在固定显示设备上显示,并提醒值班员注意需要注意的信息。同时将显示的信息通过单向网闸推送到外网的移动终端服务器上,让运行在智能手机上的监控移动端调取相关信息,在移动显示设备上显示。并且监控系统定时获取一份对系统的详细信息,形成系统快照,并将快照信息存入监控服务器中的数据库中,供电子值班日记系统调用。电子值班日记系统可以调出任意时刻的系统快照供值班员查看分析。
按照以上方案,电子监控系统能够24小时不间断的对系统进行监控,有突发事件能够立即让值班员了解相关情况;由于还具有移动监控终端,让值班员在外出吃饭和晚间休息时,也能随时了解到系统的运行情况。电子值班日记对系统快照的调取,能够让值班员随时了解任意时刻系统的运行情况,就能解决值班员在解决其他问题时不能及时对系统进行巡检的问题。并且值班员能够从存储的大量系统快照中进行数据挖掘,获取设备与设备之间的关联信息或者某项故障发生前的设备信息等有价值的信息。
图1 方案设计
4 维护整合方案实现
为了易于维护和修改,实时监控端采用C#编程语言,在WINDOWS操作系统下的VS2008平台上开发,并需要FRAMEWORK 4.0支持,程序独立运行。以SSH协议登录各个服务器,在后台自动采集各项数据,本地收到数据后进行分析处理,将错误信息向值班员报警并写入错误日志,将正常情况生成报表供值班员了解当前气象数据库系统的运行情况。实时监控端的界面如图2所示,提示界面如图3所示。
图2 实时监控端
图3 实时监控端提示界面
移动监控端采用JAVA编程,在WINDOWS操作系统上的ANDROID STUDIO平台上开发。显示收到的正确和错误信息,并对错误信息进行提醒,因此值班员注意。移动监控端的界面如图4所示,
图4 移动监控端界面显示
电子值班日记中的系统快照显示部分采用C#语言,在WINDOWS操作系统下的VS2008平台上的.NET框架下开发,并需要FRAMEWORK 4.0支持,需要电子值班日记的统一支持。显示界面如图5所示。
图5 系统快照显示界面
5 维护整合方案运行效果
以上维护整合方案在数据库室已经经过一年多的持续运行,在此期间,经过使用人员的不断反馈和根据业务发展的需要,具体细节也在不断修改,使之满足各项业务的实际需求。
在该方案的运行后,数据库室值班员能在第一时间主动发现系统在运行过程中发生的各项异常情况,且随之能够立即着手分析问题和解决问题,工作效率得到大幅提高,并对其他部门的业务影响降低到了最小。
通过监控移动端的运行,值班员在吃饭和休息期间也能随时了解到数据库系统的运行情况,尤其是晚上休息期间。根据历史记录分析,在监控系统运行的这一年多以来,系统在晚上值班员休息期间累计发生异常情况共计19次,其中需要立即处理的异常情况13次,值班员在收到移动端的报警信息后,马上前往办公室解决相关异常。这13次异常的平均相应时间为7分钟,且这13次异常都为值班员主动发现,响应时间远小于以前的半小时左右。在异常得到处理后,也未对其他部门的业务造成任何影响。
通过对系统快照的查看,让值班员能够随时了解系统的运行状况,提前分析出系统的未来发展趋势。根据统计数据,值班员有6次得出磁盘空间使用率将满的结论,提前清理磁盘空间;有11次得出ORACLE的SGA区使用率将满的结论,提前清理ORACLE连接和对SGA区进行处理。真正让系统达到了高效运行的目的。
6 结论和展望
维护整合方案的运行让气象中心数据库室值班员的工作模式从被人告知问题再着手处理的被动模式向主动发现问题并着手解决的主动模式转变,从而进一步保障好气象数据库系统的运行。不过目前对系统历史快照的利用程度不高,下一步的工作重点在于如何从大量的系统快照数据中挖掘出对值班员有用的信息。