湖南省MICAPS 4.0分布式数据环境运维方法与改进

2019-10-21 11:00刘丹枫施佳驰
大众科学·上旬 2019年9期
关键词:进程分布式集群

刘丹枫 施佳驰

摘 要:本文是对湖南省MICAPS 4.0分布式数据环境运维方法的总结与归纳,详细介绍了如何查看服务器监控页面、Cassandra与DPC集群状态、资料达到情况,并对现有的运维方法提出了改进思路,本文可视为对气自动化运维技术应用的一次积极探索。

关键词:MICAPS4.0,分布式数据环境,运维方法。

1  MICAPS4分布式数据环境背景介绍

MICAPS是中国气象部门气象卫星、天气雷达和数值预报、站点实况等产品综合应用最强有力的业务技术支撑平台,是中国气象部门气象预报最主要的预报业务系统。自1995年起至今,它已经历过4个版本的嬗变。MICAPS4作为其最新版本,首创海量数据分布式流式计算的前处理系统,卫星雷达数据可实现毫秒级写入性能,数据访问性能相比传统访问性能提升了两个数量级。在气象实时数据处理方面,MICAPS4首创从文件到数据库,从集中式到分布式的解决方案,达到了国际先进水平。

2016年11月,在国家气象中心、国家气象信息中心、清华大学的大力支持下,湖南省顺利完成CIMISS-MICAPS4数据环境部署。分布式数据环境目前已正常运行1000余天,可为预报员提供多源异构资料的集中整合与分析显示、为预报员呈现清晰的四维大气结构以及运动趋势,为湖南省各级气象部门提供高效、精准的气象数据服务。并且,分布式数据环境可支持长达22天的模式实时数据存储,目前已接入近10个模式系统数据,多达60个以上的模式空间层次,1700多个模式物理量。省级数据中心每分钟访问量可达1049次,全天访问可达150万次。

数据分布式流式计算的前处理系统,针对集合预报数据可以实现“到达即可见”的效果,卫星雷达数据可以实现毫秒级写入性能。其大规模扩展物理集群的架构,可以应对高并发访问,解放市县一级的数据维护负担,湖南省所有 MICAPS4用户可直连省级数据中心。

2  湖南MICAPS4分布式数据环境检查流程

湖南MICAPS4分布式数据环境日常巡检主要查看Cassandra集群状态、进程是否存在、磁盘利用率、资源状况、服务器上一次启动时间;查看DPC集群日志、进程是否存在、磁盘利用率、资源状况、服务器上一次启动时间等。

2.1  查看服务器监控页面

MICAPS4.0数据应用环境的网页监控共需要查看三个网页内容,分别是:查看CIMISS-MCP监控页面有没有EI告警信息、查看http://10.110.172.62:8080,确认所有的Workers是否都存在且状态正常、查看http://10.110.172.62:4040,确认所有Jobs的Submitted是否为最近一次计算集合预报的时间以及原始数据是否到达及时。

2.2  查看Cassandra集群状态

通过ssh方式登入到Cassandra服务器,切换到/home/micapsserver/cassandra/bin目录,执行命令:./nodetool status micapsdataserver,来查看集群运行状态,确保所有节点的状态都是UN(UN = Up Normal),保证负载基本均衡;使用df –h命令,查看所有磁盘的利用率,确保长期没有变化(导入了新数据或者延长了数据的保存时效等情况除外);使用last reboot命令,查看服务器上一次启动时间,确保服务器没有意外断电或重启;使用ps - ef | grep java命令,查看进程号,确保Cassandra等进程处于运行状态。

2.3  查看DPC集群状态

使用jps命令,查看进程号,确保DPC(DPC.jar)、JobScheduler(JobScheduler.jar)等进程处于运行状态。使用top命令,查看系统的资源状况,进入top后,可以使用x键高亮显示,然后使用>键切换排序列,一般按照内存使用率排序的话,DPC、JobScheduler等Java进程会排在前几位,便于查看;切换到/data/DPC/log与/data/JobScheduler/log,查看日志文件,确保当前进程工作正常。使用df –h命令,查看所有磁盘的利用率,确保长期没有变化;使用ps - ef | grep java命令,查看进程号,确保DPC等进程处于运行状态。

2.4  查看资料达到情况

分布式数据环境里的资料来大多源于广播卫星CMACast下发,經省级CIMISS接收后再分发至分布式数据环境各个DPC服务器的ftp接口目录,现有ftp接口目录接收资料如图1所示。运维检查时需要查看接口目录下的资料达到情况,由于接收资料繁多,因此检查时需要耗费较多时间。

3  改进方法思考

原有的MICAPS4分布式数据环境检查流程比较繁琐,对分布式数据环境进行一次完整的检查至少需要耗费半个小时,因此可采用自动化运维方式对检查流程进行优化。自动化运维方式可通过开发监控系统来实现,监控系统采用C/S结构,在服务器中部署通过python编写的监控进程,通过ssh、ftp等方式远程登入DPC与Cassandra集群,将检查后的运行结果情况写入到MySQL数据库。通过桌面客户端访问MySQL数据库获取集群运行状态。

4  小结

本文是对湖南省MICAPS 4.0分布式数据环境运维方法的总结与归纳,并对现有的运维方法提出了大致的改进优化思路,下一步的工作是将改进优化思路通过程序开发加以实现。

猜你喜欢
进程分布式集群
居民分布式储能系统对电网削峰填谷效果分析
基于Paxos的分布式一致性算法的实现与优化
Dalvik虚拟机进程模型研究
快速杀掉顽固进程
不留死角 全方位监控系统
勤快又呆萌的集群机器人
集群品牌是集群整体的品牌还是集群产品的品牌?
中外民主法制进程专题复习