聚类分析技术在海南省极端降水研究中的应用

2016-12-27 15:10莫云音董凌宇吴盛洪叶彩荣
科技传播 2016年19期

莫云音+董凌宇+吴盛洪+叶彩荣

摘 要 本文对海南省近55年的自动站逐日降水观测资料进行数据清洗,利用数据库加以存储。接着利用围绕极端值的三分聚类算法对海南省的日降水量进行聚类分析,得到近55年来海南省的日极端降水量的日际分布情况。结果表明海南极端日降雨量55年以来每年均有出现,但冬季和初春极少,主要集中在8—10月,而且海南省极端降水量呈东多西少的空间分布特征。

关键词 极端;降水数据;挖掘聚类分析

中图分类号 P4 文献标识码 A 文章编号 1674-6708(2016)172-0145-02

随着气象信息化的推进,全国建立了大量的气象观测站,自建立气象观测站以来,各地积累了数十年的气象观测数据,这些数据的数据量出现了成几何倍数增长的态势。海南省气象局作为省级气象部门,经过几十年的存储积累,也拥有了庞大的气象观测数据。面对海量的观测数据,单纯靠手工处理来对其进行应用研究分析,几乎是不可能的。目前,随着计算机技术、并行处理技术的飞速发展和广泛应用,数据挖掘相关技术无论从理论上还是从实践上都已经十分成熟,是近年来数据分析方面一个十分活跃的领域,越来越多的学者将其应用于数据分析当中。因此,采用数据挖掘技术来处理这些历年累积的气象数据,已经完全可能。

极端降水事件通常会造成城市内涝、海水倒灌,引起山体滑坡、泥石流等灾害性天气,近年来受到越来越多的关注。极端降水通常是小概率事件,存在空间的差异性,不同的地区的极端降水表现出不同的特征及变化趋势。海南的极端降水事件也有自已的特征。因此,本文对海南省近55年的自动站逐日降水观测资料进行数据清洗,利用数据库加以存储,采用聚类挖掘分析技术对海南省的日降水量进行聚类分析,以期得到近55年以来海南省的日极端降水量的日际分布情况。这对于认识海南的极端降水事件特征具有重要的意义。

1 聚类分析技术

1.1 聚类分析定义

聚类分析是根据数据对象的相似性对其进行聚类,使相似性很高的对象在同一类中,使相似度很低的对象在不同的类中。目前,聚类分析技术在各领域中已经得到广泛的使用。在商业上,市场分析人员可以利用聚类分析技术,根据购买模式挖掘出不同客户群的特征,从而区分出不同的客户群。在生物学上,聚类分析技术可以根据动植物的基因进行聚类,挖掘出各个种群的固有结构,从而能够更好地了解各类动植物。在气象上,气象研究工作者可以利用聚类分析技术来对全国各个地区的降水量进行聚类分析,对全国各地区的干旱等级进行划分,从而为气象防灾减灾、农作物养殖等方面提供有效的指导。

1.2 围绕极端值的三分聚类算法

围绕极端值的三分聚类算法策略是:在待挖据的数据集中,找出一个最大值和最小值,然后分别以这两个值为聚类中心CMax和CMin,对剩余的数据进行划分。下一趟中在剩余的数据中寻求一个最大值和最小值,将这一趟发现的最大值和最小值分别划分给CMax和CMin,按此方法进行下去,直到剩余的数据量为原来总数据量的1/3时为止。

过程描述为:

输入:结果簇数目3、数据集D、数据集对象数量n。

输出:大值中心簇CMax和小值中心簇CMin,以及由剩余对象组成的中间簇CMid,其中,每个簇包含的对象数量各为n/3。

算法:

1)遍历数据集D一次,找出D中的最大值DMax和最小值DMin,分别以DMax和DMin为聚类中心展开聚类,并标记DMax和DMin的状态为已被访问过,下次不再进行访问。

2)继续遍历数据集D,找出D中的最大值DMax和最小值DMin,DMax划分给CMax,DMin划分给CMin,并标记这两个值的状态为已被访问过,下次不再进行访问。

3)重复步骤2),直到遍历次数达到n/3次。

4)将未做标记的数据归为一簇。

5)输出CMax和CMin以及CMid,CMax按从大到小的顺序排列,CMin按从小到大的顺序排列,CMid中的对象则按其原来的相对位置进行排列。

围绕极端值的三分聚类算法是专门为异常点的挖掘设计的,比较适合于极端降水的挖掘,所以本文采用它来对海南省的日降水量进行聚类分析。

2 聚类挖掘技术的应用

2.1 数据清洗及预处理

所用资料为海南岛18个观测站 、西沙永兴岛观测站和西沙珊瑚岛观测站1961~2015年的逐日降水资料。

数据源中数据可能存在错误项,缺失值,重复值以及数据不一致等问题,在进行数据挖掘时,这些数据会影响到数据的挖掘过程,产生错误的挖掘结果。因此,在开始数据挖掘前需要对数据进行清洗、集成和转换,才能为数据挖掘行为提供完整的、干净的数据源。

自动气象站实时观测数据按照台站号,逐小时进行记录,自动气象站设备故障、数据采集计算机故障、通讯网络中断、数据接收存储中心软硬件故障等会造成数据记录的缺失。处理数据缺失值的常用方法有:列均值、就近跨距均值、就近跨距中值、线性内插值和线性拟合值。由于本文研究的降水量这个气象要素是离散型变化的,所以对短时间(12小时以下)缺测记录采用空间插值法来补充,对长时间(12小时以上)缺测记录则对比人工定时观测记录来补充。

2.2 数据库设计

为了便于进行数据挖掘,设计建立数据库储存经过预处理的数据集。首先完成数据库的概念结构设计,得到由日降水量实体构成的E-R模型,如图1所示。接着根据设计的E-R模型完成数据库的物理结构设计,创建数据库,并在数据库中创建每日降水量表,如表1所示。

2.3 挖掘结果

海南极端日降雨量55年以来每年均有出现,但冬季和初春极少,主要集中在8~10月,进入5月后开始增多,在9月达到最高值,11月后几乎没有极端降水出现,海南省汛期出现的极端日降雨量数占全年的八成。而且海南省极端降水量呈东多西少的空间分布特征。

3 结论

本文采用聚类分析技术对海南省的18个基准站的日降水量进行分析研究,得到近55年来海南省的日极端降水量的日际分布情况。这对于认识海南的极端降水事件特征,做好防灾减灾服务工作具有现实的意义。数据挖掘技术的产生给气象领域的分析研究带来了新的发展,越来越多的气象研究学者将其应用于气象防灾减灾、气象服务、气候分析、天气预报预测、气象数据质量控制等领域的研究当中。然而,目前几乎没有学者将数据挖掘技术应用于海南气象领域研究中,因此,本文将数据挖掘技术应用于海南极端降水研究中是本文的一个创新之处。希望本文的工作能够对海南气象服务、防灾减灾等方面的深入研究提供有用的参考。

参考文献

[1]翟盘茂,王萃萃,李威.极端降水事件变化的观测研究[J].气候变化研究进展,2007,3(3):144-148.

[2]吴慧,吴胜安.近48年海南省极端降水时空变化趋势[J].安徽农业科学,2010,38(19):10101-10103.

[3]吴胜安,郭冬艳,杨金虎.海南热带气旋降水的气候特征[J].气象科学,2007,27(3):307-311.

[4]柯维耀.影响海南岛热带气旋降水分布特征分析与预测系统设计[D].成都:电子科技大学,2013.

[5]郑忠平.基于关联规则和聚类分析的异常天气挖掘[D].成都:电子科技大学,2011.

[6]史静,党岳,张永欣,等.自动站数据质量控制中关联规则挖掘的应用[J].气象科技,2014,42(4):612-616.

[7]刘伟东,尤焕苓,任国玉,等.北京地区自动站降水特征的聚类分析[J].气象,2014(7):844-851.

[8]吴岩峻.不同天气系统对海南岛降水的贡献及其变化的研究[D].兰州:兰州大学,2008.