基于多机器学习竞争策略的短时雷电预报

2016-11-01 18:26孙丽华严军峰徐健锋

计算机应用 2016年9期

孙丽华　严军峰　徐健锋

摘要：

传统的雷电数据预测方法往往采用单一最优机器学习算法，较少考虑气象数据的时空变化等现象。针对该现象，提出一种基于集成策略的多机器学习短时雷电预报算法。首先，对气象数据进行属性约简，降低数据维度；其次，在数据集上训练多种异构机器学习分类器，并基于预测质量筛选最优基分类器；最后，通过对最优基分类器训练权重，并结合集成策略产生最终分类器。实验表明，该方法优于传统单最优方法，其平均预测准确率提高了9.5%。

关键词：

雷电预报；属性约简；集成学习；机器学习

中图分类号：

TP181

文献标志码：A

Abstract：

The traditional lightning data forecasting methods often use single optimal machine learning algorithm to forecast， not considering the spatial and temporal variations of meteorological data. For this phenomenon，an ensemble learning based multimachine learning model was put forward. Firstly， attribute reduction was conducted for meteorological data to reduce dimension； secondly， multiple heterogeneous machine learning classifiers were trained on data set and optimal base classifier was screened based on predictive quality； finally， the final classifier was generated after weighted training for optimal base classifier by using ensemble strategy. The experimental results show that，compared with the traditional single optimal algorithm， the prediction accuracy of the proposed model is increased by 9.5% on average.

英文关键词Key words：

lightning forecast；attribute reduction；ensemble learning；machine learning

0引言

雷电是人类面临的最严重的自然灾害之一，以江西省为例，6～8月为江西省雷电活动频发月份，1～2月和10～12月雷电活动少发月份。根据文献[1]统计，过去几年当中，江西省雷电活动比例在冬季最高，秋季次之，午后为雷电活动最频发时刻，12～21时是江西省雷电活动最频繁的时间段，约占总雷电活动数的79.4%。另据文献[2]统计，江西省2005—2013年总共发生2808次雷电灾害，造成437人死亡，246人受伤，直接经济损失达到21697万元，间接经济损失达到22430万元。因此，必须加强雷电灾害监测及雷电防御工作。

国内外雷电预报是在筛选出与雷电发生相关性高的大气不稳定参数作为预报因子的基础上，构建雷电发生的概率预报方程，并区分强雷电与弱雷电。雷电预报所利用的资料主要有探空、雷达和卫星等观测资料及雷电探测资料。当前业内主要的预报研究方法有：

1）常规预报方法，预报员利用天气学方法制作出来的，但准确度不高。

2）利用卫星云图和天气雷达资料预报对流性天气，在卫星云图和雷达回波图上，通过对流云团的动态显示，以及对流天气的预报，从而确定雷电发生和落区的预报。

3）数值预报方法，利用强对流天气数值模式，对历史数据建模，从而模拟各个区域出现雷电的情况。

4）闪电定位仪监测是目前对雷电天气的最佳监测手段，要求不断地把监测的闪电强度、频数、闪电性质、落区、时间显示在雷电预报系统中，应用雷电发生发展理论和引导气流方法对闪电的未来强度作出预报，显示未来可能影响本地的雷电。

目前采用机器学习较成功的预报方法有：用决策树方法制作的，为机场提供自动雷电探测和严格导航系统的美国AWIPS雷电产品；澳大利亚气象局结合数值预报产品制作的雷电预报决策树方法；印度德里地區用点聚图方法、多元线性回归方程法制作的季风爆发前雷电客观预报，均取得了较好的效果。

相对而言，目前国内外对高分辨率短时临近雷电预报研究较少。2012年，靳小兵等[3]采用决策树法，提出结合T213模式资料和地面探空资料算法，建立了雷电预报业务系统。2013年，刘达新等[4]为了满足应用的要求，提出一种能够抵抗粗差干扰的定位方法，该方法能够有效地抵抗粗差的干扰，提高了雷电定位精度。刘冲等[5]提出了一种基于粗糙集正域属性约简的雷电预报因子提取方法，该方法采用基数排序方法快速求解决策表的正域，引入可分辨概念度量属性的重要性，提出了基于可分辨度的核属性与非核属性的提取方法，设计了相应的面向雷电预报因子提取的属性约简算法。彭永供等[6]在2013年，针对非平衡特征数据集中采用基于欧式距离的采样算法低效率问题，提出一种基于哈夫曼树的雷电数据采样算法，有效的提升了采样效率。

2014年，滕少华等[7]基于SVM的多组合器协同分析方法，提出了一个具有较高预测准确性和分类稳定性的多组合器协同分析算法，该算法在气象预测中起到了很好的预测效果。此外，针对传统的决策树分类算法不能有效解决海量气象数据中的知识挖掘问题。2015年，周浩等[8]用二进制表示来构建属性的二进制信息粒向量，提出了属性信息增益的计算方法，并结合并行处理模型MapReduce，研究了基于粒计算的ID3（Iterative Dichotomiser 3）决策树分类的并行化处理新方法，该方法在气象领域的预测也取得了很好的效果。

现有算法虽然从不同角度来提高雷电预测准确率，但往往采用单一预测算法。在实际应用中，由于地域的不同，不同时空和不同季节对数据处理的要求也是不同的。这种单一的算法预报模型不能反映出数据的动态变化特征，预报的稳定性一般较差。

集成学习也可以称为提升方法[9]是提高分类准确性和稳定性的重要策略。该方法的基本思想是：对于一个相对复杂的系统来说，单个弱分类器的分类效果可能表现不佳，将多个弱分类器的分类结果进行适当综合，就能得出比单个弱分类器更精确的分类结果。在众多的提升算法[10-11]中AdaBoost（Adaptive Boosting）[12]算法最具代表性，算法采用加权多数表决的方法，在每次训练过程中，通过更新所有样本权值的方式来增加在上一次分类中被错误分类的样本权值，使其在下一次训练中被着重考虑。最终结果是加大各弱分类误差率小的分类器权值，使其在表决中起较大作用，减少分类误差率大的弱分类器的权值，使其在表决中起较小的作用，从而提升算法性能。

粗糙集理论越来越多地应用到了数据挖掘之中，粗糙集的属性约简不需要属性分布的任何先验信息，因此其应用结果更为客观。考虑到粗糙集属性约简的客观性、有效性、尤其是连续型变量的情形，本文将应用粗糙集方法对原始数据集进行属性约简[13-14]。

本文针对传统雷电预测中存在的问题，结合集成学习的思想，提出一个具有个性化的多机器学习竞争策略的混合雷电预测算法框架模型（Personal MultiMachine Learning Competitive Strategy， PMML）。通过将本模型应用于实际预测，取得了较好的预测效果。

1气象数据

气象观测资料为江西省83个气象站2010—2014年雷电观测资料，雷电监测定位资料为2010—2014年江西省气象局雷电监测定位网监测资料。

研究采用的数据来源于江西气象局业务运行的局地分析预报系统（Local Analysis Prediction System，LAPS）资料数据。该系统垂直层从100hPa开始每间隔50hPa划分为一层共划分了21 层，第一层为第0层。水平格距为5km×5km，系统分析区域的以31.0°N，115.0°E为中心。系统不仅提供一些常用的基本物理量的分析场资料数据，同时还提供由某些分析量导出的衍生产品资料，系统的资料产品包括风、温度、垂直速度、高度、比湿、云量、液态水含量、相对湿度、云分类、云水含量、雪含量、反射率、雨水含量、云底高度、云顶高度、云冰、可降水量、抬升指数、对流抑制能量、肖沃特指数、对流有效位能、抬升凝结高度、K 指数等33 种产品。LAPS每天输出8个时次（00、03、06、09、12、15、18、21 时）间隔3小时的分析量资料。

2多机器学习雷电预测算法模型

本文提出的多机器学习雷电预测算法模型如图1所示。该模型包括：数据约简模块（含数据清洗、数据离散化）、多机器竞争模块、集成学习模块。

其主要学习过程是：

首先，训练数据集经属性约简后，导入多机器学习模块，对M个备选机器学习算法进行训练。

然后，在多机器学习竞争模块中，这些训练后的机器学习分类器，会通过多测试集进行预测准确性与预测稳定性的竞争，并推选出N个最优基分类器（N

最后，在集成学习模块，多最优基分类器被提取出来，按照集成策略分别对实际气象数据进行预测并且统计出最优预测结果。

2.1多机器学习竞争模块

多机器学习竞争过程的分类器竞争过程如图2所示。

首先，将数据集随机划分为80%的训练集和20%的测试集，再将20%的测试集采用随机抽样方式划分为多个（K个）测试数据集，然后应用粗糙集进行属性约简。

然后，经过约简后的训练集数据分别导入M个不同算法进行有指导的机器学习训练。

最后，通过约简后的K个测试数据集对M个学习后的算法分类器进行测试，分别得到各个算法的K个预测准确率的均值及方差（即预测稳定性）。

根据上述训练和测试的结果，通过平均预测准确性的排序和比对，保留N个预测准确性最高分类器作为最终分类器。

多机器学习竞争模块中的关键算法步骤介绍如下：

1）预测准确性算法（Prediction Accuracy， Ca_Accuracy）。

算法思想：训练后的算法（After Training Algorithm， Alg）导入约简后的气象测试数据集信息系统（Meteorological Information System， MIS*）的每条记录，进行分类预测。其中MIS=（U，C*，D，V， f）。U={x1，x2，…，xi}代表雷电气象数据记录对象（元组）集合，其中xi为第i条雷电记录（元组）。C*和D是雷电数据的所有属性集合，分为两个不相交的子集，即条件属性C*和决策属性D。条件属性C*包括表1中提到的所有属性，决策属性D的值域：D{0，1}，1代表发生雷电，0代表未发生雷电。V：是条件属性C*的取值集合，Va是属性a的值域。 f是U×（C*×D）→V的一个信息函数，它为任一个对象x∈U对应的任一属性a∈C*的属性取值，即fa（x）∈Va。其预测结果与MIS*决策值进行比对，可以统计出该算法的预测准确率。

算法輸入：训练后的算法Alg（），测试数据MIS=（U，C*，D，V， f）。

算法输出：算法Alg在测试集MIS*中的预测准确性γ。

算法步骤流程：

3实验与结果分析

3.1实验环境与数据集

1）实验环境。

本次实验环境在Windows7系统中使用Matlab 7.1，GrADS 1.9 为实验平台进行实验。

2）实验数据准备。

本文从2010—2014年江西省境内及周边的雷电定位资料中提取出南昌市、九江市、上饶市、鹰潭市等4个城市的闪电定位数据。由于南昌和九江相邻等问题，因此该邻近区域雷电产生次数统计使用粗糙集来处理。此外，因江西省一年的闪电基本集中在5—10月，故本文从中取出5—8月份对应的闪电数据，以构建本实验数据集，共计820761条记录，其中雷电样本539324条，非闪电样本281437条。

3.2实验设置

为了验证该框架中多机器学习竞争算法策略在不同地域的有效性，本文选择南昌市、九江市、上饶市、鹰潭市等4个城市在2010年—2014年的5—10月份的气象数据作为研究对象。算法集合选择了支持向量机（Support Vector Machine， SVM）、人工神经网络（Artificial Neural Network， ANN）、决策树（Decision Tree， DTree）、贝叶斯分类器（Naive Bayes， Bayes）、K最近邻算法（KNearest Neighbor， KNN）作为备选算法。采用本PMML模型与文献[8]中算法分别进行学习与预报。

3.3实验结果

如图3所示，PMML实验结果可以看出，4个地区获得的最优基分类器算法各不相同。在对南昌市和九江市两个不同地区的雷电数据进行预报时，决策树在南昌的预测平均准确率为93.3%，ANN在九江地区的平均预测准确率为94.4%。对比上饶、鹰潭可以看出，决策树在上饶地区的预测平均准确率为77.6%，而在鹰潭地区有较高的88.7%的预测平均准确率。可以看出，在不同地域中，预测准确率最高的算法并不总是相同，可见PMML算法在不同地域具有不唯一的最优预测算法。

为了进一步验证本模型预测算法的有效性，将本文提出的PMML算法与文献[8]提出的基于粒计算的决策树算法分别在四个不同的地区进行对比实践。此次对比实践当中，由于发生雷电的次数并不是每天都在发生，故以下实验有针对性的对2014年8月发生雷电的某一天进行实际预测。由于篇幅所限，本文只选取了南昌、九江、上饶、鹰潭等4个地区的实验结果作为展示。实验在4个不同地区不同时段各自取了10000条气象数据，不同地区发生雷电次数不同。如图4～7显示的是部分的实验结果。

从图4～7可以看出，PMML算法与文献[8]的预测准确条数随预测区域的不同而不同。在南昌、九江和鹰潭三个地区，PMML算法与文献[8]算法预测准确性出现不同层次的交替。同时也可以看出，PMML算法曲线始终随着实际雷电数曲线的变化而变化，而文献[8]曲线变化与实际打雷数曲线关联度不大。说明PMML算法在处理具有不同数据特征的数据集时比一般算法效果更好。总体来看，PMML算法的预测准确性比文献[8]算法高。

从地域来看，不同地区同一时间段内PMML算法与文献[8]算法的预测效果差异性不大。但PMML算法的预测结果具有一定稳定性，文献[8]算法在不同地区仅使用单一算法，不能满足不同地区不同气候条件下的数据需要，因而其预测结果不稳定。不论从不同地区还是不同时间段分析， PMML算法在处理不同地区的不同数据时的平均预测准确性都在90%以上，具有较高的预测准确性，因此实践取得了较好的效果。

为了对实验结果作进一步分析，本文通过k折交叉验证（kfold crossValidation）對实验结果进行对比分析。具体如下：在上文实验场景下，在不同规模数据集中，分别将数据集随机划分为k等分（本文k取5）。取出其中4份作为训练集，剩余1份作测试集进行实验，交叉验证重复5次，直到每个子样本都验证一次，从而得到5次结果的平均预测误差大小。在不同数据集规模进行交叉验证后，得到表3所示结果对比。

从表3可以看出，本文所提算法在大规模数据集中具有良好的低错误率，而对比文献算法由于预测使用的算法单一，在面对大规模数据集时，预测效果表现不佳。当数据集较大时，数据的特征分布也会发生变化，单一预测算法将不再适用。而本文所提算法由于使用多种经典算法，结合集成策略思想，能够在不同数据集上适应具有不同特征分布的数据预测变化。

4结语

本文针对传统雷电预测当中预测算法单一，不能很好地考虑数据集全局的数据特征问题，提出了一种基于多机器学习竞争策略的混合框架模型。模型首先对气象数据应用粗糙集进行属性约简，再通过多机器学习竞争策略竞争产生一定数量的最优基分类器，再应用集成学习的思想，对多个最优基分类器进行集成，最后产生最终分类器。通过在江西省多个不同地区进行实际预测，结果表明该模型比传统预测方法具有较好的预测准确性。由于气象数据具有典型的时间序列特征，例如：频率、波形、方差等，都可充分利用，下一步的研究将着重考虑气象数据的时序特性，从时间维度来进一步提高预测准确率。

参考文献：

[1]

李准，杨慧民，林春.南昌地区雷电灾害易损性分析及区划[J].气象研究与应用，2013，34（3）：78-82.（LI Z， YANG H M， LIN C. Regionalization and analysis of lighting disaster vulnerability in Nanchang [J]. Journal of Meteorological Research and Application， 2013， 34（3）： 78-82.）

[2]

吕振东，李玉塔，王怀清.江西省雷电时空分布特征及其区域易损性分析[J].能源研究与管理，2016（1）：51-57.（LYU Z D， LI Y T， WANG H Q. Analysis of temporal and spatial distribution characteristics of lighting activity and vulnerability in Jiangxi [J]. Energy Research and Management， 2016（1）： 51-57.）

[3]

靳小兵，卜俊伟，李一丁，等.四川省雷电监测预警预报系统及其应用研究[J].高原山地气象研究，2012，32（3）：54-57.（JIN X B， BU J W， LI Y D， et al. The research of lightning monitoring and early warning forecast system of Sichuan province and its application [J]. Plateau and Mountain Meteorology Research， 2012， 32（3）： 54-57.）

[4]

刘达新，来志云，吉平，等.能抵抗粗差的雷电定位算法研究与仿真[J].科学技术与工程，2013，13（28）：8399-8403.（LIU D X， LAI Z Y， JI P， et al. Algorithms and simulation for robust lightning location [J]. Science Technology and Engineering， 2013， 13（28）： 8399-8043.）

[5]

刘冲，李向军，沈华，等.基于基数排序及属性约简的雷电预报因子提取方法[J].南昌大学学报（理科版），2013，37（4）：344-349.（LIU C， LI X J， SHENG H， et al. Extraction method of lightning forecast factors based on radix sort and attribute reduction [J]. Journal of Nanchang University （Natural Science）， 2013， 37（4）： 344-349.）

[6]

彭永供，邱桃荣，林于渊，等.基于哈夫曼树的雷电数据采样算法[J].计算机工程，2013，39（5）：174-177.（PENG Y G， QIU T R， LIN Y Y， et al. Lightning data sampling algorithm based on Huffman tree [J]. Computer Engineering， 2013， 39（5）： 174-177.）

[7]

滕少华，樊继慧，陈潇，等.SVM多分类器协同挖掘局域气象数据[J].广西大学学报（自然科学版），2014，39（5）：1131-1137.（TENG S H， FAN J H， CHEN X， et al. Application of SVMbased multiclassifiers in miningcooperatively local area meteorological data [J]. Journal of Guanxi University （Natural Science Edition）， 2014， 39（5）： 1131-1137.）

[8]

周浩，刘萍，邱桃荣，等.基于粒计算的决策树并行算法的应用[J].计算机工程与设计，2015，36（6）：1504-1509.（ZHOU H， LIU P， QIU T R， et al. Parallel decision tree algorithm based on granular computing [J]. Computer Engineering and Design， 2015， 36（6）： 1504-1509.）

[9]

VALIANT L G. A theory of the learnable [J]. Communications of the ACM， 1984， 27（11）： 1134-1142.

[10]

NAKAMURA M， NOMIYA H， UEHARA K. Improvement of boosting algorithm by modifying the weighting rule [J]. Annals of Mathematics and Artificial Intelligence， 2004， 41（1）： 95-109.

[11]

LOZANO A C， ABE N. Multiclass costsensitive boosting with pnorm loss functions [C]// KDD 08： Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York： ACM， 2008： 506-514.

[12]

廖紅文，周德龙.AdaBoost及其改进算法综述[J].计算机系统应用，2012，21（5）：240-244.（LIAO H W， ZHOU D L. Review of AdaBoost and its improvement [J]. Computer System and Applications， 2012， 21（5）： 240-244.）

[13]

刘宏杰，冯博琴，李文捷，等.粗糙集属性约简判别分析方法及其应用[J].西安交通大学学报，2007，41（8）：939-943.（LIU H J， FENG B Q， LI W J， et al. Discrimination method of rough set attribute reduction and its applications [J]. Journal of Xian JiaoTong University， 2007， 41（8）： 939-943.）

[14]

PAWLAK Z. Rough sets [J]. International Journal of Computer and Information Sciences， 1982， 11（5）： 341-356.