唐慧强,李全月,刘钲江
(南京信息工程大学 信息与控制学院,江苏 南京210044)
地面气象观测资料主要通过自动气象站采集获得,由于受环境、通信等多种因素影响[1,2],实时气象数据中常有要素值缺失,若不及时处理,会降低数据集连续性,影响资料的可用性。目前,气象数据缺失采用的处理方法有线性插值、邻近数据替补、人工补测、空间插补等[3,4]。这些方法在一定程度上实现了数据的处理,同时也存在一些不足:第一,数据连续缺测时,线性插值法不能很好的达到效果,邻近数据替补和人工补测方法也不能保证数据的时效性;第二,空间插补方法需参考定时定区域内各气象要素数据,计算复杂,数据量大,在单个站点的实时数据处理中不能取得很好的实用性。考虑各气象要素值之间存在非线性和相关性,本文以相对湿度缺失为例,建立径向基神经网络模型进行实时缺失数据插补方法研究。
径向基神经网络较其它前馈型网络具有学习速率快、逼近能力强等优点,但由于其使用的径向基函数输入空间区域很小,不可避免地导致在输入空间较大时需要更多的径向基神经元,从而使网络结构变得复杂,大大降低了网络性能[5]。针对这个不足,本文利用粗糙集理论对气象要素进行约简,提取关键要素作为径向基神经网络的输入,从而简化网络结构、提高收敛速度、增强网络泛化性能,在气象缺失数据插补中取得了较好的效果。
本文建立的气象缺失数据插补模型工作原理如图1所示,将粗糙集理论和径向基神经网络相结合,先把粗糙集作为前置处理器,对气象数据样本进行预处理,即通过知识约简,删除冗余属性和相同的样本;再把经过粗糙集预处理后的数据送入径向基神经网络中进行样本训练,最后通过此神经网络仿真系统对测试样本进行插补,从而验证模型算法的可行性。
图1 模型工作原理
粗糙集理论 (rough set,RS)是一种新的处理模糊和不确定性知识的数学工具,具有很强的定性分析能力,其优势在于能够从数据中获取知识,无需提供数据集合之外的任何先验信息,通过约简即可消除知识中的冗余数据,而原来的知识结构与容量保持不变[6-8]。影响相对湿度的气象要素与之存在不同程度的相关性,因素间取舍无特定标准,应用粗糙集理论则可以实现关键属性的提取。本文将粗糙集数据分析技术作为径向基神经网络的前置处理器,能够有效实现气象数据的预处理。粗糙集数据分析流程图如图2所示,具体实现步骤如下:
图2 粗糙集数据分析流程
步骤1 将气象数据训练样本生成决策表,其中样本输入为决策表的条件属性,样本输出为决策表的决策属性。
步骤2 将连续型数据离散化处理。由于粗糙集理论只能对离散的符号化属性进行分析处理,而实时气象数据均是连续型数据,所以在进行属性约简之前,要对系统训练样本数据进行离散化处理。本文选用自组织映射 (SOM)神经网络[9]进行离散化处理。
步骤3 将离散化后的决策表生成可辨识矩阵。设决策信息系统为S=<U,C,D,V,F>,其中,U为有限非空的个体全集,C为条件属性,D为决策属性,对任意属性a∈C,d∈D,可辨识矩阵M(S)的元素表示为
步骤4 在不改变知识库分类能力的条件下,根据可辨识矩阵对决策表进行属性约简,删除其中不必要知识。本文选用基于属性重要性的约简算法进行约简,其中对于属性a∈C的重要性为
式中:||——集合中元素的个数,POSC(D)——属性D相对于属性C的正域。
步骤5 根据属性重要性进行属性约简,最终生成相对约简属性集。
径向基函数 (radial basic function,RBF)模型是人工神经网络中重要模型之一,它是以函数逼近理论为基础而构造的一种三层前向型神经网络,包含一个输入层、一个具有径向基神经元的隐层和一个具有线性神经元的输出层[10,11]。典型的含有3层结构的RBF神经网络能够充分逼近任意复杂的非线性关系,即可以实现任意的n维到m维的映射。其相对于传统的BP神经网络具有自适应确定网络结构和无需人为确定初始权值等优点,从而逼近能力强,学习速度快[12]。综合考虑气象数据的结构特点和RBF神经网络强大的非线性映射能力,采用RBF神经网络来建模仿真将会得到较好的映射效果。
本文根据网络模型的特点,采用具有多个输入层节点、一个输出层节点的RBF神经网络模型,输入层神经元数为影响相对湿度的气象要素个数,隐层径向基神经元数由网络自适应确定,输出层即为相对湿度。其三层网络结构如图3所示,输入层神经元传递输入信号至隐层,隐层进行激活函数参数调整并将输入信号进行非线性变换,最后输出层线性神经元将结果输出。
图3 RBF神经网络三层结构
径向基函数与一般神经网络的节点计算方式有所不同,本文径向基神经元传递函数选用高斯函数,输出层神经元传递函数选用简单线性求和函数,其网络计算过程如下:
(1)设输入节点数为m,样本总数为P,则xp=表示第p 个输入样本,隐层节点为Rl(l=1,2,…,h),输出节点为y,从样本中随机选择h个作为初始簇类中心ci(i=1,2,…,h)。
(2)按照最近邻规则将输入样本集合进行分组,根据xp与簇类中心ci间的欧氏距离‖xp-ci‖ 将xp分配至相应的簇类集合p(p=1,2,…,P)中。
(3)重新调整簇类中心:计算所有簇类集合p中样本的平均值作为新的簇类中心ci,若新的簇类中心不再改变,则RBF神经网络的基函数中心即为此时的ci,否则返回步骤 (2),进行下一轮中心求解。
(4)计算隐层输出
式中:σ——高斯函数的方差,其求解公式为
式中:cmax——所选择中心的最大距离。
(5)采用最小二乘法进行隐层与输出层间神经元的连接权值计算
并求得网络的输出为
对南京某自动气象观测站2012年10月份气象资料进行检查,并整理出以分钟为采集间隔的气象数据,主要有温度 (T)、相对湿度 (U)、气压 (P)、能见度 (V)、降水量 (R)及1分钟平均风速风向 (F),经检查其数据缺失量约为3%,连续缺失最大长度为4小时。选取无缺失的2012年10月16日5时~6时分钟气象资料作为训练样本,其中以相对湿度作为输出样本,其它气象要素作为输入样本进行网络仿真训练。为验证模型的插补效果,从输出样本中随机抽取10组数据作为缺失测试样本,以验证RBF神经网络模型的预测精度。
在进行网络仿真前,首先对输入属性进行属性约简,以提取重要属性,精简网络结构。根据属性约简步骤,先以输入样本作为条件属性,输出样本作为决策属性,生成决策表,结果如表1所示,温度 (℃,C1)、气压 (hPa,C2)、降水量 (mm,C3)、能见度 (m,C4)、风速 (m/s,C5)为条件属性;相对湿度 (%,D)为决策属性。
表1 气象要素数据决策
然后使用自组织映射 (SOM)神经网络对各连续属性进行离散化处理,具体算法由Matlab神经网络工具箱实现,利用newsom()函数创建SOM网络
其中,P为输入向量,minmax(P)指定输入向量的最大值和最小值, [1,3]表示创建网络的竞争层为1×3结构,即将连续气象要素属性离散化为3类。离散结果见表2。
表2 离散化的气象要素数据
再根据离散化决策表,计算出各条件属性相对于决策属性的重要性,进行属性约简。由式 (2)可知:γC(C1)=软件计算得:因此,
由于神经网络在进行学习和预测过程中,如果不对原始数据作任何处理,可能出现某类数据的绝对值过大,从而偏离神经元的有效区间,使得其它分量失去了对整个网络的调控能力。因此,本文将约简后的属性温度 (C1)、气压 (C2)、风速 (C5)进行归一化处理后作为RBF神经网络的输入,其归一化公式如式 (7)所示
式中:Xmin、Xmax——序列中的最大值和最小值。
同时,运用newrb()函数进行RBF网络仿真训练,将网络训练误差设定为0.02,散布常数设置为1。经42步迭代训练,网络均方误差已达到0.016,满足实验要求,图4为粗糙RBF神经网络的仿真训练图。为加以对比,本文同时使用未经粗糙集优化的RBF神经网络对训练样本进行仿真训练,并将其设置相同参数,图5为未经优化的RBF神经网络的仿真训练图。从图4、图5可看出,经粗糙集优化的RBF神经网络下降趋势明显,达到目标训练误差,而未优化的神经网络经40步迭代后趋于平缓,未能达到目标误差。因此,粗糙集优化的RBF神经网络较未优化网络具有收敛速度快,网络性能强的优点。
神经网络训练结束后,即可对测试数据进行插补试验。本文同时选用传统线性插值、RBF神经网络及粗糙RBF神经网络对缺失样本进行插补。表3是3种不同方法得出的预测值与实际值的比较。
表3 3种不同方法预测值与实际值对比
由表3可以看出,虽然粗糙集优化的RBF神经网络对缺失值的插补仍存在误差,但与传统线性插值方法和未经优化的RBF神经网络插值法相比,相对湿度插值的平均误差减少至0.38%,远远小于前两种方法,表明粗糙集优化的RBF模型具有较好的适用性。同时,前两种方法存在较大误差的原因,主要有以下两点:第一,当数据序列趋势平稳时,线性插值插补效果较好,但当影响因素复杂且相互影响明显时,由于无法考虑因子前后相关性,其插补精度锐减;第二,由于影响RBF网络性能关键因素是中心的选取,从现有中心选取的方法来看,本质上是利用聚类的方法将中心向量置于输入空间的一个重要区域,当输入空间很大时,中心选取速度变慢,从而降低了网络性能。而本文提出的基于粗糙RBF神经网络的方法正好可以弥补上述方法的不足,实现气象数据的快速、精确插补。
由于各种原因,气象数据缺失现象时有发生。本文将粗糙集理论与RBF神经网络相结合建立了缺失数据插补模型,充分利用粗糙集数据分析处理能力对训练数据进行预处理,提取关键属性作为网络输入进行仿真,并通过仿真系统对缺失数据进行插补。通过验证,此插补模型可以有效地实现单站气象缺失数据的插补,相比一般线性插值法其精度明显提高,在缺失数据插补中可以作为一种有效的处理方法,为建立连续气象数据集奠定了良好基础。
[1]LI Zhipeng,ZHANG Wei,HUANG Shaoping,et al.Design and implementation of the software for real-time quantity control over automatic weather station observation data [J].Meteorological Monthly,2012,38 (3):371-376 (in Chinese).[李志鹏,张玮,黄少平,等.自动气象站数据实时质量控制业务软件设计与实现 [J].气象,2012,38 (3):371-376.]
[2]TANG Yunhui,GAO Yanghua.Imputation method of missing temperature data based on neighborhood features [J].Chinese Journal of Agrometeorology,2008,29 (4):454-457 (in Chinese).[唐云辉,高阳华.基于邻域特征的温度缺失值的填补方法 [J].中国农业气象,2008,29 (4):454-457.]
[3]WU Mingjiang,SONG Wenying,CHEN Yongbin,et al.Analysis and processing of data from automatic weather stations[J].Meteorological Science And Technology,2009,37 (4):466-468(in Chinese).[吴明江,宋文英,陈勇斌,等.自动气象站缺测数据分析及处理 [J].气象科技,2009,37 (4):466-468.]
[4]WANG Haijun,TU Shiyu,CHEN Zhenghong.Interpolating method for missing data of daily air temperature and its error analysis[J].Meteorological Monthly,2008,34 (7):83-91(in Chinese).[王海军,涂诗玉,陈正洪.日气温数据缺测的插补方法试验与误差分析[J].气 象,2008,34 (7):83-91.]
[5]ZHANG Defeng.MATLAB neural network application design[M].Beijing:China Machine Press,2009:157-181 (in Chinese).[张德丰.MATLAB神经网络应用设计 [M].北京:机械工业出版社,2009:157-181.]
[6]ZHAO Fang,WANG Jing,YANG Hailong.Application of rough set reduction in spacecraft fault diagnosis [J].Computer Science,2012,39 (6A):429-431 (in Chinese).[赵方,王静,杨海龙.粗糙集约简在飞行器故障识别中的应用 [J].计算机科学,2012,39 (6A):429-431.]
[7]WANG Guoyin,YAO Yiyu,YU Hong.A survey on rough set theory and applications [J].Chinese Journal of Computers,2009,32 (7):1229-1246 (in Chinese).[王国胤,姚一豫,于洪.粗糙集理论与应用研究综述 [J].计算机学报,2009,32 (7):1229-1246.]
[8]XUE Anrong,HAN Hongxia,PAN Yuqing.Fast attribute reduction algorithm of rough set based on discernibility matrix[J].Computer Engineering and Design,2007,28 (20):4987-4989(in Chinese).[薛安荣,韩红霞,潘雨青.基于可辨识矩阵的快速粗糙集属性约简算法 [J].计算机工程与设计,2007,28 (20):4987-4989.]
[9]LIU Weiqun,LI Weihua.An algorithm for generalized RBF network based on self-organizing selection center [J].Journal of Xinyang Normal University:Natural Science Edition,2007,20 (4):515-517 (in Chinese).[刘维群,李为华.基于自组织选取中心的广义RBF神经网络学习算法 [J].信阳师范学院学报:自然科学版,2007,20 (4):515-517.]
[10]MENG Jin,MA Chi,HE Jialang,et al.Network security situation prediction model based on HHGA-RBF neural network [J].Computer Science,2011,38 (7):70-72 (in Chinese).[孟锦,马驰,何加浪,等.基于HHGA-RBF神经网络的网络安全态势预测模型 [J].计算机科学,2011,38 (7):70-72.]
[11]WANG Delu,SONG Xuefeng.Identifying method of city’s industry life cycle based on integration of rough sets and neural network [J].Journal of Systems Engineering,2009,24(6):710-716 (in Chinese).[王德鲁,宋学锋.基于粗糙集-神经网络的城市产业生命周期识别 [J].系统工程学报,2009,24 (6):710-716.]
[12]LIAO Wei,FENG Xiaobing,XU Chundong,et al.Research of exchange rate forecast model based on Radial Basis Function neural network [J].Computer Engineering and Applications,2009,45 (24):210-212 (in Chinese).[廖薇,冯小兵,许春冬,等.径向基神经网络的汇率预测模型研究 [J].计算机工程与应用,2009,45 (24):210-212.]