王宏记,张冰松,杨代才
(湖北省气象信息与技术保障中心,湖北武汉 430074)
基于关联规则的湖北短期气候预测应用初探
王宏记,张冰松,杨代才
(湖北省气象信息与技术保障中心,湖北武汉 430074)
分析了数据挖掘技术中关联规则分析方法的原理和一般数据挖掘的系统结构和主要步骤,通过收集、加工和处理大气环流指数等大量信息,以湖北省汛期异常气候现象为对象,使用关联规则挖掘方法试图找出各物理量和气象要素与未来一段时间内湖北的汛期降水之间的关系。基于Apriori算法2013年针对湖北短期气候预测,初步建立了一个关联规则挖掘系统,实现了参数配置、关联挖掘和规则显示等功能。
数据挖掘;关联规则挖掘;气候预测
随着通信技术和数据库技术的发展,湖北省气象局通过INTERNET网、部门交换、本地大气探测等手段,特别是通过中国气象局9210卫星通信系统每天均能接收到越来越多的气象数据资料,并通过关系型数据库[1-6]对这些数据进行了管理。但就气象应用特别是短期气候预测业务而言,要在越来越堆积的数据中间找出有用的数据或带有预测性质的信息是一件非常复杂的事[7-9]。气象预报通常需要使用大量的历史气象数据和实时气象数据,业务和研究人员往往首先采用建立数据库的方式,再从这些大量的数据中分析天气的规律。湖北短期气候的预测人员在实际业务中既要面对堆积如山的气象数据,同时传统的数据分析方法很难处理在时间和空间等多维度的信息,难以找到气象数据属性信息之间的内部关系,基于这些原因,将数据挖掘技术应用于短期气候预测领域,从一个新的角度对气象数据进行处理,在关联模式挖掘的基础上,找出部分物理量和未来的气象要素之间气候关系,解决长期困扰预报员面对海量气象数据无法下手的情况,是气象业务人员努力的一个方向。
数据挖掘(Data Mining,简称DM)就是要从大量的数据中挖掘或获得实用信息的技术之一,虽然该技术出现的时间不长,但20世纪90年代以来发展速度很快。此外作为一个多学科交叉结合的一项技术,数据挖掘正好就是要从海量的数据中挖掘出可能有潜在意义信息的技术,这些信息可能为一些科学研究找到突破点;该技术已广泛应用于气象、网络安全、电信、零售业以及保险服务等行业[10-12]。笔者主要是探讨数据挖掘技术在短期气候预测中应用的可能性,并提出一个适合于湖北短期气候预测的关联挖掘方案,建立了一个关联规则挖掘系统。
关联规则挖掘[13-14]是从大量的数据中挖掘出有价值的描述数据项之间相互联系的信息技术之一。通常关联规则具有以下形式:X⟹Y(S%,C%),即“X1∩X2∩…∩XM→Y1∩Y2∩…∩YN”;其中Xi(i∈{1,…,M})和Yj( j ∈{1,…,N})均为属性值,C%表示确信度(Confidence),S%表示支持度(Support)。支持度S%表示X和Y项集同时出现的概率,而确信度C%表示X项集出现的前提下Y项集出现的概率,两者之间存在特定关系,Confidence(X⟹Y)= Support(Xi∪Yj)/ Support(Xi)。
如果将某区域气候状况看成属性Y,而将前期多个气象因素实况看成属性X,就可通过设定支持度S,利用关联规则挖掘技术找到一些有用的关联规则或联系,这些规则具有用户给定的支持度,这是非常有意义的。
2.1 数据挖掘系统的组成
2.1.1数据库或数据仓库。它表示挖掘系统主要是由数据仓库、数据表单或其他信息数据库组成。一般需要使用数据清洗和数据集成等操作过程,对这些数据信息进行预处理。
2.1.2数据库服务器。它是负责根据用户的数据挖掘请求读取相关的数据。
2.1.3知识库。用于存放数据挖掘所需要的知识,这些知识将用于指导数据挖掘的搜索过程,或用于帮助对挖掘结果的评估,如用户根据预测经验定义的阈值就是最简单的知识。
2.1.4数据挖掘引擎。这是数据挖掘系统的最基本部件,它通常包含一组挖掘功能模块,完成关联分析或分类归纳、进化计算和偏差分析等挖掘功能。
2.1.5规则评估模块。该模块可根据标准,协助数据挖掘模块更快地收敛到有意义的知识,该模块能否与数据挖掘模块有机结合,与数据挖掘模块所使用的具体挖掘算法有关。
2.1.6可视化用户界面。该模块帮助用户与数据挖掘系统本身进行交互操作。一方面用户通过该模块可以将自己的参数或任务提交给挖掘系统,以及提供挖掘搜索所需要的相关知识;另一方面系统通过模块向用户展示或解释数据挖掘的结果;此外该模块还可以帮助用户浏览数据对象内容与数据定义模式、评估所挖掘出的模式规则,以及以多种形式展示挖掘出的模式规则。
2.2 数据挖掘系统的结构数据挖掘是属于在线分析处理(OLAP)的高级阶段,其数据分析能力远超过以数据汇总为主的在线分析处理功能,它能够实现来自多学科技术的有机结合,这些技术包括数据库、数理统计、高性能计算、模式识别、神经网络、数据可视化、信息检索分析等技术。目前较为成熟的“数据挖掘系统”有很多,2012~2013年基于Apriori算法初步建立了一个基于关联规则的挖掘系统,建立了数据库服务器和数据库表、基于阈值的气象知识库、基于Apriori算法等方法的数据挖掘算法库,初步实现了阈值调整、参数配置以及规则显示等功能。系统结构示意图如图1所示。
图1 基于关联规则的气象数据挖掘系统总体结构
3.1 短期气候预测方法分析大约50年前,短期天气预报和短期气候预测工作均还处在同一个水平上的业务工作,它们都是根据当地前期的某些实况信息来预测未来的天气变化,准确率均不高。到了今天,因为气象观测系统的发展和数值天气预报的成功,短期天气预报工作已取得了巨大的成功,然而短期气候预测水平还是很低,没有一整套有效的方法。近几十年来,业务工作人员还是进行了大量的研究工作,有人提出“短波制约短期天气,长波制约中期天气,超长波制约长期天气即短期气候”的想法,多年的实践和检验表明,使用大气中的波动也没法根本解决短期气候预测问题。后来又有人又提出了三类短期气候预测方法,一是事件相关统计法,就是从业务实际工作中注意到某2个事件先后出现的现象,采用常规的统计方法进行一段长序列时间的回算,发现它们的相关系数很高,于是用一个事件的发生来预测另一事件的发生。但往往这样的联系本身太少且找出的难度也很大。二是周期规律统计法,该方法认为气候变化的规律可能都隐藏在过去的气候资料的长时间序列之中,人们可以采用各种常规数学统计方法去找到气候资料时间序列中的“周期”等规律,从而做出短期气候的预测。20世纪70年代开始,我国气象部门开展了大量的常规数学统计工作,但其效果被不断地证明是不理想的,业务人员经过分析,认为可能是这些方法的历史拟合率很高,但往往应用到实际预报预测业务工作时,预报预测的准确率均很低。这种现象表明常规数学统计方法发现的“周期规律”不一定是客观存在的,数学方法可以证明的是,若干长度的气候资料内部本来没有因果联系,但通过计算机总是可以找到几对相关系数很高的因子,该类方法可能只是数字的游戏。第三类是数值模式方法,20世纪70年代以来,国内外开展了短期气候预测的数值模式方法研究,其基本理论框架与短期天气预报是一样,也是通过大气动力学方程组、海洋动力学方程组以及热力学方程,采用离散数学以及时间积分等技术进行数值模拟[15-17],该方法被认为可能是短期气候预测工作的未来出路,然而40多年过去了,该方法的技术方案和应用效果并不理想。笔者在此以湖北省汛期降水趋势为对象,采用关联规则分析方法,探讨该方法在湖北短期气候业务中应用的可行性。
3.2 对象选择短期气候预测一般指月、季以及年际尺度的气候预测,全年和汛期降水情况的预测是气候预测中的重点之一。在此根据湖北省汛期趋势预测的要求,从数据库中选取了与数据挖掘相关的数据,分析了湖北省1951~2005年的降水情况,分全年1~12月、汛期5~9月、夏季6~8月3个时段统计出5个最多雨年份和5个最少雨年份(表1),选择其中汛期5个最多雨的年份为研究对象。
表1 1951~2005年湖北省降水量统计
3.3 因子选择关联规则分析方法中的因子选择非常重要,结合短期气候预测的实际情况,对业务工作中常用的数据和前人的研究成果进行了分析。有人发现湖北异常气象要素的变化与东海、西风环流、极涡、南亚热带、天文因素等方面异常表现有一定关系。如张顺利等通过对青藏高原多雪、少雪的合成分析和数值试验,讨论了青藏高原对亚洲夏季风和我国东部气候的影响,结果表明,高原积雪多,亚洲季风环流弱,亚洲夏季风弱,副热带高压弱,副高位置偏南,长江流域降水多,认为这些因子一方面通过改变下垫面物理性质引起大范围持续时间较长的大气环流变化,从而使得夏季有利于降水产生的天气系统出现,造成主要雨带位置与强度不同[18]。随着对灾害性气候机理和预测研究的不断深入,很多气象专家和气象工作者从不同的角度,采用多种统计方法分析了影响夏季降水的前兆因子[15,19-20]。根据这些研究成果,结合关联规则分析方法的实际需要,在此选取了北半球500 hPa月平均高度场、北半球100 hPa月平均高度场、北半球SLP月平均气压场、西北太平洋月平均海温场、74项环流特征量、关键区海温指数、东亚季风指数、阻高强度指数等因子,对湖北省汛期降水趋势进行了关联规则分析求解。
3.4 数据预处理数据预处理主要是对数据进行再加工,包括检查数据的完整性及数据的一致性等,对其中的噪音数据(如缺测数据、错误数据等)进行质量控制处理,对缺测的数据进行填补并将数据转换成为有效形式,建立合适的数据模型。在此对选取的74项大气环流指数以及5个关键区海温指数对应多雨年、少雨年和多年的平均值进行了编号和统计,发现因子序号为0、1、2的因子,多年平均值在多雨年平均和少雨年平均值之间,且多雨年平均值大于少雨年平均值;因子序号为3、14、25等的因子表示历史上有缺测资料,对这种情况按以上数据预处理的原则进行了处理,即忽略对应的数据项;因子序号为7、22、47的因子,多年平均值、多雨年平均以及少雨年平均值之间没有规律,对这类数据项按缺测资料处理。
3.5 数据挖掘算法选取Apriori算法是产生布尔关联规则所需频繁项集的基本算法,该算法是根据有关频繁项集特性的先验知识而命名的。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生(k+1)-项集。具体做法就是:首先找出频繁1-项集,记为L1;然后利用L1来挖掘L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁k-项集为止。每挖掘一层Lk就需要扫描整个数据库一遍。为提高按层次搜索并产生相应频繁项集的处理效率,Apriori算法利用了一个重要性质,即一个频繁项集中任一子集也应是频繁项集,来帮助有效缩小频繁项集的搜索空间。
3.5.1Apriori算法详述。输入:数据库D;最小支持度阈值sup_min。输出:D中的频繁项集L。
3.5.2Apriori算法具体方法。首先,找频繁项集1-项集;然后,apriori_gen(Lk-1, sup_min)函数做连接和剪枝2个动作,用于在第k-1次遍历中生成的Lk-1生成Ck;最后,由Ck生成Lk。
3.5.3Apriori算法处理流程。具体的处理流程如下:
L1= FIND_Frquent_1_Itemset(D); //发现L1-项集
For(k=2;Lk-1≠Ф;k++){
Ck=apriori_gen(Lk-1,sup_min);//根据频繁(k-1)-项集产生候选k-项集
For each t∈ D {
Ct=Supset(Ck,t); //获得t所包含的候选项集
采用Apriori算法,在设定最小支持度0.65以上的情况下,对湖北多降水年进行了求解;求解过程中通过数据划分的方法来减少了I/O次数,即对74项气象环流指数数据集划分为3个逻辑数据块,找出局部频繁项目集,然后将所有局部频繁项目集合并为全局频繁项目集上,在支持度0.65时找到了几组关联规则,如A(75,77)⟹B(1),显示前一年因子75和77即关键区海温指数的第1和3项达到阈值即可认为第二年为多雨,其物理含义是:黑潮区和西风漂流区海温偏低,预示第二年湖北为多雨年。湖北省气象局开发了一个关联规则挖掘系统,实现了因子录入、对象数据录入、阈值设置和规则可视化显示等功能,系统在2013~2014年的应用中效果良好。当降低支持度为0.62时,输出规则多达2 000条以上,由于其规则表述较为复杂,且物理意义尚不清楚,文中没有列出,需要进行进一步的探索。
[1] 高梅,张文华.基于气象信息共享系统的雷达资料网络数据库[J].气象科技,2002,30(1):32-36.
[2] 王胜利.新疆省级气象数据库建设及其管理系统软件设计[J].新疆气象,2003,26(5):41-42.
[3] 彭骏,刘兴华,陈栋.气象数据在网络结构中的应用模型探讨[J].四川气象,2002(4):44-45.
[4] 覃天信,黄福莹,李漫霜.广西气象台业务数据库系统简介[J].广西气象,2001,22(4):43-44.
[5] 易烈刚,杨溢,范元品.基于Internet的气象实时资料查询系统[J].贵州气象,2003,27(3):39-41.
[6] 张帆,武疆艳.历史资料数据库管理系统的研制[J].新疆气象,1998,21(3):29-31.
[7] 何婧,王丽珍,邹力鹃.基于云南气象数据的空间关联规则挖掘[J].计算机工程与应用,2003(34):187-190.
[8] 赵海青,李社宗,周幸福.数据库中的知识发现及其在气象中的应用[J].河南气象,2002(2):35-36.
[9] 黄文玲,陈德军.灰色趋势灾变预测及其在数据挖掘中的应用[J].华中科技大学学报, 2005,33(1):55-57.
[10] 郝先臣,张德下.数据挖掘工具和应用中的问题[J].东北大学学报,2001,22(2):183-187.
[11] 曹辉,蔡颖,朱善君.教据仓库技术在电力系统中的应用[J].华北电力技术,2001(3):44-54.
[12] HAN J,CAMBER M.数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2001.
[13] 陈德军.一般灰色趋势关联系统及其分析方法研究[J].华中科技大学学报,2003,31(8):82-84.
[14] 陈绵云.趋势关联度及其在灰色建模中的应用[J].华中理工大学学报,1994,22(8):64-68.
[15] 王革丽.时空结构对短期气候预测影响的初步分析[J].气候与环境研究,2005,10(2):193-200.
[16] 顾群.顾节经.短期气候预测的物理基础和诊断预测[J].辽宁气象,2004(4):10-11.
[17] 赵振国.我国短期气候预测的业务技术发展[J].山东气象,2001(3):4-7.
[18] 张顺利,陶诗言.青藏高原积雪对亚洲夏季风影响的诊断及数值研究[J].大气科学,2001,25(3):372-390.
[19] 陈菊英.山东区域汛期旱涝预测概论[J].山东气象,2001(3):12-17.
[20] 王锦贵,许君强.东北地区夏季低温与旱涝预测系统研究[M].北京:气象出版社,2000.
Study on Hubei Short-term Climate Prediction Method Based on Association Rule
WANG Hong-ji, ZHANG Bing-song, YANG Dai-cai
(Meteorological Information and Technology Support Center of Hubei Province, Wuhan, Hubei 430074)
This paper analyses the principle of association rules method, the system structure and the main steps of the general data mining, by collecting, processing and handling of atmospheric circulation index and other large amounts of information, taking Hubei Province flood season climate anomalies as the object, association rule mining method was used to find out the relationship between physics quantities, meteorological elements and flood season precipitation in the future of Hubei.Based on Apriori algorithm, aiming at short-term climat prediction in 2013, an association rule mining system was established, realizing parameters configuration, association mining and rule display.
Data mining; Association rule mining; Climate prediction
王宏记(1964-),男,湖北麻城人,高级工程师,从事信息网络开发研究。
2015-02-02
S 126
A
0517-6611(2015)08-150-03