数据挖掘技术在气象数据中的应用

2015-06-02 03:16卢秀芸
电脑知识与技术 2015年9期
关键词:数据挖掘技术应用

卢秀芸

摘要:随着我国社会水平的提升,经济步伐的推进,我国的气象事业也在这个过程中得到了较大程度的发展。而在气象事业发展的过程中,伴随着是气象资料数据量以及覆盖规模的不断增大。面对这部分庞大的的数据,如何对其进行有效的查找、利用则成为了我国气象行业人员非常关注的一项问题。在本文中,将就数据挖掘技术在气象数据中的应用进行一定的研究与分析。

关键词:数据挖掘技术;气象数据;应用

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)09-0239-02

Abstract: along with our country social improvement, economic development,meteorological services in China has been developed greatly in the process.In the process of the development of meteorological services, meteorological data along with the increasing scale and coverage. In the face of this part of the huge data, how to effectively search, its use has become a problem of great concern to the industry of our country. In this paper, the application of data mining technology in meteorological data on the study and analysis of some.

Key words: data mining; meteorological data; application

對于气象数据的收集与分析有利于帮助我们对不同地区所具有的气象条件以及气象规律进行把握,以此使我们能够更好的对该地区某一时段下的气象情况进行预测。但是,这种数据的收集就会使我们所具有的气象数据资料越来越多,难以对其进行管理与应用。仅仅通过我们计算机方式的应用,也很难对这种规模较大的数据集进行处理,在这种情况下,就需要我们能够以数据挖掘技术的应用更好的实现气象数据的管理。

1 数据挖掘流程

1.1 确定对象

在开展数据挖掘工作中,首先需要对业务所具有的问题进行明确的定义,帮助我们对数据挖掘的目的进行确定。虽然对于我们后续数据的挖掘结果会具有一定的不可预测性,但是对于我们问题探索的目标却需要具有良好的预见性,并以此针对性目标的确定帮助我们更好的开展后续工作。

1.2 数据准备

在这个环节中,主要具有数据预处理、数据转换以及数据选择这三个主要步骤。其中,数据选择是对同本次业务具有关联的维度或者数据进行选择,并从中选择出适合本次数据挖掘工作的相关数据;数据预处理则是对本次研究数据所具有的质量进行研究,并以此帮助我们为后续的进一步分析作出准备,同时对数据操作所具有的类型进行确定;数据转换则是要将不同类型数据通过一定的方式将其转换为我们所需要的数据分析模型,对于该模型而言,其是针对我们原有挖掘算法而建立的,而这种分析模型的建立也是我们开展数据挖掘工作的重要基础与重点环节。

1.3 数据挖掘

数据挖掘正是我们本次工作的核心环节,需要对所有数据预处理完成的、经过转换的数据进行全面的挖掘。在此过程中,除了需要我们以人工的方式对适合本次挖掘工作所使用的算法进行选择之外,其余的工作都会以自动的方式开展。

1.4 结果解释与评价

在我们数据挖掘工作结束之后,往往会得到一系列规则集,而这部分规则集通常需要在专业人员对其进行一定的研究与合理的解释才能够被人们更好的掌握。对此,就需要我们对本次数据挖掘结果进行适当的解释与评价,进而使其能够具有更好的易用性以及广泛性。

2气象资料特点

2.1 数据量大

气象资料可以说是我国历史最为久远、保存最为系统且完善的一类资源信息。尤其随着改革开放之后,我国已经积累了数量非常多的气象基础数据以及信息,且新的气象数据资料也以非常快的速度在每年增长,在我们实际处理时经常会出现冗余情况。

2.2 多样性

气象信息具有着非常多样化的种类,如高空气象资料、农业气象资料、日地物理资料、雷达资料、气象辐射资料、冰雪圈资料、土壤与植被资料、气象灾害资料、地面气象资料、水文气象资料以及卫星资料等等。而气象资料所具有的载体也具有着很多种方式,如不同气象站所发布的气象原始报表,不同省市所发布的气象卫星云图以及雷达图等等。

2.3 多维性

在气象资料中,通常都具有着较多的气象要素,如高空资料以及地面资料往往具有着温度、日照以及气温等很多种要素。而在每一类要素中,也都具有着其所独特的属性维度。也正是根据这种特点,则使气象资料往往具有着较为明显的多为特征。

2.4 复杂性

气象资料中所常见的数据类型主要有标称类型、二元类型、数值类型以及序列类型等等。比如降雨与否为二元类型、气压为数值类型等等。

2.5 连续性

在气象站中,无论是高空站还是地面站,其所具有的气象要素属性值都是一种具有连续特征的数值,比如气压、温度以及气温要素。

3 气象资料预处理

3.1 缺失值处理

在SPSS软件中,具有着很多种对于数据的缺失值处理方式。而对于气象数据来说,由于其所具有的变化是一个能量的动态变化过程,对此,我们对于气象数据所具有的缺失值则使用Mean of nearby points方式进行,并对其中所具有的缺失值根据邻近三个小时所具有的数据平均值对缺失值进行替代。

3.2 氣象资料属性泛化

在数据维度泛化方面,需要严格的按照我国相关标准开展工作,比如在二氧化硫数据的泛化方面,其是否存在超标情况则需要根据我国所制定的污染物浓度标准对其进行泛化。即如果CO2所执行的为一级标准,那么则可以根据其每小时所具有的浓度值同标准中的参考值0.15进行比对,并以此帮助我们判断该项参数是否存在超标的现象。而对于其所具有的超标、不超标现象来说,我们则需要在对结果判断之后将其标记为(是,否)二元属性值。

3.3 气象资料标准化

在气象数据资料中,不同维度间数据往往具有着不一致的量纲,而我们在对其开展定量量测以及聚类分析时,也经常由于量纲所具有的不同而对最终的分析结果产生较大的影响。一般情况下,气象资料中所具有的风向数值都会控制在0至360之间,而如果污染因子的单位为毫克,那么其所具有的范围则会在0至1之间,我们在对聚类进行应用时如果以距离作为评价,其主要依据则会在两个维度中更加倾向于风向维护。而为了能够对这部分维度间所具有的影响进行消除,就需要我们对这部分重点维度开展标准化预处理。在气象数据的标准化处理中,具有着很多种方式,Z标准化是我们应用较多的一类方式,即均值为0,方差为1。

3.4 气象资料维归约

在气象资料中有时候维度之间具有很强的依赖性或者说相关性,对于维度之间的这种依赖性或者相关性有时候在数据分析时候由于数据量巨大会导致多余的计算,所以对于一些需要把握主要的或者消除冗余的数据来进行数据分析时就可以采用主成分分析方法或者计算相关性来消除这些冗余的属性维度。

4 气象资料孤立点分析

在气象资料中的庞大数据中,我们在对其进行分析时往往忽略了孤立点的存在,或者忽略了孤立点所具有的特殊意义。通常来说,人们认为孤立点仅仅是噪声数据的一种,且经常将孤立点分析这项工作作为了数据预处理进行处理,仅仅对其中可能对数据挖掘整体结果产生影响的因素进行了剔除。但是,在气象数据中,这部分孤立点往往具有着非常特殊的意义,通过孤立点数据的分析与检测,很容易帮助我们对很多灾害气象进行分析。目前,对于孤立点进行分析的技术主要有以下几种:

4.1 基于统计方式

首先,需要假设我们所具有的数据集能够满足某一种概率的分布形式,之后再根据其所具有的这种独特概率对数据集进行拟合,并通过不一致检验方式的应用对其中很多个数据对象开展不一致性测试。如果经过测试发现其存在着不符合的情况,就可以认为其是一个孤立点。

4.2 基于距离方式

在该种方式中,我们可以将对于孤立点的分析视作邻居对象不充分的集合,且这种邻居对象也是根据对象所具有的距离进行定义的。通常来说,人们仅仅会通过DB(p,d)的应用对全局孤立点进行发现,而对于局部孤立点却很难判断。对此,我们则可以认为孤立点概念不需要以一分为二的属性对其分离,而可以通过对象孤立度的制定对其所具有的模糊度进行衡量。

4.3 基于密度方式

基于密度的孤立点分析就是探测局部密度,通过不同的密度估计策略来检查

孤立点。密度即指任一点和 p 距离小于给定半径 R 的领域空间数据点的个数。基于密度的孤立点分析最显著的特点就是给定了对象是孤立点程度的定量量度,并且是数据具有不同密度的区域也能得到很好的处理。基于密度的孤立点分析较基于距离的孤立点分析更合理,但数据的计算复杂度较基于距离的孤立点分析要高许多。

4.4 基于聚类方式

聚类分析是用来发现数据集中强相关联的对象组,而孤立点检测是发现不与其他对象组强关联的对象。因此,孤立点分析与聚类是两个相互对立的过程。首先聚类所有的对象,然后评估对象属于簇的程度,对于基原型的聚类,可以用对象到它的簇中心的距离来衡量对象属于簇的程度。

总得来说,数据挖掘技术在我国现今的气象数据处理中具有着较为重要的作用。在上文中,我们对于数据挖掘技术在气象数据中的应用进行了一定的研究,而在实际操作过程中,也需要我们在联系数据类别的基础上通过数据挖掘技术的应用获得更好的气象分析效果。

参考文献:

[1] 何永健, 曹芸, 黄勇. GIS气象数据的管理与表达方法[J]. 南京信息工程大学学报(自然科学版), 2011(3):232-237.

[2] 石扬, 张燕平, 赵姝, 张玲, 田福生, 汪小寒. 基于商空间的气象时间序列数据挖掘研究[J]. 计算机工程与应用, 2007(1):101-102.

[3] Theodore B. Trafalis,Budi Santosa, Michael B. Richman. Learning networks in rainfall estimation[J]. Computational Management Science, 2005(3):113-116.

猜你喜欢
数据挖掘技术应用
数据挖掘技术及其在医学信息领域的应用
多媒体技术在小学语文教学中的应用研究