考虑环境特征的无人机气象探测数据关联规则挖掘方法

2023-12-27 13:04康博识苗传海侯畅李宏硕郑宇
计算技术与自动化 2023年4期
关键词:数据挖掘均值气象

康博识,苗传海,侯畅,李宏硕,郑宇

(1.辽宁省气象装备保障中心,辽宁 沈阳 110166;2. 中国气象科学研究院 大气成分与环境气象研究所,北京 100081)

无人机作业特点是快速、灵活,尤其是在一些恶劣的环境和条件下,比如获取海洋、高原、无人区的气象资料,无人机的优势就比较突出[1-2]。无人机飞行控制技术,能够在较高的探测精度下连续工作,直接、有效地进行高空气象数据的采集和传输,当前针对无人机气象探测数据进行处理的研究,具有较好应用前景。

张宏伟等[3]软件定义数据中心(SDDC)技术应用到民航气象数据库系统,改进民航气象数据库系统在传统数据中心运行中的不足,运用虚拟化技术对本地区亚洲危险天气咨询系统进行改造,但该方法整体结构较简单,研究深度不够,考虑因素不足,影响其准确性;陈冲等[4]对气象环境历史数据进行处理,提出一种基于历史数据挖掘的未来战场气象环境数据模糊预测的算法,通过模糊时间序列算法预测得出的是一个可能性区间,在该合理区间内进行预测拟合曲线的自定义,对气象环境进行合理的干预调理,但该方法未考虑数据间的关联性,使所得结果较单调,未突出气象数据中的有效的信息。

以上述分析为基础,研究了在环境特征下的无人机气象探测数据,关联规则的挖掘方法,在大量数据的分类对比下,实现气象预测和报告等功能。

1 无人机气象探测数据关联规则挖掘方法

1.1 确认最优气象探测环境

在无人机空域内,无人机航测高程不同,则气象探测环境不同,为了获取最优航测高程,需要根据无人机的机翼类型和发动机性能,计算最大爬升梯度[5]。

首先,在不同的飞行高度下,获取极限爬升角度,通常为仰视角,在出发航线点到终止航线点的爬升梯度,受到仰视角大小的影响,夹角公式为:

(1)

(2)

式(1)和式(2)中:爬升过程中的最大角度用q表示;航线起点用w表示;航线终点用e表示;两个坐标点之间的距离用t(e-w)表示[6]。

设置出发航线点到终止航线点,均位于空间坐标系中,起点航线点用w(xw,yw,zw)表示,终止航线点用e(xe,ye,ze)表示;其中w=1,2,…,r;e=1,2,…,r。

其次,计算探测航线方向。由于惯性作用力,改变飞行航线需要一定时间缓冲,需要在调整舵角基础上考虑无人机的转弯半径[7]。在平面状态下,通过直线段和圆弧段组合而成的复合路径,约束无人机探测路程的最短路线,使其满足无人机飞行的最小转弯半径,约束条件为:

ui≥umin

(3)

式(3)中:无人机最小的转弯半径用umin表示;半径的约束条件用ui表示。在二维平面的模型板块设定内,以转弯半径作为探测线路的曲率半径,能够保证在平面中进行矢量转动。

最后,无人机的飞行轨迹路线上的每一个点,均要满足曲率半径大于最小转弯半径后,确认最优的气象探测环境。

1.2 气象探测环境参数特征

不同气象探测环境参数特征与无人机气象探测数据关联,但是关联度不一,例如在夏季和冬季的极端环境下,空气中的温度、湿度等数据变化会受到空气气流的影响,产生分层效应[8]。

设置夏季气流可流通的高度界线,用p表示,在p点高度以上的流体气流为冷空气,在p点高度以下的流体气流为暖空气,瞬时气流会接近于两点之间的平均温度,表达式为:

(4)

式(4)中:在最优的气象探测环境内,能够与瞬时气流相关的因素,分别为区域的浮力以及高程,用hf和pf表示,单位为m/s2和m;该区域内的瞬时温度用s表示,单位为℃。

以气象特征为关联指标,在不同的气流转换下对气象数据进行预测。在无人机探测完毕的空域面积内,圈定出需要关联的气象数据,例如气压、相对湿度等,此时空域大小用d表示,单位为m3,确认尚未探测完毕的探测面积,挖掘空域内所有气象参数特征,数据挖掘模型表达式为:

(5)

式(5)中:选定区域内的气流系数用v表示;在顶部的气流系数为v1,在区域底部的气流系数为vk;两个位置所在的局部面积[9],分别用d1和dk表示[10]。

无人机飞行轨迹具有灵动性,在进行气象探测时,受气象条件影响较大,需要在其执行探测任务时保证安全飞行,即以数据挖掘模型为同步操作,保持数据采集时间节点的一致性,分析气象探测环境参数特征与无人机气象探测数据关联度。

1.3 无人机气象探测数据关联规则挖掘模型及求解

根据无人机的飞行性能以及空域条件,按照飞行计划,在探测过程中同步建立数据挖掘模型,不间断地进行气象探测数据关联规则挖掘[11],对气象探测过程中的数据进行挖掘[12],以此确定不同高程下气象数据的变化规律,并进行气象环境的静态验证。

对时间序列中隐藏的环境因素进行挖掘[13],标准化处理无人机气象探测数据,表达式为:

(6)

采用关联规则中的奇异值分解方法,提取时间序列中的极端特征,达到消除极端影响因子的目的,表达式为:

(7)

当数据被分成多个小组后,能够将最优的气象探测环境特征参数归类到所属数据集合,对不同气象类型进行判断[14]。基于环境特征关联气象数据,对照高程变化规律,静态验证气象环境,完成考虑环境特征的无人机气象探测数据关联规则挖掘方法设计。

2 实验测试与分析

将本文方法作为实验组测试对象,选择三组传统挖掘方法作为对照组,分别为K均值聚类挖掘方法和模糊聚类挖掘方法,以及C均值聚类挖掘方法。将三组方法进行多轮对照实验测试,比较不同方法下对气象数据的挖掘准确率。

2.1 气象数据样本选择

气象数据可以反映天气情况,包含天气资料和气候资料两个类型,其中气候资料主要指的是,采用气象仪器探测到的原始资料,气候资料是进行天气分析和预报的资料,两者具备极强的时效性。因此,在极短的时间内,若气象数据发生变化后没有对其进行准确的分析,则会影响后续的天气预报结果。

现阶段我国在各地均具备气象观测站,此次利用无人机技术对某省的气象数据进行采集,以持续续航20 h的标准对该地区的气象数据进行采集,将其作为此次实验测试的样本数据,具体如表1所示。

表1 无人机20 h内气象探测数据示例

根据表1所示内容,无人机在设定的时间内,以每隔1 h为探测阶段,对该区域内的气象数据进行采集。探测的气象数据主要包含三个内容,分别为气压和相对湿度以及时总雨量,其中时总雨量表示该时段内的降雨量。数据中该城市在探测期间的降雨量基本为0,表示在该时段内为非雨天,说明该城市在探测日当天的天气为晴天。

通过无人机探测到的气象数据,能够清晰地看出该城市一天内的基本天气变化情况,符合数据挖掘的要求,能够进行数据关联测试。将选择的样本数据上传到MATLAB测试平台中,分别连接四组挖掘方法,对选择的数据样本进行关联测试。

2.2 多组数据挖掘时间测试

数据挖掘的过程主要是在海量的数据中对有效信息进行提取和分析,为保证本文方法具有有效性,此次实验测试分为两个阶段。

首先进行第一部分测试,对选择的数据进行运行时间测试,即在不同的探测时段内,四组方法对所得数据的挖掘时间,是否能够保证在气象数据发生变化时满足时效性的需求。将所有探测到的数据导入测试平台后,能够直接对样本数据的大小进行统计。

为减少此次实验的测试时间,以5 h为一个时间间隔,对上述数据进行打包处理。统计完毕后对气象数据包进行标记,其中A1组为4:00-8:00的数据,共含有数据12000条;A2组为9:00-13:00的数据,共含有数据14000条;A3组为14:00-18:00的数据,共含有数据16000条;A4组为19:00-23:00的数据,共含有数据20000条。四组方法的具体挖掘时间,如图1所示。

(a)本文方法

(b)K均值聚类挖掘方法

(c)模糊聚类挖掘方法

(d)C均值聚类挖掘方法

根据图1所示内容,四组数据的词条数量是逐渐增加的,在本文方法下对不同大小的气象数据,均能将挖掘时间保持在4.80s之内,快速地完成数据的关联。而两组传统方法的挖掘时间会随着样本数据的词条数据增加,挖掘的时间也会随着增加,其中在K均值聚类挖掘方法和C均值聚类挖掘方法下,所用的挖掘时间大幅度增长。

综合实验结果可知:本文方法能够在较短时间内完成数据关联,对气象数据挖掘的时间越短,才能够在气象数据变化中保证预测的时效性。

2.3 气象数据挖掘的关联效果对比

在对比不同方法的挖掘时间下,能够看出本文方法的有效性,以此进行实验测试的第二阶段,即气象探测数据的挖掘效果对比。将20 h内的相对湿度变化进行绘制,在不同的挖掘方法下进行数据对比,每组数据的挖掘时间控制在10s之内,具体情况如图2所示。

(a)原始数据

(b)本文方法与K均值聚类挖掘方法

(c)模糊聚类挖掘方法与C均值聚类挖掘方法

根据图2所示内容,在本文方法下挖掘到的数据结果,能够与实际的相对湿度数值相匹配,而三组传统方法的关联结果,与实际数据值存在一定差距,其中仍以K均值聚类挖掘方法和C均值聚类挖掘方法的差距较大。综合实验结果可知:本文方法无论是从挖掘时间还是挖掘效果上,都能够优于传统方法,具备实际应用价值。

3 结 论

在分析环境特征的基础上,重新设计了一个气象数据的挖掘方法,对无人机的气象探测数据进行有效关联规则挖掘,随着气象数据包的含量增加,均能够将时间控制在4.8 s以内,能够保证气象数据变化的时效性。

猜你喜欢
数据挖掘均值气象
气象树
《内蒙古气象》征稿简则
探讨人工智能与数据挖掘发展趋势
大国气象
美丽的气象奇观
基于并行计算的大数据挖掘在电网中的应用
均值不等式失效时的解决方法
均值与方差在生活中的应用
一种基于Hadoop的大数据挖掘云服务及应用
关于均值有界变差函数的重要不等式