融合空间物理参数的小样本极光涡旋自动分类研究

2023-11-04 12:08韩冰吴墨豪胡泽骏王平张义生
地球物理学报 2023年11期
关键词:参数信息极光涡旋

韩冰, 吴墨豪,2, 胡泽骏, 王平, 张义生

1 西安电子科技大学电子工程学院, 西安 710071 2 中国极地研究中心自然资源部极地科学重点实验室, 上海 200136 3 浙江大学海洋研究院, 浙江舟山 316021 4 北京应用气象研究所, 北京 100029

0 引言

极光是一种由太阳风和地球磁层的能量粒子与极区大气粒子发生碰撞产生的发光现象,主要出现在地球南北极高纬度地区.极光研究是人们检测地球近地空间物理过程的重要途径.不同的空间环境和动力学过程导致形成不同形态的极光(Meinel, 1954),例如,地基极光观测显示,日侧极光卵的极光可大致分为两种,即日侧弥散极光和日侧分立极光,这两大类极光分别与磁层中的粒子捕获过程和磁层边界层中的粒子加速过程对应(Hu et al., 2009; Wang et al., 2010; Han B et al., 2017a; Shi et al., 2012, 2014; Ohma et al.,2023; Han D S et al.,2023).其中一种发生于日侧正午极光卵区域的“极向运动极光”(Poleward Moving Auroral Forms, PMAFs)被认为是脉动式的日侧磁重联通量传输事件的典型电离层特征(Fasel, 1995);另一种是相同区域内发生在极光卵赤道侧的南北向极光射线带,命名为“喉区极光”(Throat aurora),被认为是与日侧磁层顶的凹陷结构对应(Han D S et al., 2015, 2016, 2017; Chen et al., 2017).因而,对极光形态进行合理分类,并总结不同形态极光的发生规律有助于我们了解不同形态极光的发生机制,提升对“太阳风-磁层耦合过程”的理解.

极光涡旋是一种具有“涡旋”特征的极光形态,即极光呈现出绕着某一中心做圆周运动的形态特征.早期的研究认为极光涡旋是磁层顶边界层K-H(Kelvin-Helmholtz开尔文一赫姆霍茨)不稳定性造成的磁层边界层等离子体涡旋的电离层映射(Hallinan,1976;Davis and Hallinan,1976).Keiling等(2009)研究发现,从亚暴扩张阶段开始时,空间涡旋产生SCW(Substorm Current Wedge亚暴电流楔)场向电流并与电离层耦合,导致电离层涡旋产生,伴生极光涡旋.Hu等(2013)通过对南北极极光涡旋/极光亮斑的共轭观测,认为导致极光弧上形成极光涡旋结构的原因是极光弧相关的平行电场上方电流片的不稳定性.Hiraki(2016)认为涡旋的形成与Alfven波及场向电流相关.上述研究成果得到的极光涡旋的产生机制并不一致,主要是因为极光涡旋存在不同种类,这些不同形态的极光涡旋产生机制有可能不一样.Hu等(2013)所提到的极光涡旋是发生在日侧极光卵午后扇区极光弧上的涡旋结构,其直径约50 km,而Keiling等(2009)涉及到的极光涡旋是出现在夜侧极光卵,其直径超过200 km.由于极光涡旋的空间尺度和发生区域的差异,可能会具有不同的产生机制.因此,对极光涡旋的形态进行分类研究是非常必要的,通过合理有效的分类,区分出不同极光涡旋的特性,才能更加精准的分析出对应的空间物理过程.

随着计算机技术的发展,大量的机器学习技术已成功应用于极光分类工作(Han B et al.,2014,2016;韩冰等, 2017;严月, 2018;宋亚婷等, 2016;Hu et al.,2021).随着数据量的不断增加以及人工智能科技的进步,深度学习技术逐渐被运用到极光影像处理中(Jia et al.,2015; Han B et al.,2015,2017a,2019a;Yang X et al.,2018;Clausen and Nickisch,2018;Yang Q J and Zhou P H,2020;Kvammen et al.,2020;Han Y Y et al.,2020;韩冰等, 2019;胡泽骏等, 2020;韩怡园等, 2023).上述成果都是以大数据已标记数据为基础的,由于极光涡旋事件发生较少,数据并不充分,如果直接应用上述方法进行极光涡旋的分类,结果可能会导致过拟合且没有很好的泛化能力.另外,目前还没有针对极光涡旋序列分类研究的工作.

如何在数据有限的情况下利用深度学习去解决极光涡旋序列分类的问题是本文主要研究内容.大部分现有工作将模型首先在较大规模数据库上进行训练,再将模型在数据量较少的数据库上进行微调来解决训练样本不足的问题,但此类方法的前提是预训练的数据库和目标数据库数据类型具有极高的相似性.但是极光数据与目前公开的自然数据库(CIFAR-10、ImageNet等)相似度并不高,所以上述方案并不适合直接应用于我们的极光分类中.小样本学习是近年来深度学习研究的热门领域之一,主要针对在无法获得海量训练数据时如何完成模型训练的问题,或者训练集中可供学习的标记样本很少的情况.小样本学习的先验知识来自三个方面:数据、模型和算法,所以小样本学习的方法可以分为基于数据增强、模型改进、算法优化的方法.大多数研究主要针对基于算法优化的方法,包括改善元学习参数(Naik and Mammone,1992;Thrun and Pratt,1998);学习更新模型参数(Thrun and Pratt,1998;Andrychowicz et al.,2016;Ravi and Larochelle,2017);参数生成方法(Liu et al.,2020;Bertinetto et al.,2016;Cai et al.,2018;Munkhdalai and Yu,2017)和基于度量学习方法(Munkhdalai et al.,2018;Snell et al.,2017;Sung et al.,2018;Vinyals et al.,2016;Zhou et al.,2003;Oreshkin et al.,2018).

本文主要利用元学习的思想,把极光涡旋分类任务划分成为多个子任务,让模型在数据和任务两个方面都进行采样,从而使模型不断地适应每个具体任务,让网络具备一种自学习的能力.为了增强每个子任务中不同类别之间的特征关系,通过结合注意力机制提高网络特征选择的精确性.另一方面,传统机器学习或者深度学习方法的极光影像分类并没有利用物理参数信息,因而不能充分地反映物理事件完整的过程,各种物理事件的发生也会伴随着空间环境参数的变化,因此将事件发生时刻物理参数的相关信息与影像分类方法进行结合更符合极光发生机制研究.基于此,本文提出一种基于注意力机制和融合空间物理参数信息的小样本极光涡旋序列分类方法,该方法可解决涡旋事件数据较少情况下的有效分类,同时将极光事件发生时的空间环境参数加入到模型中来探究空间环境参数对于极光涡旋事件的影响.本文使用的空间环境和地磁参数主要来自美国航空航天局(National Aeronautics and Space Administration,NASA)提供的OMNI(1)https:∥cdaweb.gsfc.nasa.gov/cgi-bin/eval1.cgi.数据包含32个空间环境参数和地磁环境参数及其他物理量,本文主要选取的物理参数分别是行星际磁场IMF(Interplanetary Magnetic Field)三分量(Bx,By,Bz),太阳风速度(Vp),太阳风密度(Np)以及亚暴指数(AE)、地磁指数(Dst),这些参数已经被公认为是影响极光活动的主要参数(Balan et al., 2019;Hu et al., 2009, 2017a, 2021;胡泽骏等, 2020).

1 数据来源

从2003—2017年北极黄河站全天空成像仪(5577波段)拍摄得到的全天空图像数据(Hu et al.,2009)中人工选取85个极光涡旋序列共1048幅图像构建极光涡旋分类数据集.图像的时间分辨率是10 s,选取的极光序列中最短持续时间为40 s,最长时间为3分30秒,根据不同形态,将全天空图像中具有涡旋结构的极光序列分为四种类型,分别是极光弧涡旋、射线簇涡旋、大扭曲结构的极光弧和大扭曲结构的极光射线带,各类别序列数量分别为25,20,20,20.不同类型的涡旋结构示例如图1所示.

图1 不同类型的涡旋结构示例(a) 极光弧涡旋; (b) 射线簇涡旋; (c) 大扭曲结构的极光弧; (d) 大扭曲结构的极光射线带.Fig.1 Different auroral vortex structures(a) Auroral arc vortex; (b) Ray cluster vortex; (c) Auroral arc with large distortion structure; (d) Auroral ray band with large distortion structure.

其中极光弧涡旋发生在极光弧上且弧上存在明显的涡状结构,射线簇涡旋是由大量的射线状极光围绕某一中心旋转而成,当极光弧呈现明显的扭曲形态形成大扭曲结构的极光弧,由射线状的极光所构成的类似于弧状结构称为大扭曲结构的极光射线带.

图2为各类涡旋事件在2003—2017年之间的时间分布图,由图中可以看出极光弧涡旋主要出现午后15—18 MLT(Magnetic Local Time)扇区,午前6—12 MLT扇区内,与日侧极光弧的分布特征吻合(Yang and Hu, 2018),而09—15 MLT是具有射线结构的日侧冕状极光(尤其是辐射型冕状极光)的高发区(Hu et al., 2009; Yang and Hu, 2018),所以射线簇涡旋主要出现在该扇区内.而大扭曲结构的极光弧和极光射线带,推测应该与夜侧亚暴过程有关(例如,西行浪涌就是大扭曲结构的极光弧),所以主要分布在夜侧扇区.

图2 涡旋事件时间分布图Fig.2 Temporal distribution of auroral vortices

极光涡旋各类型的分布与涡旋结构所伴随发生的极光弧、极光射线带、射线簇的分布紧密相关,而这几类基本的极光类型,其形成受空间环境的调制(Hu et al., 2009, 2010, 2012, 2013, 2017b),因而,在本文的分类方法中,加入空间环境和地磁参数信息丰富极光涡旋特征来辅助自动分类工作.

2 融合空间物理参数的、基于注意力机制的小样本学习方法

本文方法流程图如图3所示.输入的图像序列分为支持集和查询集,参数部分为所有输入图像序列所对应的空间参数.对于各类图像序列,首先经过卷积神经网络(Convolutional Neural Network, CNN)和长短时记忆神经网络提取各自的图像特征以及序列之间的信息特征,然后将提取到的特征经过特征结合模块和注意力机制模块,最后与序列的空间物理参数信息进行多模态特征融合之后可得到最终分类结果.

图3 算法流程图Fig.3 The flowchart of our proposed algorithm structure

2.1 图像特征提取

传统卷积神经网络不会去特别关注前后时刻图像之间的关系,只关注单一时刻的图像特征.但是对于序列来说,前后图像之间存在很强的关联性和相似性,因此采用长短时记忆神经网络(Long Short Term Memory Networks,LSTM)提取极光序列特征.长短时记忆神经网络是由多个块串联构成,通过多个块之间长期的信息传递来不断进行信息更新,所以处理之后的序列特征信息既包含前一时刻图像信息又包含后一时刻图像信息,极大程度保留了序列整体的特征.特征融合模块采用的是在小样本分类任务中广泛使用的深度残差网络(ResNet12),其主要由四个残差块构成,其中每个残差块的结构均和文献(He et al.,2016)中所用结构相同,如公式(1)所示:

Y=(P,Q)=Res(P′ht,Q′ht),

(1)

其中Y是经过特征融合模块之后得到的特征图,P,Q分别代表支持集和查询集特征图,P′ht,Q′ht表示输入图像序列经过CNN+LSTM模块提取得到的序列特征.

2.2 注意力模块

输入序列经过特征提取后通过注意力模块将所得特征进行进一步特征结合,得到输出特征图Fp及Fq,注意力模块结构如图4所示.

图4 注意力模块结构(其中m,h,w分别代表特征通道数、高度和宽度)Fig.4 Attention module structure

图4中关联层用来计算P(P=[p1,p2,p3,…])和Q(Q=[q1,q2,q3,…])的相关性,并指导注意力图的生成,之后进一步利用余弦距离计算二者之间的语义相关性得到相关映射,相关计算如公式(2)、(3)所示:

(2)

(3)

‖src‖代表的是二范数,公式(3)中通过各自的二范数计算出余弦距离,T表示的是矩阵转置.

利用融合层将通过关联层产生的Rp和Rq分别作为输入得到注意力图,利用公式(4)得到输出特征图Fp,Fq:

(4)

其中Pool(average pooling)表示平均池化操作,σ为激活函数,()conv代表多次卷积操作.

2.3 多模态信息融合

将输入的空间参数进行特征编码得到空间参数信息I,与2.2节中注意力模块所得特征图(Fp,Fq)融合得到多模态特征信息F·I,多模态信息融合的具体流程如图5所示.

图5 多模态信息融合的流程Fig.5 The flowchart of multimodal information fusion

通过利用联合表示的方式将多个模态的信息一起映射到一个统一的多模态向量空间,将结合的特征作为模型损失函数的约束项,从而指导模型完成分类任务.

模型的损失函数由公式(5)给出,它由三部分构成:

L=L1+αL2+βL3,

(5)

其中α和β表示的是不同的权重系数,L1代表将查询集特征进行全局分类的损失函数,可通过公式(6)计算:

(6)

其中Ti*Qi表示在(第i个序列)中查询集特征图Q与经过one-hot编码之后的标签T乘积所得结果,Yt表示的是每一序列i原始标签,n表示序列的总数.

L2是查询集特征进行局部分类的损失函数,由公式(7)和(8)计算:

(7)

(8)

L3为多模态信息融合部分损失函数,由公式(9)计算:

(9)

其中I表示的是经过长短时记忆神经网络之后提取到的空间参数信息.

3 实验结果

本文所有的实验均在64位操作系统的Windows下进行,选用Pytorch深度学习框架.实验按照1∶1的比例将原始数据集划分为训练集和测试集,模型训练时,学习率(learning rate)为0.01,迭代次数(epoch)为60,每次传递样本数量(batch size)为4,网络优化器采用SGD(Stochastic Gradient Descent)并且使用交叉熵作为损失函数.网络训练时对数据采用了数据增强策略,包括对数据随机缩放、随机遮挡,使用这些方法可以提高模型的泛化能力,防止过拟合,输入图像大小为84×84.实验准确率是通过在4类数据中每次进行相同数量随机采样,构成多组数据并赋予标签值,构建20组共320个极光图像序列,实验准确率为20组的平均准确率.

表1列出本文模型和当前主流小样本学习方法DN4(Deep Nearest Neighbor Neural Network)(Li et al.,2019)的实验对比结果以及不同特征提取网络对准确率的影响,表1“空间参数”栏中“√”表示实验时模型中包含空间物理参数信息,“×”表示模型中未包含空间物理参数信息.从表中对比结果可以看出,我们的方法除了在网络结构为ResNet-101时略低于DN4方法结果,其余4个不同的网络结构,均获得了较好的结果,其中在使用ResNet-12网络且融合了空间物理参数时获得了最高的准确率66.25%,比使用ResNet-12但不添加物理参数时提升了近10个百分点.当采用较深层网络结构时实验准确率较低,原因是相比于自然图像,全天空极光图像仅包含极光弧、极光射线等简单的结构并不会包含过多的语义信息.深层的网络结构参数量较大,复杂度较高,需要学习的参数量增加,会远远超过极光图像分类任务自身的复杂度,使得模型很难从数据中进行学习和优化,进而导致准确率降低.基于此本文后续实验模型均包含空间物理参数信息并使用ResNet-12网络进行特征提取.

表1 不同小样本模型实验结果Table 1 Experimental results of different few shot models

3.1 不同历史时段及不同时刻参数的影响

为了研究极光事件不同历史时间段的物理参数信息对模型产生的影响,将7个空间参数(Bx,By,Bz,Vp,Np,AE,Dst)按照不同累积时间段添加至模型中进行对比实验,结果如图6所示.图中横坐标Δt表示的是在事件发生时刻之前某个时间开始到事件发生时刻为止的不同时间段(添加参数信息进行实验时需要考虑不同大小Δt,单独使用极光序列图像信息时则无需考虑),纵坐标表示的是实验准确率.蓝色虚线表示序列结合不同历史时刻参数的准确率,红色虚线表示单独使用序列信息分类的准确率,由于仅仅使用图像信息,并不随时间变化而变化,准确率一直为56.37%.

图6 添加不同时间段物理参数实验结果Δt表示不同历史时间段,其值为0时表示事件发生时刻,Δt=2表示将事件发生时刻前2 min至事件发生时刻的空间环境参数加入至模型中.Fig.6 Experimental results with different physics parameters in different time periodsΔt indicates different historical time periods, when Δt is 0, it indicates the start of the event, and Δt=2 indicates that the model uses all spatial physics parameters from 2 min before the event occurs to the entire time period when the event occurs.

由图6可以看出,在原模型中加入相关空间环境的物理参数信息之后,准确率在Δt为1~11 min之间有明显的提升且呈现上升趋势,说明了物理参数对分类准确率有一定影响,即参数和事件之间存在相互联系.但在Δt>11 min分类准确率呈现明显的下降趋势,其背后的物理原因可能是空间参数对于极光涡旋事件的影响时间主要是10 min左右,历史时间段较长时极光涡旋还未形成,参数变化影响较小.当添加参数的时间段较短时,会缺少部分时间段的参数变化影响导致结果较低.其中当Δt为11 min时,最高准确率为66.25%.

不同类型的极光涡旋分类准确率的混淆矩阵如表2所示.

表2 最高准确率下的混淆矩阵Table 2 Confusion matrix with the highest accuracy

通过混淆矩阵可以看出,在构建的20组320个数据中,各个类别正确分类的数目分别为44,69,39和60.其中射线簇涡旋和大扭曲结构的极光射线带被误判的次数比较少,从极光图像中可以看出,射线簇涡旋中包含大量射线簇结构,大扭曲结构极光射线带呈现大范围细小的射线结构,所以和其他类别区分度较高.由于极光弧涡旋大部分产生在极光弧上,所以会有25次被误判为大扭曲结构的极光弧.大扭曲结构的极光弧有18次被误判为和其结构近似的大扭曲结构的极光射线带.

进一步地,对于单一时刻空间参数的影响也进行实验对比,结果如图7所示.其中蓝色虚线表示的是加入不同历史时刻物理参数信息的准确率,红色虚线表示单独使用序列信息分类的准确率.

图7 添加不同时刻物理参数实验结果t表示事件发生前某一具体时刻,t=2表示将事件发生前第2 min的空间环境参数加入至模型中.Fig.7 Experimental results with different physics parameters in different times t indicates a specific moment before the event occurs, and t=2 indicates that the model uses the spatial physics parameters at the second minute before the event occurs.

图7中t表示事件发生前的不同时刻,当t=14时,分类准确率达到最高63.12%.从整体结果可以看出,单独时刻空间参数对于极光涡旋的影响并不稳定.因为涡旋的产生自身是处于一个变化的过程,但是某一时刻单独的参数变化可能无法从参数信息方面体现出其具体变化的过程,所以结果并不表现出上升或者下降的趋势,但总体上实验结果仍优于单独使用图像信息的结果.

3.2 不同参数组合的影响

为了研究这些物理参数中,何种组合的物理参数对于实验结果影响较大,这里对于6个物理参数的所有组合进行实验对比分析,采用的均是图6中10 min时间段的空间参数,表3为不同参数组合对分类准确率影响的实验结果.

表3 不同空间参数组合对分类准确率影响的实验结果Table 3 Experimental results with different parameter combinations

续表3

由表3实验结果可以发现,使用单个参数信息时,行星际磁场参数对于分类结果的提升最明显,单独使用Bz时效果最好,所以初步分析行星际磁场参数对涡旋影响效应最明显.

将单独使用Bx,By,Vp,Np,AE(No.2—3,5—7)与表3中将这五种参数和Bz分别结合相比(No.9,13,17—19),实验组合(Bz,Vp)可以达到较好的准确率和两种参数组合中实验效果最好的组合(Vp,AE)(No.21)基本保持相同准确率.

观察三种参数组合(No.23—42)的实验结果可以发现,行星际磁场参数的组合效果是最好,并且在三种参数组合中如果仅包含一个行星际磁场参数,那么实验结果会普遍低于包含两个行星际参数的实验结果,进一步说明行星际磁场作为整体加入模型中会有更好的效果.另外,在四种组合的结果中,行星际磁场参数与Vp及AE各自的组合也可以达到比较高的实验准确率(No.43,45),也体现出上述结果.若对比其与Np的实验结果(No.44)可以发现,在加入了Np指数后有了明显的下降,也再一次说明单一参数结果中Np对于极光涡旋分类的影响并不明显.进一步通过观察五种参数的实验组合结果,可以看出最好的结果为(No.59)此时空间参数并没有添加Np.

对比五种不同参数实验结果(No.58—63),将行星际磁场参数作为整体和其他三种参数结合时效果较好,说明了行星际磁场参数整体对于涡旋事件会有更强的影响.

通过实验结果看出行星际磁场的变化会对极光涡旋产生明显的影响,已有研究认为这种涡旋形态极光的产生是因为空间电场中存在不稳定的剪切电流导致的,而行星际磁场相关参数变化代表日地空间中的磁场变化,和其有着密切的联系,所以行星际磁场和涡旋的发生有着密切的关联性.

已有研究通常将Dst指数和AE指数联合分析电离层亚暴事件,根据3.2小节实验结果,将行星际磁场三分量看作整体与其余参数进行不同组合进行实验,添加Dst指数实验的实验结果如表4所示.

表4 添加Dst指数的实验结果Table 4 Experimental results with Dst parameter and other parameters

将表4中15组实验和表3中不添加Dst指数的15组实验进行对比,添加Dst指数后大部分实验准确率都有所下降,如Vp+Dst与只使用Vp相比下降3.75%,Bx+By+Bz+Vp+Np+AE+Dst与不加Dst相比下降9.69%.对于准确率降低的情况,经过分析可能是由于Dst指数的时间分辨率为1 h而其余参数分辨率均为1 min,所以相同时间内Dst指数保持不变并且对于不同类别事件若发生在相邻时刻Dst指数可能完全相同,并没有起到辅助判别的作用.

4 结论

利用极光受空间环境参数调制的物理特性,本文提出了一种引入空间物理参数并结合注意力机制的小样本学习方法,用于极光涡旋事件的自动分类.基于北极黄河站的5577波段全天空极光图像中涡旋事件分类结果表明:

(1) 引入空间物理参数能显著提高分类结果的准确性,例如单独使用图像时准确率为56.37%,而引入空间物理参数后,准确率都有所提升,最高达到66.25%,这表明空间环境参数对极光涡旋的产生有着明显的调制作用;

(2) 在不同时间范围内空间物理参数对分类的结果也有影响,对于极光涡旋事件,采用事件前11 min内的空间物理参数,分类的准确率最高;

(3) 不同空间物理参数的组合,对分类的准确率有着显著的影响.对于行星际磁场(Bx,By和Bz)、太阳风参数(Vp,Np)以及地磁指数(AE),6种参数引入时分类准确率最高.

猜你喜欢
参数信息极光涡旋
基于BIM技术的建筑构件参数信息交互研究
基于PM算法的涡旋电磁波引信超分辨测向方法
基于SolidWorks和Excel二次开发零部件参数化设计研究
基于U-net的紫外极光观测极光卵形态提取
BIM参数信息在管网运维平台上的应用研究
模拟输注系统的设计与应用
神奇的极光
光涡旋方程解的存在性研究
极光之上的来客
神奇的极光