基于神经网络方法的序列数据分类模型

2023-04-13 09:07李良蔡少锋谢耀荣苏建华薛媛谢耀斌
计算机时代 2023年4期
关键词:神经网络

李良 蔡少锋 谢耀荣 苏建华 薛媛 谢耀斌

摘  要: 序列数据处理在天体光谱分类领域是一项非常重要的任务,但是传统的处理方式成本高、效率低。通过构造一种以focal loss作为损失函数的多分支一维卷积神经网络对LAMOST部分序列数据进行了分类,并采用MarcoF1分数作为评价指标。结果表明该模型取得了理想的实验效果,并且focal loss损失函数(其在不平衡数据分类任务中对困难样本增加权重)相比传统的交叉熵损失函数也有更好的预测精度。

关键词: 序列数据; 神经网络; 多分支结构; 一维卷积; 损失函数

中图分类号:TP389.1          文献标识码:A     文章编号:1006-8228(2023)04-44-04

Abstract: Sequence data processing is a very important task in the field of celestial spectral classification, but the traditional processing method is costly and inefficient. A multi branch one-dimensional convolutional neural network with focal loss as the loss function is constructed to classify partial sequence data of LAMOST, and MarcoF1 score is used as the evaluation index. The results show that the model achieves ideal experimental results, and the focal loss function, which adds weight to difficult samples in unbalanced data classification tasks, has better prediction accuracy than the traditional cross entropy loss function.

Key words: sequence data; neural network; multi-branch structure; one-dimensional convolution; loss function

0 引言

在天体光谱等工程领域[1-2]会产生海量的数据。这些数据具有相似的特征,或者说存在某一维度的序列关系,因此被统称为序列数据。传统的序列数据处理算法采用人工或半人工的模板匹配的方式[3-4],难以取得理想的效果。近年来很多学者开始将机器学习方法应用于序列数据处理。以天体光谱分类为例,覃冬梅等[5]提出使用主成分分析的方法对天体光谱的有效特征进行提取、降维,然后使用KNN分类器对降维后的数据分类;Almeida等[6]利用k-means方法对SDSS数据的所有恒星光譜和星系光谱进行无监督分类;蔡江辉等[7]在频繁模式树的基础上提出分类模式树的概念,研究加权频繁模式树来搜寻天体光谱的特征和参数之间的关系模式进行光谱分类。

基于神经网络方法的深度学习技术已在物体分类、分割和检测等领域显示出了其强大的性能。本文从基础神经网络模型结构出发,提出了面向序列数据分类的多分支一维卷积神经网络模型,并采用了focal loss缓解了类别不平衡问题,最终实现了极佳的分类效果。

1 网络模型

1.1 一维卷积

神经网络技术历经多年演变,已由最开始的单个感知机发展到现在的深度前馈神经网络,在语音识别和图像分类等任务中取得了巨大成功[8-9]。

现在常用的卷积神经网络技术适用于图像识别领域,并且可以根据其卷积核的维度可以分为一维卷积、二维卷积和三维卷积。其中三维卷积适用于立体图像识别,二维卷积适用于平面图像的识别。对于序列数据分类的任务,可以将其视为一维图像特征序列。因此适用于一维卷积,其原理如图1所示。

1.2 多分支结构

GoogLeNet是Google团队提出的一种神经网络模型,在ImageNet挑战赛中取得了优异的成绩。其核心的神经网络模型Inception模块采用了多分支卷积的结构,随后逐步发展完善了多个版本[10-12],其结构如图2所示。

受到Inception模块的启发,本文在处理序列数据分类任务时也构建了一种多分支结构。通过三个不同大小一维卷积核的处理,该结构能够从多种不同跨度的区间提取有效特征,具有更强的特征解析能力。

1.3 Focal loss

Focal loss由何恺明等[13]提出,最初用于解决图像检测算法中数据不平衡造成的模型性能下降。用于多分类问题的原始交叉熵损失函数如下:

为了处理多分类问题中数据极端不平衡问题,focal loss引入了一个权值项,以实现对少数样本类和个别困难样本的重视,focal loss损失函数的形式如下:

其中,[γ]为调整权值偏重程度的超参,[p]为模型输出的概率值。本文采用了focal loss损失函数替代了原有的交叉熵损失函数,大大改善了因样本类别不平衡而造成的模型性能损失。

1.4 网络结构

本文基于神经网络方法并结合上述几种模块提出了面向序列数据分类任务的多分支一维卷积神经网络,其结构如图3所示。该网络包括三个一维卷积分支进行特征提取,然后三个分支的特征被组合在一起输出分类结果,最后由focal loss损失函数指导整个网络完成训练。

2 数据与实验

2.1 数据集

为了证明本文提出的网络模型的有效性,来自于中国科学院国家天文台的LAMOST数据集被用于实验验证。LAMOST数据集[14-15]是一个公开数据集,目前已被广泛用于序列数据分类实验。该数据集中的每一条光谱提供了3690-9100埃的波长范围内的一系列辐射强度值,旨在对恒星、星系、类星体和未知天体四种天体结构进行分类。

图4给出了数据集中的部分数据,前2600列代表某个波段的辐射强度,type表示天体的类别,其中star、galaxy、qso和unknown分别代表恒星、星系、类星体和未知天体。

图5所示的是对每种不同的星体类别随机选取四个不同样本所做的辐射波段-强度图,从图5中可以看出,虽然数据的分布特征不尽相同,但同种类别的数据的分布范围和趋势有相似特点,说明数据具有可分性。

2.2 评价指标

表1给出了四种不同类别星体的数量,从表1中可以看出star约占整个数据的92%,是qso的314倍,因此,LAMOST数据集属于极端不平衡的数据集。所以准确率不适用于LAMOST数据分类,本文采取Van Rijsbergen提出的F1得分作为评价指标[16]。F1得分是精确率和召回率的调和平均数,能够综合评价精确率和召回率对分类结果的影响。某一类别的F1分数计算方式如下:

在单个类别的[F1]分数的基础上,可以进一步引入[MarcoF1]分数。该指标由每个类别的[F1]分数的算术平均值计算得出,可以综合衡量所有类别的结果质量,其形式如下:

2.3 实验设置

为了判断模型在对数据集预测效果的好坏,本文从40000条数据中随机选取30%作为测试集,其余部分作为训练集参与模型训练。

除此之外,为了证明所提出的模型相比传统的神经网络模型对天文数据分类等任务具有更优的效果,本文还设计了全连接神经网络和单分支的一维卷积神经网络进行对比实验。

其中全连接网络包含两个隐藏层,每个隐藏层都有512个神经元。单分支一维卷积神经网络有三个隐藏层,第一层由64个卷积核构成的卷积层,第二层是最大池化层,第三层是包含64个神经元的全连接层。

2.4 结果讨论

表2给出了三种模型分别在log loss和focal loss下在测试集上的[MarcoF1]得分。

从模型上看,采用一维卷积无论是以log loss还是以focal loss作为损失函数,预测效果都明显优于作为基线模型的全连接神经网络,说明一维卷积方法更加适用于天体光谱这种序列数据。而本文提出的网络模型在此基础上有了进一步提升,这表明多分支一维卷积网络能够从多种不同跨度的区间提取有效特征,进而更好地预测天体类别。

从损失函数上来看,在使用同一模型的基础上,focal loss作为损失函数相比于以log loss作为损失函数均有一定程度的提升。该结果表明在不平衡数据分类任务中通过在损失函数中对困难样本增加额外权重,能使损失函数倾向于优化难分样本从而提高预测的精度。

3 结束语

为了对海量的序列数据进行精准自动分类,本文提出了一种多分支一维卷积神经網络,并在一个公开数据集上进行了实验。首先,通过三个不同尺度的一维卷积核从不同跨度对数据提取特征,然后通过三个全连接层对四种目标类型进行分类。除此之外本文还使用了focal loss解决了log loss在不平衡数据集难以训练少数类别数据的问题。实验结果表明该网络能够有效提取LAMOST数据集的特征,显著提高了天梯分类等序列数据分类任务的准确率,具有优秀的应用价值。

参考文献(References):

[1] 谷建伟,周梅,李志涛,等.基于数据挖掘的长短期记忆网络模型油井产量预测方法[J].特种油气藏,2019,26(2):77

[2] 艾丽雅.天体光谱的分类算法研究[D].鞍山:辽宁科技大学硕士学位论文,2016

[3] Liu C, Cui W Y, Zhang B, et al. Spectral classification of stars based on LAMOST spectra[J].Research in Astronomy and Astrophysics,2015,15(8):1137

[4] Gray R O, Corbally C J, De Cat P, et al. LAMOST observations in the Kepler field: spectral classification with the MKCLASS code[J]. The Astronomical Journal,2015,151(1):13

[5] 覃冬梅,胡占义,赵永恒.一种基于主分量分析的恒星光谱快速分类法[J].光谱学与光谱分析,2003(1)

[6] Almeida J S, Aguerri J A L, Munoz-Tunón C, et al.Automatic unsupervised classification of all sloan digital sky survey data release 7 galaxy spectra[J]. The Astrophysical Journal,2010,714(1):487

[7] 赵旭俊,蔡江辉,张继福,等.基于分类模式树的恒星光谱自动分类方法[J].光谱学与光谱分析,2013,33(10):2875-2878

[8] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. nature,1986,323(6088):533-536

[9] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324

[10] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2015:1-9

[11] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International conference on machine learning. PMLR,2015:448-456

[12] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C] // Proceedings of the IEEE conference on computer vision and pattern recognition,2016:2818-2826

[13] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense  object detection[C]//Proceedings of the IEEE international conference on computer vision,2017:2980-2988

[14] Zhao G, Zhao Y H, Chu Y Q, et al. LAMOST spectral survey—An overview[J]. Research in Astronomy and Astrophysics,2012,12(7):723

[15] Cui X Q, Zhao Y H, Chu Y Q, et al. The large sky area multi-object fiber spectroscopic telescope (LAMOST)[J]. Research in Astronomy and Astrophysics,2012,12(9):1197

[16] Van Rijsbergen C. Information Retrieval. Dept. of Computer Science, University of Glasgow[J]. Google Scholar Google Scholar Digital Library Digital Library,1979

作者簡介:李良(1970-),男,四川成都人,西南石油大学学士,高级工程师,主要研究方向:大数据应用研究与开发。

通讯作者:谢耀荣(1962-),男,甘肃甘谷人,西南石油大学学士,高级工程师,主要研究方向:数字化与大数据应用。

猜你喜欢
神经网络
基于递归模糊神经网络的风电平滑控制策略
BP神经网络在路标识别上的应用研究
神经网络抑制无线通信干扰探究
基于Alexnet神经网络的物体识别研究
基于BP神经网络的旋转血泵生理控制
基于神经网络MRAS的速度辨识仿真研究
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
基于神经网络分数阶控制的逆变电源