李至立?刘兴惠?李媛?卢绪迪
摘 要:文章旨在基于半潜式平台系统故障警报分类数据集构建故障警报预测模型。采用SMOTE过采样与随机欠采样相结合的混合采样方法对训练集进行采样,实验结果表明,最佳采样率为过采样率0.3、欠采样率0.6,此时随机森林在采样后训练集上采用五折交叉验证训练后得到的AUC得分均值最高。同时说明了该混合采样方法在采用了最佳的采样率后可以较好地改善训练集类别不平衡问题,较大地提高模型的泛化能力。
关键词:半潜式平台;警报;混合采样;集成学习
中图分类号:TP18;U661 文献标识码:A文章编号:2096-4706(2022)06-0079-03
Alarm Prediction Model of Semi Submersible Platform Based on Composite Sampling and Stacking Integration
LI Zhili1, LIU Xinghui1, LI Yuan1, LU Xudi2
(1.Shandong Vheng Data Technology Co., Ltd., Yantai 264003, China; 2.CIMC Offshore Engineering Institute Co., Ltd, Yantai 264003, China)
Abstract: The purpose of this paper is to build a fault alarm prediction model based on the fault alarm classification data set of semi submersible platform system. The composite sampling method combining SMOTE with random under sampling is used to sample the training set. The experimental results show that the optimal sampling rate is 0.3 for over sampling and 0.6 for under sampling. At this time, the random forest is trained on the training set after sampling using five fold cross validation, and the mean value of AUC scores is highest. At the same time, it shows that the composite sampling method after using the best sampling rate can improve the class imbalance problem of training set and greatly improve boost the generalization ability of the model.
Keywords: semi submersible platform; alarm; composite sampling; Ensemble Learning
0 引 言
作为资源开发的重要海洋工程装备[1,2],半潜式平台一般作业于环境恶劣多变的深海区,平台系统运行稳定性受到严峻挑战,故障警报信号频发[3-7]。根据故障的严重性和紧急程度,警报信号分为低、中、高三个级别,其中低级警报信号数量占比98%,中高级警报信号数量仅占2%。由于不同等级的警报信号数量差异巨大,收集到的故障警报分类数据集存在类别极度不均衡的问题,使分类模型具有很严重的偏向性,因此难以构建泛化能力强的警报信号分类预测模型。机器学习、深度学习等人工智能算法基于大数据可进行复杂的关联映射,构建故障警报信号与其诱发因素间的关联模型。本文首先采用混合采样方法将故障警报类别不平衡训练数据集转换为类别平衡训练数据集,然后基于该类别平衡训练数据集采用机器学习算法构建平台系统故障警报预测模型。
1 类别不平衡数据集的混合采样方法研究
目前解决类别不平衡问题一般采用预处理方法、算法中心方法、代价敏感方法和混合方法四种,其中预处理方法又可以细分为特征选择方法、欠采样方法、过采样方法和混合采样方法[8-10]。單一的过采样方法容易产生过拟合,而仅通过欠采样来使类别平衡容易丢失大量信息,造成欠拟合,因此本文采用将过采样与欠采样相结合的混合采样方法来产生类别平衡训练数据集,设置合适的采样率,降低类别不平衡比,既能合成少数类新样本,弥补少数类样本数量的不足,又能防止过度欠采样,使多数类损失大量有用的信息。
本文将配电盘综合负载功率、综合负载电压、综合负载电流、发电机功率、风速与推进器功率等六个因素作为建模输入特征,将中高级故障警报信号标记为1,低级信号标记为0,共收集样本20 771个,其中类别1为619个,类别0为20 152个。数据集划分比例为训练集70%,测试集30%,测试集数据用于评估模型的泛化能力。采用SMOTE过采样与随机欠采样相结合的混合采样方法来减轻训练数据集的类别不平衡问题。
采用单一的过采样或欠采样方法默认将类别比例转变为1:1,但往往不是最合适的类别比例,分类模型性能并不理想。为了获得最佳的采样率,本文设计了不同的过采样率与欠采样率组合,得到不同的混合采样训练集,然后分别在不同混合采样训练集上采用随机森林算法通过五折交叉验证的方式以ROC_AUC作为模型的评估指标,通过比较验证集ROC_AUC均值的大小来获得最佳的采样率。SMOTE过采样与随机欠采样分别通过调用类别不平衡处理库imblearn库中的SMOTE与RandomUnderSampler包来实现。实验结果如表1所示。E79B5F08-E8C1-4FB6-BEB0-3E7CA3828A31
由表1可看出,随机森林算法在由采样组合2得到的混合采样训练集上采用五折交叉验证训练后得到的验证集AUC得分均值最高,因此最佳采样率是过采样率0.3,欠采样率0.6,即首先应用SMOTE,将少数类别1的分布提高到多数类别0的30%,然后使用欠采样将多数类别0的比例降低到少数类别1的60%。采样前训练数据集中类别1样本个数为440,类别0样本个数为14 099,不平衡比为32.0;混合采样后训练数据集中类别1样本个数为4 229,类别0样本个数为7 048,不平衡比降为0.7。
2 基于Stacking集成的RBXS平台系统故障警报预测模型
集成学习方法是一种通过构建并结合多个基学习器来完成学习任务的机器学习方法。集成学习根据基学习器集成的方式方法的不同主要分为Boosting、Bagging、Stacking以及均值法、投票法等常规结合方法。本文主要涉及Boosting、Bagging、Stacking集成方法。
2.1 模型设计
单一的分类器往往并不能获得理想的拟合效果和泛化能力,因此本文提出了基于Stacking 集成的RBXS(RF-Bagging-XGBoost Stacking)模型。其中Stacking集成的第一层基分类器主要采用 RF、Bagging和XGBoost三个强分类模型,每一个模型都采用五折交叉验证的方法训练并输出预测结果到第二层元分类器。第二层元分类器过于复杂易造成过拟合,所以选择简单的逻辑回归作为元分类器,利用第一层得到的预测数据进行训练并得出最终的预测结果。模型基本结构如图1所示。
2.2 实验设计与结果分析
本文首先采用随机森林(Random Forest, RF)、引导聚集算法(Bootstrap aggregating, Bagging)、梯度提升决策树(Gradient Boosting Decision Tree, GBDT)、自适应提升(Adaptive Boost, Adaboost)、XGBoost(Extreme Gradient Boosting)、LightGBM(Light Gradient Boosting Machine)等单分类器建模,在混合采样训练数据集上用网格搜索结合五折交叉验证的方式进行调参。最优参数组合如表2所示。
为了获得分类效果最好的Stacking集成分类器,本文设计了四种Stacking第一层基分类器组合,具体如表3所示,使用逻辑回归作为第二层分类器。采用5折交叉验证训练这些Stacking集成模型,AUC得分取5次训练后验证集得分的均值,对比采用不同分类器组合的Stacking集成模型及各个单分类器的AUC得分。
由表3可知,第一个基分类器组合都属于Boosting类算法,采用Stacking集成后产生了过拟合,集成模型AUC得分相比单模型XGBoost及LightGBM得分有一定程度下降;第二个基分类器组合都属于Bagging类算法,Stacking集成后相比单一基分类器的泛化能力有较大提高;第三个基分类器组合是在第二个基分类器组合基础上加入泛化能力最好的单一基分类器XGBoost后,Stacking模型AUC得分略有提高;若将所有基分类器进行Stacking集成,泛化能力反而下降。因此本文提出的Stacking集成的第一层基分类器采用 RF、Bagging和XGBoost,并选择逻辑回归作为元分类器。
2.3 模型评估
首先在测试集上使用ROC_AUC评估指标对采用了最优基分类器组合的RBXS模型进行评估,然后采用RBXS模型在原始训练数据集上训练并使用相同的测试集进行评估,对比采样前后模型在测试集上的泛化能力,同时绘制ROC曲线如图2所示。
由图2可知,RBXS模型在未混合采样的原始训练集上训练后,在测试集上的AUC得分为0.857(蓝色虚线所示);经过混合采样的训练集上训练后,在相同测试集上的AUC得分提高至0.903(红色实线所示),AUC得分提高了5.4%。由此说明SMOTE过采样与随机欠采样相结合的混合采样方法较好地改善了训练集类别不平衡问题,增强了模型对少数类别的分类效果,较大地提高了模型的泛化能力。
3 结 论
鉴于收集到的半潜式平台系统故障警报数据集类别极度不均衡,难以训练出泛化能力强的警报信号分类预测模型,本文首先采用将SMOTE过采样与随机欠采样相结合的混合采样方法改善训练集的类别不均衡问题,然后提出了基于Stacking 集成的RBXS平台系统故障警报预测模型,在混合采样训練集训练后经测试集评估,该模型的AUC得分达到0.903,较训练集未经过采样的测试集AUC得分提高5.4%,表明该模型具有较好的拟合效果和泛化能力,能够较准确地分辨出低级警报信号与中高级警报信号。同时说明了混合采样方法较好地改善了训练集类别不平衡问题,提升了模型对少数类别的分类质量,较大地提高了模型的泛化能力。
参考文献:
[1] 任仲福.海洋石油钻井平台安全风险以及风险管控分析 [J].科技创新与应用,2017(27):124+126.
[2] 闫会宾.海洋平台结构与设备的可靠度与风险评估 [D].杭州:浙江大学,2016:1-22.
[3] 白旭,汤荣铿,罗小芳,等.基于故障树分析和贝叶斯网络方法的半潜式钻井平台系统多状态可靠性分析 [J].中国造船,2020,61(2):220-228.
[4] 罗小芳,孙宇,白旭,等.基于动态故障树的半潜式钻井平台钻井系统失效风险分析 [J].船舶工程,2019,41(3):107-114.
[5] 贾占桥. 船舶机电设备诊断方法研究 [J].内燃机与配件,2020(19):131-132.
[6] 李科文,冷阿伟,刘庆江,等.半潜式钻井平台开发方案综合评价研究 [J].航海工程,2018,47(A01):97-100.
[7] 刘子健,李飞.半潜式平台适用性影响因素研究 [J].中国造船,2019(Z1):392-397.
[8] KAUR H,PANNU H S,MALHI A K. A systematic review on imbalanced data challenges in machine learning:Applications and solutions [J].ACM Computing Surveys(CSUR),2019,52(4):1-36.
[9] KRAWCZYK B. Learning from imbalanced data:open challenges and future directions [J]. Progress in Artificial Intelligence,2016,5(4):221-232.
[10] GUO,H X,LI Y J,SHANG J,et al. Learning from class-imbalanced data:Review of methods and applications [J]. Expert Systems with Applications,2017,73:220-239.
作者简介:李至立(1988.01—),男,汉族,山东济宁人,中级工程师,硕士,2011年毕业于哈尔滨工业大学计算机科学与技术专业,主要研究方向:大规模数据处理、分布式存储与分析、商务智能等。
收稿日期:2022-02-17
基金项目:烟台市重点研发计划项目(2020JMRH010)E79B5F08-E8C1-4FB6-BEB0-3E7CA3828A31