基于随机森林的钛加工表面质量评定研究

2021-01-04 14:08:40李晟周超
机械制造与自动化 2020年6期
关键词:表面质量决策树准确率

李晟,周超

(福州大学 机械工程及自动化学院,福建 福州 350116)

0 引言

钛及其合金具有耐腐蚀、导热率低及生物相容性好等特点,在航天、航空、医疗等领域广泛应用,是具有特殊战略意义的高性能金属材料[1]。采用不同工艺加工的钛合金表面具有不同的几何形貌,其对零部件的摩擦、磨损、润滑等性能的影响越来越大,已成为决定零部件性能的重要因素之一[2-3]。

不同工艺加工的零件表面形貌存在结构性差异,正确选用评定参数对定量表征加工表面质量从而进一步指导改进加工工艺具有重要意义。由于粗糙表面的三维本质,传统的二维轮廓评定参数不能全面表征表面质量,越来越多的研究工作者选用三维参数评价表面质量[4]。ISO 25178-2: 2012给出了5类共40多个三维参数,必须针对特定应用从中选取合适的参数集,方能准确、全面地评定表面质量。例如,吴乙万等[5]利用三维参数分析超精密光学表面,认为Sq、Sdr、Sdq能很好地表征光学表面性能。杨洁等[6]基于机器视觉对不同工艺处理的金属样块进行研究,认为Sq、Ssk、Sds可作为三维表面粗糙度评价的可靠参数;赵登超等[7]选取三维参数中的高度类、空间类和混合类中的12个参数进行聚类分析,发现Sa、Sq对于识别不同抛光工艺的紫铜表面的贡献度最大。

本文采用超声滚压、车削、磨削、抛光、铣削5种不同工艺加工钛样本表面,使用三维轮廓仪测量表面几何形貌;基于机器学习中的随机森林算法,以表面的三维参数Sa、Sq、Ssk、Sku、Sp、Sv、Sz、Sal、Str作为研究特征,进行表面的自动分类、特征筛选(上述表征参数的意义及算法,参见文献[5]),发现Sa(算术平均高度)、Sq(均方根高度)和Ssk(偏斜度)组成的参数集具有表征表面质量的最高重要性,并可精准区分不同加工表面。

1 随机森林算法

随机森林(random forest,RF)算法由LEO Breiman[8]提出,将CART决策树与Bagging算法相结合,形成一种集成学习算法(ensemble learning)。CART决策树是二元分类器[9],其通过两个随机过程进行构建:1)有放回地从训练样本数据集中随机抽取固定数目的样本作为训练样本集合;2)每棵树使用的特征集是从总数据集中随机选取的少数特征。通过组合多棵决策树,最终求平均值获得预测结果。

CART决策树的构建由非叶节点开始,选择特征的随机子集中的最佳分割点将数据二分类,且不断生长,当数据到达叶节点后不再划分。为将特征元素更合理地分布在非叶节点上,CART决策树通常采用基尼系数使信息增益最大化:

(1)

式中:IG为基尼系数;s为待分类特征;Dp为父节点;Nl为左子节点样本数量;Np表示父节点中样本数量;Nr为右子节点样本数量;Dl为左子节点;Dr为右子节点。

对于特征s,在决策树生长过程中,利用式(1)计算出节点划分前后的不纯度之差,便得到不纯度衰减量。平均所有决策树得到的平均不纯度衰减量,最终得到该特征的重要性[10]。对每个特征进行此操作,便得到所有特征的重要性,从而进行排序、筛选。

2 实验材料及方法

2.1 钛表面加工及数据获取

本文选用直径为20 mm的钛棒,分别采用车削、超声滚压、铣削、磨削以及抛光5种工艺加工其圆端面,每种工艺加工2个试样,总计10个试样。车削使用外圆车刀,转速为300 r/min,进给量为80 mm/min,背吃刀量为0.2 mm;球头超声滚压的加工深度为0.2 mm,进给量为250 mm/min;铣削使用球头铣刀,转速为10 000 r/min,进给速度为550 mm/min,切削深度为0.15 mm;磨削使用1500号砂纸;抛光使用丝绒抛光布,粒度为1.5 μm的钻石膏,抛盘转速为1 400 r/min。采用三维轮廓仪测量样品表面中范围为10 mm×10 mm的区域,采样间隔为4 μm,每个表面测得2 500×2 500个高度点数据。

对测量的原始数据做预处理。根据文献[11],经小波变换滤除测量基准面、高频噪声和异常值点;在每个测量表面随机选取50个128×128个采样点组成的正方形区域,总计500个表面样本。

2.2 数据处理

编写相关粗糙表面三维参数的计算程序。为适用模型训练,将计算所得所有三维参数制成数据集。表1给出了表面三维参数Sa(算术平均高度)、Sq(均方根高度)、Ssk(偏斜度)、Sku(峰态)、Sv(最大谷深度)、Sz(最大高度)、Sp(最大峰高度)、Sal(自相关长度)和Str(纹理特征比),具体几何定义见文献[4],并展示了数据集中部分数据,每一行代表一个样本表面。

表1 钛棒加工表面三维参数

在数据集中,包含500个样本表面及其9个三维参数,记作500×9维的矩阵,即X∈R500×9:

(2)

其中每一个xi(j)代表三维参数的具体值。

类似地,用1个500维的列向量表示5种加工工艺的类形标记:

(3)

其中每一个y(i)代表1个样本的类标,取值分别为1—超声滚压;2—车削;3—磨削;4—抛光;5—铣削。

3 实验结果及分析

3.1 预测结果分析

将数据集按照3∶7的比例分为训练集和测试集,保证两者同分布。为得出合理、可靠的结果,需优化算法模型,因此绘制决策树数量的验证曲线,分析最佳决策树数量取值,如图1所示。

图1 决策树数量的验证曲线

由图1(灰色部分为方差)可见,随着决策树数量上升,模型预测准确率总体上升直至平坦。决策树数量上升,虽然预测准确率上升,但模型复杂度升高,过拟合愈加严重,同时选用不同决策树数量带来的分类以及重要度的计算成本随之增加。因此需在计算成本与降低过拟合之间权衡。利用K折交叉验证法对算法进行评估,选择合理的决策树数量,量化预测准确率与泛化性能,如图2所示。

图2 决策树数量得分曲线

由图2可知,当决策树数量<10,准确率高但方差也高,说明过拟合程度较高;>60时,预测准确率下降而方差却升高,说明过拟合程度也较高;而在30~40之间时,准确率与方差的差别很小。因此考虑到计算效率与计算成本,选择30棵决策树较为合理。

利用优化好的随机森林模型对数据进行拟合并绘制学习曲线,分析模型性能如图3所示。

图3 学习曲线

由图3可见,随着训练样本数增加,模型在训练集上拟合良好,而在验证集上则是初始准确率上升较快,而后趋于平稳上升,在样本数250之后趋于稳定;模型的泛化性能稳步提升,最后与训练准确率只相差2.23%,说明模型对训练数据有轻微过拟合。

3.2 三维参数筛选及分析

利用优化好的模型,计算9种三维参数对分类表面的重要度并排序,得到图4所示结果。

图4 特征重要性及排序

由图4可知,Sa的重要性得分最高,为0.23,其次是Sq和Ssk,分别为0.15和0.14。从得分情况看,选择Sa、Sq和Ssk作为评定参数集较为合理。为验证合理性,以Sa、Sq和Ssk作为空间三坐标轴,对分类结果做可视化展示,分析合理性,详见图5。

图5 三维参数分类结果

由图5可知:对于超声滚压、抛光、铣削及车削、磨削、铣削,数据在Sa、Sq和Ssk组成的三维空间中呈线性可分态,说明分类效果良好;滚压和车削呈线性不可分态,可能是由于滚压在车削后加工,未能完全去除残余特征;抛光和磨削之间参数差距较小,可能是因为抛光的切削深度小,两者留下的特征较为接近。从表面分类来看,Sa、Sq和Ssk有良好的分类效果,作为评定参数集是合理的;从样品表面分析,由于128×128个点组成的正方形区域面积较小,表面纹理特征较为简单,因此Sa、Sq和Ssk可以更好地评定表面质量,同时有计算简便的优势。

4 结语

本文提出采用随机森林算法筛选三维参数用以评定钛加工表面的方法。结果表明:只需向随机森林算法提供加工试样表面的小部分区域和部分三维参数,就能自动、准确分辨不同表面;随机森林算法能够定量计算三维参数在分类表面过程中的贡献度大小,对于5种加工工艺而言,Sa、Sq和Ssk有最大的重要性,分别达到了0.23、0.15和0.14;由Sa、Sq和Ssk组成的空间中,超声滚压、抛光、铣削(车削、磨削、铣削)工艺的整体区分效果良好,说明此3种参数即可分类不同加工工艺,因此选用Sa、Sq和Ssk参数集定量评定钛加工表面质量是合理的,并可为提高加工质量、优化加工工艺提供定量依据。

猜你喜欢
表面质量决策树准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
裂纹敏感性钢铸坯表面质量控制
山东冶金(2019年6期)2020-01-06 07:45:58
一种针对不均衡数据集的SVM决策树算法
高强化平行流电解提高A级铜表面质量实践
山东冶金(2018年6期)2019-01-28 08:15:06
关于机械加工中表面质量控制的探究
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
高速公路车牌识别标识站准确率验证法
石英玻璃旋转超声铣削表面质量研究