基于数据驱动的热处理工艺仿真准确预测技术研究

2023-10-29 01:58温海峰赵锡睿崔浩然刘英浩陈洋王洪伍左柏强李健谢剑郭云龙刘欣
机器人技术与应用 2023年5期
关键词:决策树热处理分类

温海峰 赵锡睿 崔浩然 刘英浩 陈洋 王洪伍 左柏强 李健 谢剑 郭云龙 刘欣,4

(1 中国兵器工业集团航空弹药研究院有限公司,哈尔滨,150036;2 北京理工大学,北京,100081;3 空装驻哈尔滨地区第三军事代表室,哈尔滨,150000;4 北京理工大学长三角研究院(嘉兴),浙江嘉兴,314019)

0 引言

作为世界上最大的钢铁产出国,我国钢材质量与西方发达国家存在较大的差距,国内钢铁产业面临着大而不强的问题。虽然我国的钢铁产量很大,但产品质量和竞争力相对较低。制造业的转型升级是解决钢铁质量问题、推动制造业发展的关键。随着现代科技的突飞猛进,为了提升产品性能、保障作战能力,推动我国航空航天和国防装备的发展,高强高硬材料、智能制造和轻量化设计领域的相关技术在航空和国防装备领域扮演着愈发重要的角色,新产品也呈现出微型化的发展趋势,提高铸钢件质量和性能已经刻不容缓。

衡量金属的力学性能时,强度和塑性常被视作两个关键指标,材料失效通常是由强度和塑性缺陷引起的[1]。而热处理工艺通过控制金属材料的温度变化和保温时间,改变金属材料中的晶体结构、晶粒大小、相含量以及组织分布等特征,以此对材料的强度、塑性和其他力学性能产生显著影响,是制造过程的重点工序。在我国,热处理加工量约50Mt/年[2]。而在现代装备制造业中,热处理不仅是改善和控制材料性能,提高产品使用寿命、可靠性和安全性的关键工艺,也是实现装备轻量化的重要途径。

全面质量控制是热处理工艺[3]中的重要环节,其目的是消除零件热处理缺陷,提高铸钢件质量。热处理质量控制涉及设备及仪表控制、工艺材料及参数控制和工艺过程控制等方面,已贯彻实施热处理技术标准[4-5]。一直以来,热处理过程中的微观组织演变与材料性能之间的联系复杂却关键,现有的经验公式和试验方法在应对不同材料和热处理参数时存在局限性,也很难满足多样化力学性能需求。因此,全面理解和准确把握热处理过程中各种物理参数的变化规律仍然是具有挑战性的难题。

随着现代数字化技术的快速发展,数值模型[6-7]在各个领域得到了广泛的应用。仿真技术通过虚拟机理分析实现了对组织结构、应力分布和热力学性质之间相互关系的更加深入的研究,为热处理领域的工艺设计提供了理论支持[8]。相较于物理方法,仿真分析在验证数学模型的正确性方面具有优势。它并不需要物理参数完全与实际过程一一对应,而是通过虚拟方法来评估数学模型在不同条件下的适用性。但随着工业技术的发展,产品生产设备数量越来越多,仿真分析的生产设计过程也逐渐趋向于多元化和复杂化。由于可操作变量多元,数据量大,仿真计算时间往往很长、预测准确性差,并且对变量的调整一般只能逐步到位。此外,由于高维度调整过程的复杂性,很难用图形轨迹来准确表达复杂产品的质量特征。

随着大数据时代的到来,数据驱动模型应运而生,其核心是训练和拟合,利用从互联网或其他渠道收集的大量数据,通过不断调整模型参数,最终使预测与真实数据相吻合。在热处理车间的运行过程中,会有大量的数据产生。这些数据包括与热处理工艺过程相关的信息,主要有:工序的时间(如到达时间、加工时间、冷却时间等),加工设备的情况,条件参数和各种工艺参数等。在收集到这些数据之后,可以通过建立数据驱动模型实现对工艺结果的快速、精确预测。神经网络作为一种数据驱动的预测模型,具有强大的自适应能力和非线性建模能力,能够通过学习和训练自动提取特征并对数据进行预测和分类,在工程领域,反向传播(BP)神经网络,被广泛应用于处理各种场景下的复杂非线性问题。但由于神经网络为黑盒模型,在可解释性上较差,为弥补这个缺陷,可以结合传统的热处理仿真技术与神经网络,基于工艺经验知识对热处理工艺仿真进行准确预测。

1 基于数据驱动的仿真预测建模

部件热处理生产过程中,因为不同批次的原材料按照同样的工艺参数热处理后性能指标差异较大,需要在工艺范围内调整工艺参数,使得热处理后性能指标满足工艺要求。本文的研究目的是解决在热处理过程中如何提高热处理结果预测的准确性、实现快速预测的问题,提供一种面向热处理产品的预测方法,对热处理产品的力学性能等指标进行准确、快速的预测,并基于预测结果,对工艺参数进行优化。

本文提出的热处理产品预测方法首先进行材料数据构建、几何模型网格划分、热交换设置等操作,以构建热处理有限元仿真模型,将热处理工艺参数作为模型输入,得到热处理有限元仿真结果,并通过更改输入来得到多组仿真数据;然后采用基于数据驱动的人工智能模型代理热处理有限元仿真模型,实现工艺仿真结果的准确、快速预测,在基于数据驱动的预测模型的基础上,采用启发式算法[9-11]搜索最佳的热处理工艺参数。

1.1 代理模型构建

结构件的热处理过程包括预热、加热、保温等流程,考虑到设备老化、人工选择参数不准确、原料中元素含量的微量差别等不确定因素,有可能导致各种不良现象的出现,如裂纹、变形、残余应力、组织不合格等,这将直接对产品性能造成影响。实际加工过程中,甚至会出现不同批次的同一原材料按照同样的工艺参数热处理后性能指标差异较大的情况。

目前热处理加工环节的加工参数主要是由工人根据工艺卡片和经验选择,人工选择参数并进行加工,加工效率较低,成品质量稳定性较差。传统的热处理预测方法是采用有限元方法对热处理结果进行预测[12],以便根据预测结果及时发现工艺参数的不足并进行快速调整。

当前主流的热处理有限元仿真方法是根据电磁场、温度场、气体流场、组织场、应力应变场间相互影响,应用弹塑性力学和相变动力学对材料热处理后的性能与畸变进行预测。在本文提出的方法中,热处理工艺参数将被作为仿真模型的输入,结合仿真软件和材料数据,对热处理淬火扭曲[13]、淬裂、相变、热处理硬度、残余应力、体积膨胀、金属微结构和金属热处理整个工艺过程进行模拟分析。用于热处理仿真的材料数据包括:材料的密度、导热系数、焓、杨氏模量、泊松比、屈服强度、热应变和硬化曲线,而进行热处理仿真需要输入的热处理工艺中涉及的典型参数有:热处理时长、淬火工艺温度、淬火处理介质、回火工艺温度、回火时长等。通过对热处理的整个工艺过程进行模拟分析,得到各项仿真分析结果,发现金属在热处理过程中可能产生的缺陷,提前发现工艺设计中存在的问题,以实现对热处理工艺等环节的及时改进。作为仿真模型的输入,热处理工艺参数用进行表示,有限元仿真模型定义为,仿真结果用进行表示,采用有限元方法进行热处理仿真过程可以表示为式(1):

使用有限元方法进行热处理仿真的过程中,需要构建有限元模型,进行网格划分和网格的局部细化,设置边界条件等一系列操作。建模完成以后,对模型进行数值求解的过程会消耗较多的计算资源。由于有限元方法建模和求解过程复杂,当有多个热处理方案需要进行验证时,采用有限元的方法进行热处理仿真,不能较快地给出仿真结果,影响方案验证的效率。此外,有限元方法的计算公式多根据经验公式给出,最终的仿真结果可能与实际结果存在一定的差距,结果的准确性难以保证。

随着人工智能技术的飞速发展,由数据驱动的人工智能算法也被应用于热处理工艺结果预测中。针对上述有限元热处理仿真的不足,本文采用数据驱动的机器学习算法替代原有限元方法。用表示基于数据驱动的机器学习算法,则可以用式(2)表示采用基于数据驱动的机器学习算法对热处理结果的预测:

构建数据驱动的机器学习算法,对热处理工艺仿真结果进行预测时,将采取神经网络结构作为基础,搭建回归模型。其中,神经网络的输入层接收热处理工艺的各个参数作为输入,热处理结果作为模型的标签值,采用式(3)定义的损失函数结合反向传播训练神经网络,实现神经网络模型对仿真模型的替代。

1.2 热处理材料—工艺—质量回归模型

构建基于数据驱动的热处理结果预测模型时,基于大量的材料—工艺—质量关联参数,运用支持向量机回归、岭回归等回归模型能够描述原料、工艺与成品质量之间的数学关系,并通过实验对模型的准确性进行了验证,预测结果与实测结果基本相符。

设置热处理的材料、工艺参数作为模型的输入,成品质量参数作为模型输出,训练热处理材料—工艺—质量回归模型,并检验模型准确性。

将数据集按照6:2:2 的比例划分为训练集、验证集和测试集,如图1 所示。

图1 数据集划分

采用决策树回归模型建立回归模型进行热处理质量预测。根据模型预测的精度对回归模型进行评价,选取预测最为准确的回归模型参数。

2 决策树回归模型

决策树是一个类似于流程图的树状结构,用于描述实例的分类特征。节点以及连接节点的有向边构成了分类决策树的基本结构,树的最顶层是根结点,此时所有样本都在一起,经过该节点后样本被划分到各子节点中[14]。每个子节点再用新的特征来进一步决策,直到最后的叶节点。叶节点上只包含单纯一类样本,不需要再进行划分。其中,内部结点表示一个特征或属性,叶节点表示一个类,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每一个树叶结点代表类或类分布[15]。

决策树是一种常用于机器学习领域的预测模型[16]。它能建立特征属性和目标值之间的映射关系。决策树只产生单一的输出,如需复数个输出结果,可以针对不同的输出建立独立的决策树进行处理。与其他结构复杂的机器学习分类算法不同,决策树分类算法是一种简单而高效的算法,它能够处理几乎任何能用特征向量和分类标签表示的训练集数据。基于决策树的分类预测算法,其时间复杂度仅以树结构的层数为因素,它们之间的关系是线性的。这通常意味着决策树模型在处理数据时非常高效,能够胜任实时预测场景下的任务。

2.1 不纯度函数

决策树最重要的概念就是不纯度函数的概念。当一个节点需要分割的时候,实际上就是找到一个合适的特征的一个合适的取值作为阈值进行分割。主要依据不纯度的变化来找到那个合适的特征的合适的取值。不纯度函数不是一个具体的函数,它是满足一系列约束的函数的总称。

根据输出实例的取值范围不同,决策树有不同的种类。如果输出实例是离散的,那么决策树是一个分类树;如果输出实例是连续的,那么决策树是一个回归树;如果决策树是分类树,那么输出空间定义为输出实例所有取值的集合。这个集合是有限集合,不失一般性,使用个取值。

不纯度函数的计算公式:

2.2 信息熵

1948 年,“信息熵”的概念由克劳德·香农提出,提供了一种衡量信息不确定性和信息量的量化方法,同时阐述了不确定性和信息量之间的直接联系。信息熵相当于信息量的期望,信息熵是对事件不确定度的一种度量[17]。信息熵越大,说明事物越具有不稳定因素,越具有不确定性。信息量的大小可以反映对于事件不确定性的消除程度,而信息熵的大小可以体现事件的不确定性。熵越大,随机变量的不确定性越大。

信息熵三大性质:单调,即概率越大的事情携带的信息量越小,越稳定;非负;可累加,混合事件的信息熵可以转化为单个事件信息熵的累加。

信息熵的计算公式:

2.3 算法原理

决策树是一种监督学习算法[18]。根据决策树的结构决策树可分为二叉决策树和多叉树,例如有的决策树算法只产生二叉树(其中,每个内部节点正好分叉出两个分支),而另外一些决策树算法可能产生非二叉树。决策树学习的目标是在损失函数的意义下,选择最优决策树的问题。

决策树是一种基于归纳学习所发展的分类模型,在解决分类问题时,模型通过利用特征向量对实例加以判断以实现分类效果,其本质上是基于if-then 规则集合的分层判断过程,也可以被视作描述实例特征与类别之间关系的条件概率分布[19]。决策树的原理是归纳推理,归纳即是从特殊到一般的过程,归纳推理则是从若干个事实表现出的特征、特性或属性中,通过比较、总结、概括而得出一个规律性的结论。归纳推理的基本假定,即任一假设如果能在足够大的训练样本集中很好地逼近目标函数,则其也能在未见样本中很好地逼近目标函数。

在决策树模型构建完成后,应用该决策模型对一个给定的类标号未知的元组进行分类是通过测试该元组的属性值,得到一条由根节点到叶子节点的路径,而叶子节点就存放着该元组的类预测。这样就完成了一个未知类标号元组数据的分类,同时决策树也可以表示成分类规则。

2.4 实现步骤

通常情况下,决策树的学习算法可以描述为这样一个过程:采用递归方法,不断选择最优特征,基于最优特征分割样本集,同时保证每个子集尽可能纯净[20]。在这一过程中,构建决策树和划分特征空间是同时进行的。决策树的构建过程包括构造和剪枝两个关键阶段,构建过程中体现了递归分治、自上而下的特点,而选择最优分支特征属性和划分训练数据是基于决策表创建决策树的重要步骤之一。

决策树的构造:

1)首先:创建一个起始节点(根节点),在根节点处放置所有样本数据,将当前节点的分裂属性设置为最优特征,基于这个属性将样本数据分为子集,同时需使各个子集内样本数据尽可能纯净,得到最好分类效果,为了得到该决定性特征,必须评估每个特征[21];

2)如果所有子集已经达到基本正确分类的要求,则创建叶节点,在每个叶节点置入对应的子集;

3)如果还有子集不能满足正确分类的要求,则基于当下子集重新选择最优的特征,实施分割过程,并创建相应的节点,重复执行,当所有样本数据子集都被基本正确地分类,或者不再有合适的特征,停止构造。这种情况下,所有子集都已经被分到对应的叶节点上,有了明确的类,从而完成了决策树的构建[22]。

要使决策树停止分裂可以采用剪枝的方法,剪枝分为两种,分别为预先剪枝和后剪枝。在预先剪枝的算法中,选取适合的测度值是关键。预先剪枝发生在决策树构造过程中,节点分裂之前,可以避免计算冗余,缩短训练周期,同时能直接生成最终分类结果。后剪枝发生在已经构建完成的决策树上,基于相应的测度值将分支替换为叶节点。后剪枝算法会增加整体算法的计算时间,但分类效果会略微准确。在大样本问题中,后剪枝算法的时间代价往往远远大于预先剪枝算法,但对于小样本问题,后剪枝相较于预先剪枝更具有优势。

2.5 基于信息熵的分类学习算法——ID3

热处理材料—工艺—质量回归模型采用基于信息熵的决策树分类学习算法(ID3)。该算法消除了选择属性过程中的随机成分,以信息熵的下降速率衡量属性选择的效果。ID3 算法是一种经典的决策树分类学习算法,它基于信息熵进行属性选择,通过计算每个属性的信息增益来衡量其对分类的贡献程度。在概率模型的选择上,ID3 使用了极大似然估计,其核心思路是:采用信息增益作为决策特征(非叶子结点)的度量,基于该特征的不同值构建分支,得到子集后对其递归实施此方法,直到每个子集中只存在同一类别为止。最终,将训练好的决策树用于对样本外数据进行分类处理[23]。ID3 的优点在于:简单易行、计算复杂度小、理论明确、具备较强的学习能力、在处理大规模分类问题时表现好。缺点在于:会趋于选择取值空间大的属性,但实际问题中这样的属性对分类来说价值较小,只能处理离散属性且容易受到噪声数据干扰,对于所有属性的信息增益都需计算,计算代价大。

实现步骤:

1)开始时,构建根节点,在根节点处对每一个可能特征的信息增益进行计算,基于计算结果,从中选择节点的特征,确保其信息增益最大;

2)根据上一步选择特征的不同值构造子节点,递归调用上一步方法对子节点进行操作,当每个特征的信息增益都小于设定的可接受值,或没有合适的特征时,结束构造;

3)获得前述步骤所构造的决策树。

具体步骤[23]:

3 实验过程

本文中采用35CrMnSi 和58SiMn 作为实验材料,收集了两类合金在2021 年1 -12 月的热处理数据,各有221条。对采集到的数据进行清洗以后,以合金元素的各成分含量(如碳含量、硅含量等)和热处理加工的工艺参数(例如淬火装炉温度和淬火加热温度)作为模型的输入变量,以材料的力学性能如抗拉强度、硬度等作为模型的输出变量。使用决策树回归算法,将均方误差(MSE),平均绝对误差(MAE)和均方根误差(RMSE)作为评价指标,验证2 中所提到的模型对于不同输出变量的准确度。

仿真数据分为两类,分别对应两种材料(35CrMnSi和58SiMn),在表1 中给出了仿真数据的相关信息,包括初始数据集规模、采集时间范围、清洗后的数据集规模以及输入输出变量。

通过与实际热处理的数据对比后,建立如表2 和表3的预测数据结果。首先对于35CrMnsi 而言,表2 的结果显示,决策树回归模型对洛氏硬度y2 属性的预测值精度最高,其RMSE 为1.09,对抗拉强度y1 的预测值最差。

表2 35CrMnSi 在决策树回归模型中的结果

表3 58SiMn 在决策树回归模型中的结果

对于58SiMn 而言,表3 的结果显示,决策树回归模型对布氏硬度y3 属性的预测值精度最高,其RMSE 为0.62,对屈服强度y1 的预测值最差;此外,对于断面收缩率的预测精度也较高,其RMSE 为1.00。

通过上述结果可以发现,基于决策树回归模型的热处理材料—工艺—质量仿真预测建模对于两种材料的适用性有所差异,比如对于35CrMnSi 在预测洛氏硬度时具有较高的准确度,而对于58SiMn 则更推荐将该方法用于布氏硬度、断面收缩率的预测中。

4 结论

为了提高热处理后材料的性能和质量,本文提出了一种基于数据驱动的工艺仿真预测方法,并使用仿真软件与实际实验得到的数据进行对比分析,验证了方法的有效性。主要研究内容如下:

1)首先介绍了热处理及质量控制必要性,将传统的热处理仿真与数据驱动模型进行对比,说明了传统仿真技术的局限性以及数据驱动算法在处理具有非线性关系和强耦合性数据的优点;

2)基于决策树回归算法对热处理工艺的仿真模型进行搭建,构建回归模型进行热处理质量预测,并通过与实际数据的对比实验选出预测最为准确的质量参数。基于所选出的模型和参数可以优选出最适合两种材料热处理工艺仿真预测的模型。

在未来的工作中,可以考虑更多的回归模型以通过对比找到每个质量参数适合的模型,并和启发式算法相结合,实现数据驱动模型在各种环境条件下面向不同铸钢件材料开展性能预测的泛化能力,进而在实际应用中更加广泛使用。随着数据科学的不断发展,可通过加入新的回归模型,提高本文提出模型方法的预测与优化精度。

猜你喜欢
决策树热处理分类
民用飞机零件的热处理制造符合性检查
分类算一算
Cr12MoV导杆热处理开裂分析
一种针对不均衡数据集的SVM决策树算法
分类讨论求坐标
决策树和随机森林方法在管理决策中的应用
数据分析中的分类讨论
教你一招:数的分类
基于决策树的出租车乘客出行目的识别
J75钢焊后热处理工艺