孙 曼
(南京航空航天大学,江苏 南京 210000)
问题1:根据2022-01-13至2022-01-22的生产加工数据,应用原矿参数和系统设定温度数据,建立数学模型,给出利用系统温度预测产品质量的方法,并且用2022-01-23原矿参数和系统设定温度,得出产品质量预测的结果(注:本题数据来源于2022年五一数学建模竞赛B题)。
问题2:根据问题1的结果,建立数学模型,估计产品目标质量所对应的系统温度,并且用给定的2022-01-24原矿参数和目标产品质量,得出系统设定温度。
问题1属于预测问题。解决此类问题,通常情况下利用变量选择算法从样本中提取除最优的变量子集,再利用预测理论与方法来构建预测模型,从而利用所得的回归方程进行数据预测[1]。我们选择通过给定生产加工数据,建立相应数学模型以研究系统温度对产品质量的影响,进而给出用系统温度预测产品质量的方法。
由于以上原因,我们首先建立一个系统温度之间的数学模型I,以观测两者可能存在的潜在关系,其次建立一个系统温度与指标的模型II对结果进行预测,同时用神经网络预测法进行预测,并将结果进行比较。
问题2属于追溯问题,求从给定数据中找到加工条件及环境和目标参数间的数学模型,分析矿石得到所给目标质量时的系统温度参数。为得到可能性较大的参数,建立模型前我们用多元线性回归分析,再用神经网络预测,得到原数据的预测值,通过比对原数据与预测数据得到预测方法的准确性,再由所确定的预测方法得到系统所需参数。
(1)假设1:系统温度与调温指令设定的温度相同。
(2)假设2:每次温度调节之后的2小时内不会传入新的调温指令。
(3)假设3:由于采样间隔不一样,我们将温度由原先一分钟采样一次变为与产品质量采样频率一致的一小时采样一次。
(4)假设4:原矿参数和目标产品质量已知,仅温度未知。
(5)假设5:每单位时间生产的产品数量相同。
首先,我们进行了数据处理与配对。由于所给系统温度数据为一分钟一测量而系统指标为一小时一测量,因此我们选择抽取每天每小时的第五十分钟的温度值来配合各个时刻的指标测量值。但我们在处理过程中发现,2022-01-20-6:50/7:50/8:50的三组温度数据完全缺失,经过观察,发现前后时间点的数据相差不大,因此我们扔掉这三组数据并用MATLAB绘图得到图1。
图1 系统温度随时间的变化
由图1可见,系统一和系统二的温度(分别用T1和T2表示)随时间的走向变化趋势基本一致,因此我们猜想T1和T2有线性关系。经过线性回归最小二乘法拟合,我们发现T1和T2的线性拟合高达80.5%。
建立线性回归分析的一般模型为
式中,β都是与x无关的未知参数z,其中β0、β1称为回归系数。将T1作为自变量,而将合格率作为因变量进行线性回归分析,在这里采用最小二乘法进行多元回归模型的拟合。
表1 线性回归分析结果
从F检验的结果分析可以得到,显著性P值为0.000,在水平上呈现显著性,拒绝回归系数为0的原假设,这个回归模型的复判定系数R2=0.805,调整复判定系数R2=0.804。意味着系统一和系统二存在线性关系。
因此模型基本满足要求,对于变量共线性表现,VIF全部小于10,因此模型没有多重共线性问题,模型构建良好,模型的公式如下:
(1)同问题1,赛题附件1中的系统温度的数据存在缺漏及误差,例如,1月20日晨间的数据存在缺漏,此时无法通过设定的已知参数变量进行运算,将数据舍弃。
(2)已知的系统温度参数存在一定的误差,系统温度-时间曲线连续性较差,将误差较大的数据剔除。
5.1.1 指标预测模型的建立
我们需要解决的问题是应用已有的数据,建立数学模型,给出利用系统温度预测产品质量的方法并在给定的原矿参数和系统设定温度下,给出产品质量预测结果。我们首先进行指标的回归分析:
(1)选择T1、T2作为自变量,将各个指标作为因变量进行回归分析。经分析,仅对于指标A,R2=0.081就远小于1,因此我们猜想应当增加自变量的次数以求得更高程度的拟合。
(2)选择T1、T2、T1×T1、T2×T2、T1×T2的排列组合作为自变量,各个指标作为因变量进行回归分析。
当选择T1、T2、T1×T1、T2×T2、T1×T2这5个自变量时,我们发现R2得到极大改善,对于指标A,R2就已经上升了十倍,达到了0.18,此时,我们分别去除T1×T1和T2×T2两个变量之后发现,T1×T1去除时,R2减小到0.157,而当T2×T2去除时,R2增加到0.185,因此,我们舍弃自变量T2×T2。同理可得其余指标的回归分析。指标的回归分析如表2所示。
表2 指标的回归分析
(3)经过回归分析,得出各个指标对应的模型分别为:
5.1.2 指标预测模型的求解
根据问题所给参数,由上一步模型得出表3预测。
表3 多元回归分析指标预测
5.1.3 神经网络预测模型的求解
应用MATLAB进行神经网络预测,经过多次训练可以得到图形拟合曲线,再经过函数调用,即可得出预测值,如表4所示。
表4 神经网络指标预测
表5 系统温度预测结果
5.1.4 结果
通过对两个模型的对比分析可知,神经网络预测更加简洁直观并且精确,同时易于操作和计算,因此我们最终采用神经网络预测的求解结果。
5.2.1 系统温度确定模型的建立
从已知中可以猜想矿石的目标参数是由矿石原性能参数(原矿参数)和温度共同影响得出的,因而可将求解过程看作猜想的逆过程,即以原矿参数和目标参数为自变量,探求系统温度的最大可能指标,此时可以通过多元线性回归在原矿参数1、原矿参数2、原矿参数3、原矿参数4、指标A、指标B、指标C、指标D中求取与温度控制关系较大的参数,但由于关联都相对较大,达不到舍弃的关联度,所以保留。由于自变量个数较多,不便于采用Excel绘图求取函数关系以及MATLAB的regress函数求解线性系数(自变量间关系非线性),进而采用神经预测系统预测性能指标,输入、输出矩阵通过网络训练得到拟合度较高的预测方式,选取误差(err)范围较小的方式完成预测。
5.2.2 系统温度确定模型的拟合结果
5.2.3 系统拟合度分析
由图2可知,系统相关性较好。
图2 检验预测值和目标值的线性化程度
由于最开始在对数据进行预处理时,在可允许的范围内删除了偏差过大和缺失的数据,使整体模型建立与分析存在一定的系统误差。不过,此类误差影响极小,可以忽略。
6.1.1 针对于问题1的误差分析
(1)拟合误差。
(2)回归分析误差:选择自变量时进行一定的取舍造成一定条件的误差。
6.1.2 针对于问题2的误差分析
该模型中存在神经网络处理数据的误差,在神经网络中,神经网络模型层数影学习到样本的特征,在层数较少时,会有一定的偏差。
(1)我们根据问题分别建立了模型,合理利用工具算得结果,对其进行检验和评价,准确性可以接受,并且模型建立可自引用,能够得到满意的解。
(2)通过两个模型的分别建立及比较优化循序渐进,结合两个模型各自的优缺点进行预测,较好地解决了因为方法单一而带来的误差问题,并且利用MATLAB自带的神经网络预测,使模型得到简化,减少大的计算量。
(1)模型的建立有一定局限性,需要明确影响生产产品质量的因素,并且控制不研究的变量保持,而需要进行研究的变量需要有足够数量的样本,并且有相等的采样间隔。对环境要求和设备要求都比较严格。
(2)尽管我们建立模型已经尽力地将庞大繁多的数据进行预处理,过程归一化,尽量减小误差、提高准确度,但是不可避免地存在不确定性。预测结果还可在现有的准确性上进一步量化,提高精度。同时后续可以改进置信区间。
(1)本模型中所使用的问题针对性较强,可以推广于生产过程中。一般产品的质量复杂,由多因素共同决定,本模型给出了一个,假设无关变量保持不变,建立某一或者某几个因素对产品质量的影响,可信度较高。
(2)建立的预测模型逻辑严密,从两种不同方法出发求得最优解,可以为分析生产变量提供借鉴思路。