基于小样本数据驱动模型的硅片线切割质量预测

2024-01-31 07:04李博文张宏帅赵华东胡晓亮田增国
机床与液压 2024年1期
关键词:鉴别器硅片卷积

李博文,张宏帅,赵华东,胡晓亮,田增国

(1.郑州大学机械与动力工程学院,河南郑州 450001;2.麦斯克电子材料股份有限公司,河南洛阳 471003;3.郑州大学物理(微电子)学院,河南郑州 450001)

0 前言

集成电路是现代信息社会的基石,其制造能力及水平决定着一个国家工业实力及水平。集成电路基础部件常用硅晶半导体作为基板。其中,切片工序又是硅晶半导体制片过程中的重要环节,其加工质量直接决定了整批硅片的机械加工质量[1-2]。因此,在加工过程中准确监控硅片质量可以有效保证工件表面加工质量,提高生产效率,降低生产成本。

针对硅片线切割的机制模型,GAO 等[3]通过建立金刚石线锯切割单晶硅材料去除机制模型,分析如何提高切片质量。赵华东、马新伟[4]通过建立多线切片过程的顺序耦合热应变分析有限元模型,分析影响硅片质量的因素并预测趋势。LI 等[5]通过建立工艺参数及切割条件与回线率的关系,建立了线切割金刚线磨损模型,分析了硅片质量与金刚线磨损量的关系。

研究人员不仅对物理模型进行了研究,同时也从数据驱动的方向,建立切割工艺参数到硅片质量之间的映射关系。ZAIN 等[6]用神经网络分析预测硅片表面粗糙度。MIA、DHAR[7]基于神经网络分析冷却液对硅片表面粗糙度的影响。KAYABASI 等[8]用多层神经网络对线切割过程进行建模,并分析了线速度、进给速度和冷却液用量对硅片切割结果的影响。然而,以上都是采用传统神经网络对单线切割进行预测,工业上为了提高效率多采用多线切割,多线切割单次就可生产500 多片硅片,若用单片的数据来表示多片将会造成实验误差大。对于用卷积神经网络预测多线切割硅片质量,来解决检测耗时、检测成本高等问题的相关报道较少。同时,常规的数据预测模型需要海量的历史数据样本用于训练,而在工业生产早期,难以获取足够多的历史样本数据。为了解决数据不足,近年来提出了基于生成对抗网络(Generating Adversarial Network,GAN)[9]的小样本学习。其中,严继伟等[10]利用GAN 对SAR 飞机图像进行增广,实现了数据增强。DING 等[11]提出了基于GAN 的小样本机械故障检测方法。何鹏等人[12]提出用GAN 来处理小样本激光切割工艺参数的研究。

基于上述分析,本文作者主要开展两方面的工作:(1)针对硅片线切割缺少大量历史数据的问题,提出一种新的生成对抗网络WGAN-GP(Wasserstein GAN-Gradient Penalty)模型,即由多个残差模块组成鉴别器,用于扩充样本;(2)针对多线硅片检测耗时、检测成本高等问题,提出基于自注意力机制的残差网络的硅片总体厚度偏差(Total Thickness Variation,TTV)预测模型,从而达到准确预测硅片TTV。

1 线切割工艺原理和数据处理方法

1.1 线切割工艺原理和工艺参数概述

多线切割原理如图1 所示,钢线绕在切割辊上,在主辊的来回扭转下做往复运动,硅棒向下运动,实现切片过程。其中,在硅片多线切割过程中,速度、张力、温度、切割的位置、扭矩等都直接影响硅片质量[13-15]。基于此,选择线速度、进给速度、金刚线左/右张紧力、冷却液供给量、泵频率、液温、切割位置、左/右主轴转矩、左/右两侧钢线储量、3 个主辊前后端的温度、左/右排线位置一共20 个特征量,作为硅片质量影响的特征参数。TTV 是硅片平整度评价的关键指标,其大小反映了切割硅片的表面平整度和切割设备运行的平稳性。针对硅棒加工,TTV 的均值能很好地反映硅片总体的质量,且TTV 在数值上表现为连续值与特征参数相关,类似于机器学习中的回归问题,所以可用神经网络中的回归模型分析[16]。于是,TTV 回归预测模型可表示为

图1 金刚线切割原理Fig.1 Diamond wire cutting principle

式中:f为TTV 与工艺参数的映射关系;Ω为输入矩阵,由20 工艺参数γ1、γ2、…、γ19、γ20列向量构成;YP表示TTV。

1.2 数字图像转换法

线切割加工过程是连续的,多项参数是随时间局部呈周期性变化(如线速度、扭矩、线张力、轴温、液温),而其余的则是呈现持续变化。所以,如果仅仅用平均数或者中位数等这些简单的统计量来表示此问题的过程参数,会造成实验误差过大,而多个统计量的组合也带来了复杂的数学分析过程。本文作者基于WEN 等[17]的方法,提出一种针对此问题的新的信号转化方式,将采集到的时间、线速度、进给速度、冷却液流量、泵频率、液温、切割位置、左侧张力、右侧张力、左侧扭矩、右侧扭矩、左侧储线量、右侧储线量、前小轴温、后小轴温、左前轴温、右前轴温、左后轴温、右后轴温、排线位置20 个特征量作为转化的图片的列特征,每隔一段时间取出一行数据,直至将整个数据取完,以此来代表整个数据过程,使得在压缩数据时,数据丢失大大降低。同时转化为图像的数据,更好地利用卷积神经网络提取数据信息,具体方法如图2 所示。

图2 表格转化为图像的方法Fig.2 Methods of converting tables into images

如图2 所示,在表格转化方法中,将二维的数据图像按行划分为一维数据,并按照一定的规律填充到二维矩阵中去,即得到Ω。为了获得一张n×m大小的图片,根据采集的数据规律和工艺参数的特征数n=60、m=20,作者将表格数据的行数除以n作为提取表格行数据的间隔,表格列数按照原始大小直接填充,由此得到n×m大小的二维灰度图。设L(j,k)(j=1,…,l;k=1,…,m)为原始的表格数据,l=21 000,G(j,k)(j=1,…,l;k=1,…,m)为预处理图像(介于0-255),P(j,k)(j=1,…,n;k=1,…,m)为图像的像素值,其转化关系如下所示:

式中:round()为取整函数;L(x,k)为二维数组里面第k列的全部数字。将数字整个归一化到0-255,使得表格数据转化为二维绘图图像,利用卷积网络可以很好地处理原始的数据。

2 多线切割硅片质量预测模型

采用机器学习神经网络实现硅片TTV 的回归预测问题,可以有效避免传统机制模型适应性差和预测精度低的等问题,然而工业生产早期数据的不足和各种外部因素的影响,导致无效样本的引入,用于训练用的数据就会出现不完整小样本的特征,成为机器学习在硅片切割应用上的一大挑战。因此,作者采用WGAN-GP 生成虚拟样本,来进行数据增强。与传统神经网络相比,卷积神经网络强大的特征提取能力,能够高效提取数据特征,于是结合SeResNet 网络建立线切割硅片质量预测方法。

2.1 样本生成

实际生产过程中,在工业生产早期难以获取足够多的线切割历史数据,造成神经网络训练难的问题,而生成对抗网络的出现解决了这一难题。GAN 模型结构见图3,生成器输入服从正态分布的随机噪声Z,生成样本G(Z),再将真实分布X与生成样本G(Z)混合输入鉴别器中,输出鉴别结果y,先用真实数据X训练鉴别器D,然后冻结鉴别器的训练参数,训练生成器G,然后冻结生成器训练参数,训练鉴别器D,相互对抗直至达到平衡为止。由于原始的GAN用JS 散度(Jensen-Shannon Divergence)表示真实数据与合成数据之间的度量,容易造成引梯度消失,进而模型崩塌。于是,ARJOVSKY 等[18]引入一种新的度量Wasserstein 距离来代替JS 散度,提出了Wasserstein GAN(WGAN)。而GULRAJANI 等[19]采用梯度惩罚(Gradient Penalty)手段对WGAN 中Wasserstein距离的实现方法进行改进,即WGAN-GP,解决了参数修剪的问题。最终损失函数数学表达式为

图3 GAN 示意Fig.3 GAN schematic

式中:D(a)、G(a)分别为鉴别器与生成器的输出结果;E(a)为EM 距离;为真实样本与生成样本插值;λ为惩罚系数;为梯度范数。

综上所述,WGAN-GP 相较于其他的生成对抗网络对数据量的依赖更少,更容易收敛,更适合作为数据增强的方法,于是选用WGAN-GP 作为硅片线切割样本量增强的模型。

基于WGAN-GP 的原理,将数据采集系统采集的20 个过程参数通过数据图像转化法转化为60×20的图像,在此图像的尾部接上硅片的质量检测参数填充的60×8 矩阵,最后转化为60×28 的图像作为鉴别器的输入,鉴别器的输出为一个二分类的结果。生成器的输入为一个128 的一维随机数列,生成器的输出为60×28 的生成样本图片。不管是生成器G,还是鉴别器D,最后都是用鉴别器来判断模型的好坏。在模型的训练过程中,基于损失函数来迭代优化模型,优化器为Adam,生成器和鉴别器的学习率均为0.001。生成器和鉴别器的网络结构具体如图4 和图5 所示。

图4 鉴别器网络示意Fig.4 Discriminator network

图5 生成器网络示意Fig.5 Generator network

由于WGAN-GP 中的惩罚项,所以鉴别器D由8个改进的残差块构成22 层网络结构,卷积核是大小分别为1 和3 的方形块,步长分别为1 和2,卷积核通道数分别为64、128、256、512,所用激活函数均为LeakyReLU,最后用一个全连接层输出节点为1。

生成器G中,先输入一个服从正态分布的128 维的随机噪声Z,输入生成器中,全连接层增加维度,然后经过4 个每次成倍增加上采样块,每次上采样后都进行一次卷积操作,卷积核是大小均为3 的方形块,步长均为1,卷积核数量分别为1、64、128、256。激活函数除了最后一层用thah,其余全用LeakyReLU。

2.2 SeResNet 模型

对于线切割预测硅片TTV,输入采用的是将数据转化二维图像的方法。为了适应输入的形式,根据HE 等[20]提出的ResNet(Deep Residual Learning for Image Recognition)卷积神经网络,改进为适用于回归问题的ResNet 卷积神经网络模型,其残差模块结构如图6 所示,由两层权重层和一个恒等映射组成一个残差块,残差块输入为X(t),输出为X(t+1),直线为残差部分F(X(t),W),即残差块表示为X(t+1)=F(X(t),W)+X(t)。

图6 残差块网络Fig.6 Residual block

由于卷积核局部特征提取的特性,导致很难进行全局考虑。为了加强网络的特征提取能力,本文作者引入自注意力模块,并将自注意力模块嵌入残差网络中。图7 所示为自注意力机制模块,数学表达式如下:

图7 自注意力机制结构Fig.7 Self-attention mechanism

式中:Q、K、V分别为大小为n×m矩阵D与大小为m×m的矩阵Wq、Wk、Wv相乘;softmax(a)为对数据进行归一化处理。

本文作者提出基于注意力机制的残差网络(SeResNet),旨在提高模型的特征提取能力,实现小样本下硅片的质量预测。SeResNet 网络的输入为数据采集系统采集的20 个过程参数转化的60×20 的图像,输出为硅片的TTV,用均方差来判定预测值与真实值的差异,实现硅片线切割过程的模型搭建。SeResNet网络输入为生成数据集和真实数据集混合为训练集,训练好以后的网络用于分析预测多线切割硅片的TTV。其中生成虚拟数据的60×28 的图像截取后面的8 列取平均作为虚拟数据相对应的TTV。SeResNet 网 络具体网络结构如图8 所示。

图8 SeResNet 模型结构Fig.8 Model structure of SeResNet

在SeResNet 中,为了达到回归分析的效果,最后的全连接层输出节点数为1,且激活函数均用ReLU 函数,训练中所用的优化器为Adam,生成器和鉴别器的学习率均为0.001,损失函数采用平方差函数。

2.3 算法流程

本文作者所提出的小样本数据集下基于WGANGP 和SeResNet 卷积神经网络的线切割硅片质量(TTV)预测的建模方法如图9 所示。引入WGANGP 对训练数据进行学习,生成用于增强数据的样本;然后将生成样本与真实样本一同输入SeResNet 模型,训练工艺参数与TTV 之间的非线性函数关系;最后,当输入新的工艺参数,用训练好的预测模型预测TTV的值。其中,文中研究是金刚线多线切割,这里以TTV 的平均值作为研究对象。其算法流程见表1。

图9 硅片线切割质量检测预测流程Fig.9 Flow of silicon wafer wire cutting quality detection and prediction

3 实验结果与分析

3.1 实验数据

如图10 所示,采用多线切割机为实验平台,实验硅棒选用直径20 cm(6 寸),单晶晶向(100),通过与设备控制系统(FANUC CNC)通信搭建数据采集系统,每隔1 s 记录一次所需采集的20 个数据,直至硅片切割完成。完成切割需要3.5 h 左右,利用数据采集工控机和交换机将采集的数据上传到数据服务器和PC 端。此次实验设计一共切割200 根硅棒,晶棒长度为500~680 mm,测定每组硅片的TTV 均值。用图像转换法将每组数据转化为60×20 的二维图像作为预测模型的输入。

图10 线切割实验平台Fig.10 Wire-electrode cutting experimental platform

3.2 基于WGAN-GP 网络数据增强

本文作者基于Tensorflow 深度学习框架,搭建深度学习框架WGAN-GP 的模型。经过多轮训练使得训练达到平衡,得到如表2 所示的生成样本。对于WGAN-GP 就是拟合真实数据分布的特点,加上生成的图像可以得出。生成样本与真实样本的图像很相似,但也有细小的差距,而这些细小的差距可以在一定程度上增加样本的丰富度,同时也解决了样本不足的问题。

表2 真实样本图与生成样本图Tab.2 Real sample map and generated sample map

3.3 生成样本性能分析

将实验获取的实验数据进行数据处理,随机抽取一定比例数据作为训练集,其余为测试集。预测回归问题的评价指标参照文献[21]中所提的评价指标,针对文中研究的问题引入平均绝对值误差(MAE)、平均相对误差百分比(MAPE)、均方根误差(RMSE),见表3。

表3 评价指标及适用性Tab.3 Evaluation index and applicability

用SeResNet、SeResNet _300、SeResNet _800、SeResNet_5000 来代表向真实数据集中加入300、500、5 000 个生成数据集,其中SeResNet 表示真实数据集。为了更好地研究增加数据集的效果,每个样本均设置为训练批次35,训练轮数为100,然后计算出各模型的MAE、MAPE、RMSE。

由表4 可以看出:加入样本比没有增加样本时的平均绝对值误差、平均相对误差百分比、均方根误差都有明显的改善,其预测精度优于未扩充数据集,但是值得注意的是当样本加到5 000 时比起加入800 的效果要差一点。根据WGAN-GP 的生成原理可以知道,生成数据是经过生成器和鉴别器反复博弈以后,使得生成数据的分布与真实数据的分布大致一样,但是在训练过程中数据分布不可能完全一样,所以,当真实数据被生成数据稀释以后,真实数据的一些不足能够被掩盖住,同时也引入一些真实样本原本没有的信息,导致预测误差有微小上升。总体而言,加入生成样本有利于提高模型的泛化能力,使得模型的鲁棒性更好。

表4 混入不同样本对SeResNet 影响Tab.4 Effect of mixing of different samples on SeResNet

3.4 与其他方法的对比实验

为了证明文中所提基于数据图像转换的WGANGP+SeResNet 的有效性,将其与ZAIN 等[6]所提的ANN、随机森林和经典LeNet5 做对比,其中随机森林是直接使用sklearn 中的内置随机森林回归模型,设置8 层,650 棵决策树。用混合数据集作为训练样本,而随机森林和ANN 则是将数据转化为一维数据进行训练,实验结果见表5。

表5 硅片线切割不同算法对比Tab.5 Comparison of different algorithms for silicon wafer wire cutting

从表5 可以看出:SeResNet 和卷积神经网络方法要比ANN、随机森林和LeNet5 方法效果好很多。综合表4、5 的实验结果,可以得到本文作者提出的基于数据图像转换的小样本WGAN-GP+SeResNet 很好地解决了小批量硅片线切割数据不足条件下硅片质量预测的问题,使得在实际加工过程中能利用少量数据来指导生产。

3.5 SeResNet 的模型训练暨硅片线切割预测分析

为了进一步验证模型的预测性能,引入相关系数(IC)和决定系数(R2)来评估样本的相关性和拟合程度。在SeResNet 中,引入WGAN-GP 生成的样本与真实样本组成训练集,训练中所用的优化器为Adam,学习率为0.001,训练轮数设置为100,批处理样本为100,由于大部分卷积神经网络都进行的是分类功能,这里的网络进行了回归问题的改进,损失函数采用平方差函数。训练集和验证集的损失函数变化曲线见图11。

图11 训练集和测试集损失函数变化曲线Fig.11 Change curves of the loss function in the training and test sets

由图11 可以看出:在迭代次数到40 轮的时候曲线已经不再下降,说明模型已经训练得很好了。计算得到的αIC=0.866 及R2=0.749,再结合图12 分析可得,对于硅片TTV,经小样本数据扩充数据集训练出的模型预测曲线很好地拟合了真实数据曲线。

图12 SeResNet 对硅片TTV 的预测值Fig.12 Prediction of TTV of silicon wafer by SeResNet

4 结论

针对硅片个性化生产中小样本条件下深度神经网络训练容易过拟合导致硅片TTV 预测不精准和批量硅片检测难的问题,本文作者提出一种基于WGANGP 生成与真实硅片多线切割工艺参数相似的数据集,通过对比得出生成样本数据集的数据分布与原始数据集分布一致。构建SeResNet 卷积神经网络回归模型拟合多线切割,然后通过所提的SeResNet 模型预测硅片TTV 的值,最后通过实验对SeResNet 模型进行了验证。结论如下:

(1)所用的数据图像转换法将原始数据转化为二维图作为输入,从而引入卷积神经进行分析,同时也证明了该方法比直接取单独的统计量更好。

(2)所提模型加强了硅片多线切割机制的表征能力,能够在小样本条件下学习多线切割硅片的规律,提高了多线切割硅片TTV 的预测精度,并用于工程实践。

(3)在相同条件下,所提模型的多线切割硅片TTV 预测精度均高于LeNet5、ANN、随机森林模型。

猜你喜欢
鉴别器硅片卷积
基于多鉴别器生成对抗网络的时间序列生成模型
基于3D-Winograd的快速卷积算法设计及FPGA实现
金刚石砂轮磨削贴膜硅片崩边的研究*
卫星导航信号无模糊抗多径码相关参考波形设计技术*
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
光伏:硅片市场条件严峻 高效单晶需求回暖
阵列天线DOA跟踪环路鉴别器性能分析
一种基于卷积神经网络的性别识别方法
用于硅片检测的精密直线运动平台的设计与实现