王雪莹 戴亨玮 张晓茹 张 喆 夏劲彪
(1、中国石油大学(北京)经济管理学院,北京 102249 2、西南大学计算机与信息科学学院软件学院,重庆 400700 3、桂林理工大学商学院,广西 桂林 541004 4、桂林理工大学信息科学与工程学院,广西 桂林 541004)
物质存在的形式多种多样,固体、液体、气体、等离子体等等。我们通常把介于导体和绝缘体之间的材料称为半导体。与导体和绝缘体相比,半导体材料的发现是最晚的,直到20 世纪30 年代,当材料的提纯技术改进以后,半导体的存在才真正被学术界认可。无论从科技或是经济发展的角度来看,半导体的重要性都是非常巨大的。基于以上背景,本文将解决一下问题:
1.1 根据半导体制造工艺的实际数据集,完成数据的预处理。根据处理后的结果,研究分析各个因素(变量)之间的相关性,确定关键因素,并说明合理性。
1.2 半导体制造工艺的实际数据集列出了1567 个产品的观测数据,其中存在一些不合格产品,请根据之前的关键因素,建立模型[1],利用这些因素来识别不合格产品。
本文首先进行数据分析,发现该数据存在590 个变量和1567 个样本,并且发现部分变量的样本数据为常数,大量变量的样本数据都存在缺失值情况,因此我们针对以上两种情况对其进行处理。
本文发现大部分变量都存在缺失值,首先通过Excel 自带的COUNTIF 函数统计了每个变量缺失值的个数,然后我们决定将缺失值个数大于5 的变量删除,最终剩下了242 个变量。本文删除了缺失值大于5 个的变量,但是还在大量变量有着少数的缺失值,因此对缺失值的填充将是至关重要的。而对于常数,直接舍弃。我们用各个变量的平均值填充了缺失值之后,整个样本数据就是我们可用的数据,为了方便后续的分析,我们将Qualified 变量为“是”的样本数据用1 量化,变量为“否”的样本数据用0 量化。
变量之间的Pearson 相关性分析:
采用多元线性回归分析能很好的筛选出显著影响产品质量的变量,因此本问采用该方法对样本数据进行回归分析[2],回归分析模型如下所示:
其中:y 为因变量,x 为自变量,∂为该变量对应的系数,b 为常数项。
我们采用SPSS 软件,选择分析- 多元线性回归分析选项,将产品质量的量化数据作为因变量,将数据预处理后的242 个变量作为自变量,代入软件中进行回归分析,得出分析结果。
我们选择显著性排名为前15 名的变量,作为关键因素,具体变量如表1 所示(只展示关键因素的标准化系数和显著性水平)。
表1 关键因素的分布
通过上述相关性分析我们得知这15 个关键因素之间相关性并不高,也并不存在多重共性线问题,而我们选取的这几个因素又具有很高的显著性,因此我们确定的关键因素能够合理的代表半导体产品质量。
本文得出了15 个影响半导体产品质量的关键因素,那么为了能够通过这几个因素来识别不合格产品,构建了BP 神经网络评价模型,通过对历史数据的模型训练,训练好神经网络,再通过对测试数据的仿真,得到模型的准确率,下面就是BP 神经网络模型的构建过程。本问使用有监督学习的神经网络对股票价格损失进行预测,构建过程如下[3]:
(1)初始化:给每一个神经元的权值wi,j、vjt,阈值θj和γt赋予区间为(-1,1)内的随机数。
(2)在123 家企业选取一组学习样本Xn=(x1,x2,…,xn)和目标样本Tn=(y1,y2,…,yn)。
(3)对学习样本Xn=(x1,x2,…,xn)、权值wi,j和阈值θj利用公式(1)计算隐含层的神经元输入sj,再利用输入值计算中间层单元的输出bj。
(4)用隐含层输出bj,输出层权值wi,j和阈值γt计算输出层神经元Lt,利用传递函数计算输出层的结果Zt。
(5)计算网络的目标向量Tn=(y1,y2,…,yn)和实际向量Zn=(z1,z2,…,zn)的差值,得到dt。
(6)用权值vjt、输出层误差dt与中间层输出值bj计算中间层一般误差ej。
(7)用输出层各单元一般误差dt与中间层单元输出值bj来修正连接权值vjt和阈值γt。其中t=1,2,…,q;j=1,2,…,p;0<α<1。
(8)用中间层神经元误差ej来调整连接权值wi,j,用输入层神经元的输入Xn来调整阈值θj。其中i=1,2,…,q;j=1,2,…,p;.0<β<1。
(9)随机选取下个样本代入神经网络进行训练,执行步骤(3),直到网络的训练全局误差达到网络收敛值,学习结束。
4.2.1 神经元数目的确定
本文处理之后的关键因素为15 个,因此输入层神经节点数目为15,而本文神经网络最终输出的只有一个半导体产品质量,因此输出层节点个数为1。
4.2.2 隐含层节点数目的确定
4.2.3 模型训练
本问采用独立测试方法,将测试数据分为两部分,其一是训练数据,我们将附件的半导体样本数据随机抽取1500 组数据作为训练数据,剩下的67 组样本数据作为测试集,用于检测BP神经网络对半导体产品质量的评价准确率。
将训练样本数据代入利用Matlab 的神经网络程序包对神经网络中进行训练,训练结果如图1 所示。
图1 神经网络训练误差
通过上述训练结果,我们可得初步的网络训练结果,训练误差小于0.1,为了验证BP 神经网络,我们将测试数据代入已经训练好的网络模型当中进行测试,结果如图2 所示。
图2 神经网络测试结果
具体的样本测试结果对比数据显示,当测试结果小于0.8时,就为产品不合格反之,则产品合格。我们通过测试结果计算模型评价的准确率,用评价准确的个数除于总测试个数,得到模型对半导体产品质量的评价准确率为95.5%, 因此可以基于此得到我们的模型能够利用关键因素对半导体产品质量进行识别。
5.1 元器件的设计:先进特征尺寸节点上,芯片老化问题日益严重,老化和可靠性是模拟设计师面临的挑战。今天的设计可能不会在明天运行,因为这些设计可能会发生降级,目前最重要的是必须确保满足市场所有老化和可靠性的要求。
5.2 元器件的制造:半导体器件的制造涉及到测量仅几纳米的结构,很多制造元器件的机器可能存在误差或者精度达不到,导致制造出的元器件在精度上就不符合要求。
5.3 磁场对半导体影响:随着智能手机、平板电脑终端的多功能化,制造半导体芯片的过程中,芯片很可能会受到外界设备磁场的影响,导致功能失效。