郝佩瑶,郑丽丽,张 辉,廖继龙
(1.清华大学航天航空学院,北京 100084;2.清华大学工程物理系,北京 100084; 3.江苏协鑫硅材料科技发展有限公司,徐州 221001)
目前我国铸锭晶体硅的生产基本上使用G6/G7型铸锭炉,装料量最高达1 200 kg。为提高能源利用率和产率,G8型铸锭炉也在开发之中,铸锭投料量将达1 400 kg左右(见图1)。但采用更大尺寸的铸锭炉后,由于硅锭的横向尺寸变大而高度近似不变,导致晶体生长过程中硅熔体横向流动受阻,生长界面的稳定性难以控制。同时侧加热器到硅熔体中心的距离增大,从调整加热器功率到热场达到稳定所需的热延迟时间变长,反馈控制更难实现。因此用于小尺寸晶体生长的热场设计将无法保证大尺寸晶体生长中流动及热场的横向均匀性,对于大尺寸铸锭晶体硅,需要重新设计热场,并对横向流动加以控制。
此前晶体生长热场的设计优化大多采用数值模拟,如Wei等[2]通过二维稳态数值模拟研究了隔热笼开口大小、保温棉热导率、侧隔热笼分区块对240 kg铸锭多晶硅热场温度分布、晶体生长界面形状的影响,并做了能量平衡分析,结果表明在侧加热器下方增加分区块可以将能耗减少30%。Ma等[3]通过二维稳态数值模拟研究了侧隔热笼分区块、加热器数量及位置、气流隔板对500 kg铸锭多晶硅热场温度分布、气流速度场及晶体生长界面形状的影响,研究表明:增加分区块可以使晶体生长界面由凹变凸,从而提升硅锭的品质;使用侧加热器或侧、顶加热器相结合可以有效调节温度分布与晶体生长界面形状;在硅熔体上方增加隔板则可以防止热场部件产生的杂质进入硅熔体。Ma等[4]通过二维瞬态数值模拟研究了侧隔热笼分区块对430 kg铸锭准单晶硅生长过程的影响,结果表明:增加分区块可以将能耗减少8~14 kW并提高晶体生长速率;晶体生长过程中界面由凹变为微凸,晶体沿轴向的温度梯度和晶体内热应力均有所增大;由改进热场生产出的准单晶硅制成太阳能电池,其平均光电转换效率相比多晶硅提高了1.2%。Yu等[5]通过二维稳态数值模拟研究了侧隔热笼分区块位置、厚度、宽度对430 kg铸锭准单晶硅籽晶保护阶段和生长阶段的影响,降低分区块的位置、减小其宽度或厚度在籽晶保护阶段有利于形成微凸的晶体生长界面,为后续的生长过程创造良好条件;在晶体生长阶段则有利于减小硅晶体内部沿轴向的温度梯度,从而减小热应力,也可以减弱氩气在加热器附近的回流,减少杂质向硅熔体的输运。娄中士等[6]在侧加热器和散热块之间增加可移动的隔热环,并在底部喷射氩气以对晶体生长过程进行优化控制。陆晓东等[7]通过数值模拟对坩埚形状进行优化设计,结果表明将坩埚底面由平底改为凸底可以有效提高晶体质量。除了铸锭晶体硅,在直拉单晶硅领域,滕冉等[8]和张向宇等[9]通过数值模拟研究了热屏位置对直拉单晶硅V/G(晶体生长速度与生长界面处纵向温度梯度之比)、热应力等的影响规律,这对于铸锭晶体硅的热场优化也有一定的参考价值。
不同尺寸的铸锭晶体硅生长过程虽然有一定的差异,但仍存在相似性,小尺寸晶体生长的规律和热场设计经验可以迁移到更大尺寸,以加快大尺寸热场设计的进程。机器学习可以从大量数据中获取知识、总结规律,如Yu等[10]采用机器学习方法中的神经网络结合遗传算法对SiC晶体的溶液生长系统几何形状进行了设计优化。而迁移学习[11]作为机器学习的一个重要分支,则可以将已经学习过的知识迁移应用到新的相似问题中,在新问题数据量不足的情况下也能得到较好的结果。迁移学习已在大量领域得到应用,如图像识别、自然语言处理等,在材料领域也有将迁移学习用于预测材料特性[12-13]、预测多晶硅片光致发光图像中位错区域[14]的研究,而在晶体生长的热场设计方面则尚无迁移学习的相关应用。
迁移学习的核心问题是找到新问题和原问题之间的相似性[15],对于不同尺寸的铸锭晶体硅来说,其相似性在于生长过程的热场结构类似、硅锭高度相近,因此可以应用迁移学习进行研究。本文首先基于已有的G7型铸锭炉,通过神经网络建立热场几何参数与热场评价参数之间的映射模型,然后采用迁移学习方法将该模型迁移至G8尺寸,研究不同模型结构对迁移过程的影响,采用Dropout分析模型是否存在过拟合,再通过遗传算法对G8热场几何参数进行优化,实现大尺寸晶体硅铸锭炉的热场设计,最后对优化结果以及相同优化方案下的G7和G8热场采用数值模拟方法进行对比分析。
图2为晶体硅铸锭炉的简化示意图,G7和G8型铸锭炉均采用侧顶五面加热结构,通过调节加热器功率、底部隔热笼开口和氩气流量等来控制晶体生长过程。在热场设计时首先需要重点关注的是侧、顶加热器的位置和体积,因其对晶体生长界面、硅熔体流动、硅晶体内温度梯度等均有重要影响;另外从前述文献中可以看到,侧隔热笼分区块也是热场设计中的关键因素,在实际生产中通常通过在侧隔热笼台阶上放置不同高度的保温棉来实现。因此本文选取与上述两个方面相关的4个热场几何参数进行研究,如图2所示,分别为l1:侧加热器底部与硅区域底部的距离;l2:侧加热器顶部与硅熔体表面的距离;l3:侧隔热笼分区块顶部与硅区域底部的距离;l4:顶加热器与侧加热器间的横向距离。通过调节l1与l2可以使侧加热器上下移动并改变其体积,调节l3可以改变侧隔热笼分区块的高度,调节l4可实现顶加热器体积的改变,并且可以考虑到侧、顶加热器间的距离对热场的影响。
在热场设计的过程中需满足以下几个要求:减少晶体内部的位错缺陷、抑制硅锭边缘多晶、晶体生长界面微凸等。晶体生长速度V和生长界面处熔体中的温度梯度G是定向凝固技术的两个重要工艺参数,V/G是控制晶体长大形态的重要判据,为了避免组分过冷并提高晶体质量,需尽量减小V/G,合理控制晶体生长速度V,并使界面前沿熔体的温度梯度G与其相匹配。由前期的研究工作[16]可知:减小V/G以及增大V/G在横向的均匀度可以减少晶体内的缺陷。
另外,生长界面与坩埚壁接触处经常由于坩埚冷壁效应而成核,导致生长界面边缘下凹,从而引起边缘多晶特别是孪晶侵入,降低硅锭的质量。为了提高硅锭品质,减小生长界面边缘横向热流密度的绝对值|q|可以使界面边缘趋于平直,从而抑制硅锭边缘随机取向多晶向晶体内部扩展。生长界面整体的形状则可由界面中心与边缘的高度差|Δh|来衡量,微凸的生长界面需要Δh尽量小但为正值(界面中心高于界面边缘),有利于保证晶粒垂直生长,减小水平方向的温度梯度,从而减小晶体内部的热应力,降低位错密度,并且能够促使生长界面前沿富集的杂质排向硅锭边缘,提高硅锭中间部分的品质。
综上所述,选取晶体生长界面V/G的均值μ(衡量V/G的大小)和标准差σ(衡量V/G在横向的均匀度)、界面边缘横向热流密度|q|、界面中心与边缘高度差|Δh|作为热场的评价参数。
迁移学习是指利用数据、任务或模型之间的相似性,将在旧领域(源域)学习过的模型应用于新领域(目标域)的一种学习过程[15]。近十年来随着深度学习的广泛应用,越来越多的研究人员使用深度神经网络进行迁移学习,其中微调(finetune)则是最简单的深度网络迁移方法。finetune就是利用已经在源域训练好的神经网络模型,针对目标域的问题微调模型结构、模型参数后重新进行训练,从而得到适用于目标域的新模型。这样模型的训练速度会大大加快,并且可以提高模型精度,即使目标域数据量较少也能得到泛化能力不错的模型。
前期工作[16]已介绍并应用神经网络和遗传算法研究了工艺对铸锭晶体硅生长过程的影响,神经网络和遗传算法的原理此处不再赘述。
图3显示了使用finetune的迁移学习过程。首先基于G7型铸锭炉的数据集通过神经网络建立前述的热场几何参数与热场评价参数之间的映射模型,也就是预训练模型,该模型通过大量的神经网络参数存储了G7尺寸铸锭晶体硅生长过程的一些规律。然后将该模型结构导出并采用预训练模型的参数进行初始化,随后微调模型结构,采用基于G8型铸锭炉的小批量数据集训练模型,实现晶体生长规律从小尺寸到大尺寸的迁移。
本文采用基于实际铸锭晶体硅生长过程的数值模拟建立迁移学习所需的数据集。由于晶体生长速度和流体运动速度都非常缓慢,假设系统为准稳态、不可压。为简化计算,将铸锭炉视为二维轴对称,求解晶体生长过程的整场输运方程[17],考虑热传导、热场各部件表面间的热辐射、结晶潜热、气体对流、熔体对流等,铸锭炉外缸壁定温300 K,氩气流量30 L/min,炉内压力设置为60 000 Pa,前期的研究工作[16]已表明该数值模拟能够较真实地反映实际生产过程。
根据已有的G7型铸锭炉模型,将坩埚扩大至G8尺寸并等比例延伸其余热场部件,即可初步得到G8型铸锭炉的模型。为综合评价某一热场的性能,选取晶体生长前期和后期两个工况,即底部隔热笼开口分别为80 mm和95 mm时数值模拟结果μ、σ、|q|、|Δh|的平均值作为该热场的评价参数,根据前面已经完成的工艺优化工作,在这两个工况下设置侧、顶加热器功率比分别为2.38和1.7,调整总功率使晶体生长高度分别达到132 mm和311 mm左右,假设在同一时刻生长界面上各点的生长速度V相等。
基于上述的G7和G8型铸锭炉模型,进行多次数值模拟以建立源域和目标域的数据集,数据集来源及数据量大小如表1所示,表2为建立数据集时4个热场几何参数取值的变化范围。
表1 源域和目标域的数据集Table 1 Data sets of source domain and target domain
表2 热场几何参数变化范围Table 2 Ranges of geometric parameters
将源域和目标域数据集的神经网络输入数据(l1、l2、l3、l4)做min-max归一化处理,即对原始数据进行线性变换,使其映射到[0,1]之间;输出数据(μ、σ、|q|、|Δh|)作z-score归一化处理,使经过处理的原始数据符合标准正态分布。采用十折交叉验证法进行神经网络模型的调参,即寻找能使神经网络泛化性能最优的超参数值,其中超参数即为神经网络中需要人为给定的网络结构参数,如隐藏层层数、各层神经元个数、学习率(神经网络参数每次更新的步长)等。将经过归一化处理的120组源域训练数据随机划分为十等份,每次取其中一个子集为验证集,其余九份为训练集进行训练,当十个子集均作为验证集训练过一次后,为一次十折交叉验证。不同子集之间的验证结果可能会产生较大差异,根据划分数据集的方式不同,训练和验证结果也可能会产生变化,因此采用三种不同的划分数据集的方式,随机数种子Random分别为0、5、10。经过多次交叉验证,最终确定的神经网络结构如图4所示(偏置神经元未画出),隐藏层由两层、各32个神经元构成,每次训练1 000个epoch(1个epoch表示遍历一次训练数据集),初始学习率0.001,每经过100个epoch学习率减半。
损失函数loss定义为神经网络预测值与实际值间的均方误差,用于评价神经网络的预测精度,如式(1)所示:
(1)
计算所有10个子集分别作为验证集时预测值的绝对误差(神经网络预测值与实际值之差)均值与标准差,绘制成如图6所示的误差棒图。将经过z-score归一化后的数据恢复至原始单位,计算相对误差如表3所示,可以看到划分数据集的方式对整体的验证结果影响不大。
完成神经网络的调参后,重新使用源域的全部数据进行训练,得到预训练模型Net-G7。
表3 交叉验证预测结果的相对误差Table 3 Relative error of cross-validation predictions
迁移学习需要对已训练好的神经网络进行微调,下面介绍三种不同的微调方法。如图7所示,第一种是使用预训练模型的参数进行初始化,并对所有层进行训练,此为Net-TL1模型。为增加对照模型,令Net-SC模型为各层参数随机初始化并对所有层进行训练。第二种是前两层使用预训练模型参数进行初始化并固定,输出层随机初始化,且只训练输出层,此为Net-TL2模型。第三种是在输出层前增加了一层含有4个神经元的隐藏层,前两层使用预训练模型参数进行初始化并固定,后两层随机初始化,并只训练后两层,此为Net-TL3模型。
将前面得到的Net-G7模型结构及参数迁移至目标域,对目标域的训练集通过十折交叉验证调参,然后使用目标域的测试集进行测试。测试结果的相对误差如图8所示,其中Net-G7表示直接使用预训练模型Net-G7对目标域的测试集进行预测。首先对Net-G7、Net-SC、Net-TL1训练300个epoch,初始学习率设置为0.000 3,每训练150个epoch学习率减半,图8(a)显示未经过迁移的预训练模型Net-G7也可以在一定程度上对目标域数据进行预测,这也说明了源域和目标域的相似性。各层参数随机初始化的Net-SC模型预测|q|和|Δh|时误差较大,而经过迁移的Net-TL1模型对4个参数的预测精度基本上高于其他两个模型。然后对Net-G7、Net-SC、Net-TL2、Net-TL3训练600个epoch,初始学习率设置为0.003,每训练150个epoch学习率减半,从图8(b)可以看出增加训练次数和增大初始学习率后Net-SC模型对于|q|和|Δh|的预测精度有了很大提升,然而仍小于Net-TL2模型。Net-TL3模型预测|q|和|Δh|时误差较大,说明Net-TL3模型(增加一层隐藏层)不适合用于此问题的迁移。图8(a)中的Net-TL1和图8(b)中的Net-TL2预测精度相近,但Net-TL1所需的训练时间更短(Net-TL1训练300个epoch,而Net-TL2训练600个epoch),因此选择Net-TL1作为迁移学习的模型。
在训练神经网络模型的过程中,可能由于数据量过少或者神经元数量过多而出现过拟合,即模型对于训练数据拟合得非常好,但对测试数据不能进行较精确预测,在这种情况下可以使用Dropout[18]方法来抑制过拟合。Dropout是在训练过程中按照一定比例随机删除各隐藏层的神经元,如图9所示,两层隐藏层的删除比例分别为p1、p2,被删除的神经元不再进行信号传递,在训练时每传递一次数据就会随机选择要删除的神经元,从而可以减小模型对于某一个或几个神经元的依赖性,提高模型的泛化能力。
下面首先研究Dropout对源域模型的影响。将源域数据集按照9∶1随机划分为训练集和测试集,取4组不同的删除比例,如表4所示,每组p1、p2训练3次并计算相应测试结果相对误差的平均值,如图10所示。p1=p2=0.5时的测试误差较大,说明神经元的删除比例过大也会导致预测精度的下降,因为每次参与训练的神经元个数太少,难以精准学习到数据中的规律。而其余三种情况的测试结果相近,说明不采用Dropout处理的原始模型并未出现过拟合,也有较好的泛化能力。另外通过图10可以看出μ和σ的相对误差在删除比例变化时也并未发生较大的改变,且二者的相对误差均维持在一个较低的水平,说明在G7型铸锭炉的热场结构变化时,生长界面V/G的均值和标准差的变化规律易于被神经网络学习到,而|q|、|Δh|的变化规律则较为复杂,可能需要更大的数据库才能实现对这两个参数更精准的预测。
表4 两层隐藏层删除比例的不同组合Table 4 Different combinations of delete ratio for two hidden layers
然后研究Dropout对目标域模型的影响。目标域模型Net-TL1前两层隐藏层的删除比例在0~0.5间变化,使用目标域训练集对每组p1、p2训练3次并计算相应测试结果相对误差的平均值,如图11所示。不同目标参数对两个隐藏层的依赖程度不同,图11(a)显示第一层隐藏层的删除比例p1在0~0.5变化时对μ的相对误差影响不大,而在第二层隐藏层的删除比例p2增大时,μ的相对误差逐渐增大,说明μ的预测精度对于第二层隐藏层的依赖程度相对较大;图11(b)显示σ的预测精度在p2较大时对第二层隐藏层的依赖程度较大,而在p2较小时对第一层隐藏层的依赖程度较大;而从图11(c)可以看出,|q|的相对误差随p1和p2的增大而同步增大,说明两个隐藏层对于|q|的预测精度均有较大影响;图11(d)中|Δh|的相对误差则主要随p2的变化较大。
改变各隐藏层的删除比例会影响目标参数的预测误差,但除了|q|之外对其余三个参数的影响程度较小,因此从减小|q|预测误差的角度考虑,无需采用Dropout抑制过拟合,即p1=p2=0。
由1.1节可知本文的优化目标为减小μ、σ、|q|、|Δh|,采用遗传算法NSGA-Ⅲ结合目标域的Net-TL1神经网络模型对G8型铸锭炉的4个热场几何参数进行优化。设定种群规模为1 500,进化1 000代后得到1 330个Pareto最优解[19](热场几何参数)。由于Pareto最优解集内解的数量过多,首先采用K-means[20]聚类算法按照其所对应目标参数的相近程度对该解集进行分类,K-means算法就是将给定的数据集按照数据间的距离大小将其划分k个类别,使得同一类中的数据相似度高,而不同类之间的相似度低,聚类效果的优劣选用Calinski-Harabasz指数[21]s(k)来判断,其数学计算公式如下:
(2)
式中:m为数据集的样本数;k为类别数;Bk为类别间的协方差矩阵;Wk为类别内部数据的协方差矩阵。
Calinski-Harabasz指数s(k)越大则聚类效果越好,对Pareto最优解集分别取类别数k=2~9计算Calinski-Harabasz指数,如表5所示。k=2时s(k)值最大,因此将解集分为两类,划分后的数据集如图12所示,由于每个Pareto最优解对应4个目标参数,可在每两个参数间均作出一个二维图像。从图12(a)~(e)可以看出类1所对应的μ、σ小于类2,综合图12(b)、(d)、(f)可以看出类1所对应的|q|大于类2,而从图12(c)、(e)、(f)则可以看到两类对应的|Δh|分布范围相近。划分后的两类几何参数分别对应了晶体生长过程的不同热场(针对本文的研究对象μ、σ、|q|、|Δh|而言),下面从这两类中各选择一个代表解以具体研究其对晶体生长的影响。
表5 类别数k=2~9时的Calinski-Harabasz指数值Table 5 Calinski-Harabasz index values when the number of categories k=2~9
(3)
(4)
通过上述方法从已经分好的两类中各选出一组代表解,得到两个热场设计方案,如表6所示。
方案1中的侧加热器体积较大,侧隔热笼分区块距离硅区域也较近,说明该方案在热区的温度较高,也会导致坩埚侧壁温度较高而使晶体生长界面边缘较凸,这从表6方案1的目标参数值|q|、|Δh|也可以看出。由于分区块距离对侧加热器辐射的阻挡,换热台温度较低,晶体内沿轴向的温度梯度也因此会有所增大。方案2的侧加热器体积较小,位置相对方案1偏低,侧隔热笼分区块距离硅区域较远,顶加热器体积也略小于方案1,说明方案2的热区温度相对较低,坩埚侧壁温度较低,晶体生长界面更平直。
表6 两个优化方案的热场几何参数与评价参数Table 6 Hot zone geometry parameters and evaluation parameters of two optimized schemes
将3.1节得到的两个热场设计方案分别在G8型铸锭炉底部隔热笼开口为80 mm和95 mm时进行数值模拟,其温度分布如图13所示,中心轴线左边为方案1,右边为方案2,标有1 685 K的等温线可视为该工况下的晶体生长界面,硅晶体内的等温线间隔为5 K,硅熔体内的等温线间隔为2.5 K。从图中可以看到方案2晶体生长界面和晶体内的等温线比方案1更为平直,这有利于提高晶体质量,并减小晶体内的热应力,而方案1的等温线则略凸。方案1侧加热器在硅熔体表面以上的体积较大,导致硅熔体内温度高于方案2,而熔体温度过高会使化学反应速率加剧,杂质生成量增多。另外方案1硅晶体底部的温度低于方案2,这是由于方案1较高的分区块阻挡了侧加热器对换热台表面的辐射,使换热台温度降低。
图14显示了两个方案在硅区域中心轴线上的温度分布,硅晶体底面坐标z=0,方案1在硅晶体和硅熔体中的温度梯度均略大于方案2,因此硅晶体内的热应力会相应增大,但这也导致了方案1中的V/G减小。
图15为晶体生长界面V/G的分布,在底部隔热笼开口80 mm时方案1的V/G明显小于方案2,开口95 mm时二者较为接近,说明方案1相比于方案2更不容易发生组分过冷,而V/G沿径向的波动是由硅熔体对流形成的涡流导致的,两个方案中V/G的波动程度相近。综合以上结果,选取方案2为最终优化方案。
为说明选定的方案2对G8热场具有特定的优化作用,并对比分析G7与G8热场对硅区域影响的异同,将方案2应用于G7型铸锭炉,在底部隔热笼开口分别为80 mm、85 mm、90 mm、95 mm时进行数值模拟,并与G8(方案2)进行对比,如图16所示,中心轴线左边为G7,右边为G8,标有1 685 K的等温线可视为该工况下的晶体生长界面,硅晶体内的等温线间隔为5 K,硅熔体内的等温线间隔为2.5 K。在同一高度,G7在硅熔体中心的温度高于G8,一方面由于G7的隔热笼体积小于G8,加热器温度相对偏高,另一方面由于G8坩埚横向尺寸增大,侧加热器与硅熔体中心的距离变远。而在硅晶体中,G7在同一高度的温度低于G8,这也是由于G8横向尺寸增大,换热台底部中心难以通过隔热笼开口辐射散热,因此对于G8来说应适当增大底部隔热笼开口,并可通过改变底部隔热笼结构来实现更稳定、高质量的长晶。另外在晶体生长前期(底部隔热笼开口80 mm),G7在生长界面边缘可以看到有轻微下凹,这会导致硅锭边缘随机取向多晶的产生,而G8无明显下凹。图17为G7和G8在硅区域中心(r=0)、1/2半径处(r=1/2R)、边缘(r=R)沿轴向的温度分布,硅晶体底面坐标z=0,从图中可以看出G7在硅熔体和硅晶体中的温度梯度始终略大于G8,这会导致晶体中较大的热应力。从硅区域中心到边缘,G8的温度分布曲线相比于G7逐渐向右侧移动,也说明了G8的晶体生长界面更平直,沿径向的温度梯度较小,也使得晶体内的热应力减小。
本文使用迁移学习和神经网络结合遗传算法,基于已有的G7型铸锭炉对更大尺寸的G8型铸锭炉进行了热场设计。特别对得到的两个优化方案通过数值模拟研究其在底部隔热笼开口为85 mm、90 mm时的温度分布、固液界面形状、V/G等。方案1相对于方案2的侧加热器体积较大,位置偏高,顶加热器体积略大,而侧隔热笼分区块距离侧加热器更近,因此方案1在热区的温度高于方案2。结果表明:方案2的晶体生长界面更为平直,且硅熔体温度相对较低,有利于减少杂质生成和降低能耗;在硅晶体中的轴向温度梯度略小于方案1,可以减小晶体内热应力;两个方案中晶体生长界面V/G沿径向的波动程度相近,但方案2的V/G略大于方案1,说明方案1更不容易发生组分过冷。选取方案2为最终优化方案,将方案2的热场几何参数应用于G7型铸锭炉,通过数值模拟对比相同方案下的G8型铸锭炉在晶体生长过程中的热场,G8在硅熔体和硅晶体中的轴向温度梯度均小于G7,可以通过适当增大底部隔热笼开口来保持一定的晶体生长速度,但同时需要考虑晶体中的热应力问题。在硅晶体中G8沿径向的温度梯度也小于G7,且晶体生长界面更平直,一方面由于G7的隔热笼体积小于G8,加热器温度相对偏高,另一方面是由于G8坩埚横向尺寸增大,硅区域底部中心通过辐射散热的相对减少所致。
本文发展的迁移模型除了用于大尺寸热场设计,在实验数据不充足的情况下还可用于数值仿真数据向实验数据的迁移、已有的工业数据库向新领域的迁移等,这也是今后需要进一步研究发展的方向。