王向东,徐鹏程,卢 天,刘秀娟,陆文聪,
(1.上海大学 材料基因组工程研究院,上海 200444)(2.上海大学理学院,上海 200444)
近年来,机器学习(machine learning, ML)或数据挖掘已经成功地应用于材料科学研究中[1-4]。例如,Xue等[5]报道了如何通过自适应设计加速寻找具有目标性能的新材料,并进行了推理和全局优化,以寻找具有极低热滞后的镍钛基形状记忆合金。何鹏程等[6]报道了模式识别在核壳结构钴铝复合氢氧化物形貌可控合成中的应用。由于三元金合金组分和配比的复杂性,到目前为止,找到一种简单、有效的方法来设计具有理想性能的新材料仍然是一项挑战。我们期望通过ML模型设计出性能更好的新材料,从而加速对新材料的研究。
金合金具有接触电阻低、导电性和导热性良好、噪音电平低以及抗有机气氛污染能力良好等优良的电学和化学性能[7, 8],故金合金在电接触材料方面具有很好的应用前景,尤其是在轻负荷、小接触压力使用条件下更能显示其优良的特性[9-11]。电接触材料一般在电器开关中使用,电阻率是其重要特性之一,因此研究低电阻率三元金合金具有非常重要的意义。
本工作采用的材料设计策略流程如图1所示。原始数据由51个三元金合金样本组成,利用最大相关最小冗余(mRMR)结合XGBoost算法筛选出建模的特征变量,然后应用作者实验室开发的模式识别逆投影方法设计了3个低电阻率三元金合金候选样本,最后通过XGBoost模型估算出候选样本的电阻率。
本文原始数据来自于材料数据科学平台(MPDS)数据库[12, 13],它由51个在常温常压下的三元金合金样本组成。在数据集中,用化学符号表示三元金合金(ABC)时,先将Au元素排在A位,然后将其他两个元素按电负性上升的顺序排列,若两个元素的电负性相同,则再按价电子数上升的顺序排列。对目标值电阻率取负对数,得到其数值在4~6.8之间。将数据集中-lgρ大于5.71(数据集的中位数)的划分为优类样本(good samples),将-lgρ小于5.71的划分为劣类样本(bad samples),因此可得到优类样本26个,劣类样本25个。本工作中共收集了64个特征描述符[14],其中包括62个原子参数描述符和2个组分描述符。
mRMR算法是一种滤波式的特征筛选算法,它以不同的方式在相关性和冗余度之间进行权衡,并且以互信息作为计算准则来比较特征与类变量之间的相关性以及特征之间的冗余度,通过最大化特征与类变量的相关性以及最小化特征之间的冗余度来进行特征选择[15]。
最大相关性原理是指选择那些与模型具有最大相关性的特征,相关性越大,则说明训练出的模型解决问题的能力越强。特征之间的相关性越大,则冗余度越高。为了减少特征之间的冗余度并使每个特征具有代表性,需要将冗余度降低到最小,这就是最小冗余原理。
统计模式识别是ML的主要方法之一, 为了实现统计模式识别方法的自动建模,有必要从通过不同方法获得的众多投影图中自动选择最佳模式识别分类投影图(二维投影面)[16]。
2.3.1 最佳投影识别法
由于不同的计算原理,不同的统计模式识别方法可以获得不同分类结果的投影图。但即使相同的统计模式识别方法也可能具有不同的投影方向,如主成分分析(PCA)方法能得出N(N-1)/2个不同的投影图, 其中N为特征变量数。为此, 我们利用最佳投影识别法[17]探索寻找分类最佳的二维投影面, 其原理是在计算了若干个统计模式识别投影后(本工作应用了主成分、偏最小二乘、Fisher判别矢量、球形映照等投影),使用迭代方法在每个隐含的投影平面上搜索出最佳分类的投影图,即在该投影图上将优类样本在一定范围内聚集, 且使优化区(优类样本分布范围)混合的劣类样本的数量尽可能少。
2.3.2 逆投影法
模式识别投影图上显示的样本点的坐标是各原始特征变量的线性组合或是某种没有实际意义的映像,实际工作中实施的“优化样本”必须由原始特征变量来表示,因此需要通过特定的算法将二维模式识别图上优化区域中设计的“优化样本”返回到原始样本,该过程被称为“逆投影”[6]。
逆投影是为二维空间的设计点找到多维空间的源像。如果没有约束条件,那么逆投影将有无数多个解,故逆投影的结果只有在某些约束条件下才是唯一的。例如,为线性逆投影引入的约束条件是将设计点在各个投影矢量上的坐标取定值,而为非线性逆投影引入的约束是使逆投影的误差函数最小。
本工作采用线性的模式识别逆投影方法,只需要用户在投影图上设定一个点,就能得到一组由横纵坐标的投影矢量所决定的联立方程组(含2个方程组),如式(1)所示:
(1)
其中,xij为第i个投影上的第j个特征变量(有n个),aij和bi是决定模式识别投影的系数,ci是设计样本的投影坐标。由式(1)确定的定量关系只有2个,因此,若想得到唯一解,必须给定n-2个约束条件。本工作进一步采用n-2个变量的平均值代入上面的方程,则可将上面的方程转化为二元一次线性方程组,从而求得该方程组的唯一解。
变量筛选的目的是去除冗余的自变量,用尽可能少的自变量建立预报结果尽可能好的ML模型。为了去除共线性的自变量,本工作计算了所有64个特征描述符(自变量)之间的皮尔逊相关系数,若2个变量间的皮尔逊相关系数大于0.9,则删除其中一个变量[18]。任意2个描述符x和y之间的皮尔逊相关系数(R)的计算如式(2)所示:
(2)
利用mRMR算法对44个特征变量进行排序[15]。图2给出了排序在前15的变量间的皮尔逊相关系数热图。随后通过XGBoost算法筛选出与ML的最优变量子集[19]。为了评估变量子集,采用实验值与留一法预测值之间的相关系数(R)来评价变量筛选的效果,最优变量子集相应的R值最大。从图3可以看到相关系数R与所选变量数之间的关系,即R值随着变量数先增加,在达到最大值之后逐渐减小。因为最合适的变量数可能在峰值附近,因此选择了前11个变量进行了更详细的计算。从图3中可以发现,R的趋势与均方根误差(RMSE)正好相反,利用前5个变量所建的XGBoost模型拥有最好的表现,即最大的R值与最小的RMSE值,故选择前5个变量进行后续的ML建模和材料设计。这5个变量分别为B位组分数(RB)、C位组分数(RC)、C位电负性(χC)、B位第二电离能(I2B)、C位第一电离能(I1C)。
图2 排序在前15的变量间的皮尔逊相关系数热图Fig.2 Heat map of Pearson correlation coefficient among the top 15 variables
图3 mRMR-XGBoost进行变量筛选Fig.3 Variable screening by mRMR-XGBoost
利用本实验室的HyperMiner数据挖掘软件[20],以RB、RC、I2B、χC和I1C为特征变量,电阻率为目标值,经过最佳投影计算,得到如图4所示的最佳模式识别投影图及逆投影点,对应于PCA方法的第一主成分PCA(1)和第三主成分PCA(3)构成的投影图,发现有明显的统计分布规律[6, 21, 22]。图4中的矩形区域为优化区,其中优类样本约占70.3%,高于总样本中优类样本所占比例(51%)。由此得出,若要得到低电阻率的三元金合金,则设计的三元金合金样本应尽可能控制在优化区内。图4中优化区分布范围可由如下联立方程组式(3)和式(4)表示:
4.530≤0.648[RB]+0.207[RC]+8.531×10-4[EISB]+
1.005[ENC]+4.358×10-3[EIFC]≤8.322
(3)
0.915≤-6.979×10-3[RB]+7.821×10-2[RC]+4.678×10-3
[EISB]-1.775[ENC]-1.211×10-3[EIFC]≤4.485
(4)
在最佳模式识别投影图中选取3个点作为虚拟样本(virtual samples),如图4所示。然后使用模式识别逆投影的方法计算出3个虚拟样本的特征变量(表1)。最后通过计算欧式距离,得到与虚拟样本点最接近的候选样本,如表2所示。
图4 最佳模式识别投影图及逆投影点(虚拟样本)Fig.4 Optimal pattern recognition projection diagram and inverse projection point(virtual samples)
表1 逆向设计的虚拟样本Table 1 Virtual samples of inverse design
由表2可知,候选样本分别由1个前过渡元素和2个后过渡元素组成。依据Chen等[23]研究中3个过渡元素金属间化合物的形成规律,可得出结论,Rsp(B)/Rsp(C)>1.3的三元合金系能形成三元金属间化合物(Rsp表示原子伪势半径)。因为Rsp(Zr)/Rsp(Cu)为1.38,Rsp(Sc)/Rsp(Cu)为1.35,均大于1.3,所以候选样本可形成三元合金。
表2 对应虚拟样本的候选样本Table 2 Candidate samples corresponding to virtual samples
采用4种不同的ML算法,即XGBoost、支持向量回归(SVR,采用径向基核函数)[24]、多元线性回归(MLR)[25]和岭回归(KRR)[26],来构建-lgρ与特征变量的ML模型。根据每种算法的留一法交叉验证的表现筛选-lgρ性能估算模型。从图5可以看出XGBoost模型拥有最高的R值和最低的RMSE值,分别为0.850和0.331,超过了其他模型的结果[27]。因此,后续选择XGBoost模型进行三元金合金-lgρ的估算。
图5 采用不同ML算法测得的三元金合金-lg ρ预测值(Pred.)与实验值(Exp.):(a)XGBoost,(b)KRR,(c)MLR,(d)SVRFig.5 Predicted value (Pred.) and experimental value (Exp.) of -lg ρ of ternary gold alloys by using different ML algorithms:(a) XGBoost, (b) KRR, (c) MLR, (d)SVR
使用XGBoost模型对候选样本的-lgρ进行估算,可得到3个候选样本的-lgρ值,如表3所示。从表3中可以看出,候选样本的-lgρ值均大于原始数据集中-lgρ的最大值6.68,故模式识别及其逆投影算法可用于低电阻率三元金合金材料的逆向设计。
表3 候选样本估算值Table 3 Estimated values of candidate samples
本文以设计低电阻率三元金合金为目标,利用本实验室的HyperMiner数据挖掘软件,通过模式识别最佳投影找出了形成低电阻率三元金合金的边界条件,然后应用模式识别逆投影方法设计了3个低电阻率三元金合金候选样本,最后通过XGBoost模型估算出候选样本的电阻率。结果表明,根据逆投影方法设计的AuZr1.95Cu0.52、AuZr1.12Cu4和AuSc1.86Cu2.75样本具有较低的电阻率,其-lgρ预报值分别为6.718,6.707和6.701,均超过了原始数据集-lgρ的最大值6.68。因此,本工作的研究方法可用于指导新材料的理论设计,有助于实验数据的统计规律挖掘,用以加快新材料设计发展。