李姿昕,张能,熊斌,胡云凤,赵新鹏,黄海友*
1.新材料技术研究院,北京科技大学,北京 100083
2.北京材料基因工程高精尖创新中心,北京科技大学,北京 100083
3.材料基因工程北京市重点实验室,北京科技大学,北京 100083
材料是科技发展的基础和先导,随着全球新一轮工业革命浪潮的掀起,加速材料的研发进程成为世界各国共同的追求。如何基于低成本、高可靠性的预测方法理性指导实验来快速获得定制性能的新材料成为与之相关的关键问题。随着“大数据”时代的到来,以机器学习等人工智能技术为代表的材料信息学领域快速发展,并迅速成为材料设计与开发的有力工具。机器学习技术已经在很多材料研究中得到了应用。例如,Xue 等通过机器学习自适应设计,仅实验合成36种预测成分的合金试样,就可以从包含约800,000种不同成分的搜索空间中找到具有极小热滞的新型多组元Ni-Ti 基形状记忆合金[1]。Kiyohara 等通过采用机器学习方法,仅计算不超过0.18%的晶体结构的偏析能即可准确得到合金元素在晶界偏析的稳定构型[2]。Wen 等采用机器学习引导实验的策略,在机器学习反馈回路的辅助下仅通过7次实验便得到了高硬度高熵合金[3]。
机器学习技术已经被证明可以有效地加速材料的研发进程。人类社会已经进入了“大数据”时代,数据资源已经得到了广大科学研究者的重视,即使是“失败”的数据,也可以用来辅助训练机器学习模型来预测成功条件[4]。机器学习不仅能够对材料性能进行预测,同时,借助机器学习挖掘的边界条件等信息,也有助于推进对相关机理的认识。Stanev等就是通过机器学习研究了每个超导体系中预测因子的重要性,获得了关于不同体系驱动超导性的物理机制[5]。
然而,这种方法取决于是否有足够多的高质量的数据。但是在材料科学研究中,建立准确的机器学习模型往往需要“海量”数据进行训练。Rahaman等建立的可对未知化学成分的钢铁材料Ms准确预测的机器学模型,使用了包含2 277条化学成分和Ms数据的数据库[6];Schmidt 等人为了通过机器学习预测立方钙钛矿体系的热力学稳定性,更是构建一个包含约250,000条DFT 计算数据集[7]。但材料科学研究面临更普遍的情况是小数据困境,即所研究的材料对象缺乏足够的高质量数据。其中一个主要原因是由于数据分散造成的,Zhou 等在采用机器学习对高熵合金进行相分类研究的过程当中,从134篇文献当中收集了601条数据来作为数据集[8],这大大增加了研究人员的工作量。
因此,数据库的建设成为了信息学技术在材料科学应用中的重要组成部分。美国在2011年奥巴马总统提出材料基因组计划时,将材料数据库作为三大基础平台之一,其建设得到了高速发展。本文首先介绍了国内外较为知名的材料数据库及其使用情况;然后,分析了数据库如何帮助机器学习技术在材料科学研究中得到广泛应用;最后,讨论了数据库建设和应用中所面临的困难及其发展趋势。
想要实现材料基因组工程这一颠覆性研发新模式,数据共享与计算工具开发显得至关重要。数据库作为材料基因工程不可或缺的一部分,已经得到了材料科学研究者们的重视,目前,国外较为著名的材料信息数据库有加州大学伯克利分校的劳伦斯伯克利国家实验室和麻省理工学院等单位联合组建的Materials Project[9]、杜克大学组建的AFLOW[10]以及美国西北大学组建的OQMD[11-12]等。我国在科技部、工业和信息化部等部门的大力支持下,以中国材料基因工程专用数据库为代表的材料科学数据库在快速建设当中,并且在机器学习应用领域已经取得了初步成果。
Materials Project(MP)计算材料数据库平台(https://www.materialsproject.org/),是由美国劳伦斯伯克利国家实验室(LBNL)和麻省理工学院(MIT)等单位在2011年材料基因组计划提出后联合开发的开放性数据库。如图1所示,MP 数据库存储了几十万条包括能带结构、弹性张量、压电张量等性能的第一性原理计算数据。材料体系涉及无机化合物、纳米孔隙材料、嵌入型电极材料和转化型电极材料。其中大部分的化合物都来自于Inorganic Crystal Structure Database(ICSD)无机晶体结构数据库,数据在收录前会经过检测,所以其数据具有较高的准确性。平台中的MP 专用计算软件也是该数据库的主要特色之一,目前已经开发完成了Materials Explorer、Battery Explorer、Structure Predictor 等15个应用程序并得到了广泛应用。通过这些与数据库相关联的软件可在线对未知材料的性能进行预测,大大减少了实验量,加快了材料的开发速度。
图 1 Materials Project 数据库数据量统计Fig.1 Materials Project database statistics
AFLOW 计算材料数据库(http://www.aflowlib.org/),是由杜克大学在2011年开发的一个开放数据库。数据库中包含了大量第一性原理计算所得的数据,如图2所示,目前已存储了关于无机化合物、二元合金与多元合金等超过557 043 524条涉及2 945 940种材料的结构、性能数据,其中绝大多数数据都是预测得出的,是诸多数据库中数据含量最大的一个[13]。与Materials Project 数据库相似,基于密度泛函理论(DFT)的量子力学计算、信息学数据挖掘和进化结构筛选策略[10],AFLOW 计算材料数据库运用了高通量第一性原理计算,故其拥有很好的计算性能。AFLOW 数据库有AFLOWπ、AFLOW-ML和PAOFLOW 等共12种应用程序可以有效地对材料的结构、性能等进行筛选。AFLOWπ[14]通过引入第一性原理计算来获得材料的能带结构、态密度、声子色散、弹性特性、复介电常数、电子转移系数。以减少普通用户的技术性难题为出发点,AFLOWML[15]简化了AFLOW的机器学习方法,提供了一个开放的RESTful API可访问不断更新的算法来保证各种工作流的正常运行,帮助研究人员更好地预测材料性能,推动了机器学习方法在材料中的应用。
图 2 AFLOW 数据库数据量统计Fig.2 AFLOW database statistics
Open Quantum Materials Database (OQMD)开放量子材料数据库(http://oqmd.org/),是由美国西北大学Chris Wolverton 团队于2013年建立的一个基于DFT 计算的637 644种材料的热力学性质和结构的数据库,同时提供API 接口来下载数据。正如其名,OQMD 数据库是诸多数据库中开放程度最高的一个。在OQMD 计算平台上,研究人员不仅可以按需搜索材料的晶体结构、能带和能量等性质,还可以训练机器学习模型,用以识别潜在的新三元化合物[16]。此外,该数据库还可以利用元素计算法给出材料的相图从而预测热力学稳定相。OQMD 计算平台的准确性也得到了大多用户的肯定,Scott Kirklin 等人[12]通过具体实验对比发现,运用OQMD 计算平台可以基本准确地预测大多数元素的晶体结构与形成能。
Materials Project,AFLOW和OQMD 都是基于量子力学计算建设的数据库,这三个数据库计算数据所基于的晶体结构大多来自于ICSD 数据库[17]。ICSD 无机晶体结构数据库(http://icsd.fizkarlsruhe.de/)的构建是由德国波恩大学无机化学研究所Gunter Bergerhoff 教授首先提出的,自1913年创建以来,先后经由波恩大学、FIZ 研究所、Gmelin研究所及美国国家标准与技术研究所(NIST)进行维护管理[18]。该数据库建立时间较长,涵盖了金属、合金、陶瓷等非有机化合物的晶体结构信息。到目前为止,数据库中包含了超过9 千种结构原型,共计超过21 万种晶体结构条目,如图3所示,已经形成了世界最大的无机晶体结构数据库。数据库中的数据都是经过专家团队全面检查后才会上传到数据库当中。ICSD 每年都会更新两次数据,这些数据部分来源于出版期刊或实验室,还有部分来源于计算机程序生成。用户可通过参考文献、化学组成、晶胞参数、对称性以及实验和代码信息5种不同的方式对数据进行检索。因此,在新材料的研究过程中,ICSD 数据库被研究人员广泛应用。
图 3 ICSD 数据库统计Fig.3 ICSD database statistics
除了以上几个著名的材料信息数据库以外,还有一些影响力较大的数据库。由美国国家标准与技术研究所NIST 开发的标准参考数据库系列有百余个数据库(https://www.nist.gov/srd/),其中材料类的有材料性能数据库与晶体结构数据库等,涵盖了腐蚀性能、高温超导、热力学性能、摩擦性能等内容,可按需通过分子式、分子量、化合物名称、CAS号等途径查找,有图谱分析、同位素计算等功能。日本国立材料科学研究所开发的MatNavi 数据库(https://mits.nims.go.jp/),涵盖了金属材料、复合材料、超导材料、聚合物、高温合金等材料种类的大量数据内容。除基础数据库外,还包括工程数据库(如CCT 曲线数据库)、四个应用与结构材料在线数据表。用户可通过搜索关键字、类别、数值等查找相应数据,有自己独创的检索系统,其输出方式也呈现多样化。NOMAD(https://www.nomad-coe.eu/)是由欧洲卓越中心(European Centre of Excellence)开发的,该数据库中的数据部分来自世界各地的研究人员与实验室,也有部分来自于其他数据库,如AFLOWlib和OQMD。该数据库的主要特色为可暂存研究人员的代码和数据,用户可以对比世界各地研究人员的计算结果,从而可以更好地研究材料的结构性能,这一特点使NOMAD 数据库从众多高通量计算平台中脱颖而出。由日本科学技术公司(JST)与瑞典物相数据系统(MPDS)于1995年合作创立的PAULING FILE 数据库(http://www.paulingfile.com/),主要应用于无机材料的设计与开发。该数据库在建立之初就是希望能够应用于材料数据挖掘中,能够发现可以应用于材料设计的新模式。Material Connexion数据库(https://www.materialconnexion.com/)由George M.Beylerian 创立,数据库中包含了碳基材料、水泥基材料、陶瓷材料、玻璃材料、金属材料、天然材料、高分子材料、材料工艺在内的超过一万条材料数据。这是一个将材料学家与设计师直接联系起来的创新材料咨询服务机构。它不仅包含大量的馆藏与数据库,还有专业的研究团队提供咨询服务与线下材料图书馆,设计师可以亲自感受、挑选各种新材料。由美国佛罗里达大学Hennig 课题组创建和管理的Materials Web(https://www.materialsweb.org/)是一个以在线存储二维材料电子结构为主的数据库。用户可免费获取数据库中约700 余条二维材料和1万余条层状体材料的结构、电子和热力学数据,数据库还支持生成VASP 工作流和表征材料结构特征,未来还将引入机器学习工具方便科研人员进行材料科学研究。Matdat(https://www.matdat.com/)是由MATDAT LLC的创始人Robert Basan 创立的一个综合平台,它包括一个材料性能数据库,一个超过12 000条信息的关于实验室、供货商、制造商名录与即将开放的研究数据储存平台。其中,材料性能数据库包括铝合金、钛合金等600多种材料的1 500多条信息。而像SpringerMaterials[19],Materials Cloud[20],COD[21]和ChemSpider[22]等数据库,在其相关领域也有一定的影响力。
表1 主要材料科学数据库对比Table1 Comparison of major material science databases
相较于国外一些著名的材料数据库而言,我国在这方面起步较晚。为了更有效地应用和积累科学数据,在1987年,中国科学院牵头正式启动科学数据资源建设。经过多年发展,2019年全面改版的中国科学院数据云门户网站(http://www.csdb.cn/)投入运行。目前,数据库中包括1 144个数据集,访问人数超过了16 000 万,下载量更是高达2 000TB。这其中由中国科学院金属研究所承建的“材料学科领域基础科学数据库”(http://www.matsci.csdb.cn/)是国内最全面的材料科学数据库之一,主要包括金属材料、无机非金属材料、闪烁材料、碳化硅材料、纳米材料和有机高分子材料等子数据库。目前材料科学主题数据拥有数据总量7万余条。其中金属材料节点6万余条,无机非金属材料节点数据1万余条,涵盖了材料的热学、力学和电学等各种性能,其数据来源主要以手册、期刊文献数据为主,极大地促进了新技术与学科领域的融合发展。
我国从2001年开始逐步启动了科学数据共享工程。以国家科技部“十一五”基础条件平台项目“材料科学数据共享与服务平台建设”为依托的“国家材料科学数据共享网”(http://www.materdata.cn/)便是其中的一项重点工程。目前已整合了全国各地30余家科研单位的数据资源,其中包括了3 000种钢铁材料及材料基础的高质量数据近11 万条,数据库中以材料体系划分,分为了材料基础、有色金属材料及特种合金、黑色金属材料、复合材料、有机高分子材料、无机非金属材料、信息材料、能源材料、生物医学材料、天然材料及制品、建筑材料和道路交通材料12个大类。国家材料科学数据共享网的建设为材料研究领域提供了数据共享服务与应用支撑。
2016年,由北京科技大学牵头建立的“材料基因工程专用数据库(MGED)”(http://www.mgedata.cn/)是一个基于材料基因工程的思想和理念建设的数据库和应用软件一体化系统平台。截至目前,该数据库平台包含的催化材料、铁性材料、特种合金、生物医用材料以及材料热力学和动力学数据库等各类材料数据的总量超过了76 万条,累计查看量超过2 万次。该平台包括了基于云计算模式的材料高通量第一性原理计算软件以及融合数据库的材料数据挖掘计算网络平台,可以实现批量作业的自动生成,并且可以对计算的结果进行自动处理、解析和数据汇交。除此之外,该平台还包含了论文信息辅助提取软件,使用人员可以使用该软件提取所阅读的论文当中的实验数据,从而可以为该平台的材料数据库填充材料数据。平台包含在线数据挖掘系统,可直接调用数据库数据开展数据挖掘和机器学习。
除此之外,国内还建成了很多专项数据库,包括国家纳米科学中心建立的纳米研究专业数据库、北京科技大学牵头建立的国家材料环境腐蚀科学数据中心、中国科学院化学研究所承担建设的高分子材料科学数据资源节点等。这些数据库虽然使用范围相对较小,但是在特定的研究领域具有很强的针对性。
如今,在“大数据”时代中,数据是进行材料科学研究的基础,而采用机器学习进行材料研究的时候,更是需要庞大数据量的支持,材料信息数据库可以非常便捷地储存和利用现有的严重碎片化的材料数据[23]。材料数据库作为材料基因工程的核心技术之一,在材料基因工程领域研究中具有不可忽视的作用,同时也为研究中数据的获取提供了便捷。数据库在机器学习研究过程当中具有不同的应用方式。
采用数据库中的数据作为训练集来训练机器学习模型,这是数据库在机器学习研究当中最广泛的应用方式。机器学习往往需要大量数据来训练模型,而数据库可以提供大量的数据支持。Tehrani 等以Materials Project 数据库中的3 246个弹性模量作为训练集训练的模型,通过对晶体结构数据库中118 287个化合物进行预测,得到了由支持向量机回归确定的最大体模量和最大剪切模量的材料,选择典型化合物进行合成测量后发现误差小于10%[24]。不只是理论计算类数据库在机器学习中有着重大应用,实验类的数据库也具有不可忽视的作用。Agrawal 等利用NIMS的数据库中的实验数据,通过对特征选择和预测建模在内的不同数据科学技术在钢材疲劳性能中的应用进行探讨,发现一些先进的数据分析技术可以在预测精度上取得显著提高,成功地证明了这种数据挖掘工具可用于按预测钢铁疲劳强度的潜力顺序对成分和工艺参数进行排名,并实际开发了相应的预测模型[25]。Stanev 等在超导临界温度的机器学习建模研究中,其数据集来自于NIMS 创建和维护的SuperCon 数据库,所建立的模型具有较强的预测能力,样本外推准确率约为92%[5]。
除了作为训练集,还可以将数据库中的数据作为测试集来检验训练完成的机器学习模型的性能,采用第一性原理计算的数据训练的机器学习模型可以有效地预测晶体化合物的振动性质[26]。在这个研究中,将振动性质的预测值和NIST 数据库中的实验值进行了对比,发现预测结果与实验结果之间的一致性是显著的。这表明该模型可以有效并且快速地预测晶体化合物的振动性质。
机器学习模型也可以对数据库中的材料进行性能预测。Cheon 等将通过三维晶体结构的原子位置训练好的机器学习模型应用于Materials Project 数据库中的5万余个无机晶体材料后,可以识别出1 173个二维层状材料和487个由弱键一维分子链组成的材料。对于大多数不清楚是二维或一维材料的材料,这个模型识别材料的数量增加了一个数量级[27]。
很多数据库都内置了高通量计算框架或势库,可以间接为机器学习研究提供数据支持。在AFLOW数据库的高通量计算框架下,结合机器学习方法评估了大约400个半导体氧化物和氟化物与立方钙钛矿结构在0、300和1000K 下的力学稳定性。找到了92种在高温下力学稳定的化合物,其中36种未在以往的文献中提及[28]。采用MGED 数据库中的晶格反演势库结合机器学习,可以在大约50 万个候选合金中快速找到具有最高相变熵变的Cu-Al 基形状记忆合金,同时得到了部分合金元素对合金相变熵变的影响规律[29]。
数据库可以将碎片化数据整合,并不断积累,为材料研究提供数据支持。在机器学习辅助镍基单晶高温合金晶格错配度预测的研究中[30],其数据集来源于文献摘录。而在利用机器学习算法训练实验数据预测粉末冶金材料烧结密度的研究中[31],数据则来源于实验室积累以及文献收集。这些研究的数据虽然来源于文献以及实验室的收集,但是为了指导未来的合金设计,都被收集在了国家材料科学数据共享网中。该数据库中的所有数据均经过所属单位和文献出处信息的验证,保证了质量的可靠性。
对于材料数据库来说,通过第一性原理等高性能、高通量的材料计算进行材料理论数据获取,并结合实验数据和经验数据,再利用信息化技术对大规模、多源异构的材料数据进行处理分析,由此才能对材料数据库所存储的数据进行充分的挖掘和利用[32]。目前,常用的高通量计算框架包括Materials Project和AFLOW 等都具有较高的入门门槛。因此,高通量计算软件的发展也变得刻不容缓。
上海鞍面智能科技有限公司的LASP 软件利用最新的高效神经网络势能面方法来进行势能面模拟计算,解决了诸如晶体结构预测、相变动力学、反应路径预测等许多复杂的反应路径及材料体系中的问题。高岩涛等人[33]基于第一性原理,利用平面波基组、赝势方法进行电子结构计算、分子动力学模拟,研发了GPU 加速计算平台PWMat,其比相同的CPU 软件(例如PEtot)的计算速度要快20倍左右,能够在平台上面实现4 000 电子以上体系的模拟计算。中国科学院计算机网络信息中心的杨小渝等人研发了高通量材料计算平台MatCloud,以及高通量材料计算数据库MatCloudLib[34]。具有晶体结构建模、图形化界面的流程设计、性质预测、结果分析、数据提取与查询、与计算资源的集成等特色,并且可以完成对计算结果的可视化分析及展示。王宗国等人[35]以Fe-Al和Al-Ti 体系为例,采用MatCloud的特色工作流技术快速筛选出了掺杂的稳定结构,相较于遍历筛选,计算量分别减少了66%和84%。而由北京航空航天大学的孙志梅等人开发的计算平台ALKEMIE 同样包含计算平台MATTER STUDIO(MS)以及数据库DATAVAULT (DV)两个部分,并且可以全自动地进行建模、运行以及数据分析。其中MS 计算平台集成了第一性原理、热力学、经典分子动力学及动态蒙特卡洛模拟等计算引擎,DV 数据库当中的材料结构数据超过了18 万条,计算完成的材料性能数据超过1 万条。
材料数据是材料科学研究的基础,随着“材料基因工程”的提出与实施,材料科学数据呈现出爆炸式增长的态势。对于材料数据库来说,其最主要的作用之一就是积累材料数据,为材料计算和实验提供数据支撑。所以已有研究数据的积累对于材料数据库的建立是十分必要的。但是国内在数据库方面的资源储备量远远不如美国、欧洲、日本等发达国家,我国的材料科学数据库处于建设初期,还无法很好地为材料科学研究者们服务,还无法满足应用的需求。
目前,中国材料信息数据库的建设与应用面临着很大的挑战,主要表现在以下几个方面。
(1)数据库的数据量远远不够。相较于一些发达国家而言,中国的材料科学数据库在建设方面起步较晚,数据积累量远远不足,已有的几个国家级数据库中的数据不够丰富,还处于建设初期。在“大数据”时代背景下,相比于其他领域数据量的积累速度,材料领域的数据量积累速度也较慢。
(2)数据质量评价方法与机制亟需完善。失败实验的数据依旧可以为研究工作提供其应有的价值,但是,错误的数据只会阻碍研究的进展。无论国内国外,在数据库建立之初都会将数据的质量列为重中之重。但是,错误的数据难免会存在,这就需要材料科学工作者们严格把关,将错误的数据拒之门外,为机器学习研究减少“噪音”的影响。
(3)明确数据分类。材料根据不同的分类方式有很多类别,材料数据的分类应该根据权威的材料分类体系进行划分。同时,还应该加强年轻学生和科研工作者对材料分类的学习,在进行数据收集的时候就可以避免分类混乱,减少日后数据库的维护成本。
(4)材料数据的获取过程较为复杂。无论是材料计算数据还是实验数据,对工艺参数都显得十分敏感,往往一些工艺参数的微小变化,就可以使得同种材料的数据产生巨大差异。在进行数据收集的时候,还需要严格数据格式,明确数据来源以及数据的生产条件。
(5)数据的共享程度仍有待提高。在现在这个“大数据”时代,已经有很多科研机构和生产单位意识到了数据的重要性。不同的研究单位往往都拥有自己的数据库,但是,这些数据库的共享程度非常低,并且很多都是单一性能或者单一材料体系,无法形成一个系统的综合类材料信息数据库。而且数据格式也具有其自身的特色,这也影响了其共享程度。
(6)数据知识产权问题依旧严峻。这也是造成数据共享程度较低的一个主要原因。“大数据”时代,数据是一笔很大的“财富”,而对这笔“财富”的知识产权属性和保护还没有一个明确的法律界定,很多研究工作者也不愿意无偿贡献数据,尤其是一些生产单位的数据,更是涉及到了其商业机密。
(7)生产数据的收集有很大的困难。一些生产数据会涉及到生产单位的核心技术或者商业机密。但是部分不涉密数据的收集力度依旧不大,很多数据库在这方面存在很大空白。
(8)数据的收集、更新,与数据库的维护需要专业人员监管。现在一些数据库的数据收集、更新与数据库的维护是由青年学生和研究工作者完成的,但是部分学生和研究工作者对材料科学领域的知识理解得不够深刻和系统,在进行数据库建设的时候往往会造成很多失误,影响了数据库中的数据质量和数据库的建设进度,所以需要专业人员进行监管。
材料信息数据库的建设刻不容缓,由于近年来“材料基因工程”的提出与发展,数据库的建设与发展也受到了极大的关注。中国在材料科学研究领域已经积累了大量的数据,但是,这些数据还没有很好地被收集起来,加大材料数据收集和共享力度显得十分重要。而在收集数据的过程当中应该对数据质量严格把关,对数据格式严格要求,对数据知识产权问题加强管理,提高数据库中数据的质量和共享程度。高通量材料计算和高通量制备与表征是“大数据”时代补充材料信息数据库数据量的有效手段,发展高通量计算平台、高通量制备技术和高通量表征技术可以有效缓解数据收集困难的情况,同时也可以降低材料数据收集过程的复杂程度,增加相同工艺参数下材料的数据量。中国现在材料信息数据库的建设属于“边建设边使用”,数据库的建设是一项长期的工作,应该优先建立一些热门材料体系的专题材料数据库,优先解决国家科技重大专项和国防建设急需数据研究的情况。由于数据库建设是材料基因工程领域中重要的一环,同时中国数据库的发展与发达国家相比还有较大差距,因此,中国的材料数据库建设还具有很大的发展空间。
本文对国内外材料信息数据库的建设情况和使用情况进行了简单的介绍。总的来说,材料基因组工程领域作为一个新兴的科学研究领域,已经取得了初步成效。材料基因工程作为颠覆性技术,想要实现新材料研发周期缩短一半、研发成本降低一半的目标就离不开数据库的支撑。在过去约10年间的发展中,材料科学数据库的发展情况呈现出“百家争鸣”的态势,众多材料学研究者都认识到了数据的重要性。因此,未来几年中国材料科学数据库在建设和应用上将迎来一个快速发展时期。
利益冲突声明
所有作者声明不存在利益冲突关系。