材料属性知识图谱的建设与发展浅析

2021-12-24 09:30邓永和张宇文谭恒博文大东
关键词:材料科学数据库材料

刘 涛,邓永和,高 明,张宇文,谭恒博,文大东

(1.吉首大学 物理与机电工程学院,吉首 416000;2.湖南工程学院 计算科学与电子学院,湘潭 411104)

0 引言

随着经济的快速发展和制造业竞争日趋激烈,新一轮全球工业革命推动了材料科学的研究与开发,以满足工业领域对更高性能材料的需求[1].进入大数据时代,数据挖掘、机器学习等技术在材料研发平台建设和基于大数据的材料分析预测等方面应用日益广泛,并迅速成为材料设计与开发的有力工具.在新材料方面,机器学习算法已应用于许多关键材料的研究中,如新能源材料、软材料、聚合物电介质、钙钛矿材料、压电材料、催化剂、感光材料等,并且取得了显著成就[2].20世纪90年代末,数据挖掘方法已广泛应用于材料科学研究和生产控制过程中,如材料性能预测与优化、新材料设计与开发、生产过程监控等[3].机器学习方法结合大量材料数据,加速了新材料的设计和研发的进程,此方法引起了国内外更多材料科学研究者的关注[2].在材料科学研究中,信息技术主要应用于材料数据库的建设.2011年,美国总统奥巴马提出了将材料数据库作为三大基础平台之一的“材料基因组计划”,并在2014年将其提升为美国的“国家战略”.随后,欧盟、日本和印度等国家也加入此类研究的行列,都争取在新的材料革命时代中抢占先机.2015年中国也启动了“材料基因工程关键技术与支撑平台”重点专项(简称“材料基因工程重点专项”),在广大材料科研工作者的共同努力下,该领域的研究取得了显著的进展[4].

1 材料属性知识图谱建设方法

知识图谱是由节点和关系构成的图,可直观地模拟现实世界中的每一幕场景.通过不同知识间的关联生成网络知识结构,对于机器来说就是一张地图.一个节点代表一个实体或概念,一个边包含一个属性或关系.知识图谱生成过程的实质就是让机器形成认知能力,从而更好地理解世界.以“实体-关系-实体”三要素构成知识图谱的基本单位,这也是知识图谱的核心.

如图1所示,材料属性知识图谱的架构流程主要包括6个环节:知识建模、知识存储、知识抽取、知识融合、知识计算以及知识应用,可用于探索网络间基本材料属性之间的关系,指导多功能材料的设计.通过利用这些连接的模块组织结构,可以把现有数据库内的隐藏性能联系起来,为进行材料科学实验或建立派生材料数据库提供了便捷而高效的途径[10].

图1 材料属性知识图谱的架构流程示意图

2 材料数据库概述

“材料基因工程”项目为材料数据库提供了新的发展方向,使材料数据库的建设得到高速发展,因此开发各类数据共享平台和计算工具至关重要.世界各地的材料科学研究者们都在积极建设材料数据库[1].目前,国外较为著名的材料信息数据库有Materials Project(MP)开放性数据库[6]、AFLOW计算材料开放数据库[7]等.与国外相比,国内的材料科学数据库建设相对较晚.但在“十三五”国家重点研发计划专项的支持下,我国材料科学数据库平台逐步建成,如中国科学院金属研究所开发的材料数据库查询系统[8]、国家材料科学数据共享网[9]、材料基因工程专用数据库(MGED)、国家先进材料网络和信息中心建立的材料信息网等,这些都是优质的材料科研平台.

2.1 国外研究情况

2011年,由美国劳伦斯伯克利国家实验(LBNL)和麻省理工学院(MIT)联合开发的开放性数据库—Material Project(MP)(https://www.materialsproject.org/),是美国“材料基因组计划”的一大产物.此数据库已经存储八十多万条数据,包括能带结构、弹性张量、压电张量等性能的数据.如图2所示,该数据库涉及了无机化合物、纳米孔隙材料、嵌入型电极材料和转化型电极材料等八大体系,其存储的数据大多来自无机晶体结构数据库(Inorganic Crystal Structure Database,简称ICSD),其中所收录的数据准确性非常高.在MP平台上,通过部署各类专用计算软件,它可在线预测未知材料的性能,这从很大程度上减少了科研人员的实验量,也加快了各类材料的开发速度,使材料研究蓬勃发展[11].

图2 MP数据库数据统计量

2011年,由杜克大学开发的开放性AFLOW计算材料数据库(http://www.aflowlib.org/),同样是美国“材料基因组计划”的一大产物,此数据库中的数据大多也是通过第一性原理计算所得.目前,该数据库存储的数据涉及有3种无机化合物、312种二元合金和125种多元合金材料化合物,并分别有超过566,373,375个计算属性,其中的绝大多数的数据都是预测得出的,是含量最大的数据库,如图3所示.与MP数据库相似,二者皆运用了基于密度泛函理论(DFT)的高通量第一性原理计算、信息学数据挖掘和进化结构筛选策略,并取得了良好的计算性能.AFLOW数据库有12种应用程序可以有效地对材料的结构、性能等进行筛选.此外,AFLOW数据库中的AFLOWML模块简化了数据库机器学习方法,使得普通用户也可正常操作,并提供了一个开放式的API接口,不断更新算法能够保证各种工作流程的正常运行,助力材料科学研究人员更好地预测材料性能,推动机器学习在材料研究中的应用[12].

图3 AFLOW数据库数据统计量

此外,在材料领域中还有其他具有影响力的数据库,如由美国国家标准与技术研究所NIST开发的数据库https://www.nist.gov/srd/,这些数据库是具有参考标准的数据库系列.其中材料类的数据库有材料性能数据库与晶体结构数据库等.日本国立材料科学研究所开发的MatNavi数据库(https://mits.nims.go.jp/)、欧洲卓越中心(European Centre of Excellence)开发的NOMAD(https://www.nomad-coe.eu/)、1995年日本科学技术公司(JST)与瑞典物相数据系统(MPDS)共同开发的PAULINGFILE数据库(http://www.paulingfile.com/)、美国佛罗里达大学Hennig课题组创建和管理的Materials Web(https://www.materialsweb.org/)数据库等[13].

2.2 国内研究情况

1987年,中国科学院牵头正式启动科学数据资源建设,现在运行的是全新的中国科学院数据云门户网站(http://www.csdb.cn/),此网站是在2019年更新后投入使用的.目前,该数据库中共有1270个数据集,用户数多达了1800万,下载量达2352 TB.金属研究所创建的“材料学科领域基础科学数据库”(http://www.matsci.csdb.cn/),其涉及的主要材料有金属材料、无机非金属材料、闪烁材料、碳化硅材料、纳米材料和有机高分子材料等.目前材料科学类的数据总量7万余条,包括了材料的热学、力学和电学等各种物理特性,其中金属材料数据共计6万余条,无机非金属材料数据共计1万余条.此数据来源主要是手册和期刊文献数据,它是国内最全面的材料科学数据库之一,极大地促进了新技术与材料学科领域的融合发展[14].

2015年,科技部启动了材料基因工程关键技术与支撑平台“重点专项”(简称“材料基因工程重点专项”),该专项计划开展材料基因工程基础理论、关键技术与装备、验证性示范应用的研究,布局了示范性创新平台的建设.该专项共设立了45个项目开展研究,在实施过程中强调要将材料高效计算、高通量实验和大数据技术的研发、应用和融合作为研究任务的核心.由湖南大学牵头湖南工程学院参与的“高通量多尺度材料模拟与性能优化设计”和中南大学牵头“高通量块体材料制备新方法、新技术与新装备”为材料数据库的建设与应用奠定了基础.预计到2025年有望实现“中国制造2025”计划,使得新的材料设计和模拟方法得到优化,新材料数据库逐步完善[15].

依托于2001年国家科技部“材料科学数据共享与服务平台建设”重点项目的国家材料科学数据共享网(http://www.materdata.cn/),共整合了全国各地30余家科研单位的数据资源.其中包含的高质量数据多达11万条,涉及3000多种钢铁材料及其他材料基础,将材料体系数据库划分为12个大类,包含材料基础、天然材料及制品、有色金属材料及特种合金、黑色金属材料、复合材料、有机高分子材料、无机非金属材料、信息材料、能源材料、生物医学材料、建筑材料和道路交通材料,为材料领域的研究提供了数据共享服务与应用支撑.

材料基因工程专用数据库(MGED)(http://www.mgedata.cn/)是一个对材料的组分和结构进行设计的一体化系统平台,该数据库包含结构材料与功能材料以及各类材料的微观结构、热力学性能和动力学数据的总量达70多万条,该平台涉及的材料有催化材料、铁性材料、特种合金、生物医用材料,还包含材料热力学和动力学设计及性能数据库等.到目前为止,该平台累计访问量达2万多次.该平台还包含了材料高通量第一性原理在线计算软件和基于融合数据库的材料数据挖掘计算网络平台以及论文信息辅助提取软件,在该平台上科研人员可以使用该软件提取所阅读的论文当中的实验数据,也可把材料数据填充在该平台的材料数据库中.平台中的在线数据挖掘系统可以批量地实现自动生成作业、处理、解析和计算数据的全过程,还可以采用数据挖掘和机器学习的方法对该平台上直接调用数据库中的数据进行分析.

此外,很多专项数据库也已趋于成熟,如纳米研究专业数据库、国家材料环境腐蚀科学数据中心、高分子材料科学数据资源节点等,各主要数据库的对比如表1所示[1].随着基础材料数据库的不断发展,用户不但可能直接从数据库中获得材料的原始数据,还可以利用数据库中的软件直接对数据进行组合和分析,并以图像、列表、曲线等直观的形式呈现,这将大大节省研究者的时间成本,并实现数据库从数字到功能应用的转化.

表1 主要数据库的对比

3 材料属性知识图谱的分析与利用

“大数据”时代,免费的在线计算和实验衍生材料数据库推动了材料信息学蓬勃发展.但是,目前这些资源是不能联系在一起的,通常只显示直接计算或测量的数据,很少有物理相关的属性可以搜索.然而材料的属性是内在相互关联的,物理属性之间存在联系,如表2所示.例如,材料的电子结构与它的化学性质和几何结构有关,这影响它的能量吸收能力、折射率和介电击穿强度.

表2 物理属性表举例

从整体上来看,材料科学知识可以描述为一个关系网络.通过连接一定范围内的组织结构,可以洞察出数据之间的隐藏联系.运用此方法,可以达到增加衍生材料性能,检查性能关系,量化改善不同模型之间的不确定性,以及推断之前未知物理相关性能.通过以一种简单的序列化格式(如YAML格式)建立编码规范及材料属性关系.

本文通过引入一个开源python包propnet,它以程序方式编写并可应用于材料科学知识任何方面.其核心是一个不断增长的材料属性、适当的单元和属性关系目录,可用扩展的通用格式存储.除了简单的方程和基本属性外,propnet还可以存储并用python编程表达各种属性及其关系,如晶体维度、材料成本和其他复杂输入操作的关系.截至2019年7月,propnet该目录包含115种材料属性和69种关系.这些属性和关系联系在一起可以形成一个有向数据结构图,如图4所示,能够表示任意复杂的属性关系,包括单向和双向的属性关系.propnet的用途在于从图遍历算法提供的输入信息中派生出一组增强的材料属性.如一些数据库报告了一个计算的带隙,但没有使用这个带隙来分析材料的折射率.而利用propnet可以自动生成估算的折射率.

图4 有向数据结构图

propnet除了有扩展数据集的核心功能外,由propnet生成的数据集生成物理驱动的特征向量.这些矢量对于改进材料设计中的机械智能模型具有重要意义.使用propnet,可以评估属性关系的准确性,并创建性能优于任何单一模型的物理模型集合[5].propnet应用的材料数据库是一个公开且数据量快速增长的计算材料属性库,其中包含超过120,000种不同的材料.材料数据库主要来源于第一性原理,提供每个条目至少四个基本属性,包括晶格常数及其基础、计算带隙、密度泛函理论(DFT)中Perdew-Burke-Ernzerhof(PBE)功能或PBE+U计算材料的总能量.并提供了其他与结构相关的特性,包括化学公式、原子密度、质量密度、单元格体积和每个原子体积.目前,材料子集的数量达1000~15000个,如介电、弹性、压电和振动等特性也已经被计算在表面能之外.这些张量特性包含的大量信息都被propnet用来最大程度地增加每种材料可用的信息量.

使用propnet可以扩展每种材料的数据集,并且可以产生大约30种不同的标量特性.为了确定标量性质之间的相关程度,软件使用最大信息系数(MIC)分数来测量相关性.MIC得分范围为0~1,0表示两个变量之间没有关系,1表示强烈的线性相关关系.当提供数据集时,propnet可以使用MIC评分或各种其他相关指标(包括Pearson相关、Spearman秩相关和Theil-Sen回归)自动执行相关分析,如表3所示.

“图形距离”作为属性连接性的度量,可用于突出显示未预期的属性之间的相关性.将两个属性之间的图形距离定义为派生这两个属性的最小输入集的大小.图上的距离越大,知识图上的这些属性的联系就越“困难”.如果其中一个属性没有被任何模型连接到propnet知识图上,则认为图形距离是未定义的.测试结果显示许多与高MIC分数相关的属性都有较低的图形距离.但是,如果两个属性都是从一个属性中衍生出来的,它们的图形距离为1个单位,图形距离和MIC分数如表3所示.

表3 材料属性关系的图形距离和MIC分数举例

4 材料属性知识图谱的发展趋势

随着“材料基因工程”项目的提出与发展,材料信息数据库的建设刻不容缓,要加快重要领域的数据库建设,优先建立国家重点科技项目数据库,保护知识产权的同时加大数据共享力度,严格把握数据格式和数据来源,为数据分类制定标准化文件.大力培养优秀的专业数据库管理人员,保障数据的收集、维护和运用.为国内材料科学的研究提供更加便携的方式和更加完备的材料设计平台,从数据库的类别、分布式网络存储、材料数据挖掘算法及其关联性算法与大数据技术相结合进行深入细致的探索是非常必要的.

猜你喜欢
材料科学数据库材料
天津市建筑材料科学研究院有限公司
粉体材料科学与工程专业(沈阳理工大学)
浪漫的材料
土木工程材料的认识和应用
我校省级高水平应用特色学科简介
——材料科学与工程
新材料赢得新未来
最美材料人
数据库
材料
数据库