蒲剑苏,朱正国,邵慧,高博洋,朱焱麟,闫宗楷,向勇
1.电子科技大学,计算机学院,大数据可视分析实验室,四川 成都 610000
2.深圳市清洁能源研究院,深圳 518048
3.电子科技大学,材料与能源学院,材料基因工程研究中心,四川 成都 610000
近年随着消费类电子产品的爆发式增长,以及新能源汽车领域的持续火热,电化学储能电池被视作其产业链投资中最为关键的一环。与其他类型的化学电池相比,锂离子电池具有能量密度高、循环寿命长以及功率密度高等优势,受到广泛关注[1]。然而,传统液态锂离子电池采用的电解液,存在易泄露、易挥发、易燃烧等缺点[2],限制了锂电池的发展。同时,采用电解液的锂离子电池能量密度已经接近理论上限[3]。工业界与学术界一直在寻求解决方案,采用无机固态电解质取代电解液。基于固态电解质的电池体系安全性高,无漏液现象,且固态电解质也可以作为电池隔膜使用,降低了电池器件的设计难度,简化了电池制造的工艺流程[4]。因此,固态电解质电池是当前锂电池研究领域的一个重要发展方向。然而,由于固体与液体的物理、化学性质存在较大差异,固态电解质的离子电导率通常低于电解液,目前发现的固态电解质材料很难彻底取代电解液。因此在固态电解质相关材料的研究中,寻找具有高锂离子电导率的固态电解质材料是固态锂电池投入走向实用化的重要一步。
传统材料设计与研究中最常采用的是基于“经验假设-实验验证”思想的试错方法,这种方法依赖科研工作者的科学经验,实验成本较高,同时非常费时。由于影响电解质材料性能的因素众多,倘若采用第一性原理方法进行计算,会耗费大量的时间与计算资源,且实验验证过程受制备工艺的限制,往往耗时较长。因此,固态电解质的实用化进程依然进展缓慢。在几十年的探索中,经过科学家们大量的努力也只确定了室温下稳定工作的少数几类锂离子导体材料。斯坦福大学的一个团队曾设计了一个可视化系统[5],该系统通过机器学习筛选固态电解质材料,但其仅采用了有限的几个机器学习模型,对于结果也只是通过物理化学性质理论及经验去解释,没有进行验证。基于他们的论文与数据集,我们通过两年时间重新收集分析实验结果,将训练集扩大了50%,同时比较了多种机器学习算法,最后设计了一个基于固态电解质材料数据的可视化系统。我们的系统包括了五个部分,可以从多角度展示和解释数据,为人工筛选材料提供了很多指导。
我们的主要贡献总结如下:
(1)我们构建了一个材料数据可视化系统,实现了对高离子电导率固态电解质材料预测的功能。
(2)我们提出了一种交互式可视化分析方法,包括特征组成、模型性能比较和最终预测结果的呈现,帮助领域专家选择可能合适的固态电解质材料,以便在实际实验室环境下进一步检查。
(3)通过一个实际案例证明了我们系统的有效性。对机器学习结果进行分析和解读后,我们选择了一种候选材料,并用几个月的时间,在实验室中制备了该材料。在对其锂离子电导率进行测试后,
发现该材料是符合预期的。
锂离子电池主要由正极、负极、隔膜和电解质四个部分组成。其中电解质的主要作用是在电极之间传导离子,其性能直接关系到锂离子电池的温度、安全性和循环性能。传统基于有机溶剂的电解液,其锂离子电导率高达10-2Scm-1,但有机溶液一般易燃且在高温与高电压环境下化学性质不稳定。因此随着锂离子电池的循环充放电,锂离子沉积不均匀的问题会逐渐暴漏,其形成的锂枝晶会刺穿隔膜导致短路,容易造成电解液分解形成易燃易爆物质,造成不可逆转的容量损失和潜在的安全问题。
为解决上述问题,研究人员付出了相当大的努力。此前人们一直试图降低液体电解质的易燃性,以增强电池性能来制造安全电解质[6-8],但这并不能解决锂枝晶问题。最近,人们关注的焦点已经转移到固态电解质上。与液态电解质相比,固态电解质的安全性更高,可以一定程度上抑制枝晶问题[9-10]。
传统的材料研究方法以经验或实验试错方法为主,实验周期长,成本高。随着材料大数据的蓬勃发展,数据驱动的机器学习方法为材料的发现开辟了新的方式。B.Meredig 等人构建了机器学习模型,用于筛选新的三元化合物,并预测了4 500 种新的稳定材料[11]。M.Attarian Shandiz 等人使用了多种机器学习算法对锂离子电池的阴极材料储锂容量性能进行预测[12]。Ekin D.Cubuk 等人则使用迁移学习方法将筛选出了12 716 种潜在的固态电解质材料[13]。Cheng 等人总结了材料科学中的机器学习和一般算法过程[14]。
可视分析方法提供了摘要统计以外的上下文信息,已成功地应用于许多领域。Ganuza 等人设计了一个交互式视觉分析应用程序,其中包含尖晶石矿物中常用的大部分地图,能够有效帮助地质学家更有效地分析统计信息[15]。J.Bernard 等人开发了仪表板网络,可以对患者病史中的多个要素进行可视化,这有助于了解患者病史在时间顺序上的变化[16]。S.Dong 等人构建了一个可视化系统,基于产品历史需求对类似的产品使用不同模型预测并比较,进行需求预测[17]。
通常,机器学习分类模型接受指定输入,然后输出一系列预测标签。但预测的过程对测试人员而言是不透明的,这种技术黑匣子需要以更直观和更可见的方式呈现。从视觉分析的角度来看,对它进行额外的分析探索则至关重要,因为这有可能会对分析人员提供一些更有见地的思路与发现。本文的主要目标是帮助缺少机器学习算法经验的材料研究人员更好地了解机器学习模型,并充分分析和理解材料数据预测结果的物理化学意义,以帮助其更好地进行新材料研发。我们将分析任务分为了五个部分:
(1)分析训练集的特征分布。材料数据集的规模往往很大,训练集收集的成本也较高。因此,我们可以首先了解训练集中的特征对预测结果的贡献度有多大,以便对特征筛选进行优化,同时进一步提高预测的效果。
(2)减少特征维度。由于其本身物理化学性质的复杂性,材料数据集是高维的。本文中使用我们处理后的数据,其中每个材料数据包括经过多达8个月计算出来的20 个特征,代表了机器学习模型中的20 个维度。维度越大,可视化系统的信息提取就越困难,因此减少维度对研究有较大的帮助。一方面可以减少不相关的变量,减少计算量,提高模型的运行速度;另一方面可以避免模型过拟合并提高模型预测的准确度。
(3)集群分析。根据聚类结果,我们可以观察数据分布的特征和模式,以发现数据集潜在的内部相关性。
(4)构建交互式分析系统。我们希望增强用户体验,而不是简单地显示数据结果。我们希望我们的系统能够为用户提供灵活的选择,以便他们能够根据自己的想法查看感兴趣的部分。
(5)呈现和解释最终预测结果。领域专家需要直观的表现来对结果进行分析。根据预测结果,我们的系统会从材料自身特征以及算法本身的角度提供一些见解,为进一步研究提供指导。
固态电解质是全固态锂离子电池的核心部件之一,会影响全固态锂离子电池的各种电化学性能。根据工作温度、安全性、稳定性、能量密度和环境友好性等要求,从中总结出了以下五项约束:低导电性,高金属稳定性,高结构稳定性,高氧化分解稳定性和高离子导电性。在这些限制中,前四个约束称为先决条件约束,而最后一个高离子导电性是最关键的约束。我们可以使用“材料项目”(Materials Project,以下简称MP)数据库中的材料参数通过公式获取前四个属性。但目前还没有一个确切的函数能够计算离子电导率,所收集到的离子电导率数据都是在实验室测试得到的。因此,我们从材料化学结构的角度出发,选择与离子导电性密切相关的20个特征,通过对晶体的局部原子排列和化学性质进行特征定位,以构建机器学习模型。这20 个特征来自描述材料化学结构的26 个原始属性,而这些属性可以在MP 数据库中获得。
从MP 数据库中,我们可以获得12 831 个含锂化合物和相应的DFT 计算得到的原子和电子结构信息,也称为26 个原始属性。首先,我们根据四个先决条件约束将12 831 个候选材料筛选至343 个。这343 个候选材料将用作一组可预测的机器学习模型。只有当其离子电导率足够高时,它才有希望成为理想的固态电解质材料。
斯坦福大学的Reed 等人花费两年时间找出了40 种材料,这些材料由各个研究小组通过实验测量,展现了较高的离子电导率。在此基础上,我们从发表的公开期刊文献中又获取了22 种高离子电导率材料。因此,总计有62 个高离子电导率样本用于训练机器学习模型。我们根据这62 种材料的离子电导率值将其标记为0 或1。如果离子电导率值高于10-4Scm-1,我们便将其标记为1,这意味着其离子电导率是符合要求的,否则我们将其标记为0。
我们还使用26 个原始属性计算了上述343 个候选材料的20 个特征,并将训练好的模型应用于这些候选材料,获得了343 个相应的输出标签。由于这343 个候选材料是从前四个先决条件中筛选出来的,这就意味着343 个输出标签中为1 的材料便是我们期望的固态电解质材料。这种材料同时满足低电子电导率、高金属稳定性、高结构稳定性、高氧化分解稳定性和高离子导电性。
基于机器学习方法,计算机可以从训练集中学习,获得从特征到标签的映射,从而构建模型,对测试数据集进行预测。为了比较和选择合适的机器学习算法,我们使用留一交叉验证法(LOO-CV)来评估各种算法的预测能力。该方法将训练集分为两部分,一部分是单独作为验证的样本,另一部分是作为训练组的N-1 个样本。然后,我们训练N-1 个样本的模型,并用训练好的模型预测剩下的单独样本。交叉验证过程重复N 次,每个样本作为验证数据仅使用一次。因此留一交叉验证将获得N 个结果,我们用这N 个结果的平均值来评估分类器的性能。
由于我们的研究是跨领域合作,为方便材料领域的研究人员理解,我们没有直接去尝试使用比较复杂的模型来进行分析预测,而是尝试了许多经典的分类算法,如逻辑回归(Logistic Regression,LR)、K 近邻(k-Nearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)、决策树(Decision Tree,DT)、随机森林(Random Forest,RF)、Adaboost算法(ABt)和梯度提升算法(Gradient Boosting Tree,GBt)。我们还使用了准确率、召回率、F1 得分、精度和AUC(Area Under the Curve)等五个评估指标来全面衡量每个算法的性能。我们将所有算法的评价结果展示在了可视分析系统的右侧,并绘制了相应的折线图来展现各算法间的区别。
经过与材料领域专家多次讨论后,我们根据他们提出的需求设计了图1所示的可视分析系统,包括控制面板视图、平行坐标视图、聚类视图、材料比较视图和模型比较视图五个部分。我们的模型可以从多个角度显示和解释数据,为材料筛选提供指导。我们的系统是使用客户端服务器架构开发的。客户端使用HTML、JavaScript 以及React 框架构建,服务器使用NodeJS 搭建网络服务,使用MongoDB作为数据库,使用Robo3T 的GUI 管理数据库。
图1 高离子电导率的固态电解质材料可视分析系统Fig.1 The visual analysis system for solid-state electrolyte materials with high ion conductivity
该视图提供了很多参数方面的自定义选择,用户可以根据自己的需求进行选择来对分析进行自定义。在详细信息中,用户可以输入数字来调整平行坐标视图中显示的特征数量。该面板还可以调整集群的数量,以探索更多的模式。此外,我们还提供了一些扩展功能。用户可以更改投影和聚类算法,并选择适用于测试集的不同最终算法,然后对比较视图和预测视图进行相应的更改。
我们分析使用的处理后的材料数据有多达20 个特征,即使通过计算和分析去掉了贡献度相对较少的特征仍然有7 个。在此基础上,我们采用平行坐标来分析和显示多维数据,它可以在视觉上清晰地显示不同轴线上的数据分布。每个数据项目都是一条穿过多个坐标轴的线。每个轴表示每个特征。在该视图中最多可以有21 个轴,包括20 个描述各种特征的轴以及1 个用来描述标签的轴。标签为1 的材料项目会被描绘成橙色,而标签为0 的材料项目被描绘成灰色。我们可以通过对不同轴上颜色进行分析,大致判断哪些特征是最具贡献的特征。光标悬停在线上时,该线会高亮并在旁边显示一个图示,显示材料名称和特征信息。用户可以通过控制面板视图的输入框控制显示功能的编号(从1 到20),以避免过度绘制。
聚类分析用于将未知类别的样本划分为多个组。具有某些相似性的样本将分组到同一组。为了减少不相关或多余的特征并避免高维空间问题,我们首先对数据集应用t-SNE 投影方法,然后使用K 均值聚类将数据分组,每个集群对应于一种颜色。对高维数据降维后,我们可以根据点之间的距离来衡量数据点的相似性。点的大小由四个代表性算法LR,ABt,GBt,DT 对该样本的预测结果来决定,当四个算法都预测该点对应材料是正样本时,该点具有最大的尺寸。而训练集的正样本则用一个红色小圆标识出来。除此之外,聚类视图左上方的小柱状图可以展示不同特征对预测结果的贡献程度。
聚类视图中的数据只是描绘了所有材料的总体分布。而在材料比较视图中,用户可以通过左键或右键点击聚类视图中的点来将材料数据导入到比较视图的上方或下方。在该视图中左侧矩形显示了四种典型算法的预测结果,矩形为深色代表该算法的预测结果为真,浅色代表该算法的预测结果为假。中间的圆形除了展示了材料名称外,还进一步区分了材料。对于离子电导率还没有经过实验室测量的材料我们用圆环来标识,而已经在实验室测量过离子电导率的材料我们用箭头形状来标识。向上的箭头代表其具有高离子电导率,向下的箭头代表其具有低离子电导率。该视图右侧的矩形阵则以热力图的方式展现了其20 个特征的数值高低。
我们通过留一交叉验证法得到了实验结果,并通过折线图的五个指标来可视化各种模型性能。由于精度要求尽可能小,与其他指标要求尽可能大正好相反,为保持一致性,我们用1 减去其计算结果作为最终数值。每个算法都用五种指标来评价。用户不仅可以了解到单个模型的具体性能,还可以比较不同算法之间的性能差异以选择合适的模型。
在本节中,我们会介绍一个具体案例,来展示我们的系统如何帮助用户以交互方式查找潜在的目标材料。如图2所示,我们首先在控制面板视图选择基本设置,然后从以下多个方面来探索具备高离子电导率的材料的特征。
图2 可视分析系统流程图Fig.2 The flow chart of the visual analysis system
在平行坐标轴中,我们用橘黄色的线代表真样本,当大多数同一颜色的线聚集在某一个轴线上的相关位置且与另一颜色的线的聚集位置分开时,那么就认为该轴所表示的特征对判断标签的类别有很大帮助。相反,如果某一轴线上的线的颜色相互混合,无法区分开,那么这个轴所表示的特征可能对分类毫无帮助。在图3所示的例子中,可以看到真样本在特征SLPW(Average Straight-Line Path Width)中的分布集中在整体比例的0.35 到0.45 之间,在特征PF(Packing Fraction of full crystal)则多分布于整体比例的0.5 以下。那么在寻找高离子电导率材料时多留意这两个特征可能会更有帮助,而特征ENS(Average Electronegativity of Sublattice)的贡献度则不会很高。
图3 平行坐标视图Fig.3 The view of parallel coordinates
在聚类视图中,着重比较的是材料之间的相关性,在图4 中可以看到,黄色类中有许多被多个算法均预测为真的材料,他们的化学式是类似的,其在特征空间的位置也是相互靠近的,这说明他们很可能具有高离子电导率,未来应该加强对这些材料的探索,它们可能是还未发现的高离子电导率的材料。而右边两个相互接近的材料中,材料领域的研究人员对Li40Ga8O32进行了实验室制备,分析其EIS曲线,并最终通过实验证明了Li40Ga8O32具有良好的离子电导率。这个案例充分说明了我们的可视化系统在高离子电导率材料的探索中具有很强的现实意义。基于机器学习预测结果建立的模型是有价值的且是可行的。根据我们的可视化分析,在图5 中,具有类似特征的Li40Ga8O32也是潜在的固态电解质材料,不过还需要进一步的实验验证。
图4 聚类视图分析Fig.4 The analysis of cluster view
图5 比较视图Fig.5 The view for comparison
总的来说,我们的系统对探索高离子电导率材料具有很大的参考价值。避免了领域专家的盲目搜索和复杂实验,为节约大量成本提供了可能的方向。
在这项工作中,我们设计实现了一个多维度的可视化分析系统,其功能包括特征图探索、集群角度的相似性分析以及模型性能比较,来帮助材料领域专家对固态电解质材料进行筛选分析。我们的系统支持LR,KNN,SVM,DT,RF,ABt,GBt 七种典型分类算法,TSNE,PCA,MDS 三种投影算法,以及KMeans,DBSCAN,GNN 三种典型聚类算法。在结果评估方面我们展示五个相关评价指标供专家比较和选择合适的模型。对于结果分析和案例研究,我们在寻找预期材料时探索了几个有意义的方向,其中一些方向目前已被领域专家所认可,发现了几种材料并已经在实验室中顺利制备,进行了相关测试,另外一些方向则为进一步研究提供了许多候选分析目标。我们的系统得到了领域专家的认可,他们认同我们的工作缩小了探索范围,可以避免盲目的尝试,节省了实验的经济成本、机会成本与时间成本。
利益冲突声明
所有作者声明不存在利益冲突关系。