图像分割评估方法在显微图像分析中的应用

2021-01-21 07:28:34马博渊姜淑芳申昊锴班晓娟黄海友薛维华

工程科学学报 2021年1期

马博渊，姜淑芳，尹豆，申昊锴，班晓娟，黄海友，王浩，薛维华，封华

1) 北京科技大学北京材料基因工程高精尖创新中心，北京 100083 2) 北京科技大学材料领域知识工程北京市重点实验室，北京 100083 3) 北京科技大学计算机与通信工程学院，北京 100083 4) 北京科技大学人工智能研究院，北京 100083 5) 解放军总医院第一医学中心妇产科，北京 100853 6) 中国石油大学（北京）信息科学与工程学院，北京 102249 7) 北京科技大学新材料技术研究院，北京 100083 8) 北京科技大学顺德研究生院，佛山 528300 9) 北京科技大学材料科学与工程学院，北京 100083 10) 辽宁工程技术大学材料科学与工程学院，阜新 123099

计算机视觉是一门“教”会计算机如何去“看”世界的科学，旨在使用计算机及相关设备对生物视觉进行模拟，进而代替眼睛对数字图像中的目标进行处理、识别、分析和理解[1].图像分割是从图像中提取感兴趣区域的方法，是计算机视觉的重要组成部分[2].在实际应用中，对图像分割结果的正确评估是分割方法完善的重要研究手段[3].

在材料科学领域，随着材料信息学的发展，大量先进的信息学技术在材料领域获得应用，并展现出蓬勃的生机和快速发展的态势.材料图像，特别是材料显微图像，是材料组织信息的重要载体.使用图像分割等计算机视觉方法可提取材料图像中的组织信息，是高效建立材料成分–工艺–组织–性能关系的重要环节.

本文在材料显微图像分析的应用背景下，重点综述了图像分割的评估方法，并讨论了不同评估方法的适用性.

1 图像分割的定义及其在材料显微图像分析中的应用

图像分割是将图像分成若干个特定的、具有独特性质区域的技术[4]，是计算机视觉的重要分支.分割结果可进一步为图像识别和图像描述等图像理解相关任务提供信息支撑.

图1 材料显微图像分割流程示意Fig.1 Flow chart of material microscopic image segmentation

目前，随着多学科间的深入交叉和融合，科学工作者开始尝试将以图像分割为代表的计算机视觉技术运用到表面缺陷检测、金相组织分析、神经细胞拓扑分析等材料和生物医学领域[5−6].如图1所示为材料显微图像分割流程图，针对原始的材料显微图像，采用图像分割方法（Image segmenta-tion methods）提取图像中科研人员感兴趣的组织结构区域[7]，如图1中的白色区域对应的材料组织（枝晶和晶粒）.通过定量分析材料内部的微观组织特征（如尺寸和形状分布等），可进一步解构材料微观组织特征与材料成分、制备工艺、宏观性能之间的内禀关系[8]，进而辅助材料性能的优化和新材料的研发[9].

随着计算机硬件以及以深度学习[10]为代表的机器学习技术的进步，多种基于不同理论的图像分割方法如雨后春笋般涌现，如图1中基于阈值的分割方法（Threshold based segmentation methods）[11]、基于梯度的分割方法（Gradient based segmentation methods）[12]、基于形态学的分割方法（Morphology based segmentation methods）[13]、基于区域生长的分割方法（Region growing based segmentation methods）[14]、基于聚类的分割方法（Clustering based segmentation methods）[15]，基于图论的分割方法（Graph based segmentation methods）[16]和基于深度学习的分割方法（Deep learning-based segmentation methods）[17−18]等，上述方法被广泛应用于材料显微图像分析任务[19−21].为了进一步理解各种图像分割方法的适用性以及改进分割质量，本文对不同方法的分割结果进行了系统地评估.虽然人的视觉判断是最直接的判断方法，但是人的主观不确定性会导致算法评估难以量化.因此，采用自动的客观的评估方法成为图像分割结果评估的主流方式.当前存在多种基于不同理论的图像分割客观评估方法（Segmentation evaluation methods），每种方法均从特定的角度评估分割结果的优劣，可应用于不同目标的图像分割任务中.

本文综述了14种基于不同理论的图像分割客观评估指标，将其分成五大类方法分别展开叙述（图1）：基于像素的评估方法（Pixel based evaluation methods）、基于类内重合度的评估方法（Intra class coincidence based evaluation methods）、基于边界的评估方法（Edge based evaluation methods）、基于聚类的评估方法（Clustering based evaluation methods）和基于实例的评估方法（Instance based evaluation methods）.并在材料显微图像分析应用中，选择两种典型材料显微图像分割任务作为分析目标，对比采用不同分割方法和不同典型噪声下各种评估指标的性能，进而对不同评估方法的适用性展开讨论.

2 图像分割评估方法

通过现有文献整理和研究，本文将图像分割评估指标分为基于像素的评估方法、基于类内重合度的评估方法、基于边缘的评估方法、基于聚类的评估方法和基于实例的评估方法等五个类别.

2.1 基于像素的评估方法

基于像素的评估方法主要包括像素准确率（Pixel accuracy）和平均准确率（Mean accuracy）[17]两个评估指标.

像素准确率统计了预测正确的像素占总像素的比例[22]，其定义为：

在图像分割任务中，假定有k+1个类别（“+1”指包括背景类），通常使用pij表示真值结果为类i而预测结果为类j的像素点总数，同理，pii表示真值结果和预测结果均为类i的像素点总数，即预测正确的像素点数目.

平均准确率（Mean accuracy）：是对像素准确率的改进，分别计算每个类内被正确分类像素数的比例，进而对所有类求平均值.该方法可缓解当分割任务中不同类别包含像素数目差异较大时，准确率被包含像素数目较多的类别所主导的问题，其定义为：

2.2 基于类内重合度的评估方法

基于类内重合度的评估方法主要包括平均交并比（Mean intersection over union, MIoU）[17]，频权交并比（Frequency weighted intersection over union,FWIoU）[17]和 Dice系数（Dice score）[23]三个评估指标.

平均交并比MIoU在计算每个类的交并比的基础上求均值，可反映预测结果和真值结果的重合度.IoU（或称为 Jacarrd index）的计算方式如图2（a）所示，其中P代表预测结果（Predicted segmentation），T代表真值结果（也称目标结果，Target truth），其思路是计算真值结果和预测结果区域集合的交集和并集之比，即公式（3）所示.

具体地，采用上述描述方法，MIoU可定义为[17]：

图2 评估指标示意图.（a）IoU 指标示意图；（b）VI指标示意图Fig.2 Schematics of evaluation metrics: (a) IoU metric diagram; (b) VI metric diagram

其中，pji表示真值结果为类j而预测结果为类i的像素点总数.

频权交并比FWIoU是对原始的MIoU的改进，即根据每一类出现的频率对各个类的IoU进行加权求和，定义为[17]：

Dice系数（Dice score）是图像分割结果衡量的常用指标，其计算公式为[23]:

其中，|P∩T|代表预测结果P和真值结果T之间的重合像素数量，|P|表示预测结果P中的像素数量，同理|T|表示真值结果T中的像素数量，通常P、T集合仅统计前景区域的像素.Dice score实质上是两个样本间的重叠度量（0～1），其中该指标为1代表完全重叠，表示预测结果较好.Dice score相比于IoU的区别在于分子和分母间均增加|P∩T|的数目.

2.3 基于边界的评估方法

边界检测也称边缘检测，是指将图像分成边缘区域和非边缘区域.由于在边缘检测任务中，边缘区域往往仅占据少量像素区域，并且绘制真值边缘时容易产生误差，致使预测边缘和真实边缘在像素上通常无法一一对应，因此该类评估方法主要通过计算预测边缘像素和真实边缘像素间的距离来反映边缘检测效果.

基于边界的评估方法主要包括FoM（Figure of merit）[24]、Completeness[25]、Correctness[25]和Quality[25]4个评估指标.

FoM（Figure of merit）计算公式为：

其中，通过人工检视标注得到的真值边缘像素点个数为|T|；通过检测算法检测的边缘像素点个数为|P|；检测算法得到的第i个边缘像素点和离它最近的真值边缘像素点间的欧氏距离为di；常量系数ξ一般为0.1，表示错位边缘惩罚项.FoM值越大表明检测出的边缘越靠近人工标注的真值边缘, 即该边缘检测算法的检测精度越高.

Completeness、Correctness和 Quality评估方法在基于欧氏距离的基础上重新定义了匹配的概念.其匹配的计算公式为：

设两个像素集合A和B，其中a和b分别为两个集合中的两个元素，d(a,b)表示两个元素之间的欧氏距离.µB(A)指集合A中满足与距集合B某一元素的距离小于阈值 θ的元素的子集.根据上述定义，分别计算预测边缘像素集合P和真值边缘像素集合T的µT(P)和µP(T)，µT(P)代表预测结果中与真值结果相匹配的元素的子集，µP(T)代表真值结果中与预测结果相匹配的元素的子集.如图3所示.

图3 边缘检测匹配示意图.（a）令预测边界与真值边界进行匹配；（b）令真值边界与预测边界进行匹配Fig.3 Matching schematics of edge detection：(a) matching ground truth with prediction skeleton; (b) matching prediction with ground truth skeleton

在此基础上，Completeness的计算公式为：

其中，|P|为预测边缘像素集合P中的边缘像素个数.同理，|µT(P)|，|µP(T)|和|T|分别代表各自集合中的边缘像素个数.

Correctness的计算公式为：

Quality的计算公式为：

2.4 基于聚类的评估方法

图像分割可以看作是一种聚类任务，将图像中的所有像素分割成n个分区或段，通过对比真值图和预测图中的分区结果可对图像分割任务进行评估.在基于聚类的评估方法中类的定义和图像类别中类的定义不同，聚类中每个类具体指图像中得到每个分区，在图像分割任务中，某个图像类别可以有多个分区.

基于聚类的评估方法主要包括：兰德系数（Rand index, RI）[26−27]、调整兰德系数（Adjusted rand index，ARI）[28]和信息变化量（Variation of information,VI）[29]3 个评估指标.

给定一个含有n个元素的集合S的两种划分，S划分为r个子集：T={T1,T2,···,Tr}和S划分为s个子集：P={P1,P2,···,Ps}.在图像分割任务中，S代表像素集合，T代表真值分割结果，P代表预测分割结果.通常，采用联通区域方法（Connected component）分别将T和P划分成不同的分区（子集）.

进一步，定义：

a为S集合中在T中属于同一子集，在P中也属于同一子集的元素对数；b为S集合中在T中属于不同子集，在P中也属于不同子集的元素对数；c为S集合中在T中属于同一子集，但在P中属于不同子集的元素对数；d为S集合中在T中属于不同子集，但在P中属于同一子集的元素对数；

则RI定义为：

直观地，a+b可被认为是T和P之间一致的元素对个数，c+d可被认为是T和P之间不一致的元素对个数.

虽然RI的取值范围为[0,1]，但该指标不能保证在类别标签是随机分配的情况下其值接近0.由于RI基于像素点对数目进行评估，而在材料显微图像分割应用中，大多数像素点对不相连，即公式（12）中的b非常高，导致不同分割方法的评估结果均接近1，造成区分度较低.因此，ARI在RI的基础上进行了修正，令来表示Ti与Pj之间交集的元素，基于聚类任务的列联表如表1所示.其计算公式如式（13）所示.

表1 基于聚类任务的列联表Table 1 Contingency table

ARI的取值范围为[−1,1]，值越大，代表预测结果中的分区结果更接近与真值结果中的分区结果.

VI公式如（14）所示，将预测结果P和真值结果T看成两种数据分布，利用信息熵计算两者之间的分布变化.核心是计算预测和真实标注图之间的条件熵，如图2（b）所示.

其中，H(P|T)代表过分割错误，过分割即错误地将一个区域分割成两个区域，也被称为拆分错误（Split error，SE）.H(T|P)代表欠分割错误，即将两个区域错误地合并成一个区域，也被称为合并错误（Merge error，ME）.VI代表总错误指标，为ME和SE的和，值越小，代表分割结果中存在的错误越少，即分割结果越准确.并且，随着误差的变化，VI呈现线性变化，而RI呈现二次方的变化，因此，VI更适用于作为距离指标反映误差的变化[30].

2.5 基于实例的评估方法

基于实例的评估方法主要包括平均均值精确率（Mean average precision，MAP）[31−32]和基数差（Cardinality difference，CD）[33]两个评估指标.

MAP是图像分割和物体检测任务中的经典评估指标，与基于聚类的评估方法类似，该方法首先使用联通区域方法分别将真值分割结果和预测分割结果分成多个分区，进而在每个预测分区上逐个与所有的真值分割结果的分区计算IoU，IoU的阈值范围从0.5到0.95，步长为0.05，即在阈值t为（0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95）情形下分别统计匹配的数目.在MAP计算过程中，匹配指某一预测结果中的分区与真值结果中的分区的IoU大于特定的阈值.其中True positive（TP）表示真实和预测结果中正确匹配的分区对数量，False positive(FP)表示预测分割结果中未正确匹配的分区数量，False negative（FN）表示真值分割结果中未正确匹配的分区数量.

在每个阈值t上，根据预测分割的分区结果与真值分割的分区结果比较产生的TP、FN、和FP的数量计算出一个精度值，并除以阈值个数获得均值精确率.在此基础上，对所有图像n计算各自均值精确率再求平均，获得最终平均均值精确率，公式如下所示：

CD是Waggoner等引入的一种比较分割结果中分区个数的评估指标[33]，其定义为：

式中，NumT代表真实结果中的实例个数，NumP代表预测结果中的实例个数，如果CD是正数，表示欠分割，如果CD是负数，表示过分割.

综上，各评估指标的简要信息如表2所示，其中 ↑代表值越大性能越高，↓代表值越低性能越高，N代表图像中像素个数.

表2 各指标的简要概括Table 2 Brief description of different evaluation methods

3 图像分割评估方法对比实验

本章以两种典型材料显微图像分割任务为应用背景，定量地衡量图像分割评估方法在不同分割算法和不同噪声下的性能.本文所有代码及示例图像可开源获取，详见如下网址：https://github.com/Keep-Passion/ImageSegMetrics.

3.1 不同图像分割算法下的评估结果

为了降低图像分割算法对评估方法的影响，本文选择了6种最为经典的图像分割算法进行比较：基于阈值的图像分割算法OTSU[11]，基于梯度的边缘提取算法Canny[34]，基于形态学的图像分割算法Watershed[35]，基于聚类的图像分割方法K–means[36]，基于图论的图像分割算法Random Walker[37]和基于深度学习的图像分割算法Unet[18].

本文选择多晶纯铁（Polycrystalline iron）晶粒组织图像和铝镧合金(Al–La alloy)枝晶组织图像作为目标数据集，数据集参数如表3所示.两数据集示例如图1所示，其中多晶纯铁晶粒的前景晶粒区域像素个数远高于背景边界区域的像素个数，属于类别不平衡的图像分割任务.铝镧合金枝晶图像的前景组织区域像素个数与背景区域的像素个数相当，属于类别平衡的图像分割任务.在实践过程中，类别不平衡的图像分割任务更加困难.

表3 材料显微图像数据集参数Table 3 Description of two material micrographic image datasets

由于本文选择基于深度学习的图像分割模型Unet作为不同评估指标的基线模型，而Unet需要样本训练模型才可进一步使用.因此将数据集按照7∶1∶2的方式划分为训练集、验证集和测试集.为保证实验的公平性，所有图像分割算法均在测试集上进行评估.对于Unet模型，模型在训练集上训练，并在每轮迭代中使用验证集验证，选择验证集损失最低的网络参数在测试集上进行评估.其中，Unet网络训练参数为：Batch size 为 10，初始学习率为1×10−4，在Adam优化器下训练50轮.所有实验均在装备一台Nvidia Tesla V100显卡的工作站上测试.

多晶纯铁晶粒组织图像在不同分割算法下的各评估结果如表4所示，其可视化示例如图4上两行所示.铝镧合金枝晶组织图像在不同分割算法下的各评估结果如表5所示，其可视化示例如图4下两行所示.

表4 多晶纯铁晶粒组织图像不同分割算法下评估结果Table 4 Evaluation results under different segmentation algorithms for polycrystalline iron image

由于多晶纯铁晶粒组织图像分割任务的目标是提取并分离每个晶粒，因此，该任务可被解读为晶粒分割或晶界提取两种不同的描述.因此，对于后者，可采用基于边界的评估方法对晶界提取的准确性进行评估.

由于基于深度学习的机器学习算法可在训练过程中自动学习到数据中适用于目标任务的强有效特征，因此其分割性能远高于传统图像处理方法.由图4直观比较，基于深度学习的图像分割模型Unet在两种数据集上的可视化效果均显著超过了其余经典算法.但在多晶纯铁晶粒组织图像的客观评估中（表4），Unet和传统方法（除Unet外的其他方法）在基于像素和基于类内重合度的评估方法的数值指标上相差较小.在铝镧合金枝晶组织图像的客观评估中（表5），传统方法和Unet在基于像素的评估方法的数值指标上相差较小.基于像素的评估方法逐像素地比较预测分割结果和真值分割结果的区别，而基于类内重合度的评估方法逐类别的比较两者之前的差异，均未考虑材料显微组织的拓扑特性，因此，本文认为在材料显微图像分析及定量表征应用中，该评估方法适用于目标为统计物相组成比例等的表征任务，但不适用于需要分析单个组织特征的尺寸或形状统计等的表征任务.

基于边界的评估方法仅适用于基于边缘提取的图像分割任务，其泛用性较低.同时晶界提取的目标在于分离每个晶粒，基于边界的评估方法并未考虑晶界不闭合的情况.因此，本文认为在材料显微图像分析应用中，基于边界的评估方法可适用于缺陷（如裂纹）检测[25]，但不适用组织结构定量表征任务.

基于聚类和基于实例的评估方法由于在执行过程中需要先使用联通区域方法对分割结果进行分区操作，考虑了显微组织结构的拓扑特性，因此本文认为这两类方法更适用于材料显微图像分析任务中统计尺寸和形状分布等微观组织定量表征的目标.

在基于聚类的评估方法中，RI被证明在最差情况下也难以达到最低值，造成各方法间差距过小，如多晶纯铁晶粒图像分割结果（表4）中的Watershed(RI=0.9444)和 Unet(RI=0.9819).ARI是对RI指标的改进，各方法间该指标的差距较大.VI指标进一步分为合并错误（Merge Error，ME）和分离错误（Split Error，SE），可更加全面的分析算法的分割结果.

图4 多晶纯铁晶粒组织及铝镧合金枝晶组织图像在不同分割算法结果的可视化对比Fig.4 Visualization results of different segmentation methods for polycrystalline iron and Al–La alloy microscopic image

在基于实例的评估算法中，CD指标易受到噪声影响，且该指标不存在上下限，造成各方法的评估结果差距过大，难以直观评估分割结果，如在铝镧合金枝晶图像分割任务中，CD指标从−10到−10918产生变化，因此本文认为该指标不适合材料显微图像分析任务.MAP的值域范围是[0,1]，且在不同交并比阈值下综合评估分割结果，性能较为准确，但也同样容易受到微小噪声的影响.

3.2 引入不同噪声下评估方法效果

为进一步加深对图像分割评估方法的理解，本文在图像中增加固定数目的典型噪声，以展示各图像评估方法的鲁棒性.

本文从多晶纯铁晶粒图像和铝镧合金枝晶图像中分别选择500×500像素尺寸的图像，并通过控制变量，随机引入三种在材料显微图像分析任务中常见的噪声[38]，每种噪声各具有500像素的改变量：随机斑点噪声、划痕噪声和边界模糊或消失现象.

表5 铝镧合金枝晶组织图像不同分割算法下评估结果Table 5 Evaluation of different segmentation results for Al–La microscopic image

（1）随机斑点噪声（Random noises）：在制备过程中，需要在材料表面涂抹锈蚀剂，才可在抛光过程中磨掉材料表面区域，进而获得材料的微观形貌.若采用系列截面法逐层观察材料组织形貌，则需要频繁的使用锈蚀剂，在抛光过程中，锈蚀剂不可避免地残留在微观组织表面，形成随机斑点噪声，如图5中黑色箭头所示.

（2）划痕噪声（Scratch noises）：如前所述，在制备过程中，需要对材料表面进行研磨.该制备方法不可避免地将在显微组织表面留下划痕噪声.划痕噪声通常为黑色直线.由于其与多晶纯铁晶粒图像中晶界区域在像素值上相似，容易被误认为是晶界从而影响分割结果，如图5中红色箭头所示.

图5 两种图像数据引入不同种类噪声的结果.（a）多晶纯铁晶粒图像；（b）图（a）的真值结果；（c）在（b）中随机引入 500 像素的噪声点；（d）在（b）中引入 500 像素的划痕噪声；（e）在（b）中引入 500 像素的消失晶界噪声；（f）铝镧合金枝晶图像；（g）图（f）的真值结果；（h）在（g）中随机引入 500 像素的噪声点；（i）在（g）中引入500像素的划痕噪声Fig.5 Two microscopic images with different noises: (a) polycrystalline iron; (b) ground truth of (a); (c) random noises with 500 pixels in (b); (d) scratch noises with 500 pixels in (b); (e) missing boundaries with 500 pixels in (b); (f) Al la alloy; (g) ground truth of (f); (h) random noises with 500 pixels in (g);(i) scratch noises with 500 pixels in (g)

（3）边界模糊或消失现象（Blurred or missing boun-daries）：在制备过程中，除锈蚀和研磨外，需使用一定比例的浸蚀液对材料表面进行处理，才可浸蚀出晶界或相界（后文以晶界为例），为防止形成双晶界或粗晶界缺陷，浸蚀时间不宜过长，因此容易出现浸蚀不完全现象.具体地表现为晶界区域没有完全浸蚀，致使出现晶界模糊或晶界消失现象.由于晶界消失后的表观特征与晶粒内部区域相似，容易被误认为是晶粒区域从而影响分割结果，如图5中蓝色箭头所示.

在本实验中，只有斑点噪声属于随机分布，而划痕噪声和缺失晶界噪声是根据原图的纹理信息和传统方法的错误识别结果在标注图中相应增加而形成.通过固定噪声数目，可以直观地展示不同评估方法的区别.比如对于基于像素的评估方法并不考虑分割结果的拓扑变化，相同噪声数目但不同噪声类型的评估结果基本相同.对于基于实例和基于聚类的评估方法考虑了显微组织的拓扑结构，相同噪声数目但不同噪声类型的评估结果具有很大差异.

随机斑点噪声由于面积较小且较为分散，不影响显微组织拓扑结构，并且可通过设置最小连通区域的面积阈值进而消除该噪声.虽然500个像素只占一幅500×500尺寸图像的1/500，但是划痕噪声和模糊或消失晶界噪声改变了分割结果的拓扑结构：划痕噪声会造成分割结果中的分区错误（即将一个晶粒错误地分离成两个晶粒），严重影响显微组织尺寸及形状统计.模糊或消失晶界同样会影响多晶纯铁晶粒图像中的微观组织表征（即将两个晶粒错误地合并成一个晶粒）.因此，本文期望在划痕噪声和模糊或消失晶界噪声下，评估指标出现明显的退化，以正确反映图像分割结果.

多晶纯铁晶粒图像在不同噪声下的各指标评估结果如表6所示，铝镧合金枝晶图像在不同噪声下的各指标评估结果如表7所示.两表中每个数据项括号中的数值表示变化的幅值.基于像素、基于类内重合度和基于边界的评估方法在三种噪声影响下变化较小（变化幅值均在百分位或千分位），且性能均较高，不符合本文的要求.而基于实例和基于聚类的评估指标的变化幅度在十分位以上，相较于基于像素，基于类内重合度和基于边界的评估方法更能有代表性地反映分割结果的退化情况.基于实例的评估方法中，RI的变化幅度较小，ARI虽然在模糊或消失晶界处变化较大，但在划痕噪声情况变化幅度较小.VI可通过合并错误（ME）和分离错误（SE）综合评估分割结果.在划痕噪声影响下，其分离错误出现了大幅提高；在模糊和缺失晶界噪声影响下，其合并错误出现了大幅提高；MAP在多晶纯铁晶粒图像中在上述两种噪声影响下出现大幅度变化，变化幅度与VI相当，但在铝镧合金枝晶图像中，在模糊或消失晶界噪声下其变化幅度相对VI指标较低.

4 讨论

本文综述了14种图像分割的评估指标，并将其分为五大类：基于像素点的评估方法、基于类内重合度的评估方法、基于边界的评估方法、基于聚类的评估方法和基于实例的评估方法.并在材料显微图像分析应用中，通过实验对比了两种数据集在不同分割方法和不同常见噪声类型下各评估指标的评估结果.

表6 多晶纯铁晶粒图像在不同噪声下各评估方法的结果Table 6 Results of different evaluation methods for polycrystalline iron image under different noises

表7 铝镧合金枝晶图像在不同噪声下各评估方法的结果Table 7 Results of different evaluation methods for Al La alloy under different noises

由于基于像素的评估方法逐像素地比较预测分割结果和真值分割结果的区别，而基于类内重合度的方法逐类别地比较两者之间的差异，均未考虑材料显微组织的拓扑特性，因此，本文认为在材料显微图像分析及定量表征应用中，该评估方法适用于图像分割的目标为统计物相组成比例的表征任务，但不适用于需要分析单个组织特征的尺寸或形状统计等的表征任务.

基于边界的评估方法仅适用于基于边缘提取的图像分割任务，其泛用性较低.同时针对多晶纯铁晶粒分割任务，晶界提取的目标在于分离每个晶粒，基于边界的评估方法并未考虑晶界不闭合的情况.因此，本文认为在材料显微图像分析应用中，基于边界的评估方法可适用于表面缺陷（如裂纹）检测，但不适用组织结构定量表征任务.

基于聚类和基于实例的评估方法由于在执行过程中需要先使用联通区域方法对分割结果进行分区，考虑了显微组织结构的拓扑特性，因此本文认为这两类方法更适用于材料显微图像分析任务中统计尺寸和形状分布等微观组织定量表征的目标.同时在引入典型噪声后，当组织拓扑结构发生巨大变化时，VI和MAP其变化幅度较大，本文认为上述两个指标更适合于材料显微图像分割任务.并且，VI可进一步细分为合并错误和分离错误，可更加全面地评估分割结果.

5 总结与展望

随着硬件计算能力和计算机算法的发展，图像分割领域取得了巨大突破，大量基于不同理论的优秀的图像分割方法争相问世.因此，在应用过程中，准确地评估各种分割方法的准确性和适用性是科研工作中的必要环节，同时理解和掌握各种评估方法是改进图像分割方法的途径之一.本文首先按照不同类别（基于像素的评估方法、基于类内重合度的评估方法、基于边界的评估方法、基于聚类的评估方法和基于实例的评估方法）详细介绍了各评估方法的计算方式，并在材料显微图像分析的应用背景下，进行实验讨论了不同分割方法和不同噪声对不同评估方法的影响.最后探讨了每种方法的优势和适用性.本文认为在材料显微图像分析及定量表征应用中，基于像素和基于类内重合度的评估方法适用于图像分割的目标为统计物相组成比例的表征任务，但不适用于需要分析单个组织特征的尺寸或形状统计等的表征任务；基于边界的评估方法可适用于表面缺陷（如裂纹）检测任务；基于聚类和基于实例的评估方法更适合于材料显微图像分割任务.并且，VI可进一步细分为合并错误和分离错误，可更加全面的评估分割结果.

同时，由于材料显微图像分割任务的目标是获得微观组织的定量表征，如面积或形状分布等.在未来的研究中，可更进一步从材料学目标出发，如选择 KL 散度（Kullback–Leibler divergence），JS散度（Jensen–Shannon divergence）或 Wassertein 距离等方法评估预测结果的面积分布和真实结果的面积分布的相似性.

致谢

本文的计算工作得到了北京材料基因工程高精尖创新中心材料计算平台的支持.