乐 威, 杨 雷, 赵晓芳, 鲁思薇
(1.东莞理工学院a.计算机科学与技术学院;b.国际微电子学院,广东 东莞 523808;2.深圳大学电子与信息工程学院,广东 深圳 518060)
扫描电镜(SEM)的基本原理是:利用聚焦很窄的高能电子束扫描物体,在物体表面形成具有一定能量的电子束,然后将各个方向的电子束收集起来形成一张反映物体形貌的亮暗不同的图像[1]。对于阻燃材料煅烧后形成的炭渣,由于炭渣与空气形成的孔隙的明暗程度不同,因此可以通过分割图像中的炭渣与孔隙来分析阻燃材料的阻燃性能,这要求阻燃材料SEM图像更加清晰且易于分割。然而,在实际应用过程中往往受环境因素和仪器自身存在的电子噪声等因素的影响,拍摄出来的图像存在一定的噪声,这使得后续的图像分割不精准,所以对SEM图像进行降噪处理是十分必要的。
在SEM成像过程中,噪声的影响是客观存在的,通过调整SEM自身的参数得到清晰无噪的图像从原理上来讲是不可行的[1-2],所以需要采用降噪技术来实现对SEM图像的去噪处理。李晓瑜[3]以小波分析为基础设计了模极大值去噪、相关性去噪以及阈值去噪来实现对SEM 图像的去噪处理。张蕾等[4]以非局部均值(NLM)算法为基础提出了一种自适应边缘相似度的NLM图像去噪方法,对自身像素与相邻像素赋予权值来估算中心像素,从而构成去噪图像。Dabov等[5]提出了一种非局部图像建模、主成分分析与局部形状适应性各向异性估计的图像去噪方法,通过缩减相似图像块的三维变换频谱将噪声分开。Zhang 等[6]通过研究前馈去噪神经网络,结合批归一化和线性修正单元设计了一个深度的网络架构,并利用残差学习来提升去噪性能。Guo等[7]利用更真实的噪声模型和真实世界的噪声-清洁图像对训练卷积盲去噪网络(CBDNet),并在网络中嵌入一个具有不对称学习的噪声估计子网络来纠正去噪结果。从运算时间、计算消耗与去噪效果等方面综合考虑,以上去噪算法不适用于阻燃材料炭渣SEM图像的去噪。
基于以上分析,本文采用基于SCUNet(Swin-Conv-UNet)的降噪网络处理阻燃材料的SEM 图像,并与小波变换、NLM、三维块匹配滤波(BM3D)和DnCNN(denoising convolutional neural network)等经典的降噪方法相比较,验证该降噪网络的有效性。
SCUNet[8]是苏黎世联邦理工学院工作室提出的一种新型降噪网络。将5 个SC(Swin-Conv)块作为UNet的主要构建模块,在每一个SC 块中输入图像并通过1 ×1 卷积将图像分为2 个特征图组,2 个特征图组经过处理后与输入进行残差连接并输出。SC 块中的Rconv 块受启发于Devalla 等[9]在2018年提出的DRUNET,将局部残差卷积块合并到UNet中检测重杂波的真实红外图像,取得了最优表现,而SC 块中的SwinT块继承了同工作室在2021年提出的SwinIR 网络模型核心思想[10]。SCUNet 架构将残差卷积的局部建模能力与SwinT 块的非局部建模能力相结合,成了当时最先进的降噪模型[8]。SCUNet流程如图1 所示。
图1 SCUNet流程
SCUNet的骨干网络有4 个尺度,每个尺度都有一个用于降尺度的2 ×2 步幅卷积的残差连接和一个用于升尺度的2 ×2 的转置卷积。具体来讲,含噪图像输入模型后经过3 ×3 卷积生成特征向量X,随后在SC块中经过1 ×1 卷积运算,被平均分成2 个特征图组[8],这个过程可以表述为
式中:Split表示把图像X平均分割为两部分X1和X2;Conv表示对图像X进行1 ×1 卷积运算。然后,X1和X2被送入SwinT 块和Rconv 块,这个过程可以表述为
式中:Concat 表示把2 张图像合并为1 张图像;SwinT表示图像经过SwinT 块;Rconv 表示图像经过残差连接块。Y1和Y2经过1 ×1 卷积后输入X 进行残差连接,最后输出Z,这个过程可以表述为
式(1)~(3)表示1 张输入图像经过SC块所要进行的运算[8]。式(3)中的输出Z还需进行1 个残差连接以及4 个SC块和1 个3 ×3 卷积运算后得到去噪图像。
噪声一般被分为加性噪声与乘性噪声。加性噪声是一直存在的系统背景噪声,普遍以加性高斯白噪声(AWGN)为代表。AWGN 是目前使用最广泛的去噪假设,尽管与大多数自然界实际产生的噪音不符,但是依然可以用于评价去噪模型的好坏[11]。乘性噪声普遍存在于实际图像中,与信号是相乘关系,随信号的存在而存在。相比于加性噪声,乘性噪声更符合实际成像,对图像的污染也更加严重。
对阻燃材料炭渣SEM图像进行去噪处理,图像中的噪声呈雪花状,如图2 所示。
图2 阻燃材料炭渣SEM图像
为使模型的去噪效果更好,数据集的扩充是有必要的。使用Matlab在真实SEM 图像上添加不同噪声水平的AWGN与乘性噪声,作为训练集。选取500 张分辨率为1 200 ×960 的SEM图像,并以该500 张图像为原始图像添加不同噪声水平的噪声来扩充数据集。该500 张图像由扫描电镜在真实实验室环境中拍摄得到。以扩充后的数据集为训练集,添加AWGN与乘性噪声进行训练,经过大约20 000 次的迭代后得到当前最优模型参数。由去噪图像与原始图像计算得到峰值信噪比(PSNR)与结构相似性(SSIM)。
由于原始SCUNet模型过于庞大而无法在单GPU中训练,因此对该模型进行修改以适应显存较小的机器。在输入到SC 块之前的第1 个1 ×1 卷积中,将原始输出通道缩小4 倍,同时由于SEM 图像为灰度图,因此输入通道数修改为1。为了加快收敛速度,使用DIV2K[12]和Flick2K[13]数据集上的预训练模型参数,并修改相关通道以适应修改后的模型架构。采用Adam优化器使lL1损失函数最小化,lL1损失函数可以表述为
式中:yi表示训练目标值;f(xi)表示估计值;lL1表示目标值与估计值的差值绝对值累加最小化[14]。设置初始学习率为10-3,为防止过拟合,权重衰减设置为10-5。使用cosineAnnealingLR策略更新学习率[15],在每一轮训练结束后进行调整。经过20 次学习率调整完成1/4 个cosine周期。学习率的更新可表述为
式中:ηt表示更新后的学习率;ηmin表示学习率的最小值,默认为0,本研究中设置为10-5;ηmax表示学习率的最大值,也是初始值,设置为10-3;Tcur表示已经迭代的次数;Tmax表示学习率从初始值降到最小值所需要的迭代次数,本研究中设置为20,即1/4 个cosine 周期需迭代20 次。
patch和batch 分别设置为128 ×128 和4。首先对添加噪声水平为25 的数据集进行训练,训练过程中每迭代200 次计算验证集损失值,若当前损失值小于上次计算所得损失值则保存当前模型,否则继续迭代。每迭代1 000 次就输出验证集中随机5 张图片的去噪效果图。所有实验都在PyTorth 1.13.0 上实现,在NVIDIA RTX 4000 GPU上训练一个模型需要40 h。
为验证方法的有效性,根据训练出的模型随机选取100 张图像进行去噪测试,噪声水平为25。去噪后的图像较含噪图像更加清晰,明暗对比更加明显,如图3 所示。
图3 含噪图像与去噪图像对比
值得注意的是,图3(a)~(f)并非图像实际尺寸,而是经过裁剪后得到的,目的是为了更加直观地看到去噪与含噪图像的对比。
从图3 可以看到,去噪后炭渣与孔隙之间分界明显,有利于后续的分割。图4 为同一张图像在添加不同噪声水平后的去噪效果对比。图4(b)~(d)中,σ表示噪声水平,σ =0 表示未手动添加噪声。为体现对比效果,模型对噪声水平分别为0、15 和30 的图像进行处理。可以看出,σ =0 时去噪效果最好,σ =30 时去噪效果最差。因此,训练集扩充添加噪声的图像能够为模型带来更好地去噪表现。
图4 不同噪声水平下去噪图像对比
对比了几种经典且较为常用的去噪方法,包括小波变换[3]、NLM[4]、BM3D[5]和DnCNN[6]。通过峰值信噪比与结构相似性2 种衡量指标比较噪声水平为25 时各个方法的性能,如表1 所示。
表1 各方法的峰值信噪比和结构相似性对比
表1 中的数据为100 张随机测试图像的平均值。可以看到,所提出的去噪方法比小波变换、NLM 和BM3D等在峰值信噪比与结构相似性指标上有着明显的提升。本方法比DnCNN 在峰值信噪比上提升0.326 5 dB,增幅约为1.1%;在结构相似性上提升0.009 9,增幅约为1.3%。
图5 为不同噪声水平下各方法去噪性能,所得数据均为随机选取的100 张图像去噪后的平均值。可以看到,在噪声水平较小时,DnCNN 与BM3D 的去噪效果比NLM 差。本方法无论在低噪声水平还是高噪声水平都优于其余去噪方法。
图5 不同噪声水平下各方法去噪性能对比
图6为随机选取的图像在噪声水平为25 时使用不同方法测试的结果。从图6 可以看到,利用小波变换去噪的图像基本模糊,NLM去噪后的图像产生了其他形状的噪声纹理,BM3D 生成的图像较前2 种方法表现稍好,但也存在一定的模糊现象。本方法与DnCNN 去噪能力最好,而本方法生成的图像比DnCNN更加平滑,明暗对比更加明显。
图6 不同方法测试结果对比
利用SCUNet 对阻燃材料炭渣SEM 图像降噪处理,并与几种经典的去噪方法在峰值信噪比与结构相似性2 种衡量指标上进行对比。结果表明,所提出的降噪方法在峰值信噪比与结构相似性上均优于小波变换、NLM、BM3D和DnCNN等,更有利于阻燃材料炭渣SEM图像分割。