边缘增强的变感受野自注意力撕囊评估算法

2023-08-06 03:39岳雯倩李桢刘卫朋张帅
科学技术与工程 2023年21期
关键词:孔洞边缘卷积

岳雯倩, 李桢, 刘卫朋, 张帅*

(1.河北工业大学省部共建电工装备可靠性与智能化国家重点实验室, 天津 300130; 2.河北工业大学河北省电磁场与电器可靠性重点实验室,天津 300130; 3.中国科学院自动化研究所多模态人工智能全国重点实验室, 北京 100090; 4.河北工业大学人工智能与数据科学学院, 天津 300130)

白内障是全球首位致盲性眼病,治疗白内障的最有效方法是摘除浑浊晶状体并植入人工晶体,白内障超声乳化手术现在已经成为标准术式,其中前撕囊操作是第一步也是关键的一步[1]。

连续环状囊膜切除术(continuous circular capsulectomy, CCC)是最广泛的撕囊术,在前囊膜上撕出一个圆形的孔洞,能够为后续操作尤其是眼内人工晶体的植入提供理想的手术空间和入口。眼科手术是精密度极高的手术,对于撕囊操作更是有着严苛的要求:理想的前囊孔洞应为直径5.5 mm左右的圆形且边缘平滑,这一点仅靠经验操作而没有任何辅助手段是有困难的。同时,不符合标准的操作将不可避免地导致一些术中并发症,如前囊膜撕裂和悬韧带断裂及不可逆术的后并发症,如囊膜收缩和人工晶体偏心综合征等[2]。

基于此,白内障手术的操作评估已经引起了广泛关注,术中评估能够及时预警误操作,避免误操作带来的损伤;术后评估能够缩短实习医生的学习曲线,实现优质手术教育、提高手术质量,为病人带来更好的预后效果。传统的手术评估极大程度上依赖于手术评估量表,它规范了医生的操作,给定了详实的评价标准,但这种评级方式依赖于评估者的主观判断,费时费力。

近些年,随着人工智能的发展,医工融合也逐渐涉及疾病诊断、辅助检测[3]、个性化治疗、术后评估等多个领域[4-5],例如虚拟-现实技术与住院医师的培训的有机结合[6],数字导航系统在辅助手术中的应用[7]。

深度学习也随着卷积网络的复苏[8]成为了医学图像处理领域的主流,客观数据支撑的评估应运而生并成为了新的研究热点,通过对手术现场视频的定量分析,解决人工评估中的主观性和低效率的局限性。手术阶段识别是临床手术评估、流程分析和整体优化的关键:Yu等[9]在带有器械标注的白内障手术录像上测试了时间序列的递归神经网络(recurrent neural network, RNN)、卷积神经网络(convolutional neural networks, CNN)、输入纯视频的CNN-RNN网络、输入带有器械标签的CNN-RNN网络的推理能力;Touma等[10]借助了谷歌的自动机器学习平台AutoML,由两名无编码经验的眼科实习医生搭建了学习模型并在公开的数据集上进行训练、验证和测试;Chen等[11]在细粒度的视频阶段分割任务中提出了双金字塔的时空Transformer来捕捉多尺度的特征更好地推理变时长的手术阶段;进一步的,Ye等[12]训练了基于VGG16和结合了长短期的VGG网络将手术阶段的识别进一步具象到了手术动作识别。撕囊操作为白内障手术中第一步也是至关重要的一步,也获得了广泛的关注:Kim等[13]将器械尖端的位置、移动速度和光流场辅助时间卷积神经网络来更好地联合学习局部的差异性和时域间的依赖用来评估手术操作者是专业医生还是实习医生;之后,为了更好地利用上下文信息,如解剖组织和仪器的相互作用,他们又提出了双重注意力的时间卷积神经网络[14]。除此之外,手术评估还聚焦在多方面:Baldas等[15]在中提出了基于手术器械运动地操作灵巧性评估;Gu等[16]通过ResNet和ResUnet双支路获取切口刀和瞳孔信息用于切口操作的评估;Marafioti等[17]提出的CataNet通过CNN提取单帧特征,RNN聚合的方式推理出医生经验、手术阶段和剩余手术时间。然而,现有的评估大都局限于评级的方式,无法指明评级差的具体原因及误操作的所在,使得评估缺乏针对性和改进锚点。

基于此,现提议一种依赖分割网络评估白内障撕囊操作的算法,通过分割出的前囊孔洞来评估撕囊技能。然而此类软组织边界的分割也面临着许多的挑战:一是前囊的透明性使得孔洞的边缘在图像上和其他组织的区分度较弱,识别困难;二是撕囊过程中不易识别完整边界且存在器械遮挡、囊瓣干扰的情况;三是不同显微镜参数各异,场景色调、光强不同,场景变化大。针对这些问题,现提出一个基于边缘增强的分割网络来评估撕囊操作后前囊孔洞的各项指标。首先,变感受野的级联空洞卷积在提取特征的同时保持较高的分辨率,有效地避免传统卷积操作造成的特征丢失和感受野过于局限的问题;随后由边缘模块提取出的边缘特征和全局语义特征通过自注意力机制建立依赖,推理出更精准地前囊孔洞分割结果。最后通过分割结果推理出撕囊的居中性、圆度、半径等指标用于手术操作评估,以期缩短医生的学习曲线,提供高效手术的新思路,为机器人辅助手术奠定基础。

1 数据集与增强算法

1.1 医学数据集面临的问题

深度学习算法是基于数据驱动的,而医学图像由于涉及医患隐私、采集难度高、公开数据集少等诸多原因在体量上远小于生活场景图像数据集,过少的数据集将会导致模型的训练效果不佳。基于以上问题,提出的解决方法如下。

(1)开展功效分析计算95%置信度下所需的最小数据量,确保实验结果的效力。

(2)通过球面化处理进行数据增强,补充训练数据量,模拟误操作。

(3)选取表征更加清晰的手术阶段进行图像采集,减少非目标特征的干扰。

1.2 功效分析

适宜的数据量对于网络的训练至关重要,如果样本量太小,研究结果的可重复性及代表性就欠佳,且容易受到异常数据的干扰;如果样本量过大,研究所需的资源和执行难度就越大,且存在伦理问题[18]。为了获取合适的样本量,使得在有限数据集中开展的实验仍在统计学上具有说服力,利用了G*Power软件进行功效分析来解决这个上游问题,结果如图1所示。

图1 功效分析图

效应分析可以通过给定的指标,如效应值(Effect Size, ES)、显著性水平(α)和统计功效(1-β)计算在该水平下的最小样本量。其中α定义了第一类错误的可接受上限,通常默认设置为0.05[19];1-β表示拒绝错误假设的可能性,即“1-第二类错误概率”;ES定义了自变量或变量预测因变量的程度[20]。在缺乏前置研究或初步研究的情况下,遵循Cohen的规定,实验中将其设定为“中等”程度即取0.05[20-21]。研究采用了单样本单边T检验的方法来保证模型泛化结果的可靠性,以确保该网络在整体中的效果等于或优于数据集(样本)中的指标。在上述条件下,得出所需样本量随统计功效的变化,可以计算出在1-β为0.95的水平下,所需的最小样本量为45。

1.3 数据集的建立

为了评估撕囊操作形成的前囊孔洞是否符合手术操作标准及偏离程度,构建了撕囊手术评估显微影像数据集。视频采集于北京同仁医院2021年11—12月期间的43台白内障撕囊手术,且所有数据的使用已经获得了伦理委员会的批准。撕囊操作示意图及术中采集到的影像示例如图2所示。

图2 撕囊操作示意图及显微镜下术中图像

为了减少图像中手术器械、浑浊晶状体核和囊瓣等非目标组织的干扰,集中选取超声乳化操作后、人工晶体植入前,软组织边缘较为清晰的阶段截取数帧形成数据集并按照比例将训练集和测试集划分为162张和66张。边缘信息可以有效地补充原始图像中的高频分量且在撕囊结果评估中具有更显著的意义。通过Canny算子计算出撕囊孔洞的边界信息并将此高频信息与显微镜视野下的全彩图像作为联合输入,使得训练出的网络相较传统分割模型能够更好地关注边缘信息,推理出更加完整的软组织边界。

1.4 基于球面化处理的数据增强

为了获取更充分的数据用于模型的训练,采用了适合近圆形软组织边界的局部图像球面化方法进行数据增强,相较于语义迁移和正则化技术更加经济高效,原理如图3所示。

箭头表示边缘球面化方向

以图3(a)中的任意点坐标(xm,ym)为例,通过其与球面化圆心坐标(xo,yo)距离,定义为r,来计算球面化后的坐标(xa,yb),公式为

(1)

式(1)中:R为瞳孔的半径,在球面化过程中随机选取距离瞳孔圆心[1/2,1]半径倍数的点作为球面化圆心,球面化半径随机选取[2/3,1]倍数的前囊孔洞半径。通过这种方式不仅增加了数据量,还有效模拟了实习医生在撕囊中可能存在的操作失误。

2 模型的搭建

2.1 多重空洞卷积

现有的大部分分割网络都源于为分类任务设计的卷积网络[23],卷积网络本身通过连续的池化和子采样层整合多尺度上下文信息,降低分辨率,直到获得全局预测,但这并不适配于密集预测的分割任务。为了更好地结合全分辨率输出的多尺度上下文推理,Yu等[22]提出了空洞卷积,它可以在不丢失分辨率的情况下聚合多尺度上下文信息,相比较传统的卷积网络更加适用于分割任务,原理如图4所示。

红色、蓝色像素点代表卷积操作中涉及的像素点;灰色方格代表卷积操作中的无关像素点

在计算红色点表征的像素时,分别选取膨胀率为1、2、3的卷积,感受野分别为3×3、5×5、7×7。卷积核中灰色方格代表“空洞”,权重为0,仅通过卷积核内的蓝绿色像素点来推理特征。通过串联多层变感受野的空洞卷能够获得指倍数增长的感受野,在保存分辨率和细节特征的同时指数级地扩展了感受野,获取了更广尺度的特征。

2.2 自注意力机制

自注意力机制是针对自然语言处理任务提出的,对于长距离信息的有效捕捉使得其性能优越[23],在被引入图像处理任务中后,因其降低了外部信息的依赖,更擅长捕捉数据或特征的内部相关性而成为了新的主流。以二维图像为例,输入特征图记为F∈Rc×h×w,其中c、h和w分别为输入图像的通道数、高和宽。注意力机制能够给将目标和辅助识别的有效像素点赋予更多的权重,聚焦重要信息并忽略无用信息。其可以描述为查询(query,Q), 关键字(key,K), 值(value,V)对于输出的映射,其中Q、K和V是通过对F进行线性投影和形变生成的。首先通过矩阵点积得出Q、K的相似度并为了梯度的稳定除以通道数的开方,然后利用Softmax函数将其归一化为权重和为1的概率分布,最后点乘V得到加权的每个输入向量的评分,公式为

(2)

式(2)中:Attention(Q,K,V)表示自注意力机制的输出;dk为通道数。通过这种方式,可以获取更长距离的语义依赖,有效解决了传统卷积的感受野受限的问题。

2.3 边缘信息增强的变感受野自注意力分割网络

为了解决由于前囊的透明性造成的特征区分度弱的分割难题,设计了一个边缘信息增强的变感受野自注意力分割网络,结构如图5所示。

图5 网络结构图

首先,采用了和DeepLabV3[24]类似的多重空洞卷积结构进行特征预提取。将经过残差网络预提取后的特征图记为M0∈Rc×h×w,之后四层使用了变感受野(膨胀率分别为1、6、12、18)的空洞卷积在提取深层特征的同时保留了分辨率,最后一层通过池化(Pool)、卷积(Conv)和激活层(ReLU)后通过插值操作统一特征图的分辨率,每一层对应的输出记为Mi。将输出逐层拼合(Concat)后经过卷积操作得到最终输出结果Mconcat,表达式为

Mi=AtrousConv(Mi-1),i=1,2,3,4

(3)

M5=ReLU{Conv[Pool(M4)]}

(4)

Ei=ReLU{Norm[Conv(Mi)]},i=1,2,3,4

(5)

Econcat=Conv[Concat(E1,E2,E3,E4,E5)]

(6)

(7)

式中:Ei为第i层中提取出的特征;Econcat为经过拼接和卷积后得到的作为自注意力模块输入;另一支路中Ei通过卷积层、激活层(Sigmoid)和求和操作得到Eout用于计算边缘损失。

为了分割更加精准的软组织边界,该网络参考文献[25]利用自注意力机制融合了卷积提取出的边缘信息和图像特征信息,边缘信息提取过程见式(5)~式(7)。同时。

在边缘自注意力模块中,输入的Mconcat∈Rc/8×h×w变维生成Q∈Rc/8×h×w和K∈Rw×h×c/8,Econcat∈Rc/8×h×w变维生成V∈Rc/8×h×w,依照式(8)得到输出结果为

(8)

式(8)中:d为特征图的通道数。

最后,将预提取过程中的浅层特征和上采样后的边缘自注意力输出做残差和卷积处理得到最终的推理结果。

损失函数由三部分组成:语义分割损失Lseg采用标准的交叉熵损失评估像素级的分类结果;边缘损失Lboundary则用二分类交叉熵函数来计算;为了增强这两部分的一致性,引入了Latt来描述沿边界区域像素的分割精度[26],计算公式如下。

(9)

(10)

(11)

L=λ1Lseg+λ2Lboundary+λ3Latt

(12)

式(12)中:λ1、λ2、λ3分别为每一部分的权重,训练过程中将其设置为λ1=1,λ2=1,λ3=1。

3 实验结果与分析

3.1 实验环境与评价指标

所有的实验都是在PyTorch和CUDA 10.2上基于单个NVIDIA TITAN X GPU进行的。最初的训练批大小被设置为12,并变化到8以适应不同的模型。原始论文的学习率被设置为默认值,并在训练期间进行了一些微调。所提网络的初始学习率设置为0.000 1,每30个轮次衰减0.9。所有原始图像都被调整为384×648以提取分层特征图。

为了全面量化所提网络的性能,引入了交并比(intersection over union, IoU)和Dice指标两个经典分割指标来评价分割网络的精确度,计算公式如下。

(13)

(14)

式中:TP(TN)为真阳(阴)性,意味着像素的预测结果与标签一致;FP(FN)为假阳(阴)性,意味着像素的预测结果与标签不一致。准确率(accuracy, Acc)也作为一个指标来评估分类正确的像素在总像素中所占的比例,3类指标的数值越高即意味着网络的性能越优越。最后,为了能够精准评定撕囊操作,依据白内障撕囊评估标准选取了圆度(roundness,Rou)、居中度(centrality,Cen)和半径(radius,Rad)3个指标,公式如下。

Rou=(4πA)/P2

(15)

Cen=1-|OcapOpupil|/R

(16)

Rad=1-|Rcap-R|/R

(17)

式中:A为区域面积;P为区域周长;Ocap、Opupil分别为利用网络分割出的瞳孔圆心和撕囊后前囊孔洞的圆心;R为通过瞳孔归一化出的标准撕囊半径(5.5 mm);Rcap为分割出的实际撕囊操作形成的前囊孔洞半径。

3.2 分割性能实验

为了验证分割网络的性能,选取了多个网络进行对比实验,结果如表1所示。

表1 不同方法测试结果对比

其中基于编码器-解码器结构的Segnet和拥有跳层结构的UNet属于传统的卷积网络,UNet更是因其对于多尺度深浅层特征的联合学习成为了医学图像处理中应用最广泛的分割网络;于2022年提出的基于量子理论的Wave-MLP网络属于新一代的多层感知机网络;BCANet是使用了边缘信息进行增强的网络,但没有采用更加适合分割任务的空洞卷积。可以看到本文方法在自建的数据集中实现了IoU、Dice、Acc分别为92.23%、95.96%以及94.98%,性能相较已有的网络有着明显的优越性。同时在引入了球面化数据增强方法Aug后,IoU、Dice、Acc 3项指标分别得到了1.02%、0.55%以及0.82%的提升,验证了其有效性。为了更加直观地评估网络的分割性能,在图6中将结果进行了可视化。

图6 不同方法分割结果图像对比

可以看到提出的网络达到了最好的分割效果:内部完整、边缘清晰且和标签相似度高;Segresnet分割出的边缘存在明显的锯齿;UNet甚至无法合理地分割出正确的边缘和内部语义;BCANet虽然很好地关注了边缘信息,但无法很好地建模内部语义的一致性,出现明显的内部误分割;Wave-MLP虽然可以分割出较为完整且边缘规则的语义,但相较于文中提出的网络,准确性仍有差距。

为了确定合适的学习率,分别选取0.01、0.001、0.000 1和0.000 01进行实验。如图7所示。

图7 评估指标随学习率变化趋势图

图7是所提网络的IoU、Dice和Acc随学习率的变化趋势,可以看到多种指标都在0.000 1学习率下达到峰值。同时也测试了不同的网络的Dice指标随学习率的变化趋势,并选取了最佳学习率作为最终训练的参数。

3.3 撕囊操作评估结果分析

为了给医生提供更加精确的定量评估结果,选取了圆度、居中度和半径3个指标并将结果进行了可视化,如图8所示,量化评估如表2所示。其中深灰色和浅灰色色块分别代表分割出的瞳孔和撕囊孔洞,白色同心圆代表可接受的撕囊半径误差范围(5.5±0.55) mm,橙色和蓝色标注代表撕囊孔洞和瞳孔的圆心。

表2 不同案例的撕囊结果评估表

第1、2列图分别为原始图像、可视化评估结果;第1、2行图分别为案例1、案例2的对比图

可以看到案例1的撕囊操作在显微镜下图像中可以观察到较为规范。表2所示的量化结果中,居中度和半径均达到了95%以上的水平,圆度虽存在10.9%的误差,但仍在可接受范围内。案例2则差强人意,显微图像中可以观察到居中性较差,由分割得出的3类指标的误差均大于10%,在撕囊半径和居中度方面仍有可以提升的空间。由此可见,所提出的基于分割结果的定量评估方法得出的结论同显微图像中定性的评估一致,具有临床参考意义。

4 结论

连续环形撕囊是白内障手术的第一步,也是关键的一步,能够为后续的步骤提供通道和操作空间。撕囊操作的定量评估对缩短医生学习曲线、机器人辅助手术有着重要意义。通过实验验证和对比分析,可以看出提出的边缘信息增强的变感受野自注意力分割网络在分割软组织边界的任务中性能优良。空洞卷积的引入有利于获取更大感受野的特征依赖,对于边界信息的关注有利于推理出更为精准的边缘信息,自注意力机制的引入有利于推理边缘特征和内部特征的一致性。同时,自建了一个撕囊评估数据集并通过球面化处理进行了数据增广和误操作模拟,通过对比实验验证了其有效性。最后通过分割结果对圆度、居中度、半径进行了定量评估并和原始图像的定性评估进行对比,验证了其一致性。

下一步将纳入更多针对医生的手术操作特征的评估指标,如流畅度、操作用时等,获得更加全局性的评估结果。

猜你喜欢
孔洞边缘卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种面向孔洞修复的三角网格复杂孔洞分割方法
孔洞加工工艺的概述及鉴定要点简析
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
一张图看懂边缘计算
玻璃浆料键合中的孔洞抑制和微复合调控
冲击加载下孔洞形成微射流的最大侵彻深度
一种基于卷积神经网络的性别识别方法
在边缘寻找自我