王军,何生,张智星,梁敏茜,姜增誉,李健丁
腺样体是一团淋巴组织,位于鼻咽顶后壁。腺样体肥大是婴幼儿鼻咽腔梗阻最常见的病因,2~8岁时最常见。在婴儿中,腺样体肥大引起的呼吸困难容易导致吸吮停止,随后出现喂养问题。对于儿童来说,腺样体肥大可导致慢性张口呼吸、鼻炎、鼻窦炎、打鼾、睡眠呼吸暂停、日间嗜睡、中耳炎等。严重的、长期的气道阻塞也可引起肺心病[1]。
目前,儿童腺样体肥大的检查主要包括鼻咽侧位X线片和柔性鼻咽镜检查。然而,柔性鼻咽镜的侵入性使得许多儿童在术前腺样体评估时很难与医生合作,从而限制了其在临床诊断中的应用。因此,鼻咽侧位X线成为腺样体肥大患儿最常用的检查工具[2],其主要X线征象为鼻咽后部软组织增厚,腺样体侵入鼻咽间隙[3]。通过测量腺样体/鼻咽腔(A/N)比值,从而判断腺样体肥大和鼻咽腔梗阻的程度,为针对性治疗提供依据。然而,在X线图像上手工测量该比值的腺样体厚度和气道宽度有一定困难,这导致了测量医师之间的大量误差和个体差异。近几年来,深度学习在医学上取得了巨大进步,笔者认为其可以通过在X片自动测量上述A/N比值来帮助缓解这一问题。深度学习是以卷积神经网络(convolutional neural networks,CNN)的形式“训练”人工智能系统,从而对图像进行快速和可靠的分割与测量,其已被证明在各种医疗应用中是成功的,如视网膜的分层检测[4]、自动测量脊柱Cobb角诊断脊柱侧弯[5]、预测非小细胞肺癌患者的生存率[6]、CT图像人工智能分析技术判断肺结节良恶性[7]等。本研究旨在分析和评估深度学习方法从鼻咽侧位X线片自动测量儿童腺样体肥大的可行性、准确性和可靠性。
1.数据收集
搜集2018年10月-2020年7月山西医科大学第一医院所有符合标准的鼻咽侧位X线片,纳入标准:①患者处于合适的标准体位,摄片条件为65 kV,12 mAs,焦片距100 cm;②清晰显示硬腭、腺样体、颅底、枕骨斜坡;③所有患者信息匿名化。本研究共搜集897幅图像作为数据集,其中训练集随机选取663幅,验证集随机选取134幅,测试集随机选取100幅。此外,还从另外三家医院搜集了150例患者的图像,作为外部验证数据集。患者平均年龄为(6.45±2.92)岁,分别分析训练集、验证集和测试集患者的年龄和性别分布特征(表1)。整体图像选择过程和工作流程如图1所示。本研究获得了医院伦理委员会批准,图像只从签署知情同意书的患者或其家属处收集。
表1 性别及年龄构成
2.图像处理及A/N值测量
本研究纳入的所有鼻咽侧位X线图像大小统一为512×512像素PNG格式,并匿名(图2a)。硬腭、腺样体前缘、斜坡、翼突-颅底交叉点由两位高年资主治医师用不同颜色手工标注在图像上(图2b)。主治医师在标注上的不一致由一位主任医师进行仲裁。对训练集和验证集的图像进行随机水平翻转,并对图像进行放大和缩小,使其数据量增加至原始数据量的6倍。
图1 本研究流程图。 图2 原始图像及手工标注图。a)原始图像;b)手工标注图。 图3 测量点示意图 。红* 为硬腭后上端,红----为枕骨斜坡前缘切线,绿*为翼突侧板与颅底交点,红o为腺样体最凸点。 图4 本研究所用的U-Net架构。 图5 本研究所用的Res U-Net架构及残差块。a)Res U-Net架构;b)残差块。
A/N是由Fujioka等[8]提出的,计算方法为腺样体厚度A(腺样体前缘最凸出点到枕骨斜坡前缘切线的距离)除以气道宽度N(硬腭后上端到翼状突侧板与颅底交点的距离)。腺样体肥大严重程度由A/N比值决定,A/N比值≤0.60表示腺样体大小正常,0.61~0.70表示腺样体中度肥大,≥0.71表示病理性肥大[9]。
测试集的A/N比值通过自动测量方法(automation measurement solution,AMS)和医师手动测量方法完成。将深度学习方法分割得到的测试集数据导入Matlab构建的测量模型中进行自动测量,其识别部位如图3所示。手动测量在我院影像诊断报告系统中完成(Syngo Plaza,Siemens Healthinners,Germany),由1位主任医师、主治医师和住院医师独立测量完成。
3.U-Net及Res U-Net
原始U-Net网络基于编码器-解码器结构,最初开发并用于生物医学图像分割,适用于解决二分类问题[10]。由于本研究是多分类图像分割[11],输入图像均为RGB图像,所以笔者将原始的U-Net架构进行优化并适合于本研究所需(图4)。优化后的U-Net网络具有如下特征:左侧是编码器部分,由两个重复的3×3卷积核组成,且均使用修正线性单元函数(rectified linear unit,ReLu)[12]和一个用于下采样的步长为2的2×2最大池化操作。本研究中笔者使用max-pooling[13]进行下采样,可以使学到的特征更稳定,并且减少噪声。右侧是解码器部分,解码器部分每一步都包含对特征图进行上采样,采用2×2的卷积核进行卷积运算,用于减少一半的特征通道数量,接着级联编码器中相应的特征图;再利用两个3×3的卷积核进行卷积运算,在最后一层分别利用3×3和1×1的卷积核进行卷积运算,将每个8维的特征向量映射到网络的输出层,编码器和解码器卷积层均使用ReLu[12]和批量归一化(Batch Normalization,BN)[14]。在原始U-Net中,裁剪操作可能会丢失所要分割区域的重要信息,因此笔者在U-Net的设计中使用连接操作替换原始裁剪操作的方法来避免重要信息的丢失[15]。
Res U-Net的网络架构(图5a)类似于前面提到的U-Net架构[16]。U-Net与Res U-Net之间的区别在于Res U-Net用残差块(图5b)代替了U-Net中的标准卷积运算。He等[17]提出了在网络上应用残差块的概念[17],他们所提出的网络被称为Res U-Net神经网络,其被用于改善U-Net网络的性能并解决网络退化问题,此网络特征通道数及网络结构中各项参数的设置均与本研究所用的U-Net网络相同。
分别使用U-Net和Res U-Net两种网络模型进行训练,以训练集交叉熵损失函数(loss)作为标准[18],保存性能最佳的网络模型。训练均采用Adam优化函数进行参数优化[19]。
图6 不同模型的loss及accuracy变化图。a)U-Net的loss变化图; b) U-Net的accuracy变化图; c) Res U-Net的loss变化图; d) Res U-Net的accuracy变化图。
4.硬件和软件
硬件环境中硬盘内存为11T,CPU为Intel i9-9960x(3.10GHz),运行内存为256G,显卡为两张Geforce2080Ti,显存各为11G。软件运行环境为Windows10(64位)操作系统,Python(3.7),Tensorflow(2.1.0),Keras(2.3.1),Pycharm(2020.1.5),Matlab(R2019b,MathWorks,USA),Labelme(Version 4.2.1,MIT,USA),GraghPad Prism 9.3.1。
5.统计学分析
1.Res U-Net和U-Net网络的损失和精确度
分别使用卷积神经网络对训练集和验证集进行训练,Batch size均为9,U-Net网络共训练20000次,Res U-net训练10000次,随着网络迭代次数的不断增加,U-net最优分割网络模型的损失(loss)值为0.00035,验证集的精确度(accuracy)最高为0.9937(图6a)。Res U-net最优网络对应loss值为0.00004,验证集的精确度最高为0.9987(图6b)。
2.Res U-Net和U-Net对测试集图像的分割结果
分割结果包括人工标注的测试集,以及将测试集导入U-Net和Res U-Net分割模型所获得的分割结果(图7)。为了比较两种深度学习网络的分割性能,笔者利用python将两种网络模型的分割结果与人工标注用以下指标进行比较,包括准确度(Precision)、灵敏度(SE)、特异度(SP)、Dice相似系数(Dice Similarity Coefficient,DSC)[20]、Jaccard相似系数(Jaccard similarity coefficient,JS)[21]、假阳性率(FPR)(表2),对各参数进行统计学分析,结果显示P值均小于0.01。
表2 U-Net和Res U-Net的分割结果的定量评估
3.自动测量方法及住院医师、主治医师、主任医师的测量结果所有测试集及外部验证集图像都采用Res U-Net模型分割,并将分割结果导入Matlab自动测量模型中,得到A/N。同时,邀请主任医师、主治医师和住院医师对测试集和外部验证集进行A/N测量(图8)。以主任医师的测量结果为标准,将测试集图像分为正常、中度肥大和病理性肥大的诊断分级,从而计算主治医师、住院医师以及AMS的分级准确率,进一步将AMS结果与住院医师的测量结果相结合,得到新的分级准确率(表3)。
表3 主治医师、住院医师、AMS测量结果的准确度
通过t检验分别分析AMS与主任医师、主治医师及住院医师在不同分级中的测量结果差异是否有统计学意义,结果显示在正常组、中度肥大组以及病理性肥大组中AMS与主任医师、主治医师的测量结果差异均无统计学意义(P值均>0.05);AMS与住院医师在正常组、中度肥大组的测量结果差异有统计学意义(P<0.05),在病理性肥大组中两者差异无统计学意义(P>0.05,表4)。
图7 a~c)原始图像;d~f)手动分割图;g~i)U-Net分割结果;j~l)Res U-Net分割结果。
表4 AMS分别与主任医师、主治医师及住院医师的测量结果比较(P值)
4.自动测量与手动测量时间
分别统计主任医师、主治医师、住院医师和AMS对测试集图像测量所需时间,从而得到各自测量每张图片所需平均时间(表5),结果显示AMS所需的时间分别为主任医师、主治医师和住院医师手工测量时间的22%、21%和18%,AMS与主任医师、主治医师、住院医师的测量时间比较差异均有统计学意义(P值均<0.05)。
表5 AMS与主任医师、主治医师、住院医师的测量时间比较
我国儿童腺样体肥大发病率呈上升趋势,患儿如不及时治疗,将引起一系列耳鼻喉相关症状,对患儿健康造成较大影响[22,23]。鼻咽侧位X线片目前仍是临床上诊断腺样体肥大最常用的检查方法,这种检查方法方便、快捷,且费用便宜[24]。A/N比值的测量对临床是否选择腺样体手术具有一定价值[25,26]。A/N比值主要通过手工测量方法来得到结果,在临床工作中我们发现,手工测量过程繁琐,导致诊断医师耗费大量时间和精力,并且容易发生主观性错误,不同医师所测得的结果可能不同,并且同一医师在不同时间所测得的结果也可能不同。医生快速准确地测量A/N比值可以显著提高影像诊断效率,便于对患者及时进行针对性的治疗。因此,提出一种快速可靠的A/N比值测量方法是必要的。目前人工智能在医学领域快速发展,但国内外尚无关于腺样体肥大A/N比值自动测量方面的研究。
本研究通过深度学习方法对鼻咽侧位X线片进行分割及测量。在分割方面,由于医学图像比较特殊,其语义相对固定,不同部位图像特征比较明显,并且数据获取难度较大,数据量较小,所以U-net模型较适用于医学图像的分割[9]。Res U-Net模型是对U-net模型所作的改进,其分割性能在部分研究中优于U-net[5]。本研究中,通过各项参数对分割结果的比较,Res U-Net分割性能优于U-Net,各参数差异均具有统计学意义。在测量方面,通过对测量数据进行统计学分析,结果显示AMS与主任医师和主治医师在各级别腺样体的测量结果差异无统计学意义,与住院医师在正常组和中度肥大组的测量结果差异有统计学意义,在病理性肥大组的差异无统计学意义。通过对腺样体分级准确率的比较,AMS的准确率与主治医师测量准确率相当,明显高于住院医师,其测量结果与住院医师测量结果相结合可以显著提高住院医师分级准确率。对各方法测量所需时间进行分析,AMS所需时间明显少于手动测量所需时间,其与各级医师测量所需时间之间的差异均有统计学意义。
图8 不同医师及深度学习方法测量不同患者A/N比值的结果。a~c)为主任医师测量结果;d~f)为主治医师测量结果;g~i)为住院医师测量结果;j~l)为深度学习方法测量结果。
因此,通过以上研究表明,A/N比值的自动化测量能够有效减少人工测量的繁琐以及可能发生的主观性错误,本研究所提出的自动测量方法对腺样体肥大的评估基本能达到主治医师水平,能够辅助医师进行A/N比值的测量,尤其是对初级医师,这种方法能够显著降低其误诊概率,并且可以辅助其进行腺样体肥大程度的分级。并且自动测量速度快,能够减少各级医师在测量中所耗费的大量精力。
本研究存在以下不足之处:①样本量较小,训练数据均来自我院,虽然数据采集来自不同X光机,但与外院数据仍有差别,仍需大量数据进行改善;②数据标注为不同的医师进行手工标注,存在一定误差,可能会对结果有一定影响;③虽然此方法测量时间较人工测量时间明显缩短,但由于系统整合欠完善,其所需时间仍较长。相信未来随着人工智能进一步的发展,以及数据量的逐步增大,其测量结果会更加精确;相信这项研究成果未来能够应用到临床诊断工作中,减少诊断医师的工作量并且提高临床医师的工作效率,帮助临床医师作出更加适合每例患者的个性化治疗方案。