放射治疗中医学影像自动分割的研究进展

2021-10-16 07:03张富利王雅棣王秋生
中国医学物理学杂志 2021年9期
关键词:医学影像图谱系数

张富利,王雅棣,王秋生

1.解放军总医院第七医学中心,北京100700;2.解放军总医院第五医学中心,北京100071;3.北京航空航天大学自动化与电气工程学院,北京100191

前言

肿瘤靶区和危及器官(Organs At Risk,OARs)的分割是放射治疗中的一项重要工作。在临床工作中,放射治疗医师在CT、MR或PET/CT多模态融合影像上手动分割肿瘤和危及器官通常是一个耗时费力的过程。有研究表明一名医师分割1 例患者的感兴趣区域(Regions of Intetrest,ROI)平均需要花费数小时[1-2]。此外,在自适应放射治疗(Adaptive Radiotherapy,ART)日益普及的今天,在患者的ROI分割上投入大量时间将会延缓ART的进度,并可能导致肿瘤局控率和总体生存率的下降。准确的影像分割对后续的定量分析如影像组学分析[3-5]和剂量学分析[6-7]也将产生重大影响。因此,开展医学影像的自动分割有望解决上述放射治疗临床工作中面临的诸多问题。

为了确保分割结果的精确性,自动分割算法需克服3个与影像相关的问题:一是医学影像会受到噪声的影响,而噪声又会影响体素强度;二是患者的解剖组织通常表现出密度不均匀性,意味着影像中人体解剖组织的体素强度呈现逐渐变化的趋势;三是在影像采集前预设影像体素的大小将导致部分容积效应的产生。

在过去的20年中,医学影像自动分割领域发展迅速。自动分割算法已经历第一代、第二代和第三代的发展。近几年来,基于深度学习的第四代自动分割技术较传统分割方法在精确性、效率等方面均有显著改进。近20年来分别采用基于图谱库和深度学习技术进行医学影像自动分割的论文发表数量对比情况如图1 所示。自2015年以后,应用深度学习算法开展的医学影像自动分割相关研究呈指数级增长。

图1 近20年来已发表的医学影像分割相关论文数量Fig.1 Number of papers on medical image segmentation published during the latest 20 years

1 第一代自动分割技术

自动分割算法的发展往往与其在执行自动分割任务时应用先验知识的性能进展同步。在20世纪90年代,受制于计算机性能和影像数据集大小,多数分割技术不使用或很少使用先验知识,称之为低级分割方法。这其中包括强度阈值算法、区域生长算法和启发式边缘检测算法[8-9]。

Neal等[10]采用区域生长算法对6例患者盆腔的CT图像进行了靶区和危及器官的分割,并与手动分割结果进行了比较,结果证实,使用区域生长算法可以将分割时间减少2.4 倍,而不会影响最终放疗计划的质量(P<0.000 1)。Mazonakis等[11]采用区域生长算法对10例前列腺癌患者的CT影像进行了靶区和OARs的分割,结果表明,采用区域生长算法的自动分割比手动分割快1.5倍,两种方法获得的靶区、膀胱和直肠的轮廓体积之间差异无统计学意义(P>0.05)。两种方法获得的ROI体积相关性非常好(前列腺靶区R2=0.84、膀胱R2=0.93、直肠R2=0.85),自动分割结果的观察者内和观察者间的差异低于手动分割结果。Schnack等[12]采用区域生长算法在人脑的T1加权3D-FFE MR影像中自动分割侧脑室和第三脑室。在1例合成脑部MR影像测试中,自动分割结果与基准值的重叠系数达到0.98;在对227例大样本集脑部MR影像的进一步测试中,侧脑室自动分割结果与手动分割结果的相关系数达到0.996,第三脑室自动分割结果与手动分割结果的相关系数达到0.860。

2 第二代自动分割技术

在20 世纪末至21 世纪初,得益于统计学方法和计算机性能的发展,学者们开发了更先进的算法以避免启发式方法引入不确定性,主要包括:统计学模式识别算法[13-15]、C-均值聚类算法[16]、形变模型算法[17]、图形搜索算法[18]、神经网络算法[19]、多分辨率算法[20]、最小路径算法[21]、目标追踪算法[22]等。

Patenaude等[23]应用贝叶斯模型算法对336幅人脑MR影像的15个不同皮层下组织结构进行自动分割,Dice系数位于0.7~0.9之间。Vrooman等[24]应用K最邻近分类算法对59例人脑MR影像中的脑脊液、脑白质、脑灰质进行了自动分割,相似性系数分别为0.93、0.92、0.92。Kawata 等[25]利用模糊C-均值聚类(Fuzzy C-Means,FCM)算法、人工神经网络和支持向量机3种算法分别对16例实性、毛玻璃样和混合性非小细胞肺癌(Non-Small Cell Lung Cancer,NSCLC)患者大体肿瘤区(Gross Target Volume,GTV)进行自动分割,通过对比后认为FCM模型结果更为准确和高效,能够可靠地应用于肺癌立体定向放疗。

3 第三代自动分割技术

在过去的20年里,学者们应用先验知识开展了许多探索性研究工作,开发出了一些新的算法。这些算法将先验知识、专家定义规则和所需对象模型结合在一起,构成了第三代自动分割算法。主要包括:主动形状模型算法[26]、主动外观模型算法[27]、基于图谱库分割算法[28]、基于规则分割算法[29]等。

Cheimariotis等[30]应用主动形状模型算法在77例患者的通气和灌注SPECT影像中自动分割肺部,并将自动和手动分割结果进行比较。右肺的Dice 系数为0.83%±0.04%,左肺的Dice系数为0.82%±0.05%。在过去的10年里,图谱分割已被证明是最有效的分割方法之一,在放疗临床工作中得到广泛应用,市场上已有多款基于图谱分割的产品,如 MIM 软件(MIM Software Inc., Cleveland OH)、ABAS(Elekta Oncology Systems,Crawley,UK)自动分割模块、Smart segmentatioin 自动分割模块(Varian Medical Systems,Palo Alto, CA)和RayStation(RaySearch Laboratories,Stockholm,Sweden)治疗计划系统中的多图谱分割模块。

Wardman 等[31]应用基于图谱库分割算法在14 例头颈部肿瘤患者的T1加权MRI影像上分割危及器官和左侧Ⅱ区淋巴结,并与手动分割结果进行比较。结果发现,在MRI 影像上分割的眼眶、腮腺、淋巴结的Dice 系数为0.73~0.91;符合标准平均距离(Mean Distance to Conformity, MDC)2.0~5.1 mm;敏感度系数(Sensitivity Index, SI)为0.64~0.93;包含系数(Inclusion Index,II)为0.76~0.93;但脊髓的自动分割效果较差,Dice 系数仅为0.37。Powell等[32]采用基于图谱库自动分割方法,分割20例尸体正常颞骨CT影像(左10例、右10例)中的筋膜、乙状沟、外耳道、内耳道和后管壁。使用马氏距离、平均豪斯多夫距离(Hausdorff Distance,HD)和体积相似性系数3个定量指标来比较自动分割结果与手动分割结果。结果显示,所有结构的马氏距离均小于0.232 mm;除了右侧颞骨的后管壁和外耳道以外,其它所有结构的HD 均小于0.464 mm;除左、右侧乙状窦的相似性系数为0.75以外,其它所有结构的相似性系数均达0.80以上。

4 第四代自动分割技术

做为一种实现机器学习的技术,深度学习采用深度神经网络架构,在网络架构的输入和输出层之间设有多个隐含层,通过对复杂的非线性关系建模从数据集中学习特征。使用较深的网络可以提升数据的预测效果。尽管以前深层架构易导致模型数据的过拟合,但近年来随着深度学习算法的不断改进,深层架构(如超过100层的架构)在许多任务场景中表现出了“超越人类”的性能。此外,图形处理器(Graphics Processing Unit,GPU)的应用加快了运算速度,也推动了深度学习在影像自动分割研究领域的迅猛发展。

卷积神经网络(Convolutional Neural Network,CNN)体系架构通常包含卷积层、池化层、完全连接层等,这些层将输入影像转换为期望的输出影像。卷积层的一个重要特征是能够利用空间局部相关性提供相邻层神经元之间的连通性。全卷积网络(Fully Convolutional Network,FCN)可以解决由于将全连接层作为分类CNN的最终层而导致的空间信息丢失问题[33]。编码路径获取输入影像,并生成一个高维特征向量,该向量学习输入数据的浅层(粗略)和深层(精细)特征信息。解码路径取代了CNN的全连接层,将上采样应用于准确的影像分割。

与上一代分割技术相比,基于深度学习的算法分割性能更为出色。Krizhevsky等[34]在2010年的ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)比赛中训练了一个大型CNN架构(AlexNet),将120万幅高分辨率影像区分为1 000个类别。在测试数据时,top-1错误率为37.5%,top-5错误率为17.0%,均优于之前的结果。研究结果表明,使用AlexNet可以显著改善影像分类和识别。自此之后,深度学习方法日益成为影像自动分割的主流技术。Lin等[35]应用3D CNN网络架构(VoxResNet)基于鼻咽癌患者的MR 影像自动分割GTV。结果显示,在203例测试集患者中,Dice系数达到0.79,平均表面距离(Mean Surface Distance,MSD)为2.0 mm。接下来,随机选择20例患者MR影像作为测试集,在多个放疗中心中将GTV深度学习自动分割结果与8 名放疗医师手动分割结果进行比较。使用Wilcoxon配对符号秩检验比较自动分割与手动分割Dice系数的差异。结果表明,自动分割算法提高了靶区的Dice系数(0.78vs0.74,P<0.001),观察者内和观察者间的差异分别降低了36.4%和54.5%,分割时间减少了39.4%。

Yang等[36]报道了2017年AAPM胸部器官分割挑战赛的结果。在这次竞赛中共有7种自动分割算法参赛,而最终结果显示性能最好的3 种算法分别是采用3D U-Net 网络和2D Res Net CNN网络的深度学习算法。尽管基于深度学习和基于图谱的算法在左右肺、心脏、脊髓的自动分割上表现差不多,但在使用深度学习方法时,食管的Dice系数得到显著改善(0.72vs0.64)。Zhou[37]应用240例不同人体部位CT影像数据集评估,比较了基于2D CNN和3D CNN两种不同深度学习算法模型的分割性能,并采用交并比(Intersection over Union,IoU)作为评价指标。实验结果表明,3D CNN和2D CNN对17种人体器官进行分割的IoU平均值分别达到79%和67%。与采用概率图谱库算法的常规分割方法相比,使用深度学习算法的所有结果均显示出更好的准确性和鲁棒性。Lustberg等[38]对产品化的基于深度学习自动分割软件Mirada Deeplearning Contouring Expert(Mirada Medical Ltd.,Oxford,United Kingdom)和基于图谱库的自动分割软件Mirada RTx 1.6 和Workflow Box 1.4(Mirada Medical Ltd.,Oxford,United Kingdom)在肺癌放疗OARs自动分割中的性能进行了探讨,结果表明,与手动分割相比,基于图谱库的自动分割节省时间的中位值为7.8 min,而基于深度学习的自动分割节省时间的中位值为10 min。

秦伟等[39]应用基于深度学习自动分割软件AiContour(Version 3.1,LinkingMed Inc.)自动分割腹部肿瘤患者肝脏结构,结果显示,Dice系数为0.92±0.02,Jaccard系数为0.85±0.04,质心偏差(Center of Mass Deviation,CMD)为(0.38±0.35)cm,分割时间为(4.4±0.4)s,使用该软件对腹部肿瘤放疗患者的肝脏结构进行自动分割能够达到较好的准确性,且能够有效节约勾画时间,提高放疗工作效率。郭雯等[40]应用Dense V-Net网络基于CT影像对宫颈癌患者CTV进行自动预分割,Dice系数中位值和平均值均大于0.8,HD平均值为19.1 mm,CMD平均值为4.4 mm,自动分割宫颈癌CTV的效果较为理想,并大大提高了临床工作效率。李华玲等[41]采用基于U-Net的自动分割方法对20例乳腺癌放疗患者进行OARs自动分割,结果表明,所有OARs的Dice系数平均值均达0.90 以上,平均最小距离(Mean Distance to Agreement,MDA)最小为5.9 mm,最大为16.7 mm。自动分割模型在乳腺癌OARs分割中取得了较好的效果,且分割准确性比基于图谱库的自动分割方法高。

尽管截止目前深度学习自动分割技术已在医学影像的自动分割中取得了较大进展,但仍存在一些局限性:一是我们无法知道自动分割期间哪些解剖学特征或基于强度的特征会对网络的训练产生影响,以及这些特征是如何影响受训网络的。这就使我们无法完全了解和辨别自动分割产生偏差的原因;二是深度学习算法应用中还面临许多数据相关的挑战,尤其是对高质量数据集的需求日益迫切。这是因为深度学习算法的精确度与用于训练模型的先验知识的质量密切相关。此问题可基于国际共识通过实现手工分割数据的标准化来解决此问题。降低观察者间和观察者内部轮廓分割结果的差异可进一步提高现有模型的分割精确度;三是影像采集协议的不一致也可能会影响深度学习算法的性能,而此问题目前存在于所有自动分割技术中。

5 自动分割软件的临床调试和质量保证

在放疗过程中,解剖器官分割中的任何偏差都会对患者的最终治疗效果产生严重影响,比如正常组织脊髓可能会接受超剂量照射,而肿瘤靶区可能会照射不足。因此,应当参照相关行业标准和国家标准,如YY/T 0664-2008《医疗器械软件软件生存周期过程》[42]、YY/T 0708-2009《医用电气设备第1-4 部分:安全通用要求并列标准:可编程医用电气系统》[43]和GB/T 25000.51-2010《软件工程软件产品质量要求与评价(SQuaRE)商业现货(COTS)软件产品的质量要求与测试细则》[44]等相关标准的要求对自动分割系统进行适当的临床测试和质量保证。

调试过程包括软件功能的测试及其功能文档的测试。对自动分割软件进行的最重要测试是评估其分割准确性。通常采用Dice系数和HD值等定量指标进行全面评估。需要采用本研究机构的患者数据集对软件进行调试,以确保该软件在影像类型识别、患者解剖结构分割等方面能够按预期进行工作。此外,还要确保软件分割的解剖结构能够准确无误地导出到其它系统,如治疗计划系统。如果发现分割结果的准确性和可靠性有问题,则应清楚记录,以便联系产品供应商或开发商解决这些问题。

经过周密的临床调试,确认分割软件各项功能没有问题后,则可正式发布该软件以用于临床工作。之后还需定期进行例行维护,以确保软件运行无误。在设计治疗计划之前,应由高年资医师对所有分割结果进行仔细审查和批准。自动分割的结果只是合理的起点,严格的质量保证(Quality Assurance,QA)是必不可少的。已有研究报道了通过建立相应的QA流程对轮廓分割结果进行同行评估以确保放疗的总体安全性从而使患者获益[45-47]。

此外,还有多项针对自动分割软件实施自动QA的研究[48-49]。这些研究通过测量ROI的一些特定参数(如质心、体积、形状等),采用统计学方法确定分割体积中的偏差。还有一种QA方法就是使用一种分割算法的结果作为基准并将其与另一种分割算法进行比较,前提是这两种算法应相互独立[50]。尽管目前这种方法尚不能代替高年资医师对分割轮廓的仔细审查,但在一些需要额外关注的案例中能够为医师提供一些帮助。在临床工作中无论采用哪种自动分割软件作为决策支持工具,均需由专家对其分割结果进行目视检查和批准。总之,尽管基于深度学习的自动分割技术已证明非常有效,但在应用于临床工作之前和临床工作过程中仍需对其进行全面调试和质量保证,以确保患者安全。

6 结论

深度学习自动分割算法已迅速成为医学影像分割领域的最新技术,这些算法已应用于许多解剖部位肿瘤和正常组织的自动分割,包括胸部、腹部、盆腔、头颈部及脑部,并且已取得了较好的一致性。在接下来的几年中,笔者相信基于深度学习的自动分割工具(无论是商业化的还是开源的)将会更广泛地应用于放射治疗计划设计流程中,并且在临床实践中的接受度和实施效率将会进一步提高。

猜你喜欢
医学影像图谱系数
《中国医学影像杂志》稿约
基于图对比注意力网络的知识图谱补全
结合多层特征及空间信息蒸馏的医学影像分割
医学影像技术在医学影像诊断中的合理运用
影像组学在核医学影像中的应用进展
绘一张成长图谱
图表
小小糕点师
苹果屋
嬉水