李 桢,洪文松,黄凯龄,叶柳青
(广东省第二人民医院放疗科,广州 510317)
高精度的调强放疗是头颈部肿瘤治疗的重要手段之一,其危及器官数量众多,勾画复杂,限量严格,使得手动勾画危及器官成为一件耗时耗力的事情,因此有诸多自动勾画软件被应用于临床以提高医生的工作效率。这些软件有基于图谱库算法的Smart Segmentation、MIMAtlas、ABAS和Raystation等,其通过匹配图谱库的模板进行刚性或形变配准得到自动轮廓,用户选择不同的病例数建立不同的图谱库模板将影响自动勾画的时间和准确性[1-2];其中基于概率图谱库算法的软件SPICE的图谱库则不可修改,用户只能调取并使用[3]。基于深度学习算法的软件LinkingMed和Manteia等是对标准数据集进行训练学习,通过算法逻辑完成轮廓的勾画[4-5],基于卷积神经网络(convolutional neural network,CNN)算法的软件是属于其中的一种。目前有较多比较自动勾画软件的研究,有基于图谱库算法的软件在不同模板库下的准确性比较[1-2,6-8]及相互间的比较[3,9],自适应刚性或形变配准的自动勾画软件与MIMAtlas自动勾画软件间的比较[10-11],以及基于深度学习算法的自动勾画软件和ABAS自动勾画软件间的比较[12-13]等,但较少检索到基于CNN算法和概率图谱库算法间自动勾画软件结果的比较。因此本文主要分析比较基于这2种算法的LinkingMed软件和SPICE软件对头颈部危及器官勾画的准确性,为自动勾画软件的发展提供临床参考依据。
选择2019年10月至2020年4月在广东省第二人民医院接受放疗的鼻咽癌(Ⅱ~Ⅲ期)患者31例,其中男性20例、女性11例。入组标准:(1)CT扫描范围包括整个头颈部,以头顶至锁骨下2 cm为佳;(2)体表轮廓正常、规则;(3)口腔处理后不影响下颌骨结构。排除标准:(1)CT图像中存在明显伪影影响正常组织器官显示;(2)头颈部器官存在先天畸形;(3)原发疾病对正常器官解剖关系有明显影响的。本研究获得医院伦理委员会批准。患者CT扫描定位时行仰卧位,以头颈热塑体膜固定,扫描机器为西门子大孔径螺旋CT(Somaton Sensation Open),扫描条件为管电压120 kV、管电流120 mAs,扫描重建层厚为3 mm,层间距为3 mm。将扫描获得的CT图像数据传送至Pinnacle39.10治疗计划系统。
SPICE是内置在Pinnacle39.10治疗计划系统中的自动勾画软件,勾画流程如图1所示。LinkingMed是北京连心医疗科技有限公司研发的自动勾画软件(Version 3.1.10),勾画流程如图2所示。
图1 SPICE自动勾画流程图
图2 LinkingMed自动勾画流程图
为了确保手工勾画的一致性,由1名有经验的放疗医师在Pinnacle39.10治疗计划系统上手工勾画危及器官,并经过主任医师逐层审核和修改。危及器官包括:眼球、晶体、视神经、脑干、脊髓、腮腺和下颌骨。采用自动勾画模块SPICE对以上危及器官进行自动勾画,勾画完毕即传入软件LinkingMed进行自动勾画,最后进行比较评估。SPICE与手工勾画的差异值定义为SPICE组,LinkingMed与手工勾画的差异值定义为LinkingMed组。
以放疗医师手工勾画危及器官的轮廓为金标准,分别计算2种自动勾画结果的Dice相似性系数(Dice similarity coefficient,DSC)、Hausdorff距离(Hausdorff distance,HD)、包容性指数(inclusiveindex,IncI)和敏感性指数(sensitivity index,SI)[2]。
DSC用来评估2个轮廓间的相似程度,DSC值越大,2个轮廓相似度越高[12]。DSC计算公式如下:
式中,Vref为医生手动勾画轮廓的集合;Vauto为自动勾画轮廓的集合。
假设有2组集合Xref={x1,x2…,xn}、Yauto={y1,y2…,yn},则Xref和Yauto之间的HD定义为
IncI即2个轮廓重叠部分与自动勾画体积的比值,计算公式如下:
SI即2个轮廓重叠部分与手动勾画体积的比值,计算公式如下:
建立Excel数据库,采用SPSS19.0软件进行数据分析,数据采用±s表示。2种自动勾画结果的DSC、HD、IncI和SI比较采用配对样本t检验,以P<0.05为差异有统计学意义。
其中1例患者自动勾画与手动勾画结果如图3所示,眼球、脑干、脊髓和下颌骨的自动勾画与手动勾画重合度较高,勾画精度高,晶体、视神经和腮腺的重合度一般。
图3 自动勾画和手动勾画的轮廓示意图
LinkingMed组除了左右视神经外,其余危及器官的DSC均值都≥0.7。SPICE组除了左右晶体和左右视神经外,其余危及器官的DSC均值也都>0.7。LinkingMed组的左右眼球、左右晶体、左右视神经、左右腮腺、脊髓和下颌骨的DSC均值都大于SPICE组。除了右视神经和左右腮腺,2组其他危及器官的DSC值差异均有统计学意义(P<0.05)。详见表1。
表1 31例鼻咽癌患者2组自动勾画危及器官的DSC结果(±s)
表1 31例鼻咽癌患者2组自动勾画危及器官的DSC结果(±s)
?
LinkingMed组的左右眼球、左右晶体、左右视神经、脊髓和下颌骨的HD均值小于SPICE组,脑干和左右腮腺的HD均值大于SPICE组。除了左晶体、右腮腺和下颌骨外,2组其他危及器官的HD值差异均有统计学意义(P<0.05)。详见表2。
表2 31例鼻咽癌患者2组自动勾画危及器官的HD结果(±s)单位:mm
表2 31例鼻咽癌患者2组自动勾画危及器官的HD结果(±s)单位:mm
组别 左眼球 右眼球 左晶体 右晶体 左视神经 右视神经 脑干 脊髓 左腮腺 右腮腺 下颌骨LinkingMed组 2.41±0.63 2.45±0.39 2.29±0.7 2.14±0.79 5.21±2.56 6.48±4.23 6.90±2.04 4.08±1.31 12.21±3.83 12.92±10.15 4.53±1.00 SPICE组 3.47±0.88 3.32±0.77 2.38±0.49 2.88±1.23 9.14±5.04 10.16±5.03 5.69±1.45 7.59±6.52 9.98±3.70 12.46±9.73 4.91±1.19 t -10.88 -5.93 -0.58 -3.02 -3.61 -3.07 3.14 -3.03 2.24 0.50 -1.49 P 0.000 0.000 0.569 0.005 0.001 0.005 0.004 0.005 0.032 0.623 0.146
LinkingMed组中除了脑干和左腮腺外,其余危及器官的IncI均值都大于SPICE组。LinkingMed组所有危及器官的IncI均值都>0.7,左右眼球、左晶体、左右视神经、脊髓、下颌骨的IncI均值都>0.8;SPICE组中除了左右晶体和左右视神经外,其余危及器官的IncI均值都>0.7。除了左右眼球、脑干和右腮腺外,2组其他危及器官的IncI值差异均有统计学意义(P<0.05)。详见表3。
表3 31例鼻咽癌患者2组自动勾画危及器官的Inc I结果(±s)
表3 31例鼻咽癌患者2组自动勾画危及器官的Inc I结果(±s)
组别 左眼球 右眼球 左晶体 右晶体 左视神经 右视神经 脑干 脊髓 左腮腺 右腮腺 下颌骨LinkingMed组 0.96±0.03 0.94±0.04 0.87±0.15 0.76±0.20 0.87±0.13 0.84±0.18 0.71±0.09 0.92±0.04 0.72±0.09 0.76±0.07 0.94±0.04 SPICE组 0.95±0.03 0.93±0.06 0.66±0.21 0.57±0.25 0.43±0.16 0.40±0.12 0.73±0.08 0.90±0.04 0.78±0.10 0.73±0.13 0.81±0.06 t-1.21 1.81 5.71 4.46 13.87 12.51 -1.32 2.69 -5.16 1.33 10.27 P 0.235 0.080 0.000 0.000 0.000 0.000 0.198 0.012 0.000 0.195 0.000
LinkingMed组中左右眼球、左右晶体、左视神经、脊髓、左腮腺和下颌骨的SI均值都大于SPICE组。LinkingMed组除了左晶体和左右视神经外,其余危及器官的SI均值也都>0.7;SPICE组除了左右晶体和左右视神经外,其余的危及器官的SI均值都>0.7。除了左视神经、右腮腺和下颌骨外,2组其他危及器官的SI差异均有统计学意义(P<0.05)。详见表4。
表4 31例鼻咽癌患者2组自动勾画危及器官的SI结果(±s)
表4 31例鼻咽癌患者2组自动勾画危及器官的SI结果(±s)
组别 左眼球 右眼球 左晶体 右晶体 左视神经 右视神经 脑干 脊髓 左腮腺 右腮腺 下颌骨LinkingMed组 0.88±0.04 0.88±0.05 0.64±0.15 0.71±0.20 0.56±0.15 0.54±0.18 0.76±0.06 0.91±0.08 0.85±0.07 0.74±0.12 0.94±0.06 SPICE组 0.73±0.05 0.74±0.06 0.52±0.15 0.48±0.15 0.52±0.18 0.68±0.09 0.85±0.04 0.79±0.07 0.80±0.10 0.78±0.12 0.92±0.04 t 13.79 11.20 3.77 6.32 -1.38 -7.32 -8.00 10.66 3.54 -1.94 1.39 P 0.000 0.000 0.001 0.000 0.177 0.000 0.000 0.000 0.001 0.062 0.175
目前深度学习算法被广泛地应用于自动勾画软件,与之前基于图谱库算法的勾画软件有一定的区别。国内外都有对这2种不同算法的勾画结果进行比较的研究[12-13]。有研究表明[14],DSC>0.7,则2个结构之间的相似度较好。本研究中2种勾画软件所勾画的眼球和下颌骨的DSC均值都>0.8,与手动勾画基本重合,这是因为这3个结构的密度分辨力高、解剖结构和位置信息较固定、个体差异性小,因此LinkingMed和SPICE对此都有较好的勾画效果,该结论与文献[6,10,15]的结论一致。除了脑干外,LinkingMed组的DSC均值都大于SPICE组。脑干的位置相对固定、形态随体位变化小但密度分辨力略低,因此基于形变配准的SPICE对脑干的勾画效果略好,与Van Dijk等[13]的研究相似,该研究中ABAS组的脑干DSC值略高于DL组(深度学习组)。本研究中LinkingMed组的脊髓DSC值大于SPICE组,但HD值小于SPICE组,这是由SPICE勾画头颈部脊髓时,部分病例胸椎T5、T6附近的脊髓被勾画到锥孔外导致的结果。不同患者间定位姿势不同会导致该位置变化较大,使得SPICE在形变配准时出现误差。2种软件对左右腮腺的勾画结果差不多,DSC均值都>0.7,右腮腺的各项指标和左腮腺的DSC值都没有统计学差异(P>0.05),SPICE组左腮腺的HD值和IncI值略优于LinkingMed组,SI值则略差,这些结果与国外学者[13,16]的研究一致。
LinkingMed组中左右晶体的DSC均值≥0.7,高于国内部分研究[10,17-18]所得出的晶体DSC值,因为这些研究都是基于图谱库算法的,与本研究中的SPICE组的结果一致。这类算法主要通过匹配图谱库的模板进行刚性或形变配准得到自动轮廓[12],因此患者的体位及解剖结构的形态位置信息都会影响配准的准确性,而特殊不常见体位和体积小及薄的结构,配准勾画的准确性就较差[13]。晶体的体积较小,只有2层CT图像显示,笔者在研究时发现,SPICE形变配准勾画的晶体结构常有一些多余的轮廓,使得晶体的勾画差强人意,从IncI和SI 2个指标也能体现出这个结果,SPICE组左右晶体的IncI均值分别为0.66和0.57,SI均值为0.52和0.48,表明自动勾画和手动勾画重合的部分约占自动勾画和手动勾画体积的一半。而通过对像素灰度值进行运算处理的CNN算法则对分割目标的边界适应性较高,不会产生因形变配准造成的轮廓误差[16]。晶体的密度分辨力较高,因此LinkingMed对其有较好的分割,该结论与张富利等[12]的研究结果一致。LinkingMed和SPICE勾画视神经的结果都不满意,DSC均值都<0.6。视神经的体积小、走向变化大,使得SPICE勾画视神经和晶体的结果相似,与Isambert等[19]的结论一致。本研究中,LinkingMed对视神经进行自动勾画时,缺失了连接眼球部分的小段视神经和准备进入蝶鞍两侧的小段视神经,如图3(a)所示,因此导致DSC偏低,这可能与该模型不够优化有关,模型中训练集的样本数量或各类函数权重等参数都将影响该模型的准确性从而影响勾画效果[4-5]。LinkingMed组左右视神经的IncI均值分别为0.87和0.84,而SI值分别为0.56和0.54,表明LinkingMed勾画的视神经轮廓比手动勾画的小。LinkingMed组勾画视神经的DSC均值略优于SPICE组,但HD值比SPICE组的小,标准差也小,表明LinkingMed勾画视神经与手动勾画的边缘偏差较小,略优于SPICE。
综上所述,头颈部危及器官的自动勾画中,LinkingMed勾画的效果略优于SPICE。对于体积较大、密度分辨力高、形态位置分布稳定的结构,2种软件的勾画效果都较好,对于体积小、形态位置变化大的结构如晶体、视神经,LinkingMed略优于SPICE,考虑到临床剂量评估的准确性,应当在自动勾画的基础上适当进行手工修改。在当代高精度调强放疗的背景下,本研究对不同的自动勾画软件所勾画危及器官对调强放疗计划的影响及临床剂量的影响等方面未进行更深入的比较和研究,因此后续将完善这方面的研究。另外,本研究中采用的SPICE是2014年Pinnacle39.10版本中的,而版本的更迭可能会对算法和勾画效果产生一定的影响,LinkingMed的算法模型也在不断的优化改进中,因此本研究的分析结果仅限于当前使用的软件和版本。