【作 者】郭雯 ,鞠忠建,杨微,谷珊珊,周瑾,丛小虎,刘杰,戴相昆
1 武汉大学 物理科学与技术学院,武汉市,430072
2 中国人民解放军总医院第一医学中心 放疗科,北京市,100853
3 北京东方瑞云科技有限公司,北京市,100020
宫颈癌是中国女性第二大常见癌症,近年来发病率与死亡率呈上升趋势[1]。放疗是宫颈癌治疗中重要治疗技术,它既能使患者得到根治,亦能在术后对病灶瘤床进行控制[2-4]。
精确勾画临床靶区体积(clinical target volume,CTV)在放疗过程中起着关键作用,直接影响患者预后。目前,勾画CTV由放疗科医师基于CT图像手动完成。
近年来,使用深度学习进行病灶自动识别勾画备受关注,并在鼻咽癌、直肠癌等部位获得很大进展[5-8]。宫颈癌CTV区域除包括影像学可见的病变之外,还包含亚临床病变区域和可能侵及区域,受侵范围不一和器官充盈程度都会影响勾画。相关研究进展缓慢,未有结果报道。
本研究尝试使用在女性盆腔分割领域表现优异的密集全连接卷积神经网络(dense V-Net),基于CT图像自动勾画宫颈癌患者CTV。通过8项参数评估自动勾画效果,试图为临床医师提供预勾画,进而用于临床。
对中国人民解放军总医院第一医学中心放疗科2016年5月到2019年6月收治的宫颈癌术后患者进行筛选。选择分期接近、CTV勾画范围大致相同的病例。共选取IB期和IIA期(FIGO 2018分期)患者共145例。根据RTOG CTV勾画标准,CTV范围包括子宫体、全阴道、宫颈病变和双侧宫旁,以及髂总、髂内、髂外闭孔和骶前淋巴引流区。
所有患者的C T图像均由SIMENS SOMATOM Definition AS大孔径CT机扫描获取,扫描范围为肝顶至会阴下端,层数为85~120,层厚5 mm。扫描参数为管电压120 kV、管电流400 mAs,重建体素值为512×512×k。扫描时,患者仰卧位,热体膜固定。
CTV手动勾画由2名主治医师完成,再经1名高级主任医师修改和审核通过。随机选取其中120例作为训练集,剩余的25例患者CT图像作为测试集。
Dense V-Net融合了Dense Net[9-11]和V-Net[12-13]两个深度学习模型[14],网络结构如图1所示。它最大的优点是使用了密集连接、水平连接和融合卷积。
其一,密集连接卷积第xl层的输入包含了前面x0,x1,…,xl-1层的所有输出,网络每层都可以直接访问前面各层的特征映射,这有助于网络结构加深,提高各层图像特征的利用率;dropout结构明确了每次密集连接所保留的图像信息,减少冗余特征映射学习,使用更少参数即可达到理想的训练结果;批量归一化(batch normalization,BN)也减少了少样本训练集的过度拟合。
图1 Dense V-Net结构Fig.1 Dense V-Net structure diagram
其二,水平连接将上、下采样的卷积操作进行串联,增强输出图像细节、加深图像轮廓,同时缩短网络收敛时间;在卷积操作中使用残差连接,打破网络对称性,增强梯度计算的敏感性;最终预测时,执行1×1×1的卷积运算,使用以戴斯相似性系数(dice similarity coefficient, DSC)为目标函数的soft-max层,输出前景和背景区域的概率分割图像。
其三,融合卷积时使用3×3×3的卷积核,使用修正线性单元(rectified linear unit,ReLu)作为激活函数,使图像特征被充分利用,加强分割效果,得到与原始输入图像大小相同的输出结果[15]。
该融合网络包含了两种单一网络的优点。Dense Net的结构保证了图像各层拥有最大信息流动,使得参数可被其后所有层调用,提高图像特征利用率,在减少冗余信息的同时加速目标函数收敛;对三种分辨率图像执行卷积和串联的操作有助于多尺度提取特征,为图像分割结果加入更多细节和全局信息。V-Net的结构则保证了在训练数据集较少的情况下,输出预测亦可保留更多图像细节,保持图像预测准确性。当网络层次加深时,深层分割结果仍被不断扩大的感受野约束,减少过拟合。
首先,对C T图像进行预处理。舍弃边缘冗余,截取每层横断面位于中心部分的320×320,并通过双线性插值进行重采样,将训练样本分辨率降低到256×256×k。以提高单个训练数据中有效数据比例,从而提高训练精度、缩训练时间短。
接着,执行数据增强。对训练样本进行抽样和旋转:对每个病例的CT图像随机抽取连续的64层,得到10~20个训练样本;沿x,y,z轴分别对样本进行±10o以内的随机角度旋转,进一步扩展数据容量。从而在增加样本数量的同时使训练结果更具广泛性和精确性。
最后,执行网络训练与勾画验证,流程如图2所示。分别训练和优化V-Net和Dense Net,当二者的损失函数最优时,对融合层进行微调,使Dense V-Net在最短时间内达到最好的融合效果。
图2 网络训练及勾画验证流程Fig.2 Network training and sketching verification flow chart
数据的训练、评估、测试均在搭载双NVIDIA (GTX 1080)图形显卡的服务器上运行,所用算法基于TensorFlow系统构架,使用Python语言编写和调整。使用DSC值作为损失函数,初始学习效率设为0.0005,学习速率衰减因子为0.5,衰减步长为1000,迭代次数设为10000。
对自动勾画的整体评估使用D S C[16]进行。为描述更多细节信息,使用另外7项最具代表性的参数评价自动勾画精度,分别是衡量两种勾画轮廓偏移程度的3项参数:质心偏差(deviation of centroid,DC)、豪斯多夫距离(Hausdorff distance,HD)[17]和最小平均距离(minimum average distance,MAD),以及衡量两种勾画体积差异程度的4项参数,即体积差异性系数(deviation of volume,△V)、敏感性指数 (sensitivity index,SI)、包容性指数(inclusiveness index,Incl)[18]和杰卡德距离(Jaccard distance,JD)[19]。
将图像与训练结果传入MIM.Maestro 6.6.5软件获取勾画信息,依托该平台对两勾画的评估参数进行计算。使用SPSS 20.0软件进行Dense V-Net和两个单一网络的8项评估参数的单因素方差分析。
使用Dense V-Net自动勾画CTV的8项参数统计结果如表1所示,散点箱型图如图3所示。
表1 Dense V-Net自动勾画参数Tab.1 Dense V-Net automatically draws parameters
DSC评价了两勾画重合部分占总勾画的比例,当DSC值大于0.75时,两区域重合度较高[20]。25例结果仅2例略小于该标准,中位值和平均值均大于0.8,最大值达到0.88。说明自动勾画与手动勾画整体相似度较高。
图3 8项参数散点箱型图Fig.3 8 The parameters scatter box diagram
在轮廓整体偏移表现中,自动勾画效果较稳定。DC衡量两勾画轮廓的质心偏差,平均值为4.4 mm,小于5 mm的扫描层厚。HD表示两勾画轮廓最短距离的最大值,统计发现未出现极端点,说明自动勾画不存在极端错误识别;标准差较小,说明勾画效果稳定。MAD表示两勾画轮廓最小距离的平均值,结果均在毫米量级,说明非准确自动勾画区对两勾画轮廓偏差影响不大。
在评估自动勾画轮廓方位准确性的基础上,使用△V、SI、IncI和JD对各个方位的勾画体积进一步评价。△V表示两勾画体积差异占手动勾画的比例,用于评价网络的容积稳定性,其平均值为0.13,说明两勾画体积差别小;最大值为0.35,表明该自动勾画存在部分甚至完全包容手动勾画的现象。SI和IncI表示两勾画重合体积分别占手动和自动勾画体积的比例,SI和IncI平均值分别为0.84和0.77,表明两勾画重合度较高;相比之下SI略大,说明自动勾画体积整体大于手动勾画体积;二者最小值分别为0.71和0.65,表明相应样本存在较大的重合度背离。JD表示两勾画交集占其并集大小的补集,JD值分布集中,标准差为0.05,表明两勾画体积偏移程度小,网络对样本特征识别充分。
将融合网络对标单一网络进行对比,统计结果及单因素方差分析结果如表2所示。由各参数特性可知,融合网络的自动勾画相似度显著高于单一网络;具有代表性的评价参数如DSC、HD、JD等,结果具有显著差异性(P<0.01),其他几个参数部分具有统计学差异。因此,使用融合网络自动勾画具有更小体积偏差、更少范围的错误识别,以及较低的质心偏差、较高的容积稳定性;标准偏差的差别表明融合网络具有更强的勾画稳定性和特征学习能力。
表2 网络勾画8项参数(Xmean±SD)以及单一网络对融合网络的单因素方差分析结果Tab.2 The 8 parameters of network delineation(Xmean±SD)and the single-factor analysis of variance of the single network to the converged network
使用融合网络自动勾画与医生手动勾画的对比结果在图4中展示。可以看出两种勾画的结果具有很高的重合度,进一步说明了Dense V-Net可以在CT图像中实现较好的CTV自动勾画。
图4 患者CT图像及勾画结果Fig.4 Patient CT image and sketching results
从评价参数分析,当DSC整体趋于稳定时,通过分析其他参数进一步判断偏差存在原因,发现本网络在部分结构上分割能力较弱。由图3(c)、(e)、(f)可知,HD、△V和SI存在极端值。HD的极端值表明可能出现极端错误识别或局部较大勾画偏差,经查发现其原因是自动勾画出现缺失:在冠状面,自动勾画的上界均远低于手动勾画;△V的极端值意味着两勾画体积差异较大,查看图像发现该自动勾画范围过大,在多数区域基本全包含手动勾画;SI的极端值可能由自动勾画准确率过低造成,为自动勾画与手动勾画比值过小与勾画不准确性并存所致。
分析具体的分割结果,网络对以下3种结构分割能力较差。如图5所示,骶前淋巴引流区分叉处下缘及梨状肌上端前界部位的自动勾画普遍误差较大,网络往往不能准确识别该分界,在梨状肌及第三骶椎前缘处产生冗余勾画。另外,对膀胱后壁与直肠前壁的处理部分存在误差,这是由于医生手动勾画时,会根据病人憋尿程度不同将CTV前界适当外扩(一般向膀胱后壁延伸1~2 cm不等的距离),而自动勾画只关注到该部位显著的解剖差异。此外,有少数病例由于病程导致阴道受侵,医生在实际勾画时往往将腹股沟区少量淋巴囊肿划入CTV一并勾画,这也是网络难以处理的。
图5 三种勾画差异较大情况的患者CT横断面图像与勾画比较Fig.5 CT cross-sectional images of patients and comparison of delineations in three conditions of huge difference
深度学习分割病变区域是医学图像领域的研究热点,国际上已经有许多使用该方法勾画患者影像学可见病变区域的报道,如ALOM等[7]使用递归残余卷积神经网络(R2U-Net)自动分割肺部CT图像的肿瘤,平均DSC值为98.32%。尽管如此,对CTV的识别与勾画仍是研究难点:首先,CTV除可见的解剖结构之外,还包含亚临床病变区域和可能侵及区域。其次,CTV形状受个体差异、病灶位置与分期影响较大。即使分期相同,肿瘤侵犯范围及淋巴累及范围不同,勾画范围也会有所不同。另外,患者肠道位置变化、膀胱充盈形态也将对CTV的勾画造成影响。
判别和勾画宫颈癌患者的CTV临床意义显著。虽然目前已有部分开拓性研究[2-5],但是其主要应用于患者自体图像勾画、图像引导放疗或再程计划剂量叠加评价,无法勾画新患者的CTV。受限于临床样本量稀少及实现困难,基于CT图像自动勾画新宫颈癌患者CTV的研究进展缓慢,未见有相关结果报道。
本研究采用深度学习方法对宫颈癌盆腔放疗患者CT图像的CTV进行自动勾画。为提高准确度,使用对高形变软组织器官具有较好自动分割效果[14]的Dense V-Net融合算法。从研究结果来看,在训练样本有限的情况下,Dense V-Net对CTV的特征能充分学习,自动勾画宫颈癌CTV的效果较为理想,在进行宫颈癌放疗计划设计时,该网络可实现CTV自动预勾画,将大大提高临床工作效率。
然而,该网络仍然存在较多局限性。其一,医学样本个体差异极大,有少数病例会出现特异性较大的CTV勾画,而网络在进行特征学习时倾向于忽略这些异常信息,限制了Dense V-Net对各种复杂情况的兼容性。其二,本研究仅关注术后IB期和IIA期的宫颈癌勾画,对更为复杂的临床实际病例的自动勾画效果仍待明确。其三,由于对CTV包含的肿瘤潜在侵及区判断,尤其是需要照射的淋巴结数量,依赖于医生的临床经验,因而不同医生对同一患者CTV的勾画存在不同理解,限制了网络的普适性。
Dense V-Net自动分割宫颈癌CTV各评价参数稳定、趋近最优,DSC最高可达0.88。勾画结果经临床盲评,超过初级医生勾画水平,经过较少修改,方可达到临床要求。后续研究中,有望通过增加样本数量和病例多样性,采取进一步增加网络深度、微调网络参数等措施,进一步提高Dense V-Net的兼容性和普适性,实现更好的CTV勾画效果。