李金澎,王可欣,刘想,陈梦豪,张耀峰,张晓东,王霄英
盆腔恶性肿瘤,如结直肠癌等,是世界范围内常见且高发的疾病,妇科盆腔恶性肿瘤以卵巢肿瘤和子宫肿瘤多见,男性患者则以膀胱癌和前列腺癌多见。近年来我国盆腔肿瘤的临床发病率整体呈上升趋势[1]。淋巴结转移是盆腔肿瘤播散的重要方式,不同肿瘤有不同的转移率,如在较高T分期(Ⅲ~Ⅳ期)的卵巢肿瘤中转移率为35%~78%,前列腺癌患者的转移率为9%[2]。而是否存在淋巴结转移及转移淋巴结的大小、数量和内部结构等都对盆腔恶性肿瘤患者的预后具有重要意义[3-4]。对于盆腔恶性肿瘤患者,明确其盆腔淋巴结转移的具体情况(如转移淋巴结的多少及每个淋巴结的大小等)是一项重要工作。CT检查是评估淋巴结位置和分区的主要方法,对淋巴结的检出有较高的敏感度[5-7]。在CT图像上评估淋巴结的主要任务包括测量其大小、检出肿大淋巴结并定位,这些信息不仅可用于疾病的诊断和分期,也可应用于手术或放疗前的淋巴结定位。盆腔淋巴结分组较多,逐一检出淋巴结并测量其大小耗时较多,且读片者之间的一致性欠佳,因此有必要研发一种淋巴结自动分割和分区定位系统。
近年来,随着人工智能(artificial intelligence,AI)的兴起,基于卷积神经网络(convolution neural network,CNN)的深度学习模型在医学图像处理方面的应用引起了广泛关注,并在一些CT、MRI深度学习任务中取得了里程碑式的进展[8-10]。在盆腔CT图像上基于深度学习的盆腔淋巴结自动分割模型能够及时发现盆腔淋巴结转移情况,对疾病的诊断、分期、放疗等治疗方案的制订和疗效的评估以及患者预后具有重要意义。本研究旨在探讨使用深度学习方法在盆腔CT图像上对盆腔淋巴结进行自动分割和分区定位的可行性。
本研究获得了本院伦理审查委员会的批准[2019(169)],按照本单位AI模型训练规范执行研究方案。
图1 淋巴结分区分割示意图。 图2研究流程图。
根据本单位AI训练管理方法定义研发CT图像上盆腔淋巴结自动定位模型的用例。包括模型的ID、临床问题、场景描述、模型在实际工作中的调用流程、模型输入和输出数据结构等。本研究中设定AI模型的返回结果为淋巴结分区,共分为13个区域,包括主动脉旁、双侧髂总动静脉、双侧髂外动静脉、双侧髂内动静脉、双侧闭孔、双侧腹股沟、骶前和直肠旁(图1)[11-13]。
回顾性搜集2018年8月-2021年4月前列腺癌患者的CT检查资料,共获得131个序列的门脉期薄层增强扫描图像(数据集1)。入组标准:①临床疑诊前列腺癌有放射治疗指征者;②盆腔及股骨头既往无手术治疗史,无金属置入物;③盆腔区域内无明显发育变异。排除标准:图像质量不佳,有明显的运动伪影或信噪比低。
此外,回顾性搜集2021年1月-2021年6月在本院就诊的卵巢癌、宫颈癌和直肠癌患者的腹盆部CT检查资料,获得47个序列的门脉期薄层增强扫描图像(数据集2)。入组标准:①盆腔及股骨头既往无手术治疗史,无金属置入物;②盆腔区域内无明显的发育变异。排除标准:①患者增强扫描序列中不含薄层门静脉期;②图像质量不佳,有明显的运动伪影或信噪比低。
数据集1用于模型训练,数据集2用于外部验证(图2)。数据集1与数据集2之间无重复数据。
腹盆部CT图像来源于本院4台CT检查设备(GE LightSpeed VCT、GE Discovery CT750 HD、Siemens Somatom Definition Flash和Philips iCT)。多期动态增强扫描的序列包括平扫、动脉期和门脉期等,扫描范围为腹部+盆腔区域,扫描层厚1.0~5.0 mm,重建算法为标准算法或软组织算法。
两位影像科医师使用ITKSNAP 3.6.0软件在数据集1中标注盆腔淋巴结的分区,分区的定义同AI模型设定。
模型训练的硬件为GPU NVIDIA Tesla P100 16G,软件包括Python3.6、Pytorch 0.4.1、Opencv、Numpy和SimpleITK等。
将数据集1中131个序列的CT图像数据随机分为训练集(train set,n=99)、调优集(validation set,n=17)和测试集(test set,n=15),来完成盆腔淋巴结分区模型的训练和验证。设置所有图像的窗宽为300 HU、窗位为30 HU,通过滑动窗口阈值分割方法去除背景区域,图像矩阵128×192×256。图像扩增方法包括旋转、平移、随机噪声和仿射变换等。使用U-net 3D网络,主要参数:滤波器(filter)数=16,训练次数(num epoch)=300,学习率(learning rate)=0.0001,每次读取的图像数量(batch size)=10。使用Adam作为训练优化器。
对模型在数据集1的预测结果的评价使用定量评价指标,包括交并比(intersection over union,IOU)、体积相似度(volume similarity,VS)和关键点正确估计比例(percentage of correct keypoints,PCK)。IOU评价参考区域(segmentation area of the ground truth,Sg)和预测区域(segmentation area predicted by the model,Sp)的重合度;VS评价Sg和Sp的体积相似度;PCK评价Sg质心(centroid)和Sp质心的距离,判断二者距离是否<10 mm,即得到PCK-10 mm的结果。
对模型在外部验证数据(数据集2)中对盆腔淋巴结分区定位的预测结果的评价使用定性评价指标,分析由两位影像科医师标注的淋巴结区域(label)和模型预测的淋巴结区域(plabel)的相互关系,包括模型预测的淋巴结区域的覆盖程度分级(0~2分)、超出程度分级(0~1分)及超出范围分级(0~2分),3项的总分为0~5分。覆盖程度分级的评分标准:plabel覆盖了≥90%的label面积为2分、80%~90%为1分,<80%为0分。超出程度分级的评分标准:plabel超出label的面积<10%为1分、≥10%为0分。超出范围分级的评分标准:同一label区域仅有1个plabel,计为2分;有2个及以上plabel且均位于label附近,计为1分;有2个及以上plabel,且其中有远离label(在CT图像上侧别与label相反或不在label所在层面),计为0分(评分示例见图3~5)。对于3项定性评价指标的总和,3分以上代表正确性良好,可满足淋巴结自动定位分区的需求,3分及以下则代表正确性欠佳,不满足淋巴结自动定位分区的需求。
表1 测试集各组淋巴结定位预测的定量评价指标值
使用IBM SPSS Statistics 26.0和R3.6.1软件进行统计分析。以Kolmogorov-Smirnov检验评估数据分布的正态性,符合正态分布的计量资料以均值±标准差的形式进行描述,不符合正态分布的连续变量以中位数(四分位间距)的形式进行描述。由于各变量的数据均不符合正态分布,故单变量分析使用Kruskal-Wallis秩和检验。以P<0.05认为差异有统计学意义。
在数据集1的测试集中,盆腔淋巴结区域自动定位模型对各组淋巴结预测效能的定量评价指标见表1。测试集中各淋巴结分区的交并比(IOU)、体积相似度(VS)组间差异有统计学意义(P<0.001),意味着模型对不同区域淋巴结的定位效能不同。而关键点正确估计比例(PCK)的组间差异没有统计学意义(P>0.05)。
模型对盆腔不同分区淋巴结预测结果的定性评价结果见表2。三项指标得分之和的中位数为5分的淋巴结分区包括双侧髂总动静脉、双侧腹股沟、双侧髂内动静脉、双侧闭孔、主动脉、骶前和直肠旁,4分者为左侧髂外动静脉,3分者为右侧髂外动静脉。
表2 在外部验证集中分割定位模型对各淋巴结分区的预测结果的定性评分结果/个
各分区内不同评分结果(0~5分)在验证集中的构成比的柱状图见图6。以总评分≥4分为达到临床满意的标准,以淋巴结分区为单位进行分析,84.59%(516/610)的淋巴结分区的自动定位结果达到满意,其中以双侧腹股沟区域为最高,双侧满意率均达100%。在总共13个淋巴结分区中,11个分区满意率超过80%,其中4个分区在90%以上,以双侧髂外淋巴结分区的定位满意率稍差(左侧:60%,右侧51%)。采用Kruskal-Wallis检验比较模型对不同淋巴结分区定位结果的定性评分(总分)的组间差异,结果显示不同分区间定性评分的差异具有统计学意义(P<0.05);进一步进行两两比较,结果显示左、右侧髂外动静脉淋巴结分区中除右侧髂外动静脉旁淋巴结分区与左侧髂外动静脉旁淋巴结分区的定性评价得分差异不具有统计学意义(P>0.05)外,余左、右侧髂外动静脉淋巴结分区与其它淋巴结分区的定性评分差异均具有统计学意义(P<0.05)、而直肠旁淋巴结分区除与左侧髂总动静脉、左侧髂内动静脉、主动脉旁淋巴结分区的定性评价得分差异具有统计学意义(P<0.05)外,与其它淋巴结分区的定性评价得分差异均无统计学意义(P>0.05),而其它分区之间的定性评分的两两比较结果显示:左髂总动静脉-右闭孔区、左髂总动静脉-左闭孔区、左髂总动静脉-右腹股沟、左髂总动静脉-左腹股沟、左髂内动静脉-右闭孔区、左髂内动静脉-左闭孔区、左髂内动静脉-右腹股沟、左髂内动静脉-左腹股沟、主动脉-左闭孔区、主动脉-右腹股沟、主动脉-左腹股沟、右髂内动静脉-左腹股沟之间的差异有统计学意义(P<0.05),余淋巴结分区之间定性评价得分的差异无统计学意义(P>0.05)。结合定性评价的得分结果,表明模型对双侧髂外动静脉和直肠旁淋巴结分区的分割定位表现要逊色于其它分区,而对双侧闭孔区和腹股沟分区的分割定位表现要优于其它分区。
图3 右侧腹股沟淋巴结定性评价示例1。a)黄色区域为由两位影像科医师标注的淋巴结区域(label);b)蓝色区域为plabel;c)红色区域为plabel覆盖label的区域,蓝色区域为plabel超出label的区域,黄色区域为plabel未覆盖label的区域。本例的覆盖程度分级:plabel覆盖label的面积≥90%,为2分;超出程度分级:plabel超出label的面积<10%,为1分;超出范围分级:同一label区域仅有1个plabel,评分为2分。图4右侧腹股沟淋巴结定性评价示例2。a)黄色区域为label;b)蓝色区域为plabel;c)红色区域为plabel覆盖label的区域,蓝色区域为plabel超出label的区域,黄色区域为plabel未覆盖label的区域。本例的覆盖程度分级:plabel覆盖label 面积的80%~90%,为1分;超出程度分级:plabel超出label的面积<10%,为1分;超出范围分级:同一label区域有两个plabel且均位于label附近,为1分。 图5右侧腹股沟淋巴结区域定性评价示例3。a)黄色区域为label;b)蓝色区域为plabel;c)红色区域为plabel覆盖label的区域,蓝色区域为plabel超出label的区域,黄色区域为plabel未覆盖label的区域。本例覆盖程度分级:plabel覆盖label的面积<80%,为0分;超出程度分级:plabel超出label的面积≥10%,为0分:超出范围分级:同一label区域仅有1个plabel,为2分。
图6 各淋巴结分区不同评分结果(0~5分)在验证集中的构成比柱状图,13个淋巴结分区中有11个分区的分割定位表现达到临床满意(评分≥4分)者的比例在80%以上。
对于盆腔恶性肿瘤患者来说,盆腔淋巴结是经常发生转移的区域,且淋巴结转移的具体情况(例如转移淋巴结的多少以及大小)与患者预后有密切关系。盆腔淋巴结区域包含腹主动脉分叉以下的部分。在盆腔淋巴结区域的分割中,对相关血管的识别十分重要,所以在序列选择中,CT门静脉期成为优选[11]。扫描层厚方面,本研究纳入的图像来源于本单位日常临床工作中完成的盆腔CT扫描,层厚为1.0~5.0 mm。模型训练时输入多种层厚的图像可提高其未来应用的泛化性。本研究结果也证明,这种方法训练的模型,其定位预测效能是可接受的。在数据集方面,本研究中将前列腺癌患者的腹盆腔CT图像(数据集1)用于训练模型,而用于模型验证的数据集2中纳入的是其它盆腔恶性肿瘤(包括卵巢癌、宫颈癌、直肠癌)患者的CT图像,数据集1与数据集2的患者疾病类型是不同的,可以提高数据集2作为外部验证数据的检验难度,能更好地验证模型的真实效能,而从本组研究结果来看,模型的效能也是基本令人满意的。
本研究结果显示:3D U-Net模型用于盆腔淋巴结区域的分割和定位,可以出色地完成恶性肿瘤患者盆腔淋巴结区域的自动定位工作。在外部验证数据集中自动分区模型预测结果的主观评价总分,84.59%的淋巴结分区评分在4分及以上,这说明在外部验证数据集中,本模型能够较准确地勾画出盆腔淋巴结区域。主观评分为3~0分的区域占比分别为7.54%、4.43%、2.29%和1.15%。对主观评分的组间差异进行比较,结果显示模型对双侧髂外动静脉区域的定位评分与对侧髂外动静脉区域之外的各淋巴结区域之间的差异均具有统计学意义(P<0.05),对直肠旁淋巴结区域的定位评分也低于较多区域且差异具有统计学意义(P<0.05),即本模型对双侧髂外动静脉和直肠旁淋巴结区域的定位效能稍差于其它区域。本组中有7例次出现主观评分为0的情况,出现在左髂外动静脉、左髂总动静脉、左髂内动静脉和右髂总动静脉区域,其中以左髂外动静脉区域最多(共4例次)。分析模型预测错误及对双侧髂外动静脉和直肠旁淋巴结区域定位效能稍差的原因,主要有两个方面:一是盆腔血管的变异;二是盆腔恶性肿瘤体积较大、对周围结构浸润较严重。上述两种情况均会导致盆腔图像特征与大多数病例不同,这种数据在目前的训练集中较少见,从而导致模型的分割和定位错误。未来需进一步增加样本量,使得训练样本中含有各种病理情况下的盆腔图像特征,提升模型对各种情况的识别能力,从而提高预测的准确性。
本研究具有一定创新性和临床意义:既往深度学习和影像组学研究多基于MRI图像对盆腔恶性肿瘤术前淋巴结转移进行预测[15]。Liu等[16]在2021年基于DWI序列以深度学习方法初步尝试对盆腔淋巴结进行分割,他们选用DWI序列的原因是其在观察淋巴结方面有一定优势,因为此序列的图像上淋巴结与周围组织的信号对比较为明显。而本研究则是基于CT图像以深度学习方法自动定位盆腔淋巴结的分区,如后续能应用于临床工作,对于盆腔恶性肿瘤的CT诊断是有帮助的,不仅可以用于诊断,而且有望用于放疗前定位。
在临床工作中,盆腔恶性肿瘤的淋巴结转移情况往往需要有经验的放射科医师在CT图像上通过寻找淋巴结、测量径线、观察形状等来进行评估,并且需要人工方法来确定淋巴结的分区,并综合影像特征来评估肿瘤的N分期。本研究尝试在CT图像上自动定位盆腔淋巴结的分区,未来可与自动化的淋巴结分割、检出等结合形成整个盆腔淋巴结评估过程的自动化,在定位后基于深度学习方法自动分割和检出淋巴结及自动测量径线等。整个过程的自动化可以大幅节约成本,具有重要的临床意义。而本研究进行的盆腔淋巴结区域的定位工作则是整个过程自动化中最为基础和最为关键的环节之一。
本研究存在一定的局限性:虽然本研究中基于小样本的探索性研究显示出训练深度学习模型在CT图像上定位盆腔淋巴结区域是可行的,但未来推广到临床实际工作中还有很多工作要做。第一,我们的结果表明,在某些盆腔解剖结构异常的患者中(如盆腔巨大占位、大量积液和术后改变等),模型对在两侧髂外动静脉和直肠旁区域定性评分较低:两侧髂外动静脉淋巴结区域的三项定性评分均较低,笔者分析原因可能与髂外动静脉走行范围较广且易受周围占位、扩张的输尿管和盆腔积液等因素的影响有关;直肠旁淋巴结区域则主要在模型定位的淋巴结区域超出程度方面表现欠佳,主要原因是模型预测结果可能错误定位到肠管。未来需要扩大模型训练的数据量,尤其是盆腔结构不清楚的图像的数量,进一步迭代模型。在临床实际应用过程中,由专家审核模型结果,即专家与AI相结合的模式也是解决办法。第二,本研究仅定位了盆腔淋巴结的分布区域,下一步应进行肿大淋巴结的分割,并与本研究得到的模型结合,才能实现对淋巴结的定位和大小测量,并自动生成到结构化报告中以完成影像诊断任务[14]。第三,临床上对恶性肿瘤患者经常采用CT和MRI检查来评估淋巴结转移及骨转移等情况,本研究主要针对CT相关序列进行盆腔淋巴结的检出,未来应尝试同时实现淋巴结转移和骨转移的检出、定位和定量,以完成转移性病变的整体评估[17]。最后,未来在对盆腔淋巴结区域的智能检出的推广和应用过程中,应进行多中心研究,在真实临床工作场景中测试模型的效能[10,18],了解使用AI技术是否有益于提高影像诊断的准确性和效率,才能回答AI是否有实质价值的问题。
总之,本研究的初步结果显示基于CT图像利用深度学习方法自动定位盆腔淋巴结区域是可行的,能够较准确地定位盆腔淋巴结的分区,为盆腔转移淋巴结的检出奠定基础。将来应进一步研提高模型的泛化性,最终实现对盆腔恶性肿瘤患者淋巴结转移情况的智能诊断。