王可,杨俊哲,刘义,马帅,刘婧,张耀峰,王祥鹏,张晓东,王霄英*
1.北京大学第一医院医学影像科,北京 100034;2.北京赛迈特锐医学科技有限公司,北京 100011;*通信作者 王霄英wangxiaoying@bjmu.edu.cn
胆总管结石的发病率为6%~15%,临床常表现为腹痛和黄疸,可致急性胆管炎或急性胰腺炎,有危及生命的风险[1-2]。经内镜逆行胆胰管成像(endoscopic retrograde cholangiopancreatography,ERCP)和术中胆道造影是诊断胆总管结石的“金标准”,内镜超声和磁共振胆胰管成像(magnetic resonance cholangiopancreatography,MRCP)是微创或无创检查方法,用于评估中等风险胆总管结石[3]。MRCP主要用于检出胆道扩张和胆管内结石,并提供结石位置及大小信息,诊断者通常为影像诊断医师,其他临床医师(如普外科医师)通常在行ERCP检查前也需要阅片,结合影像报告和图像信息对ERCP的操作进行相应准备。
随着人工智能(artificial intelligence,AI)技术在医学影像领域的临床应用,其对于多种疾病的检出、定性诊断和定量评估均呈现出良好的应用前景。AI可在MRCP图像上识别胆管扩张[4]和原发性硬化性胆管炎的改变[5],对MRCP诊断有一定的可行性,但目前对于胆道结石病变的AI诊断研究较少。本研究通过使用深度学习方法,探索其在MRCP图像上分割肝外胆管和检出结石的可行性。
本研究经本院伦理审查委员会批准[批件号:2019(170)],免除患者知情同意。按照本单位AI模型训练规范执行研究方案。
1.1 用例定义 根据本单位AI训练管理方法定义研发3D MRCP图像上肝外胆管分割及结石检出模型的用例,包括模型的ID、临床问题、场景描述、模型在实际工作中的调用流程、模型输入输出数据结构等。AI模型返回结果定义为:肝外胆管位置、结石位置、体积、径线,返回结果应用于MRCP结构化报告的“病灶列表”模块(图1)。
图1 肝外胆管分割及结石检出模型的用例及结果返回形式
1.2 研究队列建立 回顾性收集2019年7月5日—2020年6月30日于北京大学第一医院行MRCP检查的225例患者共230人次,男109例,女116例,平均年龄(55.5±20.5)岁,随访其临床结局,记录ERCP或临床综合诊断证实的胆总管结石病例。纳入标准:①图像中有完整的3D MRCP序列;②无明显治疗后改变;③无明显发育变异;④可获得临床综合诊断。排除标准:①图像质量不佳,有明显运动伪影或信噪比低;②胆道病变结果不明确。
共267个图像数据纳入肝外胆管分割模型训练,20例患者共29个图像数据纳入胆总管结石分割模型训练。另补充2020年7月1日—2021年2月27日53例胆总管结石患者共69个图像数据纳入胆总管结石分割模型,故胆总管结石模型训练合计73例患者共98个图像数据,其中男28例,女45例,平均年龄(58.1±24.5)岁。
1.3 图像采集参数 全部MRCP图像来源于本院4台MR检查设备(Philips Ingenia 3.0T、Philips Achieva 1.5T、Siemens Aera 1.5T和GE Discovery MR750 3.0T),均使用3D激发T2WI对比的MRCP序列,冠状薄层扫描,胆胰管可清晰显影。扫描参数:TR/TE 4 000~8 000/700~800 ms,视野300 mm×300 mm。与图像空间分辨率有关的主要扫描参数见表1。
表1 图像采集参数[mm(min,max)]
1.4 图像标注 由2名有经验的影像诊断医师进行图像标注,其中1名主治医师进行标注后,由另1名主任医师进行修改和确认,标注软件为ITK-SNAP 3.6.0。胆总管区域的标注:在3D MRCP图像中对全部有胆总管的区域逐层标注,下界到胆总管壶腹,上界到肝门胆管,沿胆总管边缘标注,不包括胆囊管开口。胆总管内结石的标注:根据ERCP、手术或内镜超声等临床综合诊断结果查找胆总管结石,对MRCP与临床参考标准一致者标注结石,临床最终诊断结果为泥沙样结石者不做标注。结石与胆总管内T2WI高信号有明显对比者,沿结石边缘标注;结石与胆总管壁显示分界不清者,根据其上下层面确定胆总管的边缘,结石的边缘与胆总管的边缘重合。多发结石可明显分开时,逐个标注。
1.5 模型训练 模型训练的硬件为GPU NVIDIA Tesla P100 16G,软件包括Python 3.6、PyTorch 0.4.1、OpenCV、NumPy、SimpleITK等。使用Adam作为训练优化器。
肝外胆管分割模型训练(图2):将267个数据随机分为训练集213个、调优集27个和测试集27个。训练肝外胆管的分割模型时按两步法,由粗到细进行分割(two or more stage,coarse-to-fine)。第一步(Coarse)训练一个低分辨率的分割模型。输入图像为MRCP图像和胆总管的标注区域,输出数据为胆总管的预测区域。图像裁切参数为[Z方向(0,1),Y方向(0.05,0.95),X方向(0.05,0.65)],自动窗宽、窗位,图像大小为64×160×96。图像扩增方法包括旋转(10°~-10°)、平移[Y方向(-0.1,0.1),X方向(-0.1,0.1)]、随机噪声等(0.000 1)。第二步(Fine)训练一个高分辨率的分割模型。以第一步获得的胆总管的预测区域为掩膜(mask)对MRCP图像进行裁切,同时输入胆总管的标注区域,输出数据为胆总管的预测区域。
图2 肝外胆管分割模型及结石分割模型训练流程
胆总管结石模型训练:将98个数据随机分为训练集80个、调优集9个和测试集9个训练胆总管结石的分割模型。以胆总管的预测区域为掩膜(mask)对MRCP图像进行裁切,同时输入胆总管结石的标注区域,输出数据为胆总管结石的预测区域。
使用Unet 3D网络主要参数:过滤器数量16,数据每次读取数量12,训练循环次数300,学习率0.000 03。
1.6 模型评价 用测试集数据的Dice系数评价模型的效能。以最小包围盒法获取径线,以体素之和为体积,分别输出标注区域与预测区域的三维径线和体积,并进行差值比较。
由影像科医师对20个既进行胆管分割、又进行结石分割的结果进行主观评价。主观评价:①对肝外胆管分割模型的主观评价(总分10分),包括覆盖率(正确识别区域占比):2分为覆盖几乎全部区域(95%以上),1分为覆盖大部分区域(90%~95%),0分为覆盖部分区域(90%以下);超出率(错误识别区域占比):2分为几乎未超出范围(5%以下),1分为少量超出(5%~10%),0分为超出较多(10%以上);边缘契合度(与真实边缘相差<0.5 mm视为边缘契合):2分为非常好(95%以上边缘契合),1分为一般(90%~95%),0分为较差(90%以下);分段评价,包括壶腹区、胆总管、肝总管、肝门区(各段分别评价,4个区域总分最高为4分):1分为非常好(90%以上区域分割结果满意);0.5分为一般(80%~90%);0分为较差(80%以下)。②肝外胆管分割结果在轴位T2WI图像的匹配情况(总分10分):同上述“肝外胆管分割模型的主观评价”。③对胆管结石分割模型的主观评价(总分10分):覆盖率、超出率、边缘契合度评价同上;是否误诊(存在错误识别的单独连通域):2分为不存在,1分为存在1个;0分为存在1个以上;是否漏诊(存在未识别的单独连通域):2分为不存在,1分为存在1个;0分为存在1个以上。
由于轴位T2WI为2D序列,并非所有结石均能在此序列观察到,因此不对结石分割结果的匹配情况进行评价。
1.7 统计学分析 应用SPSS 20.0及PRISM 8软件,使用±s表示Dice值、胆管及结石分割体积、专家与模型差值绝对值及差异率的平均值。其中专家与模型差异率指专家标注区域与模型预测区域的体积/径线差值的绝对值与专家标注区域体积/径线的比率,单位为%。应用中位数表述主观评分。
2.1 客观评价 肝外胆管分割模型的测试集共27个数据,胆总管结石分割模型的测试集共9个数据,分割模型对测试集数据预测的Dice系数及径线、体积见表2。
表2 3D MRCP图像上分割模型的客观评价结果(±s)
注:径线1、2、3是以最小包围盒法获取的三维径线
项目肝外胆管分割第一步(Coarse)肝外胆管分割第二步(Fine)结石分割Dice值 0.89±0.07 0.94±0.04 0.83±0.06专家标注体积(mm3)892.83±820.22模型预测体积(mm3) 10 079.23±9 316.41 7 796.12±6 695.35 725.81±684.41 11 343.81±12 272.48 7 726.85±6 590.94体积专家-模型差异绝对值(mm3)167.03±148.71体积专家-模型差异率(%) 10.37±12.93 4.89±7.10 19.20±9.90 1 807.22±3 552.39 241.26±275.56 12.47±5.40模型预测三维径线1(mm) 44.97±11.69 44.98±11.61 9.16±3.64专家标注三维径线1(mm)48.44±14.97 46.82±15.30 3.31±2.82径线1专家-模型差异率(%) 8.29±12.97 3.92±9.82 25.54±12.66径线1专家-模型差异绝对值(mm)4.84±9.29 2.81±9.86 17.09±9.95模型预测三维径线2(mm) 81.35±16.69 81.93±15.68 11.11±4.70专家标注三维径线2(mm)85.92±21.94 82.31±15.62 5.97±7.53径线2专家-模型差异率(%) 5.70±9.00 1.50±2.19 34.96±20.30径线2专家-模型差异绝对值(mm)6.08±11.97 1.22±1.64 42.42±26.92模型预测三维径线3(mm) 29.14±10.59 28.04±9.66 16.62±7.71专家标注三维径线3(mm)30.04±10.71 29.42±10.99 25.80±26.94径线3专家-模型差异率(%) 7.66±10.28 2.90±10.41 60.83±35.67径线3专家-模型差异绝对值(mm)2.61±3.92 1.39±5.51
2.2 主观评价 对3D MRCP序列行肝外胆管分割,所有病例主观评分均为满分10分(图3A、B)。对T2WI轴位图像匹配,主观评分中位总分为9.75分(图3C、D)。其中所有病例覆盖率、超出率均为最高分;80%(16/20)的病例边缘契合度评为2分(覆盖几乎全部区域),20%的病例评为1分(覆盖大部分区域)。分段评价中,壶腹区、胆总管、肝总管、肝门区分别有20%、25%、10%、35%的病例评为0.5分(一般),其余均评为1分(非常好)。
影像科医师对结石MRCP图像分割结果的主观评价中位总分为8分,各分数比例结果见图4。其中75%(15/20)的病例结石覆盖率评为最高分,70%(14/20)的结石超出率评为最高分(图3E~H)。结石边缘契合度评分中,6例评为2分(非常好),13例评分1分(一般),1例评为0分(较差)。20例患者中,8例误诊,其中4例位于壶腹部管腔边缘,2例位于胆总管管腔内部信号不均匀处,1例位于胆总管管腔边缘不规则处,1例位于左肝管近肝总管处胆管边缘(图5)。1例漏诊,为肝内、外胆管多发结石,在肝总管近分叉处管腔内存在多发结石,在胆管腔高、低信号混杂且不连续的区域出现漏诊(图6)。
图3 3D MRCP序列肝外胆管分割及T2WI轴位图。红色为专家标注区域,蓝色为模型预测区域;A、B.肝外胆管分割情况;C、D. T2WI轴位图像匹配情况;E、F.单发结石分割情况;G、H.多发结石分割情况
图4 结石分割结果主观评分各分数比例
图5 肝外胆管结石误诊情况。红色为专家标注区域,蓝色为模型预测区域;A、B.胆总管结石模型识别正确,但壶腹部可见一错误识别区域(箭);C、D.胆总管腔内信号不均匀处被模型误认为结石(箭)
图6 肝外胆管结石漏诊情况。A.模型分割肝外胆管区域(蓝色);B.专家标注肝外胆管结石区域(红色);C.模型预测肝外胆管结石区域(蓝色):肝总管分叉处多发结石,该处肝外胆管分割准确,但结石识别出现漏诊
胆总管结石是临床常见疾病,其并发症可能危及生命,MRCP检查需要对胆总管结石准确、即时地做出诊断,以便临床医师了解疾病情况,对患者及时救治[6]。本研究用深度学习方法训练的分割模型可以较好地分割出肝外胆管,且在小样本测试中对结石分割也具有一定的准确性,有望在未来用于临床诊断,提高影像医师的诊断质量及工作效率,降低临床医师阅片门槛,增加影像报告信息,提高临床满意度。
3.1 本研究临床应用场景 本研究应用深度学习的方法对胆管分割的结果较为理想,今后可在此基础上进一步测量胆管解剖结构、胆管径线、胆管角度等[7-8]。对于胆管结石的自动识别及分割,本研究误诊相对较多,主要为胆管边缘不规则或胆管腔内信号不均匀所致;但漏诊情况较少,仅出现1例且为肝内外胆管多发结石的复杂情况。根据笔者的经验与文献回顾,影像科医师诊断结石常出现特异度较高但敏感度相对低的情况[9-10],因此对于传统阅片方法,提高敏感度是更需要优先解决的问题。基于此,应用深度学习结石识别提供了解决此类问题的一种方法,专家+AI读片模式可能是未来的发展趋势。
基于深度学习的自动分割不仅可以显示肝外胆管及胆总管结石的位置,还可以计算目标病变/器官的定量指标,如结石的径线、体积和数量,并自动输入结构化报告中。若影像医师审核后认为分割结果满意,则可直接将其生成到最终报告中。这种基于AI的自动化报告工作模式可以提高影像医师的工作效率,在模型准确度较高的情况下也能提高工作质量。
3.2 国内外研究现状 本研究使用的3D U-Net模型在医学图像分割中广泛应用。U-Net是由Roneberger等提出的网络结构,由2D输入[11]很快拓展为3D输入[12]。较多临床应用采用两步法(coarse-to-fine)[13],在肾脏、前列腺、乳腺、肝脏等器官及其病变的分割中均取得了很好的效果[14-16]。既往研究应用U-Net、M-Net等算法对CT、ERCP图像中的胆管、结石进行分割[17-18],但目前对MRCP胆管、结石的分割研究较少。Gloger等[19]应用Fuzzy c-means聚类算法对3D MRCP序列中的胆囊进行分割,平均Dice值达到0.92,但该研究未对胆管进行分割。Al-Oudat等[4]应用前馈去噪卷积神经网络在2D MRCP序列进行胆管分割,并对胆管是否扩张进行识别[4],但是着重于算法研发,纳入样本较少,实际效果尚需进一步验证。
3.3 2D与3D MRCP选择 尽管2D厚层MRCP图像可以较好地显示胆胰管系统的全貌,但其空间定位信息不足。MRCP是重T2WI序列,对软组织病变显示欠佳,因此对可能存在的软组织病变需要把MRCP上的扩张-狭窄移行区定位在轴位图像上,通过轴位T2WI、T1WI、扩散加权成像等观察软组织病灶的特征,这也是本研究提出的另一个AI应用场景。主观评价显示分割模型定位的肝外胆管可匹配到轴位T2WI图像上,匹配准确度基本满意,达到了模型训练的目的。3D薄层MRCP图像的空间定位能力强,模型分割的胆管位置可以匹配到相应的轴位图像上,因此本研究选择3D MRCP图像作为分割模型的输入数据。近年诸多研究显示利用快速成像技术在一次屏气过程中可以完成3D采集,获得高质量的胆胰管成像[20-21],特别是压缩感知技术的应用,使快速成像有可能普遍推广[22-23],有利于分割模型的临床应用。
3.4 局限性与展望 本研究证明训练深度学习模型在3D MRCP图像上定位肝外胆管和分割胆总管结石是可行的,但作为初步探索性研究,离临床实际应用还有一定距离。本研究的局限性为:①3D MRCP图像上应观察的对象很多,不仅是肝外胆管,还有胆囊、肝内胆管等,这些区域的分割和病灶检出均应纳入未来图像识别的范围中。除结石外,MRCP对病变检出的另一个主要目的是观察胆管树的形态,胆管扩张、狭窄形态及其定位,均有重要诊断意义,进一步深入研究时应将胆管树的形态纳入识别范围中。②MRCP检查项目除有重T2WI加权的胆道成像外,还包括轴位T2WI、T1WI、扩散加权成像等图像,这些图像可以用于观察占位、炎症等病变。本研究仅针对MRCP序列进行标注,未来应将MRCP与轴位图像相结合,训练多图像输入、级联模型,以充分利用所有序列的图像信息,完成MRCP全智能报告。③MRCP智能诊断的推广和应用过程中,应进行多中心研究。本研究纳入多台不同设备制造商、不同场强的MRCP图像,初步证明模型对不同设备的图像均可较好地完成分割任务,但是仍需迭代以保证对其他设备、不同扫描方案的图像均能达到满意的分割效能,这是一个长期的任务。
总之,通过深度学习方法在MRCP图像上分割肝外胆管是可行的,能较准确地分割胆管结构,并用于结石和胆管梗阻定位。未来应进一步深入研究,扩大模型的识别对象,增加泛化性,最终实现MRCP全智能诊断。