刘义,秦乃姗,马明明,王祥鹏,张耀峰,王霄英*
1.北京大学第一医院医学影像科,北京 100034;2.北京赛迈特锐医学科技有限公司,北京 100011;*通信作者 王霄英wangxiaoying@bjmu.edu.cn
乳腺癌是女性最常见的恶性肿瘤,基于影像学检查对病灶准确分类和定位对于后续制订临床治疗方案至关重要[1-2]。在临床工作中,乳腺动态增强磁共振(dynamic contrast-enhanced MRI,DCE-MRI)因其敏感性高而广泛用于乳腺癌的定性及分类[3-5]。
乳腺影像报告和数据系统(breast imaging reporting and data system,BI-RADS)提供乳腺癌影像描述的标准化词汇,有利于影像科医师准确地描述肿瘤的影像表现[6]。BI-RADS首先将病灶分为肿块及非肿块样强化,然后再分别使用不同的影像特征对病灶进行描述。在实际工作中评估病灶影像分类是首要且至关重要的步骤,而目前通常依赖于影像科医师的经验进行分类,观察者间一致性欠佳。对乳腺病灶进行自动分类可以消除观察者间的主观差异性,提高可重复性。然而,肿块样强化及非肿块样强化间缺乏明确的界值,因此构建病灶自动分类模型具有很大的挑战性。近年来,深度学习方法已经成为用于图像分割及分类的重要工具[7-10]。
本研究旨在训练深度学习模型,期望能用来可靠地对乳腺病灶进行分类,进而有利于后续病灶特征模型分析,并将结果自动接入结构化报告系统中,实现在临床工作中自动报告乳腺MR图像上强化病灶形态分类及特征描述,有利于临床制订精准化的治疗方案。
1.1 研究对象 连续选择2013年1月8日—2016年10月21日在北京大学第一医院行乳腺DCE-MRI检查的290例患者共375个病灶,其中207例有1个病灶,81例2个病灶;2例3个病灶,均为女性,年龄25~82岁,平均(48.2±52.3)岁。纳入标准:①所有患者均在相同的MRI方案下完成扫描的图像,完成所有序列检查并且图像质量合格;②病理结果(活检或手术)为恶性病变;③未接受手术、化疗、放疗等任何治疗。排除标准:①乳腺癌根治切除术后;②假体植入术后;③图像不全或图像质量不合格。本研究获得北京大学第一医院伦理审查委员会批准〔2019(170)〕,按照北京大学第一医院人工智能(AI)模型训练规范执行研究方案。
1.2 用例定义 根据本单位AI训练管理方法,首先定义研发乳腺MR图像上强化病灶形态分类模型的用例。包括模型的ID、临床问题、场景描述、模型在实际工作中的调用流程、模型输入输出数据结构等。AI模型返回结果为肿块、非肿块样强化、不确定。分类模型预测结果返回到结构化报告中的“病灶列表”模块(图1)。
图1 本研究流程
1.3 图像采集 采用GE SIGNA EXCITE 3.0T MR系统,使用标准八通道乳腺线圈。患者取俯卧位,2个乳房均位于线圈腔内。乳腺MRI扫描序列包括轴位T1WI、T2WI-fs、DWI及DCE,DCE扫描参数:TR 4.53 ms,TE 1.66 ms,反转角90°,矩阵384×384,层厚2.4 cm,层间距1.2 cm。静脉注射钆对比剂0.1 mmol/kg,注射速度2 ml/s,使用15 ml生理盐水冲管。注射同时开始扫描,连续扫描9个期相。
1.4 数据处理 使用Python的dicom2nii包将图像由DICOM格式转换为NIFTI格式。使用本单位既往训练的3D分割模型分割乳房和其中明显异常强化的病灶[11],共获得375个明显强化病灶。由2位影像科医师(医师1为具有27年工作经验的主任医师,医师2为具有5年工作经验的主治医师)共同根据BI-RADS第5版的乳腺病变分类标准进行分类[12],①肿块:占位效应;②非肿块样强化:一定范围内的强化。对于某些病例的分类结果存在分歧,则由2位医师协商后作出最终分类。
1.5 分类模型的构建及训练 硬件为GPU NVIDIA Tesla P100 16G,软件包括Python3.6、Pytorch 0.4.1、Opencv、Numpy、SimpleITK。使用Adam作为优化器[9]。
本研究基于MedicalNet权重构建深度学习网络[13]。运用迁移学习方法,冻结编码器权重进而提取图像特征。保留编码器部分,将网络的解码器部分(反卷积部分)替换为卷积层+全连接层作为分类结构。本模型构建使用的分类卷积层共4层结构,即:①池化层(步幅为2);②卷积层(卷积核大小为3、数量为512);③池化层(步幅为2);④卷积层(卷积核大小为3、数量为512)。分类的全连接层由128个神经元构成,对图像特征进行组合分类,最后结果通过softmax函数计算输出分类数组。
将375个病灶按照8∶1∶1随机分为训练集[n=297,平均年龄(49.4±52.0)岁]、调优集[n=39,平均年龄(53.4±55.2)岁]和测试集[(n=39,平均年龄(43.5±45.5)岁]。输入图像设置为自动窗宽窗位,图像大小为224×224,输出数据为模型分类预测结果。图像扩增方法包括平移、旋转、随机噪声等。使用MedNet网络,主要参数:批量大小(batch_size)=150,循环次数(num_ epochs)=300,学习率(learning_rate)=0.000 05。
1.6 模型评价 对于乳腺病变分类模型,使用混淆矩阵评价其分类准确程度,并计算准确率、错误率、敏感度、特异度、精确度、F1评分。
1.7 统计学方法 采用SPSS 25.0软件,使用Kolmogorove Smirnov检验对计量资料进行正态性检验,正态分布的计量资料以±s表示,两组间比较采用独立样本t检验;计数资料以例数表示,二分类结果以混淆矩阵表示;计算乳腺病变分类模型分类的准确率、错误率、敏感度、特异度、精确度,P<0.05表示差异有统计学意义。
2.1 对肿块划分的一致性 2位医师对乳腺病灶肿块与非肿块划分的初始一致性为0.917(344/375)。对于31例分类存在分歧的数据,由2位医师协商后作出最终分类。
2.2 测试集数据 测试集数据的体积及三维径线大小见表1。肿块及非肿块样强化病例的三维径线(左右、前后、上下)及体积差异均无统计学意义(P均>0.05)。
表1 乳腺病变分类体积及三维径线(±s)
表1 乳腺病变分类体积及三维径线(±s)
病变分类例数体积(cm3)三维径线(mm)左右前后上下肿块 26 28.85±20.61 25.97±13.85 26.76±16.97 26.61±12.75 26.40±16.61 t值 0.249 0.793 −1.238 0.062非肿块样强化13 27.62±22.93 23.51±13.46 31.24±14.93 P值0.804 0.430 0.219 0.951
2.3 模型评估 乳腺病变分类模型对测试集数据预测的混淆矩阵和统计效能见表2、3。测试集39个数据的预测准确率为0.87。将乳腺病变分为肿块及非肿块样强化的敏感度为0.96,特异度为0.69,精确度为0.86,F1值为0.91。图2、3显示乳腺病变分类模型预测结果,其中图2为肿块型乳腺病变的预测结果,图3为非肿块样强化型乳腺病变的预测结果。
图2 女,42岁,乳腺恶性肿块。2位放射科医师和乳腺病变分类模型均将病变确定为肿块。A.原始图像,左乳外象限片状明显强化区,形态不规则,边缘不规则,周围可见索条;B.对双侧乳腺进行分割;C.对病灶进行识别;D.分割后的病灶
图3 女,39岁,乳腺恶性肿块。2位放射科医师和乳腺病变分类模型均将病变确定为非肿块样强化。A.原始图像,左乳外象限片状明显强化区,形态不规则,边缘不规则,周围可见索条;B.对双侧乳腺进行分割;C.对病灶进行识别;D.分割后的病灶
表2 乳腺病变分类模型预测结果(个)
测试集中1例肿块病例模型预测成非肿块样强化(图4A、B)。另外4例非肿块样强化病例模型预测成肿块,其中1例典型病例见图4C、D。
图4 分类模型预测错误病例。A、B.乳腺恶性肿块病例,2位放射科医师将病变确认为肿块,分类模型将病变确定为非肿块样强化;C、D.乳腺恶性肿块病例,2位放射科医师将病变确认为非肿块样强化,分类模型将病变确定为肿块
3.1 构建乳腺病变分类模型的必要性 乳腺MRI敏感性高,是乳腺癌临床定性及分类的重要方法。随着乳腺MRI的广泛应用,为了规范乳腺MRI报告,美国放射学会于2013年提出BI-RADS,进一步规范乳腺病变的组织结构及强化特征,为影像科医师及临床医师间的沟通提供便利。BI-RADS将乳腺病灶分为肿块及非肿块样强化。肿块指具有占位效应的三维病变;非肿块样强化指不具有肿块样强化特征的病变,形态学方面从分布特征和内部强化方式描述。非肿块样强化病变分布松散,病灶间夹杂着正常的纤维腺体及脂肪组织,临床上有时不能触及明确的肿块,不利于临床外科诊断。肿块及非肿块样强化对规范影像报告用语极为重要,不同类型使用的专业用语不同,进而有利于影像科医师及临床医师间的有效沟通;对于临床后续治疗也有很大帮助,有利于进一步对病变进行分子分型,选择不同的治疗方式。
临床工作中,放射科医师根据自身经验对乳腺病变进行分类,进而描述病变的影像特征,这很大程度上取决于医师的专业知识,主观一致性较差[14]。此外,影像科医师还受到身体疲劳程度、工作环境变化及诸多其他因素的影响,均会最终影响影像报告的准确性。为了提高乳腺MRI报告的准确性,本研究使用深度学习方法建立乳腺病变分类模型,为后续乳腺病变特征描述及置入乳腺MRI结构式报告作准备。
3.2 乳腺分类深度学习模型的优势及结果分析 与传统方法相比,深度学习模型的主要优势在于它能够以数据驱动的方式提取具有高度代表性的特征。有研究构建乳腺癌的分类模型并评估模型的效能[15-17]。然而,目前尚没有研究基于深度学习的方法,以临床置入结构式报告为目的构建乳腺病变的分类模型。本研究构建乳腺病灶二分类模型并验证模型的效能,结果表明模型的准确率较高,测试集的预测准确率为0.87,敏感度为0.96,特异度为0.69,精确度为0.86,F1值为0.91,与Zhou等[18]使用3D深度学习模型构建乳腺癌分类及定位模型的效能相似。最终将模型预测结构接入到结构化报告中,不仅能减轻医师的工作强度、缩短报告时间,还能提高乳腺病变分类评估的一致性。此外,为后续构建乳腺病变特征分类模型做准备。
对乳腺病变分类模型验证的结果显示,测试集中有1例肿块病例模型预测成非肿块样强化,其原因主要是该病例中的肿块形态不规则,病灶周围有长毛刺及短毛刺,因此被模型误认为非肿块样强化。另外有4例非肿块样强化病例模型预测成肿块,主要原因是病例中的非肿块样强化病灶中形态欠规则,但边缘尚光整,无明显长毛刺,模型误把形态规则的明显强化区认为肿块。后续可以通过分析原因修正错误,反馈给模型,进一步优化模型,增加效能;此外,还可以增大样本量,进一步增加模型的效能,尤其是提高模型对于不规则肿块及非肿块样强化中的形态较规则的明显强化区的预测效能。
3.3 本研究的局限性 首先,本研究是小样本回顾性研究,数据来源单一(同一个单位)、常规扫描参数相似,因此预测结果具有一定的局限性,后续需要进行前瞻性、大样本、多中心临床研究,才能达到更高、更客观的乳腺病灶分类预测效能。其次,本模型未对识别病变详细特征进行训练,如肿块部位、大小、形态、边缘、信号、强化特征及时间信号曲线;非肿块样强化的部位、分布、范围、信号、强化特征及时间信号曲线。本研究构建的模型只能进行乳腺病变的初步分类(肿块或非肿块样强化)。这些病变的详细特征分类模型将作为本团队下一步的研究任务,构建模型并验证效能,将这些功能进行整合,最终植入的乳腺MRI结构式报告,实现全流程的自动化。最后,本研究模型的临床价值尚未进行评价,这也是后续研究必不可少的一部分,即后续对该模型进行临床验证试验,以了解影像医师对模型的认可情况,收集医师的反馈意见,不断优化模型,最终实现本模型的真正临床价值[19-20]。
总之,基于深度学习训练乳腺MRI病变的分类模型具有较高的分类效能,为后续构建乳腺病灶特征分类模型做准备,在经过更多验证和迭代后,最终置入乳腺MRI结构式报告,实现全流程的自动化,最大化地提高影像科工作效能。