人工智能在医学影像分析中的应用进展

2019-01-07 06:04俞益洲石德君马杰超

中国医学影像技术 2019年12期

俞益洲, 石德君, 马杰超, 周振

(1.香港大学计算机科学系，香港 999077；2.深睿人工智能研究院，北京 100080)

人工智能(artificial intelligence, AI)是一门旨在模拟、延伸和扩展人类智能，集理论、方法和应用研发于一体的新兴技术学科[1]。随着AI的迅速发展，医学影像分析与处理已成为医学信息中发展最快的领域之一，而物体分类、检测、分割和生成等作为AI图像处理的关键问题，在医学应用中具有重要意义。

1 图像分类

图像分类是计算机视觉中最基本的任务之一，是由模型自动输出给定图像的类别标签，建模核心是提取图像特征和构建分类器。传统图像分类方法系采用人工设计特征，如共生矩阵(GLCM)、Gabor过滤器及局部二值模式(LBP)等[2]，计算复杂、低效，且分类精度往往不高。卷积神经网络(convolutional neural network, CNN)能挖掘海量数据中隐含的统计模式，自动学习对分类任务最有区分力的图像特征[3]。随着网络深度增加，CNN模型精度越来越高，深度学习(deep learning, DL)由此得名。基于自然图像构建的图像分类网络是最早迁移到医学影像分析中的DL模型，如分类异常胸片和正常胸片。医学影像分类使用的DL模型在时间线上与计算机视觉中类似[4]。

由于医学影像标注数据稀缺，研究者往往使用迁移学习，即利用预训练模型进行权重初始化。迁移学习在医学影像分类任务中的优势得到了研究证实[5]，证实迁移学习在医学影像分类任务中的优势。目前多个大型疾病诊断分类模型均采用迁移学习，分类精度达到专科医师水平[6-7]。

可解释性问题是DL一直以来面临的挑战，即CNN模型提取哪些特征以实现高分类精度[8]。将CNN模型用于医学影像领域时，可解释性问题尤为突出——模型预测可能与医师判断相左，而医师需要知道原因。有学者采用可视化研究，对CNN分类机制进行探索[9-10]；借助类别激活图(class activation maps, CAM)展示模型在预测分类时关注了输入图像的哪些区域。类似的可视化技术还被用于其他医学影像的DL分类任务[11]。

MRI和CT三维图像分类任务研究催生了3D CNN模型。Mohammed等[12]搭建3D CNN模型对三维MRI进行阿尔兹海默病(Alzheimer's disease， AD)分类，针对不同分类任务，模型F1为0.75～0.94。Shen等[13]提出3D深度层级语义网络模型预测CT中肺结节的特征和恶性程度，同时输出低级语义特征(毛刺、实性、钙化等)和高级恶性分数，协助医师解读模型的预测结果，在LIDC数据集上的良恶性分类准确率达到84.2%。

2 目标检测

计算机视觉目标检测旨在对图像中的目标进行定位和识别，其中的算法不仅需要给出被检测目标类别(如CT切片上某块区域是否包含肺结节)，还要在图像中给出其位置和范围。

在医学影像分析领域，目标检测主要体现为病灶检测。目前病灶检测算法主要有单阶段方法和双阶段方法。单阶段方法[如YOLO(you only look once)和SSD(single shot detection)等[14-15]]的主要思想是于欲检测图像特征图的不同位置均匀进行密集抽样，再对抽样特征进行定位边界回归和病灶类别分类，整个过程只需一步，速度较快。双阶段方法(如RCNN系列[16-17])的主要思想则是通过区域生成网络(region proposal network，RPN)产生一系列候选框，再对其进行再次定位边界回归和病灶类别分类，共经两次定位边界回归，其准确率较高。

基于YOLO系列的网络结构一般将图像分成多个区域，并查看每个区域是否包含物体及其具体位置。Afshari等[18]提出一种基于YOLO的深度网络结构，用于检测对PET图像中的多个器官(脑、心脏等)，平均准确率为75%～98%，召回率为94%～100%。Almasni等[19]使用YOLO网络对乳腺肿块进行自动检测，定位准确率99.7%，并能区分良性和恶性病变，总准确率为97%。

基于SSD系列的网络直接采用CNN，以不同尺度特征图进行检测，在一定程度上克服了YOLO检测小物体效果较差的问题。与一般意义上基于自然图像的物体检测相比较，医学影像分析有其特殊性和侧重点，其维度通道一般基于医学数据类型而改变，例如PET-CT数据一般情况下为二维单通道灰度图，而MRI数据多为三维四通道灰度图。Ma等[20]提出一种基于分组卷积网络的单级SSD检测框架，针对输入图像的多层面性质，自动学习不同输入层面之间的权重关系，并在肺结节检测数据集LUNA16上取得了较高得分。Datong等[21]则针对医学影像分辨率低、背景复杂的特点提出基于单级SSD的冠状动脉钙离子的检测算法。Zhang等[22]使用特征金字塔结构改进模型，将底层特征映射与上层反卷积特征映射连接起来，使各层之间的关系更加明确，在胃镜检测息肉中的准确率达到90.4%，并极大降低息肉的漏诊率。

RCNN系列网络是目前基于DL目标检测的代表模型。Lu等[23]以基于RCNN的网络在MRI上检测盆腔淋巴结，414例直肠癌ROC的AUC达 0.912。Liu等[24]将RCNN用于检测结肠炎，针对二维层面生成一系列候选框，再行类别分类和定位回归。为自动检测领域肺结节，Zhu等[25]将RCNN网络改进成基于3D的网络，能够有效学习结节特征，并在LIDC上得到92%的敏感度。Yan等[26]以三维网络建模上下层的联系，提出一种利用3D信息的检测算法，对CT中的多种病灶进行通用检测。

3 物体分割

器官和亚结构分割是定量分析医学影像的基础，比如面积和体积，往往也是计算机辅助诊断(computer aided diagnosis， CAD)流程的第一步；常见评价指标有像素水平的分类准确率，区域水平的Dice系数、IoU及Hausdorff距离等[27]。

U-net是最知名的CNN分割模型之一[28]，夺得2015 ISBI显微镜图片细胞分割挑战的冠军，IoU达92%。现已有多个U-net的变种模型，尤其是为适应三维医学影像的3D U-net[29]、V-net[30]及AnatomyNet[31]等。V-net在3D U-net基础上加入残差模块，结合基于Dice的损失函数，在MRI膀胱分割中Dice达到0.87[30]；AnatomyNet则在头部CT 19个器官分割任务上取得了最优Dice表现[31]。

全卷积网络(fully convolutional networks， FCN)是语义分割领域的经典模型，系很多后续经典分割模型的原型，也被用于医学影像领域，以经典分类模型作为编码主干，以反卷积替代全连接层，将特征图分辨率恢复到原始图像大小，从而实现逐像素分类[32]。Jiang等[33]利用基于AlexNet的FCN进行视网膜血管分割，于4个公开数据集上取得最优表现。Gibson等[34]以3D DenseVNet在腹部CT图像中对9个器官进行分割，以FCN为基本框架，同时在主干中使用Dense连接实现特征重用，提升参数使用效率，对不同器官的分割Dice达到0.63～0.96。Tetteh 等[35]提出cross-hair过滤器来近似3D卷积核，参数量随卷积核尺寸呈线性增加，而非指数增加，结合模拟数据预训练，大幅提升了模型在三维血管造影图像中血管分割的效果。Cao等[36]提出一种双路分割网络模型提升鲁棒性，在公开数据集LIDC上取得了82.74%的Dice得分。Alom等[37]观察循环神经网络(recurrent neural network， RNN)对CNN分割网络的效用，相比U-Net和ResU-Net，其分割效果在眼底图片、皮肤癌和肺结节3个标准数据集上均有所提升。

4 图像生成

图像生成旨在从A图像自动生成伪B图像，A图像可为随机噪声，也可为来自不同域的图像(如自然图像中A和B来自不同风格的图像，在医学影像中A和B可分别代表MRI和CT)，一般由生成对抗网络(generative adversarial nets， GAN)来实现；后者是一种特殊神经网络模型，模型可分为生成器和判别器两个部分，生成器负责从A图像生成逼近真实B图像的伪B图像，判别器负责区分B图像和伪B图像，两个模型交替训练，最终判别器无法区分生成器生成的伪B图像与真实的B图像，说明生成器已达到 “以假乱真”的水平。

在医学影像中，成像算法面临的一大挑战是利用低辐射剂量获得高分辨率图像，这其中涉及噪声和伪影处理。GAN在医学图像领域受到广泛关注。为了产生更逼真的图像，Nie等[38]采用对抗性训练策略和图像梯度差分损失函数。Bi等[39]提出一种新的合成多通道GAN方法模拟合成PET数据，以解决PET数据再低分辨率和低信噪比方面的问题。

相比 GAN，条件对抗网络(conditional generative adversarial nets， CGAN)生成器的输入不再是一个随机噪声，而是以一张真实图像和一个控制条件去生成伪图像，即CGAN生成器的任务不仅在于骗过生成器，还要让生成图像满足某种特定条件。Yi等[40]基于CGAN方法在低剂量CT上进行去噪处理，得到了较好的分辨率和损失率。Sanchez等[41]使用对抗学习的方法，从低分辨率图像生成高分辨率MRI，并通过修改不同对抗损失函数来提高生成图像的质量，显示了CGAN在三维医学影像超分辨率成像方面的潜力。

循环对抗生成网络(cycle generative adversarial nets，CycleGAN)本质上是两个镜像对称的GAN模型构成的环形网络，共享两个生成器，各带一个判别器。Kang等[42]通过学习常规剂量冠状动脉CTA而生成低剂量CTA的映射，并去除低剂量阶段图像的噪声。You等[43]提出一种基于半监督的图像恢复算法，将残差学习方式用于CycleGAN，在低分辨率CT图像中准确恢复了高分辨率CT图像。Ravi等[44]提出一种基于具有物理激励循环一致性的对抗性深度神经网络，来解决内窥镜采集过程中图像像素低的问题，平均意见得分研究也证实了这种定量的图像质量评估能力。

5 小结

医学影像分析领域研究大量借用计算机视觉研发DL技术，包括分类、检测、分割，来提升医学影像解读的效率和精度。目前DL模型在多项多种影像模态相关任务中已接近甚至超越人类专家的水平。使用GAN等图像生成技术可提升医学影像质量，实现不同影像模态的转换，减少辐射剂量及采集次数。同时，借助医学影像的特性及特定临床任务进行DL技术创新，可实现对计算机视觉领域的反哺，比如提供大量迁移学习研究实例，对二维模型进行三维改造和探索多种DL模块的协同作用等[4]。AI在医学影像分析中的研究将有望切实提升医师工作效率和工作质量。