基于深度学习的新型冠状病毒肺炎CT征象检测研究

2020-06-20 16:21祖莅惠胡博奇刘景鑫

中国医疗设备 2020年6期

祖莅惠，胡博奇，王平，张忠，刘景鑫

1. 吉林大学中日联谊医院，吉林长春 130033；2. 辽宁万象联合医疗科技有限公司，辽宁沈阳 110000

引言

新型冠状病毒肺炎（Coronavirus Disease 2019，COVID-19）具有较强的传染性，病毒通过飞沫和接触传播，在全国各地蔓延[1]，世界上多个国家均已出现。在疫情的暴发期阶段，由于患者人数的不断增长，医院及相关医疗机构内长期滞留了大量患者，医护人员长期处于高强度的工作状态，加剧了病毒传播的速度。同时，核酸检测试剂盒供应不足延长了确诊时间，多地区出现无症状且具有传染性的患者，影响了医生对患者的诊疗和疫情控制。因此在前期以核酸检测为主的确诊方式下，急需胸部CT作为早期筛查的手段予以配合，通过对影像中病灶征象的识别，可以对COVID-19患者进行快速初筛，使患者快速分流并降低感染风险，有效缓解医疗资源的紧张，对控制疫情的蔓延具有重大意义。

由于COVID-19患者的基数庞大，导致多数医务人员的工作量长期处于超负荷状态，存在忽略患者早期CT征象的可能。近年来人工智能在深度学习领域对图像处理的相关研究取得了比较大的进展，基于卷积神经网络的目标检测和图像分割等方法已经相当成熟地应用在许多医学影像领域[2-3]，可以从医学影像数据中自动分割目标器官并提取其可能存在的病灶特征[4-5]，为医学影像的研究和分析提供了快速可靠的辅助支持。基于深度学习的医学影像分析模型可以快速、准确地推理影像隐含信息，辅助初筛疾病，合理优化医疗资源分配策略[6-9]，减轻医务工作者不必要的工作负担。

本文结合深度学习目标检测和图像分类等方法对COVID-19患者病灶的CT征象进行分析和研究，对不同阶段的病灶区域进行特征提取分析。基于时间空间序列卷积提出了一种对CT影像病灶区域快速检测的算法模型，可以辅助医务人员进行COVID-19初筛，缩短患者滞留时间，一定程度上减少院内感染风险。同时，本文提出的算法模型通过对不同时间阶段患者CT影像的关联分析，可以得到更合理的病灶CT征象推理结果，帮助医生快速判断病情，提供了诊断和治疗的辅助依据。

1 COVID-19 CT征象与深度学习算法模型

1.1 COVID-19的CT表现

新型冠状病毒核酸检测结果具有相对明显的滞后性，并伴随一定数量的假阴性样本。CT检查对COVID-19的诊断、筛查、病情评估指导治疗等发挥重要作用。CT征象主要表现为双肺多发、斑片状磨玻璃密度影，多沿支气管血管束和胸膜下分布，被细网格状或小蜂窝样小叶间隔增厚分隔成“铺路石样”改变。随着病变进展可见磨玻璃阴影、实变、结节等多种性质病变共存，可有纤维化病灶存在。实变阴影内常见空气支气管征、细支气管管壁有增厚，纤维化病灶则表现为局部肺纹理增粗、扭曲，其内支气管管壁呈柱状，邻近胸膜或叶间胸膜增厚，无或有少量胸腔积液，无明显淋巴结肿大。

1.2 基于深度学习的高级图像特征提取方法

对于图像的目标检测任务，不同维度的特征提取方法已经被深度卷积神经网络输出的多层次特征图取代。挖掘更高级别的语义，对高层特征的丰富语义信息以及低层特征准确的目标位置信息合理利用，是深度卷积神经网络特征提取的关键。Single Feature Map[10]是深度卷积网络提取特征的基本结构，通过多次卷积操作提取图片的特征并逐渐使感受野增多，最后根据特征图进行预测。Pyramidal Feature Hierarchy[11]是特征金字塔与深度卷积网络的融合结构。随着网络的不断加深，特征图的分辨率会逐步下降，感受野不断丰富使语义信息更加抽象。这种方法一般顶层用来对图像中的大目标进行预测，而底层则用于对小目标的预测。特征金字塔网络（Feature Pyramid Networks，FPN）[12]是一种多尺度目标检测方法，将图像处理成不同的尺寸，顶层特征通过上采样低层特征并进行特征融合，融合后的每一层都具有较丰富的语义信息。

1.3 基于深度学习的目标检测方法

近年来，基于图像的目标检测方法得到了广泛应用，主要分为以候选区域为基础的R-CNN系列两步检测算法和YOLO、SSD等一步检测算法。两步检测算法速度相对较慢，但准确性较高。R-CNN[13]采用滑动窗口的原理，对区域进行识别，产生包含目标区域的候选区域，提取候选区域和特征向量并进行目标边框修正，完成目标的分类和定位。Fast R-CNN[14]改进了R-CNN存在的缺陷，使用ROI池化层在全局提取每个ROI对应的特征，通过卷积神经网络直接获取全局特征，缩短了任务时间。Faster R-CNN[15]直接利用Region Proposal Network完成待检测区域的生成，进一步缩短了算法完成目标检测的时间。YOLO将目标分类和定位放在一个步骤内完成，在网络的输出层对目标框进行回归和目标分类操作，实现一步检测[16]。SSD同样在一阶段内完成目标的定位与分类，提出类似Faster R-CNN中锚点的Prior box，并加入了特征金字塔的检测方式[17]。

研究者对上述工作内容进行了充分研究，在此基础上根据COVID-19 CT影像数据的数据分布和数据特征提出了一种深度学习目标检测模型，通过对时间空间序列的特征提取，能快速定位病灶所在区域，具有较高的准确性和较强的鲁棒性。

2 研究方法

COVID-19 CT病灶的目标检测方法，包括如何进行影像目标区域的选择、目标检测的模型结构设计和基于时间空间序列特征的提取方法。

2.1 目标区域的获取

对COVID-19病灶的检测，第一步需要对影像中肺实质部分进行分割，根据分割后的区域位置进行几何学运算得到合理的目标区域。我们对50例COVID-19患者以及30例健康人的CT影像逐层进行肺实质轮廓医学标注，标注图像样本如图1所示，利用标注后的每一层肺实质进行2D肺部分割模型训练，为保证模型的鲁棒性，首先对一部分训练数据进行多种几何形态学数据增强。

图1 待分割肺实质及对应标注掩模

进行相关数据分布分析后，在（-500，1600）窗宽窗位值附近进行多次数据增强，以提高分割模型的健壮性。根据数据的相关特征，本文基于上采样图像语意分割网络[18]设计了肺实质分割模型。该模型由多个连续的卷积层、池化层组成，不断向下提取特征，在最后一个特征提取层进行上采用特征融合，对特征图相关缺失信息（比如位置信息、边缘信息等）进行镜像填补后完成分割特征提取操作。

在分割模型完成肺实质的初步分割后，得到肺野的目标提取区域如图2所示。通过几何形态学等一系列操作（如腐蚀、膨胀和填补空洞等），得到目标检测模型所需的检测区域。

以上步骤的目的是减少后续病灶检测的无关区域，可以显著地提高模型推理检测的效率。

图2 肺部影像语义分割结果

2.2 基于时空序列特征提取的目标检测模型

本文在病灶检测模型中设计了两个特殊的卷积层：空间序列卷积层和时间序列卷积层。针对CT这样的连续断层扫描影像，其上下层之间具有一定的空间关联性。常规的目标检测更关注平面图像内的特征关联，但如果只对每个CT断层内的影像单独做特征提取与分析，会丢失重要的图像上下文语义，造成检测结果准确性的损失。

根据COVID-19的CT影像诊断方法，其影像征象分为早期、进展期、重症期三个不同的阶段。研究发现，许多患者在不同时期都存在相应的CT影像检查数据，同一患者在不同时期影像的表现存在一定的特征关联，如果目标检测过程中，可以在时间维度上提取相关特征，则可能会挖掘出COVID-19在不同阶段病灶征象的潜在语义信息，准确性提升的同时，模型的推理预测结果会更具有辅助诊断意义。

空间序列卷积层的设计原理基于双向循环神经网络结构和常规的2D卷积层结构。由于影像的空间连贯性，距离更近的断层具有更高的关联性。模型通过连续的若干卷积层捕获断层平面内的特征信息，随后加入两个空间序列卷积层来提取肺实质的空间连续特征。将每一层的特征图上采样与接下来对应的两个时间序列卷积层进行融合。

时间序列卷积层的设计原理基于单向循环神经网络结构和常规的2D卷积层结构。根据对COVID-19病灶CT征象的阶段性特征分析，以单向时间轴的序列抽象顺序提取影像上下文语义特征更为合理。经过两个时间序列卷积层的卷积操作，其特征图输入给后续卷积层进行最后阶段的特征提取，得到预测结果。具体结构及流程如图3所示。

图3 基于时空序列卷积的目标检测模型结构

模型的检测结果如图4所示，对CT影像断层中病灶区域进行目标识别与定位，为医务人员提供辅助诊断参考结果。

图4 模型对COVID-19 CT影像断层的检测结果

3 实验结果

3.1 数据与模型

本文对来自不同医院721例COVID-19患者的数据脱敏CT影像进行分析研究，将其中600例影像作为COVID-19检测模型的训练数据。为验证单向时间序列卷积与双向时间序列卷积之间复杂性的关系，实验训练了仅存在时间序列差异的两种模型结构。实验的测试数据由余下的121例COVID-19患者以及其他500例健康人的数据脱敏CT影像组成。测试的算法结构包括Faster R-CNN、YOLO3、SSD以及本文提出的基于时空序列卷积的算法模型—Space_time_Net，分为单向时间序列和双向时间序列两种结构，简记为Space_Time1和Space_Time2。采用相同的测试数据集对上述模型进行病人识别灵敏度以及病灶目标检测准确性的测试。

为验证多阶段影像数据对实验结果的影响，测试分为两个阶段。第一阶段每个病例只采集一个时间点的患者影像进行测试；第二阶段对存在多阶段影像数据的患者，完成相关影像的关联增补后进行测试。通过两个阶段的测试，可以验证单一空间影像和时空序列影像对模型准确性的影响，并评估模型能否有效地利用时间空间序列特性得到更准确的检测结果。

3.2 实验结果分析

第一阶段实验的相关数据结果，见表1。在不关联患者所有阶段影像的情况下，YOLO3的准确性和灵敏度差异相对较大。本文提出的模型在两种结构下（Space_Time1和Space_Time2）均具有较好的准确性和灵敏度。

表1 第一阶段模型对比实验结果（%）

通过分析表1的实验数据可以得出，在第一阶段测试中，时间序列双向结构的Space_Time2具有更高的目标检测准确性，由于时序双向的复杂性导致其损失了一定的灵敏度。具有时间序列单向结构的Space_Time1具有更好的灵敏度，说明算法模型结构的复杂程度会对模型最终效果产生一定影响。

第二阶段实验的相关数据结果，见表2。当关联患者所有阶段的影像后，YOLO3的准确性和灵敏度差异仍然相对较大，三种对比模型的灵敏度与准确性相比第一阶段实验数据结果略有提高。本文提出的模型在两种结构下都表现出比第一阶段更好的准确性和灵敏度。通过对模型结构以及实验数据特征的分析，当同一个患者具有多个时间阶段的影像数据时，Space_Time_Net的时间空间序列卷积层可以更有效地提取时间序列相关的潜在影像语义特征，得到更准确的综合检测结果。

表2 第二阶段模型对比实验结果（%）

通过对两次试验数据的分析可以得出，具有时间序列属性的影像数据能提供更多的影像语义特征，本文基于时间序列属性设计了时间空间序列卷积核提取这部分特征，得到了更准确的检测结果。对结构复杂性和可解释性的权衡是未来COVID-19检测模型优化的方向。

4 结论

本文提出了一种基于时间空间序列卷积的COVID-19 CT影像病灶检测模型。通过对病灶征象的相关医学研究，完成了从CT影像肺实质分割到病灶检测不同深度学习模型的设计，能快速完成COVID-19病例的自动检测。在关联同一患者不同阶段的影像后，可以综合得到更准确的辅助初筛结果。实验数据表明模型具有较高的准确性和稳定性，为COVID-19的影像诊断提供了良好的辅助支持，对疫情的防控具有积极意义。