姚小芬 郭宇宇 谢玮慧 郭 辰 胡立伟 邱海嵊 王 乾 钟玉敏
先 天 性 心 脏 病(congenital heart disease,CHD;以下简称先心病)是最常见的先天性出生缺陷,其中室间隔缺损(ventricular septal defect,VSD)、房间隔缺损(atrial septal defect, ASD)是最常见的非紫绀型先心病,其发病率约占先心病的25%~ 35%[1]。目前临床上常用的先心病影像诊断方法包括胸片、超声心动图(echocardiography,ECHO)、计算机体层摄影(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)及心 血 管 造 影(angiocardiography, CAG)。ECHO是目前临床最常用的先心病筛查方法。心脏大血管磁共振(cardiovascular magnetic resonance,CMR)检查时间长,镇静要求高,空间分辨率略低以及检查费用相对较高,目前在亚洲地区先心病术前诊断中应用较少[2]。随着CT快速发展,低辐射、高空间和时间分辨率、低镇静要求(甚至可以非镇静状态下扫描),CT技术在儿童先心病诊断中逐渐应用广泛[2]。由于ECHO对于心外结构的显示不如心脏CT(cardiac CT, CCT)和CMR。目前临床术前诊断先心病往往用ECHO结合CCT,两者互为补充,提供更为有效、全面的先心病诊断信息[3-4]。
CCT完成扫描后需要专科影像医师进行后处理,人工分割并重建图像,最后根据重建的图像进行诊断,每个病例的后处理时间比普通胸部CT增强要长,诊断效率较低;另外,目前高端CT仪器较为普遍,二级医院都拥有64层以上的螺旋CT或双源CT,但是先心病诊断专业性强,非专科医院影像医师的误诊和漏诊率较高。目前人工智能尤其是深度学习技术结合影像数据,被越来越多地应用到病灶分割、疾病检测、辅助诊断等各种医疗影像分析任务中[5-8]。是否可以应用人工智能方法进行心脏疾病自动识别,是本文的研究目的所在。本研究提出一种基于深度学习的CCT对室间隔缺损和房间隔缺损检测方法,旨在实现非专科医院的影像医师对VSD和ASD的快速准确诊断,以初步达到人工智能辅助诊断简单先心病的目的。
本研究通过医院伦理委员会批准。回顾性分析165例CCT数据,均为2018年7月至2019年10月接受CCT检查,分为病例组和正常组;病例组150例,均行ECHO检查,包括VSD病例84例,ASD病例66例;正常组15例,正常组入组标准为ECHO排除心脏异常病例。病例组病例均有金标准心血管造影或/和手术结果作对照,入组多为常见的膜周部室间隔缺损、少部分为漏斗部室间隔缺损和继发孔型房间隔缺损。
所有病例行CCT扫描,采用佳能Aquilion ONE 320排16cm宽体探测器CT(Canon Medical,Japan)进行扫描。检查方法:患者仰卧位、双臂上举,容积动态扫描。扫描参数:管电压80kV,智能管电流,准直器宽度320×0.5mm,扫描视野(scan field of view,SFOV)32cm,机架旋转时间0.275s,层间隔0.25mm,矩阵512×512,使用心脏标准重建算法FC15,重建厚度0.5mm,所有层面均以横断面重建。使用双筒高压注射器经外周静脉以1.3~ 1.7ml/s的速率注射非离子对比剂碘帕醇1.0~ 1.5 ml/kg (370mg/ml)。注射前使用1~2ml生理盐水冲洗检验留置针是否通畅并防止血管内未稀释的对比剂导致伪影。对不能配合检查的患儿给予10%水合氯醛0.4ml/kg口服或苯巴比妥5mg/kg肌注。
所有VSD和ASD的缺损标注均由1名低年资医师初步标注,再由1名先心病影像诊断经验丰富的高年资影像医师审核确认后完成图像标注。所有病例均根据心血管造影和手术结果为参考标准,通过观察CT图像上有无房、室间隔异常分流,对训练集和测试集数据进行缺损标注,采用ITK-SNAP 3.8.0(www.itksnap.org)在CCT断层图像上相应位置进行室间隔缺损和房间隔的缺损标注,并记录影像医师对每例缺损的判别及标注时间。
本研究采用十折交叉验证的方式对模型进行训练。将总数据集分别从VSD、ASD数据中各随机选取90%的缺损数据作为训练集,10%的缺损数据及所有正常CCT数据作为测试集,共进行10次,10次结果的均值作为算法精度的估计。使用Faster R-CNN(faster region-based convolutional neural network)训练CCT深度学习模型,对房室缺损位置进行检测,如图1所示。网络骨干模型采用VGG 16。该检测网络使用Adam优化器,0.0001学习率(learning rate),以及批处理(batch normalization,BN)为5的相关参数,硬件平台为12GB英伟达显卡,32GB内存,i7 CPU,训练总计100个epoch。图像预处理中,首先将所有CCT图像的灰度值截取到[-400,600]的CT值范围内并进行对比度归一化处理,其次根据手工标记的缺损标记线生成其在图像所对应的矩形框。在每次模型训练过程中,首先将大小512×512的心脏二维断层图像输入至区域生成网络(region proposal network,RPN),RPN网络输出1024个矩形框候选区域(region proposal, RP)以及每个矩形框对应的其为缺损位置的概率值(score),对于每一个候选区域,计算与该图像所对应的金标准区域的交并比(intersection over union, IOU),若IOU>0.7,记为正样本,如果<0.3,记为负样本,然后用得到的正负样本计算损失函数对模型进行训练,使得模型收敛,得到该次训练好的VSD/ASD检测模型。
本研究采用十折交叉验证法来评估Faster R-CNN模型的分类性能。根据每次训练的模型对测试集数据进行测试,如图1所示,对于检测到缺损的CT图像层面,深度学习模型输出预测的缺损位置及其对应的概率Score。按照预测阈值0.7,挑选出输出概率Score>0.7的位置并按照降序排列挑选最大概率所对应的位置输出预测结果(见图1绿框),同时生成与医师标注的金标准计算所得的重合度Dice系数,对于未检测到缺损的CT层面图像将不生成绿框,其Dice系数为0。根据临床上CT诊断缺损的标准,即通过观察室间隔、房间隔的连续性是否有中断来判断有无室间隔或者房间隔缺损[4],如果某一病例多个CCT层面中,有一层或一层以上层面模型自动生成出缺损绿框且Dice系数大于阈值,则将该病例认为模型预测阳性,反之则认为模型预测阴性。计算每一次测试的准确性、敏感性、特异性、AUC及误检率,并最终通过对比这十次分类结果的平均值,来评估Faster R-CNN对VSD及ASD的检测效果。
应用SPSS25.0(SPSS, Chicago, IL, USA)进行数据录入、整理及分析。对数据进行正态性检验,正态数据由均值(标准差)表示,偏态数据由中位数(上、下四分位数)表示。计算包括缺损检测的准确度、敏感度、特异度等指标,以敏感度和特异度得到模型的ROC曲线,从而计算得到ROC曲线的曲线下面积(area under the curve, AUC)。每次测试结果均采用McNemar检验和Kappa检验比较深度学习模型与影像医师对室间隔缺损和房间隔缺损的检出能力,P<0.05被认为差异具有统计学意义。
数据集共165例(表1),中位年龄9.00(5.00,14.75)个月,男性92例,女性73例,其中包括VSD病例84例,ASD病例66例,正常15例。每次分别从VSD、ASD数据集中各随机选取90%的病例(135例)作为训练集,10%的病例(15例)作为测试集,15例正常CCT也作为测试集,共进行10次。训练集及测试集数据间相互独立,数据集在任何一组患者之间没有重叠。训练集用于生成VSD/ASD深度学习模型,模型性能评价基于测试集结果得到。
Faster R-CNN深度学习模型经过十折交叉验证后的平均测试结果见表2。Faster R-CNN深度学习模型对总测试病例、VSD病例及ASD病例的检测准确性分别为84.93%、86.84%及92.58%。深度学习总测试集模型、VSD模型及ASD模型的AUC值分别为0.85、0.81和0.89。在10次测试中,深度学习模型平均每次误检测4.5例,VSD相对于ASD更容易被误诊,平均每次测试中平均有2例正常被误检为缺损病例。深度学习模型对总测试病例、VSD病例及ASD病例的平均误检率为15.07%、13.16%及7.42%。对本研究中,深度学习模型对测试集病例进行测试,平均每张图像0.15秒,平均每例测试时间约为30秒,而影像医师对测试病例的平均每例缺损判别时间约为10分钟。10次测试的McNemar检验P均大于0.05,且平均Kappa值为0.70(P<0.05)。
表1 病例基本信息及数据构成
表2 十折交叉验证平均结果
图1 深度学习网络架构图。A、C为同一例VSD的输入、输出图像,B、D为同一例ASD的输入、输出图像;B、D红框为医师标注的缺损矩形框,绿框为深度学习模型生成的缺损矩形框;图中Dic表示重合度Dice系数,Score表示深度学习模型预测的缺损位置对应的概率。
深度学习是利用多层神经网络从大量数据中进行学习,目前深度学习在医学影像领域有着广泛的应用,如图像识别及分类、图像分割、图像配准、疾病辅助诊断等。本文通过Faster R-CNN模型输入原始的CCT图像,输出室间隔缺损或房间隔缺损所在的位置。Faster R-CNN是一种用于目标检测的深度学习技术,其最大的特点是在Fast R-CNN的基础上加上RPN,RPN是一种可以进行端到端训练的全卷积网络(full convolutional network, FCN),可以生成高质量的候选区域,然后送入Fast R-CNN进行检测[9-10]。为了更加客观地评价Faster R-CNN模型检测室间隔缺损或房间隔缺损的性能,本文使用十折交叉验证方法,将缺损数据集随机分成10份,使用其中9份缺损数据进行训练而将另外1份用作测试,并且每次补充1份正常CCT数据进行测试。该过程重复10次,每次使用的测试数据不同,可以避免VSD和ASD病例数据不平衡导致的结果差异及过拟合,经过10次测试的平均结果用来评价Faster R-CNN深度学习模型。
本研究结果显示,Faster R-CNN深度学习模型在10次不同的测试数据集中实现室间隔缺损和房间隔缺损检测的平均准确度、敏感度、特异度等均较高(>80%),平均AUC值大于0.85,同时深度学习模型对每例缺损的平均检出时间也远远短于影像医师的判读时间,深度学习模型较影像医师的判读时间提高了20倍。该深度学习模型能够将VSD或ASD这两种不同位置的缺损检测出来,VSD病例及ASD病例的平均检测准确度、敏感度、特异度均较高(>75%),平均AUC值均大于0.80,并且ASD的检测准确度和敏感度较VSD高,深度学习模型对ASD的检出能力尤为显著。本研究通过10次测试的McNemar检验和Kappa检验,表明Faster R-CNN深度学习模型与影像医师每次对VSD和ASD的检测均没有差异(P>0.05),并且具有较高的一致性(平均Kappa值为0.70,P<0.05),提示其可以作为一种辅助影像医师进行VSD和ASD检测的方法。
Faster R-CNN深度学习模型对ASD病例的敏感度更高,其对VSD病例的误检率大于ASD。室间隔缺损更容易误检的原因可能是心底部靠近主动脉窦位置的室间隔组织较薄,不同于肌部及心尖部较厚的室间隔组织,加上CT扫描时左右心室对比剂浓度的不均匀性,可能在主动脉窦部被误认为存在较薄的室间隔组织影像,或受到CT扫描层厚的影响,可能检测不到分流部位,从而造成深度学习模型对室间隔缺损的检测发生遗漏。跟影像医师相比,深度学习模型存在一定的假阳性率,在相对正常的CCT测试中,平均有两例正常CCT被误检测为室间隔或房间隔缺损阳性,观察假阳性病例后发现,在CT断层图像上的基底层面主动脉瓣窦位置存在相对较薄的室间隔或房间隔组织,容易被误认为是室间隔或房间隔组织中断的小缺损。因此,在接下来的研究中需要增加多种缺损类型的训练数据,不断地迭代更新模型,以提高模型对缺损尤其是室间隔缺损检测的敏感度和准确度。
有研究表明,使用人工智能技术辅助检测室间隔缺损或房间隔缺损具有一定的优势。Gharehbaghi等[11]使用一种机器学习方法时间增长神经网络区分室间隔缺损心音、房室瓣反流心音和儿童正常心脏心音,其准确度和灵敏度达到86.7%和83.3%。杨宏波等[12]使用人工智能心音信号特征提取技术对先天性房间隔缺损心音进行辅助筛查,其准确率为69.1%。刘凯等[10]利用深度学习Faster R-CNN对胸部X线平片亚实性结节进行检出,其敏感度和假阳性率分别69.64%和55.36%。本研究将深度学习Faster R-CNN方法用于室间隔缺损和房间隔缺损的检测,较前述研究具有更佳的检出效果,其对于总测试病例的平均准确度和平均敏感度均达到85%及以上,平均每个病例的检测时间在30秒左右,大大缩短了影像医师对每个病例的诊断时间,提高了诊断效率,并且利用十折交叉验证表明该模型对不同的VSD或ASD都有良好的检出能力,具有很好的鲁棒性。
本研究也存在一些局限性。第一,本研究的测试集病例数偏小,但本文已通过十折交叉验证的方法避免单次不平衡的测试集导致的结果差异,未来还需增加缺损病例数进行外部测试,争取获得更加客观的深度学习模型评价结果。第二,本研究虽然能较好地检测室间隔缺损或房间隔缺损,但测试病例中室间隔缺损多为膜周部室间隔缺损,房间隔缺损多为继发孔型房间隔缺损,均属于较为简单、单一的缺损类型,未能覆盖临床上所有的缺损类型。实际临床上除了单纯的室间隔缺损或房间隔缺损的病例,还有合并其他先天性心脏病畸形,检测难度更大。由于目前临床上往往通过CCT及ECHO综合诊断室间隔缺损或房间隔缺损,未来可进一步增加多种类、多样性的室间隔缺损和房间隔缺损ECHO数据进行训练,以获得更加适应临床使用的深度学习模型。
综上所述,随着人工智能及深度学习技术的发展,如能运用深度学习方法协助医师进行先天性心脏病中房间隔缺损或室间隔缺损的辅助诊断,还可以节约人力,还可以减少因诊断疲劳引起的人为诊断错误,提高偏远地区医师对先天性心脏缺损的辅助诊断和教育培训。