陈训艺, 夏焙, 陈伟玲
1汕头大学医学院深圳儿科临床学院(广东深圳 518038); 2深圳市儿童医院超声科(广东深圳 518038)
先天性心脏病(简称先心病)是我国最常见的出生缺陷,也是导致新生儿和婴幼儿死亡的主要原因。超声心动图是先心病首选的筛查和术前诊断方法。但儿科对象的年龄跨度较大,操作的复杂性和可重复性一直是临床工作的难点。在不同层级的医院之间,儿科心脏超声报告与专家诊断意见不一致率高达38%,约60%可能影响治疗方案及治疗效果[1]。欧洲超声心动图学会(European Association of Echocardiography,EAE)指南建议,初级超声医师应接受至少半年的培训,完成至少350次经胸超声心动图检查方给予上岗,旨在提高医疗安全[2]。优秀的超声心动图医生培养困难一直是行业内存在的问题。人工智能(artificial intelligence,AI)是一种能够模拟、扩展人类智能及执行相关任务的新技术方法。假设AI方法可获得与专家接近的诊断水平,将极大的提高对先心病的筛查和诊断效率。本文就深度学习在儿科先心病超声心动图诊断中的应用进展进行综述。
1.1 机器学习与深度学习
1.1.1 机器学习(machining learning,ML) ML的基本原理是从数据中学习并获得预测结果输出,依据学习方法分为监督学习、无监督学习和半监督学习[3],这3种学习方法各具优势,需要综合拟解决的问题难度和数据类型,达到先心病诊断要求而综合舍取。
1.1.2 深度学习(deep learning,DL) DL是机器学习的一个子集,经输入大规模的高维度数据,构建深层的人工神经网络并进行经验学习训练,从而获得精准的预测模型。近些年来在大数据、模型、GPU三要素加持下,在心脏影像研究领域中,DL搭建出了一系列优秀的网络,包括全连接网络(fully connected network,FCN)、循环神经网络(recurrent neural network,RNN)、卷积神经网络(convolution neural networks,CNN)等,其中CNN为当前DL在医学领域发展的最受关注网络,其主流算法有Resnet、U-Net、DeepLab、SqueezeNet、GoogLeNet等[4],这已是在先心病研究中较为常用的网络模型。
1.2 图像分类与分割 AI研究儿科先心病的基本步骤包括对标准切面自动识别、心脏结构的自动分割和心脏功能自动评估等,获得图像诊断的预测模型,进而实现对结构性心脏病的诊断。其中,图像分类是结构识别、分割、定位和定量的基础。
1.2.1 图像分类 图像分类是将先心病图像分类为具有医学意义的不同类别。图像分类的传统流程包含特征提取与分类两个模块。常用的分类网络有Alexnet、VGG Resnet、Resnet、Densenet、SqueezeNet GoogLeNet[5]。视图分类是实现自动超声心动图诊断的初始步骤。一套完整的心脏检查可能有70多个视频,但由于先心病的结构、功能和心率差异较大,变异性相对较大,使先心病的图像分类成为比较复杂的过程。虽然成人超声心动图切面的识别已经取得了一些进展,已经实现了对确定的静态图像进行识别,整体准确率也达到了84%,但这些对儿科先心病的诊断还远远不够。Gearhart等[6]构建了小儿超声心动图视图分类的CNN模型,实现了对27个切面的识别,总体准确率达到了90.3%。这个模型是迄今为止研究报道中最为全面的儿科超声心动图视图分类器,与已发表的成人超声心动图视图分类模型相比,性能甚至更好,当前国内刘贻曼等[7]通过改进密集连接网络(DenseNet),实现了15个儿童心脏超声标准切面的自动识别,对儿童超声心动图切面自动识别领域有了进一步补充。
1.2.2 图像分割 图像分割是指按照病变心脏中拟识别的目标结构,并结合图像的相似性,将图像划分为不同区域,用于AI进行结构的学习和识别,是计算机视觉和图像处理领域的基本内容。传统的图像分割方法如阈值法、边界法、面积法等,是基于图像的颜色、纹理和形状等信息进行处理的。而AI采用的语义分割和实例分割具有更明显的优势。语义分割[8]是将视觉图像的输入划分为初步可解释类别。实例分割是在目标语义分割的基础上,对同一个类别的影像进一步细化个体,得到更精细和准确的分类,从而进一步识别结构细节,在医学的意义是用于识别判断先心病诊断所需要的病理或生理性结构。先心病图像分割的网络框架主要有FCN、CNN和U-net等。这些分割网络可以采用单一的,或综合应用多种模型方法进行影像结构分割,目的是达到医学专家级的精度和准度。例如,Hu等[9]采用了FCN-Unet-GAN即双网络生成对抗网络(BiSeNet),对小儿心尖四腔图的结构进行分割。
2.1 胎儿心脏畸形 在现行的分级医疗体系下,尽管80%的胎儿复杂心脏畸形得以诊断,但专业培训程度、操作者的经验、设备仪器等多因素影响,临床上总体心脏畸形的产前检出率仍低于30%,诊断的敏感性仅有40%~50%,值得研究应用AI方法提高筛查的普适性和检出率。Arnaout等[10]使用了1 326例的107 823张18~24周的胎儿超声检查图像进行模型训练,采用基于CNN的Resnet,自动筛选出胎儿畸形的5个标准切面图像。为了证明模型目标是提出具有临床特征的图像,作者采用了显著性映射和Grad-CAM,显示了模型的图像分割、分类和特征提取的关键像素或区域结果,打破了DL网络工作运行过程中的“盲盒”过程。在获得标准切面的识别后,Resnet模型还实现了对正常与16种常见畸形结构的初步鉴别,并在内部测试集4 108例胎儿中,获得诊断效能为受试者工作特征(ROC)曲线下面积为0.99,敏感度和特异度分别达到95%和96%,阴性预测值达到100%。在这个Resnet模型的图像特征识别中,采用了三血管图的主动脉与肺动脉的相对大小,心尖四腔图的室间隔角度与右心的相对大小,来识别法洛四联症与左心发育不良综合征。同时应用了改良的U-Net来识别四腔图像中的心胸结构,实现对胎儿心胸比率、心轴和面积分数的自动测算,取得了与文献其他作者报道较为一致的结果。作者认为,基于DL的Resnet可以使社区级别的产前筛查的敏感度及特异度增加1倍。国内龚玉新团队[11]使用的基于生成对抗网络的卷积神经网络,实现了在胎儿超声心动图四腔图对畸形的初步自动筛查,在他们的内部测试集中准确率也高达85%。由此可见DL在辅助产前胎儿心脏畸形的筛查,已经显示出一定的潜力。
2.2 左心发育不良综合征(hypoplastic left heart syndrome,HLHS) HLHS是以左心发育不全为特征的一组复杂畸形,手术单心室循环建立之后,远期预后级差,与并发症心力衰竭、三尖瓣的结构和功能异常有关,故实现对三尖瓣的准确分割成为HLHS治疗方案与预后的关键。在对三尖瓣图像分割中,经食管超声心动图三维图像优于经胸超声心动图三维图像,但小儿经食管超声有一定局限性,研究多围绕经胸超声心动图展开。Herz等[12]采用全卷积神经网络对129例左心发育不良综合征患儿的161组图像展开研究,目标是实现对小儿三尖瓣的精准分割、定量评价和三尖瓣返流程度。在增加瓣环及瓣叶连接点标志等注释后进行了监督学习,获得的分割模型的骰子系数(dice coefficient,DICE)达到0.86,平均边界距离(mean boundary distance,MBD)达到0.35,平均分割精度与专家相似,重复检测的一致性高于专家的检测结果。这是文献中报道的首个个基于DL的儿科先天性心脏病中瓣膜分割的模型,为进一步开拓小儿先心病瓣膜结构和功能AI研究奠定了基础。
2.3 室间隔缺损与房间隔缺损 室间隔缺损(ventricular septal defect,VSD)和房间隔缺损(atrial septal defect,ASD)同属于儿科常见、相对简单的先心病,但因不具备特别的心脏、血管的结构异常,缺损的部位和大小较为局限,诊断的延迟率较高,甚至到成年人才得以诊断,从而引起肺炎和肺动脉高压等并发症。Wang等[13]提出了基于CNN和RNN的端到端框架,对静态图像及和视频进行自动分析,采用的数据集包含1 308例,其中10%为固定测试集,应用5个常用切面识别房间隔、室间隔,结合心房和心室容积大小变化,实现了对ASD与VSD的诊断。为了提高计算性能,弥补样本不足导致的过拟合问题,作者在原AlexNet基础上增加了深度可分离卷积(depthwise convolution,DSC)算法,进一步提高了网络性能(5.4%),也减小了网络的计算量(94%),最终在静态图像上,对正常心脏、ASD和VSD的诊断准确率达到95.4%,具体到区分两种间隔缺损的准确率也有92.3%。在视频图像上诊断两者的准确率则分别达到93.9%、92.1%。而如果仅使用心尖四腔图,诊断准确率将会降低5%。因此,这是首个使用多视图切面对先心病进行初步自动诊断的AI模型,比以往报道的单切面更加全面。Jiang等[14]使用深度学习模型于7个常用儿科超声心动图标准切面的二维及彩色多普勒图像上,实现自动诊断包含ASD、VSD在内的3种简单先心病,准确率可达92.3%。其他使用的卷积网络模型辅助室间隔缺损和房间隔缺损的还有IFT-Net[15]、EchoNet[16]等网络。
2.4 主动脉缩窄(coarctation of the aorta,CoA) CoA占先心病的4%~6%,重症CoA是导管依赖性先心病,胎儿期和新生儿期诊断是决定婴儿能否得以存活的关键。Coa病变进程受主动脉发育和流经血流量影响,胎儿期的心腔的变化可以不明显,产检诊断的假阳性和假阴性较高,有较大的局限性,文献报道的部分CoA的产前检出率仅为21.7%~52%。新生儿期CoA的筛查成为超声心动图的重要内容。Pereira等[17]提出了基于3个常用标准图像,即胸骨旁长轴图、心尖四腔心图、胸骨上窝图,采用机器学习的全自动算法实现了对新生儿CoA的自动诊断。该算法主要用堆叠降噪自动编码器(SDAE)进行特征提取,支持向量机(SVM)进行分类。主要方法是经胸骨上窝主动脉长轴图及胸骨旁左室长轴图上,观察主动脉动脉导管相邻处附近有无明显的内径异常。其中心尖四腔图虽然不能够得出CoA的诊断,但可以提供左心室增大等间接诊断信息。采用两个模型后,准确率最高的是胸骨旁左室长轴图与心尖四腔图的组合。而基于上述3个图像的运算,包含90例数据(26例CoA)的验证集,最终结果为总错误率12.9%,假阳性率11.5%,假阴性率13.6%。尽管这一结果还有待提升,但仍然优于采用心脏杂音加脉搏血氧仪进行筛查结果。尽管在先心病中CoA的占比不高,但鉴于CoA的严重不良预后,加强CoA诊断方法研究也有助于与其他复杂先心病的鉴别诊断。
2.5 动脉导管未闭(patent ductus arteriosus,PDA) PDA是最常见的先天性心脏病之一,约占先天性心脏病的10%~21%,仅次于房间隔缺损与室间隔缺损。PDA常无明显临床症状,晚期可引起严重肺动脉高压,出现右向左分流时还能引起患儿发绀。尽管PDA的诊断并不困难,但初级医生还是有一定概率会漏误诊PDA。Erno等[18]训练基于CNN的深度学习模型,在自动诊断PDA上敏感度达到0.83,特异度达到0.89,同样的研究关于PDA的自动诊断还有Jiang等[14]。
左心室射血分数(left ventricular ejection fraction,LVEF)是超声心动图最为常用的心脏收缩功能指标。传统手工勾画图像后获得左心室舒张末期和收缩末期容积的方法获得LVEF。这种方法在观察者之间存在差异,对急重症者耗时仍然较长。自动测量EF在成年人超声心动图中取得了较好的进展,Knackstedt等[19]应用最新版,具有机器学习辅助计算模型TomTec工作站,获得了接近专家诊断水平的LVEF,耗时仅8 s。Ouyang等[20]利用DL模型ECHO-NET实现了左心室的帧级语义分割,初步实现了对左心室舒张末期容积、每搏输出量和射血分数的自动计算。儿科LVEF自动计算的研究为数不多,Zuercher等[21]迁移了成年人的EchoNet-Dynamic模型,尝试用于儿科患者。该数据集包含267例正常心脏、54例扩张型心肌病。经改良EchoNet-Dynamic模型计算出儿科对象的LVEF,MAE为4.47%,均方根误差(RMSE)为5.54%,平均绝对百分比误差(MAPE)为7.57%、R2为0.87,这种应用于成人预测模型在对心脏时空特征提取有一定帮助,但应用于儿科仍有较大的局限性,尤其是成人与儿童心率和心脏解剖学大小、形状的差异较大,仍然需要较大的儿科超声心动图数据进一步训练。
在儿科超声心动图心腔容积的计算中,也有采用的EchoNet-Peds[22]及MAEF-Net模型[23],但均还不足以获得临床诊断效果,关键问题还是DL模型中的分层级数据训练不足。
AI技术在临床医疗应用以来,DL技术得以广泛应用,尤其是在疾病的筛查与分诊、诊断与预后评估,以及决策支持与治疗建议等诸多方面研究有了较大的进展,但仍然存在AI技术在临床试验中的伦理、法规的空白区域。现行的相关指南(SPIRIT和CONSORT)适用于传统的健康干预措施和临床研究,但并未充分解决AI系统特有的潜在问题。2020年9月9日,权威杂志《Nat Med》《BMJ》《The Lancet Digital Health》同步发了指南《Guidelines for clinical trial protocols for interventions involving artificial intelligence: the SPIRIT-AI extension》[24-26]和《Reporting guidelines for clinical trial reports for interventions involving artificial intelligence:the CONSORT-AI extension》[27-29],SPIRIT-AI和CONSORT-AI为如何设计、开展和报告涉及AI的临床试验提供了框架。其中SPIRIT-AI是对临床试验方案指南SPIRIT 2013的扩展,CONSORT-AI是对临床试验报告指南CONSORT 2010的扩展。基于对AI的方法学和伦理学,该指南分别在原有基础上增加15及14个新条目,强调了新增条目对评估AI介入效果非常重要,包括对AI介入环节进行清晰的描述、使用说明、使用AI所需的技能、AI的集成环境、AI输入和输出、人机交互细节和提供错误案例分析等,目标是提高临床试验的安全性和伦理性,这部指南为AI系统的超声心动图临床试验提供了第一个国际标准,尤其是涉及先心病的诊断和治疗。SPIRIT-AI、CONSORT-AI的推出,旨在帮助提高针对AI介入临床试验的透明度和完整性,解释和严格评估临床试验设计的质量以及报告结果存在偏倚的风险,但其也有不足,其主要针对的是监督学习,并未对无监督学习和半监督学习提供研究准则。
5.1 AI与数据 数据集的标准化不足,是DL超声心动图中的首要难点,这与多中心之间互通病例和存储图像不规范、不完整有关,难以达到DL训练时对病例的“见多识广“的要求;人工标注的精度不足,用于训练的标注应该是正确的,但超声专家因繁忙,往往是工科或医科初级学生承担,标注的误差较大,影响了模型的准确性。例如即使是当前世界上最大的图像识别数据库ImageNet也存在着约6%的标签错误[30]。
5.2 AI与临床 基于AI超声心动图是为了更好地解决临床问题,而不是为了发展AI而将其与临床问题强行挂钩,本末倒置。AI与临床医生不应该是竞争或者替代关系,两者应该是相互促进。AI可以帮助临床医生充分利用现有数据,减轻人工负担;临床医生也可以利用自己的专业知识及临床经验对AI模型的改善提出建议,促进AI模型的改良,并对AI作出的预测结果是否合格或正确做最终的定夺。
综上所述,以DL为基础的AI辅助小儿先心病的筛查和诊断,已经初现出临床应用前景,应用于临床决策支持、智能地向临床医生提供有效的支持,或是将AI结果与患者的医疗条件和数据相关联,实现AI的真实场景应用,仍需要多学科、多中心合作,建立完整公开数据库,增强AI模型在儿科超声先心病诊断的泛化能力。
利益相关声明:所有作者均声明不存在利益冲突。
作者贡献说明:陈训艺负责检索、翻译文献及论文撰写;陈伟玲、夏焙负责指导和论文修改工作。