孟钰婷 徐姣娜 裘可凡 牛国忠*
作者单位: 310053 浙江中医药大学第四临床医学院(孟钰婷 徐姣娜 裘可凡)310006 浙江大学附属杭州市第一人民医院(牛国忠)
脑卒中是世界范围内死亡和残疾的主要原因,全球终生风险约为25%[1]。我国脑卒中也是致残率第一的疾病[2]。在临床实践中,颅脑计算机断层扫描(computed tomography,CT)或磁共振成像(magnetic resonance imaging,MRI)是脑卒中分析研究和临床决策的支柱。近年来,随着现代医疗服务数字化,在大数据领域,人工智能有助于高效数据处理、分析和生产数据建模。机器学习是人工智能的核心,是一种自动从数据中学习并提供预测的算法,而深度学习(deep learning,DL)是机器学习领域的重要分支,已经引起了研究者巨大的兴趣。
深度学习是一类模式分析方法的统称,它使用复杂的多层神经网络体系结构,将输入信息转换为多层抽象层次自动学习数据,这些技术的强大之处主要基于其自动提取相关特征的能力[3]。深度学习可以分为监督学习和无监督学习,在监督学习中,计算机被给予标记的数据集,其中对象已被预分类,并且该算法寻找区分每个分类中对象的特征。相反,对于无监督学习,没有使用标准的图像或分类,计算机本身必须确定类别[4]。卷积神经网络(convolutional neural networks,CNN)是深度学习代表的算法之一,它就像是人类的神经网络,低级信息输入与神经元的下一级形成连接,第二层中的每个神经元可以组合来自较低级别神经元的输入以形成更新、更复杂输出,随着中间层或隐藏层数量的增加,最高层输出的允许复杂性和丰富性也随之增加。简单的基于神经网络的机器学习算法通常只包括少数这些层,深度学习算法包括更多层与层的连接[3-4]。在图像识别任务中,其中深度卷积神经网络(deep convolutional neural networks,DCNN)是最常用的模型[5]。深度学习可以在几天内从标记的数据集中自动创建这样的分类器,在冗杂的数据中自动提取相关特征,从而达到人工分类无法实现的目标,已经在许多医学疾病的诊断和预后预测展现出独特的优势。
2.1 辅助诊断 缺血性脑卒中诊断的金标准是MRI,但CT和CT 灌注成像(CT perfusion imaging,CTP)也是不可或缺的手段,由于不同的影像手段优势不同,医师主观判断存在一定的局限性,如何从辅助检查的资料中更快获得更多有用的信息是亟待解决的问题,而深度学习在这方面取得了一定进展。在缺血性脑卒中的辅助诊断时,需要减少计算时间,提高敏感度和特异度,降低假阳性率。深度学习的优势主要体现在对血管的评估、卒中梗死面积的分割、各类评分等方面,有助于更好更快辅助诊断脑梗死。
在 自 动 检 测AIS 方 面,CETINOGLU 等[11]基 于MobileNetV2 和EfficientNet-B0 CNN 模型在弥散加权图像(diffusion-weighted imaging,DWI)上识别缺血性脑卒中及其血管区域分类,并取得了很高的准确率,有助于进一步应用于自动检测中风。WANG 等[12]基于非对比计算机断层扫描(noncontrast computed tomography,NCCT)和CT 血管造影(CT angiography,CTA)图像,利用端到端3D 卷积神经网络模型在识别AIS 位置和体积方面,与CTP-RAPID 诊断准确性相当,在没有CTP 的基层医院帮助临床医师检测AIS 病变等方面具有很高的潜力。在AIS 诊断中,MRI 中的DWI 比CT 检测更加可靠[13],而NISHIO 等[14]开发一个基于NCCT 自动化AIS 检测系统,通过构建两阶段DL 检测模型,采用You Only Look Once v3模型联合Visual Geometry Group 16的减少假阳性模型,显著提高放射科医师检测AIS 的灵敏度。
在卒中梗死面积分割方面,DL 也展现出独特的优势。准确的医学图像分割可以进一步帮助临床医师评估患者对AIS的治疗反应,并为手术计划和康复策略提供可靠的依据[15]。在图像分割方面,FCN、U-Net、GAN 和Transformer 都具有较强的特征提取能力[16]。此外为了弥补模型的短板,很多研究衍生出一些改进模型。在2018 年的群岛挑战(AIS 病变分割),大部分团队都是使用CNN 的DL 方法,并且取得了不错的成绩。SONG 等[9]使用深度学习生成对抗网络算法,用CTP 数据创建了伪DWI 图像,使用鉴别器比较真伪DWI,并提取区分的特征以提高其预测伪DWI 病变的能力,再对伪DWI 图像进行分割,该方法平均Dice 系数(dice score coefficient,DSC)为(0.51±0.31),优于传统基于阈值的脑血流量方法[17]。YU等[18]使用注意力门控DCNN 探索单独训练、预训练和阈值训练三种不同方法,结果表明预先练习模型在训练最小和最大再灌注模型比单独训练两个模型和利用依赖于表观扩散系数和达峰时间的阈值训练表现出色,证明使用预训练预测中风成像的可行性。由于相较于健康组织,病变梗死面积较小,这导致了分类不平衡,这会导致有偏见的学习,从而损害细分绩效。CLÈRIGUES 等[19]采用对称模态增强进行预处理,使用平衡训练补丁采样策略和动态加权损失函数的小斑块来解决类别不平衡的问题。KUMAR 等[20]则使用了Classifier 分类器网络过滤掉所有不需要非病变图像切片。由于DL 模型图像分割需要利用大量的数据和高质量的体素级标,大多数基于CNN 的方法都需要对大量完全标注的主题进行训练,需要花费大量时间,ZHAO 等[21]使用398 个弱标记和5 个完全标记的主题的弱监督学习方法来促进AIS 病变较高的分割精度。CHEN 等[15]研究一种改进的平均教师网络和对抗网络相结合的半监督分割架构,将对抗网络深度集成到改进的多尺度平均教师模型中,用于脑损伤的分割。不但提高了分割结果,整体性能也优于目前最先进的一致性训练和形状感知学习半监督医学图像分割方法。
在评估血管方面,NIELSEN 等[22]比较基于门控循环单元DL 模型和基于专家对大脑中动脉M1 段机械取栓再通的评估在改良脑梗死溶栓分级(modified thrombolysis in cerebral infarction score,mTICI)上具有一致性,证明DL 在自动TICI评分具有较大潜力。STIB 等[23]提出基于DenseNet-121 DL 检测大血管闭塞模型,通过使用延迟期CTA 提高了诊断性能。ROSA 等[24]提出以动脉输入函数为主要输入模型,用一种端到端的监督CNN 来估计灌注成像中的血管功能,在血管功能估计方面和核心病变量化方面达到了评估的水平。
关于阿尔伯塔脑卒中计划早期诊断评分(alberta stroke program early ct score,ASPECT),CHENG 等[25]采用DL 的自动软件工具(eDWI-ASPECTS)计算的DWI-ASPECTS,其性能与神经放射科医师对评分评估相当,但由于评分规则的不确定和中线移位干扰导致M5、内囊和尾状核区域的评分一致性较差或中等。
2.2 临床干预及预后预测 中风是导致长期残疾的主要原因,其预后与及时干预直接相关,而神经影像数据与预测治疗结果之间的重要相关性。在临床干预及预后预测这方面,深度学习可以发挥其独特的优势。利用深度学习模型可以预测最终梗死面积,帮助医师及患者选择临床治疗方案。HO[26]开发一种基于自编码器架构的DL 算法,从磁共振灌注成像(perfusion-weighted imaging,PWI)中提取潜在代表性成像特征(即深度特征)来预测卒中的发病时间,为指导AIS 治疗的操作决策提供了支持。WANG 等[27]开发和评估一种DL 模型,以动态敏感对比灌注MRI 中的灌注病灶为监督,从而自动化识别动脉自旋标记图像中的低灌注病灶和半暗带。DEBS等[28]将再灌注状态纳入CNN 的模型在预测最终梗死面积方面,比临床使用的灌注-扩散失配模型获得了更高的AUC和Dice 相似系数。通过比较再灌注成功与失败情况下梗死率的预测,有助于估计治疗效果并指导患者治疗决策的选定。WOUTERS 等[29]采用深度神经网络模型通过CT 源灌注图像预测了急性大血管AIS 患者的最终梗死体积并得出了单个梗死生长速率,可以帮助医师预测不同情况下的最终梗死体积,包括再通时间和mTICI 评分。此外,HILBERT 等[30]使用残差网络模型的自动图像分析在预测AIS 患者血管内治疗后的预后上优于基于放射图像生物标志物的预测。在另一研究中,NISHI 等[31]采用DL 获得预后信息能够更好预测大血管闭塞患者的长期临床结局,与基于DWI-ASPECTS 和缺血性核心梗死体积数据相比。但在ASPECTS 0~4 分/大缺血核心梗死体积≥70 mL 亚组的患者中,不具有优势。
脑梗死出血性转化(Hemorrhagic transformation,HT)是卒中的严重并发症之一,精准预测患者出血的可能性对疾病治疗及预后起着重要的作用。YU 等[32]使用基线MRI 的门控注意力U-net模型不但能预测没有再灌注信息的AIS患者3~7 d 的梗死灶,并提供了包括水肿和HT 面积在内的亚急性脑卒中病变的综合估计。JIANG 等[33]开发和验证基于多参数磁共振成像的CNN 模型自动化预测AIS 患者血管内取栓后HT 具有较高的准确性和较好的泛化能力。其中用切片数据集可以用来进行模型训练并替换感兴趣体积数据集,而提出的基于DWI、PWI 和临床多参数DL 模型的预测性能和泛化性最好,可以协助血管内治疗后的AIS 患者的围手术期管理。
人工智能初步代替人工在医疗上的作用是大家广泛关注的话题,DL 作为人工智能的先进方向,既是机遇又是挑战。3.1 缺少多中心大样本的检验 虽然DL 被各类学者广泛研究,但大多数是单中心小样本小范围的研究,所研究的数据缺乏广普性,而且大多数研究的局限性都有提及模型的过拟合和缺乏鲁棒性,因而在未来需要建立多中心大样本的数据库,以供学者研究、检验模型性能,改善模型上不足。此外,对多厂商扫描仪提出规范化的标准,使其获得的图像数据统一化,这也有利于DL 模型更好适用于临床。
3.2 DL 被称为黑盒,其学习和分类机制过于复杂和难以理解,难以解释单个结果的来源,不能解释如何通过DL 模型精确计算结果,临床决策的理想循证使得医学适用性受到质疑。因而需要进一步研究模型可视化,以提供洞察网络的决策过程。
3.3 人工智能应用于医学需要多学科联合研究。人工智能研究员对临床了解不深入,而临床工作者对深度学习知识比较薄弱,研究结果适用于对描述的研究人群具有相似特征的患者,还无法广泛应用于现实临床的情况在应用。这需要临床科室、辅助科室和研究人工智能的团队联合采取多学科合作方式来达到共赢。而真正适用于临床实际情况的模型,需要临床医师的辅助、大量训练和不断改进来提高模型的性能。
DL 广泛应用于AIS 在辅助诊断和临床预测愈后,并起到了重要作用。在目前深度学习模型无法代替医务人员的临床诊断,但在无论是在自动检测卒中、对血管的评估、分割病变还是并发症的预测方面,DL 从大量冗杂的信息中精确地提取出高质量信息,可以使医务人员在临床工作中能更好更快诊断从而做出有益于治疗方案,提高治疗决策的速度,对于不熟悉中风成像的医疗保健专业人员则可以起到提示作用。深度学习体系对于医师而言还是相对陌生的领域,需要联合人工智能工程师进行深度学习体系结构的改进和发展。DL 目前仍存在过度拟合、训练时间和机制的复杂性等因素的限制,把深度学习合理应用,将在医疗上达到革命性的进展,相信在未来,DL 将应用于更广泛的空间。