张晨源
计算机视觉(Computer Vision)是人工智能领域的一个重要分支,主要包括图像分类、目标检测、图像分割等子任务。自从AlexNet被提出以来,卷积神经网络(Convolutional Neural Network,CNN)已经成为计算机视觉领域的主流架构。CNN网络由于能够以数据驱动的方式学习高度复杂的特征表示,对医学成像领域产生了重大影响。卷积神经网络(CNN)的核心是卷积操作,它能够在局部范围内进行操作并提供平移不变性等特性。虽然这些属性有助于开发高效和可推广的医学成像解决方案,但卷积操作中的局部感受野限制了捕获远程像素之间的关系。此外,卷积滤波器具有固定的权重,在推理过程中不会根据给定的输入图像内容进行调整。最近的研究表明,这些Transformer模块可以通过对一系列图像补丁进行操作来完全替代深度神经网络中的标准卷积,从而产生了ViT(Vision Transformer,ViT)。自从其问世以来,在许多视觉任务中,ViT模型已被证明推动了当前先进的技术的发展,包括图像分类、目标检测、语义分割等等。此外,最近的研究表明,ViT的预测误差比CNN与人类的预测误差更一致。ViT的这些理想特性引起了医学界的极大兴趣,将其用于医学成像应用,从而减小了CNN固有的归纳偏差。
Transformers作为一种新的注意力驱动构建块是由Vaswani[1]所提出。具体而言,这些注意力块是神经网络层,能够有效聚合整个输入序列的信息。自从它们问世以来,这些模型已在多个自然语言处理(NLP)任务上表现出最先进的性能,因此已成为循环模型的首选。本文重点关注基于标准Transformer模型构建的Vision Transformers(ViTs):通过级联多个Transformer层来捕获输入图像的全局上下文。具体来说,将图像分解为一系列补丁,并使用与NLP中相同的标准Transformer编码器来处理这些补丁。这些ViT模型延续了消除手工制作的视觉特征和降低归纳偏见的长期趋势,以更好地利用更大的数据集和更强的计算能力。接下来,本文将简要描述ViT成功背后的核心组件,包括自注意力和多头自注意力机制。
自注意力机制(Self-Attention)是Transformer网络的核心组成部分之一,它可以帮助长距离依赖关系进行建模。SA机制的核心思想是学习自我对齐,也就是确定一个单独的标记(或补丁嵌入)相对于序列中所有其他标记的重要性。对于2D图像,首先将图像重塑为一个扁平化的2D补丁序列其中H和W分别表示原始图像的高度和宽度,C是通道数,是每个图像补丁的分辨率表示生成的补丁数量。这些扁平化的图像补丁通过可训练的线性投影层投影到维度D上,可以表示为矩阵。自注意力的目标是捕捉所有N个嵌入之间的相互作用,这是通过定义三个可学习的权重矩阵来实现的,用于将输入X转换为查询(通过键(通过和值(通过,其中。首先,将输入序列X投影到这些权重矩阵上,得到和。相应的注意力矩阵可以表示为
多头注意力模块(MHSA)由多个SA块(头部)组成,以通道方式连接在一起,以模拟输入序列中不同元素之间的复杂依赖关系。每个SA块都有自己的可学习权矩阵,记为其中h为MHSA块中注意力头的总数。文本将其写为:
针对SA模块计算softmax的复杂度与输入序列的长度呈二次关系,这限制了它对高分辨率医学图像的适用性。最近,人们已经做出了许多努力来降低复杂性,包括稀疏注意力机制等。
本文将重点放在Transformer块(MHSA)中使用的多头注意力机制中,该注意力机制最近在医学图像分析中获得了较大的研究关注度。
在医学图像分析中,目标检测是指从x射线图像中定位和识别感兴趣区域(ROIs),如肺结节,这通常是诊断的一个重要方面。然而,对于临床医生来说,这是最耗时的任务之一,因此需要精确的计算机辅助诊断(CAD)系统作为第二个观察者,这可能会加速这一过程。继CNN在医学图像检测中的应用取得成功后,最近有研究尝试使用Transformer模型进一步提高性能,这些方法主要基于检测变压器(DETR)框架[2]。第一个混合框架COTR,由卷积层和变压器层组成,用于端到端息肉检测。具体来说,COTR的编码器包含六个混合卷积层来编码特征。而解码器由六个用于对象查询的变压器层组成,然后是一个用于对象检测的前馈网络。在ETIS-LARIB和CVC-ColonDB两个不同的数据集上,COTR的性能优于DETR。其他研究也采用了DETR模型,用于在T2MRI扫描中检测淋巴结以评估淋巴增生性疾病。
最近,利用深度学习从医学图像中自动生成临床报告取得了巨大进展。这一自动报告生成过程可以帮助临床医生作出准确的决策。然而,由于不同放射科医生报告的多样性、较长的序列长度(与自然图像字幕不同)以及数据集偏差(正常数据多于异常数据)等原因,这使得从医学成像数据中生成报告具有一定挑战。此外,有效的医学报告生成模型应具备两个关键属性:(1)语言流畅性,实现人类可读性;(2)临床准确性,正确识别疾病及相关症状。本节将简要描述Transformer模型如何实现这些期望目标,并有效克服医学报告生成相关的上述挑战。具体来说,这些基于Transformer的方法在自然语言生成和临床疗效指标方面均取得了最先进的性能。本节重点在于以Transformer作为强大的语言模型,利用远程依赖关系进行句子生成。根据其底层训练机制的差异,本文将基于Transformer的临床报告生成方法大致分为基于强化学习和监督/无监督学习方法。
基于强化学习的医学报告生成方法可以直接使用感兴趣的评估指标(如人类评估、相关医学术语等)作为回馈,并通过策略梯度更新模型参数。本节涵盖的所有方法都使用了自临界强化学习[3](self-critical RL)方法来训练模型,与传统强化学习相比,这种方法更适用于报告生成任务。Miura等人指出通过自然语言生成指标测量的自动放射学报告,其准确性通常不一致,为了解决这类问题,Miura等人[4]提出了一种直接使用自临界强化学习来优化两个新提出的奖励函数。第一个奖励函数促进放射学领域实体与相应参考报告的覆盖,而第二个奖励函数促进生成报告与参考报告中的描述一致性。
监督/无监督方法使用可微分的损失函数来训练医学报告生成模型,并且不通过网络与环境进行相互影响。本文根据这些方法所解决的挑战,将监督/无监督方法归类为关注数据集偏差、特征对齐等。
1.数据集偏差
在医学报告生成中,数据集偏差是一个常见问题,因为描述正常情况的句子要远远多于描述异常情况的句子。为了减轻这种偏差,Srinivasan[5]提出了一种使用Transformer作为解码器的分层分类方法。具体来说,Transformer解码器利用报告、图像和标签的特征以及特征之间的注意力,来实现有效的报告生成。类似的,Liu等人尝试通过蒸馏后验知识和先验知识来模仿放射科医生的工作,以生成准确的放射学报告。在另一项工作中,You等人提出了Align Transformer,从X射线图像中生成医学报告。Align Transformer包括两个模块:对齐分层注意力和多粒度Transformer。对齐分层注意力模块有助于更好地定位输入医学图像中的异常区域,另一方面,多粒度Transformer使用自适应利用注意力的多粒度视觉特征来准确生成长篇医疗报告。这两个模块使得Align Transformer实现了令人满意的性能。
2.特征对齐
基于特征对齐的方法主要关注医学图像和相应文本的编码表示的准确对齐,这对于不同模态之间的交互和生成以及随后的准确报告生成至关重要,为了更好地对齐,Chen等人提出了一种跨模态记忆网络,增强基于Transformer的编码器-解码器模型,从而应用于放射学报告生成。他们设计了一个共享内存,以促进医学图像和文本特征之间的对齐。类似的,在Chen等人共享内存工作基础上,Yan等人引入了一种弱监督对比目标,偏向于生成与目标语义接近的报告,从而产生更具临床准确性的输出。
Transformer模型在医学影像处理领域中快速发展,在该领域中探索出了广泛的应用前景,该模型为图像分割、目标检测、分类和图像生成等任务提供了强大的助力。医学影像处理中Transformer模型的发展潜力不仅仅局限于目前的应用领域,在多模态数据整合、自动医学报告生成等领域也将有良好的发展。随着计算机硬件和软件的不断进步,人工智能技术在疾病的早期诊断、治疗指导和治疗效果评估等医疗领域中有望迅速取得重大突破,更有望减小医师的主观判断和经验对诊断的影响。
然而,尽管已经有大量的研究数据表明AI人工智能可以显著提高疾病诊断的准确性和特异性,未来的研究仍然面临着一系列亟待解决的困难与挑战。例如当前可用的研究数据相对有限,需要更多的数据来验证和巩固研究结果的稳健性。此外,在开发人工智能软件时,研究人员必须与临床医生密切合作,以确保软件能够更好地适应临床实际需求,从而真正提高临床分析和诊断的能力,推动医疗领域的快速进步。