李伊宁 王弘熠 王天任 柳 岸 赵 爽 康 健
1 中南大学湘雅医学院,湖南省长沙市 410013;2 中南大学湘雅三医院;3 中南大学湘雅医院皮肤科
近年来,基于深度学习的多模态融合技术进展迅速,它将不同模态的大量数据相互融合,利用深度学习充分显示数据之间互补的优点,摆脱单一数据中时间和空间的局限性,以便了解疾病的综合信息,保障医生决策的可靠性。
所谓模态,是指人接受信息的特定方式。模态起源于人机交互领域,被定义为在特定物理媒介上信息的表示方式,如:文本、图像、声音等。医学领域常指其为不同来源的医学信息,如影像信息、病史信息、生化结果等。以往人工智能辅助医疗系统开发思路常是单模态的,通过分析单一类型的数据,建立从数据到结果的映射,从而具备所谓“智能”。然而目前常用的检查数据长期以来各自独立,单纯分析某种类型的医学数据只能得到疾病某一个方面或层次的信息,因此具有较大局限性,不能评估疾病的全局状况,这极大限制了人工智能的医疗应用。单模态面临的困难正是多模态融合的强项。多模态融合技术是指机器从文本、图像、语音和视频等领域获取信息实现转换与融合以提升模型性能的方法。例如PET提供有关病变部位定量代谢信息,CT则可提供病变解剖结构信息。基于二者的模态融合打破二者固有的数据壁垒,利用特定的系列算法对采集到的数据进行处理,如此可同时从功能和结构方面刻画当前病变,为下一步的临床决策提供充分的参考。因此,运用多模态融合综合分析各种类型的医学数据才是人工智能诊断应用的关键,也是诊断病情的可靠手段。深度学习是一种以神经网络为架构对数据进行表征学习的算法,是对于新产生的多模态融合数据的利用和解读的有力工具。基于深度学习的多模态融合可运用多个隐含层的深度神经网络来完成多模态学习任务[1]。已有大量将深度学习用于医学数据处理的成功案例,如疾病诊断,肿瘤分割、预后等。
2.1 脑肿瘤 在MRI上对脑肿瘤进行识别是临床传统方法中手术定位、建立肿瘤模型的基础[2]。然而不同MRI展示的病变部位有差异,反映了不同角度的肿瘤特点。罗蔓等[3]提出了一种基于多模态三维卷积神经网络的MRI脑肿瘤分割方法,充分利用多张MRI之间的互补关系和三维结构空间之间的几何特点,判断脑肿瘤位置的灵敏度可达90%以上。除了识别,多模态融合技术对于脑肿瘤患者的分级同样具有意义。Fangyan Ye等[4]通过输入多种能够提供肿瘤不同信息的不同MRI图片,直接将三维卷积核应用于MRI图像,通过矢状、轴向和冠状方向上的差别,这为脑肿瘤良恶性分类打下基础。
2.2 乳腺癌 乳腺癌已成为女性最常见的恶性肿瘤。恶性乳腺癌的高发与早期筛查技术水平较低相关。Muxuan Liang等[5]提出了一个多模态深度信念学习网络,在该模型中基因表达、DNA甲基化、药物反应等数据首先被编码到多层隐藏变量中,然后使用一个联合潜在模型融合来自输入的多模态的共同特征,最后对癌症患者进行聚类。该种方法在乳腺癌相关基因组学的研究过程中具有较好应用前景。
组学、病理图像等数据均与乳腺癌患者的预后息息相关。孙冬冬[6]提出了融合组学数据与病理图像的深度神经网络生存期预测方法,该方法以混合网络为结构,分别处理乳腺的基因表达、拷贝数异常等组学数据和乳腺的病理图片,最终进行决策级融合,并对乳腺癌生存期预测取得了高于80%的准确率。
2.3 其他肿瘤 多发性骨髓瘤(Multiple myeloma,MM)是淋巴造血系统一种常见的恶性肿瘤,以多灶性骨骼受累为主要特征。传统的X射线扫描只有在病灶周围骨小梁丢失30%以上时才显示病变,而PET-CT可检测到传统方法无法检测到的微小病变,但由于主观判别标准不同,对MM的鉴别仍然很容易出错。Lina Xu等[7]提出了一种级联两个单一的神经网络形成复合网络的方法。第一个网络只输入容积CT数据以学习骨的解剖学特征,第二个网络输入PET-CT和第一个网络的输出。该方法取得了73.5%的准确率。不过与单模态网络相比,复合网络需要更多计算量,但检测性能却只有小幅提高。
不同亚型的横纹肌肉瘤患者预后相差极大,因此区分腺泡状横纹肌肉瘤和胚胎性横纹肌肉瘤尤为重要。Imon Banerjee等[8]开发了一个与迁移学习结合的深度学习框架,通过融合多参数MRI以区分上述两种亚型。PET图像上18F-FDG的摄取代表肿瘤新陈代谢,MRI图像上受限制的扩散程度代表肿瘤细胞密度,这些都与横纹肌肉瘤预后信息相关。这种方法的平均交叉验证准确度达到了85%。
3.1 癫痫 传统的癫痫病诊断依据患者的出生史、既往史和发病表现等。医生在诊断时具有较强的主观性,需要耗费较长时间综合判断病情,有可能延误患者诊断时机,造成不必要的二次伤害。钟霁媛等[9]融合了磁共振扫描序列中的时序特征和图像特征用于颞叶内侧癫痫的诊断。该方法可达到 92.3%的准确率,显著缩短了传统鉴别诊断(对受试者的脑电波进行24h以上的监测)所需的时间。
癫痫不定时发作的特点降低患者的生存质量,还给临床治疗工作带来困难。Parikshat Sirpal等[10]利用具有长短时记忆单元的深度递归神经网络模型,通过输入患者的脑电图—功能性近红外光谱多模态数据预测患者癫痫的发作。这一项技术提示未来甚至可以根据患者就诊时的检查数据预测患者发病时间,从而针对性地设计保护性治疗措施,大幅改善癫痫患者的社会适应和健康管理能力。
3.2 脑功能评估 病历信息和神经影像信息在帕金森等退行性病变中是十分重要的评估参考资料,而多模态融合技术正可以将二者融合。例如Xi Zhang等[11]设计了一种基于记忆的图像卷积神经网络,该网络的提取部分用于从患者大脑神经影像中提取有用信息,而记忆部分则负责从患者的病历信息中获取有用信息。两种信息通过网络结构在图像采集的对应时间点融合,可推断疾病发展状态。而Sergey等[12]则在深度学习中利用注意力机制的最新进展来提取大脑多模态数据中的非线性关系。他们提出了基于翻译的融合模型。该模型针对两种MRI信息设计,其中SMRI可提供有关大脑组织类型信息而fMRI可提供大脑网络之间的结构连通性信息。运用该模型进行了基于健康人群和精神分裂者的脑功能评估,结果显示二者在颞叶等几个关键区域存在明显的群体差异,符合以往的医学研究结果。
3.3 预后评估 医患双方在疾病诊疗的互动中绕不开对预后的探讨。多模态技术规避了传统算法局限性所给出的答案更具有参考价值。比如Anika Cheerla等[13]开发了一种无监督学习编码器用于肿瘤预后取得了较单模态更优的效果。该方法将病理图片、临床数据、mRNA表达数据、miRNA表达数据这四种数据模式压缩成一个单一的特征向量,针对每一种数据类型的特点选择不同的编码方法,最后利用深度无监督表示学习进行预测。而Hongming Li等[14]提出一种通过在比例风险模型中使用深度学习网络优化成像特征来建立直肠癌患者生存回归模型的方法。在深度学习模型中,通过数据驱动的方式在三维卷积层融合肿瘤的PET、CT图像数据,并提取特征信息来捕获放射图像数据和生存信息之间的复杂关系。
多模态研究的常见挑战是缺失数据。由于医疗数据共享不畅或疾病谱固有的特点,实际上很难拥有所需的全部种类的多模态数据。例如,在临床实践中,PET的花费较高并且部分患者担心放射性暴露。因此,患者大多都愿意接受MRI扫描而部分接受PET。在ANDI数据库中,所有821位受试者都有MRI数据,而进行PET者却不到一半。一方面,若将缺失PET数据患者的数据从训练集中除去,训练集的规模将会大大缩小,得到结果的可靠度将大打折扣。另一方面如果强行使用残缺的数据训练多模态模型,可能误导模型产生过拟合效应,不具备临床价值。
生成式对抗网络(GAN)由一个生成器和一个判别器构成。生成器根据输入的样本数据分布,生成新的数据分布,并尽量接近真实数据分布。判别器的作用则是判别输入数据是来自真实数据还是生成器生成的数据[15]。利用GAN可补充缺失的数据,部分克服数据集分布不平衡的难题。如针对上述情况设计一种生成对抗网络,学习MRI和PET之间的双向映射,然后可以根据对应的MRI扫描合成丢失的PET图像。
本文综述了基于深度学习的多模态融合技术在脑肿瘤、乳腺癌、癫痫等方面的临床应用进展。基于深度学习的多模态融合技术能够对临床相关的多模态数据进行整合,综合分析,从不同方面更加全面、深刻地了解、认识疾病,以达到诊断、分类、预后判断的目的。随着各种成像技术的不断发展,在临床上大规模应用基于深度学习的多模态融合技术已经成为大势所趋,这同时也为人工智能、深度学习在医学领域中的应用提供了方向。