陈铭海 白 芳 陶 海
人工智能(AI)是指通过使计算机对人的思维过程和行为进行模拟,从而实现从海量数据中自动获取并分析有价值的信息的技术。大量的研究表明,无论是文字资料,还是图片资料,或者是声音资料等,AI都有着强大的处理能力。在眼科领域,AI常与眼部影像资料结合以辅助临床诊断[1-2],为很多眼部疾病的诊疗提供了新的可能性。由于人体和疾病的复杂性,单一模态的数据所提供的信息往往不够全面,因此对于多模态数据综合利用的需求逐渐增加。多模态数据融合技术(MDF)是AI领域中的一种数据处理技术,是指利用计算机进行多模态数据的综合处理,即对那些从不同领域或不同视角对同一对象进行描述时所获得的数据进行综合处理的一项技术[3],其对于描述对象的分析有更高的准确性与可靠性。研究表明,该技术能够提高AI辅助诊断的准确性,并能提高诊断效率,降低诊断成本,近年来已成为眼科AI研究领域的热点并取得了较大的进展。本文对MDF的原理与优势、发展简况、架构与主要技术难点、MDF在眼科的研究现况及目前存在的尚待解决的问题进行扼要的综述。
模态是指针对描述对象的一个领域或者视角所获得的数据,多模态是指从不同领域或视角描述同一对象所获得的数据,不同模态间都存在不同程度的异质性。为了应对模态间的异质性,MDF需要将各个模态特征投射到一个公共子空间以实现将多模态数据相互融合的目标。因此,降低异质性的影响,使得各模态所携带的数据能更好融合在一起,即缩小语义子空间中的分布差异,同时保持特定语义的完整是MDF的主要目标[3]。
单模态数据处理技术是指仅利用或处理一种类型或单一来源的数据的处理技术,如单一的CT图片、OCT图片、患者图片或视频等。与传统单模态数据处理相比,MDF具有以下优势:(1)利用多模态数据能更加全面分析出目标的真实情况,有着更高的准确性;(2)在缺少某一模态信息时,另一模态能迅速填补,有着更高的可靠性;(3)MDF有潜力突破单模态信息来源的束缚,更加符合人在真实世界对外界信息的获取与处理。
1989年,有学者利用McGurk效应结合了来自听觉和视觉的两种信息源,实现了在没有声音信号的情况下,仅靠视觉信号,通过唇读获得语音信息的可能[4-5],成为最早多模态融合的研究之一。随着技术的进步多模态融合进入多个领域,如多媒体内容索引和检索、人类社会行为研究、情绪识别和情感计算等各种领域。在医学领域,1996年就有学者研究如何更好地将正电子发射断层扫描技术(PET)与电子计算机断层扫描(CT)融合,最终在MDF的帮助下,PET-CT应运而生[6]。MDF在医学方面一路发展至今,在眼科学、肿瘤学、精神病学等领域,尤其是在神经学中的阿尔茨海默病领域取得了较大的进展[7]。
MDF的架构通常是指处理和整合不同模态数据的方法和结构。它规定了数据如何在系统中流动、被处理和被组织,以及各个组件如何互相交互,同时定义了整个系统的设计和运行原则。根据架构的特点,其可分为联合架构、协同架构以及编解码器架构[3]。联合架构是将各模态映射到共享语义子空间中,再通过“加”或者“乘”的方式联合,方法简单但容易造成语义丢失且对每个单模态要求高。协同框架是以寻找协调子空间中模态间的关联关系为目标,使得各模态在一定条件下进行相互协同,兼具模态协同和特征融合的特点,但由于各模态之间仍然具有较大的排他性,因此模态融合较为困难。编解码器架构主要由编码器和解码器构成,将一种模态映射到另一种模态之中,即在源模态基础上生成新模态,但其决策模块复杂且每个编码器和解码器只能对应其中一种模块。
要将不同来源、不同形态的数据融合在一起将会遇到各种技术难点和问题[4]。第一个便是代表(representation),即用同一种“语言”将不同模态的信息准确且有效地表达和总结。其次是翻译(translation),即将不同模态间的数据相互转化,使之能在同一框架下进行数据处理。之后是对齐(alignment),即确定来自两个或多个不同模态的(子)元素之间的直接关系,如时间和空间上的对齐。此后便是融合(fusion),即利用不同模式的信息进行结合以便于预测。最后是共同学习(co-learning),用一种模态来训练另一种模态,即让多模态进行共同学习与提升。
为了解决“融合”这一大技术难点,需要设计和实施一些特定的数据处理和学习算法,如模型无关的融合方法与基于模型的融合方法[8]。模型无关的融合方法包括基于各个模态特征提取的早期融合,主要发生在决策层面的后期融合以及结合了前两者特点的混合融合。三者各有优缺点,早期融合简单却常过拟合,后期融合虽然可以解决过拟合但对训练要求高,混合融合虽然较前两者灵活且信息损失小、融合水平高,但并非所有情况都适合,还需具体问题具体分析[8]。而基于模型的融合方法是从实现技术和模型的角度来解决“融合”这一难题,包括多核学习(MKL)、图像模型方法(GM)、神经网络方法(NN)。MKL能够灵活地将多个可以看作各数据点之间的相似函数的“核”进行异构数据的融合;GM是通过图像分割、拼接和预测对浅层或深度图形进行融合;NN是通过模拟生物神经网络的结构功能和计算来完成数据融合。目前,NN在医学领域应用非常广泛,其不仅有很强的融合能力,还有较强的学习能力和拓展能力,但是其模型的可解释性也偏弱[7]。
单模态数据处理在眼科领域从尝试到测试,最后到部分产品开始获批上市,取得了一定的成就,如已有糖尿病视网膜病变(DR)相关的AI系统被中美两国批准使用[9-10],但由于它只能展现描述对象的一个视角或领域的特征,所以具有不可避免的局限性。为了克服这一局限性,MDF成为眼科AI当下研究的热点和未来的方向,尤其集中在眼底病、青光眼等的诊断方面。MDF可以通过融合不同角度与类型的数据,从而获得患者更加全面且准确的信息,对病情进行更加精准的分析。
2.1.1 年龄相关性黄斑变性
年龄相关性黄斑变性(AMD)是发达国家最重要的致盲眼病之一[11],常用的诊断技术包括荧光素眼底血管造影(FFA)、OCT、眼底照相等[12]。MDF将多种诊断技术进行融合,能够提高诊断的准确性。
2.1.1.1 OCT联合眼底照相
有学者借助MDF技术,利用多模态随机森林模型、受限玻尔兹曼机和深度信念网络算法,融合OCT图片和眼底照片,鉴别正常黄斑和AMD的黄斑结构[13]。结果显示,效果最佳的OCT图像联合眼底照片的模型与单模态OCT图片的深度学习(P<0.001)或者单模态眼底照片的深度学习(P<0.001)相比,无论是受试者工作特征曲线下面积(AUC)还是诊断准确率,多模态模型的结果都更理想,其中AUC是用来评估一项测试的分类能力的指标,数值越接近1结果越理想[14]。之后,有研究团队利用基于双流卷积神经网络而来的多模态卷积神经网络(MM-CNN)将OCT与眼底照片融合在一起,帮助临床医生识别正常黄斑以及干性AMD、息肉样脉络膜血管病(PCV)以及湿性AMD(不包括PCV)[15]。在识别PCV和湿性AMD上该模型表现出比单模态的OCT-CNN更高的准确率。
2.1.1.2 OCT联合眼底红外反射图像
有学者利用眼底红外反射图像(IR)和OCT图像建立2个单模态模型(分别是只利用IR与OCT的模型IR-ONLY、OCT-ONLY)和3个多模态模型(IR-MAIN、OCT-MAIN、DUAL),帮助临床医生将AMD分类(正常黄斑、干性AMD和湿性AMD)[16]。3种多模态模型区别在于利用该团队提出的一种新的特征融合方法——垂直平面特征融合,将红外图像提供的全局信息和OCT扫描图像提供的细微信息朝着不同方向融合,即IR-MAIN模型为将OCT图像融合于IR图像,OCT-MAIN模型则相反,而DUAL模型是将两种图像相互融合。无论是内部还是外部数据集,OCT-MAIN模型(即以OCT资料为主,IR资料为辅的融合策略)的准确率在五个模型中相对较高,能够达到富有经验的高级医生的水平。
方向图代表了一个指纹图像的固有属性,同时也定义出了局部邻域中脊、谷的固定坐标。通过原始指纹图像的方向纹理,我们对指纹图像方向场的估计采用以下算法[14]:
2.1.1.3 OCT联合OCTA
OCTA能够展现视网膜血管情况。有学者提出将频域光学相干断层扫描(SD-OCT)图像和OCTA图像结合在一张图中,帮助临床医生诊断AMD晚期的脉络膜新生血管,即将OCT图像与OCTA图像输入融合模型,输出一张可以准确包含上述两张图像主要信息的图片,帮助临床医生更好地利用这两种影像资料,这也是MDF提升临床诊断效率的体现[17]。另外,有学者利用特征级融合方法建立深度学习模型,结合OCT与OCTA图像来识别AMD晚期的脉络膜新生血管,实现了 95.50%的准确率和0.979 6 的AUC,相当于一位经验丰富的眼底病医生的水平[12]。
2.1.2 DR
随着糖尿病的患病率不断上升,DR成为了眼病筛查的重点之一[9]。AI能够快速识别图片,为筛查和诊断DR提供了经济且准确的方法。有研究团队利用眼底照相结合病历中非图像数据,建立了针对DR的深度学习模型,该模型能够更好地识别出需要转诊的DR与不需要转诊的DR[18],AUC达到0.979 6,灵敏度为96.84%,特异性为89.44%,显著优于单模态的图像或非图像信息的模型。该模型的出现,为非眼科医生对糖尿病患者转诊至专业眼科的时机判断,提供了一个新的解决方案,在及时干预DR与合理利用医疗资源之间找到了一个平衡。另外,Tseng等[19]提出通过融合不同的基于眼底照相的单模态深度学习模型,组成一个多模态深度学习模型来提高诊断DR的准确率,开发了将病变信息与疾病严重程度分类结合的融合架构。该团队分别运用了晚期融合与两阶段早期融合构成的两种多模态深度学习模型,在运用晚期融合的多模态深度学习模型中,利用后处理将分级模型和病变分类模型结合在一起,在运用两阶段早期融合的多模态深度学习模型中突出了可疑的DR,并在第一阶段产生完全加权的病变图像。根据测试结果与最先进算法比,两种融合模式均表现良好。这一研究结果也提示,在没有更多疾病资料的辅助下,利用同一资料的不同分析方向的资料融合,能提高对相应疾病的诊断准确度。
2.1.3 其他眼底疾病的筛查
有研究团队利用新型模态特异性注意网络(MSAN)将眼底照相和OCT优点结合[20],诊断包括DR、AMD以及病理性近视在内的多种眼底疾病。通过将两种多模态模型[AUC:0.729 2(双流卷积神经网络)和0.855 2(MSAN)]与眼底单模态模型(AUC:0.658 3)和OCT单模态模型(AUC:0.701 4)对比,证明了在该实验中多模态模型优于单模态,并且MSAN模型的诊断准确率明显优于上述其他模型。与融合不同的影像资料不同,有学者提出将基于OCT的多种算法进行融合,来提高对眼底脉络膜新生血管、脉络膜玻璃膜疣与糖尿病黄斑水肿的诊断效果[21]。他们提出了基于融合网络(FN)的视网膜OCT两种线性融合策略(FN-F1-OCT,FN-Weight-OCT)和一种非线性融合策略(FN-Auto-OCT),融合了InceptionV3、Inception-ResNetV2和Xception三种卷积神经网络(CNN)的类型。同时将三种融合模型与Kermany等[22]所提出的模型进行对比,在准确率上平均提高了5%,其中以FN-Auto-OCT融合算法为最优。这种集成算法的思路或许会成为提高单一检查准确率的方案。另外,有学者对术前黄斑OCT图像数据的卷积神经网络[23],和患者结构化数据的多层感知器进行融合处理,实现将OCT与患者文字资料结合,预测特发性视网膜前膜患者在玻璃体切割术后6个月的视力。研究结果显示了其能够精确预测患者术后6个月的最佳矫正视力。
视网膜母细胞瘤是常见的眼科恶性肿瘤。眼底照相在评估视网膜情况中发挥重要作用,不过虽然其分辨率高,却只能呈现视网膜的二维图像。然而,核磁共振(MRI)可以描绘出视网膜的三维图像,但是它存在着分辨率低的问题。对此,有研究团队提出通过自动监测出眼底相关解剖标志,如视盘等,将眼底照相与MRI融合在一起,为MRI增加了包括眼底血管在内的以往无法显示的信息[28],以帮助诊断视网膜母细胞瘤。而前文所提到的将眼底照相与OCT进行融合来诊断AMD,是该研究之后将二维图像与三维图像优点相结合的又一个尝试。
迄今,MDF虽然取得令人欣喜的进展,但是依旧存在一些有待解决的问题。首先,如何将各个模态的信息更好利用,既不会因信息过多而使其过于冗杂不利于最终结果的解读,也不会因为信息过少导致无法反映真实情况,探求一个平衡点是众多新模型不断努力的方向。其次,目前有些在单模态运用顺利的算法,在多模态上运用后效果不佳,而且目前多是以双模态为主,对更多模态的探索一定程度上是受限于目前的算法。最后,相对于模型训练庞大的训练量,常会遇到训练集数量不够的状况,有待更多的研究去解决。
近年来,MDF在眼科领域的应用已取得较大进展,尤其是对AMD、DR、青光眼等疾病的诊断。尽管距离实现AI帮助临床医生进行疾病诊断还有许多困难需要克服,关于MDF的疾病诊断更多的是在研究阶段,但是随着技术的不断进步,各种算法的不断完善,未来MDF将有可能实现在真实世界中为临床医生提供真正高效、可靠的临床辅助诊断。