视觉Transformer与多特征融合的脑卒中检测算法

2022-03-26 05:13赵琛琦王华虎赵涓涓冀伦文王麒达李慧芝赵紫娟

中国图象图形学报 2022年3期

赵琛琦，王华虎，赵涓涓*，冀伦文，王麒达，李慧芝，赵紫娟

1. 太原理工大学信息与计算机学院,晋中 030600； 2. 北京大学光华管理学院,北京 100871；3. 太原理工大学期刊中心,太原 030024； 4. 山西慧虎健康科技有限公司,太原 030032

0 引言

在全球致死疾病排名中，脑卒中(脑中风)已成为第二大致死因素，严重影响人们的身体健康。急性缺血性卒中(cerebral ischemic stroke，CIS)(Boling和Keinath，2018)是最常见的卒中疾病类型，约占脑卒中2/3(Strong等，2007)。尽管脑血管疾病始终是中医药发展战略中的首要议题，但关于中医药治疗CIS的流行病学资料并不多，设计良好的临床中医药治疗急性缺血性卒中的研究也很少。急性缺血性卒中对人类健康造成了严重的威胁，在全球研究人群中约17%的人深受其困扰(Seshadri和Wolf，2007)。急性缺血性卒中，会消耗大量的医疗资源、经济资源，对医疗体系产生极大的负担(Virani等，2021)。随着人口老龄化的加剧，全国范围内患病人数增加，患病造成的死亡或残疾会对个人、家庭以及社会产生不良的影响。临床研究表明，发病时间分为急性、亚急性和慢性3种情况，急性发病时间短，如果患者能够在发病时间内得到准确的诊断和治疗，那么急性缺血性卒中所带来的影响可以得到有效改善，这不仅有利于患者的恢复，而且会大大降低疾病带来的并发症的影响(Hsieh等，2021)。目前，脑中风临床的主要诊断手段是磁共振成像(magnetic resonance imaging, MRI)和计算机断层扫描(computed tomography, CT)，病变区域中CT和MRI图像上有较为明显的区别，通过对较暗区域和较亮区域进行判断得出结论。尽管MRI和CT是临床医生常用的诊断手段，但急性缺血性卒中患者的诊断往往需要经验丰富的临床医生完成，不同医院医疗资源的差异将会影响诊断结果，漏诊和误诊率也会增加。为了解决上述问题，必须为急性缺血性卒中提供辅助诊断方法，降低漏诊和误诊率，并为急性缺血性卒中的早期发现提供新方法和新思路。西方医学未满足脑血管疾病控制和诊断的需求，临床医生开始考虑使用中医(traditional Chinese medicine, TCM)对脑血管疾病进行预防与诊断，该领域的一些基础和临床研究越来越受到脑血管学界的关注(Zhang等，2013；高佳明等，2019)。缺乏客观和定量评价标准的中医在大多数西方国家被认为是复杂的、补充性的代替医学(Hao等，2015)，然而在中国的西医、中医和中西医结合3种检查方式中，超过71.2%的患者更倾向于中西医结合，这为中医成为辅助诊断的方式提供了群体基础。中医望诊对急性缺血性卒中的早期诊断有重要的临床意义，《难经》中“望而知之谓之神”的思想，足以可见望诊在中医诊断中的重要地位(张超等，2020)。望诊是医生通过观察患者面色、形态、局部情况和舌头等的变化来判断患者病情。人体外部表征与身体内部变化极其相关(高利等，2007)。面部望诊和手部望诊对初步判断患者疾病具有指导性的作用。《灵柩》将面部划分为不同区域，不同的区域对应着不同的人体部位，这基本组成了人体结构的全局信息图。因此可以从面象的变化来判断脏腑的病症和疾病的性质，了解气血类疾病的情况(Zhang等，2014)。大鱼际诊断法为《黄帝内经》中最早记载的关于手部作为局部望诊的方法，可用于急性缺血性卒中的诊断手段，因为它更为便捷、迅速、经济且易于操作，所以有利于患者早期自我检查以及临床早期筛查工作，便于对高危人群进行早发现、早诊断和早治疗(郜亚茹等，2020)。中医望诊诊断脑血管疾病时通常是在自然光线下，通过观察患者的山根(鼻根处)褶皱以及面色，患者手掌外侧部位的隆起部位的皮肤颜色、皮肤纹理和肌肉形态等进行诊断。《运气学导论》中记载着很多通过观察患者面色并且结合脉象来判断患者发生脑血管意外可能性的案例。因此，中医望诊在脑血管疾病的诊断过程中发挥着重要作用，有利于早期脑血管疾病的筛查以及症状的鉴别，避免临床中误诊和漏诊情况的发生。

基于中医望诊的可能性，国内外研究者对智能中医展开了大量研究，Lin(2020)根据中医面部的一些视觉特征可以为疾病的诊断提供有价值的线索，提出一种基于卷积神经网络(convolutional neural network, CNN)的面向客观中医面部诊断的面部肤色自动分类模型。针对急性缺血性卒中的特点，建立回归分析模型分析中医脑血管疾病并发症状(刘泽文，2015)。部分研究者(席恋，2016；罗晓舟等，2017)使用机器学习方法对大量急性缺血性卒中患者的临床资料进行分析，同时结合中医相关知识，证明了中医智能诊断在中风诊断领域中的重要地位。研究者通过使用机器学习的模型，对患者数据进行线性学习，但中医诊断是从大脑进行的，具有一定的层次性、复杂性和非线性。大多数机器学习算法没有从大脑的认知角度考虑诊断的层次性，而疾病和综合征之间的关系不是一对一的，而是多对多的，这一事实使得机器进行综合征预测变得非常困难。深度神经网络在理论上比浅层模型具有更高的表征能力。以缺血性脑卒中疾病数据为研究内容，结合多种特征提出长短期记忆网络(long short-term memory, LSTM)模型,为缺血性脑卒中的临床辅助诊断提供一种方法，从而为医师诊断提供了参考(骆轶姝等，2020)。结合注意力机制的LSTM模型对比不使用注意力机制的模型，注意力机制方法在不同数据集上均能显著提升识别性能(余晨阳等，2019)。Karthik和Menaka(2018)从医学图像领域出发，利用端到端的自动框架识别脑卒中的损伤区域。颜色特征和纹理特征融合的方式可有效解决运动目标识别的问题(武明虎等，2017),还可以减少不同光照对颜色特征的影响。

尽管深度学习网络取得了可喜的成绩，但是深度学习与中医领域相结合的研究还较少，如何基于简单的手部和脸部图像，将中医望诊与人工智能技术相结合成为一个重要的研究点。针对以上问题，通过建立基于脸部和手掌图像的深度模型，能够较好地辅助中医进行脑血管疾病的预测。尽管很多研究者对脑血管疾病已经进行了相关的研究工作，但是基于中医望诊结合深度学习来进行脑血管疾病的相关研究很少。

本文的主要贡献有：

1)提出一种以中医望诊为基础的序列自注意力网络模型辅助诊断脑卒中的方法。该方法以中医理论为基础，将中医诊断中的面部和手部望诊转化为颜色特征和纹理特征进行脑卒中的智能检测。

2)将脸部(山根)和手部(大鱼际)感兴趣区域的颜色和纹理特征进行融合，结合原图像序列化地输入注意力模型中，从而学习出不同特征图像对模型性能的差异性，以便模型提取到更有判别能力的注意力特征，再将两个Transformer模块得到的向量使用多层感知机进行分类，使模型更有针对性地进行训练。

3)在收集的脑卒中患者数据集上的实验结果表明，本文模型可以取得较好的准确率。

1 本文方法

图1给出了本文端到端的Transformer的中医望诊图像诊断急性缺血性卒中的模型，总体方案流程如下：

图1 中医望诊图像诊断急性缺血性卒中的模型示意图Fig.1 Schematic diagram of a model for cerebral stroke with inspection diagnosis of traditional Chinese medicine(TCM) images

1)肤色特征提取。在实际的肤色检测中，肤色会受到采集设备和光照条件的影响，采用YCbCr颜色空间可以将亮度信息和颜色信息完全分类，使肤色特征不受光线的影响。

2)皮肤纹理特征提取。皮肤纹理特征不仅可以作为肤色的辅助手段，而且也是预测脑血管疾病不可缺少的特征。对脸部山根区域和手部大鱼际区域的图像，利用灰度共生矩阵(gray level co-generation matrix, GLCM)提取纹理特征。

3)图像特征融合。将提取的YCbCr颜色空间的特征和纹理特征的角二矩阵、对比度、逆差分矩和熵特征进行连接，达到利用不同尺度特征图的目的。

4)图像特征分类。面部和手部图像之间的联系也对辅助诊断起到一定的作用，采用Transformer模型可以进行序列化的输入，输出图像的分类结果。

综上所述，本文方法依照中医望诊理论，考虑肤色和纹理特征，并将不同位置的特征通过序列Transformer模型提取区域注意力特征，从而提高模型的分类准确性。

1.1 肤色特征提取

中医望诊中将面色大致分为：青、红、黄、白、黑，传统的中医望诊中由医师观察患者的面色，对患者进行诊断。因此，诊断结果往往受到医师医术水平的限制，并且容易受到光线的影响，缺少客观化的标准。对人脸面色使用计算机技术进行定性和定量的分析，可以弥补中医的不足。研究发现影响肤色判断的主要因素是亮度，消除亮度影响之后的肤色信息，肤色特征将更为准确。色彩空间的选择将直接影响特征提取的结果，为了减少亮度的影响，使用线性YCbCr颜色空间模型。

YCbCr是一种编码的非线性RGB信号，通常被欧洲电视演播室用于图像压缩工作。颜色由亮度(由非线性RGB计算出的亮度)表示，由RGB颜色空间进行加权转化而来。YCbCr是数字视频领域常用的彩色空间，这种表示方式可以很容易地去除一些多余的颜色信息，YCbCr中的亮度和色度分量可以分离显示。在YCbCr颜色空间中有两个元素，亮度信息存储为单个分量(Y)，色度信息存储为两个色度分量(Cb和Cr)。Cb表示蓝色分量与参考值之间的差值。Cr表示红色分量与参考值之间的差值。YCbCr值可以从RGB色彩空间中转化得到(Shaik等，2015)，计算为

(1)

1.2 皮肤纹理特征提取

中医望诊中对脑血管疾病的观察主要集中于脸部的山根处，皱褶长度、条数与疾病程度有很大关联。纹理特征的提取成为脑血管疾病辅助诊断系统的关键步骤，不同于颜色和亮度等特征，纹理特征反映的是物体本身的视觉特征，并且不易受到环境的干扰。由于纹理特征具有多样性和复杂性，采用灰度共生矩阵的方法对图像灰度信息进行不同灰度信息频次的统计。可以较为精准地预测和反映山根处灰度图像中的方向、变化幅度和相邻间隔等多种特征。

纹理是空间上的灰度频繁出现而形成的，在一定距离内两个像素之间会存在灰度关系，灰度共生矩阵便是分析纹理之间存在的灰度关系。灰度共生矩阵可以从方向、相邻间隔和变化幅度等综合信息中分析图像的局部模式以及它们的排列规则灰度。灰度共生矩阵是在一幅图像中存在两个灰度为i和j的像素点，像素点之间的距离为d，两个灰度的像素点在图像区域内同时发生的概率。灰度共生矩阵用Pd(i,j;θ)(i,j=0,1,…,L-1)表示，其中，i,j表示两像素灰度；L为图像的灰度级数；d是像素之间的位置关系，像素在X方向和Y方向上的距离分别为Δx和Δy，表示为δ(Δx,Δy)。根据定义，两个像素点在0°、45°、90°、135°这4个方向上位置关系如图2所示。在对灰度共生矩阵的角二阶矩、逆差分矩、对比度以及熵进行特征提取的过程中主要是对纵向纹理特征进行提取，本文中只采用一个方向位置关系进行特征提取。

图2 4种常用方向上的位置关系Fig.2 Position relationships in four common directions((a)0°； (b)90°； (c)45°； (d)135°)

1)角二矩阵。反映图像区域内灰度分布的均匀性，能量大小只反映纹理粗细程度，能量值越大纹理越粗。计算为

(2)

2)对比度。反映图像的清晰度，对比度越大，纹理深度越深，图像越清晰；反之纹理深度越浅，图像越模糊。计算为

(3)

3)逆差分矩。反映图像分布平滑度的度量，式中(i-j)2越小，表示纹理越细；反之表示纹理越粗。计算为

(4)

4)熵。表示图像内容的随机性，主要反映图像的信息量和复杂度。熵值越大，纹理越复杂；反之纹理越简单。计算为

(5)

在进行灰度共生矩阵处理图像边界信息时，根据处理的窗口大小和步长大小，扩展源图像的边界，使源图像扩大维数，并且将添加的边界像元值也参加计算，最终使原来的边界元素也能成为中心元素进行计算，使最终处理结果仍保持原始图像尺寸。

通过灰度共生矩阵对脸部和手部图像进行纹理特征提取，能够使得计算机“认识”图像并且更容易对图像进行定量分析。

1.3 颜色特征和纹理特征融合

皮肤颜色容易受到光照影响，在采用的YCbCr颜色空间中，Y分量表示亮度，CbCr表示色度，这两个分量已经可以表达面色。为了消除亮度分量变化带来的影响，颜色特征选择色度的两个分量作为主要颜色特征。纹理特征采用灰度共生矩阵提取4个特征向量进行特征表示，为了使得颜色特征和纹理特征较为方便地融合，纹理特征的提取采用滑动窗口的方式使其与颜色特征维度相一致。纹理特征提取过程如图3所示。

图3 目标区域纹理特征提取Fig.3 Target area texture feature extraction

1.4 模块设计

面部图像和手部图像的分类都采用Transformer模块，模型主要由3个部分组成(如图4)，分别为嵌入层、编码层和多层感知器分类层。其中，Pi表示位置编码，Ei表示融合特征编码，ti表示图像线性投影编码，Ti表示Transformer模块的输出结果，CLS为分类向量。

图4 模型基本模块Fig.4 Basic model module

在标准的Transformer模块中，输入的是2维矩阵，而图像数据是3维矩阵，并不符合标准。因此进行嵌入时需要对图像数据进行变化。将输入模型的图像(224×224像素)按照16×16的大小进行划分得到196块。此时划分之后的数据为[16,16,3]，通过映射可以得到长度为768的向量，从而满足Transformer模块输入要求。在处理得到的向量中加入专门用于分类的可训练参数，与之前划分完的块拼接在一起得到[197,768]的2维矩阵。位置编码采用随机初始化通过训练一个位置编码参数来学习记录图片的位置信息。

在编码层中首先研究标准的自注意力机制的计算(Cordonnier等，2020)，假设X∈RT×Din和Y∈RT′×Din分别为两个输入矩阵，注意力层Din输入Dout输出，维度映射如下

(6)

式中，Q=XWQ,K=XWK,V=XWV注意力层由Query矩阵WQ∈RDin×Dk，Key矩阵WK∈RDin×Dk和Value矩阵WV∈RDin×Dout构成。当X∈RT×Din和Y∈RT′×Din为同一个矩阵时，称之为自注意力模块。在式(1)计算中需要附加偏置，此时Key和Query的投影的计算为K=XWK+1T×1bK和Q=YWQ+1T×1bQ其中1a×b是一个维度为a和b的全1矩阵。在引入偏置后对QKT展开，即

(7)

通常情况下，注意力机制将相同的层融合，组成Nh头的多头注意力机制，即

(8)

图5 编码块和多层感知器(MLP)的基本结构Fig.5 The basic structure of the encoder and MLP(multi-layer perception) layers

2 实验及分析

2.1 实验室参数设置

本文分类模型在训练时，batch的大小设置为4，学习率设置为1E-5，最大循环次数设置为100，实验采用NVIDIA TITAN XP GPU。实验测试采用交叉验证的方法，将数据集平均分成5组，进行5次交叉验证，取所有交叉验证的结果的平均准确率作为实验的最终结果。

2.2 数据集

实验采用的数据集为急性缺血性卒中患者病例集，包括1 037名急性缺血性卒中患者和1 974名正常人脸部和手部相对应的高分辨率图像。实验前，对数据集进行筛选，手部大鱼际处皮肤有脱皮、伤疤等现象以及图像光度过于明亮或黑暗的图像不参与实验。数据集有995例正样本和1 974负样本数据，正负样本数据不均衡，进行数据扩充是非常有必要的。

2.3 模型评价指标

使用准确率(acc)、特异性(spe)、敏感性(sen)和F1-分数(F1)等评估性能指标作为模型评价指标，计算为

(9)

(10)

(11)

(12)

式中，TP为真阳性，TN为真阴性，FP为假阳性，FN为假阴性。

2.4 数据预处理

由于实验数据集中正负样本不均衡可能会给实验带来负面影响，因此需要对数据集中的正样本进行数据扩充，提高模型鲁棒性，避免过拟合。数据增强的典型方法有翻转、旋转、缩放、随机拆件或补零、色彩抖动和加噪声。为避免数据扩充过程中对纹理特征产生影响，尤其眉心区域的纹理特征中纵向纹理特征对最终结果起到关键作用，水平翻转在增强数据的同时可以最大程度保留纵向纹理特征不对模型性能产生影响，本文只采用对图像进行水平翻转的方式。

在数据扩充完成之后采用脸部关键点识别方法(陈雨薇，2019)对脸部山根处和手部大鱼际处进行感兴趣区域提取，大鱼际处利用关键点算法中识别到中指根部点、大拇指根部点和手腕处点，通过坐标构建矩阵。山根处以面部两眉毛靠中心方向的边界点坐标构建矩阵，分别得到224×224像素的感兴趣区域图像。

2.5 消融实验

本文模型主要由特征提取、Transformer和多分支分类3个模块组成，为验证模块的有效性，对所采用的模块进行组合实验，在收集的数据集上进行验证，并进行多次实验得出最终实验结果，如表1所示。

表1 不同特征的对比结果Table 1 Comparative results of different features /%

由表1消融实验结果可知，分别提取颜色特征(YCbCr)和纹理特征GLCM的模型在数据集上取得了79.40%和80.46%的检测急性缺血性卒中的准确率，而颜色特征和纹理特征融合之后的模型在数据集上取得了83.53%的准确率，明显优于特征融合前。由此可知，颜色特征和纹理特征在Transformer模型分类中可以有效提高分类准确性，两个特征的融合能够进一步提升检测精度。在颜色特征和纹理特征融合的前提下，对脸部和手部图像仅使用一个Transformer模块与分别对脸部和手部图像使用Transformer模块(MuTransformer)进行比较，使用一个Transformer模块的模型分类准确率下降了1%左右。这说明不同部位的特征在最终的检测中起到不同的作用，将特征融合到一个Transformer模块之后，不同部位相同特征之间的差异很容易在特征融合过程消失。融合之后的颜色和纹理特征，Transformer模块的空间特征以及注意力特征，这几种特征的结合能有效提升急性缺血性卒中模型的性能。

2.6 与其他模型对比

通过与其他方法进行对比，验证本文方法的有效性。表2列出了本文方法与其他方法在同一种数据集上的多特征对比结果和在不同数据集的单特征对比结果。本文方法在数据集上获得83.53%的准确率，优于现在对比方法。如骆轶姝等人(2020)在数据集上采用多特征的不同长短期记忆(LSTM)模型，其中基于双向 LSTM和 LSTM 组合的多特征模型(multiple features long short-term memory, MBLSTM)取得了类似模型中最高的准确率，可以充分说明在同样的多特征模型中双向LSTM可以获取更多的空间特征。使用VGG16(Visual Geometry Group Network 16)和CNN作为特征提取的模型在一定程度上比未进行特征提取的模型性能好，同时VGG16相比CNN层数更深、通道数更多，因此有更多的特征被提取出来。在实验中，特征提取方法对模型精度有着较大的影响，本文模型结合中医望诊的基本理论，能够有效提取相关特征，通过与深度模型特征相结合，可以最大化地利用不同特征，从而取得最好的模型性能。

表2 不同方法的对比结果Table 2 Comparative results of different methods /%

为了验证中医望诊的基本理论在检测急性缺血性卒中模型中是否起到作用，在表2中列出了相关文献在采用不同特征进行检测分类的性能表现。表2中C-BLSTM代表超声特征模型，S-BLSTM代表生化特征模型，J-BLSTM代表基本信息特征模型，从表2可以看出，采用中医望诊对应的颜色特征或纹理特征，在模型的性能上有约3%的提升，充分证明了中医望诊理论对应的颜色特征和纹理特征可以有效提升模型性能。

图6(a)(b)给出了同类型方法中表现最好的模型的敏感性和特异性，可以更直观地对比不同模型的性能。将数据集平均分为5组进行交叉验证，图6(a)为不同方法的敏感性指标比较，M-MuTransformer的敏感性对比其他方法具有明显优势，最高达到了85.75%，相较其他模型中表现最好的VGG16-BLSTM提升了2.98%。本文模型在所有测试数据中敏感性均高于其他方法，可以说明本文方法在真阳性判断上的性能优势。图6(b)为在交叉验证中不同方法的特异性对比。M-MuTransformer方法的特异性在数据子集Fold中略有降低，但相较其他方法的整体特异性仍较有优势。多数方法的特异性在数据子集Fold达到最高，在此数据子集下M-MuTransformer方法的特异性相比VGG16-BLSTM方法仅低了1.22%。通过分析敏感性和特异性，本文方法相比其他方法有更好的鲁棒性和稳定性。

图6 不同方法敏感性和特异性对比Fig.6 Comparison of sensitivity and specificity of different methods

3 结论

目前关于急性缺血性卒中疾病的早期诊断的研究还不够深入，根据中医望诊理论基础在检测早期急性缺血性卒中方面有显著效果，结合中医望诊中的颜色和纹理特征，对山根和大鱼际感兴趣区域图像提出了基于双Transformer模块的端到端联合分类检测方法，利用YCbCr颜色空间和GLCM获取高质量的数据，加速模型的收敛过程；采用患者脸部和手部图像提取特征信息；通过自注意力机制学习特征间的关联并分配权重，增强模型学习能力，提升模型性能。本文模型诊断效果良好，通过自动辅助诊断降低了主观因素影响，在缺血性脑卒中辅助诊断研究中具有一定的价值，为临床医生缺血性脑卒中疾病诊断提供了决策参考，也为患者进行有效的自我筛查提供了一种新方法。本文方法在辅助检测急性缺血性卒中疾病中取得了一定效果，但是该方法只结合中医望诊方法中的局部信息，如何让中医望诊的整个体系融入辅助诊断中仍需要进一步研究。基于这些问题，后续将会展开以下工作：

1)结合中医望诊的理论知识，将更多的特征有机结合，进一步提高模型性能。

2)模型整体使用的数据量偏少，加大对数据的收集来促进模型性能的提升。

3)目前，模型体量较大且不方便大规模的应用，将对模型进一步优化来满足实际需求。