多分支深度特征融合的中医脑卒中辅助诊断

2022-03-26 05:13王麒达冀伦文强彦王华虎赵琛琦李慧芝赵紫娟

中国图象图形学报 2022年3期

王麒达，冀伦文，强彦*，王华虎，赵琛琦，李慧芝，赵紫娟

1. 太原理工大学信息与计算机学院, 晋中 030600； 2.太原理工大学期刊中心, 太原 030024；3. 北京大学光华管理学院, 北京 100871； 4.山西慧虎健康科技有限公司, 太原 030032

0 引言

脑卒中是一种由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一种急性脑血管疾病。其中缺血性卒中(又称脑梗)发病率最高(Zhou等，2019)，占脑卒中发病率的70%以上(Feigin等，2015)。近年来，虽然诊疗技术不断发展，但由于其发病速度快、复发率高且致死率高，仍是各国的主要死亡原因之一。由于临床缺乏有效的诊疗手段，即使进行针对性治疗，患者也会出现一系列并发症，无法有效恢复。目前普遍认为预防是最好的措施，因此，如何在发病前及时检测，提醒患者预防与保养是医学领域急需解决的重大问题。然而，临床检测存在如下弊端：脑卒中患者发病前征兆不明显，尽管患者会在发病前出现一侧肢体无力或麻木、说话不清和头晕头痛等症状，但这些并非典型临床症状，患者往往不会重视。

不同类型的脑卒中治疗方式也存在差异，磁共振成像(magnetic resonance imaging，MRI)和计算机断层扫描(computed tomography，CT)是临床筛查诊断的有效方式(Zhang等，2005)。近年来，许多研究专注于脑部的相关病症。Cho等人(2019)提出级联深度学习模型以辅助真的颅内出血；Kuo等人(2019)利用4 396幅CT图训练了一个全卷积神经网络；Chilamkurthy等人(2018)开发并验证了一套深度学习算法以自动检测颅内出血。这些研究针对的患者不是已经发病，就是出现一些严重的临床表现，即使治疗也极易复发。因此，如何针对性有效预防脑卒中显得极为重要。

中医经过长期不断发展，对脑卒中已经有了较为完整的认识。其中中医四诊望、闻、问、切中将“望诊”排在首位，不仅是中医诊病中提取患者信息的首选方式，更是突出了望诊在中医诊病中的重要地位。《黄帝内经·灵枢·本脏》中有“有诸于内，必行于外”、“视其外应，以知其内脏，则知其病矣”等记载，《灵枢·九宫八风论》中也有“三虚而偏中于邪风，称之为击仆偏枯”等关于脑卒中的记载，因此无论是脑卒中哪一种类型，人体的内脏都会与人体的各外部部位产生一种隐形的映射关系，通过外部特征的变化间接了解身体内脏的变化情况。因此许多脑卒中患者更加倾向于由传统中医医师通过便捷的望诊进行初步诊断，但传统中医进行望诊需要诊断医师具备多年的行医经验，并且不同医师在手诊标准上会有些许差异，出现医生数量少、患者数量多、患者等候时间长以及医师诊断压力大等问题。许多研究也验证了人体外部表征与体内各器官间的变化有着不可或缺的关系。Zhang等人(2017)提出一个基于几何特征的自动识别和分析舌型的分类方法。Li等人(2007)通过CIELAB(CIE L*a*b*)颜色空间提出一种基于中医理论的舌色分类数值方法。Kim等人(2008)提出一种利用面部图像周围颜色分布的心脏病诊断系统。Li等人(2019)提出多模态的学习方法来利用不同体表特征的相关性，以此辅助检测糖尿病。Su等人(2011)对肺癌患者舌象进行定性和定量分析后对肺癌患者进行分类。除此之外，Wang等人(2017a)对脉诊进行相应研究，通过提取脉冲特征辅助糖尿病诊断。Wang等人(2014)实现了多通道脉冲信号采集的复合系统，能够分析病人的健康状况并且性能良好。Yan等人(2014)描述了一种新颖的呼吸分析系统，通过分析一些指标浓度实现糖尿病患者的检测。Lin等人(2020)开发了一种基于人脸照片的CAD(coronary artery disease)深度学习算法。Zhang等人(2021)提出了双堆栈网络，通过分析患者面部图像区分慢性肾病和糖尿病。韩学杰等人(2018)从医学角度验证了动脉血管病与手部等身体部位有着不可忽视的联系，因此，如何通过深度学习技术将中医望诊进一步客观化，进而有效辅助中医进行脑卒中预测成为研究的重中之重。

本文基于面部图像与手部图像提出一种双分支交叉注意特征融合模型(dual-branch cross-attention feature fusion model，DCFFM)，能够很好地辅助传统中医进行脑卒中疾病的预测。本文模型分别构建面部与手部的深度特征提取任务模块，在各模块中构建主体分支与辅助分支。除此之外，在模块的双分支间构建了信息交互模块，进一步帮助模型提取具有区别性的特征。最终，将各模块间的特征进行特征融合以实现预测。

本文的主要贡献有：1)提出一种基于面部图像与手部图像的深度学习辅助中医预测脑卒中的方法，首次尝试将面诊与手诊相结合进行脑卒中病症预测。2)设计了一种多分支深度特征融合学习模型，将两个部位重点诊断区域作为辅助信息，并构建一种新的信息交互模块(information interaction module，IIM)，以一种新颖的方式结合不同分支的特征分量，使模型更有针对性地进行训练。3)通过实验验证了本文方法的可行性。结果表明，相比于传统的分类方法，本文模型在准确率上可以达到83%左右。

1 方法

本文模型的整体架构如图1所示，整体分为面部特征提取模块、手部特征提取模块和特征融合模块3部分。首先，根据中医医师的指导，对采集的面部图像和手部图像进行预处理，截取出脑卒中在面部和手部的重点诊断区域，并依据中医望诊经验进行对应图像处理后作为辅助信息分支的输入，将原始图像作为主体分支的输入。接着，通过模型训练进行两个分支的深度特征提取与融合，并通过信息交互模块实现分支间的信息共享。最后，将两部位的深度特征进行整体融合降维，输出多分支深度特征融合下的预测结果。

图1 DCFFM模型整体架构图Fig.1 Overall network structure of DCFFM

1.1 数据预处理

本文收集由专业设备拍摄的面部与手部高清RGB图像。模型的输入需尽可能只包含脸部和手部区域以学习正确的映射关系。基于此，在专业中医医师指导下，设计了一种确定图像尺寸大小方法，以确保在平衡网络参数数量的同时尽可能多地获得有用信息。

对于手部图像，根据中医医师传统手诊经验，脑卒中的手诊重点诊断区域集中在掌丘、大小鱼际等掌心区域，如图2所示，将中指与手掌交界点作为Yh1，手掌与手腕交界点作为Yh2，大拇指与手掌交界点作为Xh1，手掌掌心靠小拇指一侧的边界处作为Xh2，该点平行对应于大拇指与手掌交界点Xh1，则ΔXh和ΔYh为

图2 手部图像预处理Fig.2 Hand image preprocessing ((a) full palm image；(b) palm area image)

(1)

最后，选择两值中较大的一项得到Psize，将Psize作为掌心区域图像的高和宽并进行截取。具体为

Psize=max(ΔXh,ΔYh)

(2)

对于面部图像的预处理如图3所示，首先将额上与发际线交界处的中心点标记为Yf 1，将鼻尖标记为Yf 2，则ΔYf为

图3 面部图像预处理Fig.3 Facial image preprocessing ((a) facial image；(b) face key area image；(c) image of brow center area)

ΔYf=|Yf 1-Yf 2|

(3)

接着，按照ΔYf的大小截取面部的图像。在中医面诊中，对于脑卒中的诊断重点区域主要集中于眉心等周边区域。因此，为了进一步促进网络提取有效特征，进一步对面部图像进行截取，从而得到眉心辅助区域图像。将面部两眉毛靠中心方向的边界点分别标记为Xf 1和Xf 2，则ΔXf为

ΔXf=|Xf 1-Xf 2|

(4)

最后，将ΔXf作为眉心辅助区域图像的宽和高进行图像截取，得到脸部图像和眉心辅助区域图像。

手部图像选取Psize后，若是由ΔYh确定Psize，则在水平方向上以Xh1与Xh2的中点作为截取的出发点，向水平左右方向同步进行截取，直到截取宽度与ΔYh相同；若是由ΔXh确定Psize，则在垂直方向上以Yh2为出发点，垂直向上进行截取，直到截取高度与ΔXh相同。对于面部区域截取，本文采取与掌心图像截取相同的方式。对于眉心区域，在确定好ΔXf后，在垂直方向上以Xf1与Xf2的中点为出发点，向垂直上下两个方向同时进行截取，直到截取高度等于ΔXf。

为了尽可能统一掌心区域、面部区域以及眉心区域的尺寸，且保证重点诊断区域均包含在截取后的图像中，本文统计了所有手掌图像、面部图像、眉心图像按数据预处理后对应的尺寸，如表1所示，最终发现大多数掌心和面部图像尺寸都小于530，眉心图像的尺寸都小于132，因此，本文将模型输入的掌心图像和面部图像的尺寸统一为530，眉心图像的尺寸统一为132，从而尽可能减少图像尺寸不统一对模型性能造成的影响。

表1 截取图像数量统计Table 1 Statistics of the number of captured images

1.2 面部和手部图像的主体分支与辅助信息分支

如图1所示，本文提出的模型有面部特征提取、手部特征提取和特征融合3个模块。其中面部特征提取模块和手部特征提取模块都构建了双分支，即主体分支与辅助信息分支。

主体分支中，将面部和手部的重点区域图像作为分支的输入，包含最多的信息。由于专业拍摄的图像分辨率(1 200×1 200像素)高于一般图像，如果将完整图像作为网络的输入，则需要很深的神经网络进行降维。然而当网络中使用过多卷积层时，就会产生大量参数，导致模型过拟合问题。如果不想使用过多卷积层，就需要使用几次下采样来减小特征图的大小以便符合网络的尺寸要求，从而学习更深的特征用于预测，但是多次下采样又可能会丢失很多有用的特征。除此之外，原图中包含很多无关信息，在中医望诊中，脑卒中在面部与手部的诊断也主要集中在额头、眉心、掌丘和鱼际等部位，医生通过观察这些部位是否有异常现象(眉心有竖纹、两眉间凹陷发红、掌丘隆起肥厚和大小鱼际红肿等症状)来提前预测患者是否有脑卒中的风险。因此，主体分支的输入应尽可能避免其他信息的干扰，从而学习正确的映射关系。

辅助信息分支中，针对面部图像与手部图像在中医望诊中的区别，对辅助信息分支的输入进行不同的处理。对于面部图像，眉心部位的纹路状况对于脑卒中的诊断尤为重要。因此，对截取的眉心区域图像做进一步处理，为了避免图像中一些细小纹路的噪声干扰，本文针对眉心区域的辅助分支，采用Laplace、Canny和Sobel这3种不同的滤波器得到眉心区域的纹路图像。Laplace滤波器对边缘信息较为敏感，某些噪声边缘也会提取出来，因此并不适合眉心区域的纹路提取。Canny滤波器产生的边缘信息没有强弱之分并且检测算法较为复杂，作为辅助分支，本文希望辅助分支在提取有效特征的同时也注重检测效率。而Sobel滤波器的检测效率在实际应用中比Canny滤波器高，并且滤波后的图像边缘有强弱之分，具有良好的抗噪性，因此Sobel滤波器是本文方法的最优选择。本文方法首先对图像进行基于中值滤波的图像平滑，之后采用Sobel滤波器(Sobel和Feldman，1973)，通过图像水平和垂直两个方向的梯度来逼近图像中每一个像素的梯度，从而得到梯度图像。因为对于方向复杂的眉心纹路，单靠水平或垂直方向的纹路不足以有效提取眉心区域的纹理特征，而将横向与纵向梯度进行结合的梯度图像更有助于本文模型完成任务。具体计算为

(5)

式中，Gh为图像的水平梯度，Gv为图像的垂直梯度。对于手部图像，手掌的掌丘和鱼际等部位的颜色、形态状况对于脑卒中的诊断具有重要参考意义。传统的手部图像是基于RGB颜色空间，易受光照、遮挡和阴影等情况的影响，而HSV(hue，saturation， value)颜色空间由色相(hue)、饱和度(saturation)和明度(value)3部分组成，Cheng等人(2001)证明HSV颜色空间可以很好地降低这些因素的影响，鲁晓篝等人(2019)也利用此颜色空间进行舌诊客观化的研究。因此，本文将RGB颜色空间的掌形图像转化为HSV颜色空间图像作为辅助信息分支的输入，从而更稳定准确地反映手部生理病理状况，可以体现出手部特征的微小变化。图1左侧展示的即是处理后的眉心梯度图像以及掌心HSV颜色空间图像。

对于中医望诊在面部与手部的相关诊断知识，眉心部分的纹路特征以及掌心部位的形态特征是传统中医医师进行望诊的重点。因此在面部特征提取模块的眉心辅助分支中采用Sobel等滤波器进行实验而不采用转化颜色空间等方法，这样可以更好地关注眉心的纹路特征，从而更好地辅助面部特征提取。对于手部特征提取模块，本文同样只转化不同颜色空间进行实验，因为掌心纹路复杂且手掌掌纹非常容易干扰模型提取有效特征。

值得注意的是，虽然本文在每个模块中只使用了两个分支，但仍然可以引入很多新的分支。最终，主体分支输入数据从Xm⊂RH,W,C转变为Xm⊂RS,H,W,C，辅助分支输入数据从Xa⊂RH,W,C转变为Xa⊂RS,H,W,C，其中S为分支个数，H和W分别为分支的高度和宽度，C为通道数。将上述分支分别输入到各自的卷积块中，通过卷积操作提取输入数据的深度特征，并对特征映射进行最大池化(maxpooling)操作，对特征映射进行下采样。这一部分中，使用BN(batch normalization)(Ioffe和Szegedy，2015)防止模型过拟合。BN通过引入一对可学习参数γ和β确保模型能够根据数据的真实分布尽可能地进行学习。接着将主体分支和辅助分支的特征映射输入到信息交互模块中融合成为一个新的注意特征映射，并将其与主体分支的输出进行哈达玛积。然后将两分支的特征映射进行拼接，并通过3×3的卷积进一步对融合特征进行提取，最终使用全局平均池化(global average pooling，GAP)(Lin等，2013)取代卷积神经网络中传统的全连接层，为每个类别生成相应的特征图。

1.3 信息交互模块(IIM)

图4 信息交互模块(IIM)Fig.4 Information interaction module(IIM)

(6)

式中，T1×1表示使用BN、卷积核为1 × 1、stride = 1的卷积层；⊕表示连接运算；⊙表示哈达玛积；“+1”操作是受Wang等人(2017b)和He等人(2016)方法启发引出的剩余身份映射，避免可能由连续的逐层乘法引起的梯度爆炸或消失，以帮助网络学习更鲁棒的注意力映射。值得注意的是，使用1 × 1的卷积层是因为1×1的卷积核能够仅根据通道执行计算，而不是融合不同空间位置的特征或改变特征的空间大小，在实现降维的同时也实现了通道间的信息交互。通过在1 × 1卷积权重W上反向传播特定任务损耗和L2权重衰减损耗，在没有任何特殊操作的情况下，能以端到端的方式训练IIM。

1.4 损失函数

为了更好地约束面部特征提取模块和手部特征提取模块的训练，在两个模块的最后一层均采用GAP代替卷积神经网络中传统的全连接层，并且针对两个模块分别设计了各自的损失函数。由于两个部位的特征提取模块均为分类任务，因此面部特征提取模块和手部特征提取模块的损失函数Lf和Lh均使用交叉熵损失。具体为

Lf=-[yf×log(pf)+(1-yf)×log(1-pf)]

(7)

Lh=-[yh×log(ph)+(1-yh)×log(1-ph)]

(8)

式中，pf是面部特征提取模块最后经过softmax函数之后的值，Ph是手部特征提取模块最后经过softmax函数之后的值，yf∈{0,1}是患者面部真实的标签，yh∈{0,1}患者手部真实的标签。

最终的总损失函数Ltotal为

(9)

式中，σf和σh均为可学习的观测噪声参数，该值与分布的不确定性有关。

总损失函数受Cipolla等人(2018)方法影响，采用权重不确定的方法设置任务权重，该方法可以统一多任务各损失的尺度且不再受额外权重超参数的影响。

2 实验与结果分析

2.1 数据集

本文使用的实验数据集来自合作中医药公司的脑卒中患者病例，收集了包括3 011例脑卒中患者的脸部与手部高分辨率图像，并由具有20年丰富中医诊疗经验的医师进行标签标注。本文按照如下规则进行数据筛查：1)手部具有脱皮现象的图像(n= 17)；2)手掌区域具有伤疤的图像(n= 5)；3)面部具有明显伤疤的图像(n= 12)；4)无法完全露出眉心额头等区域的图像(n= 8)。筛查过后的数据集包含2 969例脑卒中患者的脸部与手部图像，其中正样本995例，负样本1 974例。考虑到正负样本数量不平均，不利于模型训练，对正样本图像采取水平翻转的方式进行数据扩充。采取这种方法是希望尽可能靠近真实患者的手部情况，而水平翻转可以很好地满足这样的需求，其他的数据扩充方式(裁剪、旋转和局部变形等)都可能或多或少地损失或改变一些手部及面部特征。通过增加数据量的方式，可以更好地让模型学习到数据背后的隐含规律，有效提高模型的泛化能力。最终本文所用数据集包含3 964例脑卒中患者的脸部与手部图像，其中正样本1 990例，负样本1 974例。

2.2 实现细节

实验均在一个工作站进行，工作站配备Ubuntu 18.04 LTS系统，1个2.90 GHz Intel(R) Xeon(R) W-2102 CPU和1个NVIDIA TITAN XP GPU。网络模型使用python3.6搭建，通过pytorch在工作站展开实验。实验采用10折交叉验证评估模型，将数据集分为10组，每折使用任意9组作为训练集，剩下的1组作为测试集，依次迭代。优化器采用mini-batch Adam，其中初始学习率设置为0.01，batchsize设置为32，模型迭代次数为500。为了获得更好的模型性能，本文采用的学习率变化方法为

(10)

式中，s为迭代次数，初始学习率l(0)为0.01。在训练过程中，总损失最小的模型保存到验证集，以便在测试集上进行验证。为了避免该数据集的轻微不平衡和过度拟合问题，通过准确性(accuracy)、敏感性(sensitivity)、特异性(specificity)和F1-score来评估性能。它们的数学定义为

(11)

(12)

(13)

(14)

式中，Tp为正确分类的正例数目，Fn为错误分类为负例的正例数目，Tn为正确分类的负例数目，Fp为错误分类为正例的负例数目。

2.3 实验结果及分析

2.3.1 分类性能对比实验

由于现有方法中未发现类似研究的方法，为了验证本文方法有效性，实验中将当前几种主流的分类网络应用于本文任务中，将面部提取模块与手部提取模块分别替换为其他分类网络，在其他条件不变的情况下进行训练并统计这些方法的性能指标。

图5显示了不同方法在准确性上的差异，表2显示了本文方法DCFFM与其他几种分类网络在准确性、敏感性、特异性和F1-score上的表现。其中，DCFFM的准确性、灵敏性、特异性和F1-score分别为83.36%、85.10%、82.47%和80.25%，在各指标上的表现均好于其他方法。其中敏感性显示出比较大的优势，说明本文方法对真阳性的检测有较好表现。

图5 不同方法的准确性柱状图对比Fig.5 Comparison of histogram of accuracy among different methods

表2 不同方法的各评价指标对比Table 2 Comparison of results of each evaluation index among different methods /%

为了进一步验证本文方法的稳定性和鲁棒性，对所有方法均在采集的数据集上进行10折交叉验证。图6为各方法敏感性和特异性指标对比。其中，图6(a)为10折交叉验证下，不同方法10次fold的敏感性指标比较。DCFFM方法相比其他方法在敏感性上有明显提升，其中fold9为85.13%，相比较第二表现好的ResNet-34提升了1.85%。除此之外，在fold2、fold5、fold7的敏感性都远高于其余方法，进一步说明本文方法在检测真阳性上的突出性能。图6(b)为10折交叉验证下，不同方法10次fold的特异性指标比较。DCFFM方法除了在fold6上比ResNet-34低0.75%，在其他fold上均高于ResNet-34以及其他方法。除此之外，在fold2上DCFFM的特异性为82.54%，明显优于其他方法。整体分析可以证明，本文所提方法相比其他方法具有更好的稳定性和鲁棒性。

图6 不同方法在10折交叉验证下的性能比较Fig.6 Performance comparison of different methods under ten-fold cross-validation ((a) sensitivity; (b) specificity)

2.3.2 辅助信息分支对模型性能的影响

为了量化本文方法中辅助信息分支的有效性，去掉辅助信息分支，仅用主体分支作为面部和手部的特征提取网络并进行最终预测。实验结果如表3所示，去掉面部和手部的辅助信息分支后，准确性、敏感性、特异性和F1-score分别为81.62%、82.96%、79.03%和78.47%。只有主体分支进行特征提取时，整体表现在各指标上都有明显下降，其中准确率和特异性都下降2%以上。实验结果表明，当加入辅助信息分支时，不同部位的针对性特征会更好地辅助主体分支，充当一个“向导”去帮助主体分支学习更具有区别性的特征，从而提升模型性能。

表3 辅助信息分支对模型性能的影响Table 3 The impact of auxiliary information branch on model performance /%

由于面部特征提取分支与手部特征提取分支没有直接联系，因此对不同分支内的IIM中λ1与λ2的取值，分别选择不同取值单独进行实验。作为辅助信息分支中的权重，选取0.1，0.2，…,0.9共10个取值分别进行实验验证，结果如表4和表5所示。可以看出，当λ1取值0.7、λ2取值0.4时，模型的各项性能指标最好。

表4 IIM中λ1不同取值对模型性能的影响Table 4 Influence of different values of λ1 in IIM on model performance /%

表5 IIM中λ2不同取值对模型性能的影响Table 5 Influence of different values of λ2 in IIM on model performance /%

对于不同方法下的辅助信息分支，本文增加了相应的对比试验，验证了面部特征提取模块与手部特征提取模块中不同技术处理的辅助信息分支对于整体模型性能的影响。但值得注意的是，实验并未考虑在一个辅助信息分支中采用另一个辅助分支中的方法，因为对于中医望诊在面部与手部的相关诊断知识，眉心部分的纹路特征以及掌心部位的形态特征是传统中医医师进行望诊的重点。因此在面部特征提取模块的眉心辅助分支中采用Sobel等滤波器进行实验而不采用转化颜色空间等方法，这样可以更好地关注于眉心的纹路特征，从而更好地辅助面部特征提取，实验结果如表6所示，可以看出，面部特征提取模块中采用Sobel滤波器作为辅助信息分支的处理方法是最优选择。对于手部特征提取模块，只转化不同颜色空间进行实验，因为掌心纹路复杂且手掌掌纹非常容易干扰模型提取有效特征，实验结果如表7所示，可以看出，手部特征提取模块中采用HSV颜色空间作为辅助信息分支的处理方法是最优选择。

表6 面部特征提取模块中不同滤波器对模型性能的影响Table 6 The influence of different filters in facial feature extraction module on model performance /%

表7 手部特征提取模块中不同颜色空间对模型性能的影响Table 7 The effect of different color spaces in the hand feature extraction module on the performance of the model /%

2.3.3 信息交互模块(IIM)对模型性能的影响

为了证明本文提出的信息交互模块(IIM)在DCFFM模型中的作用，实验验证了DCFFM分别在添加IIM与删除IIM时的整体性能表现。出于简化目的，实验在不改变其他分支的网络结构基础上，直接删除IIM后将辅助信息分支特征和主体分支特征进行拼接，实验结果如表8所示。在添加IIM后，整体性能依旧有一定提升，虽然准确性和F1-score指标提升较不明显，但在敏感性和特异性上均有1%的提升。这意味着IIM通过对辅助分支赋予一定的权重，可以使主体分支与辅助信息分支之间的特征信息以一种全新的方式进行进一步交互，进而帮助模型进行有效学习。

表8 信息交互模块(IIM)对模型性能的影响Table 8 The impact of IIM on model performance /%

2.3.4 面部图像与手部图像对于模型性能的影响

本文针对面部图像与手部图像双特征模块进行了消融实验对比，以此证明两个部位的同时输入可以实现相互促进，而不是相互限制。实验将面部特征提取模块与手部特征提取模块分别去掉，在仅保留一种部位的特征提取模块下进行实验，观察单部位特征提取模块与双部位特征提取模块的性能变化，实验结果如表9所示。当去掉手部特征提取模块仅依靠面部数据(DCFFM-face)预测脑卒中时，准确性、敏感性、特异性和F1-score分别为78.83%、81.28%、76.39%和77.04%。当去掉面部数据仅保留手部特征提取模块(DCFFM-hand)时，准确性、敏感性、特异性和F1-score分别为80.63%、82.77%、79.04%和80.11%。当两个数据同时输入时，整体性能在准确率和敏感性上都有明显提升。通过实验也进一步说明仅依靠一种数据很难达到很好的效果，而同时将面部数据和手部数据进行分析并进行有效融合，通过训练不断进行信息交互能够有效提升模型性能。

表9 单部位数据与多部位数据对模型性能的影响Table 9 The influence of single-part data and multi-part data on model performance /%

3 结论

鉴于对脑卒中的病前预测缺少有效方法，本文依据中医望诊在“治未病”方面的显著作用，结合中医望诊在脑卒中领域的相关诊疗知识，基于面部与手部图像数据提出一种多分支深度特征融合的中医脑卒中辅助诊断方法。构建面部与手部特征提取模块，并在各模块中采取双分支的结构用于提取不同部位的深度特征；将面部和手部的重点区域作为主体分支以提取主要特征信息，并在中医望诊知识指导下将眉心和掌心的不同特征作为辅助信息以进一步提取有效信息；构建信息交互模块(IIM)将主要特征与辅助特征进行有效信息交互；将两部位特征进行融合降维以实现脑卒中预测。多组实验证明，本文方法能够有效利用面部和手部数据进行脑卒中的辅助预测，提出的信息交互模块在一定程度上也促进了多分支任务的信息交互。本文方法较ResNet-34、DenseNet121、VGG16(Visual Geometry Group 16-layer net)和InceptionV3等主流分类算法在准确性、敏感性、特异性和F1-score指标上均有一定优势，能够有效辅助中医医师快捷准确地进行脑卒中诊断。

本文方法虽取得一定效果，但在整体准确性的提升以及如何引入更多符合中医诊疗知识的辅助信息等方面仍需进一步研究。基于这些问题，后续工作将集中于以下两点开展：1)结合更多部位的图像数据进行模型搭建，进一步提高准确率；2)考虑到实际应用需求，对网络模型进行进一步修改和优化。