基于多模态的在线序列极限学习机研究

2021-07-26 11:54董俊杰续欣莹

计算机工程 2021年7期

李琦，谢珺，张喆，董俊杰，续欣莹

（1.太原理工大学信息与计算机学院，山西晋中030600；2.太原理工大学电气与动力工程学院，太原030024）

0 概述

机器学习是使计算机模拟或实现人类的学习行为从而获取新知识或技能的一种途径。人们在生活中的感知是多元的，识别一个物体不仅依靠视觉，还可以通过触觉、嗅觉、听觉等形式进行感知。任何感知能力的缺失都会造成生活能力减退。因此，在研究物体分类时，不仅可以依赖图像的视觉信息，还可以采集其真实的其他模态信息，通过多模态融合来为计算机提供更丰富的物体特征，使计算机充分感知物体信息，从而更好地实现物体识别与分类。例如，在物体材质分类研究中，由于不同材质的物体可能有相同的形状以及相似的纹理，在光照等因素的影响下，单纯依靠视觉信息可能无法对其进行有效分类，需要将不同模态的信息进行融合以实现物体识别与分类。

在多模态信息融合方面，研究者提出了较多方法。文献［1］以物体触觉加速度信号和相应的表面纹理图像为输入处理表面材料分类问题，有效地提高了分类精度。文献［2］研究表明，不同模态的特征对材料分类的性能具有不同的影响。文献［3］提出一种基于稀疏表示的多模态生物特征识别算法。文献［4］将视觉特征和触觉特征相融合以研究步态识别问题。文献［5］对RGB-D 信息进行融合分类研究。文献［6］从不同的应用领域介绍多模态的研究现状。尽管上述研究取得了一定成果，但是如何将不同的模态信息进行有效融合仍具有较高难度。文献［7］建立一种新的投影字典学习框架，通过引入一个潜在的配对矩阵，同时实现了字典学习和配对矩阵估计，从而提高融合效果。文献［8］设计一个字典学习模型，该模型可以同时学习不同度量下的投影子空间和潜在公共字典。在多模态融合框架的研究中，分类器选择也是一个重点环节。

近年来，卷积神经网络（Conrolutional Neural Networks，CNN）在图像识别分类领域取得了较多成果。从最早的LeNet 到AlexNet、Overfeat、VGG、GoogLeNet、ResNet 以及DenseNet，网络越来越深，架构越来越复杂，虽然分类精度大幅提升，但是模型中的参数也成倍增加，对计算机内存的要求也越来越高［9-11］。文献［12］在极限学习机（Extreme Learing Machine，ELM）的基础上引入局部感受野的概念，提出基于局部感受野的极限学习机（ELM-LRF）［13］。ELM-LRF 可以实现输入层与隐含层的局部连接，不仅能够发挥局部感受野的局部感知优势，还继承了ELM 学习速率快、泛化性能高的优点［14-15］，在保证分类性能的同时，模型参数和训练时间均较CNN 大幅减小。但ELM-LRF 算法中局部感受野采用单一尺度的卷积核，对复杂图像难以取得较好的分类效果。文献［16］提出多尺度局部感受野的极限学习机算法（ELM-MSLRF），ELM-MSLRF 通过多个不同尺度的卷积核更充分地提取图像信息，使得分类效果更好。文献［17］在ELM-MSLRF 的基础上进行改进，构建一种多模态融合框架，算法通过将物体材质视觉和触觉信息进行融合，大幅提高了分类性能。但是，ELM-MSLRF 使用的ELM 在训练数据时需要将所有数据输入到模型中，不能单纯地更新数据。在线序列极限学习机（Online Sequence Extreme Learning Machine，OSELM）［18-19］可以逐个或逐块（数据块）学习数据，因此，可以采用OSELM 用于在线学习和网络更新。OSELM 不仅具有ELM 速度快、泛化能力强的优点，还可以随着新数据的输入而不断更新模型，无需重新再训练所有数据。

本文针对传统多模态框架ELM 在训练过程中需要输入所有数据的问题，提出一种多模态融合的多尺度局部感受野在线序列极限学习机算法。在训练过程中，对样本分批次地进行增量式训练，且训练新数据时不再训练旧数据。在特征提取过程中，对传统的ELM 框架进行改进，通过保留更多的特征图来提高算法的学习性能，从而提高分类精度。

1 在线序列极限学习机

OSELM 由LIANG 等［18］于2006年提出，该算法主要解决极限学习机无法实时动态地处理数据而花费时间过长的问题。OSELM 可以逐个或者逐块地学习，并丢弃已经完成训练的数据，从而大幅缩短训练所需时间。OSELM 的训练过程主要分成初始阶段和在线学习阶段两部分。

1）初始阶段

2）在线学习阶段

令g表示数据块个数，设定初始值g=0。通过数据块对网络的输出权重进行顺序更新。假设当前已有g个数据块输入到模型中，当加入新的训练数据块时，输出权重如式（3）所示［18］：

2 极限学习机多模态融合算法

基于多尺度局部感受野的极限学习机多模态融合算法（MM-MSLRF-ELM）于2018年由LIU 等提出，是一种通过多模态融合进行物体材质识别的算法［17］。该算法不仅可以通过融合多模态信息完成分类任务，而且在提取模态信息的过程中采用了多尺度局部感受野，使算法可以学习到更完备的特征。MM-MSLRF-ELM 算法具体步骤如下：

步骤1对每种模态样本随机生成初始权重并进行正交。

设局部感受野有S个不同的尺度，每个尺度局部感受野的大小为rs×rs，s=1,2,…，S。每个尺度下生成K个不同的输入权重，即每个尺度下可生成K个不同的特征图。设输入图像的大小为(d×d)，则第s个尺度的特征图大小为(d-rs+1)×(d-rs+1)。

为了方便起见，使用上标v 和h 分别表示视觉和触觉模态。由式（4）随机生成第s个尺度的初始视觉和触觉权重矩阵，并通过奇异值分解（Singular Value Decomposition，SVD）进行正交化，正交化结果中的每一列和都是的正交基。

步骤2多尺度特征映射。

每种模态第s个尺度的第k个特征图卷积节点(i,j)的值根据式（5）计算，其中，Xv、Xh分别为不同模态的输入样本，不同模态第s个尺度的第k个特征图的输入权重分别由和逐列排成。

步骤3多尺度平方根池化。

在步骤2 之后，对卷积特征进行池化操作，令池化图的大小与特征图的大小相同，均为（d-rs+1）×（d-rs+1）。第s个尺度的第k个池化图中的组合节点（p,q）的值可由式（6）计算，其中，es表示第s个尺度的池化大小。

若节点（i，j）不在（d-rs+1）范围内，则。

步骤4对每种模态特征进行全连接得到对应每种模态的特征组合矩阵。

将每种模态所有组合节点的值组合成一个行向量，并把N个输入样本的行向量放在一起得到组合矩阵。

步骤5多模态融合。

其中：P表示模态数量；手动设定d′的取值范围为1≤。

步骤6混合矩阵的卷积和池化。

此步骤的特征提取过程与步骤2、步骤3 相同，此处特征图及池化图的大小变为(d′-rs′+1)×(d″-rs′+1)。混合网络中设局部感受野有S′个不同的尺度，每个尺度局部感受野的大小为rs′×rs′，s′=1,2,…,S′。

步骤7混合网络的特征全连接。

与步骤4 相似，将混合网络所有组合节点的值组合成一个行向量，并把输入样本的所有行向量放在一起，得到组合矩阵。

步骤8计算输出权重。

输出权重β如式（8）所示：

其中：C为正则化参数；K′为混合网络中的特征图数量；T为样本对应的标签。

MM-MSLRF-ELM 算法在实验过程中还对输入样本进行颜色R、G、B 分离。在对输入样本进行颜色三通道分离后，在每个颜色通道设置S个尺度，且每个尺度生成K个随机权重，整个网络生成（3×S×K）个特征图。但是，该算法在卷积生成特征图的过程中又将3 个颜色通道对应生成的特征图进行合并，实际后续用于池化操作的还是（S×K）个特征图［20-21］。

3 本文算法

本文在MSLRF-OSELM［22］的基础上，结合基于多尺度局部感受野的极限学习机多模态融合算法，提出一种多模态融合的多尺度局部感受野在线序列极限学习机算法（MM-MSLRF-OSELM）。该算法将保留单模态执行过卷积操作生成的特征图，并对实际生成的（3×S×K）个特征图都进行池化操作，最后完成特征矩阵全连接。

多模态融合通过提取物体在不同模态下的信息，然后进行融合以用于物体识别和分类。该方法不仅利用多尺度局部感受野更充分地提取了特征，而且通过将不同模态下的特征进行融合，大幅提高了算法的测试精度，此外还可在线更新训练数据，在实际问题中具有更大的适用性。MM-MSLRFOSELM 算法整体架构如图1所示，其包含（p+1）个MM-MSLRF-NET，每个MM-MSLRF-NET 包含多种模态信息，在线生成的块数据集依次输入相应的网络以更新输出权重β。

MM-MSLRF-OSELM 算法具体步骤如下：

步骤1初始阶段。

1）随机生成并正交化每种模态的初始权重。

设输入图像大小为(d×d)，将输入图像分成R、G、B 3 个颜色分量并送入对应的颜色通道中，每个颜色通道设置S个不同尺度的局部感受野，且在每个尺度下随机生成K个不同的初始权重。因此，整个网络可以生成3×S×K个特征图。记第s个尺度的局部感受野大小为rs×rs，s=1,2,…,S，则第s个尺度的特征图大小为(d-rs+1)×(d-rs+1)。

为了方便起见，使用上标image、acceleration 分别表示视觉模态和触觉加速度模态。根据式（9），网络随机生成c颜色通道中第s个尺度的视觉图像与触觉加速度模态的初始权重矩阵。对初始权重矩阵通过SVD 方法进行正交化操作，得到正交矩阵。正交矩阵中的每一列都是初始权重矩阵的正交基。其中，c颜色通道中第s个尺度的第k个输入权重为对应于。

2）每种模态的多尺度特征映射。

视觉模态和触觉加速度模态在c颜色通道中第s个尺度的第k个特征图中卷积节点（i,j）值可由式（10）计算，其中，为不同模态样本进行R、G、B颜色三通道分离后对应的向量。

3）每种模态的多尺度平方根池化。

视觉模态、触觉加速度模态在c颜色通道中第s个尺度的第k个池化图中组合节点（p,q）的池化特征计算如下：

若节点（i,j）不在（d-rs+1）范围内，则。

4）对每种模态进行特征全连接。

将视觉模态和触觉加速度模态输入样本对应的组合节点值分别连接成行向量，并将N0个输入样本对应的行向量进行组合，得到2 种模态的组合特征向量矩阵。

5）模态融合。

将2 种模态的组合特征向量矩阵组合成1 个混合矩阵H=[Himage,Hacceleration]，混合矩阵大小为d′×d″，由式（7）得到。

6）多模态多尺度特征映射与平方根池化。

将2 种模态融合后得到的混合矩阵输入到一个新的混合网络，该网络设有S′个尺度，每个尺度中产生K′个不同的输入权重，则该网络可以生成S′×K′个特征图，记第s′个尺度的局部感受野大小为rs′×rs′，则第s′个尺度的第k′个特征图的大小为(d′-rs′+1)×(d″-rs′+1)。该网络的特征映射及平方根池化过程与第1 步～第3 步相似。

7）多模态特征向量全连接。

此时的特征全连接方法与第4 步相似，得到混合网络的组合层矩阵。

步骤2在线学习阶段。

1）设g=0，假设有Ng+1个新样本进入模型，该模型每个模态的特征提取以及特征全连接过程与步骤1 初始阶段第2 步～第4 步相似，各步骤中的参数设置均相同。多模态融合及融合后的卷积、池化以及池化特征的全连接过程与步骤1 初始阶段第5 步～第7 步相似，得到组合层矩阵。

3）令g=g+1，如果Ng+1是最后一个在线块数据集样本，则在线学习结束；否则，重复步骤2 在线学习阶段的第1 步～第2 步，直到数据集是在线训练数据集的最后一个块数据集。最终根据式（13）更新输出权重：

4 实验验证

4.1 数据集

为了验证本文所提算法（MM-MSLRF-OSELM）的有效性，在TUM 触觉纹理数据集上进行实验。TUM 触觉纹理数据集是一个新型的多模态数据集，包含108 种不同物体的触觉加速度、摩擦力、金属检测信号、反射率、声音和视觉图像信号，且TUM 触觉纹理数据集每种信号均包含2 组数据（有约束条件下记录的数据和无约束条件下的数据），数据是由10 个自由手（5 个线性和5 个圆形运动）记录组成。本文重组2 组数据并随机从每组每个类别中选择一个样本作为测试集，其他数据作为训练集。每个模态设置（108×2）个测试样本和（108×18）个训练样本，并将（108×18）个静态训练样本转化为动态增量训练样本以训练在线网络。

4.2 实验设置

本文实验主要选取TUM 数据集中的视觉图像信号和触觉加速度信号，输入样本预处理过程参考文献［17］。在实验中，分别通过单模态实验和两模态融合实验来验证算法的性能，具体实验设置如下：

1）单模态实验。将处理后得到的视觉图像和触觉加速度频谱图作为输入样本进行实验，本文局部感受野选择2 个不同的尺度，且每个尺度通道设置2 个特征图，为了验证块数据集大小对实验结果的影响以及本文算法是否可以使用新数据更新训练网络，设置数据块大小分别为162、243、486，具体设置如表1所示。

表1 单模态实验参数设置Table 1 Parameters setting of single-modal experiment

2）两模态融合实验。本文通过将视觉模态和触觉加速度模态特征进行融合，形成混合网络进行实验以验证模态融合的有效性。在对每种模态分别提取特征时，本文采用2 个不同尺度的局部感受野，感受野大小与单模态实验中的感受野大小相同。考虑计算机的内存问题，两模态融合后得到的混合网络进行特征提取时也选择2 个不同尺度的局部感受野，每个尺度通道的特征图数量均设置为2。本文设置3 组2 个尺度的局部感受野，分别为{83,86}、{93,96}、{103,106}，然后进行实验以观察局部感受野大小对测试精度的影响。在实验过程中，设置块数据集大小为486，正则化参数C=1E-6。具体参数设置如表2所示。

表2 两模态融合实验参数设置Table 2 Parameters setting of two-modal fusion experiment

4.3 算法有效性验证

在2 个不同尺度局部感受野的情况下，本文采用十折交叉验证统计实验结果。单模态实验中分批训练数据块大小对实验结果的影响如表3 和表4所示。由表3 和表4 可以看出，块数据集越大，即训练样本越多，训练精度越高，整体训练时间越快，相对应的测试精度随着训练精度的不同也有所变化，由于测试数据大小无变化，因此测试时间几乎无变化。

表3 数据块大小不同时不同模态的训练精度及训练时间Table 3 Training accuracy and training time of different modes corresponding to data block size

两模态融合实验结果如表5所示，由表5 可以看出，局部感受野大小对测试结果有明显影响，局部感受野越小，分类精度越高，局部感受野由小到大对应的测试精度分别为65.89%、59.63%、48.01%。通过对比表4 和表5 可以看出，两模态融合的分类精度远高于单模态，验证了模态融合的优势以及可行性。

表4 数据块大小不同时不同模态的测试精度及测试时间Table 4 Testing accuracy and testing time of different modes corresponding to data block size

表5 融合网络中不同局部感受野时的测试精度及测试时间Table 5 Testing accuracy and testing time of different local receptive field sizes in fusion network

为了更好地说明本文算法的有效性，将本文算法与MM-MSLRF-ELM［17］算法进行对比，结果如表6所示，单模态实验时两种对比算法的参数设置相同，MM-MSLRF-OSELM 算法的测试精度在2 种模态下均高于MM-MSLRF-ELM 算法，同时时间消耗也都接近MM-MSLRF-ELM 算法的3 倍。因为本文实验的时间单位为s，所以3 倍的时间换算法测试精度10%的提升（视觉图像）是值得的。在两模态融合的对比实验中，由表6 可以观察到，虽然MM-MSLRFOSELM 的测试精度高于MM-MSLRF-ELM，但是提高幅度较低，这是由于局部感受野大小设置的原因，具体分析如下：

表6 不同模态时的测试精度与测试时间Table 6 Testing accuracy and testing time in different modals

在模态融合网络局部感受野同样设置为2 个尺度且大小分别为83×83和86×86时，MM-MSLRF-ELM两模态融合后的矩阵大小行小于本文设置的局部感受野大小，实验结果不可取。因此，本文对MM-MSLRF-ELM 算法仿真时模态融合网络局部感受野2 个尺度大小的设置分别为5×5 和7×7，该感受野大小远小于本文算法仿真局部感受野的大小。从表5可以看出，局部感受野越小，分类精度越高，且分类精度变化明显。因此，本文的MM-MSLRF-OSELM 在计算机内存满足的情况下精度提升空间很大，其具有可行性。虽然无论单模态实验还是模态融合实验，MM-MSLRF-OSELM耗时都比MM-MSLRF-ELM长，但精度明显提高，因此，MM-MSLRF-OSELM 具有一定优势。

5 结束语

本文提出一种MM-MSLRF-OSELM 算法，选用TUM 数据集中的视觉图像和触觉加速度信息进行实验，通过实验证明两模态融合后的分类精度明显高于单模态的分类精度，且通过与MM-MSLRF-ELM算法进行对比，进一步证明本文算法具有较好的分类性能。MM-MSLRF-OSELM 在训练过程中仅对新数据进行在线更新训练，在实际中适用性更强。由于本文利用了不同模态的信息，而这些信息中可能存在一些冗余特征，因此下一步将采用属性约简算法对冗余特征进行约简。