智慧园区环境下的多模态多核学习身份识别算法研究

2022-09-14 08:37刘安强张碧川

重庆大学学报 2022年8期

刘安强，张碧川，郭栋，甘梅，刘航，李幸，陈婕

(1. 陕西陕煤曹家滩矿业有限公司，陕西榆林 719000；2. 中煤科工集团重庆研究院有限公司，重庆 400039；3. 重庆梅安森科技股份有限公司，重庆 400050；4. 重庆邮电大学，重庆 400065)

在科技的发展和国家相关政策的推动下，以产业聚焦为手段的各类园区发展迅速。目前，各大传统园区及企业逐渐向新领域、新技术、新局面蓬勃发展。产业园区作为多方向多领域集群发展的有效途径，是区域经济与多维产业联动的桥梁，各类园区作为对外开放、招商引资、管理创新的主要载体，为各个产业之间的联动、共享和协作提供了可靠的发展平台[1]。目前，以大数据、机器学习及物联网等技术为核心的新一代智慧园区已成为各类工业园区、商业园区和文化产业园区的建设和发展目标[2]。人脸识别技术对于园区的环境监控、日常监控、安防监控等领域提供便捷又智能的身份识别服务[3]。

人脸识别(face recognition)技术[4]是指通过获取的图像、视频或者是红外摄像获取的人像，通过面部信息的挖掘建模确定本人在先验数据库中的身份。人脸识别因其广泛应用性受到学者们的广泛研究，并在长期研究中产生了多样化的方法，具有较高的研究热度[5,6]。人脸识别技术更贴合智慧园区的应用，同时现有的研究已经证明多模态技术能够大大提升人脸识别的准确性[7-9]。人脸作为固有的生物特征之一，不同个体之间具有很强的辨识性，为身份识别的挖掘建模过程中提供了一个有效特征。然而传统的人脸识别对于图像采集大部分是在光线充裕的环境下进行，忽略了人脸因角度或是人为因素而无法有效采集的问题。因此传统的人脸识别算法在真实环境下难以达到一个稳定的表现。

由于不同模态信息存在多源异构性(图像、音频、文本等)，而且存在不同的空间中，导致不同模态之间的信息难以处理。目前的多模态融合算法主要是图像合成的方法，即将图像作为基础，将其他模态转化为图像的形式并与原图像建立关系，利用这种关系解决多模态的匹配问题。常用的算法包括马尔可夫随机场，本征变化[10,11]，耦合字典等。文献[12]针对相同图像不同分辨率之间存在着相同的稀疏系数，提出利用耦合字典作为中间工具、低分辨率的图像作为输入进行高分辨率图像的合成。虽然图像合成的方法能够通过多模态之间的联合学习保证特征的可靠性，但由于合成算法的特性融合，使其在多模态下的合成与识别缺乏普适性[13]。

在本文中，通过引入了间隔约束扩展MKL的方法并引入维度规范化核函数对多模态学习进行间隔维度约束与特征融合约束，并加入决策融合算法，提出了融合多模态的身份识别新框架，通过多核学习算法提升算法的适用性，并使融合后的特征发挥出最大的判别能力。

1 智慧园区平台总体架构

园区智慧管理建设作为曹家滩智慧矿山建设的重要组成部分，有力推动着全区的全方位发展。目前，曹家滩办公园区约占地20.3万m2(井口以上地面部分)，园区内现有应用领域包括：智慧办公、智慧服务、智慧管理，新建业务应用系统16套，集成现有系统7套(消防系统、安防系统、人员定位系统、培训系统、停车系统、智慧餐厅、人力资源系统)。

而人脸识别技术作为人工智能现实应用中的一部分，在近年来得到了飞速的发展。人脸识别技术所具有的安全、便捷、可靠等特性，促进其在各行业的应用与推广，它能够对特定身份进行生物特征识别[14]。通过对人脸面部数据的提取、特征数据转化处理和对比分析来准确识别个人的身份信息，相较于传统密码类非生物识别技术而言，人脸识别技术更加准确、便利和经济，既能迎合管理方和企业追求高效的目的，又能满足员工对低时延、便利的需求。将人脸识别技术应用于园区的智慧化管理当中，能够为智慧化写字楼、智慧化生活区等提供安全便捷的人员出入识别核查管理，提升园区内使用人员的舒适感。在园区的生活区域中，人脸识别技术与员工日常生活所采用的生物特征识别模式基本相同，具有良好的自然性和便捷性[15]。将人脸识别技术运用于曹家滩园区的智慧管理建设方案当中，通过建立人脸识别系统，完成对园区员工的身份识别等功能，其逻辑结构如下图1所示。

图1 园区人脸识别技术设计方案Fig. 1 Scheme of face recognition technology in the park

首先，根据人脸识别系统数据库中已有数据来分析员工身份，若识别成功，则进行图像输入、面部表情数据特征预处理、特征提取、特征分类等步骤，并输出最终的人脸图像供平台调用；若识别失败，则用户可以再次请求系统交互操作，并对数据进行融合、清洗等操作，获取更多的数据特征，供系统再次进行判定。

此外，在园区内所设立的人脸识别设备无需携带卡片或摆出特定动作或指示，即可完成身份识别，其用户体验及操作难度优于虹膜、指纹等识别方式。在如今疫情常态化的情况下，人脸识别技术无需接触识别设备，即可完成对用户的识别，提高了园区内安全卫生管理，保障园区疫情防控措施落实。此外，人脸识别技术具有并发性，在人员基数大、分布相对集中的园区环境下，利用人脸识别技术可以同时进行多个人员的面部特征识别，提高用户工作效率，优化用户体验。

目前，园区的建设和发展主要以AI、物联网及大数据等新兴技术构建智能园区为重点，实现园区场景智能化、管理精细化、运营可视化等智慧管理，通过智能化场景提升用户体验，以精细化管理提升园区管理效率，采用数字化运行增加园区效能。曹家滩园区智慧管理总体架构设计如下图2所示，其中主要由IoT(the Internet of Things)应用、WEB应用、数据服务、设备模拟、数据分析、设备开发等模块组成。

图2 曹家滩园区管理平台架构图Fig. 2 Caojiatan Park management platform architecture diagram

在该架构模式下，曹家滩园区智慧管理以技术服务、内容服务集成以及LP-IoT基础PaaS平台为支撑，提供集成服务、运维监控、数据接入及使能服务等功能，实现智能城市、智能制造、智能生活等IoT功能应用。此外，应用IoT技术实现无感、便捷、高效的智慧应用以及用餐、购物、通行、体检等高效的用户体验，通过物联网、云计算以及人工智能打造“云工作台+聚合共享应用”的智慧园区管理办公平台，聚焦智能化场景应用，构建园区智慧管理新模式。

2 多模态身份识别

2.1 基于间隔维度约束的MKL模型——MDMKL

内核机器学习领域的一个最近发展方向就是采用多核学习(MKL)，通过多个内核在同一个框架中进行优化，能使在其监督学习或半监督学习中发挥更好的作用。它不需要关心特征空间的数据异构性、数据无规律性、数据分布不均匀、数据量大等问题。MKL具有自动调节内核参数、描述数据表示的各种特征，并能够并行处理各种多源异构数据的特点。同时，还能提升分类器的泛化能力增加模型的可解释性。

根据最新研究表明，MKL方法能够在有效对具有鉴别性的基本特征进行有效融合的同时，忽略掉不具有鉴别性的特征。MKL中包含了高斯RBF核，它具有将基本特征通过核函数转换到高维空间的作用。一般来说，为找到一个能够对不同特征都可以使用的内核参数是十分困难的，主要是由于不同参数对于不同特征的影响效果大不相同。因此，MKL难以在多个模态中获取所有基本特征的鉴别能力。

为此通过引入间隔约束，提出了基于间隔维度约束的多核学习(MDMKL)方法，将数据维度通过高斯RBF核归一化到同一空间中，并在该空间中利用多模态特征融合算法，结合使用间隔约束扩展MKL保证特征融合的有效性。MDMKL方法会通过给予不同模态特征以不同的关注度来辨别不同模态特征的识别能力。相较于传统的MKL，MDMKL在构造最优组合核参数时，会将不重要的特征分配较低的权值而将具有鉴别能力的权值分配更大的权值，以保证不同模态之间能够充分利用相互之间的关系保证特征融合的准确性。

2.1.1 间隔约束

MKL构建了一个良好的框架，能够通过给最具有鉴别性的基本特征赋予一个较大的权值，来保证特征融合的稳定性。不同于直接串联方法，MKL方法可以有效地避免特征维度很大的鉴别性差的基本特征带来的污染。

MKL方法存在选择的基本特征特别少的缺点，MKL在进行样本区分中仅会选择一个或两个在高维空间中有区别的基本特征。由于不同模态的特征在最优高维空间中的核参数必然会显著不同，就会导致传统MKL无法充分利用基本特征的最大鉴别能力。

为了解决传统MKL无法很好地区分不同特征的缺点，借助于SVM算法的间隔约束理论将间隔维度约束引入到多核学习之中，提出了间隔维度约束多核学习(MDMKL)。图3即表示了不同特征的间隔图，在图3(a)中，分离间隔距离较大时就能有效地区分基本特征，而图3(b)中，用于区分特征的超平面间隔距离相对较小，代表了在该特征空间下两个类别的类间相似度小，不易区分。

图3 间隔约束图Fig. 3 Margin constraint

利用分离的间隔作为评价多个类别之间的基本特征的鉴别能力的指标。而这种判别指标在MKL算法中能够有效地寻找最优的特征组合形式。在模型中损失函数定义为式(1)，判别指标可以用式(2)表示，即对损失函数倒数的开平方根的形式。

(1)

(2)

(3)

(4)

(5)

2.1.2 引入间隔约束的多核学习

高斯核函数(RBF)由于其在图像领域的出色的表现，使其被大量推广到其他领域。高斯核函数RBF可用式(6)表示。

(6)

式中：D为样本特征维数；xi和xj分别表示第i个样本和第j个样本；xi,q和xj,q是特征向量中的第q个元素；γ是RBF核参数，它能够确定从低维特征空间到高维空间的映射的维度大小。

为便于空间维度的转换，特征向量首先会进行归一化到[0，1)之间，当γ值在其他参数不变的情况下以一个固定值增加时，式(6)的值将会减小。

根据MKL算法融合的依据，对于不同模态而言其特征存在于不同的样本空间之中，因此对于不同模态必定会有不同的参数。因此，MKL算法在不同模态的融合之中无法发挥最优的作用，也无法对于不同模态之间的特征做出很好的判别。

归纳来说，在MKL中，无法将所有的基本特征作为判别特征，只能选择那些最具辨识能力的基本特征。因此，MKL对于不同模态的所有类型特征无法充分利用。

由于无法满足多模态的需求，因此，提出将维度参数γ进行RBF核函数标准化，维度标准化的RBF核函数可表示为：

(7)

通过除以特征维度D进行标准化，该步骤能够消除特征维度D对γ选择的影响，使不同模态的所有基本特征获得类似的特征维度参数值，且MDMKL算法能够发挥出不同模态在基本特征上的判别能力。

对于特征向量xi在高维空间的组合特征为φ(xi)，其核函数组合如式(8)所示。

(8)

式中：dk一般设定为0.5，Kk代表第k个核函数，损失函数f为计算方便常常采用极大极小对偶化进行解决，如式(9)所示。

(9)

计算出特征的最终权重后，采用最优核对支持向量机分类器进行训练，分类器如式(10)所示。

(10)

式中：si是支持向量，利用一对一的方式进行多分类实现身份识别。

2.2 决策融合算法

对于决策融合而言，不会在特征层面上采用特征融合的方式融合,而是对于不同模态分配不同的分类器，将分类的输出结果作为评分。具体而言，分类器的输出结果将会转化为一个样本的可能概率值，通过对每个分类器结果分配不同权值后再进行加权，最终将选择概率最大的标签值作为分类的结果输出。

(11)

由于MDMKL时间复杂度较高，仅单独使用特征融合会导致模型的整体时间表现比较差。因此提出一个采用特征融合与决策融合的集成新框架MMMKL，如图4所示。其中M1，M2，M3表示不同模态，其中模态M1和M2采用MDMKL算法进行特征融合，并将结果利用决策融合算法与模态M3进行融合。

图4 多模态混合融合框架MMMKLFig. 4 Hybrid multi-mode fusion framework

2.3 算法设计

MMMKL的流程如图5所示，该模型通过引入SVM思想中的间隔约束条件提不同模态特征的身份信息，解决了传统的MKL算法对于不同模态的特征提取算法没有较强鉴别能力的问题，同时解决了模型过于复杂难以直接求解的问题。采用将问题转化为对偶问题来简化求解过程，在对偶问题求解过程中，为获取一个固定的特征权重值，利用梯度下降法获取最优值。为避免模态间的特征过多导致难以进行区分，为判别能力差的特征分配一个较小的权值，并合并权值较小的权值达到模态鉴别能力最大化。

图5 MMMKL模型实现流程图Fig. 5 The flow diagram of model MMMKL

w1和w2对应着融合后的特征M12与待融合特征M3的权值，其中w1+w2=1。w1的值会根据迭代计算由0.1开始每次增加0.1，直到达到0.9，对应的w2值由0.9减小到0.1，通过训练可以达到最佳参数结果。

3 实验分析

3.1 实验数据集

为了检测基于多模态的身份识别技术在智慧园区中应用的效率以及普遍性，首先选取了在中国模式识别与计算机视觉大会(PRCV2018)中，爱奇艺公开最大的明星视频数据集(IQY-VID)。该数据集被广泛用于“多模态视频任务识别挑战赛”，其中包含了4 934个人物，视频共有565 372条片段，并且被随机分为训练集219 677条，验证集172 860条，测试集172 835条,数据示例图如图6所示。同时也选择了真实智慧园区中曹家滩视频数据集，该数据集存储于智能监控系统之中，通过专业设备采集，其中包含个体的视频数据。采集的视频数据共有80 000条片段，其中随机选取了50%作为训练集，30%作为验证集，其余的为测试集。

图6 数据示例图Fig. 6 Data sample graph

3.2 MDMKL模型实验

在MDMKL模型实验中，采用IQY-VID数据集以及视频中的文本信息。对于视频，获取图像模型并进行灰度变化获取图像模态矩阵，同时获取音频，采用重采样获取音频文件的关键特征；对于文本信息，通过计算词频获取特征向量。将身份识别的准确率作为实验的评价指标。在经过特征工程相关处理之后，使用MDMKL模型对图像、文本、音频特征进行特征融合。图7为不同融合算法进行多模态数据特征融合，并进行身份识别的实验结果对比。

图7 不同融合算法的实验对比图Fig. 7 Experimental comparison of different fusion algorithms

从图7中可以看出，随着数据量的增加，所有的模型在融合之后都有准确率的提升，在数据量增长的初始阶段分类结果准确率提升幅度较大。对比传统的SVM和MKL融合算法，引入间隔的多核学习算法无论是最后的表现效果还是其准确率的增长效果都有更好的表现。具体而言，MDMKL算法由于融合了多个模态而且能够提供区分性强的特征使得模型的准确率最高能达到97.25%，而SVM和MKL融合算法表现最好的准确率分别为88.90%和94.34%。因此MDMKL模型要优于其他对比模型。

对IQY-VID数据集进行实验时，同时进行了算法的收敛性实验，即验证迭代次数的增加对损失函数f值下降的影响。在图8中，比较了传统的MKL方法与引入间隔约束后的收敛性能，其中红色线代表的MDMKL能够迅速达到收敛，而传统的MKL算法需要经过7～8次迭代才能达到收敛，说明MDMKL模型的收敛速度更快。

图8 目标收敛性与迭代次数对比图Fig. 8 Comparison of target convergence and iteration times

为了对比不同模态融合对最终结果的影响，表1展示了实验结果。对于单独一个模态的识别，采用MDMKL方法在不同单模态中提取特征之后得出的结果再做识别能够取得较好效果。在进行模态融合之后，识别的效果也都有了显著提高，其中表现最好的是3种模态进行特征组合之后的结果，能达到97.25%的准确率。而基于图像与文本模态的融合也能达到较好的效果，这反映了图像与文本提供的特征对于一个人身份的识别产生的作用较大。可见，MDMKL能够有效地提取不同模态的特征，并进行融合识别。

表1 单模态和多模特征级融合对比(曹家滩)

为验证MDMKL模型的可移植性，采用曹家滩数据集进行实验验证，同样对于视频数据进行处理，对于文本数据采用员工登录系统的文本数据。将所有的特征向量进行特征维度上的合并，并使用MDMKL模型进行特征融合。表2为单模态与多模态特征融合对比的实验结果，同样也显示了在单一模态之中，图像模态由于能够区分身份的特征较多，能够有较高的准确率。而多模态融合识别结果表明图像模态与其他模态进行特征融合之后的结果能取得较好的效果。当同时使用图像、音频和文本的三种模态的特征并进行特征融合之后，能够达到较好的表现效果。在这个实验中，模型的表现效果比爱奇异视频提供的数据表现得更好，这可能是由于爱奇艺数据中的文本信息无法提供稳定的特征，同时图像数据受到视频的分辨率与是否有干扰等影响。

表2 单模态和多模特征级融合对比(爱奇艺)

3.3 多模态融合(MMMKL)实验

曹家滩样本数据包括图像P、音频A与T文本3种模态，采用特征融合与决策融合，3种模态的融合方式包括PT+A，PA+T以及AT+P。实验结果如图9所示。其中横坐标代表了在进行特征融合之后在进行决策融合的权重，其表示为wM12+(1-w)M3。可见，随着w的逐渐增大，模型识别准确率逐渐提升，并在权重值w=0.6附近时，各个模态融合的表现效果达到较好的效果。从图9中可以看出图像与音频信息进行特征融合之后，再与文本特征进行决策融合达到的识别准确度是最高的，在w=0.6时达到97.37%的准确率。这体现了图像信息中无法识别的信息，可以通过音频信息补全，并通过文本特征进一步确认。

在视频与文本进行特征融合识别之后，再进行音频特征识别结果[19]的决策融合中，其表现效果在w=0.7时达到最好，准确率为92.5%。这可能是由于决策融合对于整体框架中无法达到较好的效果，获取的音频特征存在噪声数据，影响了整体表现效果。

图9 曹家滩视频数据集的多模态实验结果Fig. 9 Multimodal experiment results based on Caojiatan dataset

在对本文所提出的模型框架的实验中，表3显示了曹家滩智慧园区历史视频数据的多模态特征融合与决策融合实验结果，在该数据下首先对图像特征与音频特征进行特征融合，再对文本信息进行决策融合达到了最好的表现效果。表4显示了爱奇艺视频数据集的特征融合与决策融合实验结果，与曹家滩视频数据集实验结果类似，当使用图像与音频模态作为特征融合时，模型的准确率能到达最高水平。

表3 基于曹家滩视频集数据的多模态融合

表4 基于爱奇艺数据的多模态融合

4 结语

智慧园区离不开新型技术的支持，针对于曹家滩智慧园区的技术发展，提出了一种基于多模态的身份识别技术，能有效地解决智慧园区中对于不同园区的分级管理问题。由于现有的人脸识别只是单纯考虑到图像这一种模态对于身份识别的影响，基于图像、音频、文本3种模态提出了一种MDMKL模型，有效地提升了身份识别的效率与准确性，提高了受监控区域的安全性。同时由于采用的是非接触的信息采集方式，设备本身安装方便、性能可靠，能够显著提升园区的管控水平和事件处理速度。在园区的智慧管理建设过程中，做出针对性的技术升级和创新，提高园区信息化技术水平，也充分利用技术创新带动产业创新，打开了园区智慧化管理新局面。