一种深度偏最小二乘相关分析的多模态融合方法

2021-07-19 09:44苏树智张若楠郜一玮高鹏连朱刚
关键词:图像识别深度学习

苏树智 张若楠 郜一玮 高鹏连 朱刚

摘 要:典型相关分析是一种经典的线性多模态融合方法,但是难以有效解决高维非线性数据的多模态融合问题。结合典型相关分析、线性回归分析与深度神经网络,提出一种新颖的多模态融合方法,即深度偏最小二乘相关分析。该方法能够在最大化不同模态之间相关性的前提下学习具有强鉴别力的跨模态融合数据,并且能够有效解决典型相关分析面临的高维非线性困境。在真实图像数据集上的实验结果表明,提出的方法具有良好的融合鉴别力和相关收敛性,是一种有效的多模态融合方法。

关键词:多模态融合;典型相关分析;偏最小二乘相关;深度学习;图像识别

中图分类号: TP391文献标志码:A

文章编号:1672-1098(2021)02-0023-06

收稿日期:2020-07-23

基金项目:国家自然科学基金资助项目(61806006);中国博士后科学基金资助项目(2019M660149);安徽省“115”产业创新团队基金资助项目;合肥综合性国家科学中心能源研究院基金资助项目(19KZS203)

作者簡介:苏树智(1987-),男,山东泰安人,副教授,博士,研究方向:模式识别、深度学习、多模态数据处理。

A Multi-modal Fusion Method via Deep Partial Least Square Correlation Analysis

SU Shuzhi1,2,ZHANG Ruonan1,2,GAO Yiwei1,2,GAO Penglian1,ZHU Gang1

(1.School of Computer Science and Engineering, Anhui University of Science and Technology, HuainanAnhui232001, China;2.Institute of Energy, Hefei Comprehensive National Science Center, HefeiAnhui230031, China)

Abstract:Canonical correlation analysis (CCA) is a classic linear multi-modal fusion method but difficult for CCA to deal with multi-modal fusion of nonlinear data. Therefore a novel multi-modal fusion method, i.e. the deep partial least squares correlation (DPLSC) is proposed by means of CCA, linear regression analysis, and deep neural network, which may maximize the correlation of different modalities and simultaneously learn the cross-modal fusion data with a strong discriminative power. Besides, the nonlinear dilemma and the small size sample problem of CCA will be solved with the method. Experimental results on real-world image datasets reveal that the proposed method is an effective multi-modal fusion one with a strong fusion discriminative power and good correlation convergence.

Key words:multi-modal Fusion; Canonical Correlation Analysis; Partial Least Squares Correlation; deep Learning; image Recognition

典型相关分析(Canonical Correlation Analysis, CCA)[1]是处理多模态数据的统计学方法,旨在最大化不同模态特征之间的相关性,目前已经被成功应用于很多领域。文献[2]将CCA用于多模态特征学习和数据融合,并在图像识别中获得了良好的实验结果。从不同的角度,文献[3]通过使用随机化方法降低典型相关分析的时间复杂度,提出了统计CCA方法,实现投影方向的快速学习。文献[4]结合核方法,将低维数据映射到高维度,以解决在低维度无法解决的非线性困境,提出核化典型相关分析(Kernerl Canonical Correlation Analysis,Kernel CCA)方法,实现对低维非线性数据的有效融合,文献[5]提出一种基于点阵量化的非线性相关分析问题的信息理论压缩表示框架,使得CCA面对非线性问题时仍能具有较好的性能。文献[6]将典型相关分析从两模态扩展到两个或两个以上的模态,提出了多视图CCA方法,并在大脑数据分析中获得良好的实验结果。文献[7]结合深度神经网络,提出深度CCA(Deep CCA)方法,以解决典型相关分析难以掌握原始高维数据的内在非线性结构信息。但在现实数据环境中往往会遇到样本维度较高且样本与样本之间又具有较高的相关性的问题,此时基于典型相关分析的数据融合将受到较多的限制,为了解决该问题,偏最小二乘(Partial Least Square Method, PLS)[8]方法结合主成分分析、典型相关分析以及线性回归分析,从理论上解决数据融合时的高维线性不可分问题,PLS由于其在上述问题的出色性能,目前已经成功应用于医学成像分析[8]、生物成分分析[9]、光谱图像处理[10]、植物特征分析[11]等生物医学领域。PLS方法可分为偏最小二乘回归(Partial Least Squares Regression,PLSR)以及偏最小二乘相关(Partial Least Squares Correlation, PLSC),PLSR旨在用一个模态的数据来推测另一个模态的数据,而PLSC主要用于分析不同模态之间的相关性问题,本文主要是探索基于PLSC的数据融合问题。

CCA与PLSC是线性的优化方法,对非线性样本的适用性较差。深度学习是近年来不断发展的新兴学科,随着深度学习的不断发展,越来越多的学科通过与深度神经网络结合而达到了相较于过去更好的适用性,截止目前,行为预测[12]、自然语言处理[13]、情感分析[14]、语音识别[15]等领域的深度学习应用已经被广泛采用。本文通过结合深度学习与PLSC,提出一种新颖的多模态图像识别方法,即深度偏最小二乘相关分析方法(Deep Partial Least Square Correlation, DPLSC)。该方法将偏最小二乘相关分析和深度学习进行有效融合,深度神经网络的层与层之间的非线性激活对非线性样本进行处理,偏最小二乘相关分析作为多模态网络的融合层,进行相关约束和融合,从而有效增强了多模态非线性特征的鉴别力,实现了多模态图像的有效识别。大量实验显示DPLSC方法是一种有效的多模态图像识别方法。

1 相关工作

1.1 典型相关分析(CCA)

CCA是一种经典的多元统计分析方法,目前被广泛的应用于模式识别,信息融合以及语义分析等方面,它能够学习两个模态之间的相关一致子空间,有效地发掘不同模态之间潜在的线性相关关系。

令X=[x1,x2,x3,…,xN]∈Rdx×N,Y=[y1,y2,y3,…,yN]∈Rdy×N是对应同一目标的两个模态数据。其中对应于第k对样本的数据为(xk,yk),N代表采集样本的数量,dx和dy分别为两个模态数据的样本维数。CCA旨在通过构建不同模态的相关准则函数,学习模态数据集X与Y的相关投影方向α∈Rdx×1和β∈Rdy×1。为了使求得的低维相关投影具有最大的相关性,借助皮尔森相关系数来构建相关投影准则,具体优化函数如式(1)所示。

maxα,βαTSXYβαTSXXαβTSYYβ(1)

其中SXY=1n∑ni=1(xi-x-)(yi-y-)T为模态数据集X与Y之间的类间协方差矩阵,另外,SXX=1n∑ni=1(xi-x-)(xi-x-)T和SYY=1n∑ni=1(yi-y-)(yi-y-)T是同一模态数据的类内协方差矩阵,用来反映类内的相关程度。由于公式(1)中相关投影方向α和β具有尺度不变性,因此上述相关投影准则能够等价的转化为下面的相关优化问题

maxα,β αTSXY βs.t.αTSXXα=1,βTSYY β=1 (2)

利用拉格朗日乘子法求解能够将上述相关优化问题的求解转化为求解矩阵H=S-1XXSXYS-1YYSYX的前k个最大特征值对应的特征向量。

1.2 偏最小二乘相关(PLSC)

PLSC与典型相关分析相同,都是对于同一观测物体的不同模态数据进行关联处理的方法。PLSC通过推导模态数据的潜在变量空间来得到其最佳的线性组合。

和典型相关分析相比,偏最小二乘相关分析在面对高维度样本时能够学习更具鉴别力的特征,假设X=[x1,x2,x3,…,xN]∈Rdx×N,Y=[y1,y2,y3,…,yN]∈Rdy×N分别为相同目标在不同采集方式下采集到的不同模态数据,其中N代表不同模态下采集到的样本数,dx和dy分別为两个模态数据的样本维度,分别对不同模态下的数据进行标准化处理,得到标准化后的数据X,Y。通常,由于X,Y进行了标准化处理将X,Y的积R=X YT用于表示X,Y相关性矩阵,对R进行奇异值分解,可以得到R=UDVT,其中U,V均为由奇异值构成的矩阵,在偏最小二乘相关中,U,V代表着模态数据的主要特征。

通过上述的方式得到原始样本的显著特征后,需要对样本的相关性进行分析,通过将原样本向U,V的方向进行投影即Lx=XV和Ly=YV,PLSC的优化目标如式(3)所示。

maxu,v cov(Lx,Ly)

s.t.uuT=1,vvT=1 (3)

其中u,v分别为U,V的前n个向量。将上述优化目标以典型相关分析的形式进行具体的表示,即将偏最小二乘分析问题转化为下述优化问题

maxu,v uTRvs.t.uuT=1,vvT=1(4)

类似于CCA,利用拉格朗日乘子法同样能够获得上述优化问题的解析解。

1.3 深度神经网络(DNN)

深度神经网络(Deep Neural Networks,DNN)是一种模拟大脑神经网络推理模式的机器学习方法。深度神经网络的最小单元是感知机,感知机是一种有多个输入以及单个输出的模型,在图1中给出了感知机模型的直观描述。

感知机的输入与输出之间存在一种线性关系即

z=∑mi=1wixi+b(5)

其中wi为每个输入的权值,即每个输入对输出的影响程度,b则为偏差值。从z到最终的输出之间往往会添加一层激活函数,当激活函数为

sign(z)=1 z≥0-1 z<0 (6)

感知机能够应用于二元分类问题,显然,单独的感知机无法解决复杂的非线性问题,深度神经网络则通过将感知机进行堆叠构建网络,如图2所示。

如图2所示,深度神经网络通过堆叠感知机组成了复杂的网络结构,这样的结构可以处理多输入与多输出的高维度非线性问题。

2 深度偏最小二乘相关(DPLSC)

本文提出的DPLSC方法,通过将两模态数据分别通过两个多层堆叠的神经网络,来对复杂的非线性数据进行预处理后,在通过深度偏最小二乘相关方法来计算双视图数据的相关性,具体的框架如图3所示。

为了描述的便捷,假设上述框架使用第一个模态对应的神经网络输入层有c1个节点,最终的输出有个节点。对于第一个视图数据x1∈Rn1来说,对应神经网络的第一层输出为h1=s(W11x1+b11)∈Rc1,其中W11∈Rc1×n1为神经网络的第一层权重组成的矩阵,b11∈Rc1为神经网络第一层的偏差值所组成的向量,s(°)为神经网络的层与层之间的非线性激活函数。

对于第一个视图数据x1∈Rn1来说,对应神经网络的第一层输出为h1=s(W11x1+b11)∈Rc1,其中W11∈Rc1×n1为神经网络的第一层权重组成的矩阵,b11∈Rc1为神经网络第一层的偏差值所组成的向量,s(°)为神经网络的层与层之间的非线性激活函数。神经网络第一层的输出h1,将用于第二层的输入,按照上述的计算方式,第二层的输出可以表示为h2=s(W12h1+b12)∈Rc1,通过将上一层的输出作为下一层的输入,计算到输出层(第d层)的最终表示为f1(x1)=s(W1dhd-1+b1d)∈R。对于第二个视图x2,采用第一个视图相同的方法,使用不同的权重矩阵W2l与偏差值向5量b2l得到第二个视图的最终表示为f2(x2)。

深度偏最小二乘相关分析使用两组深度神经网络同时学习双模态数据的融合特征,通过不断更新权重Wvl与偏差bvl使双视图数据的相关性达到最大。假设θ1和θ2分别为双视图数据对应神经网络的参数矩阵,则深度偏最小二乘相关分析的优化目标可描述为如下优化函数

(θ*1,θ*2)=max(θ1,θ2)corr(f1(X1;θ1),f2(X2;θ2))(7)

为了求解(θ*1,θ*2),采用梯度下降方法训练数据。令H1∈R×m,H2∈R×m是由大小为m维的样本数据通过深度神经网络得到的相应视图的最终输出。H1=H1-1m-1H1L为H1经过中心化处理后得到的零均值矩阵,L∈Rm×m为元素全为1的矩阵,对H2进行同样的中心化处理得到对应的零均值矩阵H2,因此跨模态相关矩阵R12能够表示为R12=1m-1H1HT2。

类似于PLSC的求解方法,利用奇异值分解法能够求解跨模态相关矩阵R12对应的模态显著特征,从参考文献[17]可知,跨模态样本间的相关性能够通过R12的前n个奇异值之和来表示,当n=时,跨模态样本间的相关性corr(H1,H2)为其的迹范数,即

corr(H1,H2)=R12tr=tr(R12TR12)12 (8)

DPLSC中神经网络的权重参数Wvl以及偏差值参数bvl通过梯度下降的方法进行优化。为了计算corr(H1,H2)中相应参数Wvl与bvl的梯度,可以先计算出H1,H2的梯度后在使用反向传播计算其他参数对应的梯度。假设R12的奇异值分解为R12=UDVT,则相应的梯度公式为

corr(H1,H2)H1=1m-1(2SymbolQC@11H1+SymbolQC@12H2)(9)

其中SymbolQC@12=UVT,SymbolQC@11=-12UDUT。对于矩阵H2,corr(H1,H2)H2的表达式与上式相同。在表1中描述了详细的算法步骤。

输出:具有最大相关性的非线性融合数据

在第四部分中,将通过在MNIST手写数字数据集上的针对性实验验证DPLSC相较于其他融合方法能够得到更好的融合特征。

3 实验部分

在本节中,通过在MNIST手写数字数据集上进行手写数字识别,并通过与CCA,PLSC,Kernel CCA,图多视角典型相关分析(Graph Multiview CCA, GMCCA) [18],Deep CCA以及本文提出的DPLSC方法的性能進行对比分析。

3.1 MNIST手写数字图像数据集

MNIST手写数字图像数据集共计由70 000张28×28像素的手写数字图像组成,其中60 000张作为训练图像,10 000张作为测试图像,从本质上而言,该数据集为单模态图像数据集,本文利用多模态图像策略[19]获得每幅图像的两种模态数据。具体而言,首先将像素值缩放到[0,1],并对从数据集中均匀采样得到的图像进行[-π/4,π/4]角度的旋转为第一种模态数据;然后从与第一种模态数据相同标签的图像中随机选择一副图像,将从[0,1]开始均匀采样的独立随机噪声加到该图像的每个像素上,再将像素的最终值截断到[0,1],从而获得第二种模态数据。在图4中展示了经过模态图像策略处理后的代表性图像,其中左图为第一个模态的图像,右图为第二个模态的图像。

3.2 实验结果分析

在实验中分别使用CCA,PLSC,Kernel CCA,GMCCA, Deep CCA以及本文提出的DPLSC对两模态图像数据进行低维融合,并将融合数据约束在10维、20维、30维、40维以及50维后,利用支持向量机对融合数据进行分类,以获得最终的识别结果。从图5中可以看出,随着约束的维度增加,DPLSC的识别率不断升高,并获得比其他方法更好的识别性能。当数据维数达到20以上时,本文中提出的DPLSC方法均获得了最优的识别性能,并且识别率随维度变化同样更加稳定。GMCCA借助图理论能够学习非线性特征,并且随着维数的增加,识别率在50维时获得了比CCA更优的识别率。另外,将Deep CCA与DPLSC的最大循环次数同样设定为100次,从图6能够看出本文提出的DPLSC方法相较于Deep CCA方法能够更加充分的学习两模态数据之间的非线性特征,并取得更大的收敛相关性。上述实验结果可以给出一个合理的观察,DPLSC能够获得更具鉴别力的融合数据,是一种面向识别任务的有效多模态融合方法。

4 总结

本文提出一种新颖的多模态融合方法,即DPLSC,该方法能够在最大化不同模态之间相关性的前提下获得具有强鉴别力的跨模态融合数据,该方法利用深度神经网络克服了CCA,PLSC在数据融合非线性困境,并有效提升了融合高维数据时的融合性能,通过实验表明,DPLSC获得的融合数据相较于其他融合方法的融合结果更具鉴别力,并与Deep CCA相比具有更好的相关收敛性与对于维度变动的稳定性,是一种有效的多模态融合方法。

参考文献:

[1] YANG X,WEIFENG L,LIU W,et al.A Survey on Canonical Correlation Analysis[J].IEEE Transactions on Knowledge and Data Engineering,2019,1:1 558-2 191.

[2] SUN Q S,ZENG S G,LIU Y,et al.A new method of feature fusion and its application in image recognition[J].Pattern Recognition, 2005, 38(12): 2 437-2 448.

[3] GAO C, GARBER D, SREBRO N, et al. Stochastic canonical correlation analysis[J]. Journal of Machine Learning Research, 2019, 20(167): 1-46.

[4] WANG Y, CANG S, YU H. Mutual information inspired feature selection using kernel canonical correlation analysis[J]. Expert Systems with Applications: X, 2019, 4: 100014.

[5] PAINSKY A, FEDER M, TISHBY N. Nonlinear Canonical Correlation Analysis: A Compressed Representation Approach[J]. Entropy, 2020, 22(2): 208.

[6] DECHEVEIGNE A, Di LIBERTO G M, Arzounian D, et al. Multiway canonical correlation analysis of brain data[J]. NeuroImage, 2019, 186: 728-740.

[7] ANDREW G,ARORA R,BILMES J,et al.Deep canonical correlation analysis[C]. International conference on machine learning.JMLR.org:Atlanta.GA,USA,2013: 1 247-1 255.

[8] HAIR J F, SARSTEDT M, RINGLE C M. Rethinking some of the rethinking of partial least squares[J]. European Journal of Marketing, 2019, 53(4):566-584.

[9] ZEIGHAMI Y,FERESHHTEHNEJAD S M,DADAR M,et al.A clinical-anatomical signature of Parkinson's Disease identified with partial least squares and magnetic resonance imaging[J].NeuroImage,2019,190:69-78.

[10] FOSTER A J, KAKANI V G, MOSALI J. Estimation of bioenergy crop yield and N status by hyperspectral canopy reflectance and partial least square regression[J]. Precision Agriculture, 2017, 18(2): 192-209.

[11] ALOGLU A K, HARRINGTON P B, SAHIN S, et al. Prediction of total antioxidant activity of Prunella L. species by automatic partial least square regression applied to 2-way liquid chromatographic UV spectral images[J]. Talanta, 2016, 161: 503-510.

[12] BODAH E T,WEIR B.New Method Application for Marker-Trait Association Studies in Plants:Partial Least Square Regression Aids Detection of Simultaneous Correlations[J]. Agricultural research & technology: open access journal, 2017, 12(5):555864.

[13] PEREIRA T D,ALDARONDO D E,WILLMORE L,et al.Fast animal pose estimation using deep neural networks[J]. Nature methods, 2019, 16(1): 117-125.

[14] CUI R, LIU H, ZHANG C. A deep neural framework for continuous sign language recognition by iterative training[J]. IEEE Transactions on Multimedia, 2019, 21(7): 1 880-1 891.

[15] JAIN D K,SHAMSOLMOALI P,SEHDEV P.Extended deep neural network for facial emotion recognition[J].Pattern Recognition Letters,2019,120: 69-74.

[16] NASSIF A B, SHAHIN I, ATTILI I, et al. Speech recognition using deep neural networks: A systematic review[J]. IEEE Access, 2019, 7: 19 143-19 165.

[17] CHEN J,WANG G,GIANNAKIS G B.Graph multiview canonical correlation analysis[J].IEEE Transactions on Signal Processing, 2019, 67(11): 2 826-2 838.

[18] WANG W,ARORA R,LIVESCU K,et al.On deep multi-view representation learning[C]//International Conference on Machine Learning.JMLR,org:Lille,

France,2015: 1 083-1 092.

(責任编辑:李 丽)

猜你喜欢
图像识别深度学习
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
图像识别在物联网上的应用
图像识别在水质检测中的应用
浅谈模式识别在图像识别中的应用
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究