云南大学
作为一种重要的自然人机交互手段,人体动作识别因其广泛应用前景和重要理论意义,受到越来越多研究者的关注。从应用领域看,人体动作识别在计算机体感游戏、虚拟现实、机器人控制等方面有广阔的应用前景,然而单个传感器捕捉到的数据存在一定局限性,难以解决识别出现的各种问题。因此,云南大学项目团队围绕多加速度传感器、多视觉传感器及多源异构传感器的人体动作识别开展深入研究,取得创新性成果如下:
1)该研究构建了多加速度传感器特征一体化张量表达模型;结合长短期记忆网络对时间序列信号建模的优势,通过增加主成分卷积网络结构降低了噪声的影响。同时,采用多路加速度信号的集成学习结构有助于进一步改善动作识别。
2)该研究揭示了在协方差估计矩阵中引入的正则化技术可以有效解决高斯密度模型中参数的估计;其次通过构建面向复杂背景的显著性检测模型和张量排序保留判别分析模型,解决了视觉中常见的光线、遮挡、背景等因素影响下的目标特征表达问题。
3)该研究构建了一种融合了柯西估计的算子来抑制传感器间噪声不平衡的问题;同时考虑到多源传感器信号的复杂性以及应用实时性,将相关分析级联网络模型作为一种多视角深度学习网络来解决多源异构传感器数据融合问题。
研究团队围绕多传感器下的人体动作识别三大科学难题,构建了不同传感器架构下动作识别解决方案。相关研究成果不仅在学术影响层面产生了广泛的影响,同时也产生了实际应用价值,例如项目团队通过与深圳市优必选科技股份有限公司合作,将人体动作识别技术应用于Alpha系列教育机器人、Cruzr系列服务机器人以及安巡视和安防士巡检机器人,解决了该公司机器人研发和制造过程中人机交互的核心问题。项目总体研究框图如图1所示,具体科学发现如下:
图1 研究框图
在对加速度信号进行特征提取时,采用时域和频域的方法,分析加速度传感器三个轴向一段时间内输出的加速度信号。值得注意的是传感器并非固定佩戴在人体的某几个位置,因而获取信号方向会随着受测者动作幅度而改变,使得这两类方法都存在一个共同的缺陷,时域或频域的变化信息无法直接反映人体运动情况,使得动作识别精度不高。针对上述问题,通过研究加速度信号特征提取和特征表达的特点,发现了多源加速度传感器特征在高维空间具有一致性的规律,构建了基于多源加速度传感器的张量框架(Tensor Manifold Discriminant Projections,TMDP),其框架如图2所示。此外,尽管长短期记忆网络(Long Short-term Memory,LSTM)可以直接对加速度时间序列信号进行建模,但在小样本的情况下,噪声的影响会使得信号识别精度大幅度降低。因此,提出基于主成分分析的2维长短期记忆网络(Principal Component 2D Long Short-term Memory,PC-2DLSTM)和多列双向长短时记忆网络(Multicolumn BLSTM,MBLSTM)来解决小样本学习问题。
图2 基于TMDP的人体动作识别框架
在基于视觉的人体动作识别实际应用场景中,存在跨摄像头或者组间摄像头的问题。现有的典型度量学习算法已经在大多数情况下获得较好性能,但当样本不足或视角条件变化很大时,这些方法识别效果不佳。主要原因是高斯分布存在估计偏差,过高估计协方差矩阵中大的特征值,将导致估计的度量矩阵偏差较大,从而使得度量学习模型的精度不够。为了解决以上问题,提出了对偶正则化的KISS度量学习模型(Dual-Regularized KISS Metric Learning,DRKISS)。此外,作为一种典型的图像特征学习方法,子空间学习方法希望找到某种更有优势新的低维特征子空间。然而,在对图像特征处理时,一般先需要向量化特征,再利用子空间学习方法来对特征进行选择,这不仅会破坏特征的空间结构,使得方法性能下降,还会使得维数灾难问题更严重。针对以上问题,提出了张量排序保留判别分析模型(Tensor Rank Preserving Discriminant Analysis, TRPDA)。
在图像识别的过程中,图像显著性检测也是一个至关重要的预处理步骤, 但由于显著性对象本身的多样性以及背景的复杂性,会产生大量与动作判别无关的图像区域。为此,提出流形排序矩阵分解显著性检测模型(MR-based matrix factorization,MRMF)。MRMF通过融合图像中的区域特征和局部空间的关联信息,实现了更好的显著性检测性能。
由于单模态传感器难以提取全面的人体动作信息,采用了多源异构传感器可以通过融合的方式,让时间和空间特征在线索建模过程中相互补充。然而,基于多源传感器的人体动作采集一直受到噪声问题的困扰,以往的方法没有考虑到噪声对不同传感器影响程度不同,无法发挥异构传感器组的优势。基于上述考虑,提出了多视角柯西估计特征嵌入(Multi-view Cauchy Estimator Feature Embedding,MCEFE)的特征融合方法,其框架如图3所示。
图3 多视图柯西估计特征嵌入流程
近年来,很多研究人员采用深度学习方法实现了单模态传感器下人体动作识别。而基于多源异构传感器的人体动作识别本质属于多视角学习,典型相关分析技术可以建模同一目标不同视角的相关信息,该信息可以反映目标内在的公共属性,有利于挖掘目标的本质特征表示。为结合典型相关分析和深度学习的优势,提出了典型相关性级联网络(Canonical correlation analysis networks, CCANet),其网络结构如图4所示。CCANet给出了典型相关分析的一般深度网络实现方法。该方法具备如下优点:1)相比较于单视角方法,典型相关分析具有更好的鲁棒性;2)相比较于传统的卷积神经网络模型,典型相关分析级联模型具有更明确的物理可解释性;3)网络可扩展性强。
图4 CCANet网络结构示意图