张博文,周丽丽
(黑龙江省科学院智能制造研究所,黑龙江 哈尔滨 150090)
人机交互接口与人机系统一直是科学发展的主要研究方向之一,通过人机交互接口能够广泛的实现多场景下人机智能协作与智能辅助,带来较大社会效益。作为计算机科学、人体运动学、生理学等多学科研究的交合点,人机系统涉及各个层面研究的理解与综合。其中,对于人体运动的意图感知和预测是实现高效人机系统协调控制、高校耦合的核心基础与根本保障。在人体机能康复与居家养老保健的场景下,进行有效的康复水平判断、标准制定与积极的康复保健方案需要对人体运动意图进行精确的判断与指标的量化。虽然近年来针对运动理解与运动意图感知的技术取得了很大的进展,但依然在个体适配、复杂场景等问题上难以保证实用性与稳定性。
在人体意图感知方面,运动意图的感知与理解需要从生理结构的角度出发,提取多维的生物运动特征,并进行高效的耦合分析。因此,对多模态生物数据的提取与分析策略的优化是影响康复与保健场景下的关键因素。人体生理参数及其衍生的肌肉-骨骼模型需要根据解剖与测量进行分别建模并合成,然而对于实时与普适的应用场景亟需一种能够保证灵活性的量化方式,在基于多模态的人体生理数据获取基础上,对人体生理结构特性分析构建肌肉-骨骼模型能够有效解决这一问题,并提供丰富的时空特征进行人体运动意图的感知与预测[1]。
生物体的动作姿态识别的研究,经历多个阶段的衍生与发展,大体上可以归为两种方式,一种是基于模板匹配几何法,通过人为干预以及多维度建模的方式来搭建生物体各部件模型的静态生物体图像,运用生成的静态生物图像再构建空间模型,把每个部件之间的关系展现出来,这种几何匹配算法是比较传统的体资检测算法。经过算法的优化与提升,人们更加注重算法特性,使特征方程描述的更加精细。然而面对更加复杂的应用场景与应用需求,需要针对需求状态与用户状态进行已知技术的进一步优化,故提出级联式动态行为感知技术与可分离并行卷积神经网络。
随着人工智能的飞速发展,机器视觉技术与生物体运动行为识别技术在人类生产活动中得到了广泛应用与发展,智慧医疗、智慧交通、运动训练、智能家居等领域都有这广阔的发展空间,但是视觉识别的数据采集、生物动态差异化方面方法依然存在一些问题,如在复杂环境下光线的缺失对视觉识别来说是一个很严重的干扰因素,其次在数据采集过程中,拍摄角度的差异同样影响最终测算结果。而且不同生物体的运动方式会有很大的不同,为了解决以上问题,提出一种级联式的动态行为感知方法,通过多级网络模型的串并联结构,有效的提升了感知的性能。
基于视觉的图像处理首先需要进行特征处理,为了能够降低特征提取的复杂度,提升运算性能,通过多种特征融合的方式进行特征提取。在特征提取的过程中,通过多个网络提取不同维度的特征并优化空间误差,在不影响精度的情况下大大提升了运算效率。在特征提取的环节,使用了多级卷积神经网络。首先通过SSD进行目标识别,可在大尺度情况下迅速定位目标感兴趣区域。SSD网络使用积分层VGG16 作为底层网络特征的直接交互式映射,以预测多目标类别和周长。采用单点多帧检测方法避免了快速R-CNN 中的候选区域法,在检测精度和实时性上达到了平衡。SSD网络结构如图1所示。
图1 SSD网络框架
在此基础上,由于目标区域的尺度与感知场景大部分集中在图像中心区域,针对性的对SSD 的锚框进行优化,在不损失精度的情况下,进一步地优化了处理流程。提取目标感兴趣区域后,使用ResNet进行特征点图像坐标回归,由于感兴趣区域的尺寸较小,并且特征比较集中,可以进行快速的热力图建立并回归到特征点的坐标。进一步使用传统的统计学特征可修正偏差,可以在优于同类方法几十倍速度的情况下,完成像素误差的结果输出[2]。
通过双目相机进行特征点空间重建。三维空间点P在相机的成像图如下图所示。根据相似三角形原理,有以下关系:
因此,当已知三维空间上任意一点在不同图像上的视差,再根据相机的参数,就可以知道该点的三维坐标。如图2所示。
图2 空间成像原理
通过多通道的LSTM网络对人体各个关节点进行时序信息提取,能够对任意的特征完成时空连续性的动作分析。根据不同特征点形成的运动模式进行平面的线性分类,可有效完成行为感知。
在人体肌肉中表达的各种生物电现象大多是基于细胞的基本电现象(静息电位与刺激动作电位)。静息时,细胞膜内外的电位差为静息电位。静止电位通常是稳定的直流电流。当不刺激细胞时,静息电位值保持在稳定范围内。从生理上讲,细胞膜两侧静止时的内负电位和外正电位状态称为膜极化状态。当细胞受到刺激时,细胞膜的极化状态会发生变化。当细胞膜内外的状态恢复到静默极化状态时,称为复极[3]。作用电位是由于受激膜的去极化引起的,当膜的去极化达到一定的临界值时,膜对钠、钾离子的渗透性发生快速可逆的变化。导致膜内外张力差剧烈重复变化。直到增加的膜通透性消失,膜的静息电位才得以恢复。
人类肌肉的收缩活动由神经系统控制。中枢神经系统向运动神经的外周分支发送动作电位。神经肌肉接触类似于突触(结构上包括突触前膜、突触后膜和突触间隙)。突触后膜是肌肉细胞中与轴突膜,即运动终板相对应的部分。在运动终板上有一个乙酰胆碱受体,可以与乙酰胆碱特异性结合。刺激通过化学递质乙酰胆碱和终板膜电位的变化传递到神经肌肉复合物。肌电图(EMG)信号是人脑向肌肉发送的运动指令的电化学表达[4]。肌电信号是叠加在皮肤表面刺激上的肌电信号的综合效应。肌电图信号应先于肌肉收缩或放松,并部分反映神经肌肉活动。图3是肌电信号产生机制的示意图。
图3 肌电信号产生机理
为了连续评估运动意图参数,在提取肌电信号的特性后,将参数输入希尔肌力模型[5-6],并根据模型度,下肢研究主要用于预测膝盖的角度。与关节力矩的评估相比,角度预测更易于测量和验证。肌电信号的鲁棒特性预测模型的建立尚未完全成熟,该技术的发展将极大地改善外骨骼和动态假肢的用户体验。从定性研究中的意向感知角度出发,通过传统的模式分类意向识别解决了一致性控制模式变化的问题,减少了用户与外骨骼之间的反馈力,提高了外骨骼的辅助效果。
鉴于肌电信号幅值低的特性,在检测过程中容易受到噪声的影响。因此需要进行噪声处理,来使得肌电信号不受影响避免信号损失。我们根据高频噪声与低频噪声的不同频带,采用滤波算法对采集信号进行两次滤波,以保证信号质量。低频噪声包括肌电感应电极和皮肤之间的微小运动引起的伪轨迹,高频噪声包括电磁设备噪声和实验环境中的工频干扰。通过肌电检测设备的硬件滤波可以在一定程度上降低噪声对采集信号的影响。
根据肌电信号的不同特征,可分为时域、频域和时频域。时域特征函数是基于信号幅度提取时间窗口中的绝对均值和方差得到的函数;频域特征函数是通过快速傅里叶变换从肌电信号频谱中提取中频和平均功率频率所得到的函数。时频特性函数则是通过小波变换、小波包变换或短时傅立叶变换获得的。肌电信号的不同特性可以结合起来形成模式识别的直接向量。与早期只提取单一信号特征作为分类模型的输入相比,多类型肌电特征不仅可以提高分类精度,还可以与其他类型的信号特征融合。同时,也保证了最终结果的准确性与平稳性。
综上所述,本文简要阐述了人体运动意图感知与预测的关键问题研究,拟从生物特征信号处理角度入手,对多模态的生物数据进行建模分析,通过EMG肌信号的实时、准确的人体运动意图识别技术,对差异化运动生物图像进行优化,为进一步研发人工智能型装备提供扎实可行的理论依据。