孙洪明,郑建立,尹梓名
(上海理工大学 健康科学与工程学院,上海 200093)
脑卒中(Cerebral Apoplexy,CA),又称中风、脑血管意外(Cerebral Vascular Accident,CVA),是导致人类死亡的主要疾病之一,超过50%的脑卒中患者因为运动功能障碍导致生活质量降低。脑卒中患者在康复治疗的过程中伴随着运动功能的评估,这种评估在确定运动功能状态和制定康复训练方案方面起着重要的作用。
目前,人体姿态识别的实现方式主要有3种:
基于可穿戴式的人体姿态识别。Zhang等使用单个固定在患者手腕上方的惯性传感器(Inertial Measurement Unit,IMU),自动收集患者运动过程中的加速度,实验结果表明在脑卒中术后偏瘫康复患者上肢运动功能评定量表(Brunnstrom)分期上具有82.1%的准确度;沈天毓等使用5个传感器获取受试者6个范式下的加速度、角速度信号,统计结果表明在H-Y分期和UPDRSⅢ评分的预测准确率分别为72.8%和68.64%;金琦等研制人体姿态设备,采用星型+总线的混合拓扑结构,把采集单元佩戴在人体全身各个关键部位,可用于人体姿态的捕捉;周瑞文等基于九轴IMU的动作捕捉硬件设计系统框架,可以实现人体的姿态估计和关节角估计。
基于机器视觉的体姿态识别。Seunghee Lee和Ali Ozturk等使用Kinect获取地标位置、关节角度等信息对脑卒中术后偏瘫康复患者使用Fugl-Meyer量表进行上肢运动功能评定;Cao等提出一种实时的方法(OpenPose),检测多人的2D姿态;Cheng等使用单个视频估计三维人体姿态,引入遮挡感知的深度学习框架,解决单目视频因为遮挡导致的三维人体姿态估计不准确的问题。
基于机器视觉与IMU的人体姿态识别。使用两者结合的方式,大都通过融合多视点视频和IMU传感器数据来估计三维人体姿态,不需要光学标记和复杂的硬件设置。Timo von Marcard等提出了一种结合单个手持相机和附着在身体四肢的惯性测量单元来估计室外环境下3D人体姿态的方法;Zhang等使用多视角图像和附着在人体四肢的几个惯性测量单元来估计三维人体姿态。
针对脑卒中病人居家康复评估问题,本论文提出了一种应用于移动端的、融合机器视觉获取的单视频数据与固定在人体上肢的IMU数据的数据采集和智能分析方法,以弥补两种方式在单独康复评估过程中的劣势。从视频数据中获得无漂移的精准的3D人体坐标点信息;基于IMU提供完整的肢体旋转、运动过程中的加速度和角速度的信息;旋转机器视觉的坐标系与IMU的坐标系对齐,保障数据采集的准确性,将采集的数据放到分类模型进行训练,以获得脑卒中患者的Brunnstrom分期量表的上肢智能康复评估结果。
使用智能手机蓝牙获取绑定在患者上肢IMU传输的肢体方向等信息,即加速度、角速度、角度的变化,通过手机摄像头获取BlazePose算法捕捉的上肢运动轨迹,即肩关节、肘关节、腕关节的3D坐标点的变化。要采集患者的肢体方向和运动轨迹信息,需要配准IMU与机器视觉的坐标系,将IMU和机器视觉的数据融合,把融合后的数据输入长短期记忆神经网络(LSTM),使用五折交叉验证提高所建立模型的可信度,最后得到Brunnstrom分期的结果。系统框架如图1所示。
图1 系统框架Fig.1 System framework
本文使用维特智能BWT901BLECL 5.0型号的九轴惯性传感器,该产品尺寸为36×51.3×15 mm,重量为20 g,数据输出频率最高为50 Hz,IMU绑定的坐标系轴指向上方、轴水平向左、轴垂直向外,如图2(a)所示。通过蓝牙通信,可测量3轴的加速度、角速度和四元数信息,利用四元数计算相应传感器的姿态角,计算公式如式(1)~(3)所示。为满足患者居家康复评估的基本需要,尽可能降低康复成本,仅使用两个维特智能惯性传感器,用弹性绷带固定于患者手腕上方(距腕关节约1/4前臂长度距离处)和肩关节下方(距肩关节约1/2上臂长度距离处),采集患者上肢运动过程的数据,如图2(b)所示。
图2 惯性传感器外形、坐标系定义及其绑定形式Fig.2 IMU shape、coordinate system definition and its binding form
其中,、、、代表四元数,、、分别代表俯仰角、翻滚角、偏航角。
2020年,google研究人员在跨平台的机器学习框架MediaPipe上,推出了用于单人人体姿态估计的算法BlazePose,该算法是可以推断出33个人体关键点的轻量级卷积神经网络,在移动设备上的适配性表现突出。
与基于热图的技术相比,基于回归的方法对计算的要求更少,可扩展性更高,但是其在预测关节的平均坐标值时,常常存在无法解决的潜在的模糊性问题。Newell等人使用堆叠沙漏网络对人体关节点进行预测,应用了更少的参数,也取得了较好的预测效果,但是该网络较大,不利于在移动设备上运行。BlazePose算法受到堆叠沙漏网络的启发,采用热图、偏移量和回归相结合的方法,但其只在训练阶段使用热图和偏移损失,并在运行推理之前从模型中删除相应的输出层,使其足够轻,可以在移动端运行,网络体系结构如图3所示。
图3 网络体系结构Fig.3 Network architecture
通过智能手机拍摄视频数据,使用BlazePose算法对视频中的人物进行姿态识别,获取人体的3D坐标点,坐标原点位于视频图像的左上角,轴正方向水平指向视频图像的右方,轴正方向垂直指向视频图像的下方,轴垂直于视频图像向里。为减小手机摄像头与受试者之间距离不同,导致所获取3D坐标点的差异,将坐标原点换算到肩关节坐标与髋关节坐标的交点,如图4所示。
图4 坐标原点平移转换Fig.4 Coordinate origin translation conversion
为提高采集数据的准确性,将机器视觉与惯性传感器的数据进行关联,旋转BlazePose的坐标系使其与惯性传感器的坐标系对齐。脑卒中患者固定好IMU后,可在外力的辅助下,肩关节外展90°,肘关节屈曲90°,通过将机器视觉所测量的二维平面上肘关节的角度与惯性传感器所测量轴的关节角度做对比,调整手机摄像头的倾斜角度与IMU的绑定位置,进一步校准两者的坐标系。以右臂为例,按式(4)使用患者手腕关节坐标点(,,)和肘关节的坐标点 (,,) 计算前臂(1(,,))的位置、按式(5)肘关节坐标点(,,)和肩关节的坐标点(,,)计算大臂(2(,,))的位置,降低因为不同患者上肢长度不同而导致数据采集的误差。
长短期记忆网络LSTM(Long Short-Term Memory)是一种时间循环神经网络,可以解决循环神经网络(Recurrent Neural Network,RNN)在长序列训练过程中的梯度消失和梯度爆炸问题。因为RNN在某时刻的隐藏层信息只与当前时刻的输入和上一时刻的隐藏层信息有关,没有记忆功能,所以在处理序列较长的数据时,序列后面部分的梯度很难反向传播到前面的序列,产生梯度消失的问题。为了解决RNN的长期依赖问题,LSTM应运而生,引入了输入门、遗忘门、输出门,通过输入门和遗忘门的信息,可以控制LSTM长期记忆某个时间步(timestep)细胞状态的值,LSTM网络结构如图5所示。与RNN相比,LSTM能够在较长的时间序列中有更好的表现。
图5 LSTM神经网络结构Fig.5 LSTM neural network structure
由于在临床环境下对脑卒中患者康复评估涉及到患者隐私问题,且患者所处的Brunnstrom分期分布不均匀,导致很难收集到脑卒中患者真实的运动数据进行康复评估模型的训练,所以采取招募志愿者培训后模拟脑卒中患者各个Brunnstrom分期的方式进行实验数据的采集。招募的45名志愿者都需完成一次Ⅰ~Ⅵ期Brunnstrom分期上肢运动过程的模拟。分析Brunnstrom量表可知,让脑卒中患者偏瘫侧做摸肩动作,其运动过程可以反应出脑卒中患者相应的Brunnstrom分期。具体数据采集过程如下:
(1)初始位置:被试者上身挺直,采取坐立位,面向前方,颈部伸直,待测上肢自然下垂于身体一侧,掌心朝向前方,另一侧上肢自然放在同侧下肢之上,下肢放松屈膝90°;
(2)偏瘫侧的手臂慢慢抬高,使肩关节外展,外展至90°时,手掌呈中立位;
(3)若肩关节无法外展至90°,则屈肘90°,前臂旋前旋后;
(4)屈曲肘关节,手掌缓缓旋外,用手指触摸偏瘫侧的肩膀;
(5)肘关节伸展,手掌慢慢旋内,回到(2)终止时的位姿,上肢自然下垂回到初始位姿。
Brunnstrom不同分期的主要差异是由肘关节、肩关节的活动度决定的。在康复评定过程中,机器视觉可获取上肢的运动轨迹,IMU可检测前臂和上臂的加速度、角速度、角度变化。角度变化能够直观地显示出脑卒中患者上肢关节的活动范围:V期患者在肘关节伸直的情况下,肩可外展90°;Ⅵ期患者运动协调程度近于正常人,可以完成摸肩动作。Ⅴ和Ⅵ期患者在康复评定过程中前臂和上臂的活动范围和旋转情况如图6和图7所示,实线和无线条的一系列点分别代表前臂和上臂角度变化情况,蓝色线表示上肢与水平面(地面)的夹角,当与水平面的夹角超过180°以后,该夹角会变成-180°,绿色线和红色线分别表示上肢沿着冠状轴和矢状轴的旋转角度。此外,加速度、角速度的变化也可反应出患者在康复评定过程的运动细节,所以选取两个九轴传感器的加速度、角速度、角度和机器视觉获取的上肢关节坐标点共40个指标作为LSTM神经网络的特征值。
图6 Brunnstrom V期患者上肢肢体方向变化与运动轨迹Fig.6 The change of direction and movement trajectory of upper limbs in Brunnstrom stage V patient
图7 BrunnstromⅥ期患者上肢肢体方向变化与运动轨迹Fig.7 The change of direction and movement trajectory of upper limbs in Brunnstrom stageⅥpatients
本文使用LSTM神经网络分别对IMU采集数据、机器视觉采集的上肢关键点数据、两者结合的数据进行学习,分别建立相应的脑卒中患者的Brunnstrom分期预测模型。45个志愿者Ⅰ~Ⅵ期的数据共270组,根据所模拟的分期情况,I~VI期的数据各45个。为减小数据集划分对分期模型精准度的影响,通过五折交叉验证的方式,将某期受试者按照6.4:1.6:2的比例划分为训练集、验证集和测试集,并利用不同的数据集划分来对模型做5组不同的训练与验证,提高Brunnstrom预测分期结果的可信度。
测试集样本总数为54个,使用相应的数据对该数据训练的Brunnstrom分期模型进行验证,不同数据源训练模型效果如图8所示。仅使用BlazePose算法获取的上肢关键点训练出的模型在测试集样本的准确率为55.6%,此模型对Ⅲ~Ⅵ期识别效果极差,Brunnstrom分期预测真实值与预测值的对比,如图9所示。准确率较低的原因:该模型不能检测到脑卒中患者在Brunnstrom量表上肢肢体的旋转和细微震颤的情况。只使用IMU数据训练的模型在测试集样本的准确率为92.6%,相对于前者,准确率有所提高,但是与两者结合后的数据训练的模型效果相比还是有所欠缺。
图8 不同数据源训练效果对比Fig.8 Comparison of training effects of different data sources
IMU与机器视觉结合的数据训练出的Brunnstrom分期模型在测试集的预测结果如图9所示,仅仅一个Ⅰ期脑卒中患者被预测为Ⅱ期,预测模型对Ⅰ期患者预测的准确率为88.9%,其余分期预测的准确率为100%,模型综合预测的准确率为98.1%。Ⅰ期患者预测出现偏差的原因:首先,脑卒中Ⅰ期患者上肢虽然没有明显运动,但是脑卒中患者在发起运动的过程中可能会发生震颤,IMU捕获到上肢震颤的信号,在模型训练的过程中,导致与Ⅱ期仅出现轻微联合反应运动的患者情况混淆;其次,训练模型的数据量不足,也对预测的准确性造成影响。测试集的分类结果表明,本文方法能够较好地对脑卒中患者实现Brunnstrom分期预测。
图9 Brunnstrom分期预测真实值与预测值的对比Fig.9 Comparison of Brunnstrom's staged forecasts between real and predicted values
为了实现脑卒中患者远程的居家康复评估,本文利用智能手机和惯性传感器来对脑卒中患者进行远程居家Brunnstrom分期预测,避免脑卒中患者频繁前往康复医院进行康复评估,有利于康复医师了解到患者的康复情况,及时制定合适患者的康复计划。在未来研究中,会将该系统推广到临床中,建立更加真实、全面的脑卒中患者的康复过程的数据库,提高预测模型的适用性和准确率。此外,陆续开展对手部功能的预测评估研究,期望建立一个更完善的基于“互联网+”的远程康复评估系统。