基于一维卷积神经网络的儿童身体活动类型识别模型构建研究

2023-07-17 00:53黄彩云陈德武何吉福

中国体育科技 2023年6期

黄彩云，陈德武，何吉福，胡艺，王楠，陈沛

肥胖率升高已经成为全球范围内主要公共卫生问题，据世界卫生组织（World Health Organization，WHO）统计，1975年以来，全球肥胖人数已增长近3倍；2016年，超过3.4亿名5～19 岁儿童和青少年超重或肥胖；2020 年，5 岁以下儿童超重或肥胖人数达到3 900 万名（WHO，2021）。成年期肥胖、过早死亡和残疾风险增加均与儿童肥胖有关。与非肥胖儿童相比，肥胖儿童成年后肥胖风险增加了1 倍以上，且肥胖水平较高和年龄较大的儿童患肥胖症的风险更高（Serdula et al.，1993）。此外，肥胖儿童还会出现呼吸困难、骨折风险增加、心血管疾病早发、胰岛素抵抗和心理健康水平低等问题（刘阳，2016；WHO，2021）。

儿童肥胖问题的预防措施包括适量饮食和加强日常身体活动（Arif et al.，1993），需要监控儿童每天热量的摄入和身体活动的消耗。研究发现，偶尔进行嵌入少量低强度身体活动的中等至剧烈强度身体活动有益于健康（Robson et al.，2015）。虽然目前已开发出用于热量摄入监控和评估的智能手机应用程序，但这种记录方式具有一定的主观性，自我报告的热量摄入值通常低于实际摄入值（Lichtman et al.，1992），且通过自填式问卷监测身体活动并进一步评估身体活动量（温煦等，2016；Peters et al.，2012）的评估方式对儿童存在诸多不便。而基于可穿戴卡路里追踪器（汤强等，2016）评估热量消耗的解决方案只适用于成年人，儿童无法长期使用这种设备。

近年来，随着微机电系统（Micro-Electro-Mechanical System，MEMS）技术的进步，高精度可穿戴传感器得到了广泛应用，如加速度传感器应用于身体活动监测研究（孙建刚等，2019；王道等，2015）。与计步器相比，加速度传感器的优点主要体现在可以反映活动强度、频率等与体力活动模式有关的信息（戴剑松等，2016），因此，加速度传感器主要用于身体活动类型分类研究。同时，以卷积神经网络为代表的深度学习技术在人脸识别、语音识别、视频监控、自动驾驶等领域得到广泛的应用，身体活动类型分类研究中也开始使用深度学习技术。

基于加速度传感器的身体活动类型分类结果的影响因素包括传感器的数量和佩戴位置（贺刚等，2011）、身体活动类型数目和相互之间的差异程度以及身体活动类型分类方法等。既往身体活动类型分类相关研究中，部分研究将单个加速度传感器固定在某个身体部位，如腰部（Gupta et al.，2014）或手腕（Garcia-Ceja et al.，2014）等；也有研究将多个加速度传感器固定在不同的身体部位或饰品上，如大腿、手腕和项链（Pirttikangas et al.，2006），大腿、腰部、胸部和脚踝（Gupta et al.，2014），胸部、大腿和脚踝（Chamroukhi et al.，2013），胸部、腰部、大腿和身体两侧（Gao et al.，2014）等。有研究针对分类简单的身体活动进行分析，如步行，其他研究着眼于分类多种日常身体活动（Gupta et al.，2014；Pirttikangas et al.，2006）。身体活动类型分类方法包括：1）无监督机器学习方法，如K均值法和隐马尔可夫模型；2）有监督机器学习方法，如K 近邻法、支持向量机、随机森林、高斯混合模型和人工神经网络；3）深度学习方法，如卷积神经网络。对前人研究结果进行分析可知，加速度传感器数目越多，身体活动分类准确率越高，但多传感器数据采集对儿童的适用性不高，并且随着数据的成倍增加，分类的计算复杂度会相应提高；身体活动类型数目的增多会降低分类准确率，但身体活动之间的差异增大会提高分类准确率；基于传统机器学习的身体活动类型分类方法存在特征筛选和提取过程复杂、分类过程人工干预多、无法有效分类差异较小的活动案例等问题；基于深度学习的身体活动类型分类方法准确率高于机器学习方法，但深度学习网络结构复杂，不利于身体活动类型分类的实际应用。针对以上问题，本研究使用单个三轴加速度传感器系统采集的儿童身体活动公开数据集，设计了计算复杂度较低的深度学习一维卷积神经网络结构ConvNet1D-4，通过不同的组合方式对数据集中10 种儿童身体活动类型进行分类研究，并与以往研究成果进行比较分析。

1 方法原理

近年来，已开展的儿童身体活动类型分类研究大多采用传统的机器学习方法，只有少部分研究采用深度学习方法。Jang 等（2018）使用3 层二维卷积神经网络分类7 种儿童身体活动类型的平均准确率达到91.1%，但其所使用二维卷积神经网络结构复杂度高于相同层数的一维卷积神经网络；杨锋等（2021）使用一维残差卷积神经网络分类9 种儿童身体活动类型的平均准确率为99.3%，但在一维卷积神经网络中加入多个残差连接会使网络结构更为复杂。为了降低网络结构复杂度并考虑实际应用，本研究选用结构较为简单的一维卷积神经网络开展儿童身体活动类型分类研究。

1.1 一维卷积神经网络

一维卷积神经网络可以实现一维数据的分类，适合基于加速度传感器一维数据的身体活动类型分类研究。典型的一维卷积神经网络结构包括一维卷积层、一维池化层、全连接层、随机失活层（dropout 层）和归一化分类层（softmax 层）等，其实质是构建多个对输入一维数据执行卷积和池化操作的滤波器，不断提取输入数据的特征（马海辉等，2022），并通过随机失活层轻量化复杂的网络模型，最终使用归一化分类层输出属于某种类型的预测概率。

1.2 儿童身体活动类型分类一维卷积神经网络结构

本研究设计了包含4 个卷积块的一维卷积神经网络结构ConvNet1D-4，用于10 种儿童身体活动（慢走、快走、慢跑、快跑、走上楼梯、走下楼梯、跳绳、站起、坐下、保持静止）分类研究。ConvNet1D-4 网络结构由输入、特征提取和分类3 部分组成：输入部分为表征不同身体活动类型的三轴加速度计数据样本，每个样本为3 组包含128 个采样点的一维数据；特征提取部分包含4 个卷积块，每个卷积块由1 个一维卷积层和1 个一维最大池化层组成，4 个卷积层的卷积核大小均为3，卷积核个数分别为32、64、128、256，其激活函数采用修正线性单元（rectified linear unit，ReLU）（王栋等，2021；Glorot et al.，2011），一维池化核大小均为2，特征提取部分最终输出的特征向量大小为6×256；分类层包含4 层，分别为窗口大小为64 的全连接层、dropout 层、窗口大小为10 的全连接层和softmax 层，最终输出输入样本属于每种身体活动类型的概率值。

2 实验及结果分析

2.1 数据集准备

2.1.1 数据集概况

本研究使用由Jang 等（2018）采集并由韩国加图立大学（Catholic University of Korea）和首尔圣玛丽医院（Seoul St. Mary’s Hospital）批准发布的身体活动类型分类数据集，共包含115 名儿童18 357 个三轴加速度计样本数据，均属于本研究的10 种儿童身体活动类型范围。

2.1.2 数据采集

Jang 等（2018）设计的三轴加速度计系统由微控制器单元、三轴加速度传感器、存储芯片、电源单元等组成，加速度计范围设置为±4g（g为重力加速度），尺寸为50 mm×30 mm×15 mm，质量为21 g，固定在腹部中央和右盆骨之间的裤子腰线进行数据采集。115 名被试包括75 名男童和40 名女童，年龄分布在8.5～12.5 岁，平均年龄为（10.5±1.1）岁。被试分组完成10 种类型动作数据采集，每种类型动作数据采集时间是固定的：A 组保持静止（站立或坐）和坐站交替（包括站起和坐下）分别为3 min和4 min，B 组慢走、快走、慢跑和快跑均为2 min，C 组的走上楼梯和走下楼梯均为2 min、跳绳为3 min。为了提高采集数据的随机性，将115 名被试平均分到6 种分组排序方式：A-B-C、A-C-B、B-A-C、B-C-A、C-A-B 和C-B-A。被试完成任何活动动作的速度均根据自身感受自行决定，不同动作之间的休息时间基于心率标准，当心率接近静息水平时被认为已经恢复，通常为2～5 min。由于采集数据动作采用随机顺序和任意速度，且动作之间有足够的休息时间以恢复静息状态，所采集的三轴加速度计数据能够较好地表征儿童各种身体活动类型的特征。

2.1.3 数据集生成

数据集中每个样本数据包含3 组一维数据，通过微控制器单元分别从三轴加速度传感器采集的X、Y、Z3 个方向的加速度信号中以45.4 Hz 采样率采样生成，每组一维数据包含时长为2.8 s 的128 个采样点。为进一步丰富数据集各种身体活动类型的特征，Jang 等（2018）在进行样本数据预处理时采用了重叠和旋转方式的样本增强，使相邻样本共享一半数据，并对加速度计数据在偏航角度±10°、俯仰角度±15°、滚动角度±20°的范围内随机旋转以模拟加速度设备的旋转状态，最终得到包含18 357 个样本的数据集，使用其训练的网络模型具有较强的泛化能力。10 种儿童身体活动类型加速度信号数据示例如图1 所示，数据集的样本分布如表1 所示。

图1 10种儿童身体活动类型三轴加速度计数据示例Figure 1. Examples of Triaxial Accelerometer Data for Ten Types of Children’s Physical Activity

表1 数据集中10种身体活动类型的样本分布Table 1 Samples Distribution of Ten Physical ActivityTypes in the Dataset

2.2 训练网络模型及结果分析

本研究儿童身体活动类型分类ConvNet1D-4 网络模型训练的软硬件环境如下：Windows 10 操作系统，Intel Core i7-8700 8 核CPU，主频3.4 GHz，8 GB 内存，所用深度学习框架为Keras 2.3.1。为了逐步提高ConvNet1D-4 网络模型的准确率，本研究对10 种儿童身体活动类型进行了不同方式的合并，训练的网络模型包括：10 种身体活动类型的分类模型、按身体活动特点合并为7 种类型的分类模型和按单类型训练结果合并为9 种类型的分类模型。

本研究3 种网络模型训练所用损失函数为多分类交叉熵损失函数（cross entropy loss function）（刘天宇等，2020），梯度下降优化算法采用Adam（Kingmaet al.，2014），其中β1和β2参数取0.900和0.999。采用批次大小为64的小批量梯度下降法进行训练可充分利用机器的计算资源并加快网络模型训练的收敛速度。采用学习率衰减策略，初始学习率设置为0.001，每满10 次迭代学习率减半，有助于网络模型训练的收敛，更容易得到最优网络模型。提前停止策略是训练过程中验证集的损失函数值在连续10 次迭代内出现增加时停止训练。

3 种网络模型采用10 折交叉验证的方式进行训练和验证，即将整个数据集均分为10 份数据，每次交叉验证训练时选用不同的9 份和剩余的1 份分别作为训练集和验证集。10 折交叉验证的具体过程是：首先将数据集的顺序打乱，然后将乱序的数据集中每个样本的位置索引保存，最后在保存样本索引的乱序数据集上进行网络模型的10 次训练和验证，得到10 个网络模型。本研究网络模型度量的性能指标有准确率、精准率、召回率和F1 分数以及混淆矩阵（confusion matrix）。准确率、精准率和召回率分别是网络模型“找对”“找准”“找全”的性能表现；F1 分数为精准率和召回率的调和平均数。准确率、精准率、召回率和F1 分数的公式分别为：

式中，accuracy为准确率，precision为精准率，recall为召回率，准确率、精准率和召回率通常用百分数表示，F1分数通常用小数表示。TP（true positive）为网络模型将某类型身体活动样本预测为该身体活动类型的样本数量；TN（true negative）为网络模型将不是某类型的其他身体活动类型样本预测为其他任意身体活动类型的样本数量；FP（false positive）为网络模型将不是某类型的其他身体活动类型样本预测为该身体活动类型的样本数量；FN（fasle negative）为网络模型将某身体活动类型样本预测为其他身体活动类型的样本数量。以跳绳类型为例，TP、TN、FP和FN4 个变量所含样本示意图如图2 所示。

图2 预测跳绳类型时TP、FP、TN和FN所含样本示意图Figure 2. Schematic Diagram of Samples Contained in TP， FP，TN and FN When Predicting Type of Skipping Rope

本研究中使用以上4 个性能指标分析网络模型的过程为：将训练的10 个网络模型分别对其验证集中10 种身体活动类型样本进行分类，对分类结果的以上4 个性能指标取平均值，最后与前人研究结果进行比较。网络模型之间进行性能比较时，当准确率、精准率、召回率和F1 分数均表现较高时，认为网络模型的性能表现更好。

混淆矩阵是一个N行N列的矩阵，列表示预测的身体活动类型，行表示真实的身体活动类型，单元格值表示真实类型为所在行表示类而网络模型将其预测为所在列表示类的样本数。

2.2.1 10种儿童身体活动类型分类

经过最多67 轮迭代，10 种身体活动类型分类的ConvNet1D-4 网络模型完成10 折交叉验证训练，10 组验证集的准确率分别为92.2%、92.3%、91.1%、92.5%、92.1%、91.3%、91.7%、92.0%、92.5%和91.5%，平均准确率为91.9%，标准差为0.5%。

本研究与前人研究的方法平均准确率及计算复杂度对比结果如表2 所示：本研究所训练的ConvNet1D-4 网络模型对Jang 等（2018）发布数据集的10 折交叉验证平均准确率最高。该训练的二维卷积神经网络卷积核尺寸偏大，分别为7×1、6×1 和5×1，导致参数总量偏大，本研究模型所有卷积层卷积核大小均为3，在参数总量不到Jang等（2018）训练网络模型一半的情况下，平均验证准确率高出10.7%；杨锋等（2021）设计的一维残差卷积神经网络层数较多，超参数设置偏大（所有卷积层一维卷积核大小均为8，卷积核数量均为128，全连接层宽度为512），导致网络结构参数量剧增，网络模型训练和应用的计算复杂度约为本研究模型的4.7 倍，且平均验证准确率比本研究模型低0.3%。将训练的网络模型应用于儿童日常身体活动监控时，面对大规模的加速度计数据，网络模型的计算复杂度是决定应用效率的主要因素，与其成反比关系，本研究训练的ConvNet1D-4 网络模型应用效率分别是上述2 项研究模型的4.7 倍和2.1 倍。

表2 不同分类方法下10种身体活动类型的分类结果准确率及复杂度对比Table 2 Comparison of Accuracy and Complexity of Classification Results of Ten Physical Activity Types by Different Classification Methods

比较本研究训练的ConvNet1D-4 网络模型与上述2 项研究模型在10 种身体活动类型分类上的精准率、召回率和F1 分数发现（表3）：3 个网络模型对非走动类身体活动（站起、坐下和保持静止）分类的性能指标均高于其他身体活动类型，本研究网络模型3 项指标的平均值为（100%，100%，1.000），Jang 等（2018）和杨锋等（2021）训练的网络模型分别为（97.0%，97.5%，0.972）和（99.8%，99.8%，0.999），本研究网络模型分类表现优于其他2 种方法。在走动类身体活动（慢走、快走、慢跑、快跑、走上楼梯和走下楼梯）分类方面，Jang 等（2018）训练的网络模型性能普遍较低，3 项指标的平均值为（69.1%，67.3%，0.683），本研究网络模型和杨锋等（2021）训练的网络模型分别为（98.72%，98.64%，0.978）和（98.74%，98.56%，0.978），分类表现优异，性能相当。值得注意的是，在走上楼梯活动分类性能方面，杨锋等（2021）训练的网络模型3 项指标为（48.6%，67.0%，0.561），优于本研究网络模型（7.8%，74.4%，0.140），但二者均低于Jang 等（2018）训练的网络模型（74.2%，64.0%，0.687）；跳绳活动分类方面，Jang 等（2018）训练的网络模型3 个指标（82.5%，88.2%，0.852）整体表现最高，分类性能表现最好，本研究网络模型（97.8%，58.0%，0.728）次之，杨锋等（2021）训练的网络模型（63.5%，44.3%，0.529）性能最低。由于采集数据的三轴加速度计固定在被试腹部中央和右盆骨之间裤子腰线，走上楼梯和跳绳活动在X、Y、Z3 个方向上的加速度较为接近，2 种活动的加速度计数据3 条曲线在幅度和重复周期方面也非常接近（图1），因此，本研究和杨锋等（2021）训练的网络模型无法有效区分。从混淆矩阵可以看出，本研究网络模型将大量的走上楼梯样本预测为跳绳（图3），因此对走上楼梯活动类型的分类性能最低，对其他身体活动类型均具有良好的分类性能。

图3 使用最优网络模型对其验证集中样本进行分类的混淆矩阵（10种身体活动类型分类）Figure 3. Confusion Matrix for Sample Classification in Its Validation Set Using the Optimal Network Model（Classification of Ten Physical Activity Types）

2.2.2.1 按儿童身体活动类型合并的分类

2.2.2 合并儿童身体活动类型的分类

为了进一步提高儿童身体活动类型分类的精度，本研究对10 种日常身体活动类型中的某些相关联活动进行了合并，具体合并方式为按活动类型合并和训练结果合并。

将慢走和快走合并为步行，将慢跑和快跑合并为跑步，将走上楼梯和走下楼梯合并为走楼梯，最终身体活动类型总数减少为7 类：步行、跑步、走楼梯、跳绳、站起、坐下和保持静止。7 种身体活动类型分类ConvNet1D-4 网络模型训练收敛比10 种身体活动类型更快，经过最多50 轮迭代之后即完成训练过程，最终10 组验证集的准确率分别为92.9%、93.1%、91.8%、92.7%、92.2%、92.2%、92.9%、92.7%、93.1%和91.8%，平均准确率为92.5%，标准差为0.5%，比Jang 等（2018）训练的7 种身体活动类型分类二维卷积神经网络模型平均准确率高1.4%。

相比10 种单类型身体活动分类，将其合并为7 种身体活动类型后，本研究训练的网络模型准确率仅提升了0.6%，其原因仍是训练的网络模型无法有效区分走上楼梯和跳绳活动，网络模型将大量的走楼梯样本预测为跳绳（图4）。对本研究与Jang 等（2018）训练的网络模型性能进行比较（表4）：在分类走楼梯和跳绳2 项活动方面，本研究网络模型3 项指标分别为（56.6%，87.4%，0.662）和（89.3%，59.3%，0.712），而Jang 等（2018）训练的网络模型3 项指标分别为（79.7%，75.0%，0.770）和（82.5%，88.0%，0.852），Jang 等（2018）训练的网络模型分类性能优于本研究网络模型。除走楼梯和跳绳之外，本研究网络模型分类其他5 种身体活动类型的性能均优于Jang 等（2018）训练的网络模型，本研究网络模型对7 种身体活动类型进行分类的3 项指标平均值（92.6%，97.7%，0.942）也高于Jang等（2018）训练的网络模型（92.3%，91.2%，0.920），并且网络模型训练和应用的计算复杂度只为后者的48.1%。

图4 使用最优网络模型对验证集中样本进行分类的混淆矩阵（7种身体活动类型分类）Figure 4. Confusion Matrix for Sample Classification in Its Validation Set Using the Optimal Network Model（Classification of Seven Physical Activity Types）

表4 不同网络模型对7种身体活动类型进行分类的性能评估Table 4 Performance Evaluation of the Classification of Seven Physical Activity Types Using Different Network Models

2.2.2.2 按训练结果合并的分类

本研究训练的上述2 个网络模型均无法有效区分走上楼梯和跳绳活动，现将二者合并为“走上楼梯/跳绳”，最终10种身体活动类型合并减少为9 种：慢走、快走、慢跑、快跑、走上楼梯/跳绳、走下楼梯、站起、坐下和保持静止。9 种身体活动类型分类ConvNet1D-4 网络模型训练过程持续平稳收敛，经过最多57 轮迭代后完成10 折交叉验证训练过程，10 组验证集的准确率分别为99.5%、99.7%、99.4%、99.7%、99.8%、99.2%、99.4%、99.4%、99.6% 和99.4%，平均准确率为99.5%，标准差为0.2%，比杨锋等（2021）训练的9 种身体活动类型分类一维残差卷积神经网络模型平均准确率高0.2%，但网络模型训练和应用效率为后者的4.7 倍。比较本研究与杨锋等（2021）训练的网络模型性能可以看出（表5），二者对9 种身体活动类型均具有极佳的分类性能，本研究网络模型平均精准率和平均F1 分数略高于杨锋等（2021）训练的网络模型。从混淆矩阵对比可以看出，本研究训练的最优网络模型对其验证集中所有样本分类错误的只有4 个，分别为：将1 个慢跑样本预测为快跑，将1 个慢跑样本预测为快走，将1 个快跑样本预测为快走，将1 个快走样本预测为慢走（图5a）；而杨锋等（2021）训练的最优网络模型对其验证集中所有样本分类错误的为13 个（图5b）。

表5 不同网络模型对9种身体活动类型进行分类的性能评估Table 5 Performance Evaluation of the Classification of Nine Physical Activity Types Using Different Network Models

图5 使用最优网络模型对验证集中样本进行分类的混淆矩阵（9种身体活动类型分类）Figure 5. Confusion Matrix for Sample Classification in Its Validation Set Using the Optimal Network Models（Classification of Nine Physical Activity Types）

3 讨论

3.1 应用方式

本研究设计的网络结构、编写的代码及训练的网络模型均已在GitHub 平台上公开发布（https：//github.com/chendewu/Physical_Activity_Types）。儿童保健工作者可以免费下载此网络模型，根据本研究所用三轴加速度计系统的规格参数，批量生产相同规格的三轴加速度计系统并大规模应用于儿童日常身体活动监控，并给出针对性的日常身体活动建议，从而有效预防儿童肥胖等问题的发生。

3.2 局限性与展望

本研究基于Jang 等（2018）公开的三轴加速度计数据集，使用高效的一维卷积神经网络进行儿童身体活动类型分类研究。但该数据集使用Jang 等（2018）自行设计的三轴加速度计系统采集，因而训练的网络模型只适用于相同规格参数三轴加速度计系统采集并生成的儿童身体活动类型数据样本（加速度计范围为±4g，样本数据采样率为45.4 Hz），并且监控日常身体活动儿童的年龄范围在8.5～12.5岁。对于加速度计数据曲线在重复周期和幅值方面非常相似的儿童身体活动类型样本，如走上楼梯和跳绳，本研究训练的网络模型无法对其进行有效区分。

针对以上局限性与不足，建议后续研究：1）在儿童腰部三轴加速度计的基础上，新增手腕部的三轴加速度计，增加单加速度计采集的不同类型身体活动的数据曲线差异；2）针对不同年龄段的儿童身体活动类型偏好和加速度计数据差异较大的问题，划分年龄段进行三轴加速度计数据采集和数据集的生成，如将学龄期的儿童时期划分为6～8岁、9～12岁、13～15岁和16～18岁4个年龄阶段分别进行研究。使用根据以上2 条建议生成的数据集，训练本研究设计的一维卷积神经网络模型，可能能够解决本研究无法区分加速度计数据曲线相似的身体活动类型样本和儿童年龄范围受限的问题。针对三轴加速度计系统的规格参数，建议后续研究继续使用Jang 等（2018）生成数据集时所采用的规格参数。这是由于其满足儿童身体活动强度等级划分和身体活动类型识别准确率高的要求（杨锋等，2021），且相同规格参数条件下的研究便于和前人的研究成果进行对比分析，也利于训练网络模型的规模化应用。

4 结论

针对预防儿童肥胖等问题需要监控并分类儿童日常身体活动的需求，本研究基于深度学习技术，设计并训练了包含4 个卷积块的一维卷积神经网络模型，对公开的三轴加速度计数据集中属于不同强度的慢走、快走、慢跑、快跑、走上楼梯、走下楼梯、跳绳、站起、坐下、保持静止10 种儿童日常身体活动类型的分类准确率达到91.9%，将具有相似加速度信号数据曲线的走上楼梯和跳绳活动类型合并之后，网络模型的分类准确率为99.5%，2 个模型的准确率均高于前人研究结果，并且本研究设计的一维卷积神经网络模型训练和应用效率更高，性能优良。