基于视频的学生动作识别方法研究

2020-01-06 08:27白雨亭
仪器仪表用户 2020年1期
关键词:特征值骨骼课题

白雨亭

(北方工业大学 信息学院,北京 100144)

机器学习及计算机视觉技术在各个领域已有广泛的应用,比如工业、交通、医学领域等。其中,有很多被人们所熟知的应用,如人脸识别、表情识别、监控系统,医学影像智能诊断[1]等。在动作识别方向,也已有很多实际应用,如行人检测、异常行为检测等。

在教育领域,运用动作识别的方法分析记录学生在课堂上的行为动作,可以对教师的课堂教授效果进行辅助分析,对教师改进课堂教学方法有其一定的意义。

1 相关研究及本文研究方法

现今,动作识别研究渐趋成熟,其典型识别方法总体分为两类[2]:一类是根据RGB 图像进行人体动作识别[3],但是需要经过背景剪除,人体跟踪进行实现。其中,背景对动作识别影响较大,容易造成较大识别误差。本文采用一种不容易受到背景条件影响,根据人体骨骼关键点进行动作识别的方法,利用卡内基梅隆大学的深度学习开源框架OpenPose[4]跟踪骨骼关键点并输出关键点坐标值而后进行归一化,再将归一化后的坐标点运用机器学习算法进行分类训练。

2 数据集构建

研究最主要的工作之一即为数据集的构建。在进行动作识别之前,首先要进行样本集的构建而后用机器学习方法训练出合适的模型,才能对动作进行识别分类。但是课堂行为数据集并没有相关的开源数据集,所以本研究首要任务即为构建数据集。

构建数据集所用的视频录制于高校课堂的实际授课场景,采用松下HC-W570M 高清摄像头,输出为1080p 的mp4 格式文件。实际课堂视频录制状态如图1 所示。

图1 现场课堂录制状态Fig.1 Live classroom recording status

图2 人体18点模型Fig.2 Human body 18-point model

收集到课题所需的课堂视频后,根据采集视频的观察,研究成员共找出较为明显的课堂动作5 类,即举手、托腮、趴、写字、玩手机。由于课堂环境的复杂性,一段视频片段中会有许多学生的出现,需要对视频进行剪裁、归一化等处理得到统一分辨率的单人动作视频数据。经过研究成员的处理,实验共得到150 段640×480 分辨率的单人动作视频数据,其中每类动作30 段,平均长度2s 左右,构成本课题研究所用的数据集。

3 数据特征值提取及归一化

得到数据集后,关键的一步是要对每类动作进行特征值的提取,为分类模型的训练奠定重要的基础。

3.1 特征值提取

本课题的特征值提取过程为:首先,使用卡内基梅隆大学的深度学习开源框架Openpose 来跟踪输出人体2D骨骼坐标点而后进行关键点坐标的提取及归一化处理,Openpose 采用的人体18 点模型如图2 所示,各点对应骨骼位置见表1。

由于课堂上学生的动作行为以坐姿为主,且下半身几乎处于被完全遮挡的状态,所以去除掉8 ~13 号骨骼点,排除无关特征点的影响。最终本文提取的主要特征点见表2。

由表2 可见,本文主要采用18 点模型中0 ~7 号,即鼻尖、颈、右肩、右肘、右腕、左肩、左肘、左腕8 个骨骼点作为特征点。

3.2 数据集

实验一共有150 个视频片段,对于每个视频片段,本课题提取了其每一帧输出的8 个关键骨骼点坐标的(x,y)值,构成一帧的特征值,即每帧特征值为:

表1 18点对应人体骨骼位置Table 1 18 Points corresponding to the human bone position

表2 主要特征点Table 2 Main feature points

3.3 数据归一化处理

图3 数据处理分类流程图Fig.3 Data processing classification flow chart

本课题所构成的数据集中,虽然在剪裁数据时将视频数据进行了统一分辨率输出,但是由于每个研究对象距离采集设备的距离有远有近,导致在各个视频数据中,每个人的大小不尽相同,而且假使每个研究对象距离采集设备的距离相同,由于人的个体差异,也会使得不同研究对象的相同骨骼点所处位置存在较大的差异,导致预测结果不准确,造成预测模型对样本集过拟合的现象发生。

本课题采用无量纲化处理的方法,减小由于个体差异,距离采集设备距离不同造成的相同骨骼点坐标间差异过大,而对后续分类模型构建产生的误差。采用的无量纲归一化公式如下:

其中,xmax是该帧所有提取到的骨骼坐标中最大的x值,xmin为最小的x 值;ymax,ymin同理。

从后续的实验结果来看,该方法有效地减小了人的个体差异,及距离采集设备距离不同对实验产生的影响。

4 分类

本课题采用机器学习方法,使用特征值和标签来进行数据的训练、验证、测试。采用Anaconda 环境,python语言,spyder 编辑器进行。整体数据处理分类流程如图3所示。

分类算法的选择svm,决策树以及随机森林3 种,采用十折交叉验证的方法验证准确率,选择准确率相对较高的分类器为本课题使用。svm 分别选择4 类主流的核函数即高斯径向基,线性,多项式及sigmoid 核函数,对应参数经调整均为对本数据集表现较好的参数选择。决策树及随机森林分类方法经循环参数测试也筛选出相对表现较好的参数值设置。最终分类测试结果准确率见表3。

由表3 可见,线性核函数svm 分类器在本课题所构建的数据集上有较好的表现,且经过后续的新数据测试时,并没有发生过拟合的现象。

表3 各分类方法准确率Table 3 Accuracy of each classification method

5 结果

实验的结果证明本课题的研究方法是行之有效的,且对于教授者对课堂教授效果有辅助分析、记录的意义。根据训练分类结果的分析及新数据测试的效果来看,举手,趴,托腮3 类动作有较好的分类效果,而玩手机和写字两类动作因有大部分动作重合的情况出现,导致出现一些分类错误的情况,另一类错误情况则是当人体处于大规模遮挡状态的时候。

猜你喜欢
特征值骨骼课题
一类内部具有不连续性的不定Strum-Liouville算子的非实特征值问题
做家务的女性骨骼更强壮
一类带强制位势的p-Laplace特征值问题
三减三健全民行动——健康骨骼
基于一类特殊特征值集的扩散算子逆谱问题
单圈图关联矩阵的特征值
党的建设的永恒课题
第一次写课题
益宝打造骨骼健康产业
“十三五”医改的新课题