基于动作语义识别的背景音乐匹配系统的研究

2021-09-22 20:12杨睿王昊宇刘欢娴张琳杨宇萌
科教创新与实践 2021年27期
关键词:人工智能

杨睿 王昊宇 刘欢娴 张琳 杨宇萌

摘要:随着自媒体短视频行业的兴起,视频配乐所涉及的问题也越来越突出,尤其舞蹈类短视频中背景音乐与舞蹈动作千篇一律的情况常常出现。为解决这一问题,本文基于动作语义提取方法,实现对视频中人物关节点的跟踪和动作语义的提取,并利用搜索引擎得到背景音乐,为自媒体短视频背景音乐与舞蹈动作的多样性做出了贡献。

关键词:人工智能;动作识别;语义研究;自动配乐

1、 绪论

通过人物的表情、动作、语言等识别人物的情绪状态是机器视觉中的热门领域,早在20世纪90年代美国麻省理工学院就有相应研究。

目前对于表情、语音识别技术的研究相对成熟,而动作识别还只是新兴的研究方向。动作识别已被尝试应用在众多现实场景中,如机器人视觉、人机交互、智能监控及体感游戏等,在人们生产生活中发挥了巨大的促进作用。

舞蹈类短视频配乐领域主要有三个亟待解决的问题:如何从视频中识别人体运动,如何通过运动特征识别人类动作语义,以及如何将动作语义转化为高层语义并用搜索引擎找到音乐。

2、 问题分析及系统设计与实现

2.1问题分析

在基于动作语义识别的背景音乐匹配系统研究中,主要工作是从运动视频中提取动作特征、构建动作语义集合并建立动作与动作语义之间的映射关系模型,实现从运动视频中识别人的动作信息。

首先,从静态姿态特征和动态运动特征两方面提取特征数据;然后,根据当前人类情绪识别领域和行为心理学领域研究成果,本文构建了包含“开心”、“愤怒”、“悲伤”、“恐惧”和“中立”这五种动作语义的语义集合。并通过引入“不确定”的识别结果,为后续进行语义识别提供便利。

当完成舞蹈视频的语义分析后,将获得的动作语义进行简单变换并通过搜索引擎找到与该视频匹配的音乐,从而完成配乐功能。

2.2系统设计与实现

智慧配乐师功能包含舞蹈语义识别和背景音乐匹配两部分,具體设计如图1所示。

下面详细介绍各功能的原理及具体情况。

(1)舞蹈语义识别功能

①提取人体二维轮廓

帧间差分法作为最常用的运动目标检测方法之一,其基本原理就是采用基于像素的时间差分在图像序列相邻的两帧或三帧之间,通过闭值化提取出场景中的运动区域。

我们将相邻帧相减得到差分图像,在保证环境亮度变化不大的条件下,选定一个阈值,根据像素值变化与阈值的大小关系对差分图像二值化。利用帧间差分法更新速度快、算法简单、计算量小等优点,得到人体二维轮廓。

②定位人体关节点

人体被看成是由骨骼及关节点构成的刚性系统,骨骼的位置由关节点决定,因此人体运动可以用关节点表征。

在以往的研究中,手动标定视频第一帧的方法虽然简单易行,但在面对大量未知数据时并不可行。为避免人工定标浪费时间,我们根据医学人体比例约束,实现自动定位关节点的效果。

③光流法关节点跟踪

光流法常用来跟踪点的运动,光流的变化能够反映图像灰度在时间上的变化与景象中物体结构及其运动的关系,其中LK光流算法在跟踪人体各关节点的运动方面表现更好。

光流法通过特征匹配求关节点处的流速,利用计算量小、快速灵活的特点,能够快速检测到运动对象。

④动作特征的提取

在提取人体动作过程中,我们将人体动作特征分为两类:静态姿态特征,包含重心倾斜状态、头部弯曲度、头部弯曲度、肘部弯曲度及胸腔弯曲度;动态运动特征,包含重心移动速度与关节点相对速度。

动作速率一定程度上反应人的情绪信息,由于肩部节点、肘部节点和手部节点相对于重心变化较为独立,反映信息较为明显,可作为关节点速率的主要计算依据,用关节点相对运动速率与重心绝对运动速率的比值作为动态运动特征参数。

⑤动作语义识别

在获取特征数据后,分别计算出对应的语义,再根据映射关系得到最终的语义识别结果。使用雷达图展现各语义所占概率,通过选取单帧雷达图中概率超过 27%的前两种语义作为代表语义,用概率值作为对应权重,统计有效帧在各语义中的加权平均值,最终得到输入视频的语义雷达图。

(2)背景音乐匹配功能

在多媒体的检索中,最自然直接的办法就是用人类的语义概念进行检索,通过语义方式的搜索达到比视觉底层特征更直接和更有效的效果。经过动作特征提取、构建动作语义集合、建立动作与动作语义之间的映射关系模型最终分析得到人们日常思维中的高层语义概念——动作语义。通过舞蹈语义识别部分得到结构化标签,利用搜索引擎实现背景音乐的搜索查找,最终完成配乐功能。

图2是基于动作语义识别的背景音乐匹配过程图。

3、 系统创新点

“智慧配乐师”以舞蹈动作意义为切入点,利用人工智能技术寻找最佳配乐,体现了如下创新点:

(1)利用人工智能技术挖掘舞蹈运动特征数据。通过帧间差分法实现人体初步识别,再根据医学领域人体结构比例约束标定必要关节点,并使用光流法挖掘出特征数据。

(2)构建特征映射模型获取舞蹈动作语义。通过对视频数据的分析,构建出特征数据与动作语义之间的映射模型,获得视频中舞蹈动作语义。

(3)依据动作语义为舞蹈片段分类。利用语义雷达图选取单帧中概率超过预设阈值的前两种语义作为该帧的代表语义进而确定舞蹈片段的节奏和风格。

4、 结语

本文通过研究基于舞蹈类短视频的动作语义提取方法,实现了对视频中人物关节点的跟踪,并计算得到运动特征,再根据已构建的语义映射模型提取动作语义,最后利用搜索引擎得到背景音乐。由于个体性差异,语义的肢体表达方式也有不同,如何根据个体性差异进行针对性的识别是未来研究的一个难点。目前,语义识别正向着多信号融合的方向发展,人体面部表情与肢体动作相结合的多信号语义识别系统将为人机交互领域的应用带来更多可能。

参考文献:

[1]刘艳,刘鼎家,韩智攀.基于动作识别的情绪提取方法研究[J].计算机工程,2015,41(05):300-305.

[2]门鑫. 基于深度学习的视频内容识别和搜索算法研究[D].北京邮电大学,2019.

课题项目:本文为沈阳师范大学校级大学生创新创业训练计划资助项目《基于人工智能动作语义识别的背景音乐匹配系统——“智慧配乐师”》(项目编号:202113066)成果.

猜你喜欢
人工智能
人工智能AI
人工智能
人工智能之父
2019:人工智能
人工智能
人工智能与就业
China’s Artificial Intelligence Revolution
数读人工智能
人工智能时代,就业何去何从
下一幕,人工智能!