基于深度迁移学习的钢琴演奏手势识别技术研究

2023-01-31 12:07
关键词:手部手势钢琴演奏

黄 丹

(1.南昌航空大学,南昌 丰和 330063;2.阜阳幼儿师范高等专科学校,安徽 阜阳 236000)

随着社会的高速发展以及科技的进步,深度学习领域也随之得到了进步,通过深度学习,可以实现对视觉图像的训练,还能够提高图像目标的识别率,因此,不同神经网络的深度学习算法开始受到了广泛的应用[1]。在物体视觉领域,深度学习方法存在较大的优势,现阶段深度学习已能够有效识别静态物体图像,但对于动态的图像应用,深度学习仍处于一个较为初步的发展阶段,为此,较多学者在深度学习这一领域引入了迁移概念,通过不断的迁移学习,深度学习已逐渐发展得较为完善[2]。深度迁移学习不再过度依赖人工提取特征,且泛化能力较强,通常可应用于多特征、多领域的识别,当进行识别时,该方法的识别效果明显高于其他方法。

钢琴演奏教学具有较高的专业性,且需要大量时间进行学习,传统的教学方式是通过教师进行一对一教授,这种形式导致大量学生的经济水平无法承受[3],且当前教师数量也无法实现大量学生的一对一教学。因此,学生可以利用穿戴式传感器,实时获取演奏状态,进行自主学习,减少了教师耗费的时间,教师无须每时每刻对学生进行监管[4],只需通过网络分析学生的练习数据,就能够全面获取学生的学习与训练情况,并且,教师可针对不同学生的演奏数据定制个性化教学方案,使学生能够获得更具有针对性的教学方式[5]。为此,通过有效的识别方法,识别学生钢琴演奏时的手势动态,可以为教师教学提供有效的帮助,当前,有较多学者对识别方法进行研究,例如吴佳等[6]研究通过特征动作序列完成手势变化情况的识别,但该方法在手势识别时,仅能够针对特定的动作进行识别,无法全方位识别手部每个关节的详细变化,且识别的准确度相差较大;刘佳慧等[7]研究基于LSTM的CSI手势识别方法,通过长短时记忆神经网络LSTM进行训练,实现手势识别,该方法在识别时并不需要通过人工提取手势特征,但其在识别时准确率相对较低,无法实现小幅度手势动作的识别。

本文对基于深度迁移学习的钢琴演奏手势识别技术进行了研究,通过微惯性传感器采集钢琴演奏手势变化,并提取手势特征,利用深度迁移学习训练特征数据,实现钢琴演奏手势的识别。

1 基于深度迁移学习的钢琴演奏手势识别技术

1.1 基于VGG-16网络的深度迁移学习

将提取的多模态特征输入到VGG-16网络,实现同构空间下的特征迁移。相较于其他神经网络算法,VGG-16的计算形式更具有深度。图1是绘制VGG-16网络的具体形式,并将特征提取后的RGB彩色图像输入到该网络中。在VGG-16网络中,共存在13个卷积层,相较于其他网络,该网络可以实现更精确的数据卷积,同时还包含3个全连接层以及5个下采样层,在进行卷积时,采用Max-pooling实现下采样。

图1 VGG-16网络结构

(1)

(2)

up(x)=xj⊗1n×n

(3)

(4)

(5)

(6)

(7)

(8)

当邻域间数据存在较高差异,通过基于同构空间的深度迁移学习,可以获取手势姿态多种特征,对这些目标数据集的特征进行迁移,可以保障手势特征被更全面的应用,确保能够更完善地对钢琴演奏手势进行识别。

1.2 基于迁移学习的钢琴演奏手势识别模型

本文利用基于VGG-16网络的深度迁移学习模型实现钢琴演奏手势识别,并通过图2表示该模型架构。

图2 基于VGG-16网络的深度迁移学习模型

图2是将VGG-16网络训练完的目标数据集的特征进行深度迁移学习,得到基于VGG-16网络的深度迁移学习模型,保障手势特征被全面的应用,实现对钢琴演奏手势的识别。图中右侧为VGG-16网络,左侧为迁移后的模型。左侧迁移后的模型的卷积滤波器尺寸不变,仍为3×3,且组成顺序和部分不变,仍由两部分组成,其中前13个为迁移后的卷积层与下采样层,后3个为迁移后的全连接层,由这两部分构成深度迁移学习模型。

2 钢琴演奏手势识别技术

本文提出基于深度迁移学习的钢琴演奏手势识别技术,利用多模态特征,提升钢琴演奏手势识别效果。具体过程如下:

1)采用微惯性传感器与红外检测杆采集钢琴演奏手势数据,获取手部不同部位的姿态数据。并通过状态空间模型估计姿态,之后利用IU-EKF算法实现融合定姿。

2)为了得到有价值的钢琴演奏手部活动段姿态数据,通过固定宽度滑动窗口获取红外检测杆的检测数据,得到钢琴演奏手势多模态特征。

3)采用红外检测杆对提取到的多模态特征数据特征进行初步分类,之后向极限学习机模型(VGG-16)中输入时域统计特征、手指间的耦合特征、空间特性特征值以及辅助特征4种手势特征,并对特征模型进行训练,实现钢琴演奏手势分类识别。

2.1 钢琴演奏手势姿态估计与定姿

2.1.1 基于状态空间模型的钢琴演奏手势姿态估计 本文利用微电子机械系统(micro-electron mechanical system,MEMS)惯性传感器采集钢琴演奏手势姿态手部数据。实现采集后,通过姿态估计模型估计钢琴演奏手势姿态。

设计状态空间模型与钢琴演奏手势姿态。通常情况下,可利用四元数等以下几种方式描述手势姿态。欧拉角的物理含义十分清晰,但由于其存在“奇点”,会导致姿态估计不够完全[8];而方向余弦矩阵在计算时需要较大计算量,所以并不容易实现[9],因此,本文选取四元数对姿态进行描述,并利用以下几项参数作为传感器系统状态量,如公式(9)所示:

(9)

公式(9)中,手势姿态的单位四元数为qe=[q0,eq1,eq2,eq3,e]T;下载体速度矢量为ve=[veast,evnorth,evup,e]T;导航坐标系下沿天向、东向、北向的速度分量分别由vup、veast、vnorth表示;加速度计偏移为ba.e=[bax,ebay,ebaz,e]T;陀螺仪漂移为bg,e=[bgx,ebgy,ebgz,e]T。T为转置标识。依照四元数原理,可认定姿态四元数和载体角速度矢量w之间的关系如公式(10)所示:

(10)

通过公式(11)表示捷联惯导比力方程:

(11)

(12)

(13)

公式(13)中,俯仰角为θ,横滚角为φ,航向角为ψ,通过公式(14)可实现G0的计算:

G=[0 0 -g]T

(14)

公式(14)中,g=9.81 m·s-2,可通过公式(15)进行计算:

(15)

利用陀螺仪、加速度计偏移进行建模,构建一阶Markov模型,如公式(16)、(17)所示:

(16)

(17)

2.1.2 基于IU-EKF算法的微惯性传感器融合定姿 利用上述姿态估计模型,并结合迭代更新扩展卡尔曼滤波(IU-EKF)算法,实现钢琴演奏手势的定姿,具体步骤如下:

①当获取到姿态估计量测数据zk时,本文在伪时间内,对量测数据进行N步更新,设定N=5,此时,在i=1→N时间下,每次更新时的卡尔曼增益如公式(18)所示:

(18)

(19)

(20)

②当更新完第i步量测后,模型状态后验估计如公式(21)所示;后验误差协方差如公式(22)所示:

(21)

(22)

上述公式(22)中,In×n为系统离散状态矩阵。

2.2 钢琴演奏手势特征建模与提取方法

微惯性传感器能够实时获取钢琴演奏手势变化信息,并传达时间维度信息。由于钢琴演奏手势多变同时运动幅度较大[10],所以通过单一特征参数无法有效准确表达手部弹奏特征[11],因此,为提取惯性传感器采集的姿态数据特征,本文针对演奏手势的多模态特征提取办法进行研究,对于上述步骤中已获取的手部姿态数据,分别提取不同形式的耦合特征,同时,本文在钢琴演奏过程中装置红外检测杆,对检测杆检测到的手部姿态数据进行提取,并将其作为特征提取的辅助信息。由此,本文中提取的特征如下:

1)与时域相关的统计特征:在进行钢琴演奏时,演奏者的手指动作会出现明显变化,且在演奏时手指的变化也会改变手背的运动幅度[12],为从多角度分析手部动作的变化情况,本文提取手势姿态的标准差、极差以及按键前后的差值。

2)基于空间特性的特征:对演奏者演奏过程中手指与手背的动态信息进行提取,以获取按键时手背与手指各关节之间姿态角的差值变化。

3)手指间的耦合特征:在进行日常演奏时,演奏者的不同手指间的变化也存在一定区别[13],为此,本文提取相邻手指间的加速度、角速度等数据。

4)辅助特征:采用红外检测杆,可以实时有效地检测出每个琴键的按键情况,由此,可以依据该信息分析得出当前演奏时的手指动作。由于在进行演奏时,手部做出动作需要一定的时间间隔[14],因此本文通过固定时间宽度的滑动窗口,实现检测数据的管理,并将时间窗口宽度设置为100 ms,通过该窗口宽度提取数据特征,将数据作为手势的辅助特征[15]。本文对上述特征进行归一化处理,使这些特征能够更好地应用在识别过程中,并采用公式(23)表示:

(23)

公式(23)中,pnew-i表示归一化处理的结果,pmax表示特征的最大值,pmin表示特征的最小值,praw-i表示特征维度。通过该钢琴演奏手势特征建模与提取方法,即可实现对钢琴演奏手势的识别。

3 实验分析

本文采用惯性传感器手套以及红外检测杆采集演奏数据,并通过仿真实验形式,分别采集《致爱丽丝》、《梦中的婚礼》等钢琴曲在内共计5首钢琴曲的弹奏数据,对这5首歌曲分别进行3遍弹奏,共获得420个弹奏样本,将这些样本统一划分为训练集与测试集进行测试。对演奏过程中不同手指的动作特征进行提取,利用本文方法,分析钢琴演奏手势特征提取能力。不同手指动作特征提取能力分析结果见表1。

表1 不同手指动作特征提取能力分析

根据表1可知,应用本文方法,可有效提取手部各位置上的弹奏特征,且均能够提取弹奏过程中每个关节的标准差与极差,针对每个手指的各项运动特征,均能够有效完成识别,且识别过程未出现大幅度失误,说明应用本文方法后,在进行演奏手势识别时可以较好地提取手部各关节的变化特征。

选取文献[6]基于特征动作序列的动态手势识别方法、文献[7]基于LSTM的CSI手势识别方法与本文方法进行对比,对不同训练集与测试集进行识别,分析不同方法的识别精度,并通过图3表示实验结果。

(a)训练集精度 (b)测试集精度

由图3可知,本文方法的钢琴演奏手势识别效果极佳,说明本文方法通过对数据集训练后,向VGG-16网络内迁移学习,并再次进行测试,使识别的精度得到有效提升。同时,文献[7]方法的识别效果始终保持较低水平,虽然文献[6]方法的识别效果要略高于文献[7]方法,但相对于本文方法依然较差,本文方法在不同样本量下的识别效果均要好于文献[6]方法与文献[7]方法,说明应用本文方法可以有效提升钢琴演奏手势的识别精度。

应用本文方法分析测试集《致爱丽丝》演奏过程中的手势识别效果,识别时手部不同手指各关节的俯仰角动态改变情况,结果如图4所示。

(a)手指上关节俯仰角变化 (b)手指下关节俯仰角变化

通过图4可知,本文方法能够有效识别钢琴演奏手势数据,该数据能够清晰表达手部信息动态情况,在图4(a)与图4(b)中,可以清晰看出不同时间手指上关节与下关节俯仰角的波动情况,说明演奏者在不同时间手指的变化情况,对每个关节进行细化识别。可以看出,本文方法能够有效识别钢琴演奏手势变化波动,且识别结果十分清晰。

4 结 论

通过钢琴演奏手势的识别,能够为学校教学、学生学习等多种领域提供有效的帮助,由于钢琴演奏过程中,演奏者的手势变化幅度较大,且变化十分迅速,因此在进行识别时对演奏手势识别的能力要求非常高,当前较多手势识别方法并不适用于钢琴演奏领域,为此需要设计更加有效、方便的识别方法,使钢琴演奏过程的手势变化被更精准地捕捉。本文研究基于深度迁移学习的钢琴演奏手势识别技术,通过钢琴演奏手势姿态的采集、特征提取,为钢琴演奏手势识别提供有力依据,以此为基础,采用深度迁移学习方法实现对钢琴演奏手势的识别;同时,利用演奏数据集对本文识别方法进行验证,验证演奏时的手势变化能否被该方法有效识别,经实验结果可见该方法的识别效果极佳。

在未来研究过程中,以本文手势识别方法为基础,对当前所研究的识别技术继续进行优化研究,通过不断的优化与完善,形成更加准确的手势识别技术。也期待该方法能应用到其他领域,为其他相关领域提供一定的帮助。

猜你喜欢
手部手势钢琴演奏
手部皮肤软组织缺损修复的皮瓣选择
挑战!神秘手势
V字手势的由来
布赫宾德的贝多芬阐释对钢琴演奏的启示
胜利的手势
钢琴演奏在声乐演唱中的作用探讨
浅析提高钢琴演奏技巧的有效途径
皮瓣修复手部皮肤软组织缺损的临床应用
初中音乐合唱教学中的钢琴演奏
发生于手部的硬下疳一例