胡丽敏 桂浩
摘要:钢琴教育近年来在我国越来越受到重视,如何能够更有针对性的进行教学,提高学生日常练习的效率成为钢琴普及性教育中亟待解决的问题。本文通过利用人工神经网络对习琴者所弹曲目与原曲目进行比对,并对习琴者的演奏指法进行识别,指出练习过程中出现的问题。通过人工智能技术加以分析处理并给出针对钢琴练习的指导性意见,从而使习琴者能够更有针对性的解决练琴过程中的问题,提高练习效率。
关键词:钢琴普及性教育 人工智能 自动音乐转录 基于视频流的指法识别
中图分类号:J624.1 文献标识码:A 文章编号:1008-3359(2021)07-0101-03
雨果曾经说过,“人类的智慧掌握着三把钥匙,一把开启数字,一把开启字母,一把开启音符。知识,思想,幻想就在其中”。这句话充分展示了音乐之于人生的重要性,音乐不仅可以帮助孩子们提升鉴赏美的能力,还能帮助培养健全的人格,对于个人气质的提升更是十分明显。
随着物质生活的发展,越来越多的人开始重视早期的音乐教育,但学习过程中经常会出现各式各样的问题,以钢琴普及性教育为例,习琴者通常每周在老师那里进行一次回课指导,更多的时间则是自己单独进行练习。但很多习琴者在练习过程中都会出现各种常见错误,自己却毫无所知,看错谱、弹错键、指法错误更是常见。如果这时能有指导者在旁进行纠正,那么练习效果将会得到极大的提升。然而钢琴师资相对稀缺,据统计数据显示,不到十分之一的习琴者能够得到即时的练习指导。
近年来,人工智能技术进展迅速,在多个领域都展现了极高的发展潜力。在棋类里相对复杂的围棋领域,谷歌开发的 AlphaGo 成功击败了世界冠军李世石;在语音识别领域,市场上也已存在着较为成熟的软件,如苹果的 Siri、小米的小爱同学。音乐也不例外,目前人工智能不仅可以根据给定的旋律生成伴奏,甚至能够独立生成完整的曲目,所以人工智能练习指导在如今的技术条件下是可行的,完全可以进行更加深入的研究。
一、研究背景
(一)计算机处理音乐的方式
声音信号处理是用计算机进行音乐转录的首要问题,换言之,如果想让人工智能成为钢琴练习指导,首先需要让计算机听懂音乐。目前常用的数字信号处理方法有离散傅里叶变换、梅尔频谱以及常数Q变换这三种,根据文献显示,其中常数Q变换(Constant Q Transform,CQT)就是对音乐信号在十二平均律的频点上进行分解,是目前音乐信号处理的主要方法,非常适合音乐信号的转换。
在钢琴教学的现实活动中,计算机獲取的乐音总是十分复杂的,包含基音和大量的泛音,甚至还有噪音,这就导致分离出基音变得十分困难,但是依然可以通过乐音中频率成分的变化来寻找基音。十二平均律就体现了这种频率成分的分布,通过常数Q变换能获取一个乐音中所有单音的频率以及每个频率的平均振幅。
(二)钢琴的声学特点
钢琴是键盘乐器,通过敲击琴键来拉动琴槌以敲打琴弦发出声音,也可以归结为弦乐器的一种。从声学原理来讲,乐器发音一般是由三个过程组成的——始振、稳定、衰减。钢琴发音音态的声学特征包括:始振过程的振幅峰值大,起振音头圆,瞬态时值短;没有稳定过程直接进入衰减过程;不同频率的高低音区及其衰减过程的时值长短成反比,这就决定了钢琴发出的每一个单音都会十分清晰,其频谱的谐波也会相对较少,适用于人工神经网络的学习。
(三)钢琴教学的现状
目前钢琴教学仍然非常依赖线下一对一的教学,需要教师手把手进行指导,人工智能或许便是个完美的替代方案,价格低廉,能够即时进行指导。
当今市场上也存在着一些钢琴练习指导软件,例如各类陪练App,它们依然是以教师一对一的练习指导为主,同时提供线上教学管理。
二、研究内容
首先将采集到声音信号通过CRNN转录生成MIDI文件,然后将获取的练琴时手部拍摄的视频通过C3D模型提取出特征,最后通过多模态的决策级融合进行综合分析,得到习琴者练琴时出现的问题,后文主要分析这些问题。
(一)练琴的常见问题及相应处理
初学者在钢琴演奏中可能遇到的问题包括由于手型问题和一些错误的演奏习惯导致的一些演奏效果不佳的情况。很多初学者在演奏时无名指和小指无法独立演奏,两指的行动互相牵制,导致弹琴的声音不够均匀流畅,旋律音的轻重也会不同,甚至在演奏分解和弦时会出现由于无名指和小指把位不准确而造成的错音。
可以从两方面着手处理,一是通过手型识别的神经网络,针对习琴者的演奏,发现不正确的手型指法及时反馈报告。二是通过将习琴者的演奏与标准原曲进行对比,从差异中分析其中可能存在的问题。
(二)钢琴练习中音频的分析处理
主体流程是识别练习者演奏并将其与标准原曲进行对比,然后从差异中分析其中可能存在的问题。其中需要将练习者的演奏转录为易于计算机分析的格式,这里用到的是MIDI格式,它用音符的数字控制信号记录音乐,详细记录了乐曲中各个音的音高、时值、响度、通道和乐器等信息,MIDI以其独特的编码方式,将与声音播放相关的重要信息编码到mid文件中。MIDI文件的本质是一组演奏指令,指令文件被解码后可以操作MIDI设备乐器、或是播放音色库中事先录制好的各种乐器,这些标准化的指令和高效的编码形式,将极大程度上方便计算机的处理,目前我们已经能做到通过神经网络将演奏转录成MIDI形式,还需训练新的神经网络模型通过对比原曲来分析并指出问题。
一段乐曲是由多个音符衔接而成的,为了将钢琴演奏音频转换为MIDI格式,需要神经网络对乐曲进行音符级别的转录。为了简化识别任务的复杂性并提升转录识别性能,通过直接识别整个音符来实现转录,而不是逐帧识别然后将帧进行拼接,为此需要识别音符的两个重要属性:音高和时值。
文献提出了基于CNN的音符级自动转录方法,为了进行特征提取,将输入的声音信号进行预处理,提取时频域特征,利用常数Q变换将频谱映射到以log2为底的线性空间,得到多音级的频谱窗口。
第一阶段:为了得到每个音符的时值,分别识别音符的起点和止点,这两者均由一个独立的卷积神经网络进行。
第二阶段:为了识别音高,模型采用一个额外的多音级识别网络,识别起止点附近的音级。
第三阶段:将所有音符起点和止点上的音级进行配对,得到一个完整的音符音高和时长信息。
由于生成音符序列要经过起止点的音符对齐过程,起止点处的音级识别误差会对对齐工作产生较大的阻碍,因而该方案对音级识别的精度要求很高。
在此基础上,本文提出了另外一种方案——基于CRNN的音符级自动转录。该方法将CNN和RNN进行了结合,并添加了一层自注意力层,形成CRNN网络,用于捕捉音频结构中的音级特征和时间特征,主要改善之前遇到的起止点对齐的问题。首先将输入的声音信号转化为频谱图,为了识别频谱切片内部的时间结构和音级结构,并且保持完整的连贯性,消除无上下文的音频片段,并控制切片时间为2s、4s和8s的长度来进行模型的训练。其中,无上下文的音频片段是指在音频切片中有来自上一个切片的音频数据,或者未完全结束的音频。
模型用CNN提取出频谱特征,然后进行特征切片,使用后续的序列识别层获取分析。由于RNN中通常使用的LSTM只能依据之前时刻的时序信息预测下一时刻的输出,而当前时刻的输出不仅与之前的状态有关,还可能和未来的状态有关系。比如音符起点的预测,不仅依赖于之前的状态和当前输入的特征切片,还可能与之后出现的止点状态有关,同理,预测音符止点时也是如此。因此这里采用双向LSTM即BiLSTM,通过前后向的LSTM结合,起到前后文关系的预测作用。
序列识别层最终会将特征提取后的频谱进行纵向切片,经过双向LSTM处理后,得到序列化向量输出到自注意力层,这些向量包含音频的全部音符信息。自注意力层则是用来训练学习频谱的音符起止点的内部关联性,来加强模型对起止点序列的识别性能。最后对识别处的音符起止点进行对齐,这里由于加强了音频序列化的上下文关联性,解决了之前因起止点处音级识别误差产生的无法对齐的难题,最后对齐率相对CNN的41%提升到了81%。
(三)钢琴练习中指法的识别分析
手型指法的识别由CNN 模型承担,采取常见演奏中的错误手势作为数据集进行模型训练,并设法采集到练习者演奏时的手势图片。本方案获取习琴者在練习整首曲目中手型指法,这是一个动态过程。不同于目前常见的基于图片形式的手型识别,需要从视频中识别对应的手型,可使用基于三维卷积神经网络(3D CNN)的大规模视频手型识别算法。
第一步,通过4K高清摄像机从上方以及侧面对演奏过程进行拍摄来获取视频数据,做好标注处理后经3D CNN模型处理,该算法模型由N Kato等人在文献中提出,解决了基于视频的手型识别需要处理时域和空域的特征这一问题。首先要对训练数据进行预处理,将分辨率和帧数统一,同时还需要提取视频的光流特征,获得同帧数的光流视频,一方面用于提取动作的路径信息,另一方面也去除了背景、表演者肤色等信息。
第二步,神经网络需要从数据集(处理后的演奏视频)提取对应的时序特征用于手型和指法的识别,这里实验通过三维的卷积神经网络——C3D模型来实现视频手型特征的自动提取。与二维神经网络相比,C3D模型更关注视频帧序列的图像集合,将时域和空域的信息结合。
第三步,由于光流视频和原视频中的特征信息不尽相同,二者各有偏重,为了提高特征的准确率,将原视频和光流视频通过神经网络分别得到的时序特征进行综合分析,加强特征识别的效果,最终提升指法和手型识别的准确率。在此基础上,同音频分析的结果类似,最终得到的是一个结果矩阵M×N的矩阵V(m,n),其中M表示帧数,N表示演奏问题的类别数。V(m,n)代表视频第m帧中手型指法存在第n类错误的概率。
将手型识别的结果数据运用多模态增量聚类融合算法,与处理好的音频数据一并作为输入进行分析。通过同时参考音频和视频的数据,能够较为准确的对演奏中的问题进行判断。
(四)钢琴训练视频和音频的多模态决策级融合
在完成了前文的处理分析后,可以分别得到来自钢琴训练视频和音频的特征信息,从二者中各自得到一些结论。但是考虑到视频和音频的信息侧重不一,因为它们包含了两个模态的信息,单独参考其中之一可能会遗漏部分特征信息,例如视频中可能更多的是反映演奏者的动作是否规范,而音频部分可能更强调节奏和旋律的准确性。为了使模型的分析更加全面,本文参考了Reuderink B等人于文献中提出的方案,对二者的数据分析结果进行多模态的决策级融合,获取一个综合分析的结果。
决策级融合策略是一种高层次的融合方法,具有通信量小、抗干扰能力强、容错率高等优点。通过前文中神经网络识别分类获得每种特征关于手型指法错误类别的后验概率,然后按照一定的策略将其融合,最后将融合结果中的最大值对应的类别作为最终分析结果。
三、结语
本文在人工智能领域做了一个全新的尝试,不仅仅是使用大数据等技术进行教学辅助,而是希望通过人工智能领域的先端技术神经网络解决钢琴练习中的一些难题,借此帮助钢琴学生及时发现并纠正演奏中存在的指法和节奏把控等问题。这里从两条思路出发,由于视频信息和音频信息各有偏重,所以同时采集获取演奏者的视频和音频数据,分别训练神经网络模型对演奏视频和音频进行处理,最后对分析结果进行多模态决策级融合。通过人工智能技术加以分析处理并给出针对钢琴练习的指导性意见,从而使习琴者能够更有针对性的解决练琴过程中的问题,提高练习效率。
參考文献:
[1]丁志中,戴礼荣.音乐信号分析中常数Q变换的性能研究[J].声学技术,2005(04):259-263.
[2]杨瑾.钢琴发音原理与演奏音色控制[J].交响.西安音乐学院学报,2005(01):73-75.
[3]Shi B,Bai X,Yao C.An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J].IEEE transactions on pattern analysis and machine intelligence,2017(11):2298-2304.
[4]Ayyadevara V.K.(2018) Convolutional Neural Network. In: Pro Machine Learning Algorithms. Apress, Berkeley, CA.
[5]Kato N., Hakozaki K., Tanabiki M., Furuyama J., Sato Y., Aoki Y.(2018) Video-Based Person Re-identification by 3D Convolutional Neural Networks and Improved Parameter Learning. In: Campilho A., Karray F., ter Haar Romeny B. (eds) Image Analysis and Recognition. ICIAR 2018. Lecture Notes in Computer Science, vol 10882. Springer, Cham.
[6]Reuderink B., Poel M., Truong K., Poppe R., Pantic M.(2008) Decision-Level Fusion for Audio-Visual Laughter Detection. In: Popescu-Belis A.,Stiefelhagen R.(eds) Machine Learning for Multimodal Interaction. MLMI 2008. Lecture Notes in Computer Science, vol 5237. Springer, Berlin, Heidelberg.