世纪以来,人工智能与基因工程、纳米科学并称为“世界三大尖端技术”。其中,就“如何运用机器模拟人类的智能模式”展开讨论与探索的人工智能目前在许多领域都取得了令人瞩目的研究成果和应用,尤其在机器人的模型制作、不同种类的仿真学系统中已经运用到了成熟的人工智能技术和手段。那么AI技术将如何能为音乐艺术领域带来哪些改变与创新,本文将着重论述相关话题。
一、AI技术在音乐领域的发展现状
虽然今天AI技术在生产和发展中的应用已司空见惯,但由此所带来的巨大变革却仍让人惊叹不已。譬如AI技术应用的经典案例,谷歌公司旗下的著名人工智能开发团队“深度学习”(DeepMind{1})公司所开发的电腦围棋软件 “AlphaGo”,让机器拥有了“头脑”,学会了“围棋技术”,并战胜
了众多的人类围棋高手。
与此同时,AI技术同样引起了艺术工作者们的极大关注和探索研究。2018年1月,一张名为《Hello World》的音乐专辑问世,这张专辑由索尼的人工智能作曲AI Flow Machines与人类作曲家合作完成,其中的15首歌曲都由AI技术进行
创作编配,在乐界引起了不小的轰动。
简单来说,“AI作曲”就是通过AI技术将音乐样本数据化、模式化,根据用户的要求选择相应的素材来进行创作的一种自动化作曲呈现方式。这种理念给传统的作曲形式带来了新的冲击和思考。相对于传统的作曲方式和手段,它极速便捷的制作速度(尤其是风格的把握)以及满足于用户定制的交互模式让人叹为观止。随着相关技术的不断推进完备,越来越多专业作曲家也逐渐开始思考如何将AI技术融入音
乐创作和音响结构中。
音乐虽是感性为主的艺术创作,但其本身却存在非常强的可计算性和逻辑性,音乐创作技法的背后更是蕴含着丰富而严谨的数理逻辑。常规的作曲技法如旋律模进、调式转变、音程的收缩与扩张、和声音高的纵横排列、乐器音色的搭配比例与融合、曲式中的递进回旋等,都可被定义为单一或组合式的算法模型。在这种计算模式下,AI技术可以非常融洽
地运用到音乐创作的领域。
从这个层面来说,AI作曲的本质就是由计算机通过对于数字化信息之间的算法模型来进行音乐创作与演算。目前,
比较常见的AI作曲模型有:
1.马尔可夫链{2}(Markov Chain) 这是一种较为简单的算法模型,这种模型可以根据数据库大量信息的学习,推测出当某一个音或某几个音出现时接下来出现各个音的可能性,以此产生新的音乐。它在一些商业程序中被广泛使用,许多互动音乐家在制作交互式音乐作品需要即时演算的时候也
经常使用它。
2.遗传算法{3}(Genetic Algorithm) 这种模型的基本原理是将音符之间的排列组合和规律进行编码处理,模拟物种繁衍的过程选出最为优秀的作品。在利用这种算法模型进行艺术创作的过程中,由于选取合适的评价函数{4}是一项非常具有挑战性的工作,很大程度上限制了其应用的发展速度。
3.人工神经网络(Artificial Neural Networks) 这是自20世纪80年代以来人工智能领域兴起的研究热点。通俗来说,这种数字模型试图模仿人脑接纳知识和技能的神经网络,让人工智能进行模仿学习。在实际的艺术学习生产过程中,AI系统通过对大量音乐数据的搜集,让人工设备对现有的音乐资源中的音高、节奏、调式等音乐特征元素进行精细提取与存储,进而根据用户所给出的要求输出具有针对性特点的艺术
风格作品。
这种算法技术在目前许多的商业实例中都有所体现:
(1)A.I.Duet—Google Magenta项目是“谷歌大脑”的一个重要的分支。谷歌大脑作为谷歌公司在人工智能领域开发出来的一款模拟人脑的软件,通过数据链接将万台处理器进行相连并形成一个互通的神经网络,进而使它能够不断地学习与进步,在更多的领域大显身手。作为谷歌大脑的神经系统在艺术层面的尝试,该项目除去利用算法来作曲外,也可以运用算法的运行模式来绘制图像等其他艺术形式和表
现手段。
(2)Jukedeck是英国作曲家,也是被誉为“第一位国际AI创业者”的Ed Newton-Rex创立的公司,其产品Jukedeck MAKE主要面向视频制作者,为其提供免版税的人工智能原创音乐。这款软件通过丰富的算法进行数据库的储备,用户只需要选择音乐的情绪以及气氛(如忧伤、快乐、充满活力等等)再选择音乐的类型以及演奏形式(如钢琴、交响乐、室内乐等),设置好节拍与时长之后,所有的选择与要求会被反馈回云端的Jukedeck Make,经过10到30分钟,用户即可得到反
馈回来的量身定做的原创音乐。
目前,AI作曲的方式大多是对音乐本身进行分析学习与模仿,以创造具有特征性的音乐作品。与此同时,采用数据化整合的信息处理方式,人工智能也开始运用在对乐器的种类、音色、技法的识别上,精细化区分其同质化和异质化的关系,尤其是同质性乐器的种类音响细分、音色相似度、技术重
合度的人工分离和精准辨别。
二、人工智能AI对于中国民族乐器种类
以及乐器技法的识别
AI技术在中国得到了音乐家的高度重视和运用。目前,上海音乐学院正着手开展人工智能对于中国民族乐器以及乐器技法识别的研究,并将与旧金山音乐学院合作开发的软音源数据库。这一研究的本质是为了让计算机或者处理中枢通过对于一段音频片段的分析,对获取到的频谱特征、数值参量上进行分析理解,从中得到正在演奏的乐器音色以及演奏技法,尽可能地优化算法的准确性,从而得到更为精确、优质的演奏效果。在上个世纪,世界上已有许多作曲家对于乐器做出过相关的研究和优化改良,譬如日本的鬼太鼓就通过参数测量和优化改良极大地增强了它的表现力。近几年,通过精确数据测算与音色和技法的反复论证实践,中国民族传统乐器的研发和改良,尤其是中低频的优化,正在得到快速的发展。如蝶式筝、加键竹笛等的声学频谱数据整理。同时,这种技术也能够应用于一些新作品的创作与演奏之中,更好地实现科技为艺术服务,以多元化、现代化的形式弘扬民族
文化和中国文脉的传承。
该技术对推动中国民族音乐标签化管理分类,对数据的整合和处理同样具有革命性意义。目前,欧洲、美国、日本等国家和地区电子分析技术及电子音乐实验室的相关研究正在积极进行中。他们主要通过频谱分析方式分析同一乐器各个演奏技法间的区别,如庞培法布拉大学(Universitat Pompeu Fabra)开展的关于中国京剧演奏技法识别项目。该项目侧重于对京剧中司鼓和主胡的整体音乐和音响结构的识别性研究,通过大量的数据样本采集和算法设计,对司鼓的节奏音响和主胡的音色特征进行识别,以达到识别分析演奏
技法的目的。
相比起西洋乐器大量的音色与演奏技法的识别研究,对于我国传统民族乐器的演奏技法及音色识别领域的相关研究在国内也日益受到关注,其中比较有代表性的有,中国音乐学院韩宝强教授团队进行的编钟等中国民族乐器的测评研究。其方法主要是通过频谱分析的方式,对乐器的音准、音量、延时、音色及隔离度等参数进行量化评估,进而在认识并
改善音色,优化乐器音响等方面开展实践性运用。
下图所示是初拟的乐器性能所具备的各种相关参数,在
实际的评估过程中影响着评估结果和乐器改良效果。
这种研究侧重于通过算法来直接对一段音频进行分析,对其中运用的乐器及演奏技法进行识别检测,可用于乐器音响的优化,但更加重要的意义是通过与人工智能深度学习技术相结合,实现对中国民族器乐曲目的深度学习和量化精准分类,进一步还可应用于中国民族音乐的标签化分类管理,
结合信息检索系统建立民族音乐数据库。
AI作曲始终由人工智能技术在背后进行支持。这一领域目前比较热门的是多伦多大学研究者的研究,他们利用深度学习的LSTM模型{5}(hierarchical recurrent network),对100个小时的流行歌曲 MIDI格式小样进行训练和分析。在这个模型中有key layer(音高信息),press layer(力度信息), chord layer(和声信息),drum layer(节奏信息)等结构,当然在模型的设计与合成中也考虑了音阶等其他因素。这种模型的建立可以更好地帮助人工智能模型学习音乐中的关键元素以及常见的音乐结构与规则。这种思路也为民族乐器音响频率的技术分离与后期AI作曲使用及进行深度学习方面提
供了参考和技术支撑。
对于人工智能而言,赋予其一种新的识别某项音乐特征的能力就好像赋予了它一个新的感官,使其能够对音乐中的某种元素进行剥离和识别,从而进行深度学习,进而达到模仿创作的目的。笔者的研究正是基于MPEG-76定义的音色标准中包含的13个特征性参数,从时域(音色的时间域)、频域(音色波形的频率)与倒频域(反向的音色波形频率)三个层面对乐器音色进行特征性捕捉,从中国民族乐器音色延伸至乐器的演奏法,进行递推分析,探索人工智能对于中国民族
乐器演奏法的识别性能。
目前,就中国民族乐器与AI科技的技术融合方面所研究
的主要重点与问题有:
1.通过对中国民乐的吐音、颤音、拨弦,揉弦、扫弦以及音量幅度控制等特定技法采样的系统分析,通过频谱及其他声音特性参量,研究出合理的乐器演奏技法特性数字识别方案,确定相应算法,使计算机系统能够通过数字分析的方式对乐器的特定演奏技法进行判别,尽可能地减小误差,并有
效增强其技术性和艺术性的融合表达。
2.通过算法解决乐器声音的评测问题,并能够对不同乐器的声音进行基础的剥离与判别。通过与优质样本的比对,
实现客观的音色评价并为产业服务。{7}
3.通过该算法与人工智能作曲系统的结合,使人工智能能够独立自主地对一段音频进行乐器及演奏技法的分析,提
升其自我学习效率,促进智能作曲AI的快速发展。
4.将该技术应用到创作及作品分析中,使用人工智能技術辅助创作音乐,为创作者提供灵感和音乐素材,并为音乐
分析者提供更真实的声音样本参考。
三、AI音色识别在实际项目中的应用
在艺术实践中,笔者不仅利用AI技术创作了多部交互式电子音乐作品,还通过与相关机构的合作,将数字音频的频谱技术运用到了乐器制造中的调音和优化环节,并取得一定的效果。例如,笔者的团队在进行AI声音采集测试的同时,通过声音采样和频谱分析的方式对竹笛的音色和相关演奏技
法进行了逻辑分析,并归纳了相关实验数据。
以上实验数据来自笔者对于竹笛相关演奏技法的数据采集,可以为分析竹笛音色,识别竹笛乐器的相关演奏技法提供数据参考,后期笔者还将采集更多的乐器和演奏技法。
如何直接代替表演者亦是AI技术在当代创作中非常重要的一种大胆尝试。笔者也曾在创作中尝试以机器人为演奏载体,通过人工智能方式赋予机器人吹奏竹笛的技能。机器人通过设置好的程序以及曲谱,中枢控制器对机器手进行交互响应从而进行演奏,尤其是“嘴、气、力、手、舌”的有机结合。这种技术的难点在于如何让机器人通过程序将乐器的各
种技术表达正确并准确地演奏出来。
如上图,在设置好了古筝的定点位置后,设置一台特殊的“乐手机器”,通过数个“机器手指”来进行古筝的演奏。该同质技术在美国AI乐器研究所数月前也运用在马林巴的演奏中,其在演奏速度与节奏精度上可以远超人类演奏家。该技术通过中枢控制端进行集体控制,人工智能“大脑”将弹奏的时间、节奏、力度、节点信息发送到机器本身从而让这台机器能够非常准确地跟其他乐器进行独奏和合奏。
四、对于人工AI技术在音乐创作上的展望
AI技术将会为我们这个世界带来怎样的变化,这是谁都无法预估的。在高度发达、学习速度极快的AI面前,传统艺术家和传统作曲形式以及乐器演奏是否还有新的发展理念和
价值性提升空间,这是学术界需要关注和思考的话题。
就目前而言,人工智能虽然能够快速给予作曲家或演奏家艺术响应,能根据用户的要求在短时间内将一首完整的作品制作并演奏出来,但依然受到算法音乐的本质以及程序的限制。如今,AI所创作的作品尚欠缺规模化,虽然其生产的音乐拥有复杂的结构,严密的逻辑关系以及正确的乐器演奏方式,但总体来说还显得有些“稚嫩”,可听性或艺术性语言表
达并不够充分。
科学技术的发展进步对当代社会影响深远,面对人工智能所创造出来的艺术成果,传统艺术家不应该对其带有观望,也不应该对新的技术抱有排斥感。正确认识人工智能对于艺术表现力以及表现形式的丰富与加持,意识到将这种技术真正运用于创作和观念的提升,可以让更多艺术作品具有时代感、科技感和生命力,亦是音乐与科技相互联系、融合的
综合发展方向和愿景。
参考文献
[1] 韩宝强《如何评测编钟的音乐性能》,《黄钟》(武汉音乐学院学报)2018年第3期。
[2]刘灏《浅论算法作曲与交互遗传算法作曲》,《人民音乐》2014年第7期。
[3] 张英俐《基于遗传算法的作曲系统研究》,山东师范大学2006年硕士论文。
[4] 李东洋、郭为安等《基于隐马尔可夫和交互式遗传算法的计算机作曲算法设计》,《微型电脑应用》2016年第11期。
[5] 崔嘉《遗传算法在计算机辅助乐曲创作中的研究与应用》,山东师范大学2007年硕士论文。
[6] 张英俐、刘弘、马金刚《遗传算法作曲系统研究》,《信息技术与信息化》 2005年第5期。
[7] 付晓东《音乐人工智能的伦理思考——算法作曲的“自律”与“他律”》,《艺术探索》 2018年第5期。
[8]韩艳玲《可能性构造空间理论与计算机作曲思维模型研究》,华中科技大学2010年博士论文。
{1} DeepMind,位于英国伦敦,是由人工智能程序师兼神经科学家戴密斯·哈萨比斯(Demis Hassabis)等人联合创立,是前沿的人工智能企业,其将机器学习和系统神经科学的最先进技术结合起来,建立
强大的通用学习算法。
{2}马尔可夫链(Markov Chain, MC)是概率论和数理统计中具有马尔可夫性质(Markov property)且存在于離散的指数集(index set)和状态空间(state space)内的随机过程(stochastic process)。
{3}遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型。
{4} 用于评价节点重要性的函数叫做评价函数。
{5} 长短时记忆网络模型,一种算法模型。
{6} MPEG-7标准被称为“多媒体内容描述接口”,为各类多媒体信息提供一种标准化的描述,这种描述将与内容本身有关,允许快速和有效地查询用户感兴趣的资料。它将扩展现有内容识别专用解决方案的有限能力,特别是它还包括了更多的数据类型。换言之,MPEG-7规定一个用于描述各种不同类型多媒体信息的描述符的标准集合,该标准于1998年10月提出。
{7} 目前对于乐器声音质量进行评测的技术研究已较为成熟,与相关
乐器厂商合作,已投入其出厂乐器的评价及调试流程。
刘灏 博士,上海音乐学院音乐工程系副教授
(责任编辑 张萌)