文字_薛蕙心
在音乐创作领域,人工智能的加持在技法、效果与理念等方面都为作曲家提供了更多的可能性。“音色”这一音乐作品中较为复杂的参数,在人工智能技术的辅助下得以在一定程度上被分析与复现。德国作曲家亚历山大·舒伯特(Alexander Schubert)在2020至2021年创作的《合流》(Convergence),正是一部为弦乐合奏与人工智能而作的作品。该作品采用了自编码器(Auto Encoder)的音色合成技术,产生了独特的音色效果。作曲家通过这一技术,表达了人与人工智能之间在某种程度上的“合流”。
人工智能技术参与音乐创作并不是近几年才出现的,相关研究与实践表明,这项技术很多年前就已开始应用在音乐创作中。聚焦当下,人工智能参与音乐创作的主要原理是运用遗传算法、神经网络、马尔科夫链和混合型算法等,将音乐作品中一些能够总结、量化出的规律“投喂”给计算机,给计算机制定规则并建立包含海量“学习素材”的数据库,计算机会进一步分析素材的各项特征信息,在此基础上生成新的音乐。在这个过程中,研究者们尝试使用计算机从多种维度分析、模仿、学习构成作品的音乐元素,如音高、节奏、结构等,以此参与音乐创作。
相比其他音乐元素,计算机对音色的分析与复现更为困难。探究单个音符的音色往往需要依赖其他参数特征,例如音量、时间甚至是演奏法等。基于生成对抗网络(Generative Adversarial Network)的方法能够将一件乐器的音色转化并映射到另一件乐器,但它本身不够灵活,无法对音色进行建模。为了实现可控的音色建模,我们需要使用基于自编码器的神经网络。基于自编码器模型的神经合成器(Neural Synthesizer)是著名的神经音频合成(Neural Audio Synthesis)模型,它可以使用隐空间的插值(interpolation)来对音色进行建模,将多个声音输入编码器,将输出结果按一定比例混合后给到解码器,即可合成新的声音。
图一 自编码器原理图示
众所周知,目前人工智能视域中比较常用的几种音色合成技术均为“编码——解码”的结构。相比传统模型,“编码——解码”结构的灵活性体现在其能够直接选择合成哪几种声音,并控制其合成比例。如作曲家想要实现A音色到B音色的转换,只需要使用A音色的编码器和B音色的解码器即可完成,而其他一些音色合成技术都需要选定好A与B音色的种类,再训练A到B音色合成的模型才能够实现。如果想更进一步,实现A、B、C三种音色的互相转换,“编码——解码”结构同样只需要训练三个模型,再将它们按需组合即可,其他技术则通常需要训练六种模型,即AB、AC、BA、BC、CA、CB。因此“编码——解码”结构能够更灵活地控制和影响输出的结果,从而解决音色合成中“是否可控”这一问题。
自编码器是一类在半监督学习和非监督学习中使用的人工神经网络(Artificial Neural Networks),其功能是通过将输入信息作为学习目标,对输入信息进行表征学习(representation learning)。它是深度学习中的一种常用的生成算法,常被运用于计算机视觉与自然语言处理任务中,例如图像去噪、图像恢复、图像生成、降维和文本生成等。
图一展示的便是自编码器的工作原理。编码器(Encoder)首先将原始数据映射到较低维度空间中,神经元逐渐减少的过程是其中的关键。从图中我们可以看到,隐空间(Latent Space)是编码器运算的结果,是对输入数据的特征提取,以低维数据来代表输入的数据。例如训练人声的自编码器,编码器并不需要额外的音色信息来表示人声的数据,便可直接将原始的人声数据(波形或语谱图)映射为一个低维数组,从而表示原始的人声数据。而解码器(Decoder)是对编码过程的反转,使用较低维度数据去创造较高维度数据,由此得到最终的输出数据,例如训练人声的自编码器时,解码器会尽可能去还原原始的人声数据来优化其自身。
自编码器的优势在于其能够从数据样本中进行无监督学习,算法能够直接从原始数据中捕捉到最显著的特征。就好像是给一个人看一张猫的图片,然后要求他在一段时间后画出那只猫,通常他会画出猫的两只眼睛、三角形的耳朵和长长的胡须,这就是所谓提取到的最“显著”的特征。
德国作曲家亚历山大·舒伯特出生于1979年,在汉堡音乐戏剧大学获得多媒体作曲博士学位,任教于汉堡音乐学院,其作品曾在维也纳现代音乐节中演出。
他的作品以实验性音乐为主,因在作品中巧妙使用技术手段展现出了超前、先锋的艺术理念而受到关注。他常在作品中使用多媒体、传感器、交互、人工智能等技术手段,并将爵士音乐、电子音乐等风格融入其中,如为小提琴、传感器、现场电子设备和现场视频而作的《首选武器》(Weapon of Choice),为配备传感器的合奏和现场电子设备而作的《严肃微笑》(Serious Smile)和装置艺术《圆满轮回》(A Perfect Circle)等,其对技术的大胆使用和独特的艺术效果给人留下了深刻的印象。
近几年,许多音乐创作者都试图将人工智能融入自己的作品,亚历山大·舒伯特也不例外。《合流》是一部成功地将人工智能应用在音乐创作中的作品,其中具有典型性的基于自编码器的音色合成技术尤其具有分析与研究的价值。
亚历山大·舒伯特在作品简介中写道:《合流》使用了人工智能的概念来学习人类音乐家的特征,根据演奏录音来重建新的实体。在这部作品中,演奏家与人工智能生成的对应部分进行交互,他们看到自己的转换与重塑。从隐喻的角度,作品展示了一个被构造和参数化的世界。机器感知和人类世界感知之间的摩擦是解决自我流动性和感知限制问题的起点。
在创作这部作品之前,作曲家的构想是探索、创造新的声音与视觉形态,演奏者能在作品中和使用人工智能技术创建出的实体相遇、互动、协同演出,并在作品中展现出人工智能技术捕捉的过程。
在聆听作品时,我们能够发现许多新奇声音的存在,例如尖叫的小提琴、像乐器一样夸张的人声以及一些“像乐器又好像不是乐器”的声音。作曲家将许多弦乐与人声的声音片段,包括弦乐的演奏法、歌声、说话声和尖叫声等输入到计算机中,让其进行学习,由此训练出多个弦乐与人声的“声音模型”。在此学习过程中,编码器会分析出每个声音片段中最独特且区别于其他声音的代表性特征。除此之外,声音的“共性特征”也会被整个自编码器学习并记录。
图二 “人声尖叫声”音频语谱图
图三 “小提琴演奏声”音频语谱图
图四 “人声尖叫声”与“小提琴演奏声”音色合成后的音频语谱图
图五 创作团队为《合流》研发的音色合成工具
在《合流》这部作品的创作过程中,自编码器模型主要做了两件事:音色复现与音色迁移,可统称为音色合成。音色复现为分析学习声音特征,训练自编码器模型还原声音。在复现过程中,模型会一遍遍地比较复现结果与原始音频,以此进行优化,作品中听到的一些“像乐器又好像不是乐器”的声音大多就是音色复现的结果。而音色迁移的实现则更依赖于作曲家的音频库。若原素材为一个“人声尖叫声”与一个“小提琴演奏声”,那么人声的编码器模型将提取该声音的个性特征,并将此数据存于隐空间中,然后再输入给小提琴模型的解码器。由此生成的声音,听感上便像是“尖叫的小提琴”。
从图二、图三、图四这几张音频语谱图中可以发现,合成后音频的中高频能量比人声音频更加饱满,且具有不同的泛音特征。这些参数变化,一方面与合成后的声音音色具有小提琴特征有关,另一方面也与模型特征有关。
为了方便音色合成的实现,创作团队研发了一个音色合成工具,操作界面如图五所示。在此过程中,团队对自编码器特定模型进行训练,模型包含录制的大量不同演奏技巧的声音数据,然后通过上述计算机训练过程对代表这些演奏技巧的模型进行训练。在基于训练的模型界面中,“audio loader”部分显示加载的声音,“latent series”部分表示在隐空间中对声音进行编码。接下来,想要用何种声音来展示这段加载声音的个性特征,只需将其放入该声音模型中即可。
《合流》时长为三十四分二十五秒,其中的元素包括弦乐演奏者的现场演奏和表演,以及计算机处理后的声音与视觉等。
图六 演奏者面对摄像机,向计算机输入“小提琴演奏”的听觉与视觉信息
作品结构大致可分为三个部分(存在过渡与交错的部分)。开头至第十二分钟左右为第一部分,由计算机播放指令,演奏者根据指令完成相应行为,向计算机输入数据;第十二分钟左右至第二十分钟左右为第二部分,多角色进行相遇、对话与碰撞,包括现场演奏与人工智能生成的声音之间、人类音乐家与计算机之间等,作品中的元素明显增多;第二十分钟左右至结尾为作品第三部分,这一部分蕴含了作曲家对人类、人工智能、世界、宇宙等问题的思考。
我们都知道,人工智能深度学习需要收集大量的数据,这是一个枯燥的过程,而《合流》的独特之处便在于将此过程搬上了舞台,使之成为最终呈现的一部分。在作品第一部分,由预置的一个机械化的女声发出“下弓”“上弓”“重复”“放慢”“加快”等指令,演奏者面对摄像机根据指令完成演奏。如图六所示,画面以摄像机的视角呈现,画面下方显示其演奏声音的各个参数。
在此过程中,演奏者仿佛进入了近似恍惚、冥想的状态,所有演奏均听从指令执行,纯粹地面对计算机展示自己,并接受着计算机的扫描和读取。这一过程像是演奏者与计算机之间的一种互动:计算机通过这些指令向演奏者发出请求,而演奏者也在指导计算机进一步了解我们。
这个过程让我想起,当我们刚刚开始学习演奏一件乐器时,老师会手把手教我们如何去演奏,如“下弓”“上弓”分别是什么,应当如何操作。我们在学习过程中会根据自己的理解和认知,听、看、模仿,从而领悟并“内化”其中的要领。老师与我们的这种关系,现在似乎被放到了演奏家与计算机之间。但此刻,演奏家与计算机之间究竟是谁在向谁学习,答案似乎不是确定的。正如作曲家所说,计算机正在观察我们,而我们也在试图去理解计算机是如何观察我们的,如何在其内部用数据分析、表示音乐,并在一遍遍学习中不断优化与比较。计算机似乎拥有与人类相似的思维方式,包含“输入”“分析”“映射”这些过程,每一步都十分重要且必不可少。
作品中许多以“计算机视角”发出的声音都使用了人声的音色,包括第一部分与第三部分计算机的指令与提问,以及出现于第二部分的许多合成声音的音色。个人认为从艺术处理的角度来讲:一是作曲家对计算机的一种拟人化的艺术处理,以突出计算机在作品中的“角色感”;二是用音乐暗示计算机与人类思维方式的相似性,计算机也在观察人类,学习、模仿人类的行为,模仿人类音乐家的演奏。
《合流》十分三十秒处的画面
在作品的第三部分,出现了许多包含作曲家思考的句子,如“这究竟是一个梦境,还是一种清晰的感知?……所有感知都是经过重建的,没有哪种呈现是绝对化的……我们是参数化的,所有参数都可以被替代……我在一个永恒的循环中对自己进行编码与解码,放大所有的特征……”预置音频以计算机的身份播放出这些句子。
关于人类对事物的感知问题,大量心理学与神经科学研究显示,人类对自我的感知模式也是一个参数化的模型。人类思考的过程往往发生在潜意识情况中,对一些现象、概念或身份的认知常常过于绝对化。而通过人工智能重建的模型是具有可塑性的,例如自编码器的表达可以被人为调整,可以编辑与转换,使之发生变化。从这个意义上来说,人工智能系统实现了这种可塑性:不同的人、角色特征、评价或性别等,代表其特征的参数可以从社会、临床或生物等许多角度进行改变。人工智能系统用于实现这种改变,告诉人们对事物的认识不应当是绝对化的。
人工智能就像一面镜子,反映了人类感知事物的一部分过程与特征,镜子里所发生的与人类构建认知的过程相平行。因此从某种意义上讲,对人工智能及自编码器程序的应用可以让我们从一个新的角度去认识世界、认识自己。而这种思维方式或是观点,究竟是人类引领的,还是计算机驱动的?这部作品中存在的对这些问题的思考与隐喻,是对它们的一种开放式的展现,作曲家并没有在作品中给出绝对的答案。
关于《合流》这部作品,亚历山大·舒伯特在声音层面的创意为“音色合成”,基于自编码器的音色合成技术较为灵活而可控,以此来实现作品中独特而创新的声音效果;在呈现上,他将人工智能技术的实现过程搬上了舞台,让听众清晰地了解到数据是如何进行输入,计算机是如何分析学习的;在理念层面,作曲家表达了人与人工智能之间在“感知”与表现力等方面的“合流”。
这部作品是在智能化环境下对人类本身具有的感知力和表现力的一种形式化展示,在此过程中引发观众对人类学习与感知事物过程的联想、对自我的思考、对人类以及人类外部世界在存在、意识、生命、身份等方面的新的理解。在人工智能越来越多地对音乐创作产生影响的今天,我们除了需要关注技术本身外,也应当对音乐人工智能的美学以及哲学、伦理方面的问题进行跟进。
科技的发展会对音乐的创作、呈现、接受和音乐哲学等产生深远的影响,人类的音乐艺术也将因人工智能的参与而更加丰富多彩。