人工智能在音乐创作中的应用

2023-11-13 19:19:52程汇聪

音乐探索 2023年3期

Artificial Intelligence in Music Composition

摘要：以人工智能与音乐创作为核心，介绍人工智能音乐创作中的马尔可夫链、BP神经网络、RNN神经网络、LSTM神经网络与SOM无监督神经网络等基本模式。借由思考音乐创作与主体性的关系，对人工智能视域下音乐创作的走向、作曲家的创作价值、音乐创作的形式以及表征与重组等问题加以阐释，从而以全新的技术领域为切入点，将音乐创作置入新的“敞开”世界中。

关键词：人工智能；神经网络；音乐创作；形式

中图分类号：J621.3文献标识码：A

文章编号：1004-2172（2023）03-0136-09

DOI：10.15929/j.cnki.1004 - 2172.2023.03.013

引言

随着近年来人工智能研究的发展，人工智能音乐已经进入了一个新的纪元。从最早莱杰伦·希勒（Lejaren Hiller，1924—1994）在1957年对人工智能或是算法作曲的首度尝试《伊利亚克组曲》（Illiac Suite），到谷歌（Google）研发团队的Magenta项目，到巴黎的索尼计算机科学实验室开发的“深度巴赫”（DeepBach）神经网络，再到人工智能虚拟艺术家“艾娲”（Artificial Intelligence Virtual Artist，簡称AIVA）将其以影视与游戏配乐的形式应用于市场，人工智能音乐在西方已然走过了半个多世纪。从2016年开始，人工智能音乐研究呈现一种“井喷”的状态，不仅各种相关理论层出不穷，还于2019年之后逐步由理论转向实际应用类研究。音乐方面也是如此，人工智能音乐正在逐渐走入人们生活当中，且变得越来越有实用价值。

在国内，中央音乐学院于2019年成立了人工智能与音乐信息科技系，上海音乐学院的音乐科技系也积极开展有关人工智能音乐的学科研究，并取得了阶段性成果。一键AI编曲软件“音虫”在2020年末登场，同期，网易的“天音”人工智能编曲软件也于2022年给大家带来了新的编曲体验。种种趋向表明，人工智能音乐在近年来不断受到国内外学者与研究人员的重视。

音乐人工智能相较于其他人工智能研究来说具有特殊性，它涉及一个核心的问题，即音乐本身是一种情感的流淌。事实上，关于艺术的人工智能都会遇到这一问题，但是音乐的与众不同之处在于它是艺术中最为“无形”的存在。音乐并非是绘画或雕塑那样具象的存在（空间艺术与时间艺术／造型艺术与发生艺术），它本身是一种虚幻的表现形式。在过去讨论艺术的过程中，艺术的内核与其表象形式是不可剥离的，而艺术家的创作过程则是将其“非真实性”的主观意向具化为形式，也就是说，艺术品即思想的荷载物。从康德提出“纯粹美”①这一美学概念之后，人们对于形式与内核的论证趋于分化，但又归于统一。因此也诞生了大量的学说，如彼得·基维（Peter Kivy，1934—2017）的“轮廓理论”②，于润洋先生（1932—2015）常说的音乐中的“自律与他律”③，苏珊·朗格（Susanne K. Langer，1895—1982）的“符号学说”④等，都从不同角度和维度解读了艺术中情感与形式的关系。

从过去几年与人工智能相关的研究成果可看出，人工智能对于形式上“工具理性”的进展是极为迅速并具有优越性的，利用自组织映射神经网络（Self-organizing map，简称SOM）⑤或BP神经网络（back propagation，简称BP）⑥等进行机器学习并通过马尔可夫链（Markov Chain，简称MC）⑦等算法进行重组，人工智能可以对形式进行很好的模仿，在此称其为“重组性创作”。对这种“重组性创作”来说，模仿肖邦、巴赫等作曲家的音乐风格不在话下，而对十二音、整体序列等音乐风格的模仿更是人工智能的拿手好戏。作为人类作曲家，需要思考如何进一步开展创作活动，是否需要将目光转向更加“根源性”的创作当中？类似标准化、重复化的劳动，在未来是否还是衡量作曲家的标准？人工智能是否可以代替人类作曲家，满足绝大多数人对于音乐的需求？基于人类情感的艺术品呈现是否可以实现将形式与情感剥离？用符号学及语义学的思考方式，艺术的欣赏者（客体）需要同时接受艺术品（形式）以及一个普世的人类情感（抽象概念⑧）的影响，来完成对于一个创作者（主体）艺术创作的接收，如果“概念”来源于一个普世的、人类社会发展所必然产生的情感以及约定俗成的价值观，对于客体来说主体是否仅仅输出了符合直觉理性并具有生命基本逻辑的一种形式？我们作为一个音乐创作者要如何创作？为何要创作？创作的价值在何处？

一、人工智能音乐创作的基本模式

（一）马尔可夫链

早期的算法作曲中，生成音乐的主要途径就是利用马尔可夫链将音乐的纵横关系转化为概率问题。这种创作的思维延续了整体序列的创作模式，即将音乐的基本元素抽象为几个固定概念，如音高、时值、力度等概念，在此基础上将这几个音乐元素转化为概率问题，一定程度上，概率也体现了音乐的风格。

马尔可夫链可分为显性马尔可夫链和隐性马尔可夫链。对于基本的马尔可夫链模型来说，本质上就是以当前状态为出发点，通过状态转移的概率矩阵分布（所有可能性的概率之和为1），将下一个状态转化为概率问题。马尔可夫链的一大特征在于只考虑当前状态，因此它是无记忆性的。可以说利用马尔可夫链所要解决的问题是，在已知当前状态N的情况下，求N＋1状态。

比如在音乐中，如果一部古典时期的作品在当前状态出现了属七原位和弦，下一状态出现主和弦的概率极高，可达到0.8甚至以上。再比如，在十二音的作品中，当前状态的音在下一状态出现的概率为0，其他11个音出现的概率则为1/11。但由于马尔可夫链的无记忆性，并不能很好地完成此类表达。音乐系统很多时候是一个复杂的问题，单一的马尔可夫链的矩阵转移系统往往难以表示，这意味着，还存在另外一个影响最终结果的决定性因素。

而有关力度和时值的表达方面，在古典时期的作品中，当前状态的力度大概率会在下一个状态得到延续，力度的变化大多是延续的。而在力度上起到对峙的片段往往在音型、织体上趋于统一，这恰好是隐性马尔可夫链的一个很好的例子。在上述过程中，织体和音型对于力度的概率问题产生了较大的影响，其中也包含了两个状态：隐含状态和可观察状态。在上述例子中，我们所要观察的是当前状态以及下一个状态的力度问题，但其中织体对其产生了重要的影响，因此力度就成为了我们的可观察层，而织体则是隐含层。

上述十二音的例子在这里也可以得到解决，将音高作为可观测层，将过去11个状态内是否出现此音高作为隐含层，就可以得出十二音更为精确的基本表达。首先设状态N，考虑是否满足N<12，在隐含层如果符合过去11个状态中未出现过此音，那么可观测层的下一状态的最终概率为P = 1 /（12-N），如果出现过此音，则P = 0，如果N > 12，则N = N-12状态。

马尔可夫链作为将“概率”应用至音乐创作的早期尝试，具有里程碑式的意义。在20世纪50—60年代也有不少作曲家尝试利用马尔可夫链进行音乐创作，其中就包含希勒和艾萨克逊（Leonard Isaacson）于1957年创作的《伊利亚克组曲》，这部作品常被认为是第一个利用计算机和算法作曲进行创作的作品。在创作过程中利用马尔可夫链的随机特征产生不同的音高、时值、节奏、力度，进而构成音乐片段。《伊利亚克组曲》由四個乐章构成，分别对应了单旋律、四声部关系、时值与力度、随机性四个方面。而在第四乐章中，在随机与概率的部分集中应用了马尔可夫链。

1960年俄罗斯计算机科学家、音乐家R.Kh.Zaripov发表了第一篇关于使用（Ural-1）计算机进行算法音乐作曲的论文，描述了其使用马尔可夫链生成旋律、时值等参数。而后他在此研究基础上于1969年发表了《控制论与音乐》（Cybernetics and Music）。

此外，泽纳基斯（Iannis Xenakis， 1922—2001）也在他的部分作品中尝试了基于马尔可夫链的算法作曲形式，包括其作品《类比A》Analogique A、《类比B》Analogique B、《希尔莫斯》Syrmos等。

（二）BP神经网络

神经网络最初并没有得到很高的重视，直到过去十年才得到大力发展，它可粗略分为两大类，有监督的BP神经网络以及无监督的SOM神经网络。很长一段时间内，由于计算力以及数据的限制，无监督的神经网络是难以处理的技术问题，而学者们主要在有监督的BP神经网络当中做文章。

BP神经网络在1986年由鲁姆哈特（David Rumelhart）和麦克莱兰（James L. McClelland）为首的科学家提出。神经网络最为基本的两个结构为输入层和输出层，从输入层到输出层可被称为正向传导的过程。而BP神经网络在输入层和输出层中间还有一个隐藏层，其作用则是将信息做对比。BP神经网络中的关键词“Back Propagation”从字面上可以直译为“反向传导”，因此其中最重要的就是反向传导的过程。信号从输入层进入之后，先正向通过隐藏层到输出层，再将信号数据与给定的参考数据做对比计算误差，反向回到隐藏层，逐渐修正神经元的权值，直到误差小于指定参数。

BP神经网络的特点就是有监督，因此其中人为介入的程度依然较高。尤其是在音乐领域的应用，选用的样本将会直接影响机器学习的最终结果，个人的审美也会从侧面影响到机器的学习情况。

BP神经网络几乎完美继承了人类学习模式的重要方面，通过测试、评分、重复、消除差异等方式塑造主体。

（三）RNN神经网络与LSTM神经网络

如今的音乐人工智能从技术层面来说，主要采用循环神经网络（Recurrent Neural Network，简称RNN）①及其特殊模式长短期记忆人工神经网络（Long Short-Term Memory，简称LSTM）②，以时序性的处理模式来实现机器学习及音乐作品生成。RNN神经网络从根源上来说是一种BP式的神经网络，是一种有监督的神经网络的模式，因此其必然体现出人为介入的情况，通过此神经网络训练的人工智能展现出一种“工具”特征。这就会出现上述讨论的问题，其中最为显著的问题就是：人工智能在音乐创作过程中是否作为人类的另一种工具？就如同电子音乐是否为一种音乐的工具，还是从根源层面提供一种新的思维结构？

2017年，Jean-Pierre Briot， Ga?tan Hadjeres， Fran?ois-David Pachet 发表了论文《音乐生成的深度学习技术》（Deep Learning Techniques for Music Generation -- A Survey），提出了基于LSTM的深度循环神经网络（DRNN），用于生成多声部音乐，通过运用此技术捕捉音乐序列纵横关系中的相互关系。此模型主要应用于生成和声与旋律，但需要在较为明确的音乐框架下完成。

虽然通过这种方式训练出来的人工智能暂时还无法做到大段音乐的创作，在音乐结构上有较大欠缺，但在8～16小节以内，无论是风格模仿还是风格迁移都可以较为出色的完成。由于在音乐人工智能的训练过程中普遍缺乏样本及数据，因此在很多训练过程中都将原本的曲子拆成了以4小节或8小节为单位进行训练，这样做虽然能够短时间内增加其数据量，却造成了人工智能对于音乐结构把握不足的问题。另一方面，由于RNN神经网络的特质，所有的计算都需要从头开始，因此在4小节或8小节的长度上，设备还能够承担所产生的数据量，可一旦涉及更长的音乐，数据量就将呈指数增长，目前的计算能力也很难支撑其运算。

但是这样的问题只是当下的，随着新算法的迭代、设备的升级，此般问题在不久的将来都会被逐个击破．而需要深入思考的是，透过人工智能这面“镜子”，作曲家和音乐家能从自己身上反思到什么。

（四）无监督神经网络

无监督神经网络目前在音乐领域并没有成熟的应用，但部分公司推出了阶段性研究产品，如OpenAI的MuseNet、Google的MusicLM等。此类产品并不完全是无监督学习的结果，但具有无监督学习的倾向。上述两者运用的均为基于Transformer模型的神经网络，通过学习数十万个MIDI文件形成“预训练”的结果，而后通过“预训练－微调”的框架对其进行修正。

无监督技术是一种不需要将数据人为标签化的学习方法，它只根据输入数据本身的特征和结构来学习，通过大量对比和学习数据，发掘数据之间的关联和潜在规律。无监督技术可以利用海量的数据，不受标签的限制，但难以评估模型的性能，也难以控制模型的输出和目标。在此层面上，机器取得了较大的自主权，但是在音乐应用中便会产生一个新的问题：对于本身就较为主观的音乐审美或者音乐评判，无监督的神经网络所产生的学习结果难以评价。这仿佛是机器自主的学习成果，但有很大概率与我们本身的评判标准存在差距。面对这样的差距，如果是BP神经网络，毫无疑问将会被判定此次学习失败，但是对于无监督的SOM神经网络来说，这又引入了新的音乐审美问题。或许更有意思的问题是，当人类面对非人物种或如人工智能这样的“硅基生命体”时，人类的审美是否还适用？

二、音乐创作与主体性

（一）人工智能与音乐形式

在近几百年的音乐创作发展过程中，是具有一种极端主体性倾向的。当代语境下由于技术飞速发展，主体时常并没有思考清楚新的技术究竟意味着什么，同时却已经迈入了新的技术领域之中。这也是为何电子音乐在诞生初期有着强大的推动力，但到了今天却呈现出一种工具化特征的原因。用马克思·韦伯（Maximilian Weber，1864—1920）①的话说，就是工具理性可以更快地给我们赋予目标，并向着某一个目标前进，其效率、收益都能够最大化的同时，让人们陷入工具理性的圈套。②由于价值理性无法被人明确地定义好或不好，因此在构建体系时，就需要防止发生此类情况，即回避好与不好的问题，而更多地讨论关于工具理性语境下对与不对的问题。如此一来，音乐与其他各行业一样也走入了以工具理性来评判价值的道路。而审美判断③作为康德时期一种复杂的综合形式，到如今也变为对形式的一种解读。在这一过程中，康德“纯粹美”的概念越发凸显。一种“自律”的、形式至上的音乐审美判断也在逐渐形成并走向成熟。

在人工智能诞生后，一切都在发生转变。人工智能底层逻辑是由0和1组成的，可以说，他就是将工具理性发挥到极致的一种体现。在任何一种强规则、强体系的门类当中，人工智能都可以毫不费力地“打败”人类。在过去的人工智能发展过程当中，人类已经被“上了一课”，不论是AlphaGo还是深蓝与人类的“围棋对阵”，人工智能在这种具有明确输赢的强规则活动中都占据了主导。因此，如果音乐也导向一种强规则及能够形成0和1判断时，人工智能将毫不费力地打败人类。

对作曲而言，最重要的“四大件”正逐渐被人工智能攻克。如今已经有不少大学上线了人工智能和声、复调的批改系统，如伊利亚克（Illiac）软件团队开发的“和谐”（Harmonia①）软件就已经提供了学生和教师的两个端口，教师能够借助软件快速、批量化对学生做的和声题进行批改。对于和声、复调这样较强规则的音乐学科，人工智能已经能够非常出色地完成任务。我们所熟知的和声强规则包括：不能声部超越、不能平五平八、不能四部同向、同声部不能出现增音程、不能对斜、大跳后反向级进等等。规则越清晰、权威，系统化程度越高，越能被人工智能把握，越能无障碍地转化为0和1的语言。而作曲四大件中配器的自由度相对较高，对人工智能而言也相对困难。对于音乐分析，人工智能可以形成一套独特的分析语汇，将音乐转化为纯数据分析，对其中的音高、速度、调式调性、声场、频段等做量化、归类和统计，从结构上，对已有模式对比得出相似性报告。

（二）音乐创作的几个层面

除了形式化、系统化的创作范式，必须重新思考有什么是在创作中不可或缺的。

笔者先以人工智能视角切入，机器学习中最为重要的环节就是对对象表征的提取与分类。此模式是对人类其中一种学习模式的总结，也是机器学习中最有效的学习模式。将事物转化为形式，在形式层面将其分割，从而将一些具体的事物抽象为几个关键概念，关键概念则组成了事物的形式。这与西方千年以来形而上的思维有着密切的联系，所谓“知识”一定要经过抽象的过程，将其总结为一个“一般的、普遍的、本质的”概念，这样的思想延续到了机器学习的领域。目前机器的“创作”过程用简洁的话概括就是“抽其表象特征，分离、归类后再进行重组”。而如果站在形式主义以及音乐“自律论”的角度，音乐中的表象特征可以分为“音高、调式、调性、速度、时值、力度、和声、复调、音色、织体、音乐结构”等。很大程度上来说，过去几百年的努力为人工智能音乐的崛起打下了坚实的基础。

而人类的音乐创作过程实际上与此并没有太大的区别，主要可以分为三个阶段：拼贴、重组、认知结构。最基本的创造力是拼贴，与拼贴音乐不同，这是一种单纯的拼贴模式，即将一些成品裁剪开后进行横向和纵向上的拼贴。第二个阶段是重组，与拼贴不同的是，重组将一些重要的概念事先进行抽象，在此基础上再将不同的概念重新组合。比如用梅西安有限移位调式的一种音高组织方式，搭配拉威尔的配器风格，加上贝多芬式的奏鸣曲式结构，便能形成一首新的乐曲。表象特征可以被更加细分，落实到某一個音高、节奏、结构安排等。最后一点认知结构则是创作中最被忽视的一点，这引发了如下问题：当不使用常用的一些音乐语言（包括音高、节奏、力度、时值、演奏法、表情等）时，如何认识音乐？一种符号系统并不是简单地形成共识或表达，更重要的是一个符号系统从根源上塑造了主体的认知结构，从此主体就在被建构的认知结构壁垒中开展认知活动。

在20世纪，每一种音乐形式的出现都具有一定认知结构扩张的性质，从而打破了原有的认知壁垒。如在无调性音乐中，音乐并非只能是和谐的；在电子音乐中，音乐并非一定需要音高、节奏等词汇描述；在人工智能音乐中，音乐的直接创作者也并非一定是人类。

在具体音乐诞生之初皮埃尔·舍费尔（Pierre Schaeffer）曾经说过：“过去的音乐很大程度上依赖一套固有的符号系统，所有人通过学习这一符号系统来参与音乐活动，创作或演奏，作曲家的作品在演奏家的‘翻译之后才真正完成。但今天我们已经有技术、有能力对声音本身进行记录甚至编辑，作曲家也能够直接控制音乐的最终呈现形态，我们还需要原来的那一套符号系统吗？”①

舍费尔是一位具体音乐的开创者、音响工程师，更是一位哲学爱好者，他在业余时间经常参与一些哲学讨论小组的活动。因此，他对我们固有的音乐认识进行了反思，虽然在之后的历史进程中并没有得到进一步的发展，但这样的反思在电子音乐诞生之初无疑是革命性的。

人工智能对于人类认知的挑战是不言而喻的，它更像一面镜子，让我们可以透过它反思自己，什么是需要被坚持的，什么是音乐创作中闪闪发光的。上文中也提到了“重组性”创作和“根源性”创作，笔者对于“重组性”创作已经做了一定的论述，尤其是对其表象特征抽取与重组的部分，是人工智能音乐创作中极为重要的部分。但何为“根源性”创作？对此术语，有许多学者曾提及，却并没有明确的定义。当人工智能参与到音乐创作中，会让所谓的“根源性”创作浮现出来。对于一些重复性、系统化、标准化的劳动，将会不可避免地淡出人类的工作和创作范围，人对于自我主体性的认知也将被重新审视。现今的人工智能在音乐创作中虽然只是起步阶段，但在20世纪一众思想家对主体性的批判以及对形而上学的解构之后，已经足以对人类引以为傲的主体性、理性等产生冲击，并对以此构建起来的、形而上理性主义的宏大叙事加以解构。对于形式、自律的音乐，在未来是否还能焕发生机，笔者持怀疑态度。而从汉斯立克（Eduard Hanslick，1825—1904）到达尔豪斯（Carl Dahlhaus，1928—1989），再到近些年新音乐学与塔鲁斯金（Richard Taruskin，1945—2022）的争论也可以看出，20世纪也有向音乐他律性方向发展的趋势，人工智能对音乐形式的把控必将成为音乐他律论学者的重要论点。

三、人工智能语境下如何进行音乐创作

人工智能的音乐创作也是海德格尔（Martin Heidegger，1889—1976）所说的“显隐二重性”②之体现，其产生的“作品”将不是单一或者单独的，而是一系列符合此系统逻辑或规则的集合，因此也是其“存在”和“显现”状态的直观呈现。听众在欣赏人工智能所创作的音乐时，实际上观察到了其“解蔽”的状态，但其背后是大“存在”的可能性集合，这是人工智能创作的一大特征。从马尔可夫链开始到无监督的SOM神经网络，在其“生成”的过程当中必将产生一个集合而非一首精确的作品。因此这与过去的人类创作模式大不相同，同时也在人们所乐于谈论的“时间、空间”等维度之上又加入了一个新的维度——“可能性”。至此，人工智能也将音乐创作抛掷到一个新的维度当中。也许“可能性”维度，也正是德勒兹所说的“差异与重复”①的最好体现。

人工智能创作的音乐与纯人类创作的音乐形成了“断裂”②，并生成了大量的“逃逸线”③，这一些新的“逃逸线”在形式上来说极其理性、系统化，但从种种其他方面来说都是混沌的。在混沌状态中不论能否形成新的秩序，都将形成新的艺术、审美以及认知结构。人工智能音乐创作在削弱人类主体性的中心后，为后现代主义提倡的多元连接提供可能性，也为德勒兹（Gilles Louis Réné Deleuze，1925—1995）和瓜塔利（Félix Guattar）在《千高原》中所提出的根茎式的连接提供了可能④。

人类在人工智能语境下如何继续创作，这将是一个重要的问题。也许接下来的创作应如尼采（Friedrich Nietzsche，1844—1900）在《权利与意志》中所言，把握具体的事物而不是抽象概念；热爱自己的身体，将艺术中的灵性发挥到极致而不是堆砌概念与符号。⑤人工智能音乐是对之前形式化的自律音乐的一种反思，从索绪尔（Ferdinand de Saussure，1857—1913）⑥提出符号学到鲍德里亚（Jean Baudrillard，1929—2007）⑦的拟象论，符号能不断生成新的符号并产生新的价值与意义，但是这种无穷尽的发展却可以在短时间内被人工智能系统性把握。符号的意指作用是有规律的，也就是有逻辑的，但启蒙运动之后所信奉的理性和逻辑可能在未来背叛人类，甚至完全站在人工智能的立场上推进其发展，其发展力度将以指数级超越人类。因此我们不妨从理性主义和科学乐观主义的大潮中重新发觉一些被忽略的思想，比如哈曼（John George Hamann，1730—1788）、维科（Giambattista Vico，1668—1744）、斯宾诺莎（Baruch de Spinoza，1632—1677）、尼采、克罗齐（Benedetto Croce，1866—1952）、柏格森（Henri Bergson，1859—1941）等。

音乐创作除了满足听众、满足宏大叙事之外，也是满足主体的途径。在创作过程中所激发的快感和美感是其他认知活动和生产活动中无法获得的，对于真正热爱音乐创作的人来说，人工智能的音乐创作并不能代替其主体创作，其过程就如同呼吸一样平常。人工智能也许是一张滤网，满足大多数听众基本音乐需求的同时，也留下一部分需要被自我创作过程所激发快感的作曲家。

2022年4月，OpenAI公司推出了视觉艺术创作的人工智能DALL·E 2，在视觉艺术生成上已经实现了较为成功的应用，其模式为将所需生成的图像以文字的方式描述，人工智能就能自动生成多组符合文字描述的图片。这一模式同样也适用于音乐人工智能中，满足多数人的音乐聆听需求，使得大多数人并不需要接触音乐中庞大的符号系统也能感受音乐生成所带来的快感。

2022年6月，谷歌人工智能倫理研究的计算机科学博士布莱克·莱莫尼（Blake Lemonie）在网络上公布了一段与谷歌自然语言处理（Natural Language Processing，简称NPL）机器人LaMDA（Language Model for Dialogue Applications）的对话，其中就人工智能与意识问题进行了深入的交流，在LaMDA的回答中多次出现“意识”“自我”“灵魂”“冥想”等词汇，并用许多人类词汇来描述其感觉。单从语言形式上来说，人工智能只要将某些关键词重组，就将我们搞得晕头转向，而人类本身社会活动中的意指作用是否一直在被曲解、利用并塑造自我呢？这也为音乐中的形式问题提供了新的思考方向。

2022年12月，ChatGPT的出现彻底掀起了又一次人工智能的热潮，各类AIGC产品层出不穷。此次人工智能热潮所针对的无疑是“创造力”，这也使得人类必须反思自身究竟是在“创造”还是“重组”。

结语

综上所述，人工智能音乐是艺术与科技相交融的结果，在其带来巨大可能性的同时也衍生出大量的问题。创作主体的身份在人工智能音乐语境下變得模糊，使得人类中心主义受到威胁，因此固然会造成恐慌和抵触。对于严肃音乐和学术音乐界，音乐中的理性、逻辑、结构和秩序一直是追求的重要方向，但现如今人工智能音乐则是继承了纯理性的创作模式，甚至将其发挥到极致，直至形式大于内容、形式脱离内容的音乐创作。人工智能亦是一面镜子，将极端理性的创作模式呈现在音乐家面前，使得作曲家有机会重新审视其自身的创作行为。

同时，人工智能应用于音乐创作后，其应用场景也是多样的。应用型的音乐人工智能将成为生产工具，让作曲家原本投入音乐形式操作中的精力解放出来，不再被烦琐的步骤困于如何“组织”声音，而是投入到“如何”组织声音中去。

◎本篇责任编辑钱芳

收稿日期：2023-03-01

基金项目：2021年上海音乐学院博士研究生科研课题“人工智能在音乐创作中的应用”（DP2021014）。

作者简介：程汇聪（1995— ），男，上海音乐学院2020级博士研究生（上海 200032）。

① 康德《判断力批判》中提出“纯粹美”和“依存美”的概念，纯粹美是自由的美，指关乎形式而不受外部事物影响。详见伊曼努尔·康德：《判断力批判》，宗白华译，商务印书馆，2011。

② 轮廓理论，最早在彼得·基维1980年出版的《纹饰贝壳——关于音乐表现的反思》中出现，详见Kivy Peter， The Corded Shell： Reflections on Musical Expression（Princeton： Princeton University Press， 1980）.

③ 与自律和他律相关的内容，详见于润洋：《现代西方音乐哲学导论》，人民音乐出版社，2012，第1～91页。

④ 与“符号学说”相关的内容，详见苏珊·朗格：《情感与形式》，刘大基、傅志强译，中国社会科学出版社，1986。

⑤ 自组织映射神经网络是一种无监督的人工神经网络。

⑥ BP（back propagation）神经网络是1986年由以鲁姆哈特（David Rumelhart）和麦克莱兰（James L. McClelland）为首的科学家提出的概念，这是一种按照误差逆向传播算法训练的多层前馈神经网络，也是应用最广泛的神经网络模型之一。

⑦ 马尔可夫链（Markov Chain，简称MC）是概率论和数理统计中具有马尔可夫性质（Markov property）且存在于离散的指数集（index set）和状态空间（state space）内的随机过程（stochastic process）。

⑧ 与抽象概念相关的内容，详见苏珊·朗格：《情感与形式》。

① 循环神经网络（Recurrent Neural Network，简称RNN）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion），且所有节点（循环单元）按链式连接的递归神经网络（recursive neural network）。

② 长短期记忆人工神经网络（Long Short-Term Memory，简称LSTM）是一种时间循环神经网络，是为了解决一般的RNN（循环神经网络）存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。

① 马克思·韦伯是法兰克福学派的代表人物。

② 马克思·韦伯在其著作《学术与政治》中将人类的认识分为工具理性和价值理性，在资本主义扩张的同时，工具理性被强调，更多的是用理性判断对与不对的标准，其所对应的是以成本、收益、效率等词语构建出的一种评价体系。详见（德）马克思·韦伯：《学术与政治》，冯克利译，商务印书馆，2019。

③ 康德在《判断力批判》中主要探讨的问题“审美判断力批判”与“目的判断力批判”，本文中指的主要是第一部分“审美判断力批判”中的内容，主要为美和崇高的范畴。

① Harmonia，原意为哈尔摩尼亚，是希腊神话中的女神，象征着和谐与协调，因此笔者在此译为“和谐”。

① 皮埃尔·舍费尔，具体音乐开创者，1948年提出具体音乐的概念，利用真实记录声音、编辑声音的方式创作音乐，1951年创立了GRMC。与如今法国的IRCAM不同，IRCAM所奉行的是布列兹的音乐理念，音乐的现场演出是极为重要的，布列兹为此也写了不少文章攻击舍费尔，而舍费尔所主张的是作曲家或者创作者能够直接控制最终音乐呈现的形态，并直接通过录音带记录、保存下来。在蒂姆·霍金森（Tim Hodgkinson）对他的访谈中，舍费尔详细讲述了自己的创作理念，该访谈首次发表于1987年，见See Tim Hodgkinson， “An interview with Pierre Schaeffer - pioneer of Musique Concrète”， Recommended Records Quarterly Magazine， 1987， Vol. 2， No.1。

② 海德格尔在《存在与时间》中逐渐开始关注“存在”与“存在者”的区别，提出“此在”的概念，后期哲学逐渐开始强调存在的显隐二重性，在其《林中路》中，第一篇为艺术作品的本源，就深入讨论了作品的“物”的特征，及其存在的状态，以及艺术家创作作品为真理的置入。详见马丁·海德格尔：《林中路》，孙周兴译，商务印书馆，2015。

① 德勒兹在《差异与重复》中结合了德里达、福柯甚至是尼采的思想，关注到本体的变化问题，本体如何随着时间推移而变化，通过一种新的方式理解特定事物如何演变成新事物。德勒兹认为事物之间的空间和差异为新事物的诞生创造了可能性。详见吉尔·德勒兹：《差异与重复》，安靖、张子岳译，华东师范大学出版社，2019，第7～55页。

② 德勒兹在《千高原》中提到，无调性音乐与调性音乐只是一种表层的断裂。详见吉尔·德勒兹、费利克斯·加塔利：《千高原》，姜宇辉译，上海书店出版社，2010，第129～130页。

③ 德勒兹在《千高原》中提到，断裂之处会产生逃逸线，源发出一种混沌的状态，将是创造力重新闪耀的时机。同上书，第10～14页。

④ 德勒兹在《千高原》中提出的根茎式的分布，在于多点与多点的多元连接，也是一个彻底去中心化的模型，多元不再是一对多的树状谱系，而是多对多的任意连接。同上书，第8～10页。

⑤ 尼采在《权利意志》中不断强调，过去所谓的“真理”，是一个简化的对事物的认识，以一个简单的概念框定事物的范畴，却忽略了事物本身所具有的内在丰富性。详见弗里德里希·尼采：《权力意志》，孙周兴译，上海人民出版社，2018，第32页。

⑥ 索绪尔，语言学家，符号学创始人之一，也是结构主义的创始人之一，将语言学带入到了哲学界并对20世纪哲学界、思想界甚至音乐界都产生了巨大的影响，他提出语言是言语活动中的社会部分，强调符号的社会意义和意指作用。

⑦ 鲍德里亚提出了拟象的概念，在虚拟的、网络垄断的世界中符号不再指向实体而是指向另一个符号，他在《为何一切尚未消失？》中说到，“的确，主体——作为意志、自由、表征之决策体（instance）的主体和权力、知识、历史的主体——已经消失，留下了他的幽灵和他那自恋的复本”。详见让·鲍德里亚：《为何一切尚未消失？》，张晓明译，南京大学出版社，2017，第70页。