音乐人工智能的哲学审思

2023-12-21 11:06黄宗权

中央音乐学院学报 2023年3期

黄宗权

“人工智能”(Artificial Intelligence，AI)这一概念诞生于1956年在美国达特茅斯召开的“人工智能夏季研讨会”(Summer Research Project on Artificial Intelligence)。不过，当时的参会者并没有就该术语的界定达成共识，与会者更多是关注如何用机器来模拟人的智能。现在学界普遍认可的界定是科学家帕特里克·温斯顿(Patrick Winston)的抽象定义：“人工智能是对计算的研究，以实现感知、推理和行动。”(1)Patrick Henry Winston，Artificial Intelligence，Boston：Addison-Wesley Publishing Company，1992，p.5.

在音乐人工智能领域，被誉为人工智能之父的麻省理工学院教授马文·明斯基(Marvin Minsky，1927-2016)(他也是达特茅斯会议的发起者之一)，早年写过一本重要著作《音乐·意识·意义》(Music，Mind，andMeaning)，在书中探讨了“我们为什么会喜欢音乐，以及这种‘喜欢’自身的本质是什么？”(2)Marvin Minsky，“Music，Mind，and Meaning”，Computer Music Journal，vol.5，No.3，1981，pp.28-44.等问题。

随着计算机的算力以及数据量的指数级增长，人工智能在音乐领域取得了重大进展，它正迅速成为音乐创作、音乐分析、音乐推荐、音乐信息检索的重要工具，并以惊人的速度改变我们的创作和欣赏音乐的方式。在音乐表演领域，一些“自动”演奏的系统被不断开发出来，另一些研究开始利用人工智能的机器学习来进行音乐和舞蹈的交互式表演。(3)Baptiste Caramiaux，Marco Donnarumma，Artificial Intelligence in Music and Performance：A Subjective Art-Research Inquiry，arXiv 15843，2007.

人工智能技术的潜力及在音乐领域一日千里的快速发展，让人们开始思考：音乐人工智能有真正的音乐智慧、音乐理解力、音乐创作力和音乐表演能力吗？它们是否会有美感经验、情感理解和审美表达？人的音乐实践有哪些是可以被人工智能取代，哪些不能被取代？这些问题显然不仅是科学或技术问题，更是哲学和美学问题。人工智能对人类感性经验领域的“挑战”，切中了人类主体性的核心要旨，对这些问题进行探究，就必须从哲学、美学的维度对音乐创作和表演行为中的意识、主体性、情感、审美认知等问题进行审思。

一、当前音乐人工智能的主要技术路线和发展现状

音乐人工智能的发展建基在人工智能技术的整体发展之上。人工智能技术的发展，从20世纪50年代起，大致经历了三个阶段：第一个阶段为推理期(Logic Reasoning，1956-1960)，其实质是定理自动证明系统，功能以做数学运算和推理、证明数学公式为主，如西蒙(Herbert A.Simon)和纽厄尔(A.Newell)等人创建的“逻辑理论家”系统(Logic Theorist)。到了20世纪80年代末，以数理逻辑为基础的人工智能走到了尽头。第二阶段为知识期(Knowledge Egineering，1970-1980)，这一阶段的主要研究方向是把人类掌握的知识总结起来以编码的方式“教会”机器，即所谓的“专家系统”，如菲根鲍姆(Feigenbaum)等人创建的DENDRAL系统。在这个阶段，研究人员最终发现，把知识总结出来，教给机器其实非常困难。这不仅是因为人类的知识不太容易被总结和编码，更因为人类有大量的“默会知识”(Tacit Knowledge，也译为“隐性知识”)无法被总结和编码。第三阶段为学习期(20世纪90年代至今)，这一时期研究的出发点是让计算机系统“自我”学习。显然，由于音乐艺术的特殊性和复杂性，在前两个阶段，音乐人工智能是无法取得实质性突破的。

在第三个阶段学习期，机器学习(Machine Learning，ML)或深度学习(Deep Learning，DL)成为了人工智能发展的主流。所谓的“机器学习”，就是“通过算法，使得机器能从大量既有数据中学习规律，从而对新的样本做智能识别或对未来做出预测”(4)余凯等：《深度学习的昨天、今天和明天》，《计算机研究与发展》，2013年，第9期，第1799—1804页。。“深度学习”是一种基于人工神经网络的机器学习技术，人工神经网络仿照生物神经系统工作原理的计算模型，通过多个人工神经元之间的连接和信息传递，模拟人类大脑的感知、思维和决策等过程。(5)孙志军、薛磊等：《深度学习研究综述》，《计算机应用研究》，2012年，第29(08)卷，第2806—2810页。深度学习属于机器学习的一个分支，二者的主要区别在于数据的分析方法。前者依赖算法和大量的数据，后者则是以人脑为模型的人工神经网络。

基于不同的技术路线，机器学习大致可以分为五大“流派”：符号主义(Symbolists)、联结主义(Connectionist)、贝叶斯派(Bayesians)、进化主义(Evolutionaries)、行为类比主义(Analogizer)，这些流派采用不同的算法来模仿人类思维、人体“硬件”(神经系统)和人类行为，使机器从数据中自动学习，做出预测和决策。

机器学习的兴起使得广义上的声音创造面临一场革命。机器学习和深度学习为音乐人工智能带来了各种新技术。这些新技术被应用于从作曲、表演到音乐研究等不同的场景中。

现有人工智能不论采用何种技术模式，让机器学习的过程实质都可以分为三步：训练、预测和反馈。“训练”是向人工智能输入大量的数据(训练集)，并给出希望它做什么的指示，以使人工智能从大量的数据中提炼出特定的模式。“预测”是人工智能根据不同的模式，在不同的场景下，预测可能会发生何种状况，以及如何采取应对措施，以产生一定的结果。“反馈”是对人工智能产生的结果提供评价，让人工智能不断修正、提升，然后进入下一个新的循环。相对应的音乐创作过程也大致分为三个步骤：(1)分析音乐(把大量的既有作品作为数据加以分析，分解成“模式-部件”)。(2)把分解的“模式-部件”进行相似性的计算、归类。(3)根据设定的算法，把“模式-部件”重组，以生成新的音乐作品。

在人工智能技术的基础上，在音乐创作领域产生了各类算法作曲(Algorithmic Composition)，也即，采用计算机算法来生成音乐的技术。其主要的技术类型有：(1)音乐规则系统(Rule-Based Systems)，根据预先定义的音乐理论规则(如，根据已有作品的和声规则、旋律规则和节奏规则)等来生成新的音乐作品。(2)人工神经网络(Artificial Neural Networks，ANN)，使用人工搭建神经网络模型来学习音乐数据的特征，并根据学到的特征生成新的音乐。常见的神经网络类型包括循环神经网络(RNN)、长短时记忆网络(LSTM)和变分自编码器(VAE)等。(3)遗传算法(Genetic Algorithms，GA)，模拟自然界中的进化过程，通过对音乐片段进行变异、交叉和选择等操作，以生成新的音乐作品。(4)马尔可夫链(Markov Chains)，基于概率模型，通过分析音乐数据中的状态转移概率来生成新的音乐序列。(5)交互式作曲(Interactive Composition)，将人类音乐家的创作过程与计算机算法相结合，实现人机协作的音乐创作方式。此外，还有随机生成(Random Generation)等算法，不再一一赘述。

不同的算法和音乐结合开辟了音乐人工智能的新型应用。音乐人工智能可以分析特定的音乐流派、节奏、模式和旋律，并利用这些信息创作新的音乐作品。比如，音乐形式语法使分析和编写音乐过程的规则形式化，它能通过研究巴赫作品的和声规则，进而辅助创作新的作品。(6)Salim Perchy，Gerardo Sarria，“Musical Composition with Stochastic Context-Free Grammar”，in Proceedings of 8th Mexican International Conference on Artificial Intelligence (MICAI)，November，2009，pp.1-12.音乐人工智能还能模拟民间传统音乐的创作。比如，希普拉·舒克拉(Shipra Shukla)、海德尔·班卡(Haider Banka)基于马尔可夫的遗传算法，探索模拟印度古典音乐的创作。(7)Shipra Shukla，Haider Banka，“Markov-Based Genetic Algorithm with ∈-Greedy Exploration for Indian Classical Music Composition”，Expert Systems with Applications，vol.211，No.118561，2023.

一些音乐家与工程师合作采用组合系统，语法，概率和分形(Fractals)来创作一些不再是模仿经典名作的新音乐作品。比如，遵循进化算法(Evolutionary Algorithm)程序来使音乐各种要素(旋律、节奏、和声等)“进化”。通过各种要素的交叉、组合、突变等一系列操作来让音乐“进化”成特定的作品。法籍作曲泽纳基斯(Iannis Xenakis)的几部代表作(Metaux，Anaktoria和Terretektorh)等就是根据数学模型来创作的。

此外，研究者们还采用概率语法(Probabilistic Grammars)来分析音乐作品的模型化结构(8)S.Abdallah，N.Gold，A.Marsden，“Analysing Symbolic Music with Probabilistic Grammar”，in D.Meredith(eds)Computational Music Analysis，Springer：Basel，2016，pp.157-189；Donya Quick，“Learning Production Probabilities for Musical Grammars”，Journal of New Music Research，45(4)，2016，pp.295-313.、基于马尔可夫链通过在线的“语法归纳生成器”(Grammatical Induction Generator)来即兴创作音乐等(9)K.M.Kitani，H.Koike，“Improve Generator：Online Grammatical Induction for on-the-Fly Improvisation Accompaniment”，in Proceedings of 10th Conference on New Interfaces for Musical Expression (NIME)，Sydney，Australia，15-18 June 2010，pp.469-472.。

这些通过算法作曲产生的音乐作品的艺术品质如何？2023年，一项基于评估比较的研究得出的结论认为：“任何算法方法与人类创作的音乐之间仍然存在显著差距。”(10)Z.Yin，F.Reuben，S.Stepney，et al，“Deep Learning’s Shallow Gains：A Comparative Evaluation of Algorithms for Automatic Music Generation”，Machine Learning，2023，pp.1785-1822.不过，突飞猛进的音乐人工智能所显示出的令人震惊的音乐“创作”能力，还是让人们禁不住思考，音乐人工智能是否可以创作出“全新”的音乐作品来？这里所谓的“全新”，指的是计算系统不是采用某种一开始就嵌入的特定作曲模型，也不是在选定的几个作品中进行分析、重组基础上生成新的音乐作品，而是像人类一样“无中生有”，创作出与既有作品没有关联的独立的音乐作品。人们开始思考，音乐人工智能是否可以不依赖“人工”，而独立具有“智能”，从而创造新的风格或音乐样式？能否通过音乐表达特定的情感？

之所以围绕这些问题会产生一些争论，是因为：一方面，人工智能表现出了令人惊诧的“音乐才能”；而另一方面，现有人工智能在音乐实践中的局限又是显而易见的。这种局限表现在其所有训练集的来源均来自既有的数字化信息(音乐数据)，而与真实的人类生活世界没有直接交集。它依赖于特定的算法或数理逻辑。人们可以理解现有音乐人工智能的不足，将其视为新事物的初始发展阶段，但音乐人工智能在将来是否能突破临界点而具有独立创作的能力？音乐人工智能可以取代艺术家吗？这些问题并不容易给出简单的答案。

笔者认为，基于音乐在创作、表演方面的特殊性，在现有技术条件下，音乐人工智能要实现独立创作或取代艺术家，所面临的挑战是巨大的。从哲学(美学)的角度看，音乐人工智能至少要面临下文所论述的几方面的问题。这并不是说，人工智能只要解决了这些问题，就能实现对人类的取代，而是说，这些问题如果无法得到根本性的突破，音乐人工智能将有极大可能在经过一个阶段的快速发展之后，陷入平台期。

二、数理逻辑和思维过程的差异以及“艺术世界”的“非对应性”问题

麦卡锡(J.McCarthy)是当年达特茅斯人工智能“会议宣言”的主笔，这位著名的人工智能先驱，在会议倡议书的开篇，写下了一句著名的论断：“本研究基于这样一种推测，即，学习的每一个方面或智能的任何其他特征，原则上都可以如此精确地被描述，以至于可以制造一台机器来模拟它。”(11)Minsky Marvin，Rochester Nathaniel，Claude E.Shannon and McCarthy John，“A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence，August 31，1955”，AI Magazine，27(4)，2006，p.12.当时与会的人工智能的先行者们都乐观地认为，人脑的思维是有可能在人脑以外产生的。在他们看来，只要揭开大脑神经网络背后的秘密，人类就可以构建出一个类似于人脑的电子大脑。

然而，现在看来，麦卡锡们当年的假设更像一个美好的愿望。迄今为止，人的智能活动尚未被“精确地描述出来”也未能实现“以一部机器来模拟它”。其困难在于，人类的智能活动还有许多谜题未被解开。在哲学上，人类的思维过程至今存在许多“难以理解的事情”。比如，“意识难题”(The Hard Problem of Consciousness)，也即，我们很难搞清楚人类意识究竟是什么，它是怎么产生的，又是如何起作用的。因此，也就难以把它清楚地描述出来，并让机器模拟这一过程。

如前文所提及的，在人类的思维过程和日常经验中，存在大量的“默会知识”。这个概念由匈牙利哲学家迈克尔·波拉尼(Michael Polanyi)首先提出，所以也被后世称为“波拉尼悖论”(Polanyi’s Paradox)(12)M.Polanyi，“Tacit Knowing：Its Bearing on Some Problems of Philosophy”，Reviews of Modern Physics，34 (4)，1962，pp.601-616.。其表达的核心命题是：人类所知远胜于其所能言传。这一理念深刻地指出了有很多知识是我们无法借用语言等符号表意系统来阐释清楚的，也自然无法传授给人工智能。

具体说来，默会知识通常是指体现在人类的行为、经验和直觉中，难以用语言或符号表达的知识或技能。它与潜意识和非语言的感知、理解密切相关。它在人的文化和社交环境中发挥着关键作用。波拉尼还认为，默会知识是人类理解世界的基础，是大多数经验(例如技能、直觉、经验和经常性的常识(13)同注②。)的本质，“技术规则可以是有用的，但它们并不能决定艺术实践；它们只是可以作为艺术实践中的一种指导原则，前提是它们能够被融合到艺术实践的实际知识中。它们无法取代这种知识”(14)M.Polanyi，Personal knowledge：Towards a Post-Critical Philosophy，Chicago：University of Chicago Press，1958，p.52.。

从现有技术条件来看，人工智能(机器)建立的机械化和自动化过程，是一种将知识显性化、符号化的过程。以外显符号表征的方式使之成为人工智能可识别的数据结构。比如，要让一台机器完成图像识别的任务，必须将图像扫描、认读、对照、识别等过程的每个步骤都设定清楚，才能编写程序让机器来执行。可以说，使知识显性化(可表述化)是机器计算的重要前提。然而，音乐的创作和表演却是一种典型的内隐(implicit)知识(技能)，它极其难以被显性化，也因此难以真正地传授给人工智能。

而且音乐的一个重要特点是，它不具有统一普遍的“规范”。音乐的边界往往取决于文化传统中的“习俗惯例”或“惯例实践”(Customary Practice)。音乐艺术总是会呈现出某一种特定的文化结构要素，体现出某种文化传统和文化实践的特征。也即，音乐是一个具有广阔外延的能指，它囊括了不同文化语境下的音乐形态，而不可能只有一种单一的特征。

包括音乐在内的艺术领域存在的这种一个能指对应多个所指的现象，不仅存在于不同的文化传统当中，也存在于不同时代的艺术作品中。哲学家丹托所说的“艺术界”(Art World)就试图解释艺术外延的边界问题：“把某件物品看作是艺术作品，需要某种眼睛无法看到的东西——一种艺术理论的氛围，一种艺术史知识：这就是艺术界。”(15)Arthur C.Danto，“Art World”，in Carolyn Korsmeyer ed.，Aesthetics：The Big Questions，Cambridge：Wiley-Blackwell，1998，p.40.也就是说，在现实生活中，一个“物件”是否成为“艺术作品”，在一定程度上不是取决于这个物件本身，而是取决于以什么样的眼光来看待它，或人们赋予了它什么样的意味。

哲学家波普尔也指出，艺术属于“世界3”的范畴。即，艺术属于知识和信息世界，具有非客观世界的一些属性(比如价值观、信仰等)，它区别于物理世界(客观世界)、精神世界(主观世界)，艺术是人类对客观世界和主观世界的理解和解释。“世界3”属于“人类心灵产物的世界。例如语言、传说、故事与宗教神话；科学猜想或理论以及数学建构；歌曲和交响曲；绘画和雕塑。……我们可以区分科学世界和虚构世界、音乐世界和美术世界以及工程的世界，……人类心灵产物的世界”(16)〔英〕卡尔·波普尔：《通过知识获得解放》，范景中、李本正译，杭州：中国美术学院出版社，1996 年，第 365—366页。。“世界3”是人类创造的而非虚构之物，它们具有实在性、自主性。波普尔的这一理念，是强调“从关注艺术作品的审美相关属性，转而去关注艺术作品的社会语境；没有这一社会语境，艺术作品就不可能拥有和呈现出那些与审美相关的属性”(17)〔新西兰〕史蒂芬·戴维斯：《艺术诸定义》，韩振华、赵娟译，南京：南京大学出版社，2014年，第161页。。

这些哲学思考实质是厘清艺术品的重要特质，即，在人类社会生活中，包括音乐在内的艺术不仅是一个物理意义上的“物件”，而是具有特定的精神意味和意义指向。比如，一首音乐作品，绝不只是一些声音的组合，而是蕴含了人的情感诉求和价值追求。这些音响之外的“意义”属于难以被显性化的默会知识。

然而，与人类在社会生活中逐步积累的知识经验不同，人工智能的很多“知识”是从数据获取的。人工智能既无法理解默会知识，也不是发自“内心”感受(或意识)到这些默会知识。人工智能并没有内在的情感模型和价值体系，也没有社会属性。由此，艺术品具有的“世界3”的特性，在人工智能这里就消失了。从现状来看，人工智能的数理逻辑无法完成如同人类的那样的思维过程(诸如意识等)，人工智能对音乐艺术的“理解”，也无法像人类那样导向独立的精神性。

三、音乐情感的交互表达与感受问题

《乐记》的开篇这样说道：“凡音之起，由人心生也。人心之动，物使之然也。感于物而动，故形于声。声相应，故生变，变成方，谓之音。”(18)蔡仲德：《中国音乐美学史资料译注(上)》，北京：人民音乐出版社，1990年，第225页。中国的古人很早就意识到，音乐是情感的艺术，情感是音乐的第一源动力。在西方文化中，艺术家的艺术创作很大程度上是为了表达自我情感和对外在世界产生的情感。如巴迪欧(Alain Badiou)在《当代艺术十五论》(FifteenThesesonContemporaryArt)之三所说的：“艺术是真理的过程，这个真理总是感性或感官的真理。”(19)Alain Badiou，“Fifteen Theses on Contemporary”，Art Performance Research，9(4)，2004，p.86.这里的“感性”指的是对现实的形式美的感知和理解，其重要部分是人与世界之间的情感联系。

由于情感的重要性和独特性，情感识别与表达也成为人工智能领域的重要问题。由此产生了“情感计算”(Affective Computing)这一新兴领域。其主要的研究路径是开发可靠的算法，采用多模态(Multi-Modal)的识别方式，即，采用视频、音频、图像、语音、生理信号等多种数据，来进行面部表情识别、语音识别、心率监测等等，试图解决人工智能识别、解释和表达情感的问题，并在此基础上让人工智能理解人类的行为和心理状态。

情感计算的产生和这样一种理论观点有关，即，认为人类的情感可以被认为是由主观体验(Subjective Experience)(20)L.Leahu，S.Schwenk，P.Sengers，“Subjective Objectivity：Negotiating Emotional Meaning”，in Johann，G.Marsden ed.，Designing Interactive Systems，New York：ACM Press，2008，pp.425-434.、外部表现(Emotion)(21)H.Binali，V.Potdar，“Emotion Detection State of the Art”，in V.Potdar ed.，Proc.of the Cube Int’l Information Technology Conf，New York：ACM Press，2012，pp.501-507.、以及生理唤醒(Physical Arousal)(22)L.Ashbarry，B.Geelan，K.D.Salas，L.Lewis，“Blood and Violence：Exploring the Impact of Gore in Violent Video Games”，in Proc.of the Symp.on Computer-Human Interaction in Play，New York：ACM Press，2016，pp.44-52.三个核心要素组成的，分别对应三个方面：(1)个体对不同情感状态的自我感受；(2)表情状态，即面部表情、姿态表情、语调表情、音乐表情(音调、节奏、速度等)的变化；(3)情感产生的生理反应，是一种生理的激活水平，具有不同的反应模式。

情感的识别和表达对于信息的交流和理解是必不可少的，这也是人类最大的心理需求之一。人类的认知、行为均受到情感的驱动，并影响着人际互动以及群体活动。人工智能最早的先行者们，也意识到了人工智能研究必须进行情感问题的探求。马文·明斯基始终认为情感是机器实现智能不可或缺的能力。在《心智会社》(TheSocietyofMind)中提出智能机器的情感问题之后，(23)M.Minsky，The Society of Mind，New York：Simon &Schuster，1986.他在《音乐·意识·意义》一书里，也探究了音乐的情感认知问题，思考了规则性韵律和主题重复是如何影响情感表征框架(Representation Frames)和记忆结构的，乐句及音乐表达又是如何唤起情感反应的。(24)M.Minsky，“Music，Mind，and Meaning” (1981)，Reprinted in S.M.Schwanauer and D.A.Levitt ed.，Machine Models of Music，Massachusetts：The MIT Press，1993，pp.327-354.

与其他艺术形式不同，音乐的情感在创作和欣赏中占据着重要地位，音乐也是所有艺术中，最善于传达情感的。音乐作品传递的并不是简单的声音信息，而是包括了音乐家凝结在其中的情感。在音乐的表演实践中，音乐则承载着表演者的情感经验。如果人工智能无法具有情感、无法表达情感，那就无法像人类那样创作真正的足以表达内在情感的音乐作品。如果一个智能体没有主观的价值、没有主观的情感感知，它就只能停留在表面的声音处理，也就不可能达到与观者(听众)产生深层的情感共鸣，也就无法通过音乐表演行为对音乐作品赋予可理解的意义。

那么，是否可以通过算法的改进、算力的提升和海量的数据来解决情感计算的问题，以使音乐人工智能可以识别、表达情感呢？从理论上来说并非不可能。其难点在于情感表现出来的可感特征与情感的真实状态之间具有模糊性和不确定性。

从主观方面看，情感属于主观意识的范畴。情感的表现形式具有高度的主观随意性、变化的随机性、特征模糊性以及个体差异性，所以很难确定某种表情或声音状态与特定的情感状态具有一成不变的对应关系。某人表现出泣不成声的情感状态，有可能是痛哭流涕，也有可能是喜极而泣，还有可能是悲欣交集。

从客观方面看，在音乐的音响中，情感和音乐的声响之间并非简单绝对的一一对应关系。即，很难说某一(类)特定的音符(或音符组合)与复杂的、微妙的、不可言传的情绪(情感)之间具有确定的、必然的对应关系。因此，也就很难用数学的方法来对情感进行赋值，或建立数据化的模式。也正因为此，人工智能领域对情感计算存在一些争议，有些研究者甚至认为“情感计算”是一个错误的研究方向，因为“它没有揭示情感的本质及内在逻辑程序，并且把情感的外部表现方式当作情感本身”(25)仇德辉：《情感机器人：人工情感的逻辑框图与深度算法》，北京：台海出版社，2018年，第47页。。

在音乐人工智能与情感表达的问题上，阿迪亚沙·达什(Adyasha Dash)等人的最新研究表明，“基于人工智能的情感音乐生成系统”(AI-based Affective Music Generation Systems，AI-AMG)在情感的表达上面临两大挑战：一是，情感“控制”(Control)，它指的是允许创作者生成的音乐具有所需要的情感内容，同时，又能精确地控制音乐特征，让这些音乐展示特定的情感信息。二是，“叙述适应性”(Narrative Adaptability)，它指的是系统能生成连贯的音乐段落，且这些音乐段落可以根据给定的情感要求，准确可靠地传达不同情感之间的过渡，以及处理不同情绪特征之间的相互作用。(26)Adyasha Dash，Kat R.Agres.，AI-Based Affective Music Generation Systems：A Review of Methods，and Challenges，arXiv：2301.06890，2023.

音乐情感的复杂性还在于，“在音乐中感知情感的能力也受文化影响，在跨文化研究中观察到情感感知的异同”(27)M.Susino，S.Schubert，“Cross-Cultural Anger Communication in Music：Towards a Stereotype Theory of Emotion in Music”，Musicae Scientiae，21，2017，pp.60-74.。同时，由于人的情感的变化很大一部分来源于社会交往活动，音乐作品和其他艺术品一样，常常充当了人际交往的媒介物，具有社会情感性。音乐表演其实是演奏者和观者(听众)基于某一文化传统，在共同的价值观、社会规范、文化常识基础上的一种交流。人们“从一段音乐中体验到的情感是结构特征、表演特征、听众特征、语境特征和乐曲外特征的综合效应”(28)Susino Marco，Emery Schubert，“Musical Emotions in the Absence of Music：A Cross-Cultural Investigation of Emotion Communication in Music by Extra-Musical Cues”，PLOS ONE，15(11)，2020，pp.1-21.。

人工智能没有类似人类的人际交往或者社会情感方面的认知。这就使得当前的“情感计算”最多能让人工智能看起来“具有”情绪特征，但这只是让其“表现出有情感”的样子，与真正有意识的由内而外的情绪是两回事。由此，很难说人工智能具有了人类拥有的一般意义上的情感或情绪。人工智能是根据特定的程序和训练来“运算”及处理信息，它没有人类那样的感知、意识，也不体验情感。虽然它可能会生成描述或模拟情绪的文本和音响，但并不意味着它自身具有情绪。

在音乐创作和表演中，个体的情感状态和作品表现出来的情感特征也并不是总是一致的。听起来悲伤的作品，完全可能是在快乐的心境下创作。在音乐创作之外，音乐表演也需要情感，音乐表演的重要目的是使人产生共鸣。每个表演者对音乐表情符号的情感表达方式有不同的理解，如果这种理解是基于某种规则的标准化演奏，则对音乐作品的阐释会导致僵化。如波兰钢琴家和作曲家帕德瑞夫斯基(Ignacy Jan Paderewski，1860-1941)所说的：“当使用espressivo、con molto、sentimento、con passione等词时，都要求(……)一定量的情绪，而情绪排除了规律性……演奏肖邦的G大调夜曲，要有节奏的僵硬和对所指示的运动速度的虔诚尊重，那就是(……)令人难以忍受的单调(……)，肖邦发自内心的演奏。他的演奏不是理性的，而是情绪化的”。(29)E.Coutinho，M.Gimenes，J.M.Martins &E.R.Miranda，“Computational Musicology：An Artificial Life Approach”，2005 Portuguese Conference on Artificial Intelligence，2005，pp.85-93.这种个性化的演奏，显然是人工智能所无法达到的。人工智能对待音乐作品所“表现”的对象或音乐“传达”出的意味，与人类的处理方式是完全不同的。由于数理逻辑的程序化和标准化，人工智能的音乐呈现或许在技术上是精准无误，但是在审美价值方面却极有可能陷入平庸的境况。

四、音乐表现中的“身心感知”与意识问题

传统的认知理论将人的大脑类比于计算机，能处理大量复杂的信息，这些信息由感觉、知觉系统输入，经过一系列加工、处理最终完成认知过程。这种“身心二元论”(Mind-Body Dualism)或者“实体二元论”(Substance Dualism)的主张受到了笛卡尔主义(Cartesianism)的影响。该哲学观点认为，意识和身体是两个不同的实体或物质，由不同的物质或要素组成，它们之间存在着互动关系。但意识是能够独立于身体存在的，身体是意识的物理容器。

而现代的具身认知(Embodied Cognition)理论则认为：“首先，认知取决于具有各种感觉运动能力的身体所产生的经验类型；其次，这些个体的感觉运动能力本身嵌入了更广泛的生物、心理和文化背景中。”(30)F.J.Varela，E.Thompson，&E.Rosch，The Embodied Mind：Cognitive Science and Human Experience，Massachusetts：The MIT Press，1991，pp.172-173.也即，主张“大脑-身体-环境”在认知发生过程中构成一个动态的统一体。其中，身体是认知过程发生的核心；认知是在身体与环境接触所获得经验的基础上形成的；认知取决于个体的具身行为所产生全部经验。认知由身体的感知、意欲、动作和响应过程构成。

具身认知理论不支持身心二元论观点，而是认为，“符号信息加工认知理论和联结主义心理学等将人类的认知过程定义为对符号、信息的加工和操作，忽视了身体、活动与经验在认知中的作用”(31)叶浩生：《西方心理学中的具身认知研究思潮》，《华中师范大学学报(人文社会科学版)》，2011年，第4期，第153—160页。。并认为这种认识忽视了身体的感官系统存在的差异，会导致认知存在偏差。

行为与环境的“耦合”模型与大脑的内部独立“计算”模型，哪一种更接近人的认知真相？身体情况和环境对认知过程是否具有重要影响？不同的哲学立场决定了对此的不同看法。与传统身心二元论的类计算机模型相反，具身认识观强调作为主体的身体在认知能力中的重要性。强调感(知)觉经验、人的身体，以及外部环境共同构成人的认知系统，三者不可分。这种观点进而主张感(知)觉经验和身体的感(知)觉高度相关。具身认知支持者的观点是，身体或身体与环境的互动构成(或促进)了认知。因为，心理过程不是简单计算过程，“知识没有单独存在的实体，而是嵌入、分布在实时的感知、记忆、注意和行动过程中，并与这些心理和行为的过程密不可分”(32)J.Kevin O’Regan，Alva No⊇，“A Sensorimotor Account of Vision and Visual Consciousness”，Behavioral and Brain Sciences，24，2001，pp.939-1031.。

具身认知理论对我们看待音乐表演实践是有启发的，按照这种观点，在音乐表演中，无论是表演者的呈现还是听众的感知，都不是被动地接收声音，身体和环境影响了音乐表演行为和聆听欣赏。音乐表演的本质，实际上是在一个特定的“美学空间”里，演奏者将作曲家创作的“声音蓝图”，转化成听众可感知的声音结构，并清楚地展示给听众。每一次的演绎，都有着独特的声音存在样式，这个样式有着独一无二的结构和奥秘，有经验的听众是可以感受和认知这一奥秘的。而计算机的智能只是机械的智能，它的本质还是按照人的指令进行精密、快速的计算，或者按照某种规则呈现某种声音，它无法真正代替人类观赏同类的表演行为。

与身心认知相关的另一个核心问题是意识。简单地说，所谓“意识”就是体验和感知自身和他者存在的一种状态及其产生的感受，其重要体现是能够区分自我意识(自身的想法)和他我意识(他人的想法)，这是心智理论(Theory of Mind)的重要内容。

意识能够把一切经验之物纳入思考范围，这使无限思想成为可能。另一方面，意识能够对意识本身进行反思，即，把意识自身作为一个思考对象。这是人类和人工智能一个很大的不同。人类并不是只对输入的信息做出固定的、程序化的反应，人类会不断追问诸如“我是谁？”“我的种种主观的想法、念头和感受是怎么来的”这类问题，针对意识的意识就具有了“元意识”(Meta Mind)的性质，这种元意识能够对艺术的创作、演出行为进行反思。创作者和表演者能够清楚地意识到自身的行为将会给他者带来什么，并调整自身的行为。

这种反思能力是形成自我意识的关键，人类不仅能产生符号化的知觉表征，还能对知觉行为本身进行表征。比如，人类的演奏者，不仅能识别出某个乐谱的符号(一阶知觉)；还会说(或者在头脑中默想)：我刚才认出了那个音符，或者我刚才演奏了那个音符(二阶知觉)；可能还会对自己的知觉结果提出疑问：我刚才看的那个音符是某个音，我会不会看错(演奏错了)了？(三阶知觉)。这种三阶知觉能力，能够让人类产生一种非常新颖高级的意识活动，不断地提升、调整音乐实践行为，进而影响听众的观赏体验。

然而，人工智能并不理解其工作的意义(至少现在和可以预见的将来是如此)。无论是创作还是表演，人工智能所做的工作实际上是计算出既有作品的特征。从数学的角度看，它其实是将一些音乐的特征进行赋值，并依据特定的算法，用这些赋值产生另外一个作品，但它本身没有自我意识，也就更谈不上即时的互动和反思了。自我意识的缺位，导致人工智能在音乐的创作和表演行为中，并非像人类一样是发自内心的“自我”驱动，而是执行特定的算法和受到数据的驱动，这一区别显然也导致人类和人工智能创作(或通过表演呈现)的作品，具有本质的不同。

五、艺术经验与音乐的创造性问题

2021年，音乐人工智能界一件备受瞩目的事是德国卡拉扬研究所罗德(M.Roder)组织了上百人的一个AI音乐团队，根据贝多芬残存的音乐手稿和其他线索，完成了人工智能版的《贝多芬第十交响曲》的创作和演出。

该项目的主要研究者有：美国罗格斯大学的艾尔格莫(A.Elgammal)，主要负责用贝多芬的音乐来训练并构建AI神经网络系统，再从中生成所需的贝多芬音乐片段；奥地利作曲家沃尔佐瓦(Werzowa)，负责从AI生成的音乐素材中选择最合适的片段来合成最终的作品；康奈尔大学计算音乐学专家高特姆(M.Gotham)，负责贝多芬的乐谱手稿的识别工作，以及AI生成的乐谱编辑合成工作；古谱研究专家(钢琴演奏家)莱文(R.D.Levin)，负责校订贝多芬乐谱手稿，担任钢琴视奏，通过视奏AI生成的乐谱，并让深谙贝多芬风格的专家审定AI生成的音乐是否符合贝多芬音乐风格。

经过手稿研究、数据学习、神经网络构建、算法调试、MIDI乐谱输出、试奏视听、生成乐队总谱等复杂工作，最终使作品得以搬上舞台。不得不说，这部作品具有浓郁的“贝多芬风格”，比如，长大的尾声和贝多芬特有的力度对比、和声进行、动机展开和终止式等等。熟悉贝多芬作品的人，完全能毫不费力地感受到这首作品与贝多芬本人创作的作品有清晰可辨的“似曾相识”之处。

但是，这是一种还原还是一种创造呢？贝多芬自己创作的九首交响作品每一首的风格特点都不尽相同，何以“第十”会是前面九首的“概括式总结”呢？一位评论家(Henk Douwes)的话也许代表了很多人的困惑：(作品)“听起来绝对是‘贝多芬式的’。单就音乐而言，听起来很像对贝多芬之前作品的低级翻版，其中明显有《第五交响曲》谐谑乐章的痕迹，听起来很刺耳。其实完全可以学习第七、第八或第九《交响曲》的谐谑乐章。即使留存的乐谱草稿确实有贝多芬之前音乐的影子，也不意味着作品就应发展成目前的样子。天才的贝多芬能容忍这种平庸的‘翻唱’吗？”(33)韩宝强：《人工智能续创贝多芬〈第十交响曲〉带给我们的启示》，《音乐与表演》(南京艺术学院学报)，2022年，第1期，第118—121页。

其实，早在1981年，美国作曲家、人工智能研究者戴维·库伯(David Cope)就创立了音乐智能实验(Experiments in Musical Intelligence)，通过人工智能来创作音乐。库伯分别采用了“通过规则创作”与“重组匹配”两种方法来创作音乐，前者要求每次为新作品编写新的规则，后者采用重组方法将现有音乐重新组合，以新的逻辑创作新作品。1997年，在一次演讲中，他播放了一首以重组方法创作的巴赫作品，听众无法分辨到底是计算机创作的还是巴赫本人创作的。(34)见戴维·库伯的个人网站http：//artsites.ucsc.edu/faculty/cope/biography.htm(最后登录时间2023.4.9)。

在风格模仿方面，音乐人工智能的创作早已到了足以“以假乱真”的地步。通过算法和分析，可以轻易地对已有作品的特点进行提炼，并基于提炼的特质创作出新作品。但是，在独立创作方面，目前音乐人工智能的创作尚乏善可陈。这一现象背后的原因并不复杂，主要归结于两点：一是，音乐人工智能无法实现基于审美经验的艺术创作；二是，音乐创作中，创造思维的复杂度远超过现有人工智能的计算能力。

就艺术经验而言，以休谟(David Hume，1711-1776)为代表的经验主义者认为，人类的知识和思想都来源于感性经验，即，通过感觉、体验、经历而获得经验。所有的概念和原则，是通过感性经验建立的，只有通过经验才能知道世界真相和现实的本质。休谟认为：“一切科学牢固的基础是人性，而人性的牢固基础则是经验，即我们要理解人性，只有通过经验以及与之相关的观察，在观察的基础上得到经验。”(35)文聘元编著：《西方哲学通史》，南昌：江西美术出版社，2019年，第157页。

也许休谟的经验论或多或少有些偏激，但就艺术创作而言，感性经验而非理性的计算起到了更为重要的作用，这在人类的创作中已经无数次被证明了。经历丰富、情感丰厚的艺术家总比情感贫乏的人更能创作出打动人心的作品。脑科学家格林菲尔德(S.Greenfield)的研究也一定程度支持了休谟的观点：“客观可观察的事件如何转变为独特个人经验的第一手感觉，无法通过数学公式而得到。”(36)〔英〕苏珊·格林菲尔德：《大脑的一天》，韩萌、范穹宇译，上海：上海文艺出版社，2020年，第4页。

与艺术经验密切相关的是艺术创造问题。斯滕伯格(Robert Sternberg)曾提出一个 “三元智能理论”，他把智能划分为分析问题的能力(Analytical Intelligence)、实际解决问题的能力(Practical Intelligence)、创造力(Creative Intelligence)。(37)Robert J.Sternberg，Beyond IQ：A Triarchic Theory of Human Intelligence，New York：Cambridge University Press，1985.

在《现代汉语大词典》中，“创造”的意思是“发明；制造前所未有的事物”。“创造力”是指“人们创造新事物的才能和力量”(38)阮智富、郭忠新编著：《现代汉语大辞典》(上)，上海辞书出版社，2009年，第233页。。“创造”的本质特征其实是“无中生有”。艺术创造的本质是产生新颖的、异乎寻常的观念，并创制有艺术价值的艺术作品。这是人类最高智慧的体现，问题在于，人类自身是如何产生新颖的想法，又是如何产生艺术灵感的？这些问题至今仍然没有明确的答案。

现有研究还没有解开人类创造行为的密码。但是人们已经意识到，人类的“创造性”是一个复杂综合的身心过程，它无法单独通过心理学、神经学、生理学来解释，更难以通过函数和程序来表示。人工智能的本质是数理逻辑，而创造性有着逻辑或者数学难以表达的特质。

现有人工智能在音乐领域体现出来的“创作”，其实很难称得上是真正的“创造”，其实只是特定程序在输入参数或数据之后所做的“组合”。当然，对于什么是“真正的创造”的理解本身也没有统一的标准，但显然，仅仅用“新”(即，与既有的存在物具有不同特征)来定义“创造性”是不够的。如赵汀阳所说：”创造性在于改变力，在于能够改变世界或历史，改变生活或经验，改变思想或事物，或者说，创造性在于为存在增加一个变量。”(39)赵汀阳：《人工智能提出了什么哲学问题》，《文化纵横》，2020年，第1期，第43—57页。建立一个与人类大脑认知水平相当的，具有创造性的人工大脑，在理论上即使具有可能性，在实践中也是极为困难的，在音乐领域尤其如此。

本文对音乐人工智能的几点哲学审思，绝非要否定人工智能已经取得的成绩，更非低估人工智能巨大无比的潜力，而是认为，音乐人工智能如果不能解决本文所论及的几个问题，将难以实现取代有真正创造力的作曲家的目标。

如果从人类漫长的历史来看，人工智能的本质不过是人类创造的诸多工具之一，与所有人类创造工具一样，它们在很多方面胜过了人类的能力。工具的作用是将人类的某一能力给予延伸，并在某一方面代替人类。人工智能与既往人类的工具相比，是人类脑力的延伸，但仍没有改变其工具的本质。

正是基于此，本文认为，在艺术(尤其是音乐领域)，能真正代替音乐家的强人工智能(Artificial General Intelligence)在可见的未来还无法实现。不过，鉴于人工智能惊人的迭代速度，伴随着人工智能的三驾马车算法、算力、数据一日千里的发展，我们也有理由对它的广阔前景报以审慎的乐观。当然，我们人类也有足够的理由保持这样一种尊严和自信：只要我们还会不断“自我反思”，还会不断地拓展我们的审美经验，还会不断增进对同类的理解，还会不断地探索、拓展我们的艺术表达手段，人类就一定会持续创作不朽的音乐，用以充实我们永恒的精神世界。

机器的归机器，人类的归人类。