周 莉邓 阳
(1,2.中国地质大学 艺术与传媒学院,湖北 武汉 430074)
近年来,音乐人工智能在欧美以及日本等地区发展迅速,已成为人工智能的一个重要分支。人工智能作曲由于能将人类的创造力、情感表达、审美等智能与计算机的计算能力、机器人机械系统、自动化控制等技术相结合,突破了人类作曲的专业技术制约,创造出更具新奇感的音乐效果,同时也节省了人力成本,提高了音乐创作和音乐表演的效率。在“互联网+”以及“工业制造4.0”的新时代背景下,具备通信、网络与人机交互功能的人工智能作曲系统进入教育科普、艺术表演以及娱乐服务等领域已是大势所趋。
随着人工智能研发水平的快速提升,自2013年以来,我国的人工智能市场需求连续多年位居世界前列,在教育科普、医疗康复、家庭养老、娱乐服务等行业有着广泛的需求。2017年,国家发布了《新一代人工智能发展规划》,明确提出将人工智能作为未来优先发展的战略性技术。同年底,工信部印发的《新一代人工智能产业三年行动计划(2018—2020)》,为大力发展人工智能指明了方向。习近平总书记在党的十九大报告中也指出,要加快人工智能和实体经济深度融合,将人工智能发展提升到国家战略高度。
与此同时,用户对人工智能产品也提出了更高的要求,希望人工智能产品具有“情感智能”(Emotional Intelligence)[1]185-211,能感知识别人类的情感、意图,并主动为人类服务。因此,情感型人工智能产品受到国内外科技工作者的广泛关注,具有情感计算功能的人工智能产品已成为人工智能的未来发展趋势。
音乐是人类情感表达的重要形式之一。音乐情感在概念上被认为是一种难以量化的人类情感表达,且随着音乐的进行发生着丰富的变化。以人工的方法和技术让机器快速识别光学乐谱和实时乐音,通过音乐情感模型的推理和优化,获取人类音乐情感的表达模式,主动与用户完成人机协同的智能作曲等相关服务,对促进基于多源感知的情感型人工智能发展具有重要的研究价值和实践意义。
算法作曲(Algorithmic Composition)也称自动作曲,是试图使用某个形式化的过程,以使人(或作曲家)在利用计算机进行音乐创作时实现不同程度上的自动化[2]235-265,[3]377-421。目前已有较多计算机辅助算法作曲系统(Computer-Aided Algorithmic Composition,简称 CAAC),如 Super Collider、C Sound、MAX/MSP、Kyma、Nyquist、AC Toolbox 等众多国外研发的系统。典型的CAAC是一种自动化程度较低的作曲系统,这种系统不具备自主创造力(人工介入较多),也不具备较为抽象的高程度音乐知识库体系。
人工智能作曲(Artificial Intelligence Composition)简称AI作曲,隶属于算法作曲的范畴,是运用人工智能算法进行机器作曲的过程,以使人(或作曲家)在利用计算机进行音乐创作时的介入程度达到最小①Adam Alpern,Techniques for Algorithmic Composition of Music,1995.http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.23.9364&rep=rep1&type=pdf.。将人工智能运用到计算机辅助算法作曲系统,可以模拟作曲家的创作思维,将极大提高作曲系统的自动化程度。具有高自动化程度的AI作曲,不仅可以使作曲家更高效地工作,提高作曲效率,还可以简化作曲的繁杂性,提高音乐创作的普遍性,更增加了音乐与人工智能等多领域交叉发展的可能性。自1950年以来,多种基于人工智能的算法被运用到作曲中来。其中主要包括马尔科夫链、神经网络、遗传算法,以及多种混合型算法等。
使用计算机作曲的时间最早可以追溯到20世纪50年代中期,而人工智能的概念也几乎同时在达特茅斯(Darmouth)会议上被提出来。但是当时计算机价格昂贵,速度慢,而且使用起来也很困难,所以经过多年后算法作曲才开始与人工智能相结合。
最早完全由计算机生成的音乐作品是由列哈伦·希勒(Lejaren Hiller)在1956年创作的弦乐四重奏《伊利亚克组曲》(Illiac Suite)。1995年由阿尔佩(Alpern)研发的EMI作曲系统也是较早的一个成熟的古典音乐作曲系统,该系统注重各种音乐的风格,主要采用拼接的方式来创作再现已故作曲家音乐风格的作品。这些作品有类巴赫的创意曲、器乐协奏曲和组曲,还有类莫扎特的奏鸣曲以及类肖邦的夜曲。
此外,2010年由格奥尔(Georg Boenn)等人研发的Anton作曲系统,是使用答案集编程来构建的一个自动化系统,是算法作曲领域的一个较大突破。该系统可以在一个框架体系内生成音高和节奏,并识别判断人为的错误。21世纪以来学术界对算法作曲研究展开了较为全面的描述,2013年费尔南德斯(Fernández)认为算法作曲系统的发展将从根本上改变音乐作曲的过程,进而影响到音乐的市场,为人工智能作曲研究提供一个全面的视角。
近年来,国外在人工智能作曲领域发展较为迅速,国外人工智能巨头公司都对人工智能作曲展开了深入研究,一些由人工智能创作的音乐作品已经达到“大师级”水平,甚至可以“以假乱真”。2016年2月,第一部由算法创作的音乐剧《越过墙垣》(Beyond theFence)在伦敦上演,获得较高评价;2016年6月,谷歌公司研发的机器学习项目马真塔(Magenta)通过神经学习网络创作出一首时长90秒的钢琴曲;同年9月,索尼计算机科学实验室利用人工智能程序创作了一首披头士音乐风格的歌曲《爸爸的汽车》(Daddy'sCar),广受好评;美国网红兼流行歌手泰琳·萨顿(Taryn Southern)近日发表了一张名为《我是人工智能》(Iam AI)的新专辑,成为人类历史上第一张正式发行的人工智能歌曲专辑。其中,主打单曲《冲破藩篱》(BreakFree)听众普遍反映完全听不出是由应用程序创作完成,和音乐人创作的作品没有太大差别,改变了人工智能创作的音乐比较机械、情感空白的现状。
我国在人工智能作曲领域发展还处在起步阶段,百度、平安科技等公司和研究机构相继有AI作曲系统和作品推出,但成果还较为零星,不成体系,且作品的可听性有待提高。
当前AI作曲与深度学习结合日益紧密,朝着多元化方向发展,其中遗传算法、人工神经网络、马尔科夫链、混合型算法使用最为广泛。
遗传算法(Genetic Algorithm)是一个使用适应性函数来演化样本的全局优化算法,[4]209-215其中变异算子能够很好地模拟人在其创作当中灵感的闪现。该算法的核心是对于适应性函数的设计,目前尚无统一标准。
国外已有相关遗传算法作曲系统,1994年拜尔斯(Biles)构建的Gen Jam系统为基于遗传算法的人机交互系统构建提供了一种可能性,其主要采用遗传算法的交互式即兴演奏系统,能在一个给定的和弦序列上生成爵士器乐独奏旋律,与人交互演奏爵士乐。2003年安赫拉(M.Unhera)和欧尼斯瓦(T.Onisawa)提出的音乐作曲系统,允许无音乐技能的人介入其作曲系统来创作音乐,出现了让人代替适应性函数来直接评估染色体的一种方法,即交互式的遗传算法IGA(Interactive Genetic Algorithm)。所有和交互式的遗传算法IGA相关的方法都具有主观片面性的弊端。
2011年塞特泽(Seitzer)引入了一个新的数据结构来跟踪遗传算法的执行,采用了一种基于时间轴的适应度函数来形成旋律进化。2013年瓦格纳(Wagner)论证的岛屿模型遗传算法,介绍了合适的迁移算子,引入了图像、视频和音乐分割等每个邻域的遗传算法,通过对音乐结构进行深入的分析,完成了音乐信息检索、主题性挖掘技术,为实现遗传算法优化操作集合奠定基础。
2008年,我国学者曹西征等对由计算机自动生成音符序列和音频文件的具体问题进行了讨论;2014年,黄澄宇等针对音乐质量评估问题,提出了将相关音乐知识的规则和人机交互相结合的模式,共同对所创作音乐进行合理评价;2017年,郭衡泽等对基于交互式遗传算法作曲系统的架构与实现,在编码机制、人工评估及人机交互操作等诸多方面都有创新的设计应用和实现方法。
人工神经网络(Artificial Neural Networks)是一种模仿生物神经网络行为特征,进行分布式并行信息处理的算法数学模型。[5]23-26国内外已经有多种基于神经网络的作曲系统:2009年,陈魁提出使用循环神经网络来学习音乐的曲式结构;2010年,伊斯塔托(Istituto)提出使用长短时记忆(LSTM)神经网络可以使生成的音乐更具有完整性;2013年,殷波提出通过神经网络学习和声进行可以获得音乐的内在联系;2017年,李雄飞等指出人工神经网络为算法作曲提供了一种新的方式,其优势在于能够对音乐作品的全局性特征进行学习,但是需采用大量的样本进行训练。
针对单一特征难以建立理想音乐分类模型的问题,为了帮助用户找到自己喜欢的音乐,我国学者赵伟和刘明星分别于2015年、2018年提出了基于BP(Back Propagation,反向传播)神经网络的音乐分类模型。通过对音乐旋律特征的音高、音长、音色、节拍、速度和力度等特征向量的提取,构建基于BP神经网络的情感模型,并用多首不同情感特征的歌曲对其进行训练和验证。实验结果显示这一模型的运用取得了较好的效果。
马尔科夫链(MarkovChain)是一种随机过程,[6]19-26一直被广泛地应用于算法作曲领域,国外已有相关作曲系统。早在1989年科荷伦(Kohonen)就提出一种基础马尔科夫链的扩展模型,使基于马尔科夫链的作曲方法得到改进。1999年,内特(Neto)认为,在算法作曲中一个简单但有趣的技术是按照一个转换表来依次选择音符,这个转换表就像一个函数,其自变量是当前的音符,而函数值则是下一个要出现音符的可能性。此后,也有学者采用马尔科夫链对音乐中连续的旋律片段进行模型构建,从而生成具有特定音乐风格的新旋律片段,但是整部作品的曲式结构无法通过马尔科夫链建模。
2010年,结合马尔科夫模型在作曲中存在的问题,韩艳玲指出,可以通过马尔科夫链预测音符来作曲;米歇尔·黛拉文图拉(Michele Della Ventura)则提出,通过马尔科夫算法的自我学习模型来生成音乐旋律。2017年,张艺婕通过研究希腊裔法国籍作曲家泽纳基斯的马尔可夫链作曲技术理论与方法,论述了概率、马尔可夫链原理与音乐创作、分析之间的关系。
混合型算法(Hybrid Algorithm)是将多种不同算法进行组合,可以实现多种算法优势互补。国内外对随机过程与其他算法的结合有了相关的尝试,[7]191-199也有了使用人工神经网络与遗传算法相结合的作曲解决方案。[8]157-177
1990年艾布斯格鲁(Ebcioglu)提出了CHORAL系统,是一个基于规则的专家系统。该系统可以为单声部主旋律构造出具有巴赫风格的四声部合唱曲,且有一定的实用价值,它包含大约350条规则,这些规则从合唱曲多个单声部的旋律线以及和弦结构等多个角度来描述音乐知识。其存在的问题是知识引导机制及相关规则的建立既困难又费时,且难以进一步扩充。
1995年雅各布(Jacob)认为遗传算法与神经网络的结合能够极大提高音乐的可听性。旋律创作系统ERNN是一个递归神经网,能以一小节接一小节的方式来生成类似于贝拉·巴托克(Bela Bartok)风格的短小旋律。同时使用遗传算法以适应函数来演化ERNN,基于音乐基本理论和贝拉·巴托克作品风格构造一系列约束集。该系统可视为基于客观适应函数进行演化的旋律创作系统的代表。但是这类创作系统的结果通常都比较简单,还不具有实用价值,需要引入更多的音乐知识和规则,才能使系统变得实用和有效。
我国学者冯寅、周昌乐在2006年对交互式电子音乐研究领域进行了较为详细的文献梳理,指出智能作曲系统可以朝着集多种方法为一体的混合型系统(hybrid system)的方向发展,系统应在音乐创作的各个层面上提供灵活的人机交互手段,以便提高系统的实用性和有效性。2015年翁诗杰还研究了音乐的节奏、音高和力度的建模和推理方法,设计了基于贝叶斯网的辅助作曲与编曲的智能音乐系统,实现了基于贝叶斯网研究的半监督的音乐作曲原型,并进行了实验分析,实验结果表明这一方法是可行的。
综上所述,各种作曲算法在使用中都有其自身的优势和不足,智能作曲需要朝多元化混合算法的方向发展。
通过梳理从算法作曲到人工智能作曲的发展轨迹和国内外研究现状,我们不难发现,人工智能作曲在快速发展的同时也存在一定的困境。各种作曲算法在使用中都存在着不同的优劣势,所创作的音乐作品风格和体裁还比较单一,且可听性不高。国外算法作曲系统的研发相对活跃,而我国相关研究则较少,中国民族音乐人工智能作曲系统的研发更是缺乏。但随着人工智能整体技术水平的提升,用户对作曲系统智能化程度要求的提高,我国人工智能作曲正逐步走出困境,其发展也呈现出以下趋势。
由于各种算法在人工智能作曲的使用中都有其自身的优势和不足,目前人工智能作曲的音乐作品风格和体裁比较单一,且可听性不强。多算法组合优化将是人工智能作曲未来发展的主要方向。在混合型的算法作曲中,各种算法将扬长避短,发挥各自的优势,作品的风格和体裁将变得丰富且具有一定的可听性。
现有的人工智能作曲系统大部分整体智能化程度相对较低,大多是基于内置MIDI音乐信号进行机器学习和创作,缺乏人类对音乐情感的识别体系,无拟人化音乐作曲思维。人机交互系统也仅限于表层信息交流,机器根据表层信息交流所获得的用户指令,以被动的形式执行相应的任务。通过机器视觉、机器听觉等多渠道智能信息融合来识别人类对音乐情感的谱面和音频表达体系,再基于深度学习的智能规划,是未来人机交互智能作曲系统建构的主要基础。
我国民族音乐资源丰富,是人工智能作曲机器深度学习的理想资料库。国外人工智能作曲系统的研发相对活跃,而我国相关研究则较少。将国际上的人工智能作曲技术运用到中国民族音乐的分析与创作之中,构建中国民族音乐智能作曲系统,对发展和传播中国民族音乐具有重要意义。
人工智能作曲的实现需要有机器作为载体,随着机器人学的快速发展,音乐机器人是比较好的载体选择。在综合运用国内外音乐机器人相关研究成果的基础上,实现情感计算下的音乐机器人智能作曲和协同演奏是该领域未来发展的主要途径。人工智能作曲与机器人的紧密结合,将为人机交互系统注入情感计算和主动服务模式的新思路和新方法,为实现音乐机器人的智能化和情感化,使之能够在感知音乐情感的基础上主动完成智能作曲与协同演奏,为消除人与机器人之间的交互障碍,提供了切实可行的解决方案。