方兴未艾的短视频,带动了音乐行业的发展。全球音乐用户现已逾16亿,然而在生产层面,能够参与到音乐创作的人数占比仍然寥寥。由于音乐创作本身具备一定的专业门槛,非专业人士很难借助音乐表达自我。正如全民K歌等App降低了录歌的门槛,让大量非专业人士参与自己录歌的过程,人工智能生成内容(AI-Generated Content,以下缩写为AIGC)的发展给音乐创作带来了另一种可能性。
灵动音科技,自2018年成立以来,以其独创的AIGC技术在中国音乐服务行业中独树一帜。该公司专注于将先进的AI音乐技术赋能各类音乐爱好者的创作过程,开发出许多创新的应用和产品。灵动音不仅降低了音乐制作工具的使用门槛,更借助AI技术全方位降低音乐创作过程中诸如作词、作曲、编曲、演唱、混音等一系列工作的难度,让不具备乐理知识的普通大众,也能够在灵动音AI辅助工作功能的支持下实现音乐创作。其推出的AI随身音乐工作站“和弦派”,能够基于AI音乐生成引擎,从和弦入手进行音乐创作,让音乐创作变得轻而易举。此外,灵动音持续深耕科技成果的产品落地和商业化探索,其旗下还有口袋乐队、BGM猫等音乐产品,满足上亿用户的音乐实践需求。2023年,凭借在人工智能音乐领域的技术探索和应用实践,灵动音入选由极客公园旗下的科技创业者社区Founder Park发布的“中国最具价值的人工通用智能(AGI)创新机构TOP 50”榜单。
灵动音创始人刘晓光和音乐有着不解之缘。他从三岁半就开始学电子琴,九岁时通过了中央音乐学院的电子琴9级考试。上中学时,他喜欢周杰伦和林俊杰,白天听到喜欢的歌,晚上回家就用电子琴弹奏出来,并在此过程中初步产生了对于音乐创作的感知。2009年,刘晓光考入清华大学化学系本科,学业的压力并没有阻挡他对音乐的热爱,他把大部分的课余时间都投入到了和音乐相关的事情上。大学毕业后,刘晓光曾短暂创业做过VR和AR,也在音乐培训机构做过老师,同时持续进行自己的音乐创作,谱写过上百首音乐作品。在此过程中,刘晓光结识了不少擅长音乐制作的朋友,为其后来创办灵动音积累了一定的人力资源。
2016年,谷歌的人工智能开发者们推出了“Magenta”项目,尝试用AI生成音乐。那时,即便是最先进的AI技术,也难以模仿艺术家创作的绘画或音乐,更遑论自主生成的概念。同年,清华大学的几位本科生和研究生组成了一个在AI音乐领域开展研究的兴趣小组。年底,曾担任清华大学吉他协会会长、彼时正就读于清华大学化学系的研究生刘晓光加入这个小组。2018年,该兴趣小组发展成为一家公司——灵动音科技,刘晓光担任CEO。另一位联合创始人苑盛成就读于清华大学工程物理系,他和刘晓光一样,自幼儿时就开始学习电子琴,对音乐一直抱有浓厚的兴趣。当刘晓光找到苑盛成,希望他可以和自己一起发挥所长,共同为国内人工智能音乐领域做一些有意义的事情时,苑盛成经过深思熟虑,放弃了去美国发展,加入灵动音。灵动音公司有一间设施完备的乐器室,四壁包裹了吸音海绵,放满了各种乐器,桌子上甚至还摆放着一套Genelec(真力)音响。这种音响通常只会出现在专业的音乐工作室里,灵动音团队虽然从事人工智能技术的开发工作,却始终没有忘记其最初对于音乐的热爱和执着。
彼时,AIGC的浪潮远未到来。与一些在2023年看到ChatGPT的火爆才匆匆“上车”的创业公司不同,此时的灵动音已经在AI领域积累了五年多的探索经验。“这是个挺长周期的事情,坚持到现在才有一些收获。”刘晓光坦言。自2019年起,刘晓光团队便专注于探索娱乐科技领域。在该领域内,他们尤其关注那些专注于游戏、影视、动漫和音乐等娱乐主题的技术型企业。这些公司涵盖了从渲染物理仿真到人工智能生成等多种技术,展现了当时丰富多样的数字化娱乐形式。刘晓光对于创业方向的选择,源于对其产生深刻影响的一本书——《哥德尔、艾舍尔、巴赫》。这本书通过讲述数学家哥德尔、版画家艾舍尔、音乐家巴赫的故事,探讨了数学、人工智能、哲学和艺术之间的融合问题。在刘晓光看来,娱乐科技的本质也是这样。娱乐行业虽然给人的第一印象是充满感性的,但也常常借助于一系列科学技术增强其体验。在娱乐科技的多个分支中,音乐占据了一个非常重要的位置,它不仅与人们的日常生活紧密相连,还是一个有着深厚传统的行业。刘晓光经常思考的问题是,能否打造一个系统又完善的“AI+数据”驱动的音乐软件,可以革新整个行业。在调研AIGC音乐赛道时,刘晓光注意到谷歌在人工智能音乐方面的两个技术模型AudioLM和MusicLM,他认为这两个模型的出现证明了“从文本直接生成音频”技术路线的可行性。基于在这个领域的技术积累以及对音乐的热爱和激情,创业团队对自己的创业项目变得更加坚定。
在音乐行业中,内容被分为功能性和艺术性两种,比如抖音短视频的背景音乐一般属于前者,而周杰伦的歌曲则属于后者。AI直接生成的音乐,主要解决功能性问题,但现实是,功能性音乐只占音乐市场的1%,属于一个超饱和市场。虽然理论层面可以利用AIGC技术解决“传统音乐制作门槛高”这一痛点(见表1),但是要想在一个供大于求的市场里脱颖而出,仍面临诸多挑战和未知因素。“我们输入一段自然语言,然后生成一段音乐,这虽然看上去很好玩,但不一定是真正有用的东西。”对于“AIGC”所包含三个部分:AI,指生成内容的方式;G,指生产的过程;C,指生产的内容,刘晓光认为,最关键的是“G”,即AI生产内容的过程。AI的引入,使没有音乐基础的人对音乐创作不再望而却步,在AI的帮助下,人们可以不必接受长时间的复杂学习,就有机会直接参与到音乐创作的过程中,甚至通过AIGC技术提升用户生成内容(User Generated Content)的质量。
更重要的是,AIGC技术所带来的变革不只限于内容创造领域,同时还代表了人机交互方式的重大创新,这也正是促使刘晓光团队选择在AIGC领域创业的深层动机。在公司成立之初,团队成员就已经认同了这样一种创新理念:让人工智能根据其与人的互动生成音乐内容,这一理念彼时已经体现了人工智能生成内容的精髓。他们希望让音乐能够被人的更多感官感受到,从而使用户以一种更加游戏化的方式获得娱乐体验。在刘晓光看来,AIGC技术将开启多样化的交互场景和内容消费模式——在应用层面,AIGC技术能够催生许多创新的服务模式,并找到新的赢利点占据市场。刘晓光尤其看好教育和游戏领域,因为这两个领域具有强烈的人机交互特性。在面对不同的付费内容时,用户有不同的心理预期和支付意愿。例如,用户可能不太愿意为一个工具或视频平台支付费用,但对于游戏,他们可能愿意投入更多的金钱。因此,刘晓光认为AIGC技术很可能会在游戏化或教育化的应用中率先获得成功。
灵动音的愿景是帮助音乐爱好者以更高的效率进行音乐创作。将AIGC技术应用于音乐生成时,会发现两个突出的问题。第一,当利用该工具来创作音乐时,用户很可能不会倾向选择一个完全自动化生成的音乐作品,因为这样的作品并不真正属于用户自己,并且很难完全表达想要表达的情感。如果生成多首音乐作品后再挑选,虽然最初生成的几个作品可能听起来相当悦耳,但随着生成数量的增加,作品开始显得千篇一律。这种现象的根源在于神经网络模型的工作原理,由于这些模型是基于概率统计建构的,它们在生成内容的过程中可能会在无意之中淡化不同音乐作品的独特性。然而,正是这些独特性,赋予了优秀音乐作品魅力与价值。
另一个问题是,并非所有情感都能被语言模型准确捕捉和表达。例如,当用户想要生成一首能够传达悲伤情绪的音乐作品时,可以通过在语言模型中设置相应的情绪标签,并将悲伤的标签作为输入条件,来生成相应的音频片段,这在理论上看起来是可行的。然而,如果用户提出更细致的要求,比如希望悲伤的情感表达得更为内敛、更有深度,那么基本的语言模型目前还难以满足这些复杂细微的情感需求。
刘晓光认为,音乐人能够通过大量的学习和实践,建立情感和音乐知识之间的映射经验,一旦掌握了这些经验,再加上适当的指导,人们就能更轻松地利用AIGC技术使音乐更好地表达情感。针对上述两个难题,刘晓光团队查阅了很多知识库,他们注意到在音乐领域,可用于操作和分析的数据集相对有限。因此,刘晓光团队着力收集更多数据进行标注。相比于自然语言图像的标注,音乐标注的难度更大,为了提高收集效率和精确度,团队设计并开发了统一的、云化的音乐知识数据结构及标注工具UMP Board。这套数据标准解决了音乐领域没有音频对齐音乐数据的问题,该标准现已被多个产品使用。同时,团队将基于超过2万首歌曲的音乐理论信息转换成数据库,以此用来训练模型,识别准确率逾90%,足以满足大多数用户的需求。目前,经过多轮优化的UMP Board系统已经能够独立完成对40万首歌曲的人工智能自动标注工作。此外,灵动音正在扩充出海音乐内容,加速推进海外市场布局。
值得注意的是,不同于“端到端”的AI生成技术,灵动音所采用的是一种“符号音乐”的AI生成技术(见图1)。“端到端”生成是直接从现有音频中生成新音频的技术,类似于AI图像生成领域中的DALL·E 2模型,用户只需输入一段描述,如“飞行员吃苹果”,模型就能自动生成包含飞行员、苹果和其他航空元素的图片。“端到端生成”音乐亦是实现类似的功能,即用户只需输入一句话,就能生成一段音乐以呈现这句话的意思。由于“端到端”生成过程具有封闭性,这对生成的音乐进行再编辑或进行分轨处理带来困难。同时,由于音频数据的复杂性,提升音质需要投入极高的算力。这限制了端到端音乐生成技术在一些应用场景下的广泛使用。“符号音乐生成”技术是将现有的音频材料转换成音乐符号,这些音乐符号被用来创作新的音乐符号,最终转换成新的音频文件。符号音乐生成技术在音乐创作领域具有重要意义,它通过提取音频中的各种信息(如词曲、和弦、乐器等),将其转换成类似音乐功能谱的数据形式,在“词曲编录混”各个环节都可以生成内容,并且使每个环节都具有可控性,具有广阔的应用前景。它不仅为专业音乐人提供灵感和创作工具,还赋能音乐教育,帮助学生理解音乐理论和创作技巧。此外,随着技术的进步,符号音乐生成技术可以进一步降低音乐创作的门槛,激发更多非专业用户的创作热情,释放UGC(用户生成内容)音乐的无限潜力。
以往音乐人做一首歌,通常要经过“词、曲、编、录、混”五个过程。从技术角度看,这些工作来自于不同模态,特别是混音,是一个工程化的工作。如果人们想通过一款产品完全赋能到场景上,需要很大的工作量。它首先需要一个工程化的基础,其中包含各种各样的模块技术,从而建立一个“数字音乐工作站”,为用户创造多重价值。例如,作词人可以通过AIGC技术生成多版本歌词,从中汲取灵感,使创作过程变得更加高效。作为AI音乐领域里最交叉的两个环节,作曲和编曲同样需要这样的灵感,灵动音团队在这两个环节投入了极大的精力。例如,团队自主研发了音频引擎Mutrix,让音乐编辑可以在不同系统、不同性能、不同品牌的手机上都可以操作,从而实现了真正的跨平台高性能的音乐创作体验。传统的音乐创作软件,如库乐队对于普通人而言使用门槛依然很高,需要用户了解甚至会演奏每一种其想编辑乐曲所使用的乐器,才能得到高质量的创作结果。灵动音开发的产品“和弦派”采用基于和弦的乐器生成算法,使用户不需要学习乐器演奏也能得到高质量的编曲结果。传统的音乐工作站都是以很多轨道呈现音乐信息,和弦派则使用更直观的功能谱呈现音乐创作内容的信息,以使广大的音乐爱好者更轻松地体会到音乐实践的快乐。当用户直观地输入和弦、旋律、歌词等需求,AI辅助创作功能就能为用户一站式输出完整的Demo,赋予用户大量的灵感,使原本枯燥繁琐的创作过程变得更加有趣。
除了“和弦派”以外,灵动音的产品还包括“BGMCAT”和“口袋乐队”(见表2)。BGMCAT是为了在功能性音乐上直接满足多场景需求而设计的,它能够根据用户输入视频的时长和描述标签,一键生成相匹配的背景音乐,为视频创作者提供便利。具体而言,用户可以通过选择不同的场景、风格和心情标签定制背景音乐,BGMCAT的AI系统根据对包括输入字符长度、描述和选定标签的分析,输出与其相对应的原创音乐,时长在30秒到5分钟。此外,BGMCAT提供官方商业授权,这意味着生成的所有音乐均已授权用于商业用途,用户不必担心版权问题。
口袋乐队则是一个AI音乐工作站,旨在通过更加亲民的可视化方式,让每个用户都能感受到听觉加视觉的良好交互体验。具体表现为,它允许用户通过选择不同的乐手和乐器来创作音乐。该产品支持200余种演奏方式,让用户可以轻松地进行作曲、编曲、录唱和混音,使得非音乐专业的朋友也能实现自己的音乐想法。口袋乐队旨在让音乐创作变得像玩游戏一样简单有趣,它通过AI音乐引擎的支持,帮助用户发现音乐的魅力并创造无限可能。无论是专业的音乐人,还是音乐爱好者,都可以使用口袋乐队创作个性化的音乐作品。
在音乐创作领域,创作者与听众之间的界限正在逐渐变得模糊。过去,录制一首歌曲需要投入许多资金,通过在录音棚录制,最终得到一盒磁带。在互联网时代,仅需一款录音软件就能完成这项工作。如果进一步降低知识门槛,普通大众也能轻松参与音乐创作。因此,音乐生产就不再只是少数创作者的专利,而成为每个人都能参与创作、每个人都能享受他人作品的过程,创作者和消费者的角色相互交织在一起。
刘晓光坚信,随着时间的推移,音乐的交互体验将变得更加沉浸和多元。今天的音乐人只需专注于创作出优秀的音乐作品,随着虚拟现实(VR)和元宇宙等技术的发展,音乐的呈现方式将融入更丰富多元的感官体验。灵动音团队期待在“全民音乐人”时代到来时承担起相应的责任,贡献自己的力量。未来,灵动音将继续深耕技术成果的产品化转化和商业化探索,迎着AIGC的浪潮,让音乐创作变得像现在的短视频创作等一样简单快捷。