2019年,教育部正式提出大力发展新文科的要求,意在突破传统文科的思维模式,打破文理科之间的学科壁垒,实现文理交融。在此背景下,艺术学界提出了构建“新艺科”的设想,其含义是“新文科语境下的艺术学学科建设构想”,既要具备“新文科”提倡的文理交融性,又要顾及艺术学各学科的独特性。长期以来,文科与艺术学学科处于相对封闭的状态, 欲迅速改变现状须借助外力做功, 而科技正是新时代的最佳外力。“新艺科”的建设方针正是基于科技飞速发展的背景下提出, 为包括音乐在内的艺术创作与研究带来了全新的生态环境。
2024年10月11—13日,中国地质大学(武汉) 举办了第11届全国声音与音乐技术会议。大会聚集了来自人工智能、计算机科学、电子工程、数学以及音乐学等领域的众多学者。此次会议可谓是对“新文科”与“新艺科”建设构想的一次积极响应,极大促进了“两科”的发展。会议研讨专题多达14个,如音乐学+ 计算机、民族乐器+ 计算机、声学+ 计算机等。根据这些专题的研究对象和研究方法,可将其分为三类:音乐与人工智能的新兴结合点、乐器与乐谱的数字化研究、音乐与声音评价标准的定量研究。本文试图以会议内容为出发点, 一窥音乐与科技协同共生的态势及其所面临的诸多问题。
一、音乐与人工智能的新兴结合点
音乐与科技的结合很早便存在于人类漫长的历史长河中。如早在先秦时期,编钟的铸造要兼顾尺寸大小成序和音阶模式成列的双重目的,这对铸钟技术提出了非常严格的“标准化”要求。
人工智能时代,音乐与科技的关系进入到全新的态势中,一些新兴技术给音乐带来了近乎颠覆性的影响。音乐与人工智能的深度结合是两个领域共生发展的重要增长点, 也是本次会议的重要议题之一。
科技为音乐生产带来了新模式和新生态。“人工智能生成内容”(Artificial"Intelligence Generated Content,简称AIGC)是指通过训练人工智能模型以生成与原始训练数据相似的内容,如当下日益更新的音乐生成模型、语音克隆和文本转语音等均是AIGC在音乐上的实际应用。日本广岛大学于漪副教授从多模态人工智能的角度探讨了音乐生成的方法。她的研究关注音乐的歌词、旋律和舞蹈三者之间以“语义”为联通枢纽的潜在关系, 通过整合三者之间的“语义”相关性,便可生成具有语义一致性的音乐与舞蹈。网易云音乐的邓阳介绍了流媒体平台在音乐AIGC 方面的应用,他首先剖析了国际上音乐生产的主流模式及其难题, 再以网易天音内容生产引擎为例, 详述其设计理念和技术框架。中国传媒大学的林义超等人采用AI 语音克隆技术,探索跨语言语音在电影领域的应用;此类技术能够将任意语音素材转换成跨语言的语音内容, 它可解决演员遇到非母语台词发音不准的难题。美国罗彻斯特大学段志尧副教授分享了其实验室团队在实时人机即兴演奏、中西音乐风格融合、音乐模型框架开发和歌声深度鉴伪等方面的成果。
“基于内容的音乐信息检索”(Content-based Music Information Retrieval,简称CBMIR)是在海量数字音乐带来分类组织、查询检索、内容理解与分析等一系列问题的基础上产生的一个新兴交叉学科。如相似歌曲检索是当今每个智能手机用户都会碰到的场景, 但是如何根据用户输入的内容(如歌词、旋律等)得到与之相似或匹配的输出结果? 来自网易云音乐的何其锜指出, 通过应用经过深度学习和训练的语义大模型, 可提高检索效率与结果准度; 在音乐平台中, 这项技术还可根据用户的需求提供个性化的音乐服务。
可见, 人工智能的介入为音乐带来了新的机遇,音乐也为人工智能拓宽了应用范围,这种互动关系本身成为一个重要思考点。例如,华中科技大学蔡新元教授并不局限于讲述AI 工作流程等复杂的技术原理,而是站在艺术的立场,思考如何利用AI 技术拓宽艺术研究的范围和视角,增加人机共创的可能性。这是艺术学界与科技学界需要共同思索的延展性问题。
二、乐器与乐谱的数字化研究
自古以来, 乐器是音乐中最能与科技产生直接联系的部分, 如中国历朝历代对弦律与管律的实验与实践,无不融合了数学、声学和古代天文学等多学科知识。中国古代乐谱自魏晋南北朝至明清时,便已有文字谱、减字谱、律吕谱和工尺谱等多种记谱形态。进入科技时代,乐器与乐谱这类具象化的实物是否会焕发出新的研究面貌? 日益更新迭代的计算机技术给出了答案:建立乐器数据集和进行乐谱数字化工作。
乐器数据集与乐谱数字化是本次会议的研讨重点之一。中央音乐学院的博士研究生张宇指出, 当前人工智能多集中于西方古典音乐和流行音乐,而在传统音乐方面尚待深入研究。她将人工智能多模态技术与中国传统胡琴类乐器相结合, 构建出第一个中国胡琴音乐标注数据集。她从胡琴标注数据集的构建原则、建设过程及未来应用等方面展示了计算机技术辅助音乐研究的优势。此外,她还将数据集上传至Zenodo平台免费公开, 真正落实其提出的FAIR 原则。东南大学王元成博士则以琵琶为研究对象,采用光电传感器捕捉琴弦振动的信号,以辅助确定演奏者弹奏的准确位置。他还创造性地开发出一套用于乐器自动转录和表达的标注系统(TEAS),构建了中国第一个多模态琵琶标注数据集。在该数据集中,数据类型包括音频、弦振信号、视频、乐谱和标注等多种模态,每一类数据在时间上都需要做到精确对齐, 真正将传统乐器与新兴科技进行深度融合。
自动转录技术是一项十分具有创造性和挑战性的研究, 它可将音频与视频中的内容转换为书面文本,如将音视频中的语音转为文字。北京邮电大学李荣锋博士等人以弹拨乐器为切入点,提出一种基于多模态网络的自动转录技术。其方案是增加音频和视频两个维度, 从中提取表演特征, 再以特征集合来预测弹拨乐器演奏的旋律、和声和指法等多种信息。这与张宇和王元成的多模态(包含音频、视频、数字化乐谱和丰富的标注文件)乐器标注数据集原理相似,说明多模态特征的整合是增强自动转录技术的优良方案之一, 进一步优化了乐器的数据化研究效度。
本次会议“最佳论文奖”颁给了乐谱数字化方面的成果。北京邮电大学的硕士研究生卜凡等人以简谱为研究对象,采用OMR(光学音乐识别)技术,构建乐谱数据集,并基于此搭建了一个可听化平台——“工尺留声”。卜凡及其导师李荣锋博士还有志于将中国民间音乐“四大集成”(《中国民间歌曲集成》《中国戏曲音乐集成》《中国曲艺音乐集成》《中国民族民间器乐曲集成》)全部数字化,以期构建中国民间音乐乐谱数据集。除此之外,中国人民大学的博士研究生夏翠娟以古琴减字谱为研究对象, 构建了减字谱的多模态数据集, 这也极大地推动了减字谱的数字化过程。
上述研究使得传承千百年的中国乐器和乐谱在新时代焕发出新的生命力, 展现了科技对音乐研究的促进作用。诚然,我国民间依然存有大量民族乐器和乐谱亟待深入研究, 这条路虽刚刚起步, 但它预示了音乐与科技互相结合研究的新兴路径和巨大前景。
三、音乐和声音评价标准的定量研究
音乐评价活动自古有之, 但是常见的音乐评价是基于人的主观意识进行的, 并无定量标准这一客观维度, 这种研究能揭示音乐中许多潜在的客观规律。本届会议的一个重要议题是如何对音响文本进行客观评价。
量化研究对于辨识音乐作品中不同国家或民族的风格元素带来科学手段。西南大学石丰恺副教授试图对中国音乐风格的音色语义特征建构一套量化标准。他指出,20世纪初中国音乐家借鉴欧洲交响乐模式, 创作出一系列具有中国特色的交响乐作品, 但中西文化差异可能导致对音色语义的理解发生偏离,如“明亮”和“黯淡”等词在中西方语境中可能存在偏差。其研究筛选出36个音色评价术语,并通过计算欧氏距离的方法, 根据数据点之间的距离大小对数据进行排序,评价术语间的相关性,最终创建了中国风格交响乐作品音色评价术语集。该研究有助于克服音乐理解的文化障碍, 更加精确地辨识交响乐作品中的“中国风格”。
不同国家和民族的声乐演唱风格差异可以借助量化分析进行更精确地界定。英国伦敦玛丽女王大学李舆坤博士通过比较各国典型声乐作品的音高, 揭示了各类声乐作品之间的客观差异。这种差异是由于各国文化风情不同所致, 如瑞士的约德尔唱法、俄罗斯民歌与中国梆子戏之间的稳定音和颤音情况具有本质差异。如何定量描述这种差异性? 李舆坤博士使用音高识别软件分别计算出三者的稳定音与颤音的时长比值, 从而进行声乐作品的跨文化风格对比分析。可见, 此类研究已深入到音乐的微观层面。
量化手段在更加广泛的声音现象研究中也发挥着不可替代的作用。中国传媒大学的一众师生集中于各类声音的主、客观评价研究。如郭靖怡等人基于中国人的主观感知,探究了HRTF(头相关传输函数)对三维立体声场效果的影响, 此研究涉及声学现象与数学原理之间的关联性解读。张思雨等人针对近年来猛然增长的AI 语音及其鉴伪模型,认为在语音自然度方面,人耳自身的检测能力具有一定优势。陈柳如等人探讨了三维声拾音技术与主观评价指标(偏爱度、音色自然度等)之间的相关性。唐爽等人则以流行歌曲为对象, 强调了计算机对歌声的评价应当加入人耳主观感知维度。这些研究有两个共同点: 一是都需要一定数量的测试人员参与评价,强调声音与音乐中的主观性;二是均采用多元线性回归分析法,以得到目标对象与其影响因素之间的关系。
上述表明, 以科技辅助的实证手段在音乐研究中具有不可忽视的作用。由于“定量分析”侧重于实证预测和统计分析等, 强调客观性与科学主义, 往往能揭示音乐中潜在的不易发现的规律、趋势或现象,是补充“定性分析”的有力手段。
四、音乐与科技协同共生的相关问题反思
显然, 新兴科技是未来任何领域的一条新赛道。但对于音乐此类需要注入人类创造力与情感价值的艺术活动来说,科技可谓是把双刃剑,它势必会导致“新文科”与“新艺科”建设下的音乐学科产生喜忧交叉的双重态势。此次会议已经很大程度上展现了音乐与科技珠联璧合的协同共生之路,但是其中有待深入反思的问题也初见端倪。
一方面, 音乐与科技的结合将在多方面产生相辅相成的作用。
其一,拓宽双方的研究模式。如王元成和张宇等人构建的琵琶与胡琴标注数据集, 又如李荣锋、卜凡和夏翠娟等人在工尺谱、简谱与减字谱数字化方面所做的努力, 这些都是拓展音乐研究的实例。当然,音乐也可反哺科技。如张宇利用其构建的胡琴标注数据集展开进一步研究——利用演奏技法的可视化实验提高算法的精确性,并促进计算机多模态的学习。他们不仅促进了当下音乐与科技深度融合的步伐,还奠定了两者未来研究的基础。
其二,影响双方的发展方向。本次会议不乏有关音乐生成的研究成果, 这类音乐人工智能技术使音乐创作的方式发生巨大变化。如一鸣惊人的Suno AI基于歌词创作、语音合成和音乐生成的多模态网络,能够快速“生产”出一首完整的音乐作品。这降低了普通人创作音乐的门槛,节约了各类媒体公司的生产成本,促进了音乐产业的转型发展等。而对音乐创作要求的提升(如作曲技法的复杂化、音乐风格的多样化等)也反推着各类人工智能产品不断更新换代。
其三,彰显双方的现实价值。中国地大物博且历史悠久,其积累的音乐类非物质文化遗产形态各异、数量庞大,然而多数均面临传承土壤消解以致后继无人的时代困境。本次会议已有学者涉及建立乐器数据集和进行乐谱数字化等技术手段,这些保护传统音乐的措施又使得科技方进一步思考,如何通过技术手段有效地使“非遗”在人类生活与生产中落地生根。
另一方面, 音乐与科技的联姻也带来了许多值得思考的问题。
其一,如何看待人工智能“创作”的音乐作品的价值? 人工智能是基于程式性的算法产生音乐,虽然其底层算法逻辑是人类赋予的,但它在“创作”时又直接省略了人类发挥主观能动性这一过程。笔者将其称为“程式性的主观能动性”, 这导致人工智能音乐作品的价值难以评判。此外,此类作品的受众群体是谁,作品意义为何等问题都需要思考。如2024年9月,中央音乐学院开学典礼首次亮相“智音” 指挥机器人,并由它登台执棒指挥开场曲《欢迎》(此曲也由人工智能创作)。当乐队指挥被算法精确主导时,那么乐队的灵魂是否也随之消失?
其二, 如何看待科技研究与音乐研究之间的关系? 在各类科技的加持下,人们可能会一味地追求科技层面的表现而淡化音乐规则。本次会议中,许多研究都是从科技角度来阐释音乐,将音乐当成科技研究的附属品, 因而并未真正理解音乐。如各类音乐生成大模型采用海量数据喂养的方式简单粗暴地生产音乐; 各种感应装置追求极高的精确度而忽略了音乐的自由性与表达性; 以及定量研究采用理想化的数理公式而摒弃了音乐的现实性等等。可以说,它们皆以科技主导音乐,而并未融洽地接纳音乐。
其三, 如何看待当下音乐与科技研究的学科定位? 从此次参会人员的构成来看,大多来自计算机科学、电子工程和数学等理工科,而来自音乐学院的研究者占比极低, 这显得此次会议更像是“一个人的狂欢”。这确实是值得音乐学界反思的一个问题。音乐研究者往往对自然科学的研究手段感到陌生,而科技研究者又往往因专业音乐素养的局限而无法深入透彻理解音乐的本质及其规律。在这种背景下,双方该如何看待对方的定位与价值? 这必定是值得长期探索的一个宏观性问题。
综上, 虽然科技在某些方面淡化了人类在音乐创作中特有的思维与情感, 但它更大程度上促进了音乐产业的快速发展, 展现了音乐研究、音乐创作与音乐传承的未来前景。反之,音乐也加速了科技某些方面的更新速度, 反推着科技方进一步思索该如何落实到人类的生活与生产中去。正如韩宝强所言,人工智能音乐的最佳选择应当是社会音乐教育, 因为它能辅助音乐教育领域中的很多重复性劳动, 如基础性的音乐理论学习和日复一日的乐器训练。笔者认为,音乐与科技的结合,只有与人发生实质性关系时才有意义, 这为两者的结合提供了一个可借鉴的价值评判导向。
此外,从“新文科”与“新艺科”的建设趋势来看,当下音乐与科技的融合尚处在一个合作共赢的阶段。目前音乐与科技的研究成果,几乎都是由音乐人员与科技人员共同完成。但是随着时代发展,率先迈出自身“舒适圈”的一方必定优先掌握话语权。不过,所谓“术业有专攻”,在音乐与科技各自规律和壁垒的限制下,双方人员在很长一段时间内仍需互相拥抱与接纳。
郭西洋 武汉音乐学院硕士研究生
(特约编辑 盛汉)