三十年来国内音乐领域算法研究演进趋势分析
——基于CiteSpace的文献计量

2022-12-01 10:19:22赵兴元王晶莹

宜宾学院学报 2022年11期

赵兴元，王晶莹

（1.天水师范学院音乐舞蹈学院，甘肃天水 741000；2.北京师范大学教育学部，北京 100873）

随着人工智能的基础——大数据、算法、算力——“三位一体”地整体性发展，算法研究获得突飞猛进的进展，并且在各个领域都展现了举世瞩目的成就[1]。其中，算法对音乐特征的研究也更加广泛和深入，我国也越来越重视音乐领域算法研究对智能音乐学的影响。自1992年王缉志以探讨“线性算法合成音色”拉开了国内音乐领域算法研究的帷幕以来[2]，时至今日，研究者们已深入该领域，在算法作曲[3-5]、音乐特征识别[6][7]、信息检索[8][9]、音乐风格分析[10][11]等方面形成大量的研究成果。本文将利用CiteSpace软件分析技术，对相关文献进行计量研究，希望为同行进一步开展音乐领域算法研究提供镜鉴。

一、研究设计说明

（一）采集数据

在中国知网（CNKI）中，对有关该领域的核心期刊、CSSCI文献分别进行两次检索。第一次检索式为：SU=(‘音乐’+‘算法’)，获得文献结果383条；二次检索式为：SU=(‘音乐’+‘人工智能’)，获得文献结果100条，共获得483条检索条目。为了提高样本数据分析准确率，在CNKI检索结果界面通过阅读题目、内容摘要等方式，剔除与研究主题无关的征稿通知、新闻报道等相关度低的非研究类文献，并将两次检索结果导入Endnote,进行删重，最后将Endnote中筛选的文献与CNKI检索结果比对整合，检查样本数据的完整性与准确度。最终确定的样本数据为393篇，储存题录信息的同时获取全文内容。

（二）研究方法与工具

本文采用基础统计分析、机构共现分析、关键词聚类分析等量化方法，结合文献样本归纳分析，试图梳理国内音乐领域的算法研究现状与热点，预测未来发展趋势。研究工具是文献计量分析专业工具CiteSpace。

二、国内音乐领域的算法研究现状

（一）相关研究年度发文分析

对特定领域特定学科文献年度分布情况分析能在一定程度上反映出该领域研究的趋势和变化[12]。由图1可以看出，近30年来国内音乐领域算法研究有393篇文章，年均发文量14.04篇。1997年的音乐文献中首次出现“算法”这一概念[13]，此后相关学者一直关注这一新兴领域，但研究文献数量相对较少。直到2018年陈根方在其著作《智能音乐学与中国音乐数字媒体论》中将人工智能引入音乐学领域，并提出了智能音乐学的概念，才由此引发了我国的大讨论。相关研究激增，文献数量不断涌现，该领域也正成为一个迅速发展的热点领域。

（二）相关研究机构分布及合作关系分析

1.机构分布特征

通过1992-2020年的样本数据，使用CiteSpace软件生成相关机构分布表1。在发文机构统计过程中，以二级单位名称为标准进行统计，同一机构的二级单位不进行合并。经统计，得到二级单位发文机构344个，“发文量≥4”的机构有14个（见表1）。从前40名机构论文数量排名看，92.5%的论文来自北京师范大学信息科学与技术学院、复旦大学计算机科学技术学院、华东理工大学信息科学与工程学院、中国人民大学信息学院等高校，音乐专业类院校（上海音乐学院音乐工程系、武汉音乐学院作曲系、中央音乐学院）仅占7.5%。这说明国内音乐领域的算法研究发文方面集中于中国高等院校理工科院系。其中北京师范大学信息科学与技术学院对音乐特征的算法研究发文量最多，共有8篇，其研究对整个领域的发展起着重要的推动作用；其次是复旦大学计算机科学技术学院，发文7篇。

表1 相关研究机构发文量排名（≥4）

2.机构合作关系分析

借助机构间合作关系频次原始数据，利用CiteSpace软件生成机构合作关系可视化图像，如图2。可以看出，高等院校信息科学院、计算机科学学院是国内音乐领域的算法研究的主要力量。图2中的线条表示研究机构是否与外界有合作关系，连接线条的粗细和密集程度表示合作关系的强弱。可以看出，除北京师范大学与中国人民大学、厦门大学合作关系密切外，其它机构之间合作频次较低，各高校科研机构之间的合作网络尚未完全建立，连接强度和密集程度都呈现出弱化的态势。遗憾的是，经过调查分析，我国综合高校与专业音乐院校之间缺乏合作，不利于跨学科的研究发展。

图2 国内音乐领域算法研究机构网络图谱

3.相关发文作者与合作网络分析

（1）发文作者分析

经统计分析发现，有458位作者共同承担了相关的音乐特征的算法研究，排名靠前的作者分布见图3。

图3 国内音乐领域算法研究作者网络图谱

依据普赖斯定律，如果核心作者的发文数量阈值m≥3.30，发文量大于等于4篇的作者则为该领域的核心作者[14]。目前，本研究领域共有5人（见表2），分别是李伟（复旦大学）、周明全（北京师范大学）、李鹏（陕西师范大学）、关欣（天津大学）、王向阳（辽宁师范大学）。5位核心作者共发表文章29篇，占总数（393篇）的7.38%。其中，复旦大学计算机科学技术学院李伟（8篇）和北京师范大学虚拟现实与可视化研究所周明全（8篇）是该领域的领军人物。李伟研究的重点在于音乐科技、音乐人工智能（Music AI）、语音信息处理等，周明全研究的重点在于MIDI旋律特征提取、哼唱音乐检索与旋律匹配模型等。

表2 基于普赖斯定律的核心作者

（2）发文作者合作网络分析

作者合作方面，在20世纪末本领域开始出现作者合作现象，常见国内高校内部或高校之间交流，少有和国外互动。1999年周斌与张凤池[15]合作探讨“计算机配乐与人工智能”的应用，2000年顾健与周敬利、余胜生[16]合作探讨“音乐声道”等问题。此后围绕音乐特征的算法研究作者之间的合作进一步拓展，出现了一些较有影响力的研究团体。利用CiteSpace绘制的图4是作为一张作者网络图谱，其中的节点表示作者，作者之间的连线粗细表示作者之间的合作关系。可以发现，国内比较有影响力的团队有：复旦大学计算机科学技术学院的李伟、冯瑞等；陕西师范大学计算机科学学院的李鹏与北京师范大学信息科学与技术学院的周明全等；辽宁师范大学计算机与信息技术学院的王向阳、杨红颖与中国科学院软件研究所信息安全国家重点实验室的赵红；华中科技大学电信系的孙锐、孙洪与武汉大学通信工程系的姚天任；清华大学电子工程系微波与数字通信技术国家重点实验室的李晔、崔慧娟、唐昆。究其原因，这些团队研究问题比较聚焦，大多与该校学科方向或国家项目有关。一方面，上述团队所在院校凝聚专家学者团体力量开设了人工智能学科方向；另一方面，他们都承担相关的国家自然基金项目，如陕西师范大学的李鹏在2019年主持国家自然科学基金面上项目“基于移动社会网络的校园协作学习交互与微视频扩散关键技术研究”等。值得注意的是，国内音乐领域的算法研究作者合作关系与其他领域比较而言仍较少，研究视角主要从个人视角来研究问题，研究力量也显得较为分散，尤其与音乐专业类院校合作还处于空白阶段，主要原因在于音乐与人工智能的学科属性不同，作为一门交叉学科起步较晚，还未形成稳定的合作网络和研究团体。

三、国内音乐领域算法研究热点

（一）关键词共现与词频分析

关键词共现分析是对样本数据集中提供的关键词的分析[18]，是针对两个或两个以上的关键词在论文之间共同出现的频次来说的。利用关键词的频次和中心度，可以清楚认识到国内音乐领域算法研究的热点，如图4和表3所示。从图4看出，“人工智能”面积最大，这与本研究宏观主题一致。其余圆形较大的关键词依次有“语音增强”“音乐噪声”“音乐检索”“谱减法”“算法作曲”“哼唱检索”“先验信噪比”等，说明以上关键词在样本文献中出现的次数较多、频数较高，是目前该领域研究的热点。对音乐领域算法研究关键词词频降序排名表（表3）进一步证实了这点。从表中可以发现，关键词词频以降序排名，词频越高说明该关键词的文献越多，其中“人工智能”的最高，这与图4一致。综上可以得出，当前国内音乐领域算法研究主要偏向于智能音声识别、智能推荐、智能创作、智能分析等方面。

表3 国内音乐领域算法研究关键词词频降序排名表（≥4）

图4 国内音乐领域算法研究关键词共现网络图谱

（二）关键词突变分析

关键词突变是指一定时间内关键词增长速度的突然加快或使用频率的突然提高，利用突变词的动态变化性，能确切了解该领域的研究前沿[18]。CiteSpace根据突变率权值和年代，排列出了国内音乐领域算法研究中十八个突变率较高的关键词突变图谱（如图5）。根据关键词突变出现的年份和突变率,可将该领域的研究分为四个组别。

图5 国内音乐领域算法研究高突变率关键词图谱

第一组是“数字水印”“音乐”与“音频水印”，其中“音频水印”突变率最高，达到2.9521，“数字水印”突变率次之，突变时间段分别处于2008-2009年和2002-2006年，说明数字水印主题在此期间频次变化较显著。在这段时间内，我国如何利用算法对数字音乐知识产权保障的研究不断深入，包括对MP3压缩攻击特点与音乐听觉掩蔽特性的探索，随之带动相关音频水印主题的研究文献数量增加，成为当时的研究热点与趋势。

第二组是“谱减法”“听觉掩蔽特性”“先验信噪比”“音乐噪声”“语音增强”与“压缩域”，其中，“语音增强”突变率最高，达到7.171，“音乐噪声”也突变明显，成为近几年的研究热点。国内音乐领域算法研究视角逐渐深入微观视角，说明如何去除数字音乐中的杂质和噪声、提高音乐音质的清晰度和可懂度成为该领域的又一研究热点；音乐质量方面的研究不再满足于传统的谱减法、最大似然估计等来改善音乐音质，而是基于RS理论的压缩域算法提高音乐图像处理技术，通过语音增强算法改善数字音乐语音处理系统等维度进行分析，逐渐趋向多元化。

第三组是“音乐检索”“音乐信息检索”“协同过滤”与“音乐推荐”，其中“协同过滤”突变率最高，是2.7408。针对音乐用户需求领域，运用协同过滤、音乐推荐等研究手段进行研究的方法已被业界广泛使用，2010年起便涌现了大量的相关文献。受千万用户喜欢的网易云音乐，就是通过协同过滤推荐算法这一应用最广泛的个性化推荐算法，将海量音乐按照其风格特征的聚类快速推送到用户面前，实现了智能化的音乐听觉需求。正如图5所示，音乐推荐这一主题在2016-2020年的出现频次明显突变，说明国内音乐领域算法研究顺势发展，音乐推荐、协同过滤等研究热点将成为未来发展趋势。

第四组是“支持向量机”“独创性”“深度学习”与“人工智能”，其中，“人工智能”突变率最高，多达11.7716，突变发生时间段为2018-2020年，说明人工智能在当下国内音乐领域算法研究中热度非常高。这一阶段的研究已经深入到了智能推荐、智能视觉、智能语音、智能创作以及机器学习等专业和前沿的技术领域[19]，并已经成为中国智能音乐学研究的热点和前沿。

图6 国内音乐领域的算法研究关键词聚类网络图谱

（三）关键词聚类分析

为了聚焦研究主题，更加清楚地展示关键词之间内在的逻辑关系，借助CiteSpace软件生成国内音乐领域的算法研究关键词聚类网络图谱（图7）。一般来说，图中代表关键词的数字越小，说明其聚类中包含的关键词越多[19]。从图7得知，网络图谱Q值是0.9325，S值是0.5436，说明聚类效果明显，聚类结果有效。目前，国内音乐领域的算法研究聚焦于人工智能、算法作曲、语音增强、音乐推荐、辅助信息、邻接权、人类听觉系统、音乐、音乐流派分类、哼唱检索。从图7来看，涉及多个聚类重叠的核心关键词为“算法作曲”。因此，基于此量化聚类分析结果，综合考察关键词网络图谱，对文献内容进行二次梳理后归纳分析，将国内音乐领域的算法研究的热点主题归纳为人工智能作曲、智能音乐识别、智能音乐检索、智能音乐推荐四个维度。

1.人工智能作曲

人工智能作曲是借助特定的算法和深度学习，利用从音乐作曲理论或某个音乐家的作品、某种音乐流派、某种音乐风格等中提炼出的形式化生成规则,通过参数创作出音乐动机、音乐伴奏、音乐作品等音乐信息的过程[20]。关于人工智能作曲概念界定，刘健提出了“分层结构控制”的概念，认为音乐是通过某种逻辑过程来生成的。刘弘认为遗传算法作曲系统应包括交互的、基于实例的、基于规则的与自发式的四种系统。

关于人工智能作曲算法，学界认为主要有遗传算法[21]、人工神经网络与马尔可夫链[22]等方面。遗传算法方面，崔嘉、曹西征等学者认为遗传算法是人工智能作曲的一种主要手段，苏庆堂认为遗传算法是作曲的知识符号表示，张英俐认为遗传算法在旋律生成乐曲的过程中使用人与作曲系统间建立的交互式系统，生成的乐曲比较符合人们的欣赏习惯。人工神经网络方面，苗北辰等提出基于循环神经网络的多声部音乐生成算法，李雄飞等提出以音乐音频为处理对象的基于长短时记忆递归神经网络的音乐自动合成算法，这两种算法比较方便实现自动作曲，以此得到的模型可以生成旋律与和弦匹配度较好的多声部音乐数据；张晓娜等提出基于粒子群算法优化神经网络的电子音乐分类模型，获得精准度较高的乐曲分类；黄璟提出基于群智优化神经网络构建音乐风格分类模型，帮助用户更快地获取偏好的音乐风格。马尔可夫链方面，郑晓妹等提出基于旋律马尔可夫链的中国民歌自动作曲模式，该模式可以生成具有中国民族音乐特征的乐曲。

关于人工智能作曲系统，常见的有EMI系统、交互式即兴演奏系统GenJam、旋律创作系统ERNN等。研究者普遍采取的做法是将乐谱转换成编码,采用遗传算法中的选择、交叉和变异算子产生新的乐曲，或利用FM技术结合Max/MSP算法作曲平台进行特性模拟、程序构建，实时控制音响并实现乐曲创作[23]。

2.智能音乐识别

名词的意动用法，指的是主语将结构中宾语指的人或者物当作结构中的名词所指代的人或物，可以按照“以为宾语是谓语”的格式进行解释。如：“草菅人命”这个成语指的是将性命看作杂草，意味着肆意践踏性命。

音乐领域中的智能识别，是以提取音乐样本数据的音高、旋律、节奏及节拍等音频特征为主，设置不同分类器进行分类，从而达到识别音乐低层特征、存储音乐基础元素的目的。在探讨如何识别音高问题时，翟景瞳等提出了一种基于自相关处理和快速傅里叶变换(FFT)的改进的单音音高识别算法，该算法比传统的时域处理法具有更高的识别精度；杨岱锦等提出以相对振幅为依据快速提取基频的方法,设计出一种可变区域的傅里叶变换迭代算法，以更加精确地识别哼唱曲调。在探讨旋律特征如何提取时，黄志刚等提出一种应用随机森林的方法自动抽取MIDI文件中主旋律所在的音轨，从而有效规避了从MIDI文件中抓取主旋律信息的难度与误差。在对音乐的情感识别系统分析时，陈晓鸥等指出音乐情感识别系统一般是采用机器学习的方法来建立计算模型，可采用音乐表达情感离散类别模型、通用连续维度模型、音乐唤起情感离散类别模型等模型；蒋旻隽等提出一种基于PAD(pleasure arousal dominance)模型以及基因表达式编程(GEP)算法的音乐情感自动识别方法，该系统能降低识别误差，达到一个比较理想的识别效果。

3.智能音乐检索

智能音乐检索是通过一定的算法，利用有限的音乐信息获取更多相关音乐信息的过程。陈根方认为常见的智能音乐检索方法有基于文本关键词检索、基于内容的音乐检索（可分为基于音乐情感分类检索与基于哼唱的音乐检索）等。目前，类似于百度MP3、谷歌音乐搜索为主的文本关键词检索应用较窄，已无法满足用户的个性化需求，学界对此也关注较少，基于内容的音乐检索技术是该领域的研究热点。王培培等通过使用BDTW算法对音乐数据库和用户提供的哼唱片段进行音高相似性计算，提出一种新的基于语句特征的音乐哼唱快速检索技术,实现哼唱音乐的快速检索。李鹏等在对音乐旋律的定义及表达方式的基础上，根据旋律轮廓的几何相似性实现音乐的相似度计算,提出影响检索算法准确度的若干因素,并通过实验的方法确定相应的阈值,实现检索系统的单机版开发和Web版发布。温赞扬采用Skyline主旋律提取算法提取音乐数据特征，构建BP神经网络结构，采用果蝇群智优化算法对BP神经网络的初始化权值参数进行优化,以便实现音乐风格自动分类。

4.智能音乐推荐

智能音乐推荐是指根据用户的历史浏览数据，从候选库中推荐给用户可能喜欢的音乐的一种新型网络服务。目前学界多根据智能音乐推荐引擎数据源分类进行研究，分为基于音乐用户的推荐、基于内容过滤的推荐以及基于协同过滤的推荐等维度。（1）音乐用户推荐方面，多基于人口统计学、人类行为学角度进行分析，以用户年龄或性别相同的相似用户为研究对象。潘洋等通过提取用户行为数据构建行为特征模型，用以分析用户行为与兴趣的关联性，并采用因子分解机(factorization machine,FM)预测用户行为类型,作为音乐推荐的依据。李瑞敏等通过分析用户对不同音乐基因特征的偏好情况及用户兴趣的相似情况,提出个性化移动音乐推荐系统。（2）内容过滤推荐方面，多基于声学元数据进行分析。牛滨等采用MFCC技术提取歌曲的语音特征,提出一种基于高斯混合模型(GMM)与Mel频率倒谱系数(MFCC)的个性音乐推荐模型的构建方法。张燕等应用分形理论，从构建的音乐数据库中获取音乐风格特征向量,定义出一种新的距离度量方法，完成音频归类和个性化的网络推荐。（3）在协同过滤推荐方面，以发现相同音乐内容或音乐用户的相关性推荐为研究对象。吴海金等提出一种融合分类与协同过滤的情境感知音乐推荐算法，该算法不仅有效地降低了推荐过程的复杂度,还使传统的协同过滤推荐算法具备了情境感知的能力。李博等根据已有的基于音频信息的音乐推荐以及协同过滤方法,分析用户的音乐试听数据以及下载数据,并结合Latent Dirichlet分配(LDA)主题挖掘模型提出的音乐推荐算法，可以更加高效地向用户推荐感兴趣的音乐。

四、国内音乐领域算法研究发展趋势

（一）人工智能作曲能力和领域不断提升

遗传算法、交互式遗传算法、卷积神经网络、循环神经网络、深度神经网络、马尔科夫链等多样化的主流算法共同构建起宏大的人工智能作曲平台。未来，算法作曲系统将得益于多种算法融合的“混合一体型”系统，更加人性化与智慧化，主要围绕两个方面：第一，人工智能乐曲生成的自动化能力不断加强。一方面，人工智能将不断深入人工作曲系统，对其做出建议、补充与配合，并逐渐独立于人工作曲系统之外；另一方面，机器学习将基于深度学习技术读取成千上万的曲子进行学习，从大数据、海量计算中发现更多的音乐风格和有趣的旋律，依靠强大的硬件计算能力实现音乐的全自动生成。第二，人工智能乐曲的运用领域不断增大。将机器学习、音乐作曲和音频制作相融合，创作出用户需求的各种主题与情景的音乐，将是人工智能作曲的未来发展趋势之一，人工智能乐曲在视频游戏、电视预告片、商业广告、短视频、发布会与电影插曲等多个领域中的应用也将更加普及和广泛。

（二）音乐特征识别更加整体化、精细化

音乐特征以专业性强、曲式范式复杂、旋律模块多变等特点，对其人工智能识别提出更高的要求和新的挑战，未来研究从以下两个方面展开：第一，开展基于完整音乐作品的识别。设计音乐信号采集模块与音乐信号处理模块，通过海量数据样本采集与算法设计，识别并提取音乐特征，结合音乐理论自身提供的基础知识构建音乐标签化管理系统，实现音乐作品的整体识别模型体系。第二，开展微观音乐特征识别。着眼于识别比较微观的音乐元素，如细化乐谱、节奏、节拍、音高、音色、调式、旋律、和声、情感、歌手、乐器等音乐特征，基于智能模拟理论、建构主义理论，构建多样化的音乐特征动态识别，提高复杂情况下的音乐特征识别率。

（三）音乐信息检索更简便、系统

随着娱乐等领域对音乐信息检索需求的不断增加，其关键技术也从早期的文本检索向哼唱检索、听歌检索、风格检索等方向发展，并成为数字音乐智能检索研究的未来趋势。其中：第一，基于内容的音乐信息检索(MIR)技术成为数字音乐内容分析理解的关键技术。相对于传统基于文本的音乐搜索，基于音乐内容的搜索和发现则更受人们欢迎。音频内容检索通过分析音高、旋律、调式、和弦、节奏等音频本身，实现音乐旋律的识别和索引。第二，人工智能技术应用检索技术系统化。人工智能时代，音乐检索技术将在优化资源组织与检索需求匹配度的基础上，运用MIR技术、SLB技术、CNN技术等，构建音乐资源综合检索等平台，从而更易发现音乐信息。

（四）音乐综合型推荐模式成为主流

在大数据时代，算法推荐是用户获取音乐信息的重要渠道,推荐质量关乎用户的体验态度。目前，单一的推荐模式不能适应当前社会服务领域的个性化需求，多算法机制构建系统化推荐模式成为目前研究的趋向之一。未来，要遵循个体诉求与群体环境相协调的原则，在构建基于音乐内容的、基于用户对音乐评价的、基于用户与用户之间相似度的推荐系统的基础上，打造基于专家的推荐、基于内容过滤的推荐、基于协同过滤的推荐、基于语境的推荐、基于图模型的推荐以及混合型推荐的音乐综合型推荐模式体系，从而实现个体用户推荐与群组用户推荐相统一，实现实时推荐和偏好推荐相统一，实现音乐风格与情感推荐相统一。通过多种算法机制构建音乐主题推荐模型，提升音乐主题分类精度，使数字音乐消费服务领域更加人性化和普及化。

结语

根据以上的分析，结合三十年来国内音乐领域算法研究的积累，可以作如下总结：第一，随着对音乐领域算法研究的不断深入，国内相关研究在数量、质量上不断提升，发文量在未来几年内将持续上升，具有主题联系紧密并交叉等特征，但存在研究力量分散等问题；第二，相关研究集中在音乐版权保护、音乐智能去噪、算法作曲、音乐检索、音乐推荐等领域，其中算法作曲是最早开始关注本领域研究问题的，并成为促进音乐领域算法研究的主力军；第三，人工智能作曲、智能音乐识别、智能音乐检索、智能音乐推荐作为近年来该领域的研究热点，未来仍有持续探讨的空间。可以预见，多学科共同体是促进国内音乐领域算法研究体系的重要屏障，智能音乐学、音乐科技学等相关学科研究将进一步深入，机器学习等技术的应用将促进国际智能音乐教育的发展，相关研究也更注重当代社会对音乐科技人才的实际需求。

三十年来国内音乐领域算法研究演进趋势分析——基于CiteSpace的文献计量