音乐推荐系统综述

2020-04-09 04:42刘婵娟

广州大学学报（自然科学版） 2020年5期

刘帅，刘婵娟

(1. 广州大学计算科技研究院，广东广州 510006； 2. 大连理工大学计算机科学与技术学院，辽宁大连 116024)

随着互联网的发展，数字音乐成为当前主流消费内容.然而其海量的音乐数据大大超出了受众的承受能力，在海量曲库中寻找个人喜欢的音乐可能引发用户信息疲劳.为了提升用户体验，音乐推荐系统应运而生[1].近年来，研究者们提出了很多相关的算法和解决方案以提高推荐系统的性能和体验，对音乐推荐系统的发展做出了重要贡献.

1 研究背景及意义

1.1 研究背景

根据第45次《中国互联网络发展状况统计报告》[2]，截至2020年3月28日，我国网民规模为9.04亿，手机网民规模为8.97亿，网民中使用手机上网的比例高达99.3%.移动互联网大规模普及的同时，带来了海量信息和数据，信息过载的问题日趋严重，从而促进了搜索引擎和推荐系统的蓬勃发展.

推荐系统是一种绘制用户画像、预测用户爱好，以避免信息过载，为用户提供个性化服务的方法.随着推荐算法的成熟，推荐系统的应用也成为近年的热点，并在各个领域发挥着越来越重要的作用，音乐领域也不例外[3].好的推荐系统可以吸引更多用户加入，与用户产生共鸣，从而创造经济价值.

传统的推荐方法主要包括协同过滤、基于内容的推荐、基于标签的推荐、基于上下文的推荐、基于深度学习的推荐和混合推荐.

用户使用音乐平台的时候，会看到海量的音乐作品，为了尽快找到自己心仪的作品，用户可能会选择查看排行榜或者询问朋友，看看别人在听什么歌曲，喜欢什么歌曲，然后选择一些名列前茅的歌曲收听.这样的方式可以扩展为找到和该用户历史兴趣相似的用户，将他们最近听过和收藏过的歌曲作为推荐结果推送给用户，推荐的结果会更加有参考价值，这种方法就是基于协同过滤的推荐.协同过滤是经典的推荐算法，如矩阵因子分解方法，其数据的来源是用户的历史交互数据.协同过滤的应用非常广泛，但同时也面临着数据稀疏和冷启动等问题，同时，由于协同过滤的模型所限，在特征提取方面存在着很多不足，从而会限制推荐系统的准确率[4].

基于内容的推荐方法是通过提取物品特征，将用户已选择过(如点击、收藏、不感兴趣和单曲循环等操作)的物品与其他物品计算相似度，将相似度较高的物品以列表的形式推荐给用户.而传统的协同过滤所使用的特征是人工添加的，制约了该方法的性能及其扩展性.

基于标签的推荐则是利用用户对物品打上的标签来分析用户的偏好，但这种推荐方法更适用于乐于打标签的用户.而且，由于用户打标签是一种主观意愿的表达，为了实现标签的客观性，可以通过网站官方对歌曲或歌单打上客观标签来补足.与此同时，基于标签的推荐会存在一定的数据稀疏和冷启动的问题.

混合推荐是将多种推荐方法取长补短，来克服冷启动和数据稀疏问题.移动互联网的普及，使得用户的数据信息变得更加具体、更加多样化，包括用户的评分、为物品所打的标签、所处的位置、与智能终端的交互等.但由于上述数据存在着信息规模大、数据非结构化和来源广泛等问题，如何有效地利用这些数据仍然面临着挑战[5-6].

近年来，深度学习在多个方面取得突破，同时为推荐系统带来了新的机遇.一方面，由于深度学习所使用的是深层次的神经网络，因此，可以从大量数据中学习提取特征，能够用多维度、多层次的特征来表示用户和物品；另一方面，深度学习能够将不同维度、不同层次的数据表征到同一个隐空间，更加便于处理复杂数据，提取更接近本质的特征.在此基础上融合了传统的推荐方法，能够有效地挖掘数据特征，在一定程度上可以解决传统推荐系统中的数据稀疏和冷启动问题[7].近年来，基于深度学习的推荐系统研究成为新的研究趋势.

1.2 研究意义

移动互联网的迅速发展为人们的生活带来了便利，日常生活内容大都可以在网络上完成，如订外卖、打车、听音乐、看电影及网购等，同时也带来了海量的数据，这些行为数据对研究人们的偏好大有益处.但是海量的内容同样会困扰用户，难以在巨大的信息库中找到自己感兴趣的内容，因此，推荐系统正在变得越来越重要.例如，在线视频门户Netflix中有80%的点击量来自推荐[8]，知名视频网站YouTube大约有60%的点击量来自于推荐[9].推荐系统的广泛应用，为用户和平台带来了更加良性的关系，好的推荐系统可以实现用户和平台双赢.对用户而言，可以从枯燥繁琐的寻找中解脱出来；对平台而言，可以使用户更加依赖平台，从而成为稳定的用户群体，平台可以通过提供付费服务和广告投放得到利润.

移动互联网和移动终端的普及带来了数以亿计的网民群体，但对于音乐这样的艺术作品，不同的用户之间的品味和喜好各不相同，因此，为了扩大平台的用户群、增强用户黏性，音乐个性化服务已成为当前在线音乐平台的核心竞争力之一，如网易云音乐、QQ音乐及国外的iTunes、Spotify等.

一个好的音乐推荐系统，需要有效地结合音频特征、用户及平台所打标签、用户交互等方面，来使推荐系统更加精准，用户体验更加良好.本文着力于概述音乐推荐系统目前主要的研究方法以及面临的问题和挑战.

2 音乐推荐系统的研究方法

一个好的推荐算法可以取得良好的准确率、召回率，这些指标是衡量推荐系统性能的重要因素.推荐系统的研究大都集中于如何提升算法的推荐效果.

二十世纪90年代，为了解决邮件过滤的问题，协同过滤算法随之诞生，从此推荐系统的研究进入了飞速发展的阶段.随着推荐系统的影响日益扩大，ACM主办了推荐系统会议RecSys，会议致力于推动推荐系统的发展，其论文涵盖了推荐系统的各个方面.在此之后，Netflix采用大赛的形式征集可以有效提高电影预测准确率的算法，由于比赛所使用的数据集开源，也有力推动了电影推荐算法的发展.与此同时，人工智能各个领域之间相互影响、相互促进，其他领域的突破性成果也促进了推荐系统的发展.

音乐推荐系统常用的方法有协同过滤、基于评论、基于内容、基于标签、基于上下文、基于深度学习和混合推荐等方法.

2.1 基于协同过滤的推荐方法

协同过滤的基本思想是“物以类聚，人以群分”，将喜好相似度高的用户作为一个群体，并将群体内其他成员所喜欢的物品作为推荐列表推送给用户，这就是基于用户的协同过滤；基于物品的协同过滤是将相似的物品推荐给相似的用户.传统的协同过滤利用的不是物品的本身特征，而是用户和物品的交互数据，因此，引入深度学习方法可以挖掘出潜在特征，以使得推荐结果更加符合用户偏好.其中，主要有基于受限玻尔兹曼机[10]和自动编码器[11-12]等方法，文献[12]将评分矩阵作为输入，预测结果即为编码器输出.而文献[11]认为由于评分和辅助信息的稀疏性质，学习到的潜在因素效果受到限制，提出了一种基于深度学习，将概率矩阵分解和自动编码器相结合的可扩展框架.

协同过滤分为基于物品和基于用户两类，由于两种方法都不直接利用物品本身内容的相似度，因此，有很强的扩展性，这种方法可以不受物品类别的限制应用于各个方面，所以在推荐系统发展的初期广受青睐.

传统的协同过滤只利用了用户和物品的交互信息，除此之外还有诸多可利用的上下文信息，如位置、天气、特殊的节日和音乐平台内的操作日志，如最近收藏的歌曲、最近单曲循环的歌曲、新建的歌单及用户停留时长，为了实现更加精准的推荐，可以将这些信息都融入协同过滤.Hansen等[13]采用列表中歌曲同时出现的概率来衡量歌曲间的相似度，歌曲同时出现的概率越大，则歌曲越相似.Pampalk等[14]提出通过以种子歌曲为主创建启发式随机列表，基于音频相似度为用户推荐，并融入用户交互操作(如“跳过”“喜欢”等)进一步完善推荐列表.实验证明，该方法能够明显降低用户对推荐歌曲的不满意度.文献[14]和[15]通过“喜欢”“跳过”等用户交互信息来实时调整各类音乐特征在实际应用环境中所占的比例，使得用户有更高的满意度.Park等[16]认为用户喜欢的音乐与位置、天气等上下文信息紧密相关，因此，提出一种情境感知音乐推荐系统CA-MRS，该系统利用模糊系统、贝叶斯网络和效用理论来针对当前情境实现更加精准的推荐.

传统的协同过滤分别通过计算用户或者物品的相似性来进行推荐，如基于物品的协同过滤是通过共同喜好的用户计算物品之间的相似度.1998年，Amazon公司首次将基于物品的推荐系统服务大规模应用[17].

以下为三种相似度的计算方式：

(1)Pearson相关系数，如下公式所示：

(2)余弦相似性，如下公式所示：

(3)Jaccard相似性，如下公式所示：

协同过滤的两种方法从本质上来说，都是以交互信息为核心，因此，面临着数据稀疏的问题，数据量越大，数据稀疏带来的影响也越大.为了克服数据稀疏带来的负面影响，基于模型的协同过滤应运而生.其中，文献[18]和[19]都是基于矩阵分解的模型，文献[18]提出了SVD模型，认为矩阵因子分解模型生成的推荐效果优于经典的最近邻技术，并且加入了隐反馈、时间效应和置信度等因素.文献[19]提出了CF算法交替最小二乘加权正则化(ALS-WR)，实验证明，ALS-WR的性能(均方根误差)随功能数量和ALS迭代数量的增加而单调提高.但基于模型的算法只能处理线性特征.在现实要处理的数据中，充斥着非线性的因素，后来出现了一些新的算法，如因子分解机[20]就是这类算法的扩展.

2.2 基于评论的推荐方法

音乐是一种以声音为媒介的艺术形式，是一种包含着情感、风格和宗教等的文化表达，听众对不同音乐之间的偏好大相径庭，因此，个性化推荐十分重要.评论作为用户对该音乐的直接评价，从评论中可以发现用户的兴趣偏好、对歌曲本身的评价、对这种音乐风格的评价以及对音乐派别的偏好.

Mandel等[21]设计了一个基于网络的游戏MajorMiner，测量了可训练二进制分类器以提取标签内容，进而实现基于标签的推荐.Kaji等[22]使用歌词和注释来发现音乐种类及用户口味之间的相似性.它根据基于内容的方法结合用户的喜好和情况生成一个播放列表，通过“喜欢”“跳过”等用户交互数据来实时改变播放列表，以更加符合用户偏好.

基于评论的音乐推荐优势在于，首先，评论是用户感受的直观表达，相比于其他方法，与用户真实理解之间有更小的歧义[23]；其次，可以实时获取用户的情感状态，以形成跟随用户情绪变化的推荐，因此，时效性较强.

然而，基于评论的推荐也面临冷启动和长尾效应等问题.首先，要有大量乐于评论的用户来填充评论区，对于没有足够乐于评论的用户的平台则无法使用这种方法；其次，热门歌曲会吸引更多用户来评论，而相对冷门的歌曲本身曝光率较低，得到评论的概率会比较低，可能难以提取足够的信息进行推荐.

2.3 基于内容的推荐方法

音频内容本身包含着吸引用户的特征，如节奏、旋律和乐器等影响用户偏好的因素，因此，有效提取出对用户产生吸引的本质特征是重中之重.早期基于内容的推荐是通过音频处理方法(如离散傅里叶变换)等方法处理音频数据来提取特征，其中涉及一些常用的音乐特征参数，包括频率中心、短时平均能量、过零率、梅尔频率倒谱系数及带宽等[24-25].

(1)频率中心

频率中心是指频率在信号功率谱中的加权平均值.公式如下：

其中，F(w)是经过离散傅里叶变换得到的帧频谱，w=fs/2，fs是采样频率.

(2)短时平均能量

短时平均能量指在一个固定的短时区间内，音频信号帧内采样点信号所累积能量的平均值.公式如下：

(3)过零率

过零率表示语音信号波穿过横轴的次数.广泛用于区分高低频段[26]，公式如下：

其中，sgn[]为符号函数，即

(4)均方根

(5)节拍直方图

节拍直方图可以直观地表示节拍和节奏的变化[27].首先，利用小波变换得到原始音频信号的一系列子频带，公式如下：

然后，对子频带分别进行低通滤波、下采样操作得到时域上的振幅包络线，再对其求和，结合自相关函数分析，将得到的前5个峰值相加即得到节拍直方图.

(6)梅尔频率倒谱系数：

梅尔频率倒谱系数是组成梅尔频率倒谱(基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换)的系数，它源于音频片段的倒频谱.

(7)带宽

带宽表示音频信号所占有的频率宽度，这个宽度由传输信号的最高频率和最低频率决定，两者之差就是带宽值.

音乐作为一种艺术形式，吸引用户、与用户产生共鸣的因素有很多，其中最重要的就是音频本身的特征，如语言、旋律、乐器、流派、歌词和音乐人等.因此，根据音频本身来进行推荐，推荐效果会更加精准.

在实际应用中，实现基于内容的音乐推荐主要分为以下四个部分：

(1)绘制用户画像，用户画像包括用户的年龄、性别、国籍、听歌偏好及与系统的交互信息等；

(2)将音乐embedding为相应的特征向量；

(3)按选定的推荐方法生成候选集；

(4)将用户画像、音乐的特征向量按照推荐方法建模，在候选集中以TopN的方式为用户推荐相似度高的音乐列表.

用户画像是用户信息的数据化，其目的是为了更加贴合用户的喜好和使用习惯，用户画像也与用户所处情境密切相关.为了更加准确地描绘出音乐作品，第一步需要提取尽可能多的会影响用户偏好的特征，使得推荐更加符合用户需求.音频形式可以通过卷积神经网络来提取特征，这部分就是特征工程，特征工程的目的就是将音频embedding为特征向量；第二步是生成候选集，这一步的目的在于简化处理问题的规模，在保证推荐效果的前提下减小计算量；第三步是排序，排序需要用到前两步的结果，利用用户画像及音频的特征向量作为排序的依据，以用户交互数据来训练回归模型.文献[28]提出了一种潜在因素模型，该模型通过滤波器组处理音频，滤波器通过卷积神经网络提取梅尔频谱系数[29].梅尔频谱系数是可以用于表示人的听觉效应的特征，基于梅尔频谱特征建模可以学习到潜在的与用户偏好相关的特征，并证明了使用潜在特征可以给出相比于协同过滤更加明确的推荐，而且在一定程度上克服了冷启动的问题.因此，梅尔频谱系数广泛应用于音频信息分析等领域[30].文献[31]提出另外一种重要的音频特征——色度向量，可用于判断音阶，从而使推荐效果更加精准.

基于内容推荐的优势在于推荐的依据来源于物品的本身属性，可以有效地避免冷启动和长尾效应问题，但其面临着特征提取难度高、计算复杂、难以挖掘用户的潜在兴趣等问题.

2.4 基于标签的推荐方法

基于标签的推荐本质上是根据标签之间的相似度来为用户推荐物品.标签最常见的用法是，用户会为自己感兴趣的物品打上一些标签，这些标签可以作为分类的依据，也是用户个人偏好的反映.因此，标签数据成为推荐系统获得用户偏好的一个新来源，这些标签是用户表达主观判断想法的一种方式，是一种较为主观的方法.但有些电商网站也会给用户或商品打上一些客观的标签，例如经常网购数码产品的用户，就会被打上“数码达人”的标签，在今后的推荐中，可以更多地向该用户推荐数码类产品.如国外著名音乐网站Last.fm，会通过分析用户的听歌行为为用户推荐个性化的音乐.由于音乐属于流媒体，分析音频内容较为复杂，因此，Last.fm引入了标签系统，用户可以在听音乐时对音乐或歌手打标签.歌曲标签的来源一般有两个：专业音乐人打的标签和音乐所属歌单的标签.当用户创建一个歌单时，会为歌单打标签，这些标签也可以作为这个歌单里歌曲的标签.歌单是用户主观创造的，在一定程度上表达了用户的偏好信息，这些标签便可以更紧密地将用户和歌曲连接起来[32].

Nanopoulos等[33]提出了使用三阶张量对社交标签数据进行建模的方法，这些张量捕获了用户、标签和音乐项目等三个方面之间的相关性，该模型通过高阶奇异值分解发现潜在结构，可以提供更加准确和个性化的推荐.Kim[34]从标签数据中提取出情感的类别，在此基础上提出基于情感标签的音乐推荐方法.

标签作为连接用户与物品之间的纽带，增加了推荐系统的可解释性和多样性，但基于标签的推荐方法同样面临着无法解决冷启动和数据稀疏性的问题.

2.5 基于上下文的推荐方法

为了不向用户推荐不合时宜的物品，推荐系统需要对用户所处的情境有一定的感知能力，应结合用户的情感变化、节日等影响用户听歌习惯的信息来进行推荐.其中，时间效应是最重要的因素，用户的兴趣会随着时间推移而发生变化.时间效应对用户的兴趣偏好变化以及推荐系统的效果有着直接的影响，主要表现在以下四个方面：①偏好迁移：随着时间的推移，用户的偏好、兴趣发生改变；②生命周期,即事物合理存在的时间周期；③季节效应：事物的流行度与季节是强相关的，反映时间本身对用户偏好的影响；④节日选择：不同的节日会对用户的选择产生影响[32].Shen等[35]提出了一种人格与情感相结合的专注模型(PEIA)，该模型充分利用社交媒体数据，结合用户稳定的兴趣偏好，即个性以及短期的兴趣偏好爱好——情感建模，该模型充分利用了个性化的用户特征、情感化的用户特征等多方面属性的音乐特征，实验证明，该模型取得了良好的推荐效果.

由于音频信号处理需要耗费大量的计算资源，所提取的特征和用户的主观感受之间有着较大的差距，因此，研究者们将目光转向了基于上下文的推荐.上下文指的是用户在与音乐平台交互期间及其前后所产生的交互数据，如播放次数、用户评价等[36].Markus[37]提出了以用户为中心，基于位置感知的推荐方法，根据音乐上下文和用户上下文来推断用户喜好的方法.Yapriady等[38]首先通过年龄、性别和国籍等三类个人信息计算当前用户和其他用户的相似度权值Da,u：

其中，

然后结合Da,u和Pearson相关系数来预测当前用户a对歌曲i的喜好程度.其中，ru,i为用户u对歌曲i的评分，N是用户总数，a为当前用户，rm为五分制评分体系的中值3[36].

基于上下文特征的推荐系统不能单独作为推荐系统使用，但是可以极大地提高推荐的效率和准确率[36]，缺点是存在冷启动和数据稀疏的问题,且推荐结果的多样性不足.

2.6 基于深度学习的推荐方法

在过去的几十年里，深度学习取得了巨大的成功.深度学习取得的大幅进步极大地改变了推荐体系结构，也极大地提高了推荐系统的性能.基于深度学习的推荐系统使用了深度神经网络，可以有效地表达非线性的抽象关联，表征复杂关系，推荐效果更加突出.

Oord等[28]提出一种使用卷积神经网络从音频信号中提取特征的方法，即使用矩阵分解的方法得到音乐的特征向量，将音频信号embedding为特征向量，该神经网络可以检测到和弦、乐器等音频固有特征，有效克服了基于历史数据推荐不能提取用户兴趣特征的缺陷.

深度学习使用多层网络来发现用户和歌曲之间深层次的关系，并将用户与歌曲并向量化表示用户或物品.此外，深度学习还可以学习到用户信息以及物品信息的多维度特征，例如文本、音频、视频等内容的深层次特征，从而获得更好的推荐效果.最初基于深度学习的推荐系统源于受限玻尔兹曼机算法[10].近年来，由于硬件的进步与深度学习算法的日趋成熟，基于深度学习推荐系统的研究也取得了大幅进步.Covington等[39]提出了一种基于Wide & Deep神经网络的YouTube视频推荐系统.Okura等[40]提出了基于RNN的新闻推荐，并将其应用于Yahoo的新闻推荐系统.Li 等[11]提出一个自动编码与协同过滤相结合的框架，该模型的损失函数公式如下：

βL(Y,V)+γL(X,U).

损失函数的第一部分是矩阵分解部分的损失，第二部分是矩阵分解的正则化项，第三部分和第四部分分别表示用户侧和物品侧自动编码器的损失函数.自动编码器将编码器编码用于输入，编码向量则分别对应矩阵U和矩阵V.

YouTube是世界上规模最大的视频网站，其推荐系统也卓有成效. Covington 等[39]在2016年发表了使用Wide & Deep神经网络做YouTube推荐的技术细节.该论文所述的YouTube推荐系统主要由两部分构成：产生候选集和对候选集进行排序.通过多层网络产生候选集，其为用户U(场景C)在视频库V中预测出视频的类别是i，公式如下所示：

其中，vi表示视频的特征向量，u表示用户的特征向量.候选集可以在C的情境下,利用用户信息学习到用户和视频的特征,并embedding为向量.使用Word Embedding方式将用户的观看历史、搜索记录向量化，并结合用户本身的特征信息以及视频的其他特征作为神经网络的输入，使用ReLU作为激活函数，然后通过两个全连接层学习用户和视频的特征向量，产生TopN的候选集.排序是将连续的类别特征归一化，然后通过几层ReLU输出结果.

基于深度学习的推荐方法及优势在于利用深度模型学习到深层次的特征及潜在的用户和物品之间的关联，同时也面临着可解释性差、超参数调优难度较大等方面的问题.

2.7 混合推荐

由于各个推荐方法都存在自己的缺陷，因此，将多种推荐方法融合，取长补短，成为大势所趋，同时也可以获得更好的推荐结果.利用混合推荐算法，能够更好地避免当前主流推荐算法存在的冷启动和数据稀疏性问题.

混合型推荐系统一般可分为三类[41]：①将基于内容和基于协同过滤的推荐使用线性组合等方法融合；②将一种方法融入另一种方法中；③将两种方法做前期融合得到一个统一的推荐结果.另外，文献[42]显示，结合丰富的上下文数据，如消费记录、评分、标签等数据有利于推荐更符合用户当前情境的音乐.推荐系统另一个重要方面是透明度，如果推荐系统只提供推荐结果而没有对推荐原因的解释，用户难以产生对推荐系统的信任.因此，系统应增加对推荐的解释，明确告知用户推荐理由，从而增强用户的信任度和参与感[43].关于对推荐结果的解释有两种常用的方法，即激励法和满足法[44].文献[43]认为好的解释能说服用户乐于参与到推荐系统中，文献[44]则认为好的解释能让用户更易接受推荐结果.Bilgic等[44]提出了三种解释方法：①基于关键词：主要适用于基于内容的推荐系统，通过提取音频特征，将音频特征相似的音乐通过关键词的形式作为推荐的解释；②基于近邻：主要适用于基于协同过滤的推荐系统，将相似用户的选择作为推荐理由；③基于影响：将用户过往对某物品的评论及评分作为推荐理由.实验结果显示，基于关键词和影响的解释方式效果更为明显，而基于近邻的解释可能导致用户因被推荐对象的过高评价而不信任系统[36].

由于在基于内容的推荐中，提取出的底层音频特征和用户理解之间存在较大的差距，即底层音频特征难以具体全面地表征歌曲本身.因此，从音频信号中获取情感等高级的音乐特征成为了新的趋势.Feng等[45]认为音乐与情绪紧密相关，并建立模型训练反向传播神经网络分类器，通过节奏和发音两个特征来检测情绪.在常规节奏的基础上计算相对节奏，公式如下：

其中，s和f分别表示整首歌曲中节奏的最快值和最慢值.

平均静率ASR及短时间平均能量avgSTE计算公式如下：

其中，N为单位时间内的帧数，STE(n)为第n帧的短时能量，ρ为常数，a(k)为第k帧中时间点k所对应的信号幅度.然后对歌曲进行情感分类，包含快乐、悲伤、愤怒和恐惧四类.

文献[46]数量化地度量了兴趣度.Silbershatz等[47]将主观的用户兴趣度定义为用户偏好因新物品产生的变化，即“不可预测性”，客观度量了用户的主观感受，并提出对兴趣度I的度量公式：

其中，α为用户想法，E为新的根据，ε为支持用户想法的原本根据，p(α|ε)是对α的信心，p(α|E,ε)为根据E对用户想法做出的新判断[36].

3 常用的音乐数据集

数据是推荐系统的基石，一个优质的数据集可以对推荐算法起到至关重要的作用，有助于实验的顺利进行和算法的有效验证.本章将介绍音乐推荐系统中常用的几个数据集：Million Song Dataset数据集、Last.fm数据集、FMA数据集和HetRec 2011数据集.

3.1 Million Song Dataset

Million Song Dataset(MSD)包含了100万首歌曲的信息，总量约280GB.使用了h5的文件压缩格式，并提供了一些code用于读取.每首歌对应一个文件，字段包括歌曲的方方面面，如 artist_id，artist_name，title，tempo等[48].

3.2 Last.fm数据集

Last.fm是一个音乐网站，提供了音乐推荐的数据集[49].该数据集包含了用户对艺术家的喜欢列表和播放次数交互数据及所打标签.

Last.fm数据集可以从GroupLens网站下载，分别有1 K users和360 K users两个规模，该数据集包含7个文件，分别是README，artists.dat, tags.dat，user_artists.dat，user_friends.dat，user_taggedartists.dat和user_taggedartists-timestamps.dat.

3.3 Free Music Archive(FMA)

FMA是一个开放的有音频的数据集，FMA以161个流派的分级分类法，提供来自16 341位艺术家和14 854张专辑的106 574条曲目共917 GB音频.该数据集提供了全长和高质量的音频、预先计算的功能、轨道和用户级别的元数据、标签以及诸如传记之类的自由格式文本[49].

压缩文件fma_metadata.zip(342 MB)中囊括了所有曲目的所有元数据和功能，共包含四个条目：①tracks.csv：包含106 574条音轨的元数据，例如ID、标题、艺术家、流派、标签和播放次数；②genres.csv：包含163个流派ID及其名称和父级(用于推断流派)；③features.csv：使用librosa提取的常用功能；④echonest.csv：由Echonest(现在为Spotify)提供的音频功能，用于13 129条音轨的子集.

通过FMA可以得到各种大小的MP3编码音频数据：①fma_small.zip：8 000首30 s曲目，8种平衡类型(类似GTZAN)(7.2 GB)；②fma_medium.zip：25 000首30 s曲目，16种不平衡类型(22 GB)；③fma_large.zip：30 s的106 574首曲目，161种不平衡类型(93 GB)；④fma_full.zip：106 574个未修饰的曲目，161个不平衡的类型(879 GB).

3.4 HetRec 2011

这是2011年HetRec会议发布的从Last.fm获取的数据集[49].它包含社会好友关系及标签信息.数据集内容统计数据如下：1 892 users，17 632 artists，12 717个好友关系，92 834 user-listened artist relations，11 946 tags，186 479 tag assignments (tas)，i.e.， tuples [user, tag, artist].

3.5 场景分析

本章介绍了四种常用数据集.其中，Million Song Dataset数据集、Last.fm数据集及HetRec 2011数据集既适用于基于标签的推荐场景，也适用于社交关系类的推荐场景.而FMA数据集包含音频信息，适用于基于内容和基于标签的推荐.

4 未来的研究方向和待解决的问题

关于推荐系统的研究还面临着一些关键问题和挑战.下面就冷启动、评价指标难以统一、针对移动终端的音乐推荐以及特征提取和选择等问题展开分析.

4.1 冷启动

目前，有关推荐系统的研究方法，都需要借助于用户物品及其交互行为等大规模的历史数据集来进行推荐，而对于没有用户积累的平台或网站则面临着冷启动的问题.冷启动是指对于新的网站、平台或面临新加入用户的情况下，由于没有大量用户的历史交互数据，在设计推荐系统的时候无法使用需大量历史数据训练的推荐方法.

解决冷启动的关键是如何在没有历史数据的基础上做出让用户满意的推荐内容.冷启动问题的类型主要分为三大类：①用户冷启动：由于新用户没有与平台的历史交互数据，无法对用户兴趣进行建模，需要解决如何给新用户做个性化推荐的问题；②物品冷启动：由于新物品没有与用户产生过交互，需要解决如何将新的物品推荐给可能对它感兴趣的用户的问题；③系统冷启动：新平台没有用户和用户交互的历史数据，只存在物品信息，需要解决如何推荐物品的问题.由于冷启动需要在没有历史数据的情况下进行推荐，问题就在于系统没有用户和物品数据的情况下做算法推荐分析，因此，用户冷启动和物品冷启动需要优先解决.

对于冷启动的解决方法有：①将热门物品推荐给用户；②利用用户注册时填写的偏好信息；③利用用户上下文信息；④利用第三方数据；⑤利用用户和系统间的交互；⑥利用物品内容属性；⑦利用平台的标签数据[32].其中，热门物品排行榜在实际场景中应用范围最为广泛，如微博的“热搜”和美团的美食频道会把附近的商家根据热度排序展示给新用户.

RecSys 2017会议上，Oramas等[50]着力于解决如何推荐缺乏历史交互数据的艺术家，通过使用深度网络体系结构,将文本和音频信息与用户反馈数据相结合,以解决这个音乐推荐中的物品冷启动问题.

4.2 评价指标的单一

目前，很多音乐推荐系统都是通过点击率、转化率、网站成交额和召回率度量推荐结果或者产生一个TopN推荐列表.以上的评价指标本质上都是基于预测准确率.因此，当前系统的评价结构过于单一.

针对这一问题，出现了一些新的评测指标如新颖性[51]以及惊喜度[52]等.通过最优化其中一个评测指标，同时综合其他指标进行推荐，使得推荐效果更加符合用户需求.Celma[53]提出流行度长尾尾部的音乐可能更加让用户觉得新颖.假设S表示用户集合，那么用户u的推荐列表的新颖性定义如下[54]：

其中，R是一个TopN函数，Ru,20表示把推荐列表中前20项推荐给用户u，popi表示对音乐偏好程度的预期.

文献[55]和文献[56]提出用户需求还应包括意外和惊喜，并提出惊喜度以度量推荐者系统生成推荐列表的偶然性.惊喜度是指推荐结果与所使用的推荐方法得出的用户偏好不同，但用户对结果感到满意.一般通过Unserendipity来度量惊喜度，公式如下：

Unserendipity=

其中，cosSim(i,h)的值是指用户历史兴趣Hu和新的推荐结果之间的平均相似度，表示推荐结果和用户历史兴趣的相似程度，相似程度越小，则推荐的惊喜度越大.Zhang等[57]认为理想的推荐系统应模仿可信赖的朋友或专家的行为，并在此基础上提出了Auralist推荐框架，在准确性、多样性、新颖性和偶然性等四个因素之间取得平衡.使用“偶然发现”的新颖性算法，演示了一种将偶然性、新颖性和多样性成功注入建议中的方法，同时限制了对准确性的影响.研究结果显示，Auralist框架对偶然性的重视提高了用户满意度.

4.3 移动终端的音乐推荐

随着移动互联网的飞速发展，用户通过移动终端使用音乐推荐服务已成为新的趋势.当前的音乐推荐系统依赖音频特征和用户历史交互日志来进行音乐推荐，忽略了用户所处情境对用户选择音乐的影响，而导致推荐的滞后性明显[58].用户所处情境主要包括用户访问推荐系统的时间、地点、心情、天气和当前活动等，人受不同的情境影响，对一首歌的感受也会发生变化.因此，根据情境因素推荐音乐，有利于做出更加准确的推荐.

Wang等[59]利用通过移动设备收集的上下文信息来满足用户的短期音乐播放需求，并提出一种概率模型，结合上下文信息与音乐内容以提供日常活动的音乐推荐.Braunhofer等[60]提出一个基于情境感知的音乐推荐系统，该系统能够考虑在特定时刻影响用户偏好的情境条件(如用户的心情或位置)来做出推荐，开发了一种移动应用程序，可以为每个访问感兴趣的地点提出路线并播放推荐的音乐，并做出实时评估.研究表明，这种情况下推荐的音乐更加适合感兴趣的地点，用户的满意度也更高.

由于移动设备的智能化以及高度依赖性，移动智能终端能够实时捕捉用户听音乐时的情境信息，及时获取大量上下文数据，可以更加具体地感知用户所处的情境.因此，如何在实现移动环境下基于情景感知的音乐推荐系统中提升用户体验，增加用户黏性，将成为下一个研究热点.

4.4 特征提取与选择问题

音乐是一种表达情感的艺术形式，其情感表达作为音乐的高阶属性，是用户偏好的重要影响因素，很难被流派、旋律、节奏等低层次的音频特征完整地表示出来.因此，如何缩小所提取的特征与音乐情感属性及用户理解之间的差距成为亟待解决的问题[3].

5 结语

本文从对音乐信息处理方法的角度对当前音乐推荐研究成果进行了较为全面的概述，指出当前研究中存在冷启动难以有效推荐、评测指标唯准确率论、缺乏对用户行为和需求的系统研究以及提取的特征与音乐情感属性及用户理解之间差距较大的问题.本文认为可以从冷启动、拓展评价指标、移动终端的音乐推荐及音频特征提取和选择等方面展开研究与探讨.