深度学习在音频资源推荐中的应用策略*

2022-01-22 07:33刘芷茵

图书馆学刊 2021年12期

刘芷茵

（广州市越秀区图书馆，广东广州510030）

1 引言

在信息技术高速发展的当下，人们获取的信息资源日益丰富，资源载体多样，传输渠道多元，信息传播进入智能融媒体时代。图书馆作为传统文化资源的收藏、传播场所，要充分发挥文化宣传的阵地作用，让读者接触优质的信息资源，了解中华优秀传统文化。近年来，图书馆向读者提供的多媒体资源的数量与种类日渐增多。其中，有声资源越来越受到人们的重视，利用有声读物进行听阅读已逐渐成为一种新型的阅读方式。中老年读者视力减弱，更倾向于解放眼睛，采用听的方式来阅读。青少年学习压力大，课外阅读时间少，也倾向于采取随时随地想听就听的方式作为汲取新知识的补充手段。此外，图书馆面向社会大众提供的大量地方曲艺、民族风情音乐等地方特色音频资源，也为广大音乐爱好者、学习者、研究者提供了优质的平台。向读者推介优质的、符合其信息需求的音频资源，可以促进文化信息资源共享，让读者感受到传统文化的魅力，提升读者的文化素养，但这类资源具有数据量大、媒体种类多、非结构化等特点，且读者的需求难以捕捉，需借助智能技术实现。深度学习是实现人工智能的有效手段，得益于分布式运算的广泛应用、算力的大幅提升，深度学习逐渐升温，利用深度学习为读者进行音频资源个性化推荐是图书馆界值得研究的课题。

2 国内公共图书馆音频资源服务概述

一直以来，为了促进全民阅读，推动公共文化服务数字化、均等化，实现文化惠民，图书馆界在数字资源建设方面不遗余力，建设了大量的资源数据库。为了解决视障人士的文化需求，满足社会公众除了用眼看，还乐于用耳听的阅读需求，图书馆界加大了数字有声资源的建设力度。文化和旅游部全国公共文化发展中心于2013年起建设“心声·音频馆”音频库，建有各类文化艺术音频5万余小时，全国多地图书馆引进开通使用。山东省图书馆于2014年建成“光明之家”数字图书馆，帮助视障群体跨越数字鸿沟。2015年武汉图书馆携手武汉音乐广播推出“武图之声”广播节目，将图书馆的荐书、讲座、地方文化研究等资源通过媒体向大众传播[1]。温州市瓯海区图书馆2017年开始启用“有声阅读馆”供读者录制朗读作品，为全市读者搭建朗读共享平台。太原市图书馆于2018年推出“太图之声”听媒体平台，以“文字+图像+音频”的方式分享好书。2020年以来，众多图书馆将阅读推广活动从线下转移到了线上，活动开展的如火如荼。内蒙古图书馆为少儿提供绘本阅读服务，打造“哈尼之声”。金陵图书馆在微信公众平台推出馆员原创对话节目“青青云谭微电台”。广州市越秀区图书馆组织志愿者团队诵读经典录制音频作品，还组织馆员自制“红阅读”音频资源，在官网与微信公众平台与读者分享。近年来，各类由资源服务商提供的有声读物资源平台也应运而生，如书香中国听书馆、云图有声数据库、时夕有声读物数据库、天方有声数字图书馆、新语听书馆、朗锐百听数字听书平台、“听世界”博看期刊数据库等，涵盖了党建、文学、文化、艺术、科学、历史、经济、教育等领域，内容涉及有声书、评书、相声、童谣、少儿故事、影视赏析等方面。此类有声资源平台基本上都开放了资源的题名、著者、演播者、简介、章节全文等元数据供用户检索利用。

传承和弘扬传统文化是图书馆承担的重要使命，国内众多公共图书馆收集、整理独具地方特色的音频资源以及相关学术资料，经数字化加工处理形成专题数据库。例如，上海图书馆自建的特色老唱片数据库，陕西省图书馆自建的听遍陕西特色资源音频库，四川省图书馆自建的四川清音资源库，吉林省图书馆自建的吉剧音频库、吉林二人转数据库，安徽省图书馆自建的安徽戏曲艺术普及资源库，河南省图书馆自建的河南地方戏曲数据库，广西省图书馆自建的广西音乐专题资源库，桂林图书馆自建的听遍桂林资源库[2]。除了自建特色音频库外，不少图书馆还外购了数字音乐数据库，比较有代表性的是中华传统音乐资源数据库和库客数字音乐图书馆。前者收录了大量中华传统音乐经典音乐以及各地区、各民族的近百种曲艺曲种，共有5个子库；后者收藏了世界上近4.2万位艺术家的近2000种乐器的音乐作品，总计超过180万首曲目，包括民族音乐、爵士音乐、古典音乐、电影音乐、新世纪音乐等多种音乐类型[3]。这些数据库不仅提供音频流媒体播放，还提供艺术家信息、出版时间、出版者、主题分类、唱片或剧目介绍、资料图片等元数据供用户检索利用。数据库收藏的资料具有独特的艺术价值、历史价值、研究价值、学术价值，对于全民艺术素质培养有着重要的意义。

综上所述，公共图书馆为读者提供的音频资源极其丰富，学术类、教育类、艺术类、消遣类……应有尽有。应加强对这些音频资源的挖掘和阐发，向社会推广与普及，让大众接触并接受文化熏陶。然而大部分图书馆面临着资源服务知晓率低，优质资源难以被活化利用的问题。而智能推荐是帮助图书馆读者发现与接触更多优质资源的有效途径。

3 深度学习技术在音频资源推荐方面的优势

图书馆服务的对象是多层次多类型的，他们在利用图书馆馆藏音频资源时所呈现出来的需求和目的意图是不同的，有些读者专注于某一领域，对特定的内容感兴趣，可能会反复地听他们最感兴趣的内容；有些读者需求多样化，喜欢涉猎范围更广的内容。图书馆使用智能推荐系统可以更人性化地理解读者的需求，更深入地挖掘馆藏，向读者推荐其可能感兴趣的音频资源，提供给读者有价值的信息。

智能推荐是人工智能应用研究领域之一。机器学习是实现智能推荐的工具和途径。机器学习研究的是计算机如何模拟人类的学习行为，机器学习的过程，是使用算法解析数据、挖掘特征、从中学习，然后做出决策和预测的过程[4]。从算法网络深度的角度可以分为浅层学习与深度学习。传统的推荐系统使用的是浅层学习算法，依赖于人工设计的特征，且只能用于结构化数据的预测场景。当前，深度学习是机器学习的热点研究领域，被认为是许多机器学习问题的前沿，特别是对于文本、图像、音视频等非结构化数据类型的处理，可以提取更深层次的特征。

深度学习起源于人类对大脑神经元的模仿，其本质是人工神经网络。研究发现，大脑在识别物体的时候，是通过神经元的逐层抽象来实现的[4]。

图1是深度学习架构[4]，由输入层、隐藏层、输出层组成，隐藏层可以包含很多层，用于自动提取数据特征。

图1 深度学习架构

深度学习的模型种类很多，比较常用的模型有DNN、CNN、RNN、LSTM等几种。在自然语言处理领域，除了应用以上深度学习模型进行数据分析和预测外，还可以使用以向量表示单词、短语和句子，搭建多层神经网络自主学习的模型，包括Word2Vec、paragraph2vec、Doc2Vec等。以下是常用深度学习模型的介绍，由于每种模型均由输入层、隐藏层、输出层3部分组成，只是隐藏层针对处理数据的种类和特点的不同，衍生出不同的结构，故主要介绍各种模型的隐藏层结构。

（1）深度神经网络DNN

DNN的隐藏层可以构造很多层，每一层可提取新特征，神经网络的权重定义了特征在下一层上的重要性，通过逐层特征提取获得最终输出结果[5]。

（2）卷积神经网络CNN

CNN的隐藏层包含卷积层、池化层和全连接层。卷积层的功能是学习输入数据的特征描述，池化层对卷积层输出的特征进行特征抽样，保留有效的信息，全连接层会对抽样的特征进行非线性组合以得到输出[6]。

（3）循环神经网络RNN

RNN是一种环状的深度神经网络，参数在隐藏层可以环状传导，即参数在隐藏层的输出可以作为自身的输入[4]。这种架构当前时刻的隐藏层可以受上一时刻隐藏层的影响，更适合用于时间序列的问题解决。

（4）长短期记忆网络LSTM

LSTM是对循环神经网络的衍生，循环神经网络只考虑了短期因素，而LSTM还考虑了长期因素。该架构采用了特殊的隐藏层结构，通过遗忘门（遗忘次要的，记住主要的）、输入门（对输入选择性地记忆，记住重要的）、输出门（决定输出）3个不同的门结构实现长短期时序上下文信息的保留和传递[7、8]。

（5）Word2Vec、paragraph2vec、Doc2Vec

Word2Vec是一套能将词向量化的模型，它将文本中的每个词映射成为指定维度大小的向量表示，通过向量定义词语的含义。词向量空间上的相似度可以用来表示词语语义的相似度，根据词向量可以预测词语的上下文[9]。Paragraph2Vec是在Word2Vec的基础上增加了一个段向量输入，段向量和其他词向量通过拼接或相加的方式输入到隐藏层，在训练词向量的时候，也训练段向量，训练结束时得到段落的向量化表示。Doc2Vec的原理跟Paragraph2Vec类似，就是在Word2Vec的基础上增加了一个文档向量输入，最终获得文档的向量化表示。

音频资源具有复合性的特点，不是单纯的音频格式文件，还附带有跟音频资源相关的文本、图像信息。深度学习善于处理复杂特征，应用于各种类型的数据，可以学习到其更加抽象的深层次的隐性特征。深度学习可以帮助图书馆处理复杂的数据结构和数据关系，利用大数据深入挖掘读者行为，通过对读者参与数据的智能分析，发现读者的隐性情感和需求，感知读者在生活、学习、工作等方面个性化需求的发展趋势与变化，为读者构建更精准的画像，实现音频资源的智慧推送。

4 深度学习在音频资源推荐中的应用策略

音频资源推荐主要基于推荐对象和音频资源两者的特征之间的关联匹配来实现。深度学习应用于音频资源推荐，其流程是采集读者数据和音频资源数据，利用深度学习模型自动地学习合适的特征及其表征，经过模型训练研究揭示读者兴趣、需求与音频资源之间的隐含关系，从而对推荐做出准确的预测。针对该流程，可以从内容特征处理、行为特征处理、环境特征处理等方面提升推荐的性能。

4.1 基于内容特征的音频资源推荐

4.1.1 推荐思路

基于内容特征的音频资源推荐旨在为读者找到与读者单个或多个感兴趣类别相匹配的资源。结合深度学习技术，可以将读者历史收听的音频资源和候选集中的所有音频资源共同输入训练模型，计算资源相似度，对资源进行分类，在候选集中选择读者历史收听类别中相似度最高的资源推荐给读者。在此过程中，能否全面而准确地挖掘内容特征是关键。深度学习分析和处理高维、非线性数据方面的能力，有助于多维度、多层次抽取音频资源内容特征，对于馆藏音频资源可从声学特征、文本特征、属性元数据特征三方面提取其内容特征。

4.1.2 声学特征方面

在数字化时代，图书馆为读者提供的音频资源基本上是数字化加工过的数据。音频数据不同于文本字符，其数据量非常庞大。一个音频数据文件有许多信号特征，特征复杂且维度高。表1以“特征提取过程的差异”为主要分类基准，分类列出了比较常见的特征，通过这些特征可以表示音频的音色、音调、旋律。

表1 音频特征的类型[10]

对于乐曲、诗歌、歌剧、儿歌等音乐类资源，从资源的MFCC、频谱通量、节奏、韵律特征中可以提取出多维声学特征，采用深度学习模型（DNN、CNN、RNN中的一种），可将多维特征投影到低维、稠密的特征空间，获取特征向量，度量音频相似度。

4.1.3 文本特征方面

为了便于读者利用及进行学术研究工作，图书馆提供的音频数据附带了多种信息集成描述。如有声读物，则附带摘要、章节全文等信息。如音乐类资源，则附带资源简介、背景来源、曲词、剧本等信息。曲词是一首乐曲的重要特征之一，对于有声读物来说尤其如此，全文文本是其内容的主要体现。相比结构化数据，文本数据中的结构信息量少，语义理解难度较高，需采用自然语言处理技术加以分析。首先，可使用中文分词系统将句子分解成单个词语，对词语进行比较，找出词语中的特征值，形成词向量。其次，除了考虑单个文本中每个词语之间的关系外，还要考虑文本与文本之间的关系。采用Doc2Vec模型可以提取文本特征，得到文本的词向量与文本向量，从而计算出音频资源相似度。

4.1.4 属性元数据特征方面

元数据是用于描述数据属性信息的数据，图书馆的馆藏音频资源通常以标题、类别、语种、创作者、出版年代、出版者、关键词、时长等元数据描述其属性。元数据是音频资源的另一个重要的特征，是领域专家对资源内容、语义的精确描述。深度学习同样可以处理结构化数据，且表现出良好的性能[11]。构建深度语义数据模型，将所有描述资源的属性元数据输入模型，学习其向量化表示，对向量空间降维，可以度量音频资源之间的相似度。

4.1.5 融合推荐

融合不同维度的特征综合评价资源是提高推荐预测精确度的一种重要手段。将深度学习应用于推荐系统，虽然推荐的效果与性能得到了提升，但建模时间与复杂度相比传统推荐均有增加，为了降低多特征融合训练预测的时间复杂度和计算复杂度，同时保持各维度特征训练的独立性，适宜采用“后融合”的方式，即将不同数据训练模型的输出进行融合。

音乐类音频资源的融合推荐：使用4.1.2、4.1.3、4.1.4提出的方法，对资源的声学特征、文本特征、属性元数据特征进行分析处理，采用“后融合”的方式融合三方面的特征，推算出适合目标读者的音乐类音频资源，给出推荐结果。

非音乐类音频资源的融合推荐：使用4.1.3、4.1.4提出的方法，对资源的文本内容特征、属性元数据特征进行分析处理，采用“后融合”的方式融合两方面的特征，推算出适合目标读者的非音乐类音频资源，给出推荐结果。

4.2 基于读者行为特征的音频资源推荐

读者阅读兴趣偏好可以从揭示读者行为的显式反馈数据与隐式反馈数据中获取。通常，检索、浏览、收藏、播放、下载等隐式反馈数据比评分的显式反馈数据分布更广，采集相对容易。利用深度学习技术可对读者交互数据的复杂结构进行捕捉。

针对读者兴趣偏好动态演变的特点，适宜使用长短期记忆网络LSTM模型在捕捉读者兴趣偏好时，度量读者兴趣偏好转移与时间上下文之间的相关性。首先，从读者的隐性反馈行为得到“读者—音频资源”交互矩阵，然后输入LSTM模型学习读者行为序列中的隐藏关系，确定哪些音频资源与当前读者的兴趣偏好关系最密切，实现动态智能推荐。

4.3 基于环境特征的音频资源推荐

在复杂的网络环境中，各种各样的因素可能会对读者利用资源的动机和行为产生一定程度的影响。例如，为舒缓备考时的紧张情绪，读者可能会听节奏轻柔的歌曲或者轻松愉悦的相声段子。准确捕获用户的收听需求和意图是不容易的，从读者所处环境的上下文信息分析读者当前状态并综合考虑其历史行为推荐符合其需求的音频资源，能够进一步提升读者对所推荐内容的满意度。

环境的上下文信息可划分为时间、位置、情境、活动、情感等维度，使用智能手机、智能传感器等终端设备可以感知读者，获取读者当前状态的上下文信息。智能设备的应用将产生大量的异构数据，将深度学习与智能感知技术相结合，利用深度学习在多源异构数据自动特征提取方面的优势，能够更直接地收集读者反馈，从各种环境中获取显式与隐式项目，快速建模分析，高度感知读者需求，提供更智能的音频资源推荐信息。由于所采集的数据来源于读者的真实反馈，推荐结果将具有更强的可解释性。

5 结语

深度学习在音频资源推荐中所发挥的作用主要体现在对读者潜在兴趣与目的意图的发掘、音频资源内容的深层挖掘、读者与音频资源内在关联关系的揭示等方面，实现的途径离不开读者与音频资源有关特征的深层次学习。笔者从内容特征处理、行为特征处理、环境特征处理的角度提出推荐的策略，以提升音频资源推荐的有效性，从资源推荐的层面增加图书馆音频资源的曝光率，使读者更容易地获取到所需信息资源，有助于增强其获得感与幸福感。