融合上下文和视觉信息的多模态电影推荐模型

2024-06-17 16:56:20朱昆刘姜倪枫朱佳怡

软件工程 2024年6期

朱昆刘姜倪枫朱佳怡

摘要：

针对传统的上下文电影推荐模型只采用文本数据，从单模态数据获取的信息有限，无法充分解决数据稀疏性带来的问题，提出了一种融合文本和图像数据的多模态电影推荐模型（VLPMF）。首先，VLPMF集成了长短期记忆网络（LSTM）和概率矩阵分解（PMF）。其次，将VGG16提取的图像特征以概率的角度结合到PMF中并构建融合层，将文本特征和图像特征融合后得出预测评分。最后，在Movielens＼|1M、Movielens＼|10M和亚马孙AIV数据集上进行对比实验，结果表明，VLPMF模型的均方根误差比对比实验中最优模型的均方根误差分别降低了1.26百分点、1.51百分点和4.30百分点。

关键词：推荐系统；图像内容；深度卷积神经网络；概率矩阵分解模型

中图分类号：TP391 文献标志码：A

0 引言（Introduction）

在互联网时代，为了有效地为用户挖掘有用的信息，推荐系统被普遍应用在多个领域［1＼|4］，同时也成为缓解信息过载问题的研究热点。由于数据稀疏，传统推荐算法的性能受到很大的限制［5］。因此，解决评分数据稀疏性问题对于提高推荐系统的性能具有重要意义。

传统的推荐算法通常只考虑评分，若评分矩阵稀疏，则会对算法的性能造成负面影响［6］。为了提高推荐算法的性能，部分研究在推荐系统的推荐模型中使用电影属性、电影评论等辅助信息［7］。但是，单模态文本数据所含信息有限，无法有效应对数据稀疏带来的问题。

实际上，图像信息对于用户偏好具有巨大的影响力，对于推荐系统的性能提升起着至关重要的作用。本文提出的VLPMF，将文本和图像特征进行了充分融合，为推荐系统准确度的提升带来了显著的效果。

1 相关研究（Related research）

随着深度学习的迅速发展，深度学习算法可以有效获取辅助信息的深度表示，提高推荐评分预测的准确率，因此被广泛应用于推荐系统［8］。WANG等［9］提出一种利用协同主题建模的方法（Collaborative Topic Regression，CTR），利用文本信息和评分信息对传统的矩阵分解模型（Probabilistic Matrix Factorization，PMF）［10］进行改进，有效地提高了推荐的精度和覆盖率。WANG等［11］提出了一种基于协同深度学习的推荐模型（Collaborative Deep Learning， CDL），采用多层神经网络对用户和物品的特征进行建模，将PMF与堆叠去噪自编码器SDAE结合起来提高推荐性能。KIM等［12］提出了卷积矩阵因子分解模型ConvMF （Convolution Matrix Factorization），将CNN（Convolutional Neural Network）和PMF相结合，以提取文本的上下文信息特征，从而解决了CNN无法直接应用于推荐算法的问题。然而，上述上下文感知推荐算法只能实现有限的性能改进，因为它们只考虑了文本信息。

深度学习在计算机视觉领域（Computer Vision， CV）的快速发展，解决了图像和电影视觉特征提取的问题，利用CNN可以从图像和电影视觉中提取深度特征，例如经典的深度网络模型AlexNet、VGG等。因此，本文提出一种基于概率矩阵分解的推荐算法模型VLPMF，分别利用LSTM和VGG16对电影描述文本和电影海报进行特征提取，然后基于PMF模型将提取的文本和视觉特征融合到推荐系统中，提高评分预测精度。然后，在3个真实的数据集上以均方根平均误差为指标，验证了VLPMF模型的性能。结果表明，VLPMF在评分预测精度方面明显优于CDL、ConvMF等模型，并且信息越稀疏，模型的优势越明显。因此，本文的研究为电影推荐系统中利用视觉内容信息提升推荐性能提供了一种有效的方案。

2 多模态推荐模型设计（Multimodal recommendation model design）

2.1 LPMF文本提取模型

本文提出的矩阵分解方法LPMF模型（图1），采用了用于文本分类的LSTM模型进行文本特征提取，为了获得更完整的文本上下文信息，将结构整合到卷积层中，进一步提高词表示的质量。提取的特征作为项目潜在模型中高斯分布均值的一部分，综合了LSTM和PMF的优点。

在LPMF模型中，LSTM结构是在项目的描述文档中生成项目的特征隐向量。项目描述文档先经过词嵌入模型如Glove预处理，将其转变为词向量矩阵。将项目描述文档的长度看作l，用向量维度为p的不同向量表示每个单词。这样，描述文档矩阵[WTHX]D[WTBX]=Euclid Math TwoRA@

p×l可以用不同的单词向量拼接得到：

把嵌入层的描述文档矩阵[WTHX]D[WTBX]当作输入，经过LSTM后得到上下文特征信息，i时刻的上下文特征信息ci的提取公式如下：

其中：wi是i时刻的输入，b是偏置项。描述文档的特征向量可由[WTHX]C[WTBX]表示：

首先经过连接层输出：

其次接入Dropot层对部分神经单元的输出进行丢弃处理，最后得到输出y，经过输出层后得到项目的隐语义特征向量[WTHX]v：

其中：Wv为输出层权重，bv为偏置值。最终经过LSTM结构将项目描述文档转化为每个项目文档的隐向量，对于文本特征提取，LSTM体系结构可以表示如下：

其中：W表示所有权重，Xj是项目j的描述文档，φj是电影j的文档隐向量。

2.2 LPMF的概率模型

本文提出的LPMF的概率模型通过连接LSTM和PMF可以充分利用项目描述文档和进行评分，从概率的角度看，观测得分矩阵的条件分布如下：

其中： X[WTBZ]为电影的描述文档集（如用户评论或电影描述），LSTM网络将在 X[WTBZ]中提取到的文档隐向量替换PMF中高斯分布的均值，Xj代表电影j的描述。

2.3 视觉特征提取

本文采用VGG16模型进行海报的视觉特征提取。VGG16模型由13个卷积层、5个池化层、3个全连接层和1个Softmax层组成， VGG16模型的架构如图2所示。

为了提高视觉特征提取的性能，采用迁移学习技术将VGG16模型应用在ImageNet数据集上进行预训练，将其训练得到的原始参数应用到海报的视觉特征提取中。为了将视觉特征应用于本文研究的电影推荐问题中，将这些特征纳入电影推荐系统中，以提高推荐系统的准确性和推荐效果。本文将VGG16模型提取的视觉特征归纳为

其中：Yj表示电影j的图像（海报），j表示电影j的视觉特征。

2.4 VLPMF模型

为了进一步提高推荐算法的性能，本文提出VLPMF模型，旨在融合文本类型和图像类型的数据，该模型包括3个核心部分：LSTM文本提取模块、基于VGG16模型的图像提取模块及PMF模块。VLPMF模型在LPMF模型的基础上结合了图像特征提取模块，其模型框架如图3所示。

在上述模块中，分别介绍了文本特征和视觉特征的提取，VLPMF模型将电影的文本特征和相应的视觉特征分别融合为综合特征，并通过投影层将综合特征投射到特定的维度，随后采用一种概率角度的方法将综合特征向量连接到PMF中，从而得到项目特征向量的条件分布。具体来说，在PMF的基础上，针对项目特征向量的条件分布，通过以下方法强化条件分布。

3 实验分析（Experimental analysis）

3.1 数据集

为了验证本文提出的推荐系统模型的性能，在常用的Movielens＼|1M（ML＼|1M）、Movielens＼|10M（ML＼|10M）和亚马孙AIV数据集上对其进行了实验。由于这些数据集缺乏辅助信息，因此本文在IMBD网站利用网络爬虫分别获取Movielens的电影描述文档、AIV的用户评论和对应的电影海报。表1给出了数据集的具体情况，表明每个数据集的稀疏性问题都是极其严重的。

3.2 实验设置

在文本特征提取方面，首先采用先前训练完毕的Glove预训练词向量模型，设置其词嵌入维度为200，为了避免过拟合，将Dropout设置为0.5时，效果较佳。在视觉特征提取方面，将VGG16模型应用在ImageNet数据集上进行预训练。将预训练中批量大小和丢失率分别设置为128和0.5。其次将VGG16提取的图像数据特征与获得的文本特征向量进行融合，因此每部电影j的综合特征都是由文本特征和视觉特征组成的。最后将综合特征向量放入投影层，并将其维数固定为50，再选择维数相同的用户潜在向量。使用网格搜寻法求出每个模型的超参数（λ U[WTBX]，λ V[WTBZ]）的最佳值，表2展示了在ML＼|1M、ML＼|10M和AIV数据集上，在不同模型性能最优时参数λ U[WTBX]和λ V[WTBZ]的取值。

3.3 评估标准

为了评估本文提出模型在不同数据集上的表现，随机将3个数据集划分为3个部分：80%的训练集、10%的验证集和10%的测试集，使用测试集评估模型的性能和泛化能力，并计算测试集上的均方根误差（RMSE），将其作为模型性能的最终评估指标。

3.4 对比实验

为了验证实验模型的推荐性能，本文选用以下模型进行性能对比。

（1）PMF［10］：一种基于概率模型的推荐算法，只应用到评分数据，通过分解用户＼|物品评分矩阵为两个低维度潜在特征向量，学习用户和物品的潜在特征向量，并通过最大似然估计方法优化模型的参数。

（2）CTR［9］：一种利用协同主题建模的方法，采用文本信息和评分信息对PMF进行改进，有效地提高模型的推荐精度和覆盖率。

（3）CDL［11］：一种基于协同深度学习的推荐算法，采用多层神经网络对用户和物品的特征进行建模，将PMF与堆叠去噪自编码器SDAE结合。

（4）ConvMF［12］：一种基于卷积神经网络的推荐算法，采用CNN学习用户和物品的特征表示，同时将特征表示集成到PMF中进行推荐。

（5）LPMF：本文提出的一种结合长短期记忆网络LSTM和概率矩阵分解PMF的模型，能够深度提取文本隐语义特征。

（6）VLPMF：本文提出的一种基于概率矩阵分解的推荐算法模型，分别利用LSTM和CNN对描述文本和海报进行特征提取，然后基于PMF模型将提取的文本和多级视觉特征融合到推荐系统中，提高了评分预测精度。

3.5 实验结果及分析

3.5.1 模型性能分析

表3显示了LPMF、VLPMF和其他对比模型在3个测试集上的RMSE。从表3中可以看出，相比最优基准模型ConvMF，结合了文本和图像特征的VLPMF，其RMSE指标在ML＼|1M数据集上提高了1.26百分点、在ML＼|10M数据集上提高了1.51百分点，在AIV数据集上提高了4.30百分点。

通过进一步观察可以得到，在评分数据相对密集的ML＼|1M数据集（密度为4.641 0%）上，相比于仅利用评分数据的PMF，CTR和CDL模型的RMSE提升效果并不明显，然而与使用CNN结构提取上下文信息的ConvMF模型相比，RMSE大幅降低，说明在评分数据密集的情况下，能够提升上下文信息的捕获性能，就能大幅提升推荐的精确度。

随后，通过将LPMF和ConvMF对比可知，LPMF的性能表现更加优异，说明LSTM模型在文本信息提取方面更有效。从LPMF和VLPMF模型的实验结果来看，由于VLPMF考虑了视觉特征，丰富了核心信息，因此表现出更优越的性能，表明将视觉特征集成到推荐系统中，可以在上下文推荐方面发挥积极作用。

3.5.2 稀疏度分析

在评价评分数据集时，数据密度是一个很重要的指标。本文研究了密度较小的AIV数据集（密度为0.030 0%）上VLPMF模型的改进结果，发现其优于在ML＼|1M和ML＼|10M数据集上的表现。此外，数据密度越小，VLPMF模型性能提升效果越明显，说明VLPMF模型结合了文本特征和视觉特征，有效缓解了数据稀疏的问题。为了进一步验证VLPMF模型在不同的数据稀疏情况下的优越性，以ML＼|1M数据集为例，将其随机划分为不同稀疏度的训练集做进一步的实验，实验结果如表4所示。

从表4中可以得出，VLPMF模型在不同的数据稀疏度条件下的表现均优于其他模型，特别是当数据稀疏度从3.98%下降到0.95%的过程中，VLPMF模型相比于最优基准模型ConvMF，性能提升率从1.2%提升到2.97%，表明数据特别稀疏时，能同时提取文档信息和图像信息的VLPMF模型的均方根误差比仅提取文本信息的ConvMF模型要小。此外，数据越稀疏，VLPMF模型的性能提升越大。图4展现出不同模型在不同的数据稀疏度条件下的实验结果。

4 结论（Conclusion）

本文通过结合文本信息和图片信息提高推荐数算法的稳定性，探究了如何在保持推荐精度的前提下，利用描述文本信息（例如评论、电影描述等）和海报信息解决数据稀疏的问题，提出了基于概率矩阵分解的推荐模型VLPMF。该模型利用LSTM结构捕获文本模态信息的上下文的语义信息；对于图像数据，使用VGG16模型对电影海报进行特征提取，然后将两个模块中所获得的特征信息统一为综合特征向量，并从概率的角度将其应用到概率矩阵分解模型PMF中。在3种常用数据集上的实验结果发现，VLPMF的RMSR优于对比模型，并且数据越稀疏，模型的优越性更突出。

参考文献（References）

［1］贾凡，康舒雅，江为强，等. 基于相似性的多用户漏洞推荐算法［J］. 清华大学学报（自然科学版），2023，63（9）：1399＼|1407.

［2］李树青，黄金旺，马丹丹，等. 基于显隐式信息融合和单类协同过滤方法的主题词推荐［J］. 图书情报工作，2023，67（3）：72＼|84.

［3］ HWANGBO H，KIM Y S，CHA K J. Recommendation system development for fashion retail e＼|commerce［J］. Electronic commerce research and applications，2018，28（C）：94＼|101.

［4］张明星，张骁雄，刘姗姗，等. 利用知识图谱的推荐系统研究综述［J］. 计算机工程与应用，2023，59（4）：30＼|42.

［5］刘会，张璇，杨兵，等. 用于社交推荐的增强影响扩散模型［J］. 计算机学报，2023，46（3）：626＼|642.

［6］赵梦媛，黄晓雯，桑基韬，等. 对话推荐算法研究综述［J］. 软件学报，2022，33（12）：4616＼|4643.

［7］ WANG J Z，HUANG P P，ZHAO H，et al. Billion＼|scale commodity embedding for E＼|commerce recommendation in alibaba［C］∥GUO Y，FAROOQ F. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York：ACM，2018：839＼|848.

［8］李浩君，吕韵，汪旭辉，等. 融入情感分析的多层交互深度推荐模型研究［J］. 数据分析与知识发现，2023，7（3）：43＼|57.

［9］ WANG C，BLEI D M. Collaborative topic modeling for recommending scientific articles［C］∥APTE C，GHOSH J，SMYTH P. Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York：ACM，2011：448＼|456.

［10］ SALAKHUTDINOV R，MNIH A. Probabilistic matrix factorization［C］∥PLATT J C，KOLLER D，SINGER Y，ROWEIS S T. Proceedings of the 20th International Conference on Neural Information Processing Systems. New York：ACM，2008：1257＼|1264.

［11］ WANG H，WANG N，YEUNG D. Collaborative deep learning for recommender systems［C］∥CAO L B，ZHANG C Q. Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York：ACM，2015：1235＼|1244.

［12］ KIM D，PARK C，OH J，et al. Convolutional matrix factorization for document context＼|aware recommendation［C］∥SEN S，GEYER W. Proceedings of the 10th ACM Conference on Recommender Systems. New York：ACM，2016：233＼|240.

作者简介：

朱昆（1997＼|），男，硕士。研究领域：推荐系统，深度学习。

刘姜（1983＼|），女，博士。副教授，研究领域：符号计算，机器学习。

倪枫（1982＼|），男，博士。副教授，研究领域：系统分析与集成。

朱佳怡（2000＼|），女，本科生。研究领域：机器学习。