融合用户潜在特征的深度跨域推荐方法

2022-08-25 09:56於跃成

软件导刊 2022年8期

李慧，於跃成

（江苏科技大学计算机学院，江苏镇江 212100）

0 引言

当前科技的迅速发展，使得各种类型的网站如雨后春笋般出现，造成数据进一步爆炸式增长。因此，用户若想从庞大的数据中筛选出真正感兴趣的事物，需要花费大量时间。推荐系统可以在搜集多类信息时，为用户推送符合其需求的产品。作为目前应用最广泛的单领域推荐技术，协作过滤算法得到了学术界和工业界的重点关注［1-4］。矩阵分解作为最流行的协同过滤方法之一，也成为了关注的热点。但是，用户很少对一个物品作出评分，而且因物品种类繁多，导致矩阵分解通常使用的评分数据具有稀疏性的缺点，而这种稀疏性一定程度上降低了传统协同过滤技术评分预测精度。此外，协同过滤需要大量与网站互动的历史记录，才能给出高质量的推荐，因而造成了用户冷启动问题。在一个新领域，用户通常很少或根本没有与网站互动的历史。因此，传统推荐方法往往不能为冷启动用户提供高质量的推荐。

近年来，为解决用户冷启动问题和数据稀疏性问题，跨域推荐技术应运而生，其目的是利用迁移学习的思想，在多个领域更丰富数据的帮助下，获得相较于单领域更好的推荐性能，完成在不同领域知识的有效迁移。文献［5］提出EMCDR（Embedding and Mapping framework for Cross-Domain Recommendation）模型，利用评分信息学习源域和目标域的潜在特征，然后利用多层感知机学习两者的映射关系，以此完成跨域推荐；文献［6］在EMCDR 的基础上，在映射部分选用半监督方法进行学习，通过对冷启动用户的邻居进行重复聚合，计算出冷启动用户在源域度量空间中的新向量，然后完成跨域推荐；文献［7］使用两个域重叠用户提取的特征作为锚点，以DNN 训练源域到目标域的映射函数，最终实现跨域、跨系统推荐。虽然跨域可以提高精度，但目前大多数跨域使用的仅仅是评分信息，未更好地融合评论及其他辅助信息。

评论文本等一些辅助信息可丰富用户潜在特征，使其达到更好的效果［8-10］。例如文献［11］考虑了具有时序性的医疗疾病上下文信息，利用Doc2vec 将每种疾病转换成一个类似于其语义的数字向量；文献［12］在对评分进行矩阵分解的同时，使用doc2vec 对评论提取用户文档特征，然后进行融合处理与跨域推荐。在评论处理过程中，也证明了注意力机制可更好地筛选信息［13-15］。

用户评论包含了该用户对商品的具体喜好，可更好地解释用户偏好及其原因［16］。用户评论已广泛应用于单域推荐，并显著提升了包括矩阵分解推荐方法在内的协同过滤性能。受此启发，本文以EMCDR 模型为基础，提出为源域目标域融合评分与评论信息的跨域推荐模型DRCDR（A Cross Domain Recommendation Model Fusing Rating and Review for Source and Target Domains）。DRCDR 研究具有两个可用源域和一个目标域的跨域推荐方法，设计两个源域之间同时融合了各自评分信息和评论信息的潜在特征融合机制，以实现多源域融合特征在源域与目标域之间的映射，最终实现跨域推荐。

1 相关工作

1.1 跨域推荐与相关符号介绍

跨域推荐中包含源域和目标域，其中源域表示已含有相对丰富信息，并可从中获得需要传递潜在特征的域；目标域表示需要获取传递特征，数据相对比较稀疏的域。而跨域推荐则是指利用相对丰富的源域信息，提高更稀疏目标域的推荐性能。

假设源域与目标域存在部分重合的用户，US和UT分别表示源域与目标域重叠用户在各自域内的潜在特征。而源域与目标域的项目之间没有交集，即VS、VT分别代表源域和目标域项目的潜在特征。根据每个域用户与项目之间的隐式交互，可构建用户和项目的矩阵RS、RT。RS表示用户源域的交互矩阵，即RS∈RN*|S|；RT表示用户目标域的交互矩阵，即RT∈RN*|T|。|S|表示源域项目个数，|T|表示目标域项目个数。

将用户在源域和目标域的评论信息分别表示为XS、XT，USR、UTR代表从评分矩阵RS、RT中通过矩阵分解获得的用户评分潜在特征向量，可使用USC、UTC分别表示从源域与目标域评论中获取的用户评论潜在特征。

1.2 EMCDR模型

在现有跨域推荐方法中，嵌入源域信息并映射到目标域的EMCDR 框架是一类具有较好性能的跨域推荐方法，尤其对于冷启动用户的推荐具有明显改善。EMCDR 模型可概括为：①在潜在空间中对用户和项目进行嵌入的过程；②学习源域与目标域之间的映射关系，然后进行跨域推荐。矩阵分解将用户和项目潜在向量的内积作为用户与项目的交互，在EMCDR 嵌入过程中通过矩阵分解学习源域和目标域用户与项目的潜在特征［5］。EMCDR 映射部分的实现过程可形式化为有监督的回归问题，其主要以源域和目标域的共同用户为桥梁建立两个域之间的关系，从而学习映射函数fmlp。

对映射部分进行优化时，需要把映射函数从源域传输过来的用户潜在特征与目标域用户潜在特征之间的差距最小化。映射函数学习完毕后，EMCDR 可根据映射函数获得冷启动用户在目标域的用户潜在特征向量，即从而可使用映射过来的用户潜在特征和目标域的项目特征向量VT改善冷启动用户推荐效果。公式（1）是多层感知机（Multi-layer Perceptron，MLP）的映射损失是MLP 映射函数，θ 是其参数集，代表多层感知机层与层之间的权重矩阵和偏差项。

2 DRCDR跨域推荐模型

本节提出一个用于跨域推荐的深度模型框架，称为DRCDR。具体如图1所示。

2.1 源域与目标域潜在特征获取

2.1.1 评分潜在特征提取

跨域推荐第一步的目的是获取源域和目标域中用户与项目评分的潜在特征。矩阵分解就是实现这一目的的方法之一。实际用于推荐系统的矩阵分解思想很简单：可直接通过训练集中的观察值，利用最小化均方根学习U、V矩阵。这种模型也被称作隐语义模型，其算法意义层面的解释为通过隐含特征将用户兴趣与项目特征联系起来［17］。正如公式（2）所示，分解后每个用户得到一个用户特征向量Ui，每个项目得到一个项目特征向量Vj。物品被关注的因素和用户偏好的因素，其数量与意义是一致的。

Fig.1 Model framework of DRCDR图1 DRCDR模型框架

因此，该算法在源域的损失函数可表示如下：

矩阵R 为m × n 的稀疏矩阵，Um×k代表用户潜在特征，Vk×n代表项目潜在特征。后面两项为正则项，以此防止过拟合。具体过程可概括为使用用户潜在特征U 和项目潜在特征V 来减小与真实评分矩阵之间的误差，误差越小，代表获得的潜在特征越准确。根据矩阵分解可获得源域潜在特征USR1，VS1、USR2，VS2和目标域潜在特征UTR，VT。

2.1.2 评论潜在特征提取

人们日常使用的语言比较抽象，计算机不能识别该语言，所以需要把其转换成数值形式，这种嵌入方式称为词嵌入。单词嵌入层可将单词序列转换为密集的矩阵，这一部分可使用预先训练好的单词嵌入，如Google 的Word2vec。Word2vec 是词嵌入方式之一，属于自然语言处理领域，可将词转化为可计算、结构化的向量过程。Word2vec 更关注的是训练过程中的产物——模型参数，并将其作为输入的某种向量化表示，该向量被称为词向量［18］。

Doc2vec 是Le 等［19］（同时也是Word2vec 的作者）在2014 年所提出的文章向量，主要讲述如何将文章转换成向量表示的算法。本文使用Doc2vec获得句向量的表示。

RNN（Recurrent Neural Network）是一种将序列数据作为输入的神经网络，其与基础神经网络之间的最大差距是其不仅在层之间建立全连接，而且在层之间的神经元之间建立连接。LSTM（Long Short-Term Memory）是RNN 网络一种效果很好的变体，较RNN 网络结构更加简单，而且能够有效解决RNN 的梯度消失和梯度爆炸问题，因此也是当前非常流行的网络。

其中，ht-1代表前一个输出，xt代表当前输入，σ代表sigmoid 函数，it代表输入门输出，ft代表遗忘门输出，ot代表输出门输出，ht代表当前单元输出。LSTM 每个cell 输入该用户按时间顺序输入的评论句向量。LSTM 能够记住需要长时间记忆的信息，忘记不重要的信息，因而LSTM 能够获得体现用户喜好的潜在特征。

Bi-LSTM 在LSTM 基础上，结合了输入序列在前后两个方向上的信息，可看作两层神经网络。前向LSTM 从左边作为系列的起始输入，后向LSTM 则从右边作为系列的起始输入，反向与第一层作一样的处理。最后对得到的两个不同顺序下LSTM 的结果进行连接，获得评论上下文中蕴含的潜在特征。

词级别的注意力机制会给每个单词分配不同的注意力权重，以此体现出每个单词对当前整条信息的影响。本文针对句子级别的注意力，而句子级别的注意力与词级别的注意力具有异曲同工的作用。句子级别注意力的输入是Bi-LSTM 对应输出的句子向量hi，wi代表权重，bi代表偏置，经过Softmax操作后可获得αi。αi指相对于用户每个句子i的权重，UC表示处理完评论后的输出。针对每个用户，用户评论潜在特征UC是由注意力权重对Bi-LSTM 的输出进行加权求和得到的。最终获得源域和目标域的评论潜在特征USC1、USC2、UTC。具体公式如下：

2.2 融合评论信息映射的跨域方法

2.2.1 融合评分与评论信息

由于融合评分或评论的潜在特征时，无法确定其各自选取的比例，本文中向量的简单融合方法是逐位相加，两个向量的权重α 为0.5。融合评分与评论潜在特征，具体对两个向量进行如下操作：

2.2.2 融合双源域评论信息

因为单个源域数据较为稀疏，所以添加另一个领域的信息到源域，对数据进行补充。对于数据融合，本文选择为双方增加权值来为源域融合相关信息，以使源域数据相对丰富，以此获得更丰富、更能代表目标域冷启动用户的潜在特征，最终实现跨域推荐。

2.2.3 融合评论信息的MLP 映射

MLP 多层感知器是一种前向结构的人工神经网络，映射一组输入向量到另一组输出向量。MLP 的优势在于：一个经过训练的MLP 可由第一层的输入经过非线性变换映射到另一个线性可分的由隐层节点组成的空间里，并使用反向传播算法的监督学习方法训练MLP。在进行MLP 反向传播前，需要选择一个损失函数来度量训练样本计算出的输出与真实训练样本输出之间的损失。

MLP 是将共同用户在源域融合后的潜在特征US作为输入，将该用户在目标域的评分潜在特征UTR作为输出，以此训练网络，得到非线性映射函数。最后，MLP 易于通过反向传播方法进行优化。具体来说，在跨域推荐中，对于用户，可将优化问题形式化为：

其中，是指源域的用户潜在特征向量是指目标域的用户潜在特征向量是MLP 映射函数，θ是其参数集，即层之间的权重矩阵和偏差项。

2.3 跨域方法

跨域方法主要运用MLP 学习到的映射函数。首先根据获得的源域和目标域用户潜在特征学习映射函数，并利用映射函数获得待推荐用户在目标域的潜在特征，然后结合目标域评分信息获得项目潜在特征VT，最终实现跨域推荐。fmlp(·；θ)是映射函数是用户潜在特征是根据映射函数得到的冷启动用户在目标域对应的潜在特征。

3 实验及结果分析

3.1 数据集

本文使用Amazon 数据集评估模型，数据集包含21 个不同项域，选择电影、音乐和图书3 个类别的数据集进行实验。每个数据集包含用户、项目、评分、评论和评论时间5 种类型节点。将每个观察到的评分视为隐式反馈记录，即用户—项目交互，然后定义跨域推荐场景：电影，音乐→图书。每个数据集的初始数据都有12 万条以上，对于电影、音乐和图书的两个域中，首先过滤掉交互项数量少于10 个的共同用户，也过滤掉非重叠用户及少于120 条信息的电影和图书，然后筛选具有超过30 条信息的共同用户音乐数据，将其设置为一个跨域场景的最终数据集。表1总结了CDR 场景详细信息。

Table 1 The dataset表1 数据集

3.2 评价指标与基线方法

为衡量本文算法的预测准确度，采用均方根误差（Root Mean Squared Error，RMSE）和平均误差（Mean Absolute Error，MAE）两个指标。

其中，m表示测试集评分集合，Ri表示评分集合中的实际评分表示实验得出的该评分预测值|表示测试集中的评分个数。

本文选取的基线方法包括：

（1）概率矩阵分解［20］（PMF）。概率矩阵分解是一种基于基本矩阵分解引入概率模型进行优化的模型。

（2）联合矩阵分解［21］（CMF）。CMF 模型通过分别分解评分矩阵，将不同来源的信息结合起来，使用户在不同矩阵中的潜在特征向量共享。

（3）一种嵌入和映射框架的跨域推荐（EMCDR）模型［5］。该模型分别在源域和目标域采用两个矩阵分解模型，然后使用多层感知机和线性映射建立两个域之间的映射关系，并根据映射关系获得相应评分，最终为冷启动用户进行推荐。本文选取其中两种方法MF_EMCDR_LIN（MEL）和MF_EMCDR_MLP（MEM）进行对比。

（4）C-DRCDR。对于源域，只采用一个域的信息进行跨域推荐。

3.3 实验设置

本文采用Pytorch 对DRCDR 模型进行实现，为评估该框架在跨域推荐中的效果，选取一部分用户，删除其在目标域的评分与评论信息，将其作为冷启动用户进行跨域推荐。同时为更好地对用户进行分析，设置φ代表冷启动用户在所有用户中的比例。实验中，设置φ值为50%、30%、10%，潜在特征大小为100。对于MLP 映射函数，选择其结构为单层隐藏层，输入输出维度都为100，隐藏层节点个数为2×100，并设置正则化参数为0.01，学习率为0.000 1。由实验结果可知，当β 取值为0.57 时，效果较好。对于只需要一个源域的跨域方法，本文使用电影—图书数据集进行实验。

3.4 实验结果分析

RMSE 和MAE 在电影音乐—图书场景上的所有实验结果如表2、表3所示。

Table 2 RMSE experimental results of different models表2 不同模型RMSE实验结果

Table 3 MAE experimental results of different models表3 不同模型MAE实验结果

与基线方法相比，根据表中RMSE 和MAE 的数值分析，DRCDR 在为冷启动用户提供推荐方面取得了优异的成果。由表2 和表3 的第一列PMF 可观察得出，随着φ 值的增大，其对应值的范围变化相对较大，性能明显降低，主要原因是PMF 为单域推荐，用户信息的丰富性会影响推荐效果。此外，可由MEL 与MEM 两列数据结果看出MLP 映射的优势，其可有效获得源域与目标域之间的映射关系，同时也体现了使用MLP 映射的合理性。由图2 可以看出，相对于前4 种方法，C-DRCDR、DRCDR 取得了更好的效果，证明了评论信息的有效性。不同φ值下的模型实验结果比较如图2所示。

Fig.2 Comparison of experimental results of each model under different φ values图2 不同φ值下模型实验结果比较

当φ 为30%时，DRCDR 模型的RMSE、MAE 相比MEL、MEM 模型提高了1%～3%，当φ 值变大时，RMSE 和MAE 值也随之变大。因为φ 代表冷启动用户占比，即测试集大小，每个基线方法的效果和DRCDR 模型性能都与训练集大小，即数据信息的丰富度有着重要关系。模型实验结果如图3 所示。由图3 可以看出，当φ为10%时，实验的每个模型都获得了最优结果。根据表2、表3 可看到，DRCDR模型的RMSE 和MAE 相较于传统跨域方法提高了2%～4%，由此证明本文处理并融合评论信息方法的合理性，以及提出的通过增加源域信息来源以减少数据稀疏带来影响方法的有效性。

Fig.3 Model experiment results图3 模型实验结果

4 结语

本文在EMCDR 基础上提出融合评论上下文特征的深度跨域推荐框架DRCDR，该模型利用评分和评论中的上下文信息提高跨域推荐性能。本文主要在EMCDR 模型基础上对两部分进行了优化：①融合两个领域信息以改善数据稀疏性；②不仅对源域增加了评论信息，而且考虑了目标域的评论信息。虽然本文在原有模型基础上的改进获得了显著效果，但对于数据融合方法仍需要作进一步改进。未来也可在评论信息的基础上，考虑加入其他数据，例如用户年龄、地域和朋友关系等信息，以进一步提升跨域推荐的个性化程度。