混合秩矩阵分解模型*

2019-07-11 07:28李幸幸刘华锋景丽萍
计算机与生活 2019年7期
关键词:残差权重局部

李幸幸,刘华锋,景丽萍

北京交通大学 计算机与信息技术学院,北京 100044

1 引言

随着信息时代的到来,人们获取的信息越来越丰富,而如何有效获取有用的信息成为一个难题。以搜索为代表的信息检索虽然可以帮助用户获取有用的信息,但是关键字检索无法满足用户的个性化需求。而推荐系统[1-13]可以通过用户的兴趣爱好以及需求信息、历史行为等信息为用户提供个性化服务。筛选满足用户特定需求的信息,来解决信息过载的难题[14-15]。

推荐系统广泛存在于人们的生活中,亚马逊的商品推荐,网易的音乐推荐,Netflix的电影推荐等,这些平台的推荐基础是根据用户的历史信息获取用户的喜好[15],而矩阵分解[16]的方法由于思路简单易于理解,稳定性高,可扩展性强等优点成为当前的研究热点。矩阵分解的方法主要学习用户物品的潜在因子矩阵,通过用户对不同元素的偏好程度来近似拟合原始的评分矩阵[16-17]。传统的矩阵分解方法NMF(non-negative matrix factorization)[2]、PMF(probabilistic matrix factorization)[1]、SVD++(singular value decomposition)[18]等通过矩阵分解获取用户物品的潜在因子矩阵来预测评分。虽然这种方法可以基于所有用户对物品的评分,获取具有结构信息的预测评分,但是却丢失了局部信息,例如相似用户对某些物品评分之间的联系。

为了挖掘用户物品之间的强相关性,基于集成的局部矩阵补全方法成为研究热点[19-20]。LLORMA(local low-rank matrix approximation)[21]是一种利用联合聚类算法将原始评分矩阵划分成一系列具有局部结构的子矩阵,通过多次加权多次划分结果对原始评分矩阵进行预测。ACCAMS(additive co-clustering to approximate matrices succinctly)[22]通过联合聚类将相似用户以及相似物品聚类到一起,然后基于相似性原则,以每个子矩阵中评分的均值作为该子矩阵中空缺元素的预测。虽然这些方法取得了显著的推荐精度提升,但只关心评分矩阵的局部强相关性信息,忽略了整体的结构信息。此外,由于不同数据往往具备不同的结构信息,手动调试聚类个数需耗费大量的时间。因此本文提出了一种基于boosting框架的混合矩阵秩的矩阵分解方法(mixture rank matrix factorization,MRMF)[23-24]。

随着评分矩阵结构越来越复杂,基于单一角度分析的模型推荐精度较低。比如传统矩阵分解方法通过用户物品的特征矩阵从整体结构角度拟合矩阵评分,忽视了评分矩阵的局部强相关性以及用户的特殊偏好等局部信息,而基于局部的集成方法忽略了整体的结构信息。为了更好地对用户进行个性化推荐,本文提出混合秩矩阵分解的模型MRMF。MRMF既考虑整体结构信息也考虑局部强相关性信息,通过减少真实评分与预测评分的差值来提高预测精度。MRMF可以从残差矩阵中学习局部信息。为了更好地抓取局部信息,通过设定不同的秩来表示不同的特征偏好,进而表示不同用户的喜好。MRMF对每一部分的残差矩阵进行矩阵近似求解,同时考虑混合模型的鲁棒性,让每个模型只学习有用的信息,防止模型过拟合。

基于评分服从高斯分布的先验,考虑到整体样本权重向量应具备稀疏性,为此,通过引入服从拉普拉斯分布的用户/物品特征权重,提出了自适应权重矩阵分解模型(adaptive weight matrix factorization,AWMF)。当预测评分值与真实评分值误差较小时,存在较大的权重值;否则,权重值较小。此外,考虑到随着残差迭代学习的进行,残差矩阵的稀疏度不断增大。采用EM(expectation-maximization)[25]算法对矩阵集成的权重进行自适应求解,从而减少人工调参的复杂性。通过在真实数据集上的实验表明,该方法可以获取一个较好的推荐精度。

2 概率矩阵分解

矩阵分解(matrix factorization,MF)推荐模型最早由Simon Funk在博客上公布。如图1所示,其基本思想是从评分矩阵X∈ℝn×m中学习用户在低维隐空间上的表示U∈ℝK×n和物品在低维隐空间上的表示V∈ ℝK×m。

Fig.1 Matrix factorization图1 矩阵分解

在矩阵分解中,将评分矩阵近似表示为:X≈UTV。其中U=[U1,U2,…,Un]∈ℝK×n代表用户的特征矩阵,Ui表示用户i的特征向量(偏好向量),V=[V1,V2,…,Vm]∈ℝK×m代表物品的潜在因子矩阵,Vj表示物品j的特征向量。

Salakhutdinov和Mnih从概率的角度对于上述矩阵分解模型进行解释,提出概率矩阵分解模型(probabilistic matrix factorization,PMF)[1]。如图2所示。

概率矩阵分解模型假设评分数据Xij满足高斯分布Xij~Ν(UiTVj,σ2),同时用户、物品的特征矩阵也满足均值为0的高斯分布,Ui~Ν(0,σU2,)Vj~Ν(0,σV2,)其中Ν(μ,σ2)代表均值为μ,方差为σ2的高斯分布。

Fig.2 Graphical model for probabilistic matrix factorization图2 基于概率矩阵分解的图模型

根据贝叶斯规则,特征矩阵的后验概率可以表示为:

最大化特征矩阵的后验概率等价于最小化上式的负对数。因此,当超参数固定时,可得如下目标函数:

其中Ω={Xij|Xij≠0}为观测数据集合,λ代表正则项的系数。

3 基于Boosting学习的混合秩矩阵分解模型构建

PMF等单模型仅关注评分矩阵的整体结构信息,而忽视局部用户对某些产品的偏好等信息。为了挖掘评分矩阵的局部信息,对评分矩阵的残差进行学习,从残差中学习整体结构中忽略的局部信息。然而随着迭代矩阵近似求解的学习,残差矩阵越来越稀疏,若选用固定的矩阵秩,易导致模型过拟合。因此,在混合秩矩阵近似模型MRMF中,随着迭代计算学习,残差矩阵所对应的矩阵秩也需要不断变大。最后,基于随机梯度提升的框架,将不同秩的残差矩阵结合起来进行评分预测。同时每一步中的残差矩阵求解使用自适应权重模型AWMF,即如果真实评分与预测评分之间差距较小,则赋予较大的权重;否则,赋予较小的权重。

3.1 自适应权重概率矩阵分解模型

本节在传统概率矩阵分解模型基础上提出自适应权重概率矩阵分解模型(AWMF)。通过自适应学习每一个用户和物品的权重,实现不同用户和物品的区别对待。其概率图模型如图3所示。

Fig.3 Graphical model for adaptive weight matrix factorization图3 自适应权重概率矩阵分解图模型

依据传统概率矩阵分解模型,考虑到整体样本权重向量应具备稀疏性,为此,通过引入服从拉普拉斯分布的用户/物品权重向量α∈ℝn×1,β∈ℝm×1,构建自适应权重概率矩阵分解模型。具体来说,评分数据服从的概率分布如下所示:

式中,α、β分别表示用户与物品的权重向量。αi、βj表示用户i与物品j的特征权重。依据模型构建规则,当预测评分值与真实评分值误差较小时,存在较大的权重值αi∙βj;否则,权重值较小。

通过自适应学习用户与物品的特征权重,实现对观测数据信息的充分挖掘,得到更加精确的用户物品特征向量U、V,避免模型过拟合。因此根据贝叶斯规则,特征矩阵U、V以及权重向量α、β的后验分布可表示成:

最大化特征矩阵U、V以及权重向量α、β的后验分布等价于最小化上式的负对数。由于得到的目标函数难以直接求解,故使用Jensen不等式获取下界,最终得到自适应权重模型的目标函数如式(5)所示。因此可通过下式获取用户物品的隐因子矩阵对(U,V:)

通过分析上式,若令先验分布中的超参数固定,由于超参数个数较多,极易导致模型过拟合。此外,由于不同用户偏好与物品种类的多样性,导致不同用户和物品特征矩阵服从的高斯分布的方差也大不相同。因此超参数具体更新规则如下:

3.2 基于梯度提升的混合秩矩阵分解模型

基于矩阵分解的协同过滤方法,通常人为选择一个较小的值r<<min{m,n}作为原始评分矩阵的秩。然而,由于不同数据集往往在数量级和稀疏度等方面存在较大的差异,所有数据服从统一秩的假设往往会造成模型出现过拟合或欠拟合的现象,从而无法准确学习用户的偏好。

为此,结合boosting学习策略,通过结合不同秩矩阵学习方法,提出混合秩矩阵分解模型(MRMF),以此挖掘评分矩阵的整体结构信息与局部相关信息。对于评分矩阵Xn×m,MRMF模型通过融合K个由AWMF学习获得的近似矩阵Rk=(Uk)TVk来预测缺失的评分值,预测的评分可表示为:

其中,K代表模型的个数,k代表第k次迭代。Rk表示第k次迭代中AWMF模型的预测评分矩阵。ωk代表第k次迭代学习得到的评分矩阵权重。其中Rk=(Uk)TVk,(Uk,Vk)为第k次迭代获取用户物品的隐因子矩阵对。因此可以得到目标函数的形式如式(8)所示,k=1时,即为普通的矩阵分解模型。

MRMF模型采用梯度提升(gradient boosting)的思想,依据前向分步算法,利用损失函数的负梯度作为当前模型的输入。在MRMF中,负梯度表示为评分的真实值与预测值之间的差值。

在第k-1步迭代中,评分是由前k-1个预测评分矩阵共同表示,其中表示第k-1次迭代所得预测残差矩阵。计算第k-1步真实值与预测值之间差值,即第k步的残差矩阵。具体残差矩阵计算方式如图4所示。

Fig.4 Residual matrix determined by rating matrix and predictive rating matrix in previous stage图4 通过前一步骤的真实值与预测值获取残差矩阵

得益于boosting学习策略,MRMF能够通过不断拟合残差矩阵来实现对原始评分矩阵Xn×m的近似。在第k次迭代过程中,将前k-1个残差矩阵拟合的预测评分值与真实值的残差矩阵作为当前迭代的评分矩阵,通过AWMF模型学习用户和物品的特征表示Uk、Vk。第k步残差矩阵计算公式如下:

其中,ωk表示第k步学习到的预测评分矩阵的权重。残差矩阵Xk作为第k步模型的输入。在第k步中,模型AWMF的输入如下表示:

其中,Rk=(Uk)TVk。当进行第k次学习时,依据自适应权重概率矩阵分解模型AWMF,学习得到当前残差矩阵的用户/物品特征表示Uk、Vk。

基于梯度提升学习策略,渐进地学习用户/物品特征表示。具体计算步骤如算法1所示,具体来说,在每一次迭代计算过程中,依据式(9)计算当前迭代残差矩阵,进而利用自适应权重矩阵分解模型AWMF学习残差矩阵的用户物品隐特征表示Uk、Vk。而后通过EM算法计算当前迭代计算中预测评分矩阵的权重,从而实现对原始评分矩阵的近似求解。

算法1MRMF算法框架

输入:观测评分矩阵X∈ℝn×m,拟合矩阵的数目K。

输出:预测评分矩阵R̂。

对k=1,2,…,K

1.依据式(9)计算当前迭代残差矩阵Xk

2.根据AWMF模型学习残差矩阵Xk的用户物品特征表示Uk、Vk,进而得到第k次迭代预测Rk=(Uk)TVk

3.通过EM算法更新矩阵权重ω1,ω2,…,ωk

4.更新预测评分表示为:

4 实验与结果

本文使用四个典型推荐数据集Ciao、Epinions、Douban、Movielens(10M)来验证提出的混合秩矩阵分解模型MRMF。

4.1 数据集

本文使用的数据集为研究推荐问题常用的公开数据集Ciao、Epinions、Douban、Movielens(10M)。上述数据集中评分的范围为1~5分,对每一个数据集采用五折交叉验证,将数据集随机划分为5份,轮流将4份作为训练集进行建模,1份数据作为测试集进行预测,5次实验结果的均值作为最终的实验结果。这些数据集的详细信息如表1所示。

Table 1 Statistics of experimental datasets表1 实验数据集统计

4.2 评测标准

评价推荐预测精度高低的评测指标主要是均方根误差(root mean squared error,RMSE)和平均绝对误差(mean absolute error,MAE),两个指标均通过评估预测值与真实值的差异大小作为衡量标准。RMSE的定义为:

式中,Τ表示测试集中评分的集合,Τ的模|Τ|表示测试集中评分的个数,Xij表示用户i对物品j的真实评分,而表示用户i对物品j的评分预测值,MAE的表示如下:

较小的RMSE或者MAE代表精度更高,并且由于推荐评分数据庞大,一个较小的精度提升在推荐系统的应用上均可以拥有显著的提高。

4.3 对比算法

本节介绍三种本实验对比算法:基于整体结构的PMF、RSVD(regularized singular value decomposition)以及基于局部信息的集成模型ACCAMS。

(1)PMF[1]:一种基于概率的矩阵分解方法,假设评分服从高斯分布。同时模型中的超参数均采用固定值。

(2)RSVD[18]:是一种应用广泛的矩阵分解方法,通过最小化预测与真实值的误差来获取用户物品的特征向量。

(3)ACCAMS[22]:通过联合聚类将相似用户以及相似物品聚类到一起,然后基于相似性原则,以每个子矩阵中评分的均值作为该子矩阵中空缺元素的预测。

4.4 实验参数设置

比较本文提出的MRMF模型与PMF、RSVD、ACCAMS模型在4.1节介绍的数据集上的测试结果,实验结果如表2所示。在MRMF算法中,在训练过程中自适应学习模型中的超参数(如3.2节所述),通过自动调整避免模型过拟合。而迭代更新参数和超参数的过程中,梯度下降学习率会影响最终的推荐精度。学习率代表梯度下降的步长,太大的值容易在最低点“震荡”,太小的步长则导致下降速度太慢,实验效率较低。经过对已有的梯度下降算法进行实验对比,adam方法具有下降速度快且收敛精度高的特点。因此在本实验中,选择adam作为梯度下降的方法。设置其中的步长为0.001,指数衰减率分别为0.900、0.999。在本文的模型中,高斯分布的个数设置为5。

对比算法参数设置如下,在PMF、RSVD中正则项的系数λu=0.01,λv=0.01 ,PMF中使用加入动量的梯度下降,动量为0.8,矩阵的秩为10。在RSVD中正则项的系数为λu=0.06,λv=0.06 ,其余参数 设置均为论文中的参数设定。对于ACCAMS算法,用户物品聚类个数相同。在数据集Ciao、Epinions上,模板数与聚类数分别为s=1,k=4 ;在数据集Douban、Movielens(10M)上,分别为s=1,k=30,参数设置为实验验证适合对应数据分布最优参数。

4.5 实验结果分析

为了评估各推荐算法的性能,从整体、局部的角度对实验结果进行分析,整体的角度为所有用户的整体架构,适合大部分评分的普适性能。局部的角度表示局部相同爱好的用户,相似性质物品的高相似性,以及用户对某些物品的偏好等。以下分析主要从上述两方面进行分析。

用户评分以及预测评分之间的误差统计可以有力反映算法的预测性能。RMSE或者MAE的微小提升反映在庞大的推荐数据集上,可以在推荐应用上拥有显著的效益。表2表示MRMF模型与传统的PMF、RSVD,以及经典local算法ACCAMS在上述提到数据集上的性能对比。从表中可以看到,本文提出的混合秩矩阵分解算法MRMF相比较于传统的基于高斯的矩阵分解算法PMF有很大的性能提升。

Table 2 Performance comparisons of different collaborative filtering methods表2 不同协同过滤方法的性能对比

实验数据集Ciao和Epinions具有较高的稀疏度(其稀疏度分别为0.036%和0.010%)。如何提升高度稀疏数据集的推荐精度,是推荐系统面临的一大挑战。从表2中可以发现稀疏数据的推荐精度明显低于Douban以及Movielens(10M)相对稠密的数据集。分析表中数据以及图5、图6可以发现,RSVD在稀疏数据上的性能较差,而本文提出的算法MRMF由于融合多个不同秩矩阵,以及自适应样本点权重的加入,使得模型可以充分挖掘隐藏的局部特征,在稀疏数据上仍能保持较好的性能。

ACCAMS作为一种多个评分矩阵集成的模型在推荐精度取得了较高的提升,但ACCAMS只关注局部信息,忽视了整体的结构信息,用聚类之后用户对物品的评分直接取平均表示预测物品的评分,过于强调局部相关性,忽视整体数据对局部的影响。而本文提出的MRMF模型,结合评分矩阵的整体结构化信息以及评分矩阵的局部强相关性,解决了ACCAMS忽视整体结构的缺点,同时考虑随着残差矩阵越来越稀疏,对应的残差矩阵的秩也越来越大。

4.6 实验结果可视化

本节对实验结果进行可视化分析,分析提出模型MRMF相对PMF、RSVD、ACCAMS等对比算法的提升程度及原因,以及RMSE(MAE)随着融合矩阵个数增加的变化趋势。

图5、图6展示了提出的算法MRMF在不同数据集上对比整体的模型PMF、RSVD以及局部集成模型ACCAMS的提升比重。可以看到本文提出的算法MRMF较PMF具有较大的提升,同时也优于考虑了局部结构信息的ACCAMS。如图5、图6所示,MRMF相较于RSVD在稀疏数据集(Ciao稀疏度0.036%,Epinions稀疏度0.010%)具有明显的性能提升,由此说明MRMF能够有效解决因数据稀疏带来的推荐精度低的问题。

Fig.5 Relative improvements of MRMF in term of MAE图5 MRMF在MAE上的提升比重

Fig.6 Relative improvements of MRMF in term of RMSE图6 MRMF在RMSE上的提升比重

为了验证boosting框架的有效性,展示了预测误差随拟合矩阵个数变化的变化趋势,如图7、图8所示。分析图像当矩阵个数从1增加到5,整体呈现下降趋势,但在k=3时出现了微小的上浮。k=1时,一个矩阵拟合时学习具有整体结构的整体普适信息。k=2时,拟合去除整体结构化评分剩下的局部个性化特征,此时过于强调局部个性化信息易导致过拟合。MRMF模型融合多个子模型矩阵的加权表示,随着融合矩阵个数的增加,模型对异常点权重调整可以看成对训练数据的一种扰动。因此MRMF模型可以降低方差,不断增强模型的鲁棒性,降低RMSE以及MAE,但随着融合矩阵个数的增加,相应的迭代次数也增加,虽然推荐精度提升,但实验成本耗时也增大,因此折中处理,选择矩阵个数为5进行实验。

Fig.8 MAE under different number of matrices图8 不同矩阵个数下MAE的变化

5 总结

本文提出了一种混合秩矩阵近似模型。本文基于boosting框架,融合多个不同秩的残差矩阵,同时每一个残差矩阵引入拉普拉斯先验的权重先验,可以自适应地学习样本权重。本文提出的MRMF方法在准确度方面优于已有的传统矩阵分解方法。通过实验结果的对比分析,本文方法可行且有效。

猜你喜欢
残差权重局部
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
爨体兰亭集序(局部)
基于残差学习的自适应无人机目标跟踪算法
权重常思“浮名轻”
凡·高《夜晚露天咖啡座》局部[荷兰]
基于深度卷积的残差三生网络研究与应用
为党督政勤履职 代民行权重担当
权重涨个股跌 持有白马蓝筹