基于图神经网络的注意力因子分解机推荐系统

2023-09-18 18:55刘国桢战庭军王廷勇赵超

现代信息科技 2023年15期

刘国桢战庭军王廷勇赵超

摘要：针对推荐系统中的数据稀疏问题，提出一种基于图神经网络的注意力因子分解机模型，利用注意力因子分解机对用户和项目中不同邻域的特征信息进行二阶交互，注意力机制可以对二阶交互进行权重参数的重分配，一定程度上缓解了数据的稀疏性问题，提高了推荐系统的性能。在4个不同数据集上的评分预测实验表明，该文所提算法的均方根误差（RMSE）相较于目前比较优秀的算法分别提升了2.2%、4.3%、10.6%、2.6%。

关键词：图神经网络；因子分解机；评分预测；推荐系统

中图分类号：TP391；TP183 文献标识码：A 文章编号：2096-4706（2023）15-0053-05

Attention Factor Decomposition Machine Recommendation System Based on Graph Neural Network

LIU Guozhen， ZHAN Tingjun， WANG Tingyong， ZHAO Chao

（R&D Center of SunRui Marine Environment Engineering Company Ltd.， Qingdao 266101， China）

Abstract： A graph neural network-based attention factor decomposition machine model is proposed to address the problem of data sparsity in recommendation systems. The attention factor decomposition machine is used to perform second-order interaction on feature information of different neighborhoods in users and projects. The attention mechanism can redistribute weight parameters for second-order interactions， alleviating the problem of data sparsity to a certain extent and improving the performance of recommendation systems. The scoring prediction experiments on four different datasets show that the Root-mean-square deviation （RMSE） of the proposed algorithm is 2.2%， 4.3%， 10.6% and 2.6% higher than the current excellent algorithm.

Keywords： graph neural network; factor decomposition machine; rating prediction; recommender system

0 引言

在互聯网时代，推荐系统被广泛应用于网络平台和应用软件，其可以快速发现用户的偏好规律并且主动向用户推送个性化内容，因此推荐系统在缓解信息过载问题中起着至关重要的作用。传统矩阵分解无法从多个维度提取用户的偏好，泛化能力较差，达不到个性化推荐的目的[1]。研究人员从基于深度神经网络（Deep Neural Network， DNN）的方法出发，对传统推荐模型进行改进，模型的性能得到显著的提升。

从用户和项目的历史数据中对其建模是个性化推荐中的重要一环。Okura等[2]利用门控循环单元（Gated Recurrent Unit， GRU）网络从历史序列数据中学习用户和项目的表征。Chen等[3]利用注意力网络从用户的行为数据中学习重要特征。然而，上述方法不能有效地对用户和项目间的关系信息进行建模，这些关系信息在用户兴趣建模过程中发挥着至关重要的作用。Rendle[4]提出了因子分解机模型（Factorization Machines， FM），通过数据特征间的交互，一定程度上提高了模型的泛化能力，但却无法挖掘用户的深层特征。He[5]等人提出NFM模型，在FM中引入DNN，使得DNN可以更好地学习深层交互信息，降低了模型学习高阶交互的难度，节省了计算资源，但传统DNN只能学习特征的高阶内部关系，无法对用户和项目的关系信息进行建模。

针对以上问题，本文提出一种基于图神经网络的注意力因子分解机推荐系统，GNN所获目标节点的多个邻域特征可以看作是该节点含有社交内容的背景信息，利用注意力因子分解机对邻域特征进行二阶交互可以增加特征信息的数量，从而有利于模型参数的优化，提高评分预测的准确度。在4个公开数据集上的实验验证了GAFM推荐算法的准确率优于对比算法。

1 相关工作

推荐系统集成了机器学习、信息检索和用户识别等技术，旨在为用户提供更加有效的搜索环境，帮助用户在海量数据中获得有用的信息，该系统目前被广为研究。

针对推荐系统存在数据稀疏性问题，Juan等[6]提出FFM模型，在不同类别特征间的同阶交互中加入特征隐藏因子并采用并行结构。相较于传统FM，该模型的预测准确率显著提高，被广泛应用于基于上下文的点击率预测任务中。Lu等[7]提出一种可用于处理大规模问题的SFMs模型，该模型具有线性复杂度，专门用于学习公共潜在空间中的多视图张量，而且可以自动调节每一个视图的重要等级。Hong等[8]提出的IFM模型，首次将字段信息引入交互学习中，该模型在获得特征交互的同时还能获得特征字段的交互信息，进一步丰富模型的输入信息，同时加入特定的采样方案以提高推荐性能。

针对推荐系统中繁杂的多源异构数据，传统DNN不能有效解决这一问题，然而图神经网络（Graph Neural Networks， GNN）可以较为轻松地对此类数据进行建模。Ma等[9]提出一种记忆增强的MA-GNN推荐算法，其利用记忆增强网络去捕捉项目的短期上下文信息和长期依赖关系，然后利用门控机制将长短期记忆进行融合，最终借助一个双线性方程捕捉项目间的关联性，该模型在序列推荐领域大放异彩。Mu等[10]提出的GAT-NSR社交推荐模型，采用注意力机制精确的学习用户和项目的潜在因子向量，将用户项目图和社交图进行深度融合，最后采用神经协同过滤模块描述用户和项目的固有复杂交互特征。

2 GNN信息聚合

依据历史评分数据可以将用户和项目归到异质图中，如图1所示。与用户有历史交互的项目可以直接反映出用户的偏好[11]，同理，给项目評分的用户也可以视为项目的特征。

2.1 一阶关系信息聚合

一对直接相连的用户和项目称为一阶关系，并把从项目i流向用户u的信息定义为：

如图2所示，将用户u2的所有一阶邻居节点信息进行聚合，与自身信息综合后共同更新用户u2的表示向量：

2.2 高阶邻居节点信息聚合

节点的一阶关系聚合来源于该节点的历史交互信息，通过对一阶关系信息的聚合，用户节点获得了其一阶邻居的信息。通过对一阶关系信息聚合框架进行堆叠来实现对高阶协同信号的建模。在用户对项目的评分预测任务中，如果用户与项目存在连通性，那么用户项目之间一定存在二阶以上的连通关系。因此，在评分预测任务中对高阶协同信号的建模至关重要。

在图1中，属于用户u1的一条高阶连通路径为i4—u2—i2—u1。通过对三层一阶关系聚合框架进行连接可以捕获项目i与用户u1之间的高阶协同信息。

如图3所示，对l层一阶信息提取架构进行堆叠，用户和项目节点就会获得来自其l阶邻居节点的高阶协同信息。因此，经过l层信息传播后用户u的向量表达形式为：

为了提高计算效率，以及为全局的高阶节点信息提取提供一个清晰的概念，本文将以矩阵的形式描述全局节点的表示向量更新规则：

其中，E （l ）表示全局节点提取l阶协同信息后的表示向量矩阵，E （0） = E作为信息提取的初始输入。D表示度矩阵，A表示邻接矩阵，R表示评分矩阵。通过以上矩阵形式的规则可以同时对全局用户节点和项目节点向量进行更新。

3 GAFM算法与实现

3.1 GNN获取高阶特征

2.2节中介绍了节点的高阶信息聚合模块，通过堆叠任意层数该模块可以得到全局节点的任意阶次表示向量矩阵E （l ）。本节将讨论如何利用各阶次的用户（项目）向量有效地进行评分预测。

不同阶层下的节点特征可以通过一系列节点传递到目标节点，它们包含了目标节点不同的潜在偏好和特征信息。可以将这些不同阶层下的节点看作目标节点潜在的背景信息，如果只是简单地用线性回归模型来对这些隐式信息进行建模，将会由于数据的稀疏性而导致泛化效果不佳，于是本文利用注意力因子分解机对特征进行二阶交互，其中的注意力机制可以使模型获得不同阶邻居节点的重要性参数，然后利用多层感知机（Multi-Layer Perception， MLP）对二阶特征交互进行特征压缩，以取得更好的泛化能力。为此本文提出了GAFM推荐算法，并给出其整体结构框架，如图4所示。

通过L层GAFM模型可以得到用户u和项目i的L阶特征向量集合：

3.2 FM特征交互

阶特征交互向量集合：

3.3 GAFM评分预测

最后，将所得到的用户u和i项目的基于注意力因子分解机的二阶交互输入MLP，得到预测输出：

其中，MLP（·）表示MLP网络，将式（13）与FM的一阶回归模型进行综合，得到用户u对项目i的最终评分预测模型：

其中，β0和βj分别表示全局偏置参数和一阶回归模型参数。本文中研究的主要内容为用户和项目之间的交互预测模型。

评分预测作为线性回归问题，采用平方误差作为本模型的损失函数，将GAFM的损失函数定义为：

4 实验与结果

4.1 数据集与参数设置

采用4个公共数据集进行实验，分别是Personality、Yahoo Music、Movielens-100k（ML-100K）、ML-1M。

将表1中的数据集分组为80%的训练集、10%的验证集和10%的测试集。

4个数据集上GAFM采用的层数均为3，训练批尺寸均为2 048，学习率为0.01。不同数据集下的嵌入维度、迭代次数、MLP模块层数及每层所采用的隐藏因子数目略有不同，详细参数如表2所示。

4.2 评估指标

GAFM与3个推荐算法进行对比：NCF算法、神经矩阵分解（Neural Matrix Factorization， NeuMF）算法和NGCF算法[12，13]均采取RMSE作为预测值的评估指标，RMSE定义如下：

4.3 实验结果

4个模型在4个公共数据集上的RMSE对比如表3所示。在4个数据集上，GAFM的性能相比于NCF、NeuMF、NGCF均有不同程度的提升。

在Yahoo Music数据集上，表3中4个算法的预测表现普遍较差。由于Yahoo Music数据集的数据密度远远低于其他数据集，在学习数据特征时模型参数得不到很好的泛化，导致预测性能欠佳。但是GAFM在Yahoo Music上有较明显的性能提升，RMSE指数比NCF和NeuMF分别降低了0.125 5和0.115 7，这是因为GAFM利用GNN挖掘出了用户项目间的隐式协同关系，而传统的NCF、NeuMF模型却无法利用数据中的潜在信息。与此同时，GAFM利用注意力因子分解机模块来构建用户和项目的交互方程，对二阶特征交互进行建模，丰富了特征数量，在很大程度上缓解了Yahoo Music数据集稀疏度高的问题，并且模型通过注意力模块可以区分不同交互特征的权重分数，进一步提高了模型的推荐性能。4个模型在Personality数据集上的预测准确度普遍优于在其他数据集上的预测准确度，这是因为Personality数据集规模较大，并且有着较高的数据密度，评分等级划分更为细致，因此模型参数在训练过程中会很好地泛化用户对项目的偏好行为，从而做出更为准确的预测。

從4个模型在4个数据集上的整体表现来看，NCF和NeuMF的性能比较相似，二者在ML-100K、ML-1M和Personality上的预测精度几乎一致，二者在Yahoo Music上的预测精度略有差异，这是因为这两个模型的主要结构都是MLP。GAFM和NGCF的性能明显优于NCF和NeuMF的性能，可以看出利用GNN来挖掘用户和项目间的潜在关系对预测准确度的提升有很大的帮助。GAFM的性能明显优于NGCF，这是因为GAFM利用注意力因子分解机模型对用户和项目不同阶层的表示向量进行交互，并预测评分结果，从而缓解了数据稀疏性问题；NGCF仅仅对各阶次向量进行简单拼接，并采用内积方进行预测，由此可以看出，对用户项目进行交互建模有利于预测精度的提高。

5 结论

GAFM旨在解决推荐系统的数据稀疏性问题。本文研究利用注意力因子分解机对用户和项目的各阶特征信息进行评分预测的交互建模。首先将用户和项目关系转化为图结构，利用FM对用户和项目不同邻域的特征信息进行二阶交互，利用注意力机制对二阶交互进行权重参数的重分配，缓解了数据的稀疏性问题，提高了推荐系统的性能。在未来的工作中，将通过引入视觉、文本等多元数据来提高推荐性能。

参考文献：

[1] 于蒙，何文涛，周绪川，等.推荐系统综述 [J].计算机应用，2022，42（6）：1898-1913.

[2] OKURA S，TAGAMI Y，ONO S，et al. Embedding-based news recommendation for millions of users [C]//KDD '17： Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York：ACM，2017：1933-1942.

[3] CHEN J Y，ZHANG H W，HE X N，et al. Attentive Collaborative Filtering： Multimedia Recommendation with Item- and Component-Level Attention [C]//SIGIR '17： Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York：ACM，2017：335-344.

[4] RENDLE S. Factorization Machines [C]//2010 IEEE International Conference on Data Mining. Sydney：IEEE，2010：995-1000.

[5] HE X N，CHUA T S. Neural Factorization Machines for Sparse Predictive Analytics [C]//SIGIR '17： Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York：ACM，2017：355-364.

[6] JUAN Y C，ZHUANG Y，CHIN W S，et al. Field-aware Factorization Machines for CTR Prediction [C]//RecSys '16： Proceedings of the 10th ACM Conference on Recommender Systems.New York：ACM，2016：43-50.

[7] LU C T，HE L F，DING H，et al. Learning from Multi-View Multi-Way Data via Structural Factorization Machines [C]//WWW '18： Proceedings of the 2018 World Wide Web Conference.Geneva：International World Wide Web Conferences Steering Committee，2018：1593-1602.

[8] HONG F X，HUANG D B，CHEN G. Interaction-Aware Factorization Machines for Recommender Systems [J/OL].arXiv：1902.09757 [cs.LG].[2023-02-04].https：//arxiv.org/abs/1902.09757.

[9] MA C，MA L，ZHANG Y X，et al. Memory Augmented Graph Neural Networks for Sequential Recommendation [C]//Proceedings of the AAAI Conference on Artificial Intelligence.New York：AAAI，2020：5045-5052.

[10] MU N，ZHA D，HE Y Y，et al. Graph Attention Networks for Neural Social Recommendation [C]//2019 IEEE 31st International Conference on Tools with Artificial Intelligence （ICTAI）. Portland：IEEE，2019：1320-1327.

[11] KABBUR S，NING X，KARYPIS G. FISM： Factored Item Similarity Models for Top-N Recommender Systems [C]//KDD '13： Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining.New York：ACM，2013：659-667.

[12] HE X N，LIAO L Z，ZHANG H W，et al． Neural Collaborative Filtering [C]//WWW '17： Proceedings of the 26th International Conference on World Wide Web.New York：ACM，2017：173-182.

[13]WANG X，HE X N，WANG M，et al. Neural Graph Collaborative Filtering [C]//SIGIR'19： Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York：ACM，2019：165-174.