融合全局信息的多图神经网络会话推荐

2024-04-22 02:30:38黄涛,徐贤

小型微型计算机系统 2024年4期

黄涛,徐贤

(华东理工大学计算机科学与工程系,上海 200237)

0 引言

在互联网搜索、电子商务、流媒体服务等在线应用中,推荐系统都扮演着关键角色,目的在于为用户提供有用的信息,以减轻信息过载对用户造成的冲击.传统方法主要依靠用户的偏好文件或长期的历史交互信息进行推荐.然而,在大多数情况下,由于用户没有任何可用的历史会话交互记录,可用于推荐的唯一资源就是当前会话的信息.因此,基于会话的推荐SBR(Session-based recommendation)引起了广泛关注,它根据给定的匿名用户会话序列按时间顺序预测用户下一个最有可能交互的物品[1].

早期对基于会话推荐的研究大多分为两类,分别是基于马尔科夫链[2,3]和协同过滤[4,5]的推荐方法.基于马尔可夫链的会话推荐的主要思想是根据用户之前的行为预测下一个行为.这种方法只考虑了相邻物品之间的顺序关系,而没有考虑物品之间的其它关系.通过将矩阵分解和一阶马尔可夫链相结合,Rendle等人[6]提出了FPMC(Factorized Personalized Markov Chains)模型,该混合模型通过捕捉序列模式和用户的长期偏好来实现推荐,但忽略了序列之间的潜在表示,因此不能达到满意的效果.基于协同过滤的方法利用物品之间的相似性进行推荐,已经得到了广泛应用.在协同过滤中,许多方法通过计算用户和物品之间的相似矩阵来获得推荐结果.Kabbur等人[7]使用结构方程方法将物品矩阵建模为两个低维潜在因子矩阵的乘积,以完成Top-K推荐.近年来,基于神经网络的方法也被应用于协同过滤.He等人[8]提出了一种基于神经网络的协同过滤框架NCF(Neural Network-based Collaborative Filtering),该框架利用多层感知器来学习用户物品交互功能.此外,Chen等人[9]提出了一种联合神经协同过滤模型J-NCF(Joint Neural Network-based Collaborative Filtering),该模型通过充分挖掘用户和物品的交互信息来学习物品的深层特征.虽然上述协同过滤方法被证明是有效的,但是忽略了用户的最新偏好和整个点击序列的时间相关性.

近年来,随着深度学习技术的不断发展,基于循环神经网络RNN(Recurrent Neural Network)的会话推荐方法成为了研究热点.Hochreiter等人[10]提出LSTM(Long Short Term Memory)的RNN变体网络,以更好地建模序列.Hidasi等人[11]将RNN结合到会话推荐中,并利用多层门控循环单元(GRU)建模交互式物品序列.Jannach等人[12]将GRU4REC(Gated Recurrent Unit for Recommendation)与KNN(K-Nearest Neighbor)方法相结合,对会话序列进行采样,提高了推荐效果.在此基础上,Tan等人[13]通过数据增强改进了RNN,并考虑了会话数据分布的时间变化.Peng等人[14]提出了HARSAM(A Hybrid Model for Recommendation Supported by Self-Attention Mechanism)的深度学习模型,该模型使用自注意力机制对用户交互数据进行建模,并学习用户的潜在偏好表达.Jing等人[15]提出了NARM(Neural Attentive Recommendation Machine)注意力模型,将注意力机制应用于会话特征编码器,以捕捉用户在当前会话中的主要意图.Qiao等人[16]提出了基于注意力机制的短期记忆网络STAMP(Short-Term Attention/Memory priority)模型,有效的捕获了用户的偏好信息.Wang等人[17]提出CSRM(collaborative session-based recommendation machine)模型,将 RNN网络和注意力机制结合,同时利用协同信息预测用户偏好.Wang等人[18]指出,基于RNN的方法主要通过对给定历史用户物品交互的序列依赖性建模来实现推荐.虽然基于深度学习的方法(主要是基于RNN的方法)在会话推荐中取得了一定程度的成功,但是它们仍然存在一些不足,具体如下:1)它们也只考虑当前会话序列中相邻交互项之间的依赖性,而忽略了交互项与其它位置项之间的依赖关系;2)它们只依赖于当前会话的信息,而不考虑其它交互会话信息.

图神经网络GNN[19-22](Graph Neural Network)能够克服以往方法的局限性,逐渐成为主流的会话推荐方法.与基于RNN的推荐方法不同,基于GNN的方法大多首先将会话序列建模为会话图,然后使用GNN在图中聚合相关邻居节点的信息.Wu等人[23]提出SR-GNN(Session-based Recommendation with Graph Neural Network)模型,使用注意力机制计算用户的全局偏好,将最后一项作为用户的当前偏好,并使用全局和当前偏好的线性组合生成会话的最终表示.Xu等人[24]提出图上下文自注意力模型GC-SAN(Graph Contextual Self-Attention Model based on Graph Neural Network),该模型使用图神经网络和自注意力机制来学习会话序列中物品之间的长期依赖关系.Qiu 等人[25]提出加权注意网络图模型FGNN(Full Graph Neural Network),该模型利用多权重图注意层(WGAT)来计算会话序列中物品之间的信息流,从而获得物品表示,然后通过特征提取器聚合物品表示以捕获会话特征.Wu等人[26]提出了GARG(Geographical Attentive Recommendation via Graph)模型,该模型将应卷积神经网络和注意力机制相结合为用户提供合适的新兴趣点.当使用上述的GNN模型构建会话图时,不同的会话序列可能具有相同的图,或者相同的图可能映射到不同的会话序列,将导致信息丢失并影响最终的推荐效果.Chen 等[27]提出LESSR(Lossless Edge-order preserving aggregation and Shortcut graph attention for Session-based Recommendation)模型,将会话序列建模为边缘保序图和快捷图,并设计了边缘保序聚合层和快捷图注意力层,解决了无效的长期依赖问题,有效避免信息丢失.尽管上述方法在会话推荐中取得了可接受的推荐结果,但是存在两个明显的缺点:1)基于GNN的方法只考虑了当前会话序列,并没有考虑其它会话对当前会话的影响;2)将会话序列建模为一个简单的会话图,GNN只能捕捉到物品之间的成对传递关系,但无法获得物品之间复杂的高阶关系.

对于普通图,一条边只能连接到两个顶点,而超图是一般图的推广,一条边可以连接任意数量的顶点.在构造超图时,将所有会话序列建模为超边.超边上的所有物品都是相互连接的,不同的超边通过共享项连接.这样构造的超图既考虑了其它会话之间的交互信息又包含了物品之间复杂的高阶信息.因此,本文提出一种融合全局信息的多图神经网络会话推荐模型(GIMGNN),该模型使用超图卷积神经网络(HGCN)和门控图神经网络(GGNN)分别捕捉物品之间复杂的高阶关系和成对传递关系,从而有效学习物品全局会话级别和局部会话级别的特征表示,极大的提高了会话推荐的准确度.

本文的主要工作如下:

1)提出全局会话超图和局部会话图相结合的多图神经网络会话推荐模型,充分利用超图神经网络捕捉物品之间复杂的高阶信息能力,提高会话推荐的性能.

2)使用求和池化操作融合物品的全局和局部级别上下文信息表示之后,通过使用注意力机制来处理融合的特征,学习会话序列的最终表示,从而得到更为准确的推荐结果.

3)在两个真实数据集Yoochoose和Diginetica上进行了一系列实验,实验结果表明,对比性能最优的基准模型,GIMGNN模型在Yoochoose上P@20和MRR@20至少提升了2.42%和4.01%,在Diginetica上P@20和MRR@20至少提升了6.56%和9.11%,验证了模型的有效性 .

1 GIMGNN模型

在本节中,首先介绍GIMGNN模型总体架构,其次对会话推荐问题进行描述,构造两种类型的图模型,分别是局部会话图和全局会话超图.接着分别使用门控图神经网络(GGNN)和超图卷积神经网络(HGCN)分别生成物品的局部会话特征表示和全局会话特征表示.然后通过注意力机制融合物品的局部会话特征表示和全局会话特征表示生成会话表示.最后将会话表示和物品全局特征表示进行线性组合得到最终表示,从而计算每个推荐候选项的排名分数.

1.1 模型整体架构

本节将超图卷积神经网络和门控图神经网络应用于基于会话的推荐方法中,提出了一种融合全局信息的多图神经网络会话推荐模型(GIMGNN),如图1所示.

图1 GIMGNN模型结构框架Fig.1 Model framework of GIMGNN

该模型主要模块构成如下:

1)构图模块:根据当前会话序列构建局部会话图,以及根据历史会话序列构建全局会话超图.

2)局部表示学习模块:将构建的局部会话图通过门控图神经网络(GGNN)生成物品局部会话特征表示.

3)全局表示学习模块:将构建的全局会话超图通过超图卷积神经网络(HGCN)生成物品全局会话特征表示.

4)聚合模块:通过注意力机制将反向位置嵌入融合到物品局部会话特征表示和物品全局会话特征表示中得到会话表示.

5)预测模块:根据聚合模块得到的会话表示和物品全局会话特征表示线性组合得到最终表示预测下一个交互物品.

1.2 问题描述

(1)

通过公式(1)最小化损失函数L(·).其中|St|是训练集的大小,mi是序列si的长度.

1.3 构图模块

本节定义了两个图模型,局部会话图和全局会话超图,以表示当前序列中不同级别之间的物品传递信息.局部会话序列表示当前会话序列中成对物品-物品关系的传递信息,全局会话序列表示所有会话序列中物品-物品关系的复杂高阶信息.

图2中显示了单个会话s={v1,v2,v3,v2,v4}的局部会话图.在图中每个节点都与自身有连接,因此可以在建模中融合自身的信息.局部会话图由有向图表示,可以很好地表示会话序列中物品之间的顺序相关性.对于本文构造的局部图的每一个节点,都可能有4种类型的边与其相连,分别表示为rin,rout,rin-out和rself.rin表示其它节点传递信息到该节点.rout表示该节点将信息传输到其它节点.rin-out表示该节点和节点之间存在双向传输信息,rself表示该节点自身的传递信息.

图2 局部会话图Fig.2 Local session graph

全局会话超图用于表示物品的全局信息.全局会话超图是一个连接任意多个顶点的超边组成的无向超图.超图G可以表示为三元组G=(V,E,W),V,E和W分别是节点集,超边和超边的权重.V表示系统中的所有物品,每个v∈V代表一个物品.E表示所有历史会话序列,每个e∈E表示会话序列.每个w(e)∈W是超边e的权重.在代数中,W可以定义为对角矩阵W∈|E|×|E|,超图可以用关联矩阵H∈|V|×|E|表示,其条目h(v,e)定义为:

(2)

根据超图的定义,可以计算超边的度矩阵D=∑e∈Ew(e)h(v,e)和所有顶点的度矩阵为B=∑v∈Vh(v,e),其中D和B都是对角矩阵.

在超图中,如果任意两个超边具有公共顶点,则它们是连通的.并且超边内的所有顶点都是完全连接的,因此超图包含物品之间的高阶未配对关系,可用于物品全局级物品的特征表示.图3中显示了3个会话序列形成的超图,虚线中的3个圆是超边,由它们之间的公共顶点v2,v3和v4连接,并计算其对应的关联矩阵.

图3 全局会话超图Fig.3 Global session hypergraph

1.4 局部表示学习模块

门控图神经网络(GGNN)用于获取局部会话序列中成对物品-物品关系的传递信息.在局部会话图中,节点向量表示的更新函数如下:

(3)

(4)

(5)

(6)

(7)

其中H∈d×2d,Wz,Wr,Wc∈2d×d,Gz,Gr,Gc∈d×d表示权重矩阵,和分别表示更新门和重置门,为会话s中的节点序列,σ(·)表示激活函数,⊙表示对应元素相乘.表示局部会话图的出度矩阵,表示局部会话图的入度矩阵.公式(3)用于不同节点之间的信息传播,在邻接矩阵的作用下提取邻域的潜在向量,并将其作为输入到图神经网络中.公式(4)和公式(5)通过更新门和重置门分别决定要保留和丢弃的信息.公式(6)根据前一状态、当前状态和重置门构造候选状态.公式(7)表示在更新门的控制下,由前一个隐藏状态和候选状态得到最终状态.通过对会话图中的所有节点进行更新,达到收敛之后,便可以得到最终的节点向量.之后使用注意力机制计算不同邻居节点对当前节点的影响,影响程度由注意力机制计算的权重表示.给定一个节点vi,可以通过元素乘积和非线性变换计算节点vj对其的影响权重:

(8)

eij表示节点vj对于节点vi的重要性,LeakyReLU(·)表示激活函数,rij表示节点vi和vj的关系,a*∈d是权重矩阵.通过权重矩阵来表示图中所有节点对于节点vi的影响.为了使不同节点之间的权重具有可比性,使用softmax函数对其进行归一化:

(9)

公式(9)注意力系数αij是不对称的,因为节点的邻居是不同的,意味着对每个节点的贡献是不平等的.接下来,通过线性组合计算节点vi的特征表示:

(10)

通过上述计算,可以将其他节点对当前节点的影响信息和当前节点本身的信息融合在一起,以表达当前节点的局部特征表示.并且通过注意力机制,降低了噪声对局部会话级别物品特征学习的影响.

1.5 全局表示学习模块

超图卷积神经网络(HGCN)用于获取所有会话序列中物品之间的高阶关系.在超图上定义卷积运算的主要挑战是如何传播相邻节点的信息.参考Feng等人[28]提出的谱图卷积,在本文的模型中,HGCN的定义如下:

(11)

(12)

1.6 聚合模块

对于每个物品,本文通过合并其局部表示和全局表示获得物品的最终表示:

(13)

(14)

其中参数W1∈d×2d和b∈d是一组可训练的参数,‖表示串联操作.由于会话序列的长度不固定,所以选择反向位置嵌入.相对于前向位置信息,预测物品和当前物品之间的距离包含更有效的信息.因此,反向位置信息可以更准确地表示每个物品的重要性.

会话的表示与学习到的物品信息密切相关.为了获得会话的表示,本文平均了会话序列中涉及的物品信息:

(15)

基于位置嵌入信息zi和会话表示s*,本文采用软注意机制来计算权重:

βi=qTσ(W2zi+W3s*+c)

(16)

其中,W2,W3∈d×d和q,c∈d都是可学习的参数.因此,通过线性组合操作获得会话的最终表示:

(17)

前面的计算过程表明,会话表示S表示不仅融合了全局和局部级别上下文信息,而且还包含了所有物品的位置和顺序信息,因此会话表示S可以很好地表示会话特征.

1.7 预测模块

(18)

(19)

其中,yi表示为one-hot向量.

2 实验与分析

在本节中,首先介绍实验的数据集和预处理、评估指标、基准方法和实验参数设置,然后设计了一些列对比实验,以回答下列4个问题:

问题1.与现有的会话推荐基准方法相比,GIMGNN表现如何?

问题2.融合全局信息是否增强了会话推荐效果?GIMGNN模型中每个模块的性能如何?

问题3.反向位置嵌入对GIMGNN的性能影响如何?

问题4.不同超参数(dropout)的设置对GIMGNN的性能影响如何?

2.1 数据集和预处理

本文实验将基于两个著名的基准数据集Yoochoose和Diginetica进行.其中Yoochoose数据集来自于2015年RecSys挑战赛,通过http://2015.recsyschallenge.com/challege.html获取,数据集包括一个网站的点击历史记录.Diginetica数据集通过https://competitions.codalab.orgcompetitions11161获取,来自2016年CIKM杯,数据集由典型交易数据组成.

对于两个数据集的预处理工作参考了文献[23],首先过滤掉长度为1的会话和两个数据集中出现次数少于5次的物品,然后将上周的会话(最新数据)设置为测试数据集,剩余的历史数据用于训练集.由于Yoochoose数据集非常大,本文对Yoochoose数据集进行了额外的处理.此外,已有研究证明使用接近测试集的训练集进行模型训练可以提高推荐性能.因此,实验中仅使用Yoochoose1/64作为数据集.表1列出了数据预处理后两个数据集的统计信息.

表1 预处理数据统计Table 1 Preprocessed data statistics

2.2 评价指标

为了便于与基线模型进行比较,本文选择了常用的精度(P)和平均倒数排名(MRR)作为评估指标.在实际推荐中,系统通常同时推荐多个物品.为了评估不同物品数量的推荐效果,使用P@K和MRR@K以测量模型的性能,其中K表示推荐物品的数量.

P@K被计算为推荐排名列表中测试用例前K位的正确项目,并定义为:

(20)

其中N是测试集中的序列数,nhit是在排名列表中前K个物品中正确推荐的物品数.

MRR@K是对正确推荐的物品vt出现在包含K个物品的推荐列表I中的位置进行评分,其具体值等于vt在I中的排名倒数.如果vt位于I的第1位时MRR@K为1,当vt未出现在I中时MRR@K为0.假设测试集的大小为N,取平均值MRR@K作为评估的度量:

(21)

其中rank(vt)是vt在推荐列表中的排名.

2.3 对比模型

为了验证GIMGNN模型的性能,实验用以下9种推荐模型作为对比模型:

1)POP:推荐训练数据集中频率最高的前N项.

2)Item-KNN:通过余弦距离来衡量两个物品之间的相似度,并根据相似度推荐物品.

3)FPMC[6]:同时考虑了矩阵分解和一阶马尔可夫链,是一种混合方法,但在计算推荐分数时,忽略了用户的潜在表示.

4)GRU4REC[12]:通过门控神经网络(GRU)将会话序列建模为最终会话表示,并使用排名损失来训练模型.

5)NARM[15]:基于GRU4Rec的模型,该模型扩展了注意力层,并结合了RNN的编码状态,使模型能够密切关注会话序列的重要特征.

6)STAMP[16]:将先前工作中的RNN编码器替换为多重注意力,并且将当前会话中最后一项的自我注意力作为用户的短期兴趣.

7)CSRM[17]:假设历史会话中包含与目标会话相似的用户偏好,并将这种协作信息应用于推荐任务.

8)SR-GNN[23]:使用GRU获得物品的嵌入表示,与STAMP类似,它通过关注最后一个物品来计算会话的特征表示.

9)GC-SAN[24]:使用自注意力网络来学习会话中物品之间的全局和局部依赖信息.

2.4 参数设置

在本文的实验中,将隐向量维度大小设置为100,批处理大小设置为100.所有可学习参数均使用高斯分布初始化,平均值为0,标准偏差为0.1.学习率设置为0.001,并由Adam优化器优化.本文在两个数据集上将epoch设置为20.对于GIMGNN的层数设置,不同的数据集对应不同的层数.通过实验发现,对于数据集Yoochoose1/64和Diginetica,当层数设置为3时,该模型的性能最佳.对于基线,如果原始论文的实验评估机制和数据集与本文相同,本文将采用最佳实验结果进行比较.此外,为了公平起见,还将参数设置为模型性能最佳时的参数.

2.5 结果分析(问题1)

通过表2的实验结果可以看出,与基线模型相比,本文提出的GIMGNN模型在两个数据集的指标上都优于基线模型.

表2 不同模型在两个数据集上性实验结果%Table 2 Experimental results of different models on two datasets%

传统的POP模型实验结果最差,因为只考虑了训练数据集中频率最高的前N项,而没有考虑其它交互信息.FPMC方法通过结合矩阵分解和一阶马尔可夫链来捕获用户偏好,表现出比POP更好的性能,证明了用户偏好在推荐中的重要性.在传统方法中,Item-KNN模型在Yoochoose1/64和Diginetica 数据集上显示了最佳结果.该模型根据当前会话和其他会话之间的相似性推荐物品,证明了会话之间存在一定的依赖性.然而,由于传统推荐模型无法捕捉同一会话中物品之间的顺序关系或顺序相关性,所以推荐的准确性明显受到影响.

从表2中不难发现,基于深度学习的模型优于传统的推荐系统方法.在性能方面,GRU4REC首先使用RNN对会话序列进行建模获取特征表示,其性能仍然低于NARM和STAMP模型.因为GRU4REC只考虑顺序关系,而不考虑序列中的其余信息,因此很难获得用户偏好的变化.这意味着,虽然RNN非常适合序列建模,但很难解决基于会话推荐中的用户意图可能发生变化的问题.通过考虑会话中不同物品的重要性,NARM和STAMP使用注意机制更准确地表达用户的意图,在一定程度上提高了推荐效果,性能优于GRU4REC.通过比较RNN和注意机制相结合的NARM与完全使用注意机制的STAMP的性能,本文发现STAMP的性能明显优于NARM.前一种方法通过迭代多个注意层来替换先前工作中的RNN编码器,并将当前会话中的最后一项视为用户的短期偏好,进一步证明了使用RNN学习用户的表示可能会导致用户意图的偏离.与NARM和STAMP相比,CSRM方法在Diginetica数据集上表现出更好的性能.它使用内存网络来研究最近的m个会话,以便更好地预测用户在当前会话中的意图.正如CSRM的性能所示,为了更好地进行会话推荐,需要考虑其他会话对当前会话的影响.

通过SR-GNN与GC-SAN实验结果可知,基于GNN会话模型的推荐效果明显好于传统推荐方法与深度学习方法.因为将会话序列建模为会话图以及使用GNN可以更好的捕获物品之间的成对传递关系,表明了在做出推荐时考虑物品之间的独立的重要性.与RNN相比,GNN可以捕获会话序列中物品之间更复杂的依赖信息.两种基于GNN的方法将会话序列建模为简单的图,不能够充分捕捉物品的成对传递,也无法学习物品之间的复杂高阶关系,这在一定程度上影响了推荐效果.

与基线模型不同,本文提出的GIMGNN模型将历史会话序列建模为超图,并使用超图神经网络(HGCN)学习物品之间的复杂高阶关系.模型同时考虑了局部和全局会话级别的上下文信息,因此可以有效地表示当前会话序列中物品的特征,这也是GIMGNN具有优异性能的原因.

2.6 全局特征对性能的影响(问题2)

在两个数据集上进行实验,以评估全局级特征编码器和会话级特征编码器的有效性.本文设计了两种对比模型:

1)GIMGNN-NL:删除局部表示学习模块(GGNN),只留下全局表示学习模块(HGCN)来捕获全局会话级别的上下文信息.

2)GIMGNN-NG:删除全局表示学习模块(HGCN),只留下局部表示学习模块(GGNN)来捕获局部会话级别的上下文信息.

表3在Yoochoose1/64和Diginetica两个数据集上比较了3个模型的推荐结果,并分别给出了评估指标P@20和MRR@20.从表中可知,本文提出的GIMGNN方法在推荐性能方面显示出最佳结果.在Diginetica数据集上,GIMGNN-NL的性能优于GIMGNN-NG,表明使用超图神经网络(HGCN)捕捉高阶信息的有效性.在Yoochoose1/64数据集上,GIMGNN-NG的性能优于GIMGNN-NL,可能是因为Yoochoose1/64数据集中的会话平均长度比Diginetica数据集中的会话平均长度长,有助于门控图神经网络(GGNN)有效学习会话中物品之间的依赖关系.实验结果表明,通过考虑物品之间复杂高阶信息,可以有效提高会话推荐的性能.

表3 对比模型在两个数据集上性实验结果%Table 3 Experimental results of contrast models on two datasets%

2.7 位置向量对性能的影响(问题3)

为了验证位置向量对性能影响,并评估在GIMGNN中提出的反向位置向量的有效性,本节设计了一系列对比模型:

1)GIMGNN-NP:使用前向位置向量替换反向位置向量的GIMGNN模型.

2)GIMGNN-SA:使用自注意机制取代位置感知注意力的GIMGNN模型.

表4显示了不同对比度模型的性能.从表中可以看出GIMGNN-NP在两个数据集上表现不佳,因为模型无法捕捉其它物品与预测物品之间的距离.GIMGNN-SA在Diginetica数据集上的表现优于GIMGNN-NP,表明会话中的最后一项包含最相关的推荐信息.然而,它在Yoochoose1/64数据集上表现不佳,因为它缺乏对每个物品贡献的更全面的判断.与这两种变体相比,反向位置嵌入证明了模型的有效性,也验证了反向位置信息可以更准确地表明每个物品的重要性.此外,通过注意力机制,有效过滤了当前会话中的噪声,使得模型的性能更好.

表4 对比模型在两个数据集上性实验结果%Table 4 Experimental results of contrast models on two datasets%

2.8 超参数对性能的影响(问题4)

Dropout作用是防止模型过拟合,原理是在训练期间随机丢弃具有给定可能性的神经元,但将所有神经元用于测试.在实验中,神经元脱落的可能性在0.0～0.9范围内变化,间隔为0.1,评估指标为P@20.图4显示了GIMGNN在两个数据集不同dropout下的实验性能,说明了模型在两个数据集上的性能在开始时随着dropout的增加而增加,当dropout增长到一定值时,模型性能开始下降.也就是说,模型的性能在曲线的拐点处最好.特别是在Yoochoose1/64和Diginetica数据集中,本文的GIMGNN模型在dropout分别为0.6和0.5时表现最佳.因此,本文在两个数据集上的实验中将dropout设置为相应的值.

图4 不同dropout对推荐性能的影响Fig.4 Impact of different dropout on recommended performance

3 结束语

基于图神经网络的会话推荐模型是当前学术研究的热点,物品的高阶交互信息可以提高基于图神经网络的会话模型的推荐效果.为了充分考虑物品的局部和全局会话上下文信息,本文的工作首先将当前会话序列转换为局部会话图,其次将所有会话序列转换为全局会话超图,然后使用超图卷积神经网络(HGCN)和门控图神经网络(GGNN)捕捉物品的全局会话特征表示和局部会话特征表示.并且,通过使用注意力机制处理融合特征来学习会话序列的最终表示.大量实验结果表明,本文提出的GIMGNN模型始终优于最先进的方法.然而,使用超图卷积神经网络(HGCN)捕获全局信息也有一个缺点,可能会将不相关的信息融合到当前会话中.因此,在未来的工作中,将研究如何构建基于超图的模型,以缓解无关信息对会话推荐结果的影响.