杨彬,王轶彤
(复旦大学 软件学院,上海 200433)
异质信息网络(Heterogeneous Information Network,HIN)[1-2]在人类社会中无处不在,其中往往存在不同类型的节点和关系,这些节点和关系包含丰富的信息和复杂的交互,如社会网络[3-4]、引文网络[5]、电影网络[6]、推荐系统[7-9]等。与同质信息网络相比,异质信息网络中包含更丰富的语义信息和更复杂的关系,这给当前的研究带来了巨大的挑战,特别是异质信息网络中的表征学习。大多数机器学习方法或数据挖掘算法都需要通过准确的数据表征来构建各种任务模型,如分类[10-11]、聚类[12-13]、预测[14-15]、推荐[16]等。因此,对于这些任务模型,表征学习是非常重要的。
由于不同类型的节点和复杂的交互关系,异质信息网络表征学习[17]一直是一个非常重要和具有挑战性的问题。在过去的几年里,人们对该方向进行了一系列的研究,并取得了许多较好的成果。经典的范例之一是设计和使用元路径,例如metapath2vec[18]和HIN2Vec[19],其中,元路径是具有特定节点和关系类型的预定义序列模式。近年来,基于图神经网络强大的表征能力,人们提出了一些基于图神经网络[20]的异质信息网络表征学习模型,例如:HAN[21]利用双层注意力机制即节点级注意力和语义级注意力来获取节点及其元路径的重要性,最后通过邻域聚合来实现节点表征;HGCN[22]设计了一种关系特征学习方法,对不同类型的边的特征进行加权,最后进行聚合得到节点表征。
然而,现有的方法大多存在一定的局限性:1)在多数研究中,元路径都是由具有特定领域知识的专家手工设计的,成本高且覆盖范围小;2)目前的方法通常没有充分考虑高阶邻居的结构和内容信息;3)多数方法要么像在同质网络中一样统一处理不同类型的节点,要么不考虑不同类型节点之间的连接,直接将它们映射到不同的表征空间中。因此,现有的方法难以准确有效地捕捉特征。鉴于这些局限性,本文试图通过回答以下2 个问题来解决关键问题:1)如何处理不同类型的邻居节点/边,以捕获目标节点上有影响力的邻居节点(包括高阶邻居);2)如何有效地聚合有影响力的邻居节点来更新目标节点的表征。
针对上述问题,本文提出一种基于超邻接图的异质信息网络表征学习模型(HIN-HG)。设计一个图卷积层来学习不同类型的边的重要性,引入语义图来获取包含高阶邻居的元路径信息,并将其与特征图聚合得到超邻接图,精确捕获给定目标节点的有影响力的邻居节点。在此基础上,通过多通道的图卷积神经网络学习节点表征,从而有效地聚合有影响的邻居节点的信息。本文具体工作如下:首先,引入节点图与语义图来精确捕获与给定目标节点距离不同的有影响力的邻居;然后,将语义图与学习得到的特征图聚合得到超邻接图,并使用多通道图卷积神经网络将有影响的邻居信息聚合到目标节点;最后,在3 个真实数据集上进行实验,验证本文方法的有效性和优越性。
目前,表征学习研究取得了显著的进展,成为了最受欢迎的数据挖掘技术之一。由于节点表征的复杂性和不规则性,使得异质信息网络中的节点表征具有一定的难度和挑战性,因此早期的研究主要是将同质网络中的表征方法应用到异质网络中,例如:PEROZZI等[23]受到word2vec[24]的启发,提出将自然语言处理的思想应用于网络表征学习的DeepWalk,使用随机游走策略获取节点序列,并通过skip-gram模型表征节点;类似地,node2vec[25]使用带有偏差的随机游走策略扩展了DeepWalk;LINE[26]是基于一阶和二阶相似度学习的网络表征方法;SDNE[27]使用深度自编码器来表征网络,试图捕获网络中的高度非线性关系。这些方法虽然能很好地应用于同质网络,但由于语义和结构的复杂性,并不适合直接应用于异质网络。
近年来,一些专为异质信息网络设计的表征学习模型逐渐被提出,例如:metapath2vec 通过在给定的元路径上随机游走获得节点序列,然后使用基于异质的skip-gram 模型学习节点表征;metagraph2vec扩展了metapath2vec,使用基于元图的随机游走策略进行节点采样;HIN2Vec 利用浅层神经网络同时学习网络中节点和关系的表征。
图神经网络是一种新兴的深度表征学习模型,在相关任务中表现出了优异的性能。图神经网络的核心思想是通过神经网络从节点的邻居中聚合特征来更新节点表征。GNN 模型有许多变体,例如:图卷积神经网络(GCN)[28]利用邻域聚合和多层网络捕获高阶邻居信息;图注意网络(GAT)[29]利用自注意机制,根据邻居的不同重要性将邻居信息更精确地聚合到目标节点中;GraphSAGE[30]对给定目标节点的固定大小的k跳邻居进行采样,并聚合它们的特征来表征目标节点。
虽然图神经网络在表征学习方面取得了较好的成果,但由于节点类型和关系的不同,图神经网络不能直接应用到异质信息网络中。为了更好地处理和利用异质信息网络中的信息,一些异质图神经网络模型被提出,例如:RGCN[31]根据不同类型的关系设计多个图卷积层,然后聚合得到节点表征;HAN 使用节点级注意力机制聚合邻居信息,使用语义级注意力机制聚合预定义元路径信息;HetGNN[32]采用重启随机游走策略采样强相关邻居,利用LSTM 模型分别计算目标节点及其邻居的节点表征;MetaHIN[33]在异质信息网络中提出使用元学习框架来解决推荐中的冷启动问题;HGCN[22]使用基于异质信息网络的GCN 模型来解决集体分类问题;GTN[34]利用图神经网络,通过识别多跳连接来学习图中的元路径,获得了有效的节点表征;HGSL[35]使用一种联合图结构学习和GNN 参数学习的框架来解决分类问题。虽然这些方法在实验中效果良好,但仍存在一些局限性:元路径对理解异质信息网络中节点之间的结构和语义连接非常重要,然而,手动设计元路径通常需要特定领域的知识,而且成本比较高,一些隐含的元路径连接甚至对领域专家来说也很难设计;对于没有使用元路径的方法,通常采用消息传播机制来识别高阶邻居,然而由于传播距离较短,高阶邻居不能完全被捕获。因此,如何精确捕获不同距离的有影响力的邻居节点,以及如何有效地聚合邻居的特征以提高表征学习性能,仍需要进一步研究。
异质图是一种包含不同类型的节点和边的信息网络。本节介绍异质图的定义,并总结全文中使用的数学符号。表1 中列出了本文所使用的数学符号的描述。
表1 符号描述Table 1 Descriptions for notations
定义1异质图
一个异质图可以表示为G=(V,E,A,R),由一个节点集V和一个边集E 组成。它还包括一个节点类型映射函数φ:V →A和一个边类型映射函数ψ:E →R,其中,A是节点类型的集合,R 是边类型的集合,并且在异质图中满足|A| +|R| >2。当|A|=1且|R|=1时,就得到一个同质图。一个异质图可以看作是一组邻接矩阵的集合即{Ak}Kk=1,其中,Ak∈RN×N是一个只包含第k种类型边的子图,K=|R|,N=|V|。多数异质图还具有一个初始特征矩阵X∈RN×d,其中,d是每个节点的特征维度。
定义2元路径
元路径可以被定义为在异质信息网络模式TG=(A,R)下由节点类型组成的路径P:,其中,ai∈A,ri∈R。元路径表示节点a1和节点al之间的复合关系R=r1◦r2◦…◦rl,其中,◦表示关系的复合运算符。给定一个复合关系R或一系列边类型,将不同边类型的邻接矩阵进行乘法运算,就可以得到元路径的邻接矩阵:
本节介绍基于超邻接图的异质信息网络表征学习体系结构。如图1 所示,该模型分为4 个部分:1)使用1×1 图卷积层学习不同类型边的权重,获得节点图;2)通过矩阵乘法和叠加得到语义图;3)将特征图与语义图加权聚合得到超邻接图;4)使用多通道图卷积网络学习节点表征,并通过最小化预测标签与真实标签之间的多元交叉熵来优化节点表征。
图1 本文方法总体框架Fig.1 The overall framework of the proposed method
在异质信息网络中,不同类型的节点往往扮演着不同的角色,在学习特定任务的节点表征时表现出不同的重要性。为了表示与给定目标节点相关的不同连接下不同类型的邻居节点的重要性,通过引入节点图来学习异质图中每种类型边的重要性,例如,异质图通常有多个子图,每一个子图表示一种类型的边。因此,本文设计了一个1×1 卷积层来学习不同类型边的权重。卷积过程可以表示为:
其中:∈RN×N是包含不同类型边的权重的节点图;Wk∈R1×1是不同类型边的可学习权重系数;bk是偏置向量。为了平衡各类型边的权重,使用Softmax 函数对初始化的权重系数进行归一化,得到:
其中:ak∈R1×1是第k张子图的初始权重系数。节点图是不对称的,因为在异质图中,2 个节点对彼此的影响往往是不同的。它可以看作是一种潜在的注意力机制,可以帮助目标节点学习不同类型邻居节点的权重。但是,公式中定义的邻接矩阵忽略了目标节点本身的重要性。通常,节点的表征需要保留自己的特征,以防止被邻居节点的特征完全同化,故向异质图G中添加单位矩阵,即A0=I,由此,中包含每个节点自身的权重。
通常,异质图中的节点都包含丰富的语义信息,节点图仅仅考虑了一阶邻居的重要性,不能充分反映节点之间的结构和语义联系。想要更全面地学习节点表征,需要学习不同元路径的重要性,以捕获高阶邻居对目标节点的影响。为了解决异质图中元路径选择和高阶邻居聚集的问题,本节基于上述的节点图提出一种新的语义图来学习不同元路径的重要性。给定学习得到的多个节点图,通过矩阵乘法计算长度为l的元路径邻接矩阵,计算过程如下:
其中:Al∈RN×N是指定长度l的元路径邻接矩阵;∈RN×N是第i层的节点图;Aik∈RN×N是第i层节点图的第k张子图;Wik∈R1×1是Aik的可学习权重系数;bik是偏置向量。Wik通过归一化得到:
其中:aik∈R1×1是初始化的权重系数。元路径邻接矩阵包含所有指定长度的元路径,不同的元路径具有不同的权重,l=1 的元路径邻接矩阵即为第1 层的节点图。由于节点图中的权重经过归一化处理,均小于1,因此一般情况下,元路径越长,权重越小,这也符合专家认知:一般情况下,对于目标节点而言,低阶邻居比高阶邻居更重要。给定长度L,将长度为1~L的元路径邻接矩阵相加,如式(6)所示,可以得到含有长度不超过L的所有元路径的语义图:
其中:Gsem∈RN×N。语义图包含长度不超过L的所有元路径,并为其分配不同的权重来反映不同的重要性。由于元路径邻接矩阵只能学习指定长度元路径上的邻居节点的重要性,通过叠加得到语义图,因此可以将与目标节点距离不大于L的所有邻居节点都考虑到,且不同类型、不同距离的邻居节点具有不同的权重,邻居节点的权重越大,其对目标节点的影响力也就越大,反之亦然。相比于其他方法,该方法可以学习得到不同邻居节点的重要性,由此可以更精确地捕获到有影响力的邻居节点。
语义图可以捕获指定距离内的邻居节点信息,但无法覆盖与目标节点相似但距离很远的节点,因此,进一步引入特征图,为特征相似但距离较远的节点建立连接,以此扩充图的信息。对于特征图,给出如下定义:
定义3特征图
对于异质图中的任意2 个节点进行相似性度量,并将原图中没有链接但相似性较高的节点对直接建立一条边,边的权重即为相似度,由此得到的新的图结构,称之为特征图。
对于异质图中的任意2 个节点vi和vj,设置条件函数来计算它们的相似性:
其中:fi,fj∈R1×D是节点vi和vj的特征向量;εfea∈(0,1)是人工设定的控制特征图稀疏度的阈值;Gsem[i,j]=0 代表节点vi和vj在语义图中没有连接;Γfea为余弦相似度度量函数。由此可以计算得到特征图Gfea∈RN×N。将语义图和特征图进行聚合即可得到一张包含所有影响力较大的邻居节点的图,称之为超邻接图:
其中:wfea∈R1×1是特征图的可学习权重系数。超邻接图中既包含指定距离内对目标节点有影响力的邻居节点,又包含与目标节点距离较远但特征相似的节点,不同的节点通过不同的权重来体现它们的重要性。
将图卷积神经网络应用于超邻接图,从而得到节点表征:
其中:D是超邻接图的度矩阵;X∈RN×D是特征矩阵;W∈RD×D是可学习的权重矩阵。为了考虑多种可能的超邻接图,增强模型的学习能力,并行学习多个超邻接图并应用图卷积神经网络,将每个输出设置为一个通道,由此应用了多通道机制,以更有效地聚集有影响力的邻居。最后,将GCN 应用于每个通道,并将多个输出的节点表征拼接:
其中:Hi为第i个通道输出的节点表征;Z为最终用于节点分类任务的节点表征向量。本文的损失函数定义为具有真实标签的节点的标准交叉熵:
其中:Θ是分类器的参数;YL是具有标签的节点索引的集合;Yl和Zl是已标记节点的标签和表征。
为了评估HIN-HG 的有效性,在以下3 个真实数据集上进行相关实验:学术网络DBLP 和ACM,以及电影网络IMDB。这些数据集都包含多种类型的节点和关系,具体信息如表2 所示。
表2 数据集信息Table 2 Information of datasets
1)DBLP数据集来自DBLP官网,主要包含18 405个节点、67 946 条边和4 种边类型。根据研究领域可将作者分为4 类:数据库,数据挖掘,信息检索,人工智能。
2)ACM 数据集来自ACM 电子数据库,主要包含8 994 个节点、25 922 条边和4 种边类型。论文类别分为3 类:数据挖掘,数据库,无线通信。
3)IMDB数据集来自IMDB官网,主要包含12 772 个节点、37 288 条边和4 种边类型。电影分为3 类:动作,喜剧,戏剧。
本文通过与以下基线方法(包括基于随机游走的方法和基于图神经网络的方法)进行比较,来验证HIN-HG 的有效性。
1)DeepWalk:针对同质图设计的一种基于随机游走策略的表征学习方法。在本文的实验中,忽略了节点的异质性,将异质图当作是同质图来执行DeepWalk。
2)metapath2vec:一种使用基于元路径的随机游走策略并利用skip-gram 表征异质图的表征学习方法。本文测试metapath2vec 的所有元路径,展示其最佳性能。
3)GCN:一种针对同质图设计的半监督式图卷积神经网络。本文忽略节点和边的异质性,展示其最佳性能。
4)GAT:一种考虑同质图上注意力机制的半监督式神经网络。本文忽略节点和边的异质性,展示其最佳性能。
5)RGCN:一种针对异质图不同类型的边设计的半监督式图卷积神经网络。本文使用原论文的相关设置进行实验,并展示其最佳性能。
6)HAN:一种同时采用节点级注意力机制和语义级注意力机制的半监督式异质图神经网络。本文使用原论文中手工指定的元路径进行实验,并展示其最佳性能。
7)GTN:一种基于图卷积神经网络的能自动学习元路径的半监督式图神经网络。本文保留原论文的设置,并展示其最佳性能。
8)HGSL:一种联合图结构学习和图神经网络参数学习的异质图模型。本文使用原论文中对数据集的处理方法,并展示其最佳性能。
为了公平比较,本文将上述所有基线方法的参数设置为原论文中的最佳参数,并使用Adam 优化器分别选择超参数,以使每个基线方法都能发挥最佳性能。对于基于随机游走的方法,在1 000 次迭代中,每个节点的行走长度设为100,窗口大小设为5,有7 个负样本。对于GCN、GAT、HAN 和GTN,使用验证集优化它们的参数。对于本文的HIN-HG 模型,设置迭代次数为40次,通道数为2个,学习率为0.005,权值衰减率为0.001。对于DBLP 数据集,将维度设置为512,元路径的最大长度设置为3。对于ACM 数据集和IMDB 数据集,将维度设置为128,元路径的最大长度设置为3。
实验使用PyTorch 训练一个浅层神经网络作为分类器。由于是多分类问题,因此本文采用Macro-F1和Micro-F1 指标来全面地评价模型的性能。表3 展示了HIN-HG 与其他节点分类基线方法在DBLP、ACM 和IMDB 数据集上的实验结果,最优和次优结果分别使用粗体和下划线标出,可见HIN-HG 基于2 个多分类指标在所有数据集上都取得了最好的性能,相比于次优算法整体性能提升了1.2%以上。基于图神经网络的方法性能往往优于基于随机游走的方法,这是因为浅层模型通常只考虑异质信息网络的结构信息,而图神经网络可以既考虑结构信息,又考虑内容信息,而且深度模型往往能更好地捕捉网络中的高度非线性关系。
表3 节点分类实验结果Table 3 Results of node classification experiment %
GAT 的性能优于GCN,因为GCN 聚合邻居节点信息时没有考虑邻居重要性,而GAT 可以给邻居节点分配不同的权重来反映不同的重要性。虽然HAN 使用了一种基于异质信息网络的双层注意力机制,但实验结果表明GAT 在DBLP 和ACM 数据集上的性能更好,这可能是因为HAN 使用手动设定的元路径会影响模型的性能。HGSL 的性能仅次于HIN-HG,体现了学习新的图结构的优势,但是HGSL 使用矩阵乘法进行信息传播与扩散的范围较小,无法精准捕获到距离目标节点较远的高阶邻居信息。
与以上方法相比,HIN-HG 无须手工设定元路径,可以独立学习不同类型和长度的元路径的权重,自动精确地捕获有影响力的邻居节点(包括高阶邻居)。其中,语义图的设计可以缓解高阶邻居对低阶邻居的依赖关系,为指定距离内不同的邻居节点学习更合理的权重,同时特征图的引入可以找到与目标节点距离较远但相似度较高的节点,为目标节点捕获更深层次的邻居,进一步丰富图的信息。最后,多通道机制可以适当地平衡表征,防止过拟合,提高模型的学习能力。实验结果证明了HIN-HG 在节点分类任务中的准确性和有效性,体现了其相比于其他基线模型的优势。
为了进一步研究HIN-HG 是否能够精确地捕获有影响力的邻居节点,本文研究了ACM 数据集上的节点图和语义图。图2 展示了不同网络层中节点图的不同类型边的权重,其中:P、A、C 分别表示论文、作者和会议;PA、AP、PC、CP 和I 表示异质图的5 个质子图,如PA 表示所有论文节点到作者节点的子图,I 表示节点的自连边。对于论文来说,影响力最大的邻居节点是作者。随着路径长度的增加,会议对论文的影响逐渐增大,这是因为在分类任务中,会议这类度数较高的中心节点往往具有更高的影响力。由图2 可见,节点图可以自适应地调整不同类型边的权重,得到不同类型的一阶邻居节点的重要性。由于语义图由多个节点图经过计算和聚合得到,节点图中权重的动态变化决定了语义图中不同元路径的权重,能够确定不同元路径的重要性。图3展示了语义图中不同元路径的权重。在作者和论文的连接中,它们可能通过元路径A →P 或A →P →C →P 连接,也可能两者均连接。在语义图中,通过不同元路径与目标节点相连接的邻居节点权重往往不同,这体现了不同邻居节点对目标节点的影响力不同,而同时通过多个元路径连接的邻居节点权重往往更大,对目标节点的影响力也更大。结果表明,语义图可以为不同的邻居节点分配不同的权重,从而精确地捕获特定距离内有影响力的邻居节点。
图2 节点图中不同类型边的权重Fig.2 The weights of different types of edges in node graph
图3 语义图中不同元路径的权重Fig.3 The weights of different meta-paths in semantic graph
通常,与目标节点特征和结构相似的节点可以为目标节点提供丰富的信息,但可能因为距离较远而无法考虑。特征图可以为该类节点与目标节点建立联系,并通过计算两者间的相似性得到其对目标节点的影响力,从而弥补语义图只能捕获特定距离内邻居节点信息的不足。通过加权聚合语义图和特征图的超邻接图中既包含特定距离L以内所有有影响力的邻居节点,又包含距离更远但特征相似的邻居节点。由此,超邻接图为目标节点精确地捕获了全异质图范围内所有有影响力的邻居节点。
本节评估了HIN-HG 的以下3 种变体的性能:1)HIN-HG-hyper:该变体不使用超邻接图而仅使用节点图。
2)HIN-HG-feature:该变体不使用特征图而仅使用语义图。
3)HIN-HG-multi:该变体不使用多通道机制。
表4 展示了3 个变体和完整的HIN-HG 在ACM数据集上运行的结果,其中加粗表示最优值。结果表明,完整的HIN-HG 模型的性能最好,HIN-HG-hyper性能下降最多,这是因为超邻接图为目标节点捕获了异质图中所有具有影响力的邻居节点,将其替换为简单的邻接矩阵后无法有效捕获异质图中的结构和语义关系,这也说明了超邻接图在图卷积神经网络中的巨大贡献。在消融实验中,缺少特征图会使模型无法捕获与目标节点距离较远但相似度较高的节点,从而造成部分信息的缺失,导致HIN-HG-feature的性能下降。HIN-HG-multi和HIN-HG 的比较结果证明了多通道机制在GCN 中的积极作用。多通道机制可以学习多个超邻接图,提高模型的泛化能力,避免单一图结构中存在的噪音引起误差,同时防止过拟合现象。实验结果充分证明了采用多通道机制的GCN 能够有效聚合有影响力的邻居来更新目标节点的表征。
表4 消融实验结果Table 4 Results of ablation experiment %
本节研究主要参数即迭代次数、表征维度、路径长度和通道数的敏感性,并将各种参数在ACM 数据集上的分类结果展示在图4中。
图4 参数敏感性实验结果Fig.4 Results of parameter sensitivity experiment
1)评估迭代次数的影响。由图4(a)可见,随着迭代次数的增加,整体性能呈先上升后下降的趋势。当迭代次数为40 次左右时,性能达到最佳,这表明HIN-HG 具有较快的收敛速度和较高的效率。性能下降的原因是出现了过拟合现象。
2)评估表征维度的影响。由图4(b)可见,随着表征维度的增加,性能先上升再下降。这是因为HIN-HG 需要一个合适的维度来编码信息,较小的维度无法捕获完整的信息,而较大的维度可能会引入额外的冗余信息。
3)评估语义图中指定路径长度L的影响。由图4(c)可见,HIN-HG 的性能先是随着路径长度的增长而提高,这是因为语义图独立学习不同元路径的重要性,充分考虑了高阶邻居的影响。然而,随着路径长度的不断增长,HIN-HG 的性能开始逐渐下降,这是因为距离较远的邻居可能带来噪声,对节点表征产生负面影响。
4)为检验多通道机制的影响,评估HIN-HG 在不同通道数下的性能。在图4(d)中,当通道数设置为1 个时,多通道机制即被移除。可以发现HIN-HG在通道数为2 个时就达到了最佳性能,过多的通道可能会降低性能并大幅增加计算成本。
本文尝试解决异质信息网络表征学习的2 个基本问题:如何找到有影响力的邻居和如何聚合邻居信息,提出一种基于超邻接图的异质信息网络表征学习方法。所提出的HIN-HG 模型可以在不从领域知识中预先定义元路径的情况下捕获异质图的复杂结构和丰富语义。该模型利用超邻接图捕获不同距离的对目标节点有影响力的邻居节点,并利用带有多通道机制的卷积神经网络对邻居节点进行有效聚合。HIN-HG 在3 个真实数据集上进行节点分类任务,表现优于对比的基准模型,证明了它的有效性。消融实验和参数敏感性实验证明了本文方法具有良好的可解释性。目前大多数关于异质信息网络表征学习的研究仅使用了静态的结构和内容信息,没有考虑到时间、地域等交互信息。下一步将在异质信息网络中引入时间信息,通过捕获网络的动态性进行表征学习和特定任务的学习。