节点属性增强的图自编码器

2021-11-10 10:20:32刘彦北
天津工业大学学报 2021年5期
关键词:集上编码器卷积

张 芳,王 祺,刘彦北

(1.天津工业大学 生命科学学院,天津 300387;2.天津工业大学 电子与信息工程学院,天津 300387)

图是表示不规则数据的强大工具,其结构链接表示连接实体之间的某种形式的关系。在化学领域[1]中,它们可以代表化合物的分子结构;在生物学领域[2]中,它们可以代表蛋白质相互作用的网络;在社会科学领域[3]中,它们可以代表人际关系网络。图表示学习已经成为越来越受欢迎的研究领域,被用来解决各行各业的问题,例如:在生物化学领域中的药物设计、疾病分类;在交通领域对交通需求预测、道路速度预测;在计算机视觉领域的目标检测、视觉推理;在自然语言处理领域的实体关系抽取、文本生成;在网络运营领域的社交推荐系统、用户行为预测等。

图自编码器是一类图表示学习方法,旨在通过使用神经网络体系结构将网络顶点表示为低维向量空间[4]。一种典型的解决方案是利用多层感知器作为编码器来获取节点表示,其中解码器重建节点邻域统计信息。自动编码器及其变体广泛用于无监督学习,适用于学习没有标签信息的图的节点表示。稀疏自动编码器(SAE)[5]将邻接矩阵或其变体作为节点的原始特征,并使用自动编码器作为降维技术来学习低维节点表示。用于图表示的深度神经网络(DNGR)[6]使用堆叠式去噪自动编码器来重构逐点互信息矩阵(PPMI),特别是当存在缺失值时学习得到的潜在表示更具有鲁棒性。结构深度网络嵌入(SDNE)[7]使用堆叠式自动编码器共同保留节点的一阶近似度和二阶近似度。深度递归网络嵌入(DRNE)[8]提出了另一种修改方法代替重建邻接矩阵,即使用长短期记忆网络(LSTM)通过聚集邻域信息来直接重建节点的低维向量。DRNE直接重建节点的隐藏状态,而不是整个图形统计信息。变分图自编码器(VGAE)[9]是基于变分自动编码器(VAE)[10]无监督学习图结构数据的框架,将降维与生成模型结合使用,该模型将图卷积网络(GCN)[11]集成到图自编码器中,并采用简单的线性内积作为解码器。对抗正则化图形自编码器(ARGA)[12]采用了生成对抗网络(GAN)的训练方案[13]来正则化图自编码器。在ARGA中,编码器通过GCN将具有其特征的节点结构信息编码为隐藏表示,然后解码器从编码器的输出中重建邻接矩阵。深度变异网络嵌入(DVNE)[14]通过将每个节点表示为高斯分布,为图数据提出了另一个VAE。与以前采用KL散度作为度量的工作不同,DVNE使用Wass-erstein距离来保留节点相似性的传递性。

尽管这些图自编码器网络已广泛用于无监督学习中,并已取得了显著的成果,但它们的解码器仅考虑图的结构特征的重建,没有明确考虑图的节点属性特征的重建。传统的图自编码器的解码器仅重建节点的结构关系,并通过减少结构信息重建的损失对其进行进一步优化,而不重建节点的属性特征。在无监督学习中,当节点的属性信息更相似时,它们更有可能彼此连接或属于同一类别。因此,节点属性在图自编码器中的作用不能忽略。

本文提出了一种节点属性增强的图自编码器(NEGAE),这是一种用于图数据无监督学习的新型模型。使用图卷积网络(GCN)[11]作为编码器;除了简单的内积之外,使用反卷积方法来重建节点属性信息;将结构信息和节点属性信息的重建误差结合在统一的损失函数中进行优化;将模型在Cora、Citeseer和Pubmed等3个国际公开的网络数据集上进行实验以验证其有效性。

1 NEGAE方法

本文将图定义为G=(V,E)。其中,V=(ν1,ν2,…,νn)表示节点的集合;E为节点之间相连的边的集合。设n=|N|为节点数,e=|E|为边数。A为邻接矩阵,D=diag(d1,d2,…,dn)为对角度矩阵(其中,X=(x1,x2,…,xn)T为节点特征向量的矩阵。NEGAE模型示意图如图1所示。

图1 NEGAE模型的示意图Fig.1 Schematic of NEGAE model

从深入理解公式的角度[15],GCN可以被视为拉普拉斯平滑的一种特殊形式。输入特征的每个通道上的拉普拉斯平滑公式为:

当γ=1时,可以得到拉普拉斯平滑的一种特殊形式,即图卷积在频谱域上的表示:

式中:Y为拉普拉斯平滑的形式;Z为图卷积得到的表示,两者在特定参数下得到统一形式。

那么,与拉普拉斯平滑法相反,通过与邻居特征的锐化来计算节点属性的新特征,相当于从平滑结果中重建节点特征。为了放大当前节点与其邻居之间的差异,图的锐化公式为:

式中:Y为X锐化后新的特征矩阵。相应地,当γ=1时,可以得到节点属性信息的重建公式:

式中:为图表示Z重建后得到的特征矩阵。

给定输入节点属性矩阵X∈Rn×m和邻接矩阵A∈Rn×n,利用图卷积网络获得编码器,图卷积的公式为:

式中:Wf为在卷积层中要训练的权重矩阵;Z为卷积后得到的图表示;σ(·)表示激活函数,例如ReLU(·)=max(0,·)。编码过程如图1的编码部分所示。

解码器重建图数据,包括结构的重建和节点属性的重建。计算重建的图的结构的公式为:

式中:为重建的邻接矩阵。图结构重建过程如图1的解码上半部分所示。

使用交叉熵函数来衡量生成的图结构与原始图结构之间的差异。邻接矩阵的重构误差的公式为:

式中:a代表A中元素的值(0或1);代表中相应元素的值(0至1之间);Le为图结构重建的损失函数。

给定节点表示矩阵Z∈Rn×c,其中c为节点类别的数量。计算重建的图的节点属性的公式为:

式中:Wg为在反卷积层中要训练的权重矩阵;X^为重建后的节点属性矩阵。经过锐化处理后,可以从平滑特征中重建图数据的节点属性特征,如图1的解码下半部分所示。

使用均方根误差来衡量所生成的节点属性矩阵与原始节点属性矩阵之间的差异。节点属性的重构误差的公式为:

式中:RMSE代表均方根误差的计算;Ln为节点属性重建的损失函数。

给定输入带有属性的图数据G=(V,E),编码部分通过图卷积获得图的表示,解码部分包含图结构重建和节点属性重建,统一后的损失函数L的公式为:

2 实验结果与分析

2.1实验设置

利用3个开源的引文网络数据集,包括Cora、Citeseer和Pubmed[16]验证本文所提出的NEGAE模型的有效性。数据集的详细信息如表1所示。

表1实验中使用的引文网络数据集信息Tab.1 Information of citation network datasets used in experiments

将本文提出的方法与谱聚类(SC)[17]、DeepWalk(DW)[18]、图自编码器(GAE)[9]和变分图自编码器(VGAE)[15]等4种流行的基线方法进行比较。谱聚类(SC)[17]是一种学习社会表征的有效方法。DeepWalk(DW)[18]是一种将社会关系编码为连续向量空间的网络表示方法。图自编码器(GAE)[9]是用于图数据的基于自动编码器的一种框架,它利用了拓扑信息和内容信息进行无监督学习。变分图自编码器(VGAE)[9]是一种变分的进行图表示学习的图自编码器方法,它也利用拓扑和内容信息。

对于GAE、VGAE和NEGAE,按照Glorot的方法[19]进行初始化权重,使用Adam优化算法[20]以0.01的学习率进行400次迭代训练。在所有实验中,都使用32维的隐藏层和16维的潜在变量。对于SC方法,按照Pedregosa的设置方式[21],即嵌入维数为128。对于DW方法,按照Grover提供的标准设置[22],即在单个迭代的训练中,嵌入维数为128,每个节点的长度为80,随机游走10次,上下文大小为10。

在所有3个数据集中,节点对应于文档,边对应(无向)引文。实验评估了1000个测试节点上图表示的相关任务的性能。另外,使用500个其他节点进行验证,这与GCN[11]中用于超参数优化的设置相同。记录的结果是20次随机权重初始化的运行的平均结果。

2.2 链路预测

模型进行训练时,数据集的部分引文链接(边)已经被删除,而所有节点特征均被保留下来。从先前删除的边和相同数量的未连接节点(非边)的随机采样对中形成验证和测试集,实验记录了测试集上每个模型的ROC曲线下面积(AUC)和平均精度分数(AP)。

3个引文网络基准数据集的比较结果如表2所示,最佳结果标记为粗体。由表2可以看到,本文提出的方法NEGAE在所有数据集上始终优于基线方法。此外,与GAE相比,NEGAE在所有数据集上均得到了改进,表明NEGAE模型可以学习到更有效的节点表示。

表2 链接预测结果Tab.2 Link prediction results

2.3 聚类分析

将得到的节点表示作为新的输入,然后利用KMeans算法[23]执行节点聚类任务。聚类簇数设置为数据集的类别数量。使用5个评估指标来评估聚类结果的质量,包括聚类准确度(clustering accuracy,ACC)、归一化互信息(normalized mutual information,NMI)、调整兰德指数(adjusted rand index,ARI)、精确度(precision)和F1分数(F1-score)。实验结果如表3所示。

由表3可以发现,NEGAE在所有数据集上均取得良好的表现,其中在Cora、Citeseer数据集上的所有指标均优于GAE方法,这再次验证了NEGAE模型用于图表示学习的有效性。

表3 节点聚类结果Tab.3 Node clustering results

2.4 可视化

采用Cora数据集,将模型学习到的特征表示经过2D t-SNE[24]变换,进行可视化操作。DeepWalk、GAE、VGAE和NEGAE输出的可视化结果如图2所示。不同的类别用不同的颜色标记。

图2 Cora数据集上的t-SNE可视化Fig.2 t-SNE visualizations on Cora dataset

由图2可以看出,与图2(a)、(b)、(c)相比,图2(d)中不同类别的分布更加清晰、紧凑,说明了NEGAE模型进行图表示学习的较强能力。

3 结论

本文提出了一种节点属性增强的图自编码器(NEGAE),它是一种同时包含结构重建和节点属性重建的新型模型,并在3个网络数据集上对其有效性进行了验证。结果表明:

(1)在链路预测任务中,NEGAE在Cora、Citeseer、Pubmed数据集上的AUC分别达到91.19%、90.27%、96.69%,均优于基线方法;

(2)在聚类任务中,NEGAE在Cora、Citeseer、Pubmed数据集上的ACC分别达到60.31%、50.60%、66.79%,均优于传统GAE方法;

(3)实验验证了NEGAE模型用于图表示学习的有效性。

猜你喜欢
集上编码器卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
基于FPGA的同步机轴角编码器
基于傅里叶域卷积表示的目标跟踪算法
复扇形指标集上的分布混沌
基于PRBS检测的8B/IOB编码器设计
JESD204B接口协议中的8B10B编码器设计
电子器件(2015年5期)2015-12-29 08:42:24
多总线式光电编码器的设计与应用