径向基函数计算节点间距离,得到各类节点质心后,根据距离分配与未标记节点最近质心的类别标签提高节点分类性能,同时定义未标记节点和质心之间的距离为模型输出的不确定性,并使用梯度惩罚损失加强输入变化的可检测性,可以有效地检测分布外节点样本。在Cora、Citeseer 和Pubmed 这3 个公开网络数据集上的结果表明:模型在分类任务的AUROC 指标分别达到81.5%、76.2%和74.6%,在分布外样本检测任务中AUROC 指标分别达到83.6%、72.8%和70.6%,证明了所提算法在提高节点分类性能的同时,可以有效检测分布外的节点样本,提高了节点分类的可信性。
关键词: 图神经网络;节点分类;分布外检测;不确定性估计;梯度惩罚
中图分类号:TP183 文献标志码:A 文章编号:1671-024X(0024)01-0082-07
Node classification method based on trusted graph neural network
LIU Yanbei1,2,MA Xiran3,WANG Wen1,2
(1. School of Life Sciences,Tiangong University,Tianjin 300387,China;2. Tianjin Key Laboratory of Optoelectronic De-
tection Technology and System,Tiangong University,Tianjin 300387,China;3. School of Electronics and Information
Engineering,Tiangong University,Tianjin 300387,China)
Abstract:In order to study the influence of uncertainty of node feature representation on node classification,a nodeclassification method based on trusted graph neural network was proposed. The algorithm used the radial basisfunction to calculate the distance between nodes,and after obtaining the centroid of various nodes,the classifi-cation label of the nearest centroid was allocated according to the distance to improve the classification performa-nce. Additionally, the distance between unlabeled nodes and centroids is defined as the uncertainty of the model忆soutput. A gradient penalty loss is employed to strengthen the detectability of input variations,loss to strengthenthe detectability of input changes,which can effectively detect the distributed outer node samples. The results inclassification task are 81.5%,76.2% and 74.6% in terms of AUROC on three public network datasets of Cora,Citeseer and Pubmed,respectively. And the results in the out-of-distribution sample detection task are 83.6%,72.8% and 70.6% in terms of AUROC on three public network datasets of Cora,Citeseer and Pubmed,respectively. It proves that the proposed algorithm can effectively detect the node samples outside the distributionand improve the credibility of node classification,while improving the node classification performance.
Key words:graph neural network; node classification; extra-distribution detection; uncertainty estimation; gradient penalty
图在日常生活中广泛存在,且作为一种灵活的数据形式可以表示不同特征对象之间复杂的连接关系,例如交通网络、社交网络、生物化学网络等。由于图可以包含较多的数据信息,例如节点的属性信息和链接信息,导致图数据相对复杂,因此对图数据进行分析具有一定的挑战。近年来,图神经网络(GNN)[1-2]在数据分析方面受到了极大的关注,逐渐成为学术界的一个热点研究领域。图数据的分析任务包括了节点分类[3-4]、图分类[5-6]、链接预测[7]等。在图节点分类任务中,输入1个图,模型根据学习输入节点和类别标签的对应关系,预测未知节点的类别标签。尽管图神经网络在半监督节点分类方面表现优异,但图神经网络分类器不仅需要得到准确的预测值,更需要得到可信或者低不确定的预测值,其中可信性[8]是指模型能够检测出分布外样本数据的能力。对于测试数据中没有参与训练的样本数据模型给出一个较高置信度的预测值,这意味着模型是不可信的,但现有模型往往对没有参与训练的样本数据给出较高的置信度,因此现有模型往往具有较大的不确定性[9]。
有效地估计不确定性在许多重要的应用中仍然是一个悬而未决的问题,例如在强化学习领域[10]中探索不确定性,在主动学习中选择数据点以获得标签从而估计不确定性[11]。到目前为止,深度学习中估计不确定性的大多数方法±赖于深度集成(deep ensemble)[12]或蒙特卡罗采样(Monte Carlo dropout)法[13]。Kendall 等[14]提出了一个贝叶斯深度学习框架应用于回归任务和分类任务的同时估计任意不确定性和认知不确定性。Malinin 等[15]就训练数据和测试数据分布之间的分布不匹配问题定义了分布不确定性。Gal 等[16]在贝叶斯神经网络中得到认知不确定性时使用了Dropout 变分推理进行近似推理,此思想和DropEdge 模型[17]的思想是类似的。但上述模型估计的不确定性在分布外样本检测任务上仍然存在缺陷。
本文提出了一种可信的图神经网络节点分类算法。该模型能够估计单次前向传播中的不确定性,所得出的不确定性既可以获得未标记节点与质心间的距离度量,还能够检测出分布外的数据,从而有效提高分类模型的可信性。具体地讲,模型由图神经网络模型、质心模块以及径向基函数(RBF)[18]模块组成,首先,输入的图数据经过一个基础编码器进行特征学习,质心由所得特征向量中有标签的节点样本获得。其次,特征向量中未标记节点利用核函数获得与质心的距离度量从而判断其所属类别标签,其中具有核函数的模块被称为径向基函数(RBF)模块。特征向量和质心之间利用RBF 模块预测获得的距离定义为不确定性。本文模型方法是利用未标记节点与错误质心的距离最大化,与正确质心的距离最小化进行训练的,以此来拉近和正确质心之间的距离,将节点特征放在距离正确质心较近的区域。然而,未训练节点数据的任何信息如果输入到模型中,无论节点数据有无标签,都将导致特征崩塌现象(分布外数据会映射到分布内的特征表示中) 的发生,也就是分布外的节点样本进入分布内节点样本的嵌入表示中。因此,为了避免特征崩塌的发生,本模型加入了梯度惩罚损失项,这可以确保模型对输入的特征向量变化足够敏感并可靠地检测出分布外的样本数据。
本文的工作如下:
(1)本文研究了图节点分类的可信性问题,提出了一种结合度量距离的径向基函数和梯度惩罚损失的图神经网络模型,模型通过度量距离获得的不确定性以提高模型分类的可信性,该工作能够提高分类准确率,有效检测分布外的图节点数据。
(2)本文所提算法建立在RBF 模块度量距离的思想上,采用一种新的损失函数来进行训练,通过使用梯度惩罚来加强输入变化的可检测性,抑制输入变化。
(3)为了验证模型的分类性能和分布外样本检测性能,使用3 个图公开数据集完成2 类实验。另外,将所提出框架的性能与其他现有的框架进行比较,验证本模型算法的性能指标有所提高。
1 模型建立
本文研究了一个通过可信的神经网络模型进行图数据分类的方法,模型框架如图1 所示。模型主要由3 个部分组成,分别是图卷积神经网络(GCN)[1]基础编码器部分、质心获取模块和RBF 模块,其中的工作重点是后2 个模块,也就是图1 中红色。虚线框所标模块。输入的图数据经过GCN 得到节点的嵌入表示,其中有标签的特征向量经过求平均值的计算获得每类节点的质心,RBF 模块计算未标记节点与质心的距离度量,同时将所求距离定义为不确定性。最终区分所有无标签的节点,赋予未标记节点对应的类别标签从而归到所属类别。
2 实验结果与分析
2.1 数据集
本文选择了3 个引文网络图数据集验证所提模型在分类任务和分布外(OOD)样本检测任务上的有效性,分别为Cora、Citeseer 和Pubmed[22],表1 为节点分类任务数据集的相关信息设置情况,表2 为OOD检测任务的数据集信息设置情况。
表1 中数据集都是引文网络数据集,其中节点表示文献,边是文献之间的引用关系,这意味着当A 文献引用B 文献时存在边,反之亦然。为了简单起见,数据集不区分边连接的方向,将引文的连接视为无向边,并构造一个二进制对称邻接矩阵,且训练集每个类有20 个节点标有它所属的类别,即每类20 个节点具有标签。
对于基于半监督节点分类的OOD 检测任务,每个数据集随机选取1~3 个类别作为OOD 类别,仅使用未被选取的剩余类别节点对模型进行训练。在这种情况下,训练了一个用于半监督节点分类任务的模型,其中只有部分类别节点没有用于训练,即模型没有训练OOD 类别,所以模型只输出参与训练的类别的表示。例如,Cora 数据集中使用4 类和80 个节点训练模型,测试样本中类别有7 类节点数量有1 000个,其中有3 类分布外(OOD)样本,4 类分布内(ID)样本。OOD 占比率是所有测试节点中OOD 节点的所占比率。
2.2 基准
本文对所提出的模型和几个基线模型进行对比和性能分析,基准模型同样可以获得不确定性,所选对比模型如下:
(1)GCN[1]。它是一种半监督图卷积神经网络模型,能够聚集来自邻居节点的输入信息以学习节点表示。过程大致是输入的特征矩阵和邻接矩阵通过两层图卷积,输出特征向量通过softmax 分类器估计类别信息;
(2)Drop-GCN。它通过将Monte Carlo dropout[16,23]和GCN 模型相结合的方法获得不确定性,Monte Carlodropout 是将神经网络中dropout 训练作为高斯过程中的近似贝叶斯推理。此理论是用dropout 网络对不确定性进行建模,从现有模型中提取信息,这样有效缓解了深度学习中估计不确定性的问题。
(3)EDL-GCN。它通过将EDL 模型[24]和GCN 相结合的方法估计不确定性,EDL 模型使用主观逻辑理论对不确定性建模,由于类别概率是通过狄利克雷分布求得的,因此将神经网络的预测作为主观意见并通过确定性的神经网络训练模型从数据中估计和获得不确定性。
(4)DPN-GCN。它通过将DPN[25]模型和GCN 相结合的方法估计不确定性。DPN 模型是一种新的预测不确定性的建模框架,它主要针对分布不确定性建模。
2.3 实验设置
在实验部分,本文考虑了4 个基线算法。对于GCN、Drop-GCN、EDL-GCN、DPN-GCN 使用了与GCN[1]相同的超参数。实验采用两层GCN 作为主要的图编码器,模型使用Glorot[26]进行初始化,使用Adam 优化器[27]以0.01 的学习率训练迭代200 次对模型进行优化,图编码器和预测器的潜在维度设置为16。Drop-GCN 设置蒙特卡罗采样次数为100 次,丢失率设置为0.5。为了防止实验具有偶然性,实验时当测试结束获得相应的结果指标,记录下10 次测试结果取得平均数值作为最终模型精度。
2.4 分类实验
分类实验中使用到的评估指标有准确率ACC、AUROC 和AUPR[28]。AUROC 表示ROC 曲线下的面积,其中x 轴代表假阳性率(FPR),y 轴代表真阳性率(TPR),解释为正例获得比反例更高的检测得分的概率[29]。此指标=大模型分类效果=好,完美模型对应的AUROC 指标为100%。AUPR 曲线是表示精度值(Pre-cision)和召回率(Recall)的曲线图,AUPR 表示Preci-sion-Recall 曲线下的面积,理想情况下,Precision 为1,Recall 为1。因此利用所描述的指标评估所有模型的性能,具体结果如表3 所示。
表3 中3 个引文网络数据集在分类实验各个指标结果中,加粗的结果表示最佳的结果。从表3 可以看出,本文模型对比4 个基准模型每个指标都有不同程度的提高,一致高于基线方法。充分验证了本文所提模型对于预测未标记节点的能力,模型能够预测出未标记节点的真实标签,RBF 模块更有助于完成节点分类任务。表明本文模型可以从训练集中学习并区分节点特征,获得节点类型。
2.5 OOD 检测实验
OOD 检测实验是利用不确定性估计来检测输入是否是分布外样本数据。评估指标有AUROC、AUPR[28]。
对于半监督节点分类,随机选择1~3 个类别作为OOD类别,并根据剩余类别的节点对模型训练。3 个数据集不同模型的指标结果如表4 所示。
从表4 可以看出,本文所提模型各项指标结果优于对比的大多数模型的指标结果,证明了本模型对分布外样本检测的有效性,这些实验结果同时也验证了加入梯度惩罚损失对OOD 任务的有效性。
为了表明本文所提模型对分布外节点样本数据检测的可信性,使用Citeseer 数据集得到ROC 曲线,图2 所示为本文模型和其他基线模型的ROC 曲线图。所有方法使用Citeseer 数据集时均是以固定的3 类作为训练数据集也就是ID 数据集,另外其他的3 类作为OOD 数据集,主要使用ID 和OOD 进行评估,判断模型对OOD 节点的敏感程度。从图2 可以明显看出,使用ROC 曲线进行对比时本文方法均优于其他基线方法。
2.6 消融实验
考虑到加入了2 项不同于GCN 交叉熵损失的损失项,需要验证所加损失项是否有助于提高本算法的性能。因此消融实验主要研究节点分类任务和分布外样本检测任务在不同数据集不同损失项的AUROC 指标结果,如表5 和表6 所示。
从表5、表6 可以看出,损失项包括交叉熵损失(Lce)、不确定性损失(Lun)和梯度惩罚损失(Lgp),利用上述3 项损失分别设置了4 种情况:第1 种情况去掉不确定性损失和梯度惩罚损失即Lce;第2 种情况只去掉了梯度惩罚损失即Lce + Lun;第3 种情况只去掉不确定性损失即Lce + Lgp;第4 种情况保留了全部3 项损失即Lce + Lun + Lgp。
由表5 可知,分别在3 个数据库Cora、Citeseer、Pubmed 数据集上进行分类任务的损失项消融实验,从表中能够明显地看出:
(1)损失设置中加入1 项或2 项损失的AUROC值均高于只使用交叉熵损失(Lce)时所得AUROC 值。
(2)损失设置的前3 种情况中去掉任意1 种或2种损失AUROC 指标均有所下降,第4 种情况即3 项损失(Lce + Lun + Lgp)都保留时,AUROC 指标实验结果是最优的,证明2 项损失同时存在对整个模型性能具有一定的贡献。
(3)表格数据进行横向对比,在设置交叉熵损失基础上加入不确定性损失(Lce + Lun)比加入梯度惩罚损失(Lce + Lgp)的AUROC 指标更高,证明分类任务中不确定性损失(Lun)对模型的贡献高于梯度惩罚损失(Lgp)的贡献。
不确定性损失(Lun)本质是通过学习未标记节点样本和有标记样本之间的区别,发现未标记节点样本的细节特征。它有助于准确预测未标记节点标签,利用迭代训练模型学习到更多细节部分从而优化模型。因此不确定性损失(Lun)在分类未标记节点样本时的能力优于梯度惩罚损失(Lgp)。
由表6 可知,分别在3 个数据库Cora、Citeseer、Pubmed 数据集上进行分布外样本检测任务的损失项消融实验,从表中能够明显地看出:
(1)损失设置中加入1 项或2 项损失的AUROC值均高于只使用交叉熵损失(Lce)时所得AUROC 值。
(2)如果缺少2 项损失中的任何一项,模型在3个不同数据集的性能会下降,3 项损失(Lce + Lun + Lgp)均存在时AUROC 指标最高,实验结果是最优的,这表明2 项损失对模型完成分布外样本检测任务时的性能具有一定的贡献。
(3)对于分布外样本检测任务,交叉熵损失和梯度惩罚损失(Lce + Lgp)的AUROC 值比交叉熵损失和不确定性损失(Lce + Lun)的AUROC 值更高,该实验结果能够说明在分布外样本检测任务中梯度惩罚损失(Lgp)的贡献更大。
梯度惩罚损失(Lgp)主要解决分布内节点样本的特征表示中出现了分布外节点样本特征表示的现象,有效防止未参与训练的节点数据信息输入到模型中,从而检测出分布外样本的节点,提高OOD 检测任务的性能指标。因此梯度惩罚损失(Lgp)在检测分布外样本节点时的能力优于不确定性损失(Lun)。
3 结 论
本文提出了一种可信的图神经网络节点分类模型。在嵌入过程中,模型使用求平均值的方法获取每类节点质心的信息,在RBF 径向基函数的指导下捕获节点间的距离,设计并引入了不确定性损失和梯度惩罚损失2 种损失函数,不确定性损失采用噪声对比估计算法发现未标记节点的细节特征以优化模型提高节点分类任务指标,同时采用梯度惩罚损失有效防止未参与训练的节点数据信息输入到模型中以优化算法提高分布外样本检测任务指标,并在Cora、Citeseer、Pubmed 这3 个真实引文网络数据集上验证了所提出模型的有效性。结果表明:
(1)在节点分类任务中,本文模型在3 个数据集上的AUROC 值分别达到81.5%、76.2%和74.6%,优于所有对比算法。
(2)在Citeseer 数据集的分布外样本检测任务中,本文模型的AUROC 得分比EDL-GCN、DPN-GCN和Drop-GCN 分别提高了1.054、1.048 和1.032 倍。
(3)本文算法在保留了从更深层次获取节点和质心间的距离信息后,所学习的节点样本信息可以更好地完成后续各种分类或者检测任务。
参考文献:
[1] KIPF T N,WELLING M. Semi-supervised classification withgraph convolutional networks [J]. 2016. DOI:10.48550/arX-iu.1609.02907.
[2] VELIC 姚 KOVIC Ú P,CUCURULL G,CASANOVA A,et al. Graphattention networks [EB/OL]. 2017. DOI:10.48550/arXiu.1710.10903.
[3] XUB,SHENH,CAOQ,et al. Graph wavelet neural network[J].2019. DOI:10.48550/arXiu.1904.07785.
[4] XU B B,SHEN H W,CAO Q,et al. Graph convolutional net-works using heat kernel for semi-supervised learning [C]//Pro-ceedings of the Twenty-Eighth International Joint Conference onArtificial Intelligence. California: International Joint Confer-ences on Artificial Intelligence Organization,2019: 1928-1934.
[5] WU J,HE J R,XU J J. DEMO-net: Degree-specific graphneural networks for node and graph classification[C]//Proceed-ings of the 25th ACM SIGKDD International Conference onKnowledge Discovery amp; Data Mining. New York: ACM,2019:406-415.
[6] ZHANG M H,CUI Z C,NEUMANN M,et al. An end-to-enddeep learning architecture for graph classification[J]. Proceed-ings of the AAAI Conference on Artificial Intelligence,2018,32(1): 4438-4445.
[7] CEN K T,SHEN H W,GAO J H,et al. ANAE: Learning nodecontext representation for attributed network embedding [J] .2019. DOI:10.48550/arXiu.1906.08745.
[8] GENG Y,HAN Z B,ZHANG C Q,et al. Uncertainty-awaremulti-view representation learning[J]. Proceedings of the AAAIConference onArtificial Intelligence,2021,35(9): 7545-7553.
[9] AMERSFOORT J V,SMITH L,TEH Y W,et al. Uncertaintyestimation using a single deep deterministic neural network[C]//Proceedings of the International Conference on MachineLearning. [s.l.:s.n.],2020: 9690-9700.
[10] OSBAND I,BLUNDELL C,PRITZEL A,et al. Deep explor-ation via bootstrapped DQN[J]. 2016. DOI:10.48550/ arXiu.1602.04621.
[11] HOULSBY N,HUSZÁR F,GHAHRAMANI Z,et al. Bayesianactive learning for classification and preference learning[J]. 2011.DOI:10.48550/arXiu.1112.5745.
[12] LAKSHMINARAYANAN B,PRITZEL A,BLUNDELL C. Si-mple and scalable predictive uncertainty estimation using deepensembles[J]. 2016. DOI:10.48550/arXiu.1612.01474.
[13] GAL Y,GHAHRAMANI Z. Dropout as a Bayesian approxima-tion: representing model uncertainty in deep learning[J]. 2015.DOI:10.48550/arXiu.1506.02142.
[14] KENDALL A,GAL Y. What uncertainties do we need in Baye-sian deep learning for computer vision? [C]//Proceedings of the31st International Conference on Neural Information Process-ing Systems. New York: ACM,2017: 5580-5590.
[15] MALININ A,GALES M. Predictive uncertainty estimation viaprior networks[C]//Proceedings of the 32nd International Con-ference on Neural Information Processing Systems. New York:ACM,2018: 7047-7058.
[16] GAL Y,GHAHRAMANI Z. Dropout as a Bayesian approxima-tion: Representing model uncertainty in deep learning[J]. 2015.DOI:10.48550/arXiu.1506.02142.
[17] RONG Y,HUANG W B,XU T Y,et al. DropEdge: Towardsdeep graph convolutional networks on node classification[EB/OL].2019. DOI:10.48550/arXiu.1907.10903.
[18] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-basedlearning applied to document recognition[J]. Proceedings of theIEEE,1998,86(11): 2278-2324.
[19] OORD A,LI Y,VINYALS O. Representation learning withcontrastive predictive coding[J]. DOI:10.48550/arXiu.1807.03748.
[20] GUTMANN M,HYV魧RINEN A. Noise -contrastive estima-tion: A new estimation principle for unnormalized statisticalmodels[C]//Proceedings of the Thirteenth International Confer-ence on Artificial Intelligence and Statistics. [S.L.:s.n.],2010:297-304.
[21] DRUCKER H,LE CUN Y. Improving generalization perfor-mance using double backpropagation[J]. IEEE Transactions onNeural Networks,1992,3(6): 991-997.
[22] SEN P,NAMATA G,BILGIC M,et al. Collective classifica-tion in network data[J]. AI Magazine,2008,29(3): 93-106.
[23] RYU S,KWON Y,KIM W Y. Uncertainty quantification ofmolecular property prediction with Bayesian neural networks[J].2019. DOI:10.48550/arXiu.1903.08375.
[24] SENSOY M,KAPLAN L,KANDEMIR M. Evidential deeplearning to quantify classification uncertainty [C]//Proceedingsof the 32nd International Conference on Neural InformationProcessing Systems. New York: ACM,2018: 3183-3193.
[25] MALININ A,GALES M. Predictive uncertainty estimation viaprior networks[J]. 2018. DOI:10.48550/arXiu.1802.10501.
[26] GLOROT X,BENGIO Y. Understanding the difficulty of train-ing deep feedforward neural networks [C]//Proceedings of theThirteenth International Conference on Artificial Intelligenceand Statistics. [S.L.:s.n.],2010: 249-256.
[27] KINGMA D P,BA J. Adam: a method for stochastic optimiza-tion[EB/OL]. 2014. DOI:10.48550/arXiu.1412.6980. https://arxiv.org/abs/1412. 6980.pdf
[28] HENDRYCKS D,GIMPEL K. A baseline for detecting mis-classified and out-of-distribution examples in neural networks[J]. 2016. DOI:10.48550/arXiu.1610.02136.
[29] FAWCETT T. An introduction to ROC analysis[J]. Pattern Re-cognition Letters,2006,27(8): 861-874.
本文引文格式:
刘彦北,马夕然,王雯. 可信的图神经网络节点分类方法[J].天津工业大学学报,2024,43(1):82-88.
LIU Y B,MA X R,WANG W. Node classification methodbased on trusted graph neural network[J]. Journal of TiangongUniversity,2024,43(1):82-88(in Chinese).