赵 瑜,谭海宁,刘志方,武 超
(1. 91977部队,北京 100142; 2. 中国科学院大学,北京 100049;3. 中国科学院 计算技术研究所, 北京 100190; 4. 西南电子电信技术研究所, 四川 成都 610041;5. 中国电子科技集团公司 电子科学研究院,北京 100041)
现实世界中,随着互联网的发展,各类可以通过图来进行描述刻画的网络数据呈现爆发式的增长,比如社交网络、论文引用网络、基因图谱等。这些图数据或者对象、个体、群组或者组件之间存在联系或者相互影响,形成了结构复杂、数据规模大、相互连接的复杂信息网络。如今,对信息网络(如万维网、生物信息网络)的分析,已经得到了社会科学、计算机科学、物理学、生物学等领域研究者的广泛关注,并且研究成果已经应用在各个领域中。而在网络分析过程中,一个重要的问题就是如何合适地表示网络信息。传统的信息网络表示方法一般使用高维度的稀疏向量,然而高维度的稀疏向量的表示方式成为人们使用相关的统计学习方法进行网络分析的局限所在,由于高维度的向量表示将会带来很大的空间浪费和计算时间开销[1-2]。随着表示学习技术在自然语言处理、计算机视觉等领域的发展和广泛应用,研究者开始探索将网络中的节点表示为低维稠密的向量表示方法,网络表示学习概念应运而生,各类网络表示学习方法及模型也如雨后春笋般层出不穷[2-5]。
当前大多数的网络表示学习研究通常假设网络是同构的,即网络中的节点和节点之间具有相同的链接关系,例如,Eigenmaps[6]、Deepwalk[3]、Node2vec[7]、LINE[8]、Grarep[9]、SDNE[10]等。然而,实际生活中大多数网络是异构的,即网络中的节点类型和链接关系不是相同类型的,例如,微信网络由用户、照片、文本信息等多种类型节点组成,除了人与人之间的朋友关系,还存在着其他类型的关系,如个人和照片之间的标记关系、个人与文本消息之间的发布关系、文本消息与文本消息之间的回复关系等[11]。可以看出,异构信息网络包含了更加全面的信息,蕴含了更加丰富的语义,正是由于异构信息网络的特殊性,同构网络的表示学习方法不能直接迁移应用于异构信息网络,为网络表示学习带了诸多挑战。近些年,面向异构信息网络的表征学习发展异常迅猛,并且取得了很多有价值的研究成果。
主流的异构信息网络表征学习方法可以根据学习模型方法的不同分为两类: 一类是生成式模型,在生成式模型中我们假设异构信息网络中存在一个潜在的、真实的连续性分布ptrue(v|vc),ptrue(v|vc)就是指除了vc之外其他节点与该节点的关系分布;另一类是判别式模型,判别式模型主要是直接学习两个节点之间边的概率分布,并且将两个节点v和vc联合作为特征,然后输出两个节点之间存在边的概率ptrue(edge|v,vc)。
从以上两类工作可以看出,在异构信息网络表征学习领域,生成式模型和判别式模型都体现出了各自的优势,但是却没有工作很好地将生成式模型和判别式模型进行融合。GraphGAN[12]、ANE[13]借助对抗生成网络巧妙地将生成式模型和判别式模型进行融合,但是GraphGAN主要是面向同构信息网络,受GraphGAN的启发,本文主要是基于对抗生成网络,提出面向异构信息网络的表征学习框架。
本文的主要贡献包括:
(1) 我们提出了基于对抗生成网络的异构信息网络表征学习模型HINGAN,能够同时融合生成式模型和判别式模型进行网络表征学习。
(2) 我们的方法HINGAN提出了一种新的面向异构信息网络的表征学习方法,该方法利用元路径进行节点上下文的探索,并且结合生成对抗模型进行表征学习。
(3) 我们在几个真实的数据集上进行多标签分类、链路预测以及可视化等网络分析任务,实验结果表明HINGAN在三个应用场景中都取得了不错的结果。
本文的结构组织安排如下: 第1节介绍了面向异构信息网络表征学习的相关工作,包括基于生成式模型和基于判别式模型的相关方法。第2节详细地定义和描述了本文提出的表征框架HINGAN。第3节通过充分的实验对本文提出的方法进行有效的验证,并报告相关的实验结果。最后,第4节对本文工作进行了总结,并展望该技术的未来发展方向和前景。
本节我们将详细介绍面向异构信息网络的表征方法,包括基于生成式模型的表征学习方法、基于判别式模型的表征学习方法以及融合生成式和判别式模型的表征学习方法。
首先,基于生成式模型的异构信息网络表示方法主要有HERec[14]、Metapath2vec[15]、SERL[16]等。
HERec[14]提出了一种基于异构信息网络表示的推荐模型,文中首先利用元路径进行路径探索,获得路径序列,然后按照类型进行归类过滤,获得同一类型节点基于某一元路径的邻居上下文,通过这种方法巧妙地将异构信息网络表征学习问题转化为同构网络表征学习问题。这样,基于不同的元路径可以获得不同的网络表征向量R。最后文章中提出了一种非线性融合框架,将不同元路径学习到的网络表征向量进行融合转换,用于进一步的推荐任务。
Metapath2vec[15]提出了基于Skip-gram[17]算法的异构信息网络表征框架,Metapath2vec和Metapath2vec++。Metapath2vec将不同类型的节点按照同构节点对待,直接作为skip-gram模型的输入,进行网络表征学习。而Metapath2vec++在Metapath2vec的基础上改进了损失函数的评估方式,分类型进行损失函数构建,对类型进行了区分。经过实验对比发现两种方法各有利弊,适用于不同的网络分析任务中。
SERL[16]提出了一种融合不同语义元路径信息的异构信息网络表征框架,文章主要是基于Skip-gram模型,提出了一种可以学习不同元路径在表示学习中语义信息重要性的框架。SERL在进行随机游走探索节点上下文的过程中同时借助不同的元路径,在一定程度上拉近了节点的语义邻近性,达到了融合不同语义关系的目的。
基于判别式模型的异构网络表征学习方法主要有HIN2VEC[18]、HNE[19]等。
HIN2VEC[18]构造了一个二分类器,针对指定的节点对X和Y,判断节点对之间存在某种关系R的概率P(R|X,Y)。通过构造边的判别式模型,实现节点之间邻近性的保留。
HNE[19]通过CNN和全连接层分别提取图片和文本的特征信息,根据图片—图片、图片—文本以及文本—文本等关系构建损失函数,并且在学习过程中,实现了参数共享。
结合生成式模型和判别式模型的异构信息网络表征方法主要有GraphGAN[12]、GAN-HBNR[20]等。
GraphGAN[12]: 借助对抗生成网络巧妙地将生成式模型和判别式模型进行融合,实现了同构信息网络表征任务。本模型本身不是专门为异构信息网络设计,但是可以通过将异构节点视为同类型节点进行表征学习。
GAN-HBNR[20]: 提出了一种面向异构信息网络的异构信息表征方法,不仅考虑了网络结构,同时整合了节点的内容信息,在个性化引用推荐任务中取得了不错的效果。
本文提出了一种无监督的异构信息网络表征学习方法HINGAN,以对抗生成网络为基础,沿用了对抗生成网络中的博弈思想,设计构造了生成网络和对抗网络两部分,并且利用元路径进行节点语义上下文的探索,达到提升网络表示学习的效果。在这一节,我们首先给出在本文中用到的相关符号及其含义,然后阐述异构信息网络、元路径以及网络表征学习概念及定义,接下来介绍对抗生成网络以及本文提出的表征模型HINGAN,最后将详细分析该模型的时间及空间复杂度。
为了下文阐述方便,我们首先将本文中用到的符号及其含义进行简单介绍,如表1所示。
表1 符号定义
本文研究的问题是如何构建一个合适的异构信息网络表征学习模型,并且借助对抗生成网络将网络中数据映射到低维向量空间。这里,我们将异构信息网络形式化定义如下:
定义1(异构信息网络)信息网络可以用一个有向图G=(V,E,Φ,Y) 表示。这里V表示节点的集合,E∈V×V表示由来自节点集合V的节点组成的边的集合,Φ表示节点的类型映射函数,即集合V中的每个节点都可以映射到节点类型集合T中的某一特定节点类型,可以形式化表示为Φ:V→T。Y表示边的类型映射函数,即集合E中每条边都可以映射到边类型集合R中的某一特定边类型,可以形式化表示为Y:E→R。当|T|>1or|R|>1,该信息网络G=(V,E,Φ,Y) 被称为异构信息网络。
在面向信息网络的基于链接的相似性度量方法中,两个网络节点间的相似性主要是根据指定网络节点之间的链接方式(链接路径)进行衡量。由于异构信息网络中网络节点和边的异构性,网络节点之间的连接关系更具有多样性,并且不同的连接关系代表着不同的语义关系。形式化地,我们将异构信息网络中连接两个网络节点的类型路径都称作元路径,定义如下:
本文中,我们的目标是获得高质量的异构信息网络的向量表示,更好地学习网络的结构信息。在这里我们给出网络表示学习的基本定义:
定义3(网络表示学习)给定某异构信息网络G=(V,E,Φ,Y),异构信息网络表示学习的目的对每一个顶点v∈V学习一个实数向量Rv∈Rd,其中d表示向量的维度,满足d≪|V|。
我们首先简要介绍一下对抗生成模型,对抗生成模型最早由Goodfellow等在2014年提出,其特点是在模型中有两个对立的网络,一个是生成网络G,一个是判别网络D。生成网络,在模型中将输入数据映射到和训练样本相同的空间,训练的目的就是学习训练样本数据的关系规则,或者说是分布,使自己造样本的能力尽可能强,让判别网络没法判别真样本和自己生成的假样本。判别网络,其输入既可以是训练样本,也可以是生成网络的输出,目的是区分输入数据是来自样本集还是来自生成网络,其输出是表示输入是来自样本集的概率。本质上说,生成对抗网络需要我们构造形如式(1)所示的minimax博弈问题。
=Ex~pdata(x)[logD(x)]
+Ez~pdata(z)[log(1-D(G(z)))]
(1)
式(1)中,D(x)表示判别模型,G(z)表示生成模型,x~pdata(x)表示x属于真实的数据集,z~pdata(z)表示数据z属于生成模型G生成的假数据样本集。
这里受生成对抗网络模型的启发,我们提出了面向异构信息网络的基于生成对抗网络模型的表示学习模型HINGAN,HINGAN整体框架如图1所示。
图1 HINGAN模型结构图
由图1可以看出,HINGAN整体框架分为三部分: 带权同构图生成、生成模型构建、判别模型构建。下面分别详细介绍三个模块的实现方法。
(1) 带权同构图生成。由于异构信息网络中含有不同类型的节点和边关系,为了克服异构信息网络中节点类型不一致给分析和建模带来的挑战,这里我们提出了一种基于元路径的异构信息网络协同过滤方法,主要是通过元路径引导,实现异构信息网络异质节点到同质节点的带权边转换,并且我们在转换的过程中同时考虑了多元路径信息。
由图2可以看出,连接两个节点a1→…→a2有多条元路径,并且在异构信息网络中不同的元路径信息表达不同的语义关系,比如路径a1→Org→a2可以表示为元路径Author→Organization→Author (简写为“AOA”)的实例,表示两个作者来自同一个组织,而路径a1→p1→ACL→p2→a2可以表示为元路径Author→Paper→Venue→Paper→Author(简写为“APVPA”)的实例,表示两个作者在同一个会议上发表了相关文章。可以看出不同的元路径信息可以传递不同的语义关系,并且两个节点之间可以有多条路径信息,即两个节点之间可以包含多种语义关系。并且在实际应用场景中,如果我们只考虑单元路径信息,在学习过程中可能会损失大量的语义信息,比如如果我们只考虑“APVPA”,造成a1和a2之间没有路径,进而模型会认为a1和a2不邻近,造成表示结果偏差。而如果我们同时考虑多条元路径信息,比如增加“AOA”,由图2可以看出,两个节点之间可以重新建立邻近性,增强表示学习效果,所以我们在过滤异质节点的过程中需要同时考虑多条元路径,并且给不同路径赋予不同的权重,主要步骤如下。
图2 多路径实例关系互补示意图
第一步根据需求选定使用元路径集合Smp={P1,P2,…,Pn},并且指定元路径的权重集合μmp={μ1,μ2,…,μn},满足∀P∈Smp都存在一个权重μ*∈μmp与之对应。
p(vi+1|vi,P)
(2)
第三步根据第二步中探测的邻居节点进行边的权重分配,假设节点对(vs,vt)之间关系边的权重可以形式化如式(3)所示。
(3)
在这里Svs,vt指连接节点对(vs,vt)所有的元路径实例组成的集合,μPinst是指元路径实例Pinst对应的权重,在实际转换过程中我们按照式(4)对顶点的权重进行了归一化处理。
(4)
其中,N(vs)指节点vs的邻居节点集合。
(2) 生成模型G和判别模型D的构建。给定同构图数据网络G=(V,E),V表示网络的节点集合,E表示边的集合。给定节点vc∈V,ptrue(v|vc)指节点vc在节点集合V中的真实邻居分布。这里我们的目标便是学习训练两个模块: 一是生成模型G(v|vc;θG),我们需要调整模型让G(v|vc;θG)≈ptrue(v|vc);二是判别模型D(v,vc;θD),对于给定的节点对(v,vc),D(v,vc;θD) 表示节点对之间存在边关系的概率。生成器和判别器扮演着两个不同的角色,生成器尽力去逼近ptrue(v|vc),争取产生和vc足够相似的点集,而判别器需要去区分生成器产生的数据和vc的真实邻居分布。根据式(1),这里我们可以一般化对抗生成模型,如(5)所示。
+Ev~G(v|vc;θG)[log(1-D(v,vc;θG))])
(5)
在构造判别函数的过程中,为了便于梯度计算,我们采用类似于Deepwalk中的激活方法,通过计算两个向量内积的sigmoid函数进行定义,如(6)所示。
(6)
(7)
(3) 进行生成式模型的构建,这里我们沿用了GraphGAN[12]中的构建方式,θG的梯度更新可以整理为如式(8)所示。
(8)
其中,G(v|vc)的计算方式按照形式化式(9)进行计算:
(9)
(10)
式(10)中,pc(*|*) 表示两个节点的相关性概率,可以引入式(6)进行计算,具体计算方式见式(11)所示。
(11)
最后,我们将HINGAN模型整体算法总结如下:
算法1 HINGAN
考虑异构信息网络表示学习是否能够进行实际应用的关键问题在于时空复杂度,在HINGAN迭代过程中我们只需要存储节点以及节点的邻居信息,空间复杂度为O(|V|)。时间复杂度主要分为三部分,第一部分进行带权同构图的构建,在这一模块中我们只需要对某个节点按照元路径进行邻居探测,并且在实际计算过程中,我们限制了元路径P的长度|P|(|P|≤l),所以这部分的时间复杂度为O(|V|·lD),D代表异构信息网络里的节点平均度数; 第二部分G(v|vc;θG)生成器部分,对应算法1中9~12行,这部分算法复杂度为O(nGD·|V|·log|V|·k),nG为生成器对每个节点的采样节点数,d表示节点表示的维度; 第三部分D(v,vc;θD)判别器部分,对应算法1中14~17行,这部分算法的时间复杂度为O(nD·D·|V|·log|V|·d)+O(nD·|V|·d)。从整体上来说,因为参数nD,nG,D,d为常量,所以HINGAN算法的时间复杂度为O(|V|·log|V| ),可以应用于大规模异构信息网络分析任务中。
在本节中我们对HINGAN进行了大量的量化分析实验,为了说明HINGAN算法的有效性,我们对其在异构信息网络多标签分类、链路预测、可视化三个任务上进行了网络分析实验,并且与当前的主流算法进行了详细的实验对比。其次,为了验证算法的鲁棒性和高效性,我们分别进行了HINGAN模型的参数敏感性和迭代效率实验。
我们分别选择了AMiner、DBLP两个异构信息网络数据集进行多标签分类、链路预测、可视化分析任务,两个数据集的统计特征如表2所示。
表2 数据集的统计特征
AMiner[21]网络是由开放学术组织发布的亿级学术图谱,其中包括不同类型实体(如作者、论文、会议等),并且还包含可以扩充不同类型实体的语义数据,在本文中,我们筛选了来自8个领域59个学术会议的相关数据组成异构信息网络,并做进一步的网络分析。
DBLP[11]网络也是在异构信息网络研究中被经常用到的数据集。在本文中我们使用的是DBLP[11]中使用的经过筛选的DBIS数据集,该数据集包括来自4个领域的20个学术会议,其中包括14 475名作者以及14 376篇论文信息。
在本文实验中,我们选取了目前比较流行的效果较好的网络表示模型,我们主要通过多标签分类、链路预测和可视化三个分析任务来进行实验结果对比,下面简单概述我们对比的主流算法。
Deepwalk[3]: 该算法借鉴了Word2Vec[17]的表示生成方式,也是基于Skip-gram模型进行向量学习,巧妙地将深度文本表示方法用来学习网络节点表示。并且在Deepwalk中作者通过随机游走的形式进行节点上下文的探索,以此来获得网络结构特征向量。
Node2vec[7]: 该算法扩展了Deepwalk,主要改进了Deepwalk算法中随机游走的策略,定义了两个参数p和q,在BFS和DFS中达到一个平衡,同时考虑了局部和宏观的语义信息。
LINE[8]: 该算法在Deepwalk基础上,引入了二阶关系的概念,并且LINE对一阶和二阶关系分别设计不同的目标函数,然后得到两种类型的向量,最后进行拼接组合操作,以此来获得节点的向量表达,在本实验中我们使用强化版本LINE(1st+2nd)来进行对比实验。
SDNE[10]: 该算法基于自动编码机提出了一种半监督学习模型,用于表示网络的全局结构属性和局部结构属性。
Metapath2vec[15]: 该算法是2017年微软研究院提出的面向异构信息网络的表示学习工作,该算法使用基于元路径的随机游走进行节点邻居发现,并且用异构节点版本的Skip-gram算法求解网络中节点的向量表示,并且有两个版本Metapath2vec和Metapath2vec++。在实际实验过程中发现,Metapath2vec性能表现更好一点,在本文中我们使用Metapath2vec版本进行对比试验。
GraphGAN[12]: 借助对抗生成网络巧妙地将生成式模型和判别式模型进行融合,实现了同构信息网络表征任务。
在实验过程中,由于Deepwalk和LINE本身不是为异构信息网络设计的,所以在对比实验过程中,我们将模型学到的带权网络作为Deepwalk和LINE模型的输入。而对于Metapath2vec,因为其本身就适用于异构信息网络,所以直接让Metapath2vec用于异构信息网络数据集。在参数设置方面,Deepwalk的窗口大小设置为10,随机游走的步数设定为80,每个节点的游走次数设定为10。所有方法的向量表示维度都设定为128。并且对于Metapath2vec我们选定的元路径为“APVPA”,和原文保持一致。而对于HINGAN,元路径的长度阈值l设定为4,并且我们用Grid-search方法获得最优权重值μ。对于网络AMiner,满足条件的元路径集合为{“APA”,“AOA”,“APPA”,“APVPA”}。对于DBLP,满足条件的元路径集合为{“APA”,“APVPA”}。
多标签分类任务是指每个节点会被标记为一个或者多个标签,它是用来衡量网络表示学习结果的一个常见的任务,本文也是用该任务来衡量模型HINGAN,使用准确性(accuracy)来作为衡量指标。在AMiner、DBLB数据集中,我们都是对作者(author)类型节点进行表示,之后将10%的节点作为训练样本,对剩下的90%节点进行分类实验,我们用SVM来作为分类器,实验结果如表3、表4所示。
表3 AMiner多标签分类实验结果(准确性/%)
表4 DBLP多标签分类实验结果(准确性/%)
表3和表4分别表示各算法在AMiner和DBLP数据集上进行多标签分类任务的准确性,从表中可以看出Deepwalk和Node2vec两个算法在多标签分类任务中表现很接近,我们的工作相较于其他方法表现更加优异。在准确率方面,在两个数据集上分别取得了3.45%~10.32%和5.2%~16.2%的增益。实验表明虽然HINGAN建立在学习边分布的基础上,但是依然可以有效学习节点特征信息。除此之外,我们发现HINGAN的表现要优于GraphGAN,反映出元路径引导嵌入的优势。
链路预测任务是指预测两个节点之间是否存在边,在本实验中,我们使用数据集DBLP,为了更好地进行链路预测任务,在进行实验之前为了防止边太稠密,我们随机选取50%的边作为我们的基础数据集。然后我们随机隐藏10%的边用来进行链路预测任务,剩下的边用来训练学习网络表示模型,然后根据学到的节点表示来进行链路预测。在对比实验中,我们添加一种对比方法CN(common neighbor),因为该方法在链路预测领域广受好评。
在衡量实验结果过程中,我们通过指标precision@k来进行评估,这里precision@k表示在预测的k条边中符合实际分布的边所占比例。实验结果如表5、表6所示。
由表5、表6可以看出,在DBLP数据集上的链路预测任务中,HINGAN表现要优于其他方法,并且随着k值的变大,HINGAN的优势越来越明显。在链路预测任务中,融合了判别模型的方法,如LINE、GraphGAN等,要明显优于生成式模型方法,如Deepwalk、Node2vec等,说明判别式模型在链路预测任务中表现更好。
表5 AMiner链路预测结果(precision@k)
表6 DBLP链路预测结果(precision@k)
在本实验中,我们还考虑了移除边的比例给节点预测任务带来的影响,以DBLP链路预测任务为例,我们通过改变移除边的比例进行实验来探索边的稀疏性对链路预测任务带来的影响,选取移除比例分别为15%,25%,40%,50%,80%来进行实验,实验结果如图3所示。
图3 稀疏性对链路预测任务性能影响评估结果
由图3可以看出,我们改变异构信息网络的稀疏性会降低各种方法在链路预测任务中的准确性,但是我们的方法HINGAN在链路预测任务中的评估结果始终优于其他模型,由于Deepwalk、Node2vec、Metapath2vec模型相似,所以变化趋势也非常相似,而LINE、SDNE、GrapgGAN、 HINGAN方法结合了判别模型,所以它们表现更好。除此之外,我们发现各种方法都呈现出随着边删除比例的增加,链路预测效果先急剧下降后变缓的趋势,意味着测试边集合减少,边命中的概率也随之减少,并且信息损失随着边的减少,对实验效果影响越来越弱。
网络分析中另一个重要的应用是可视化,在本节我们通过可视化的形式进行向量表示的评估工作,这里我们将不同的方法学到的低维向量化表示输入到可视化工具t-SNE[22],在这里我们使用的是分类任务中学到的DBLP中作者(author)类型,我们随机选取了6个类型作者中各200个作者作为输入,可视化结果如图4所示。
图4 可视化结果
由图4可以看出,相对于其他3种模型,HINGAN方法获得的节点向量表示经过降维后,节点聚类效果更加明显,轮廓更加清晰,主要是由于HINGAN模型整合了生成式模型和判别式模型,构建过程中,在生成式模型中添加了判别式约束,使节点向量表示结果更优。
本节中,我们对HINGAN中元路径选择、参数d(向量维度)、迭代次数进行了详细的实验评估。
图5中,我们通过使用不同的元路径运行HINGAN来衡量不同的元路径对网络表征的影响,我们分别单独使用“APA”、单独使用“APVPA”,同时使用“APA”和“APVPA”在DBLP上进行多标签分类任务。除此之外,为了验证生成对抗模型的有效性,我们同时运行使用“APVPA”的Metapath2vec方法来进行结果对比。由图5可以看出,在使用同一条元路径“APVPA”情况下,HINGAN的效果要优于Metapath2vec,进一步说明结合生成式和判别式模型能够更好地进行网络表征。根据图5,我们还可以发现使用多条元路径相较于分别单独使用在多分类任务中能够取得更好的效果,说明融合更多的语义信息能够取得更好的表征效果。在数据集AMiner上进行相同的元路径对比实验,我们取得了相似的实验结果,在这里不再进行赘述。
图5 不同元路径的影响评估结果
如图6所示,我们评估维度对预测任务的影响,d(向量维度)分别取32、64、128、200、256,通过precision@k对HINGAN向量表示进行评估,可以看出d取128时,HINGAN表示学习效果最好。
图6 参数评估
图6 (续)
在更新过程中我们分别对生成器和判别器迭代更新了100次,每迭代一次将中间结果用于链路预测任务并评估precision@500,实验结果如图所示,我们发现20~30之间准确率较高并且可以减少计算开销,所以在实验中我们设定迭代次数为30。
本文提出了一种融合生成式模型和判别式模型的面向异构信息网络的表示学习方法HINGAN。HINGAN一方面借助多元路径进行节点语义邻居的探索,提高节点的语义邻近性;另一方面,HINGAN借鉴生成对抗的博弈思想,通过构建生成器和判别器,在生成判别的迭代更新过程中,更好的探索节点结构和语义信息。本文在多个真实世界的网络上进行大量实验,实验结果表明该方法在多标签分类、边关系预测和可视化三个应用场景中都取得了不错的表现。与此同时,HINGAN是可以实现规模化扩展的,可以应用到大规模网络分析和挖掘任务。
在未来工作中,我们将进一步考虑高效的面向异构信息网络的表示学习方法,并将从以下几个方面进行尝试。
(1) 结合分布式机器学习技术,将HINGAN进行分布式算法扩展,结合近期盛行的GPU、TPU等高效计算方式,让分析超大规模信息网络成为可能。
(2) 如何解决网络动态性问题,在实际应用场景中,比如社交网络,网络中节点和边的关系是动态变化的,而目前大多数的网络表示学习方式都是建立在静态网络数据上,所以如何对网络动态性进行合理化建模,实现在线的实时的网络表示任务,值得更多的关注。
(3) 如何解决表示学习过程中参数自动化学习问题,现在网络表示学习方法普遍采用半监督的方式,需要通过引入标签数据进行超参数的学习,所以想要解决参数自动化学习问题,依然有很长的路要走。