刘星宏,王英,王鑫,兰书梅
1.吉林大学计算机科学与技术学院,吉林长春130012
2.吉林大学软件学院,吉林长春130012
3.吉林大学符号计算与知识工程教育部重点实验室,吉林长春130012
4.长春工程学院计算机技术与工程学院,吉林长春130012
随着互联网和移动互联网的快速发展,互联网和移动互联网上的数据也呈现出爆炸性增长的态势。这些具有多类型、多形态且普遍存在联系等特征的数据,构成了结构复杂、规模宏大的相互连接的信息网络,因此信息网络的表征学习就成为信息网络分析的一个重要分支。已有研究大多属于同质信息网络的表征学习,无法适用于现实生活中由多种类型的节点和不同类型的关系组成的绝大多数信息网络。为此,文献[1]提出异质信息网络并发布相关数据集,供研究者分析异质信息网络中多类型、多形态的节点及节点间形成的具有丰富语义信息的连接。
如今,许多信息网络研究者致力于异质信息网络的分析,特别是聚类[2]、分类[3]、链路预测[4]等任务。异质信息网络中往往含有大量的网络结构信息和丰富的语义信息,如何利用这些大量而又复杂的信息就成为信息网络研究者关注的问题。然而,异质信息网络的传统表示方法存在高维稀疏性的缺点。为了弥补这一缺点,许多网络表征学习研究者致力于将异质信息网络的高维顶点嵌入低维空间而表示为低维稠密的向量形式,并且保留了高维空间中的网络结构信息和语义信息。低维稠密向量在异质信息网络的表征学习方面已经展现出了一定的潜力。
异质信息网络的表征学习模型大致可分为两类:
1)生成器模型
将异质信息网络中观察到的节点对及节点间关系作为模型的输入训练模型,使模型能够学习信息网络内潜在的分布。
2)鉴别器模型
采用负采样或随机游走等方法获取异质信息网络中的负样本,选择信息网络中真实存在的节点对及对应关系作为正样本,再将负样本和正样本作为模型的输入训练模型。
生成对抗网络[5]则将生成器模型和鉴别器模型有效地结合起来,被誉为机器学习有史以来最好的无监督学习技术。生成对抗网络实际上就是一个最大最小值博弈问题,博弈优化终止于一个最低点。这个最低点视实际情况的不同有可能为全局最小值点、局部最小值点或是鞍点。该最低点的散度对于生成器G来说是最小的,对于鉴别器D来说是最大的,此时模型处于纳什均衡状态。文献[6]提出了基于生成对抗网络的图表征学习(graph representation learning with generative adversarial nets,GraphGAN)模型。
受到生成对抗网络的启发,本文提出了基于生成对抗网络的异质网络表征学习(heterogeneous network representation learning based on generative adversarial network,HNRL-GAN)模型和改进后的基于生成对抗网络的增强版异质网络表征学习(heterogeneous network representation learning based on generative adversarial network plus plus,HNRLGAN++)模型,主要包括以下三方面的工作:
1)首先提出HNRL-GAN模型,将负采样技术和生成对抗网络中的生成器模型结合后产生的负样本作为生成器模型的输入;然后针对不同的情形使用不同的策略梯度训练生成器以实现生成器的迭代,并将生成器模型的输出作为负样本;接着从真实网络中提取正样本,即从给定的异质信息网络中提取真实存在的两个节点及节点间的关系作为正样本;最后将负样本和正样本作为鉴别器的输入训练鉴别器,实现了鉴别器的迭代。
2)针对HNRL-GAN模型存在的缺点,即每次更新均涉及网络中所有存在的节点以及生成器G所生成的样本受限于异质信息网络中现有节点和未引入节点间的关联度,提出了改进后的HNRL-GAN++模型。HNRL-GAN++模型能学习异质信息网络中潜在的真实分布,而不再受原有网络中所存在的节点束缚,产生出异质信息网络中原本不存在的节点,从而为鉴别器提供更好的负样本进行训练;同时为节点间的边引入了权重,使得边的权重对模型的训练也能产生影响。
3)在DBLP、Yelp和AMiner的真实数据集上应用HNRL-GAN模型和HNRL-GAN++模型,并与其他模型进行比较以展现HNRL-GAN++模型的优良性能。
自异质信息网络被提出以来,异质信息网络的表征学习开始迅速发展。关于异质信息网络的表征学习模型可分为3类:基于随机游走的模型、基于网络嵌入的模型和基于机器学习的模型。
文献[7]基于随机游走方法提出了在异质信息网络中针对给定元路径的表征学习模型--向量元路径(metapath to vector,Metapath2vec)模型。在此基础上,作者将不同类型的节点嵌入不同空间以深化不同类型的节点间差异,进一步提出了改进后的Metapath2vec++模型。
文献[8]基于网络嵌入方法提出相似性搜索模型,将信息网络中稀疏的高维节点嵌入稠密的低维空间进行相似度搜索。将一组给定的元路径集合作为输入使元路径实例的概率最大化,实现异质信息网络的表征学习。
耦合异质网络的联合嵌入(embedding of embedding,EOE)模型[9]则将异质信息网络拆分成两个同质信息网络,在两个同质信息网络内分别优化节点的低维嵌入,使得同一网络内相互连接的节点有相近的embedding。给跨网络的、有边连接的节点对引入一个矩阵,使得该节点对也有相近的embedding。反之,若节点对不存在边,则有较远的embedding。借鉴上述思路,EOE模型实现了异质信息网络的表征学习。
在机器学习方面,文献[10]在异质信息网络表征学习中引入了隐含层,提出了异质信息网络向量映射(heterogeneous information network to vector,HIN2Vec)模型。将输入层节点对的one-hot向量X,Y及任意关系的one-hot向量R转变为隐含层向量W′X x、W′Y y、W′Rr、其中WX、WY、WR为|V|×d的矩阵;再以隐含层向量的元素乘积之和作为sigmoid函数的输入,从而将节点间的多分类问题转变为二分类问题,大大减少了模型的计算量。
符号异质信息网络嵌入[11](signed heterogeneous information network embedding,SHINE)模型用多层自动深度编码机将异质信息网络中的高维稀疏节点映射到低维稠密的特征空间中,先获得情感网络嵌入、社会网络嵌入和资料网络嵌入,再将低维嵌入信息进行融合,获得了异质信息网络的嵌入式表示。
定义1 信息网络
信息网络是有向图Ggraph={V,Eedge},其中V为节点集合,Eedge为边集合。在信息网络中,有节点类型映射函数φ:V→A和边类型映射函数ψ:Eedge→R。若信息网络中节点类型数目|A|=1或边类型数目|R|=1,则该信息网络可称为同质信息网络;若|A|>1或|R|>1,则该信息网络可称为异质信息网络。
定义2 网络模式
网络模式是由信息网络的节点类型集合A和边类型集合R构成的有向图,可表示为有向图Tgraph={A,R},它是信息网络Ggraph={V,Eedge}的一个元模板。每个节点v∈V属于一个特定节点类型Ai,即φ(v)∈Ai;每条边e∈Eedge属于一个特定边类型Rj,即ψ(e)∈Rj。
定义3 信息网络表征学习
给定信息网络G={V,Eedge},对网络中节点进行表征学习可以将网络中高维节点v∈V映射到低维空间Rd中,即有映射函数V→Rd和vc→ec,其中d代表R的维度且满足d≪|V|。
定义4 节点对权值矩阵
给定异质信息网络,对其网络模式的关系进行加权而形成节点对权值矩阵。例如在图1的网络模式中,将(organizer,conference)的关系权值设为2,将(reporter,conference)关系权值设为1,则可以获得节点对权值矩阵。
图1 具有多关系的异质信息网络Figure 1 Heterogeneous information network with multiple relationships
定义5 关联度
对于给定的节点对权值矩阵来说,节点对(vil,vjk)之间的关联度可定义为
式中:节点v属于其对应的节点类型,即φ(vil)∈Ai,φ(vjk)∈Aj。w(vil,vjk)表示节点对(vil,vjk)在节点对权值矩阵中对应的权值,∑表示节点vil的所有相邻节点的权值之和。
定义6 生成器
生成器G(·|vc,·,θG)根据信息网络中的节点和边来拟合信息网络中潜在的真实分布Ptrue,其中θG为鉴别器的参数。
定义7 鉴别器
鉴别器D(·|vc,·,θD)判断给定的样本是否为正样本,其输出为一个标量。若鉴别器认为此样本为正样本,则输出的标量应当接近1;反之则应当接近0。
本文借鉴生成对抗信息网络的思路,提出了针对异质信息网络表征学习的最大最小博弈函数
式中:E1=Evt~Ptrue(vc,rt)logD(vt|vc,rt,θD),E2=Ern~Ptrue(vc,vt)log(1−D(rn|vc,vt,θD)),E3=Erg~PG(vc,vt,θG)log(1−DθD(rg|vc,vt,θD))。
在式(2)的基础上,对函数V(G,D)交替使用最大最小值博弈理论,可以得到生成器G和鉴别器D的最佳参数。在每次迭代中,首先从真实网络提取真实存在指定关系rt的节点对(vt,vc)及关系rt作为正样本;若节点对(vt,vc)不存在另一指定关系rn,则选取(vt,vc)与rn作为负样本,将节点对(vt,vc)生成器G生成的关系rg也作为负样本。然后用策略梯度更新鉴别器D的参数θD,并在鉴别器D的指导下以策略梯度更新生成器G的参数θG。重复上述步骤,通过生成器G和鉴别器D之间的竞争促进两者的优化,直至鉴别器D无法区分生成器G生成的负样本与真实网络中存在的正样本。例如在图2中,鉴别器D将真实网络中存在的(a2,p2)及作者关系作为正样本,将(a2,p2)与读者关系作为负样本,将(a2,p2)及生成器G生成的关系rg也作为负样本来更新自身参数θD。接着生成器G在鉴别器D的指导下最小化V(G,D)函数,从而实现生成器参数θG的更新。多次重复上述步骤,使迭代后的模型能够提取出异质信息网络的表征。本文将此模型命名为HNRL-GAN。
图2 由文献数据构建的异质信息网络Figure 2 Heterogeneous information network constructed from literature data
针对HNRL-GAN模型的深入研究,本文进一步提出了以下3个问题:
1)对于生成器G来说,HNRL-GAN每次更新都需要涉及网络中所有存在的节点。在小型异质信息网络中,更新生成器G的参数θG所需计算时间不多;但在大型异质信息网络中,生成器每更新一次θG所需的计算代价过于高昂,计算效率过低。
2)HNRL-GAN的生成器G受限于异质信息网络中被观测到的节点,无法真正地拟合信息网络中潜在的真实分布以生成更好的负样本。例如在图2中,若真实网络中有潜在的的、与p3相似、与a4具有边类型为作者的节点p4,那么生成器G通过学习生成p4这一更为真实的负样本即可增强生成器G和鉴别器D的性能[12-16]。
3)HNRL-GAN未引入节点间的关联度。节点间的关联度可以增强模型在聚类和分类方面的性能,因此下文探讨了如何利用异质信息网络中的枢纽节点以增强表征学习模型在聚类和分类方面的性能。
实验数据集如表1所示。
表1 实验数据集Table 1 Experimental dataset
本文的HNRL-GAN++模型将Embedding的维度设置为64,采用均匀分布U(−1,1)初始化节点和关系的Embedding矩阵。生成器G的线性变换次数设置为2;模型的batch size设置为64;正则化系数设置为10−4;Adam优化器的学习率在生成器G上设置为0.00015,在鉴别器D上设置为0.00010;epoch设置为30;每次迭代中生成器G和鉴别器D的训练次数nG和nD设置为15和5。
为了验证HNRL-GAN++模型的有效性,主要考虑与以下6种经典模型进行对比。
1)Deepwalk
在信息网络中进行截断的随机游走以生成一个网络的社会表示。
2)LINE
利用信息网络中的一阶邻近性和二阶邻近性。
3)GraphGAN
将GAN模型中的最大最小博弈应用于信息网络。
4)HIN2Vec
利用神经网络模型学习节点及元路径的潜在表征,获得异质信息网络的语义信息。
5)Metapath2vec
基于元路径进行随机游走,以便在低维空间中保存异质信息网络的语义信息。
6)HeGAN
利用生成对抗学习网络保存高维空间中的异质信息网络语义信息模型。
根据K-Means算法进行节点聚类,并使用归一化互信息(normalized mutual information,NMI)评估节点聚类的结果。
使用逻辑回归分类器进行节点分类,将80%的节点作为训练集,其余20%的节点作为测试集。对于多分类任务,以Macro-F1和Micro-F1作为评比指标。
在基于Yelp公共数据库的实验中,HNRL-GAN和HNRL-GAN++模型生成器与鉴别器的损失值曲线如图3所示。
图3 HNRL-GAN和HNRL-GAN++模型生成器与鉴别器的损失值曲线Figure 3 Loss curve of generators and discriminators in HNRL-GAN and HNRL-GAN++models
由图3可以得到以下结论:
HNRL-GAN++模型生成器G的损失值能保持一个较低的水平,说明该模型的鲁棒性良好。鉴别器D的损失值也呈现一个下降的趋势。HNRL-GAN++模型未出现模式崩塌的问题,因此该模型较为稳定。
基于NMI,得到信息网络表征学习各模型的节点聚类结果如表2所示。
由表2可以得出以下结论:
表2 信息网络表征学习各模型的节点聚类Table 2 Node clustering of information network representation learning models
1)HNRL-GAN++模型在基于DBLP、Yelp和Aminer公共数据库的节点聚类实验中,表现出了比其他信息网络表征学习模型更好的性能,这说明了HNRL-GAN++模型在异质信息网络表征学习中的有效性。
2)Metapath2vec在节点聚类的实验中相较于其他模型表现出了不俗的性能,说明了信息网络节点嵌入在异质信息网络表征学习和语义信息保留方面的潜力。
3)相较于HNRL-GAN模型,改善后的HNRL-GAN++模型具有更好的性能,可以使模型拟合真实分布,利用真实网络中潜在的、未被观测到的节点生成更好的负样本以增强在异质信息网络表征学习方面的性能。
在基于Yelp公共数据库的实验中,HNRL-GAN与HNRL-GAN++模型的NMI曲线如图4所示。
图4 HNRL-GAN与HNRL-GAN++模型生成器与鉴别器的NMI曲线Figure 4 NMI curves of generators and discriminators in HNRL-GAN and HNRL-GAN++models
由图4可以看出,HNRL-GAN模型存在模式崩溃问题。即对于任意输入,生成器G都倾向于输出有限的特定负样本给鉴别器D有限的特定负样本,以致无法增强模型的性能。因此,HNRL-GAN模型的性能随着迭代次数的增加反而下降了,而HNRL-GAN++模型在对抗模式崩溃方面的表现更为优秀。
在节点分类任务中,得到的Micro-F1、Macro-F1测试结果如表3所示。
表3 信息网络表征学习各模型的节点分类Table 3 Node classif ication of each model of information network representation learning
从表3中可以看出,HNRL-GAN++模型在DBLP、Yelp和Amnier数据集中的总体表现最优。
在基于Yelp公共数据库的实验中,HNRL-GAN与HNRL-GAN++模型的Micro-F1曲线如图5所示。
图5 HNRL-GAN与HNRL-GAN++模型生成器与鉴别器的Micro-F1曲线Figure 5 Micro-F1 curves of generators and discriminators in HNRL-GAN and HNRLGAN++models
本文首先提出了基于生成对抗网络的异质信息网络表征学习模型,即HNRL-GAN和HNRL-GAN++模型,然后通过实验证明了HNRL-GAN和HNRL-GAN++模型的有效性。总的来说,本文提出的模型使用了网络嵌入,实现了异质信息网络的语义信息保留和结构信息保留,并根据生成对抗网络的最大最小博弈理论对其进行增强。