面向复杂网络的异构网络表示学习综述

2021-03-11 07:20颜铭江董一鸿苏江军陈华辉钱江波
电信科学 2021年2期
关键词:异质异构信息网络

颜铭江,董一鸿,苏江军,陈华辉,钱江波

综述

面向复杂网络的异构网络表示学习综述

颜铭江,董一鸿,苏江军,陈华辉,钱江波

(宁波大学信息科学与工程学院,浙江 宁波 315211)

异构信息网络包含丰富的节点信息和链接信息,具有复杂异质性、高稀疏性、属性高维性等特性,这些特性给网络表示学习任务带来了巨大的挑战。异构网络表示学习通过在嵌入过程中将多样化的异质信息和结构信息进行有效融合,学习得到更有利于下游机器学习任务的低维特征向量。从异构网络表示学习方法的研究粒度出发,对近年的研究现状进行了比较全面的分析和讨论。首先探讨网络表示学习的产生动机,阐述了近年的异构网络表示学习的研究历程;然后对具有代表性的算法模型进行分类讨论,归纳其主要的研究内容和所使用的嵌入技巧。最后给出了未来工作中异构网络表示学习可能的研究方向和比较有价值的研究内容。

网络表示学习;异构信息网络;图嵌入;图神经网络;异质信息

1 引言

互联网基础建设的快速发展使各种线下信息数字化,导致可利用信息呈爆炸式增长。这些庞大数据中多样化实体和实体间关联构成了一系列不同的信息网络,如社交网络[1-2]、生物分子网络[3]等,催生了针对网络数据进行数据挖掘的研究。网络表示学习[4](network representation learning/ network embedding,NRL)又称为图嵌入,是为了能有效地进行信息网络数据挖掘任务而产生的研究方法。网络表示学习依据相关优化目标,将具有高维复杂信息的网络中实体节点映射到低维向量空间中,并能保留原始网络中节点信息与网络结构信息,之后将映射后的低维向量应用于各种机器学习任务,比如节点分类[5-6]、可视化[7]、推荐系统[8-9]等。最开始对于网络的研究是从网络的拓扑结构出发的,忽略网络中节点和关系的类型信息,即将网络视为同构网络以矩阵分解[10]的方式利用邻接矩阵实现节点嵌入。

然而,真实网络中包含的节点类型是多样化的,节点之间也存在着不同含义的作用关系,这种复杂的内容单纯依靠传统网络学习方法是无法提取的。另外,这种信息多样化的异构信息网络中还包含描述节点自身特征的属性信息,如文本、图像等,因此需要有效的方式对这些信息进行融合学习。异构网络表示学习通过融合节点属性信息和网络结构信息,探索各种异质信息之间的潜在作用关系,在网络结构的基础上捕捉节点的微观特性,以获取保留信息量更多的节点嵌入,提高任务性能,其整体学习框架如图1所示。

对真实异构网络进行表示学习主要有3个优点:(1)有效缓解现实世界网络数据的高稀疏性、高维性问题,通过学习将异构信息网络中的节点和边都转化为低维稠密向量,降低了存储空间和节点间度量复杂度;(2)有效解决真实网络中异质信息的融合利用,通过异构信息网络表示学习模型能将不同类型节点映射到统一的低维向量空间中,有效融合节点属性信息和节点间的关系信息,提高了嵌入有效性;(3)有效控制计算复杂度,异构信息网络表示学习模型在设计时同时考虑大规模网络问题,保证信息融合的计算复杂度。这些优点更加符合实际应用中的工作需求,使异构网络表示学习成为目前网络表示学习中的研究热点。

2 异构信息网络表示学习发展

在早期同构网络表示学习的研究过程中,基于矩阵分解的算法由于计算复杂度过高不适用于大规模网络表示学习。后来受自然语言处理的启发,DeepWalk[11]开始利用游走和Skip-gram结合的方式从序列中节点共现的角度学习节点嵌入;Node2vec[12]进一步改进游走方式,同时捕捉局部和全局结构信息;LINE[13]则是从节点对间一阶相似性和二阶相似性出发学习节点嵌入;GraphWave[14]通过小波扩散的方式学习节点结构特征,将小波视为图上概率分布。以上这些方式都是从网络结构的相似性出发,不同的是:Node2vec和GraphWave分别通过偏向游走和小波扩散的方式捕捉网络结构,而LINE则是非常直接地保留目标节点对之间的结构相似度。但是,随着同构网络研究的不断发展,研究者们发现单纯拓扑结构已经很难再对网络嵌入性能有更高的提升,而真实网络中随处可见的异质信息(如实体附带的属性、文本信息)以及实体间的语义信息在嵌入过程中并没有得到有效的利用。

图1 异构信息网络表示学习框架

异构信息网络表示学习便是从网络中这些复杂的异质信息出发,将网络的拓扑结构信息与多种异质信息进行有效的融合嵌入,并且能有效解决异构信息网络高稀疏性、高异质性等特点。由于异构信息网络中节点类型和关系类型是最基本的异质信息,受DeepWalk在同构网络中随机游走策略的启发,研究者们利用节点类型和关系类型设计元路径来指导随机游走方式,保留节点间具有人工经验的语义信息,Metapath2vec[15]、HINE[16]等便是利用此种方式实现对节点间特定关系的保留。DDRW[17]等则将截断的随机游走与层级Softmax进行结合,配合分类目标函数捕获节点的相似性。ProxEmbed[18]等利用LSTM具有时间记忆性的特点,意图将随机游走序列模拟为节点间的“时间”演化过程匹配LSTM输入,同时在嵌入过程中考虑节点异质性。HNE[19]、PTE[20]等方法从简化嵌入的角度出发,将原始异构信息网络根据不同内容拆分为多个子图进行独立嵌入。由于神经网络在计算机视觉领域迅速发展,并取得了非常不错的成果,研究者们开始尝试将相关方法应用到网络表示学习过程中,实现端到端学习。比如PinSage[21]借鉴卷积方式探索节点间的消息传递;DKN[22]受迁移学习的启发,利用现有知识图谱模型和CNN实现新闻推荐;HeGAN[23]等利用GAN提高网络嵌入的鲁棒性。

3 相关概念

为了学习异构网络中具有异质性的拓扑结构,设计符合异构网络的随机游走策略是十分必要的,因此许多工作中引入了人工经验,提出了元路径的概念。

4 异构网络表示学习方法

本节从异构信息网络的研究内容出发,根据不同的研究内容和方式将现有异构网络表示学习方法分为4种:基于边采样的方法、基于随机游走的方法、基于子图的方法和基于图神经网络的方法。

4.1 基于边采样的方法

网络中的边代表了两个节点之间存在着某种关系,在网络表示学习的过程中,研究者们常将边作为衡量两个节点是否相似的直接体现。在同构网络中,类似LINE[13]的方法在通过边采样学习节点嵌入时只需要考虑节点间拓扑结构关系即可。但是在异构网络中,需要考虑多样化的边类型信息,比如社交网络中用户之间有朋友和敌对关系。如果只考虑节点间有边而不考虑边的类型,则无法区分社交网络中两个实体间具体关系,可能导致最终给目标推荐的用户是目标极为讨厌的对象,造成推荐失败。因此在从边采样角度出发进行节点嵌入时必须考虑不同语义关系带来的差异性,这样才能准确描述和保留节点间语义特性。

与以上单纯预测节点语义关系的方法不同,Qu等[27]认为不同类型的边在边采样过程中的先后顺序可能会对最终的嵌入效果产生不同的影响。因此模型在采样过程中引入强化学习机制,划分计划模块和学习模块,前者根据LINE的评价结果计算类型采样价值Q,后者利用查表和神经网络确定价值Q,两者结合获取最优边采样类型序列。HEER[28]则认为不同语义关系可能会存在不兼容的问题,导致原本比较相近的节点在投影到低维向量空间后变得较为疏远。因此HEER将节点根据语义关系进行分组,然后进行独立嵌入,利用边向量定义节点对的类型接近度,用来度量边与类型的耦合程度:

基于边采样的方法将关注点放在网络的局部结构特征,每次只涉及部分节点,计算复杂度低。另外,异构网络中的边采样以边的类型为主导,考虑节点间语义关系,更有利于完成类似社区内用户推荐等任务。但是边采样涉及的关系类型较为简单,难以推测复杂语义关系。

4.2 基于随机游走的方法

虽然这种方法在构造邻居节点时考虑了节点类型,但是在利用Softmax计算共现概率时并没有考虑节点类型信息带来的影响。因此在原始模型的基础之上进一步改进异构Skip-gram模型概率计算,设计考虑节点类型的负采样,使Softmax计算时只考虑特定类型节点,降低计算复杂度:

基于随机游走的方法能有效捕获远距离节点的相似度信息,同时也能将节点属性信息和局部结构特征融入嵌入过程中,提高信息保留量。由于随机游走带来的感受野非常大,并且能非常灵活地融入各种辅助信息,因此是当前的研究热点。

4.3 基于子图的方法

图2 SPE子图模式mi

除了以上通过游走路径聚合方式组成新的子图,还有些方法直接根据实体类型将网络拆分成不同的子图。比如,HNE[19]根据图片和文本类型将原始网络拆分成两个只包含图片或文本的子网络,并使用现有方式分别对其进行嵌入,最终实现跨模态的相似度度量。PTE[20]根据文本中仅有的部分标签数据,将原异构文本网络拆分成3个子网络——word-word网络、word-document网络和word-label网络,并对上述网络分别利用LINE进行学习得到不同类型对象的向量表示,之后利用词向量的平均求和获得任意文本的嵌入表示。SHINE[37]根据情感得分和用户信息将原始网络拆分为社交网络、情感网络和简介网络,通过3个网络的独立嵌入分别获得名人和普通人的3种向量表示,随后进行简单聚合获得最终嵌入,最后利用两种向量的情感符号预测进行模型优化。

另外,还有一些任务驱动型拆分方法,根据不同任务将原始异构网络拆分成有利于任务目标的子网络,比如PGCN[38]为实现推荐任务,将网络拆分成3个子网络——user-item、item-item和user-subseq,分别对应用户的商品偏好、商品依赖和用户相似度信息。同时,模型根据节点类型和距离筛选邻居节点并进行加权聚合产生虚拟节点解决节点邻居数目多变问题,然后利用卷积操作对虚拟节点特征进行聚合学习,保留网络局部特征。HGAT[39]与之类似,为实现用户属性标签的推理,同样将原始网络拆分成3个子网络——attribute-item、item-user和user-user,以层级推进的方式依次实现item和user的嵌入,同时给出了3种聚合方法有效性的讨论。

基于子图的方法通常是将原始网络根据研究内容或研究任务拆分成不同的子网络,对每个子网络采用不同的方式进行独立嵌入,降低了多种信息融合嵌入的难度,同时也降低了嵌入计算复杂度。另外,由于拆分后的子网络具有某种特定含义,且包含的节点类型比较一致,因此更有利于针对特定任务进行网络嵌入。

4.4 基于图神经网络的方法

人工智能和机器学习在图像和自然语言处理等方面取得的显著成果,鼓励了更多的研究者将深度神经网络应用于网络表示学习中,期望能通过无监督或半监督的方式自主学习网络中的非线性特征,比如SHINE[37]等利用无监督自编码器实现自适应的关键信息提取等。受益于CNN[40]在计算机视觉上取得的显著效果,GCN[41]和GraphSage[42]将CNN的卷积操作适配于在非矩阵结构的不规则网络中,利用图的Laplacian矩阵作为规则化输入,进行图卷积操作。但是这种同构方法并不适用于类型稀疏的大规模异构信息网络。随着GNN[43](图神经网络)可解释性的提出,如何有效利用图神经网络进行网络嵌入进入了研究高潮期。GNN的核心思想很简单,即通过迭代的方式将目标节点的邻居信息不断聚合到的嵌入中,从而达到节点间信息传递的效果。具体第次迭代运算如下所示:

随着GNN迭代次数的增加,能捕获的局部特征信息就越接近于全局特征信息。HetGNN[44]根据节点类型对邻居节点进行聚合,并利用两个RNN实现网络嵌入:第一个RNN用于编码每个节点的特征交互以获得节点的上下文嵌入;另一个RNN将邻居分组上下文嵌入进行聚合,进一步引入注意力机制度量不同类型节点的影响程度。受到局部信息迭代聚合的启发,PinSage[21]提出局部图卷积模型,将图卷积中的矩阵运算替代为消息传递的聚合运算,根据当前节点子节点访问次数确定邻居节点的重要程度,并不断将邻居特征进行加权聚合到中心节点。IntentGC[45]在此基础之上设计快速图卷积模型,在邻居聚合过程中采用多尺度过滤器,从多个角度对不同类型的邻居节点进行加权聚合,如式(7)所示,以此降低图卷积计算复杂度,使其能有效部署在十亿级别网络中运行。

DKN[22]利用迁移学习的思想,结合现有的知识图谱模型设计了KCNN,将文本和实体利用卷积的方式保持对齐关系,并利用知识图谱模型实现新闻内容的预训练,然后将实体、上下文和词嵌入共同匹配卷积输入,同时引入候选新闻与用户的注意力权重,实现最终用户与新闻的推荐任务。NeRank[46]则利用不同嵌入方式对问答社区内的用户和问题文本进行独立嵌入,然后利用CNN实现排名成绩的计算。

GraphGAN[47]在假设节点之间的链接具有潜在分布的前提下,通过对抗性训练让生成器生成的节点链接分布不断逼近真实潜在分布。它的出现使GAN开始在网络表示方面绽放光芒,以对抗学习的方式探索网络中潜在的隐藏信息。NetRA[48]利用LSTM完成正则化自动编码器功能实现对游走路径信息的自主学习,将输出的路径嵌入作为真实样本,利用GAN进行对抗性训练学习网络异质结构分布,使嵌入具有更强的鲁棒性,提高抗干扰能力。

为了有效利用边类型生成具有特定语义关系的目标节点,HeGAN[23]提出泛化生成器,在Metapath2vec初始化节点向量的基础上,意图从连续分布中直接采样“潜在”节点,同时在生成器和判别器中引入关系类型感知以捕获更加丰富的语义关系,实现对训练集中不可见节点的正确嵌入。

基于图神经网络的方法利用神经网络强大的自主学习能力对异构网络中的异质信息进行自主嵌入,简化嵌入过程,在实现端到端学习的同时降低模型构造难度。目前神经网络对于各种属性信息(如图片、文本等)都具有良好的学习能力,能有效处理异构信息网络中节点和边的额外属性信息,减少信息损失。图神经网络能根据不同的任务灵活搭建,因此更受研究者们的喜爱。

5 模型归纳

本节从主要研究内容、嵌入方法、具体应用等方面对近几年的异构网络表示学习的代表性研究算法进行了相关内容的整理,结果见表1。异构信息网络中节点和边的类型信息是最容易获取的异质信息,因此大多数算法从类型信息出发对节点进行低维嵌入,这与表1中大部分学习模型的主要研究内容保持一致。此类算法大多关注节点语义关系,由此产生的节点嵌入多用于节点分类、链路预测等任务,基于边采样和随机游走的方法便是如此。此外,单纯利用类型信息的方法算法复杂度较低,在大规模网络中也能达到不错的运行效率。基于子图嵌入的方法从简化网络嵌入角度出发,依据类型信息和任务内容拆分重组原始网络形成不同的子网络,利用已有网络表示学习方法独立嵌入,最后将子图嵌入结果进行组合或直接利用。这种类似分治的算法将复杂问题简单化,降低了整个算法的计算复杂度,且在不同子网络中能进行针对性信息融合。此外,拆分后的子图将具有相似内容或相同偏好的节点聚集在一起,更有利于实现社区发现、近似查询等任务。但是根据某种特定信息对原始图进行拆分会造成一些信息的截断,导致信息丢失,在一定程度上降低嵌入有效性。基于图神经网络的方法实现端到端的学习方式,将整个网络作为输入,考虑不同异质信息之间的潜在联系,在整个嵌入过程中利用不同的嵌入模块有效融合更多的异质信息,保证整个模型具有足够的鲁棒性和有效性。此类方法在设计时更加侧重于实际应用,大部分是任务驱动型算法,多用于推荐系统中。虽然这类算法在模型设计时灵活性更高,难度更低,能利用各种类型的内容信息,但是在有效融合不同嵌入模块时控制计算复杂度仍是比较困难的点。

表1 主要模型归纳与概括

6 结束语

异构信息网络中具有很多能描述个体特征的异质性信息,更加逼近于真实世界中实体及实体间的关系,因此异构信息网络表示学习在近几年成为网络表示学习的热点内容。虽然目前的算法都对异构信息网络中异质性信息的保留进行了较为有效的尝试,但是大部分算法只利用了单一的异质信息,比如常用的文本信息,而视频信息、音频信息等还未得到有效利用,而且大部分算法都无法达到工业级应用,距离实际应用还有很长一段距离。因此异构网络表示学习的研究还具有很大的发展空间,在未来工作中可以从以下几个方面着手研究。

(1)异构信息网络中异质信息的融合

异构信息网络中除了类型信息,还有多种模态的属性信息,比如数值、图像、文本、音频等。这些信息都是异构网络中可以利用的有效信息,若能有效保留这些具有明显特异性的个体信息,对于网络嵌入性能而言能有很好的提升。目前大多数异构表示学习算法主要有3种方式保留异质性信息:第一种是制定游走策略利用类型信息,在嵌入过程中融入属性特征;第二种是将异构信息网络拆分成不同含义的子图,利用现有嵌入模型简化嵌入难度,最终对嵌入结果进行聚合;第三种是利用目前发展火热的图神经网络实现端到端的学习方式,以原始网络作为输入,在嵌入过程中利用不同模块学习不同异质信息,但是不同模块的有效融合是最大的难题。这3种方法的使用也不一定完全独立,比如NetRA[48]便是第一种和第三种方式的组合。因此,设计一种对异质信息具有高容纳性的灵活嵌入工具是异构信息网络表示学习未来的研究方向之一。

(2)大规模网络算法有效性

而今各种网络规模在不断扩大,大部分算法模型都是基于小规模网络设计的,无法直接应用于工业级的大规模网络分析任务中,并没有太高的实际应用价值。为了提高大规模网络上的算法有效性,设计符合实际工作的工业级算法,许多大企业和科研团队开始进行合作研究,并取得了一些不错的成果,比如PinSage[21]被设计部署于有30亿节点规模的Pinterest网站,IntentGC[45]被设计部署于有30亿节点规模的淘宝网站。这些工作都是根据实际工作而设计的工业级算法,能在有效时间内完成对大规模网络学习的任务。因此从算法的运行效率出发,设计能实际落地的工业级图嵌入算法也是目前网络表示学习发展的主要趋势。

(3)模型泛化能力

异构信息网络对应现实世界中的真实群体,因此网络的规模和内容并不是恒久不变的,会随着网络新节点的加入以及节点间交互的产生而变化。如网络中会出现新的节点,甚至是孤立点,而这些新节点对于已有模型的执行而言并不友好。因为现有模型在训练过程中使用的训练集基本都是利用网络历史数据构造的,因此模型在训练过程中只能获取已有节点的内在特性,对于训练过程中并未出现的新节点可能无法进行有效的嵌入。比如在商品推荐系统中,新加入的用户并没有购买任何物品,能利用的信息仅有注册时的一些个人信息,此时推荐模型便无法根据用户历史记录对用户进行有效的商品推荐。随着GAN在计算机视觉上的有效发展,网络表示学习的工作者们开始利用GAN提高模型泛化能力[23,48],以解决实际应用中经常出现的“冷启动”问题。此外,良好地运用节点属性信息也可以提升模型泛化能力。

(4)结合具体应用

通过网络表示学习得到的低维向量表示本质是为后续的应用场景服务的,比如推荐系统等。随着图神经网络的发展,研究者们开始根据具体任务设计端到端的学习模型。这种针对具体任务设计具体算法的方式,更加符合现在工业生产中的需要,且能根据具体任务中的一些特殊信息进行模型微调,学得具有针对性的嵌入向量。如何有效根据任务目标设计具有实际应用价值的算法模型,也是未来异构信息网络表示学习有价值的研究方向之一。

[1] TYLENDA T, ANGELOVA R, BEDATHUR S. Towards time-aware link prediction in evolving social networks[C]//Proceedings of the 3rd Workshop on Social Network Mining and Analysis. [S.l.:s.n.], 2009.

[2] 顾秋阳, 琚春华, 吴功兴. 融入用户合作与领导激励的社交网络知识传播模型[J]. 电信科学, 2020, 36(10): 172-182.

GU Q Y, JU C H, WU G X. Knowledge communication model of social network with user cooperation and leadership encouragement[J]. Telecommunications Science, 2020, 36(10): 172-182.

[3] THEOCHARIDIS A, VAN DONGEN S, ENRIGHT A J, et al. Network visualization and analysis of gene expression data using BioLayout Express 3D[J]. Nature Protocols, 2009, 4 (10): 1535.

[4] 尹赢, 吉立新, 黄瑞阳, 等. 网络表示学习的研究与发展[J]. 网络与信息安全学报, 2019, 5(2): 77-87.

YIN Y, JI L X, HUANG R Y, et al. Research and development of network representation learning[J]. Chinese Journal of Network and Information Security, 2019, 5(2): 77-87.

[5] TANG J, AGGARWAL C, LIU H. Node classification in signed social networks[C]//Proceedings of the 2016 SIAM International Conference on Data Mining. [S.l.:s.n.], 2016: 54-62.

[6] THEOCHARIDIS A, VAN DONGEN S, ENRIGHT A J, et al. Network visualization and analysis of gene expression data using BioLayout Express 3D[J]. Nature Protocols, 2009, 4(10): 1535.

[7] 邬少清, 董一鸿, 王雄, 等. 基于高阶相似性的属性网络表示学习[J]. 电信科学, 2020, 36(12): 20-32.

WU S Q, DONG Y H, WANG X, et al. Learning attribute network algorithm based on high-order similarity[J]. Telecommunications Science, 2020, 36(12): 20-32.

[8] ZHOU C, LIU Y, LIU X, et al. Scalable graph embedding for asymmetric proximity[C]//Proceedings of Thirty-First AAAI Conference on Artificial Intelligence. [S.l.:s.n.], 2017.

[9] 周晶, 孙喜民, 于晓昆, 等. 知识图谱与数据应用——智能推荐[J]. 电信科学, 2019, 35(8): 165-172.

ZHOU J, SUN X M, YU X K, et al. Knowledge graph and data application: intelligent recommendation[J]. Telecommunications Science, 2019, 35(8): 165-172.

[10] BALASUBRAMANIAN M, SCHWARTZ E L J S. The isomap algorithm and topological stability[J]. Science, 2002, 295 (5552): 7.

[11] PEROZZI B, AL-RFOU R, SKIENA S. Deepwalk: online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2014: 701-710.

[12] GROVER A, LESKOVEC J. Node2vec: scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2016: 855-864.

[13] TANG J, QU M, WANG M, et al. LINE: large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web. New York: ACM Press, 2015: 1067-1077.

[14] DONNAT C, ZITNIK M, HALLAC D, et al. Learning structural node embeddings via diffusion wavelets[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 1320-1329.

[15] DONG Y, CHAWLA N V, SWAMI A. Metapath2vec: scalable representation learning for heterogeneous networks[C]// Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2017: 135-144.

[16] HUANG Z, MAMOULIS N J A P A. Heterogeneous information network embedding for meta path based proximity[J]. arXiv: 1701. 05291v1, 2017.

[17] LI J, ZHU J, ZHANG B. Discriminative deep random walk for network classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). [S.l.:s.n.], 2016: 1004-1013.

[18] LIU Z, ZHENG V W, ZHAO Z, et al. Semantic proximity search on heterogeneous graph by proximity embedding[C]//Proceedings of Thirty-First AAAI Conference on Artificial Intelligence. [S.l.:s.n.], 2017.

[19] CHANG S, HAN W, TANG J, et al. Heterogeneous network embedding via deep architectures[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2015: 119-128.

[20] TANG J, QU M, MEI Q. PTE: predictive text embedding through large-scale heterogeneous text networks[C]// Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2015: 1165-1174.

[21] YING R, HE R, CHEN K, et al. Graph convolutional neural networks for Web-scale recommender systems[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 974-983.

[22] WANG H, ZHANG F, XIE X, et al. DKN: deep knowledge-aware network for news recommendation[C]// Proceedings of the 2018 World Wide Web Conference. [S.l.:s.n.], 2018: 1835-1844.

[23] HU B, FANG Y, SHI C. Adversarial learning on heterogeneous information networks[C]//Proceedings of KDD 2019. [S.l.:s.n.], 2019.

[24] SHI C, LI Y, ZHANG J, et al. A survey of heterogeneous information network analysis[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 29 (1): 17-37.

[25] FU TY, LEE WC, LEI Z. Hin2vec: Explore meta-paths in heterogeneous information networks for representation learning[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. New York: ACM Press, 2017: 1797-1806.

[26] YANG L, ZHANG Z, CAI X, et al. Citation recommendation as edge prediction in heterogeneous bibliographic network: a network representation approach[J]. IEEE Access, 2019(7): 23232-23239.

[27] QU M, TANG J, HAN J. Curriculum learning for heterogeneous star network embedding via deep reinforcement learning[C]//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 468-476.

[28] SHI Y, ZHU Q, GUO F, et al. Easing embedding learning by comprehensive transcription of heterogeneous information networks[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 2190-2199.

[29] YIN Y, JI L, HUANG R, et al. Heterogeneous network representation learning method based on meta-path[C]//Proceedings of 2019 IEEE 4th International Conference on Cloud Computing and Big Data Analysis (ICCCBDA). Piscataway: IEEE Press, 2019: 664-670.

[30] WANG X, JI H, SHI C, et al. Heterogeneous graph attention network[C]//Proceedings of the World Wide Web Conference. [S.l.:s.n.], 2019: 2022-2032.

[31] VELIČKOVIĆ P, CUCURULL G, CASANOVA A, et al. Graph attention networks[J]. arXiv preprint arXiv: 1710. 10903, 2017.

[32] ZHUO W, ZHAN Q, LIU Y, et al. Context attention heterogeneous network embedding[J]. Computational Intelligence and Neuroscience, 2019.

[33] LU M, WEI X, YE D, et al. A unified link prediction framework for predicting arbitrary relations in heterogeneous academic networks[J]. IEEE Access, 2019(7): 124967-124987.

[34] LIU Z, ZHENG V W, ZHAO Z, et al. Distance-aware dag embedding for proximity search on heterogeneous graphs[C]//Proceedings of Thirty-Second AAAI Conference on Artificial Intelligence. [S.l.:s.n.], 2018.

[35] LIU Z, ZHENG V W, ZHAO Z, et al. Interactive paths embedding for semantic proximity search on heterogeneous graphs[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 1860-1869.

[36] LIU Z, ZHENG V W, ZHAO Z, et al. Subgraph-augmented path embedding for semantic user search on heterogeneous social network[C]//Proceedings of the 2018 World Wide Web Conference. [S.l.:s.n.], 2018: 1613-1622.

[37] WANG H, ZHANG F, HOU M, et al. SHINE: signed heterogeneous information network embedding for sentiment link prediction[C]//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 592-600.

[38] XU Y, ZHU Y, SHEN Y, et al. Learning shared vertex representation in heterogeneous graphs with convolutional networks for recommendation[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. [S.l.:s.n.], 2019: 4620-4626.

[39] CHEN W, GU Y, REN Z, et al. Semi-supervised user profiling with heterogeneous graph attention networks[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. [S.l.:s.n.], 2019: 2116-2122.

[40] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Proceedings of Advances in Neural Information Processing Systems. [S.l.:s.n.], 2012: 1097-1105.

[41] KIPF T N, WELLING M J A P A. Semi-supervised classification with graph convolutional networks[C]//Proceedings of the 5th International Conference on Learning Representations(ICLR). [S.l.:s.n.], 2017.

[42] HAMILTON W, YING Z, LESKOVEC J. Inductive representation learning on large graphs[C]//Proceedings of Advances in Neural Information Processing Systems. [S.l.:s.n.], 2017: 1024-1034.

[43] XU K, HU W, LESKOVEC J, et al. How powerful are graph neural networks?[J]. arXiv: 1810.00826v3, 2018.

[44] ZHANG C, SONG D, HUANG C, et al. Heterogeneous graph neural network[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2019: 793-803.

[45] ZHAO J, ZHOU Z, GUAN Z, et al. IntentGC: a scalable graph convolution framework fusing heterogeneous information for recommendation[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2019: 2347-2357.

[46] LI Z, JIANG JY, SUN Y, et al. Personalized question routing via heterogeneous network embedding[C]//Proceedings of Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.:s.n.], 2019: 192-199.

[47] WANG H, WANG J, WANG J, et al. Graphgan: graph representation learning with generative adversarial nets[C]//Proceedings of Thirty-Second AAAI Conference on Artificial Intelligence. [S.l.:s.n.], 2018.

[48] YU W, ZHENG C, CHENG W, et al. Learning deep network representations with adversarially regularized autoencoders[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 2663-2671.

A survey of heterogeneous network representation learning for complex networks

YAN Mingjiang, DONG Yihong, SU Jiangjun, CHEN Huahui, QIAN Jiangbo

Faculty of Electrical Engineering and Computer Science, Ningbo University, Ningbo 315211, China

Heterogeneous information networks contain rich information about node and link, and have some characteristics, such as complex heterogeneity, high sparsity, high-dimensionality of attributes, etc, which brings huge challenges to network representation learning tasks. The heterogeneous network representation learning learns low-dimensional feature vectors that are more conducive to downstream machine learning tasks by effectively integrating diverse heterogeneous information and structural information in the embedding process. It conducts a relatively comprehensive analysis and discussion of the research status in recent years, starting from the research granularity of the heterogeneous network representation learning method. Firstly, the motivation of network representation learning and the research history of heterogeneous information network representation learning in recent years was discussed. Then some representative algorithm models were classified, followed by the summary of their main research contents and embedding skills. Finally, some possible directions and valuable contents of heterogeneous information network representation learning research in future work were listed.

network representation learning, heterogeneous information network, graph embedding, graph neural network, heterogeneous information

TP391

A

10.11959/j.issn.1000−0801.2021013

2020−04−26;

2020−12−10

董一鸿,dongyihong@nbu.edu.cn

浙江省自然科学基金资助项目(No.LY20F020009,No.LZ20F020001);国家自然科学基金资助项目(No.61572266);宁波市自然科学基金资助项目(No.202003N4086)

The Natural Science Foundation of Zhejiang Province (No.LY20F020009, No.LZ20F020001), The National Natural Science Foundation of China (No.61572266), Ningbo Natural Science Foundation (No.202003N4086)

颜铭江(1996− ),男,宁波大学硕士生,主要研究方向为大数据、数据挖掘。

董一鸿(1969− ),男,博士,宁波大学教授、硕士生导师,主要研究方向为大数据、数据挖掘、人工智能。

苏江军(1994− ),男,宁波大学硕士生,主要研究方向为大数据、数据挖掘。

陈华辉(1964− ),男,博士,宁波大学教授,主要研究方向为数据处理与挖掘、云计算。

钱江波(1974− ),男,博士,宁波大学教授,主要研究方向为数据处理与挖掘、逻辑电路设计、多维索引与查询优化。

猜你喜欢
异质异构信息网络
试论同课异构之“同”与“异”
帮助信息网络犯罪活动罪的教义学展开
非法利用信息网络罪的适用边界
异构醇醚在超浓缩洗衣液中的应用探索
overlay SDN实现异构兼容的关键技术
网络共享背景下信息网络传播权的保护
帮助信息网络犯罪活动罪若干问题探究
LTE异构网技术与组网研究
随机与异质网络共存的SIS传染病模型的定性分析
Ag2CO3/Ag2O异质p-n结光催化剂的制备及其可见光光催化性能