赵素芬
(1.华中师范大学计算机学院,湖北 武汉 430079;2.武汉大学计算机学院)
近年来,随着word2vec 模型在自然语言处理领域的广泛应用,大量研究尝试采用机器学习的方式从异质信息网络[1]中自动学习节点和边的低维特征表示,使学习到的向量能够捕获网络的结构信息、语义信息和属性信息,这就是异质网络特征表示学习(HNRL)技术。与传统特征工程的方式抽取网络特征相比,HNRL 具有自动、高效、压缩的优点。同时,多数HNRL 模型能以完全无监督的方式从数据中学习特征,有效地减轻了机器学习模型对数据标记的依赖。因此,针对异质网络特征表示学习的研究具有重要的意义。
目前,已经有大量的HNRL 模型涌现出来。这些模型致力于解决HNRL中的数据异质性、网络大规模性、数据的不完整性、多目标性以及网络动态性等挑战性问题。但是,针对该研究领域的现有综述却非常少。Carl Yang 等人[2],Yu Xie 等人[3],以及Yuxiao Dong等人[4]针对HNRL 领域的研究进行了综述。但是,这些综述的分类模式不够清晰,总结的模型不够全面,同时,缺乏深入的比较与分析。为了对当前的异质网络特征表示学习的最新研究进展进行系统性的、全面的综述,本文基于“编码器-解码器”的视角将现有HNRL模型分为六类:基于矩阵分解的模型、基于随机游走的模型、基于自编码器的模型、基于图神经网络的模型、基于知识图谱嵌入的模型,以及混合模型。针对每一类模型,概览其整体特征和建模思路,并且列举了一些典型模型,总结每类模型的优势和缺陷。最后,总结了全文并展望了将来的研究方向。
定义1异质网络特征表示学习 (Heterogeneous Network Representation Learning,HNRL):给定一个异质信息网络G=(V,E,X,τ,φ,T,R),其中,V是异质网络G中的节点集合,E是G的边集合,T={V1,V2,…,V|T|}是节点类型集合,R=r1,r2,…,r|R|}是关系类型集合,且|T|+|R|>2,τ(v):v→T和φ(e):E→R分别是节点类型和关系类型映射函数,异质网络特征表示学习是为异质网络G中的每个节点v∈V学习一个潜在的特征表示zv∈Rd,d≪|V|,使其能够捕获异质网络G中的结构信息、语义信息和属性信息。
基于“编码器-解码器”的视角,我们可以将现有的HNRL 模型分为六类:基于矩阵分解的模型(Matrix Factorization-based models,MF),基于随机游走的模型(Random Walk-based models,RW),基于自编码器的模型(Auto-Encoder based models,AE),基于图神经网络的模型(Graph Neural Network-based models,GNN),知识图谱嵌入模型(Knowledge Graph Embedding models,KGE)以及混合模型(HyBridmodels,HB)。
基于矩阵分解的模型通常采用直接编码函数,即其编码函数是一个节点嵌入矩阵Z∈Rd×|V|与指示每个节点编码的独热向量vi的乘积,即:ENC(vi)=Z·vi。模型的解码函数则通常定义为两个节点嵌入的内积,即:DEC(zi,zj)=zi·zj。如果模型的损失函数定义为L=,那么,模型的优化目标就近似等价于分解经验相似度矩阵。针对异质信息网络来说,矩阵分解通常需要在包含多个不同语义关系的子网中进行。PTE[5]模型就是一个典型的MF 类模型。该模型首先将语料库中的文本共现信息和部分单词标记信息表示成包含三个子网络的异质网络;然后,模型针对每个子网使用LINE 模型来建模;最后,再将三个子网络联合起来统一训练求解节点的特征表示。不过,PTE模型在联合多个子网训练时,给不同子网赋予了相同的权重,这可能导致偏斜性问题(偏斜性问题指由于异质网络中子网的边密度差异较大,导致模型在训练时出现不均衡的问题:模型在一些密集的网络中已经训练好了,但在另一些稀疏的子网中却远未收敛。)。MengQu 等人提出了一个MVE[6]模型,该模型通过引入注意力机制,较好地解决了子网权重的自动求解问题。在这些模型中,HNRL 模型分解的邻近度矩阵都是网络的低阶邻接矩阵,其生成的特征表示仅能捕获网络中的低阶结构特征,然而网络中的高阶结构特征也非常重要。CMF[7]、ICBK 和MNMF[8]等模型改变了传统的经验邻近度矩阵的定义,使其生成的特征表示能够捕获高阶结构特征。
总体上,基于矩阵分解的HNRL 模型的编码和解码函数相对比较简单。但是,这类模型一般不对网络中的附属属性信息进行编码。同时,一些考虑高阶结构邻近度的MF 模型要分解的矩阵通常是一个稠密矩阵,这对于大规模网络来说,存储和处理数据需要消耗大量的系统资源,在普通计算平台上难以实施。
随机游走类模型也是一种常见的HNRL 模型。这类模型的特点是,网络节点的邻居是在一个短的随机游走序列中共现的节点。模型的编码器一般也是直接嵌入;解码器则是一个softmax 函数,即:DEC(zi,zj)=。模型的求解目标则是使解码的二元节点邻近度近似于经验邻近度=pG(vj|vi)。其中,pG(vj|vi)表示从一个节点vi出发,在长度为w的滑动窗口内,随机游走到另一个节点vj的概率。多数RW 类模型都可视为DeepWalk 模型[9]在异质网络中的扩展。例如,HINE模型[10]首先将异质文献网络分解为多个子网络,然后在每个子网络中分别采样随机游走序列,并分别使用skip-gram 模型进行建模,最后模型将损失函数求和统一进行优化。MNE模型[11]则首先将关系语义r特定的节点嵌入分解为一个共享的公共嵌入ci和一个针对特定关系r的嵌入,然后再使用skip-gram 算法求解出面向特定语义的节点嵌入。由于在异质网络中进行随机游走序列采样很容易导致偏斜性问题,JUST 模型[12]使用了一种“跳转-停留”机制的随机游走序列采样方法,使采样序列中的节点类别更加均衡。近年来,元路径的概念得到了大量的关注,许多研究在模型中引入了元路径的思想。基于元路径的随机游走模型在采样随机游走序列时,需要按照事先定义好的元路径进行,以便能够捕获网络中特定的语义信息。Hin2Vec[13]和metapath2vec[14]就是典型的基于元路径的RW 类模型。metapath2vec 模型定义了一种基于元路径的随机游走采样方法,然后使用异质的skipgram 算法求解优化的节点嵌入。该模型能够有效的捕获网络的结构和语义信息,但是由于模型中仅使用了单条元路径,因此,限制了模型的语义建模能力。一些研究在metapath2vec 模型的基础上进行改进。MetaGraph2ve模型[15]在元路径的基础上定义了元图的概念,能够捕获更多的网络语义信息。HERec 模型[16]和HueRec模型[17]则是针对推荐系统设计的基于多条元路径的RW类模型。
本质上,RW 类HNRL 模型其优化目标也是在做矩阵分解[18],不过,与MF类模型相比,RW 类模型通过边采样的方式避免了直接分解大的稠密矩阵的问题,同时,该类模型通过限制采样路径,能够方便地对网络中的特定语义关系建模。在基于元路径的RW 模型中,通常需要人工定义元路径,这高度依赖于工程师的先验知识:如果元路径定义的不合适,则会丢失重要的网络信息和引入不必要的噪声。
与前几类模型不同,AE类HRNL模型的输入不再是一个表示节点编码的独热向量,而是基于网络结构定义的节点邻接向量,该向量中包含了异质网络中节点的结构信息。模型则使用一个自编码器结构将该邻接向量压缩成低维向量,并作为节点的特征表示。模型的求解目标则是尝试重构原始的节点邻居向量,即,使DEC(zi)≈。这类模型的一般思路也是首先对异质网络中单个子网的节点邻接向量信息进行压缩,然后再将多个子网的节点特征聚合起来。SHINE 模型[19]针对在线异质社交网络中的情感链接分类问题,首先使用三个自编码器框架对不同子网中的用户节点邻接向量进行压缩;然后再将三个子网生成的节点特征表示聚合起来得到最后的特征表示。该模型仅能够捕获网络的二阶结构特征。DHNE 模型[20]则除了能够捕获二阶结构特征外,还能够捕获节点之间的一阶结构特征。此外,AMVAE 模型[21]是一个考虑了多模态属性信息的AE 类模型。该模型首先将每张图像对应的文本表示序列输入到一个LSTM模型中,得到每个图像节点的内容嵌入;然后,模型再将内容嵌入与图像节点的结构嵌入拼接起来,输入到一个两级混合变分自编码器框架中学习图像的最终特征表示。
AE 类模型的整体优势在于能够方便地使用多种现有的自编码器框架(例如MLP,VAE,SAE 等等)对节点向量进行压缩。但是,针对大规模超大规模的网络,AE 类模型的输入维度很大,模型中的训练参数非常多,训练的复杂度过高。同时,这类模型通常是直推式的,难以处理动态变化的网络。
受卷积神经网络的启发,近年来,研究者提出了一种运行在图域上的图神经网络(Graph Nueral Networks,GNN)。GNN 能够从图结构信息中通过信息传递捕获图中包含的依赖关系。不同于前几类模型,基于GNN 的嵌入模型的输入,通常是节点的属性向量,其编码函数是一个多层图神经网络,它不断地聚合每个中心节点周围的邻居节点的特征,作为当前中心节点的特征表示的更新。DMGI 模型[22]就是一个典型的GNN 类型的HNRL 模型。该模型首先在每个子网络G(k)内部使用GNN框架聚合子网中的节点邻居的特征信息;然后,模型定义了一个基于DGI 的损失函数来求解单个子网内部的节点嵌入,最后再将不同子网中的嵌入聚合起来。Xia Chen 等人提出的ActiveHNE 模型为了减少机器学习任务中人工标记的工作量,在图卷积模型中引入了主动学习技术。此外,HAN[23],MAGNN,RoHe[24],MEIRec[25]模型与上述模型不同,它们使用基于元路径的邻居节点的概念,拓展了GNN网络中邻居节点的定义,使模型能够捕获多种类型的语义信息和高阶结构信息的特征。为了区分网络节点的不同邻居节点的权重,出现了大量的基于图注意力的GNN 模型[26-28]。HGAT模型[26]首先将电子商务网络表示为一个包含了用户、项目、属性三种对象的异质网络;然后使用三层图注意力传播模块逐层聚合网络中用户节点的邻居特征信息。HetGNN 模型[27]在聚合邻居节点特征时,首先基于重启随机游走略挑选出每个节点的不同类型的top-k个最重要的邻居节点,然后使用一个两级Bi-LSTM 框架聚合了节点的多种类型的邻居节点的特征。此外,HGT 模型[28]使用多头注意力机制聚集每个目标节点t的不同类型的上下文节点的信息。除了上述模型以外,还有大量其他的GNN 模型涌现出来,如R-GCNs、DisenHAN、HWNN、FAME和Graph-Inception等等。
GNN 类模型能够方便、有效地捕获异质网络的局部结构信息和节点属性信息;同时,基于空间的GNN模型属于归纳式模型,能处理动态网络。不过,为了控制模型复杂度,许多GNN模型使用了邻居采样的技术。这时,如果邻居采样算法不合适,容易丢失重要的网络信息。另外,过于浅层的模型无法捕获网络的高阶特征,过多的层数,会使模型的训练复杂度过高以及性能下降,如何设置合适的网络层数也很棘手。
知识图谱嵌入(Knowledge Graph Embedding,KGE)是学习一个函数,将知识图谱K={ KGE 类模型最显著的优势是由于能为不同语义关系生成显式的嵌入,能更加充分地捕获异质网络中丰富的语义信息。但是,基本的KGE 模型在生成实体和关系嵌入时通常只考虑实体之间的低阶结构特征,并且一般不考虑属性信息,因而丢失了网络中包含的重要信息。 为了克服单一类型模型的缺陷,一些研究考虑将多种技术融合起来成为混合模型。目前,已经涌现了多种不同类型的混合模型。例如“RW+GNN”类混合模型[29],其主要思路是使用GNN 编码器来取代传统RW 类模型中的直接嵌入,从而使RW 模型也能很好的捕获网络中的属性信息。此外,还有一种典型的混合方式是“KGE+GNN”[30],其主要思路是在GNN 类模型中使用KGE 类型的解码器,用以提升GNN 类模型的语义建模能力。此外,还有一些其他的混合类型,例如“GNN+AE”、“RW+AE”、“KGE+RW”等。 总体上,混合模型一般具有更强的建模能力,但是模型的复杂度也会相对更高。 本文针对异质网络特征表示学习的最新研究进展进行了系统性的综述。基于“编码器-解码器”的视角,我们将现有的HNRL模型分为六类,并对每一类模型进行了系统的概览和综述。我们总结了每类模型的基本特征、建模思路,以及优势和缺陷,以期识别更有潜力的异质嵌入模型框架。 我们认为,将来的研究需要能够更好的处理异质网络的异质性、动态性、偏斜性、稀疏性,使模型具备更好的可解释性、可扩展性、鲁棒性;同时,通过加强对模型的深入的理论分析,助力模型的理解、应用和拓展。2.6 混合模型
3 总结和展望