卞怡倩 ,赵 涛,李 欣
安徽财经大学管理科学与工程学院,安徽蚌埠,233030
作为能够满足用户日常活动需求的平台,社交网络(Social Network Service即SNS)已成为许多人进行各种活动时不可或缺的一部分。不同SNS提供了不同的功能,例如,微信、Facebook等网站主要为用户提供了日常交流的功能,而微博、Twitter等则是一种可以通过关注机制为用户提供及时消息以及分享日常的平台。同一个用户往往会进行一个以上的SNS账号注册,以满足使用者所有层面的需求。为了识别出同一用户在不同SNS中的虚拟身份,进行更加精准的用户画像描述,提供个性化的服务以及维持网络秩序,跨社交网络的用户身份识别技术已成为当前的热点问题。
社交网络中的用户名[1-3]、用户昵称[4-6]以及用户生成内容(UGC)信息[7-10]都可以辨别出不同SNS中的同一使用者。但随着用户隐私保护意识的增强,不同社交网络的可访问信息变得越来越分散且不一致,导致这些方法会出现识别精确度低、信息不易获取的问题。在SNS中,用户的关系不易伪造,通常没有两个用户能够共享完全相同的朋友关系;一些社交网站为了给用户提供更好的服务,会公开获取用户关系的接口,使得用户关系的获取变得更加容易。因此,基于用户关系信息的身份识别比其他方法更可靠、更精确。
在现有的研究中,基于用户关系的身份识别主要分为三类:是否基于先验节点、基于多种维度信息以及其他识别方法。
现有的多数基于用户关系的识别方法均是有监督或半监督的,这需要事先获得一些匹配相同的用户或种子用户,即先验知识。Zhou等[11]对不同社交网络中的所有候选用户的匹配度进行计算,筛选出匹配度高的用户,视为相同用户来衡量,并通过共同拥有的相同用户的数量以及相同用户的相似度进行匹配来提高该算法的效率。这种FRUI算法能够基于用户的朋友关系对用户身份进行识别,只有匹配度高的用户才会被视为同一用户,该模型也能很好地适应跨平台任务。作者在进一步的研究中发现,当种子节点不合适时,这种算法将会停止运行,因此针对这一现象,Li等[12]通过引入一个新的计算方法p-FRUI对有争议的节点进行一种复杂计算,提高了这一算法的识别精度。
刘奇飞等[13]对传统的LINE算法加以改良,将算法与先验关联关系结合,提出CSN_LINE算法改进一、二阶亲密度函数,利用多层感知机构建了基于用户关系的用户识别算法模型。文中将已获取的用户关系数据在DeepWalk、node2vec以及LINE算法中通过召回率(recall)、精确率(precision)以及正确率(accuracy)进行效果对比验证了LINE算法的可行性,并选取不同的调节参数值对CSN_LINE模型验证,发现当参数值为5、7、9时,身份关联效果最佳,其F1值分别达到了0.856 3、0.855 2、0.858 3,进一步验证了经过改良的LINE算法的可行性。
当先验节点无从获取时,通过人工标识来获取数据将变成一项困难的工作。Zhou等[14]提出了模型FRUI-P来识别多个SNS使用者的关系。这种算法首先将选取的社交网络中用户的好友特征通过深度学习中的随机游走算法抽象为特征向量,得到两个社交网络相同用户的好友相似性,最后利用计算相似性来识别用户,并从理论上验证了模型的可行性。引入了三个参数来改善模型的性能以及λ保证模型的高精度,并发现随着λ值的正向变化,模型的精度也随之上升。该算法识别结果的精度较高,最终还被证实能够为其他算法如先前的FRUI等提供先验知识。
Li[15]认为,K-hop邻居的信息冗余对用户识别具有一定的积极作用,于是利用K-hop邻居节点的相似程度(用户朋友关系、用户朋友群、聚类系数)来描述友谊网络中的信息冗余,并在十个常用分类器中处理这些信息冗余时发现,GB在处理三个SNS中获取的真实数据集时的分类性能较高,通过实验计算出了GB的最优参数,使特征重要性趋于平衡,以提高分类性能,最后在数据集中验证了本文提出的UI-FR算法的有效性。实验结果发现,与K-hop邻居相关的相似性对用户识别的贡献远远大于其他参数的相似性,并且K-hop邻居的信息冗余在用户识别中具有很好的性能。
由表1可知,基于有先验节点的识别方法精确率普遍低于无先验节点的识别结果。其中,造成FRUI识别精度最低的原因是每个数据中共同关系的JACCARD相似系数的比例非常低,且该算法在很大程度上依赖于共同关系的比例,因此识别精度较低。而UI-FR则使用了很多特征来匹配用户,因而大大提升了最终的识别精度。
表1 各算法识别结果对比
基于有先验节点的识别方法算法的实现相对简单,但需要一些特定用户的信息,在一些难以获得先验知识的情况下,手动标记先验知识将会十分困难,因而该方法有一定的局限性。基于无先验节点的方法克服了有先验节点方法的弊端,解决了手动标记的问题,且还可用于生成监督、半监督方法的先验知识,但该方法的实现也较为复杂、困难。
在研究中发现,基于单个用户关系的识别有时会受到数据集大小等因素的限制,因此一些学者开始基于多维度信息识别用户以提高识别效果。
Vosecky等[16]在早期对用户身份进行识别时,采用了一种基于轮廓属性和友谊网络的方法,为基于用户关系冗余信息的身份识别开创了先例。文献通过已有的两个社交网站数据集,研究轮廓属性的相似性,开发了一个轮廓属性比较工具,将配置文件的表示作为向量,求得两个轮廓向量的类似程度。当两个配置文件的相似度达到一定的阈值时,该内容即属于同一个使用者。最后结果展示了该模型在不同的网站上匹配相同用户的有效性与高效性。
虽然UI-FR在实验中取得了较其他算法更高的精度,但友谊网络的获取仍会受到用户设置的影响。为了解决这个问题,扩大数据集,Li[15]将用户好友关系与显示名称相结合,利用显示名称冗余信息提高原算法的识别精度。在可获得的数据集中,基于用户显示名称的数据集远大于基于用户关系的数据集,但由于显示名称具有可伪造性,因此基于单个用户名称的识别不能展现出很好的匹配效果。如果结合用户关系的独特性对UI-FR模型进行改进(UI-FRName),显然其识别效果高于普通的基于用户显示名称模型。结果表明,基于用户关系和显示名称的识别可以极大地提高原模型的性能以及通用性。
Nie等[17]认为用户在进行社交网络的活动时会展现出几个特点:用户的核心利益在短期内较为稳定;核心利益改变时,用户在社交网络中的虚拟身份的核心利益也会随之变化;SNS用户更倾向于与有相同喜好的用户来往;积极度较高的SNS使用者会在SNS中表现与现实生活中相同的核心偏好。基于这四个特征,Nie提出了一种基于用户关系和原创内容的动态核心利益算法(DCIM)。他将用户在社交网站中的行为偏向分为核心利益和边际利益,对核心利益进行建模,利用DCIM计算目标用户的相似性,并将模型应用于验证核心利益的合理性以及检测算法在真实数据集中的真实性。在对识别结果的召回率、准确率的分析中,验证了该模型在配对跨SNS用户匹配中的可行性。
由于基于单个用户名、用户生成内容以及用户关系的方法都有着可识别性弱、稀疏性高等特征,降低了用户识别的精度,因此Zhang等[18]同时基于用户名、用户生成内容、用户关系作为重叠关系展开身份识别研究,将微博和豆瓣分别作为源社交网络和目标社交网络,评估两个网站间的重叠关系和好友关系特征的相关性。文章通过众包、注释和提取用户描述获取种子目标并加以训练,利用重叠关系选取候选用户集,并根据用户名、用户生成内容以及用户关系进行身份匹配。在通过召回率、准确率、精确率和F1进行评估时展现出了较好的识别性能。
由此可见,将用户关系结合多种维度进行身份识别时,在一定程度上能够改进识别方法的结果。但基于多维度因素的数据的收集、建模对技术的要求高,且计算更为复杂。因此,基于多维度的身份识别还处于起步阶段,现有的研究成果较少,将来仍是一个值得深入研究的课题。
Korula[19]将基于用户关系的身份识别问题公式化,设计了一种局部分散式演算法。他们将有关图形的结构信息初始链路集扩展为两个网络中很大一部分节点的映射,递归地测量了两个不同的社交网络用户的相似程度,以描述两个友谊网络的相似性,并在真实的数据集上验证了该算法的可行性。
由Fu等[20]提出了一种建立于图结构和描述信息的节点相似度上的测量方法以及基于该方法的一种去匿名化算法。该算法经由迭代的过程评估多个SNS中多个节点的相似性。将该算法与几种典型的算法在真实数据集上进行评估,验证了NM算法在去匿名化任务中的有效性,在一定程度上解决了无先验节点时评估用户相似性的难题,为其后的研究提供了参考。
Tan等[21]采用了超图方法,建立高阶用户关系模型。超图由点和边构成,每个顶点对应一个用户,每条边对应一个用户关系。不同于以往的学习方法,这一算法将用户关系表示为矩阵形式,并通过降低秩以缩减计算难度。最后用向量计算关联度,并进行用户匹配。
由于相匹配的节点在不同网络中具有一致性,因此可以通过节点的相似性进行用户匹配,且节点之间的关系可以通过亲密度量化,因此徐乾[22]提出了一种用户的好友关系的带权超图的识别算法(WHUI),结合网络用户身份的已知节点信息来表示该节点所处的关系结构,最终利用交叉匹配算法可以求出匹配的节点,实现用户的识别。文中使用DBLP数据库数据创建了一个虚拟的社交网络并使用一个真实数据集进行模型测试,发现算法在各项指标上均优于传统算法。
随着图神经网络研究的进一步发展,为用户身份识别在展现出巨大的潜力的同时也面临着对具有社区属性的全局结构进行编码等的挑战。基于这些挑战,Zhang等[23]提出了一种基于图神经网络的识别算法(GraphUIL),有效地学习了社交网络的用户表示,并且解决了用户关系的链接问题,即用户身份链接预测,极大地提高了预测的性能。这种特征学习的过程一般称为节点嵌入,其目的是为了将网络结构映射到一个低维空间,并在此基础上保留原始特征,以降低计算的难度并改善识别的精度。在结果的对比测试中,GraphUIL测定结果的精确率达到了0.754,远远优于其他现有算法的性能。
综上,基于用户关系的其他识别方法的创新点见表2。
表2 基于用户关系的其他识别方法
在基于用户关系进行身份识别时,通常会将两个网络分别嵌入低维向量空间来表示用户关系,以减少计算量。但在使用这种方法时往往会造成信息的丢失并且有丢失隐私数据的可能性,同时在进行识别时会忽略用户关系的相似性等问题。
与其他的识别方法相比,用户关系信息具有一定的真实性,一定程度上克服了其他属性信息存在的虚构、不全面等问题,吸引了大量学者的研究。但由于网络结构同时所具有的稀疏性以及不同SNS的异构性,基于用户关系的身份识别难度大幅提高,在今后的研究中还需更先进的技术支持,进一步提高识别精度。
本文总结了现有的基于用户关系的跨社交网络身份识别方法,分别从基于有、无先验节点、基于多维度以及其他识别方法三类进行述评。基于采用用户关系进行身份识别时所遇到的问题,提出以下研究展望,在收集数据时,由于各SNS之间信息存在的碎片化、不一致等特性,以及用户关系的异构化,导致可以收集到的数据较少,使得识别结果精度不够高。如何解决这一问题,提高用户关系数据量,是提高基于用户关系识别精度的一个重要指标,在今后,基于大量数据的研究十分关键。不难发现,在基于单个用户关系数据进行用户识别时,其精度往往低于基于多维度的识别结果,但其建模的难度导致现有的研究成果还不多。因此,提高技术水平,开发基于多维度用户关系识别方法的模型是该领域未来的研究主流。值得关注的是,随着用户对个人隐私保护意识增强,如何获得高质量的数据以及在无先验节点的情况下获得较好的识别效果仍然是一个值得关注的重点问题。