面向D2D移动社交网络的用户相似度分析方法

2019-08-08 06:23史爱静王盼盼
电脑知识与技术 2019年18期

史爱静 王盼盼

摘要:为了缓解海量社交信息传播给底层通信网络带来的负担,越来越多的社交网络开始利用Device-to-Device(D2D)技术传播信息,基于D2D的社交网络应运而生。作为社交网络分析领域的重要研究方向,用户行为分析在舆情分析、网络安全、社区发现、民意调查、市场预测方面发挥重要作用。为此,该文将针对D2D移动社交网络的用户行为分析开展工作,重点研究此类社交网络中的用户相似度建模方法。针对现有的用户相似度分析方法未考虑用户主观因素的问题,参考传统的用户相似度分析方法,提出了适用于D2D移动社交网络的、基于内容偏好的用户相似度模型。该模型将用户活跃度、用户空间特征和用户偏好等作为度量因素,建立用户相似度模型,并在真实环境中对模型进行验证。

关键词:用户相似度;用户行为分析;D2D技术;移动社交网络

中图分类号:TP319        文献标识码:A

文章编号:1009-3044(2019)18-0277-03

随着智能移动设备的普及,移动社交网络飞速发展。相比传统社交网络,移动社交网络满足了用户随时随地都会产生的社交需求,吸引了越来越多的用户参与其中。然而,移动社交网络中产生的大量社交信息却给底层通信网络带来了沉重的负担。已有的研究结果表明[1-2],通过Device-to-Device(D2D)技术分流通信网络的负载可以缓解底层通信网络的负担,而D2D环境中的用户行为是利用D2D技术分流时重要的参考因素。

用户行为分析是社交网络分析的重要内容,它包括用户影响力分析、用户相似度分析等。用户相似度被广泛用来衡量不同用户在兴趣爱好、选择倾向等方面的相似程度。通过用户相似度分析,可以挖掘出群体用户的特征,进而为不同特征的群体用户提供个性化服务,如精准营销[3-5]、好友推荐[6-8]等。

基于以上分析,本文以真实的、面向信息共享的D2D移动社交网络为研究对象,重点研究该网络中的用户相似度问题。该网络不同于微博等社交网络,它没有粉丝、关注、提及等可以量化分析的因素,需要从用户的社交行为入手,分析用户的行为特点,以此为基础建立用户相似度评价模型。

1背景

1.1国内外研究现状分析

用户相似度用来衡量不同用户在兴趣爱好、选择倾向等方面的相似程度。目前,用户相似度的研究主要以微博为研究对象,重点从用户背景信息、微博内容、用户交互行为和用户社交关系等方面进行分析[9][10]。徐志明[11]通过分析用户背景信息、博文内容以及用户的社交行为等因素,发现以社交信息为基础的用户相似度能够较好地反映用户之间关系的紧密程度。Yu等[12]主要关注用户兴趣相似度与用户社交关系之间的联系,其研究结果表明用户之间的兴趣相似度和用户之间的现实社交关系之间存在着较强的正相关。Krishnamurthy等[13]将关注和被关注两个因素作为用户分类标准,进而计算用户相似度。仲兆满等[14]在分析用户相似度时,同时考虑用户之间的关注关系和用户之间的粉丝关系。逯鹏等[15]利用用户之间的共同好友数计算用户相似度。

與上述研究所涉及的社交网络不同,本文研究的D2D移动社交网络用户主要的社交活动是进行信息共享。在该社交网络中,不存在关注、被关注、粉丝等概念,难以应用已有方法。基于此,本文将针对该社交网络开展用户相似度研究。

1.2 Xender数据集概要

Xender是一款利用D2D技术为用户提供信息共享服务的智能移动设备应用程序。它拥有超过8000万的活跃用户,覆盖了所有时区。在文件传输过程中,不会产生移动网络通信费用。本文收集了长达一个月的信息传播日志数据,总量超过500GB,共8亿多条记录。这些记录包含了20多个属性[1],本文仅分析与文件名、文件类型、发送者、接收者、接收时间和地理分布对应的属性。本文分析均在Hadoop集群上运行。该集群包括20个节点,640GB内存空间和60TB磁盘空间。本文所有分析工作都在MapReduce模型编程实现。

2用户相似度相关因素分析

在本文所研究的移动社交网络中,用户在D2D技术的支持下进行多种类型的文件共享活动。每个文件共享活动涉及文件类型、参与用户(时间因素、空间因素等)等等,本节将从以下三方面出发,分析各因素与用户相似度的关系。

(1)用户因素

本节首先分析了用户在分享文件时对文件的偏好。在分析过程中,首先利用程序分析了分享活动中涉及的文件类型和用户对文件类型的偏好,约50%的用户倾向共享一种类型文件,25%左右的用户倾向共享两种类型文件,不到10%的用户倾向于4种及以上类型文件的共享。

用户倾向性比较明显的文件类型组合。如图1展示了,在分享了Folder的用户中, 65%的用户分享App文件,约20%的用户分享Audio文件。在File相关分享活动中,约10%的用户分享了APP文件,在Audio相关分享活动中,约33%的用户分享了App文件。由上可知,不同用户对不同的文件类型有不同的偏好,在分析用户相似度时应充分考虑用户偏好这一因素。

(2) 时间因素

用户的分享行为在时间上的特征如图2所示。其中x轴表示时间,以天为单位;y轴表示不同分享偏好所占的比例。由图可知,用户的文件分享行为具有比较明显的时间特征,在时间上显现出鲜明的传播高峰和低谷,有一定的周期性可循。因此,本文在计算用户相似度时将考虑用户的分享活动在时间上表现出的特征。

(3)空间因素

在不同文化背景和社会认知的影响下,不同地区的用户会展示不同的生活和社交习惯,这些习惯必然会在文件分享行为上有所表现。故,在度量用户的相似度时应当考虑空间因素对用户相似度的影响。