赵长宽,李封,徐彬,张昱
东北大学计算中心,沈阳 110819
◎博士论坛◎
博客好友互动行为相似性研究
赵长宽,李封,徐彬,张昱
东北大学计算中心,沈阳 110819
朋友关系是构成社会网络的关键要素之一。朋友关系的不断变化,推动网络的发展。同时信息在朋友互动中得以广泛传播。用户依托其个体特质及其所在网络关系,开展丰富的网络行为,通过彼此互动,促进朋友关系的发展。鉴于频繁互动是朋友关系的重要特征之一,提出朋友在线互动行为之间具有较高的相似性假设,并遵循互惠机制。从行为的时间特性分析入手,提出用户互动行为相似性计算模型。利用博客的历史数据,分析发表、共享、评论、留言等互动行为,并对互动行为相似度模型进行验证。
网络行为;互动;相似度;朋友关系;博客
在博客、微博等社会网络中,朋友纽带是构成网络边的一种重要社会关系。社会学意义上的朋友关系,界定相对模糊。从表象上来说,既有“朝夕相处”密友,亦有“天涯若比邻”挚友。大规模在线社会网络出现后,人类的交互行为得以有效记录,从而为定量分析社会网络中的朋友关系提供了数据基础[1]。但是在线社会网络中的朋友关系表象相对简单,例如在博客中,通过其博客好友列表,即可确认其朋友关系。并且朋友的建立也相对容易,通过“添加好友”即可完成。但是此类关系如何建立,是否反应真实社会中的朋友关系,是需要深入研究的一个问题。另外,通过观察博客和微博中的朋友关系,发现大量朋友关系处于“沉寂”状态,朋友之间很少或根本没有互动。对于信息传播、社区发现等研究来说,这类朋友关系没有意义,因此需要提出合理的方法挖掘真实的朋友关系。
中国传统哲学思想认为“同声相应,同气相求是朋友关系的重要特征,朋友间需要通过积极的互动,才能维系和促进朋友关系的发展。因此本文重点从互动行为角度研究社会网络中的朋友关系。
与Jones以Facebook为研究对象[2]不同,本文以博客为研究对象,利用快照数据,观察用户在一定时期内的互动行为,包括发文、留言、共享、推荐等,分析朋友之间的互动行为及其特点。Facebook的特点是注重交流和互动,用户发表的内容简短,且时效性强,不足在于每次交流所表达思想相对单一,且不完备。博客的博文内容丰富,是用户深思熟虑的结果,表达的思想更加成熟和完备,但是存在时效性较差和互动性弱的不足。
本文主要贡献包括在:(1)分析在线网络中用户行为特点,提出博客中朋友间互动行为相似性模型;(2)对博客中的典型互动行为进行了分析,提出了互动行为相似计算方法;(3)基于博客的历史网络数据快照对互动行为相似性模型进行验证,并应用于博客中好友及密友的发现。
目前,社会网络中朋友关系研究主要集中于关系预测方面。重点从聚类、同质性、互惠性角度进行研究[3]。聚类研究重点从结构角度分析两个节点建立关系的可能性,认为具有共享公共邻居的节点建立链接的可能性较大[4]。Kossinets与Watts通过在校大学生的社会网络研究,提出“具有公共熟人的两个同学成为熟人的可能性较大”[5]。Yin通过分析推特网络数据,进一步提出“Twitter网络中90%的新链接发生具有至少有一个公共邻居的节点间”[6]。而McPherson则强调同质性的作用,提出“人们倾向与自己个人特质和经历相似的人交往”[7],通过大学的熟人网络[5]、中学的朋友网络[8],以及Facebook中的大学生群体关系[9],进一步说明种族、音乐和影视品味、年龄、地理位置、语言和经历对社会网络关系的建立具有重要作用。Garlaschelli等则认为用户倾向与链接自己的用户建立联系,从而提出网络关系建立中的互惠机制[10]。一般来说,聚类机制要强于同质性机制[11],而在类Facebook和Flickr在线网络中,互惠机制更加重要[3]。当前关系预测研究关注于从网络静态结构和属性的相似性分析,预测朋友关系的建立,而未分析网络的动态特性,即对用户间互动行为对朋友关系的影响。
在社会网络中,朋友关系建立是用户互动行为的结果,并通过频繁交互促进朋友关系发展,并以此传递信息。频繁互动行为是朋友关系的重要特征,互动行为频率相对用户属性更加重要[12]。互动行为相互性研究,近来才有少量的报道,例如电话网络中互致电话[13],Twitter用户的“互推”[14]等。Thurner分析了多用户多角色在线游戏(MMOG)中的用户行为特性,Jing-Kai分析此类游戏中,用户性别交换及其对用户行为统计结果的关系[15]。虽然对于用户个体的行为时间特性研究开始获得部分学者的关注,但是针对互动行为的时间特性和行为相似性,未见相关的报道。
在社会网络G=(V,E)中的两个用户u和v,若两者是朋友关系,则存在边(u,v)∈E。假设G支持的行为集合B={b1,b2,…,bm},则用户u对好友v互动行为bi的时间函数βi(u,v,bi,t)可以表示为:
依据“同声相应,同气相求”的朋友关系论述,从互动行为的时间特性相似性角度给出好友定义。
定义1若用户u和v的互动行为时间特性相似度大于阈值δ,即满足公式(2),则称两者为好友。
在当前条件下,用户处在传统意义上的社会网络和在线社会网络两个网络中,需要在两个网络之间进行不断切换,并找到合适的时间点,登录社会网络,处理网络中的各种事务,因此在线社会网络中的用户行为均以其在线为前提。假设用户在线状态O的时间函数ο(u,t),则满足公式(3):
其中Gt为G在时刻t的快照。
当用户在线时,依据自身状态,例如教育背景、喜好、经验等,对所见信息作出的反应。假设用户u根据自身状态对朋友v作出行为的时间函数ρi(u,v,bi,t),则满足公式(4):
综上所述,用户u对朋友v行为bi的时间函数可以用公式(6)计算。
基于互惠机制假设,好友之间个人特质对用户之间互动行为影响将非常小。例如,在博客中,无论用户是否对朋友的博文感兴趣,均会积极评论或推荐。因此基于互动行为时间特性提出用户相似度计算规则,即满足公式(7),则认为两者是好友关系。
由于仅当用户在线时,才能处理开展在线的互动行为,而用户在线时间是随机的,从微观粒度上分析,很难保证两者的相似性,因此如何计算互动行为的相似性成为一个关键的问题。
不同在线社会网络所提供的用户行为集合差异较大。在微博中,提供了发表、阅读、评论、转发、关注等行为。而在博客中则提供了发表、分享(转发)、评论、推荐、阅读(访问)、笔记(或称为“记录”)、加群组,并支持打招呼、发消息、留言、加关注和加好友等辅助行为。
为了分析用户互动行为之间的相似性,本文选取博客历史快照数据为研究对象。在博客中用户行为可以大致分为如下三类:
(1)增强魅力:发表、记录、加群。
(2)直接交往:打招呼、发消息、留言、加关注和加好友。
(3)增进友谊:分享、评论、推荐、访问。
由于记录和加入群组行为相对较少,不能反映彼此的互动行为特征。因此本文分析中,不考虑记录、加群组行为。另外根据文献[2]的研究结果,留言作为一种公开的互动行为,与打招呼、发消息等私下互动行为相比,对朋友关系的贡献相当,因此在本文中,也不考虑打招呼、发消息等行为。由于朋友关系预测不是本研究重点,因此也不考虑加关注和加好友等行为。访问作为分享、评论、推荐等行为的前置动作,并且匿名访问无法记录,因此也不考虑。本文重点关注的用户行为如表1所示。
表1 典型博客用户互动行为
4.1 相似度计算
假设两位用户的行为函数φ(x,t)和γ(x,t),在时间段[ta,tb]上,均匀地选取n个离散点,分别计算其函数值。
当n足够大时,即当n=n*时,在时间段[ta,tb]上,两个函数的相似性可以通过公式(8)计算。
假设在时间段[ta,tb]上,进一步将时间段[ta,tb]均匀划分为z个区间,且z≤n*。在区间[ta+(k-1)·q,ta+k·q]上,分别计算:
当z足够大时,即z=z*,在时间段[ta,tb]内的时间点T=(t1,t2,…,tz)上观察函数φ(x,t)和γ(x,t),统计时间片tk-tk-1内用户行为总数。从而获得用户行为的统计结果序列X={xk|k=1,2,…,z*}和Y={yk|k=1,2,…,z*}。用户行为φ(x,t)和γ(x,t)的相似性,可以通过公式(10)计算近似结果:
采用上述近似计算,z*选择的一个难点,其值过小,将掩盖函数丰富的细节特征;其值过大,则不利于提取函数局部整体特征。
由于在博客中,用户撰写博文、阅读、评论博文都需要相对较长的时间,并且需要用户登录到网络中才能进行操作,受制网络接入条件的限制。因此取样周期的选择上,确定以周为单位。
由于余弦相似广泛应用于向量的相似性计算,因此本研究中,采用此方法计算方面行为函数的相似计算,计算公式如式(11)所示,其中Xi和Yi分别为用户u和v完成的行为bi的统计结果。
在博客中,用户会作出多种行为,这些行为作为用户当前意志的表现,是用户当前状态的真实反映。为了更好地评估用户之间的行为相似度问题,给出了多种行为的相似度定义及其计算公式。
定义2假设社会网络中支持多种行为Β={b1,b2,…,bm},则用户u、v的多行为相似度是各种类行为相似度之和。
多行为相似度计算如公式(12)所示,交叉计算各类行为的相似度,并求和:
4.2 互动行为相似度计算
在博客中,用户通过“发表”行为确立在群组中地位,因此其花费在发表行为上投入的精力和时间最大。撰写博文的时间要远大于转发、评论、推荐和留言等行为所花费时间,因此,可以近似认为发表博文的时间即为用户在线时间。用户行为的时间特性基于4.1节的相似性计算规则,用户u发表博文行为b1的时间特性,可以通过在离散的时间点T=(t1,t2,…,tz)上观测获得,假设结果为X1={x|k=1,2,…,z}。同时,观察到用户v实施行为b1的统计结果为Y1={y|k=1,2,…,z},则用户u和用户v在线时间的相似性可以通过公式(13)计算:
假设用户在时间片[ta,ta+ε]上,用户的转发、评论、推荐和留言等互动行为彼此相互独立,并且用户与其所有朋友之间的行为相互独立。由于用户行为,取决于用户在线时间,因此需要深入分析用户在线时间对用户互动行为时间特性的影响。
由于用户发表博文的时间远大于其他互动行为,可以推论,若在[tb,tb+ε]上用户v发表了博文,即可认为其有足够的时间对好友u的互动行为进行回应。由于用户针对一篇博文的分享、推荐、评论、留言行为一般不超过一次,因此可以认为除发表博文之外的互动行为数量不超过其好友在临近时间片上发表的博文数量。
按照互惠原则,用户之间互动行为的评估,不能以彼此互动行为的多少和分布评估,而应当考虑用户对朋友所作出的评论、转发等互动行为数量与朋友发表博文数量的比例来度量用户对朋友关系的投入,并以此作为互惠机制的度量基础。
基于上述思想,建立用户互动行为对朋友关系的评估计算模型。假设b1为发表博文行为,在离散的时间点T=(t1,t2,…,tz)上,用户u对好友v采取的互动行为集合Β={b2,b3,…,bm},其中行为bi统计结果为{|k=1,2,…,z},i∈[2,m]。作为回应,好友v对好友u采取的互动行为bi统计结果为{|k=1,2,…,z},i∈[2,m]。由于用户u对好友v实施评论、推荐等行为的数量一般不超过用户v发表博文的数量。因此用户u对好友v采取互动行为bi对朋友关系的投入,可以通过公式(14)计算:
基于上述互动行为相似度计算模型,提出相应的计算方法如下:
算法1互动行为相似度计算
输入用户交互行为记录{(uid,vid,bi,time-stamp)},其中uid、vid分别为用户u和v的ID,交互行为集合bi∈B,timestamp为时间戳;时间段[ta,tb],取样时间ε。
输出用户交互行为相似度s(uid,vid,bi)。
1.s=0
2.用ε分割[ta,tb],计算T=(t1,t2,…,tz)
3.for k=1 to z
3.1计算[ti,ti+1]上用户u对v采取行为bi的次数
3.2计算[ti,ti+1]上用户v对u采取行为bi的次数
4.for k=2 to z
5.按余弦相似度法则计算相似度
6.返回s
5.1 数据选择
本文以科学网博客(网址:http://blog.sciencenet.cn/ blog.php,其用户主体是中国及部分海外华人科技工作者及在校学生构成,其特点是用户本身的文化素质和知识水平较高,且采用实名认证)的网络快照为数据集,采集热点博文作者及其朋友在2011-01-01到2013-01-01期间的交互数据。数据集的统计情况如表2所示。
表2 博客网数据集
本实验在安装有Intel i3处理器、12 GB内存、2 TB硬盘和Linux操作系统的微机上完成,基于Python2.6语言开发程序实现数据清洗和统计分析,部分实验数据的处理在Matlab 2008上实现。
5.2 用户行为相似性
在进行分析前,对未发表博文的作者进行了清洗。按照2周的时间间隔,统计用户的各类行为出现的次数,建立用户行为数量与时间的函数,并按照用户各类行为的累加和对用户进行排名。
抽取排名第1的用户和排名第500的用户,其行为的时间特性如图1和图2所示,从中可以发现样本用户自身的行为彼此相似程度较高。
个体行为相似性的分布如图3所示,超过93.4%的样本数据的个体行为相似性大于0.7,超过74.3%的样本数据中的个体行为相似性大于0.8。
从上述分析得出以下结论:用户的在线网络行为与其自身的时间和状态密切相关,并且各类行为时间特性呈现较强的相似性。
图1 活跃度排名第一的用户行为
图2 活跃度排名第500的用户行为
图3 用户行为之间的相似度分布
5.3 好友分布
由于朋友之间的相互交往明显多余陌生人,朋友的频繁互动是朋友关系的一个重要特征,长时间不联系或没有互动的朋友关系,其关系将非常微弱。因此从互动角度,将朋友分为两类:
(1)两年内有过互动行为的朋友称为好友;
(2)两年内互动超过51次的朋友称为“密友”。
通过两年内的历史数据分析,好友占朋友比例如图4所示,好友数量分布如图5所示。对具有好友关系的博主进行分析,其密友占好友的比例如图6所示,密友数量的分布如图7所示。从中可以发现好友及密友的分布遵循了幂律分布,密友的数量小于80个。
图4 好友占朋友比例
图5 好友数量分布
图6 密友占好友比例
图7 密友数量分布
5.4 好友互动行为相似性
首先分析用户与密友之间互动行为之间的相似性。按密友数量从大到小排序,并抽取5个样本,好友数分别为{238,99,75,24,10},其密友数分别为{72,30,21,11,5}。分别计算用户与密友之间在分享、推荐、评论、留言四种互动行为之间的相似度,然后计算行为相似度之间的标准差。图8给出了样本点标准差的分布情况,从中可以发现:
图8 样本点用户自身行为相似度偏差
(1)用户对其好友实施的各类行为之间的相似度较高,其标准差小于0.25。
(2)用户密友数量越多,其行为之间相似度标准差随之增加,说明受制于用户本身限制,用户不能对所有密友开展相对均衡的互动行为。因此用户密友可以进一步细分。
其次分析用户与好友之间的互动行为相似度的分布情况,图9给出了上述样本点好友互相推荐行为之间的相似度计算结果。从中可以发现,好友之间互动行为本身的相似性较高,说明用户之间保持了相对平等的互动模式。
图9 样本点互相推荐相似性
在社会网络中,朋友之间的互动行为是推动朋友关系发展的重要力量。传统的朋友关系研究,多关注于个体特质、关系预测等问题,而对个体网络行为的时间特性,以及朋友之间的互动行为特性关注不足。朋友之间的互动行为是朋友关系发展中最细微的地方,是实现信息传递的基础。
为发现朋友之间互动行为的时间特性,假设维系和发展朋友关系需要不断的互动和交流。在已知朋友关系网络中,可以通过互动关系区分一般朋友和密友,并认为密友彼此之间互动行为遵循互惠机制。基于此假设,给出用户互动行为相似的计算方法。利用博客的历史快照的数据分析,对前述假设进行了验证。实验证明,在博客中朋友关系相对松散,仅仅少数的用户之间互动频繁。频繁互动的密友之间,其互动行为相似程度很高,说明好友之间存在相同的行为模式,并通过彼此的互动实现了信息的传递和影响力的传播。另外还发现博客用户自身的多种行为之间存在较强相似性。传统的时间序列分析不能直接应用于用户行为时间特性研究,需要提出新的分析方法。本文提出互动相似度量方法仍需深入研究,特别是要关注用户行为模式对互动行为的影响。本文的相关研究成果可以扩展应用到社区发现和社区的结构稳定性研究。
[1]Barabasi A L.Scale-free networks:a decade and beyond[J]. Science,2009,325:412-413.
[2]Jones J J,Settle J E,Bond R M,et al.Inferring tie strength from online directed behavior[J].PLoS ONE,2013,8(1).
[3]Zhang Q M,Lu L,Wang W Q,et al.Potential theory for directed networks[J].PLoS ONE,2013,8(2).
[4]Newman.Clustering and preferential attachment in growing networks[J].Phys Rev E,2001,64(2).
[5]Kossinets G,Watts D J.Empirical analysis of an evolving social network[J].Science,2006,311:88-90.
[6]Yin D,Hong L,Xiong X,et al.Link formation analysis inmicroblog[C]//Proceedings of the34th International Conference on Research and Development in Information Retrieval,New York,USA,2011:1235-1236.
[7]McPherson M,Smith-Lovin L,Cook J.Birds of a feather:homophily in social networks[J].Annual Review of Sociology,2001,27:415-444.
[8]Currarini S,Jackson M O,Pin P.Identifying the roles of race-based choice and chance in high school friendship network formation[J].Proceedings of the National Academy of Sciences,2010,107:4857-4861.
[9]Lewis K,Gonzalez M,Kaufman J.Social selection and peer influence in an online social network[J].Proceedings of the National Academy of Sciences,2012,109:68-72.
[10]Garlaschelli D,Loffredo M I.Patterns of link reciprocity in directed network[J].Physical Review Letters,2004,93.
[11]Brzoowski M J,Romero D M.Who should I follow? Recommending people in directed social networks[C]// Proceedings of the5th International Conference on Weblogs and Social Media.[S.l.]:The AAAI Press,2011:458-461.
[12]Zhang H,Dantu R.Predicting social ties in mobile phone networks[C]//Intelligence and Security Informatics(ISI). Vancouver,BC,Canada:IEEE Press,2010:25-30.
[13]Baatarjav E A,Amin A,Dantu R,et al.Are you my friend?[C]//7th IEEE Consumer Communications and Networking Conference(CCNC).Las Vegas,NV:IEEE Press,2010:1-5.
[14]Thurner S,Szell M,Sinatra R.Emergence of good conduct,scaling and Zipf laws in human behavioral sequences in an online world[J].PLoS ONE,2012,7(1).
[15]Jing-Kai L,Kunwoo P.Gender swapping and user behaviors in online social games[C]//Proceedings of the IW3C2 WWW 2013 Conference.Rio de Janeiro,Brazil:ACM,2013.
ZHAO Changkuan,LI Feng,XU Bin,ZHANG Yu
Computing Center,Northeastern University,Shenyang 110819,China
In the social network,the friendship is a kind of key element.With the changing of friendships,the social network evolves over time.And the information propagates widely with the friends interacting.Based on the personal properties and the status in social network,various behaviors are done by users,and the friendships are developed at the same time. As the frequent interaction is one the key character of friendship,it is proposed that the friends interaction behaviors are similar to each other,and the interaction mechanism is of reciprocity.Based on the time series analysis of user behaviors, interaction behaviors similarity computing model is proposed.Using the blog history snapshot data,the publishing,sharing, commenting and wall posting behaviors are evaluated,and then the similarity computing models are tested.
network behavior;interaction;similarity;friendship;blog
A
TP18
10.3778/j.issn.1002-8331.1308-0192
ZHAO Changkuan,LI Feng,XU Bin,et al.Interaction behaviors similarity between close friends in blog network. Computer Engineering and Applications,2014,50(6):1-6.
国家自然科学基金(No.61272179);沈阳市科技项目基金(No.F11-264-1-33);教育部专项基金项目(No.MOE-INTEL-2012-06)。
赵长宽(1976—),男,博士研究生,讲师,研究领域为数据库查询技术,社会网络;李封(1981—),男,博士研究生,讲师,研究领域为社会网络;徐彬(1980—),男,博士,讲师,研究领域为社会网络;张昱(1980—),男,博士研究生,讲师,研究领域为社会网络。E-mail:zck@cc.neu.edu.cn
2013-08-15
2013-09-30
1002-8331(2014)06-0001-06
CNKI网络优先出版:2013-11-25,http://www.cnki.net/kcms/detail/11.2127.TP.20131125.1541.031.html