基于ActivityRank算法的社会化电商意见领袖识别

2019-07-02 13:32许宁菲程生雪王虎程艳霞江长斌
现代商贸工业 2019年15期
关键词:领袖网页社会化

许宁菲 程生雪 王虎 程艳霞 江长斌

摘要:社会化电商中的意见领袖在产品的选择和购买上对其他用户产生较大的影响,同时引导着社区的话题讨论。为了更加准确识别社会化电商中的意见领袖,从网络结构的角度出发,借鉴了PageRank算法的基本思想,综合考虑了用户的行为特征,基于多指标综合评价方法设计了ActivityRank算法对用户的活跃度进行排序,以此识别意见领袖。据此,综合考虑了用户行为和社会网络结构,提高了意见领袖识别的准确性。

关键词:社会化电商;意见领袖;ActivityRank算法;PageRank算法

中图分类号:F27文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.15.022

1引言

随着网购用户的大规模增长,信息传播方式从线下到线上的转变,网络营销的价值逐渐得到商家的认可和重视,企业营销信息开始利用社交社区传播。拥有社会化特征的社交网络结合了传统电子商务,慢慢演化成社会化电子商务。社会化电子商务(Social Commerce)也称“社交电商”,是传统电子商务的一种衍生模式。主要指利用社交媒介和网络媒介进行传播,借助社交互动、用户自生内容等方式来促进产品的消费的一种电子商务模式。社会化电子商务目前主要有三种形式: 基于传统电商发展的社区,如淘宝的微淘、网易考拉的种草社区,都是在传统电商的基础上发展起来的;也有与社交媒体结合的电商模式,典型的有微博、微信等依靠平台进行营销的模式;以及社区与电商同步发展的第三方社会化电商平台,典型的例如小红书、蘑菇街等平台。

意见领袖在通常意义上理解为可以通过各种形式对他人的态度或者行为产生一定影响甚至改变的个人。社会化电商社区中的意见领袖不仅通过发表自身的产品使用感受将产品印象传达给更多潜在消费者,而且借助其个人特质魅力引领消费者的购物趋势,从而对潜在消费者的购买决策和品牌认知态度产生影响和改变。报告《2018年社会化电子商务》中的数据显示,社会化电商的意见领袖在社会化电商社区中发挥着重要作用。 越来越多的企业开始重视各类社交网络中意见领袖的识别,以期通过意见领袖引导网络信息传播,达到最佳的传播效果。因此,如何正确识别社会化商务平台中的意见领袖对于企业和平台来说都具有重要价值。

2PageRank算法介绍

在社会化电商平台社区中,意见领袖通常指在某段时间内具有较大影响力的用户,因此,如何识别意见领袖可以转化为如何计算用户影响力。目前研究节点影响力的算法中已经存在较多成果,大部分算法基于PageRank算法和HITS算法的基础上进行改进。

PageRank是一种衡量网页重要度的经典算法,最早是由Larry Page和Sergey Brin提出,并且成果应用在Google网站。PageRank是基于“被很多高质量的网页链接到的网页一定也是高质量网页” 的回归关系,来判定所有网页的重要性。其核心思想有两点:(1)网页的重要性由其他网页的链接数量衡量,链接网页的数量越多说明网页越重要。(2)如果一个网页被一个高PageRank值的网页链接到,那么该网页的PageRank值也会较高。

PageRank算法的基本原理是每个网页都有一个初始的PR值,通过链接关系将每个网页的PR值进行均匀分,经过反复迭代之后最终达到稳定收敛的网页PR值状态。如图1所示,图中的4个网页存在相互链接的关系。 PR值会均匀地传递给这链接到的两个网页,在原有PR值的基础上增加传递过来的PR值,同时将累加的PR值继续均匀分配给下一层链接到的网页。根据这样的规律, PR值多层均匀传递最终每个网页都会有一个稳定的PR值。因此对于任意网页i,它的PageRank值可表示为如公式(1)所示

PRvi=1-dn+d∑vj∈E(vi)PR(vj)N(vj)(1)

PRvi:网页vi的PageRank值;

PR(vj):网页vj的PageRank值;

N(vj):网页vj链出到其他网页的链接数量;

E(vi):链入到网页vi的网页合集;

n:网络中网页总数;

d:阻尼系数,通常取0.85,表示用户在浏览某个网页后浏览链出网页的概率,1-dn表示重新选择一个随机网页浏览的概率。

3ActivityRank算法构建

社会化电商社区中,用户的行为主要有浏览笔记、发布笔记、分享链接、评论、点赞、收藏、关注等,例如像小红书 APP,社区里的用户主要行为集中在发表和浏览笔记、评论及回复等。社区中的用户影响力可以结合用户之间的互动来进行衡量。陈芬融合多种用户特征,包括影响力、活跃度、专业性、支持度和传播力构建了系统的网络意见领袖识别指标体系,基于新浪微博的真实数据对意见领袖进行识别。根据其他学者的研究,同时考虑社会化电子商务的具体特点,创造性系数可以以用户发布内容情况表示;互动性系数则以多个用户之间的关注状况表示;认可度系数通过用户发表内容所获得的点赞和收藏量来表示,如图2所示可以将以上系数转换为社会化电商社区中用户的活跃度,因此分配AR值的依据就是活跃度。

ActivityRank算法的主要思路是在各个用户之间关注关系的基础上,利用用户的创造性、互动性和认可度等用户行为特征指标转化成用户活跃度,利用用户活跃度来分配用户之间 AR值。采取综合指标评价的方法同时考虑多种因素对用户节点活跃度的影响,可以避免均匀分配AR值,使算法更加貼近现实,更加科学合理。

3.1创造性系数

社会化电商社区中的用户最主要的动作就是发表和浏览,用户生产的内容往往会影响其在社会化电商社区中的影响力。通常用户发表的内容数量与其创造力成正比,因此本文的用户创造力系数主要用用户发表内容数表示。设社会化电商社区的一个用户 u,Nu(t0,tw)指用户u从注册时间t0到tw内发表的内容数,则tw时刻用户u的创造力系数Createu如下:

Createu(tw)=Nu(t0,tw)tw-t0(2)

3.2互动性系数

一般来说,用户关注他人越多,越容易关注其他用户的动态,粉丝数越多,其他用户越可能进行交流,互动程度越高。设社会化电商社区网络中的一个节点为用户u,Followut0,tw表示用户u从注册时间t0到tw内关注其他用户数量,Fansu(t0,tw)为用户u从注册时间t0到tw内获得的粉丝数,其中α和β分别代表用户u关注他人数量和粉丝数量的权值系数。则tw时刻用户u互动性系数Interactu如下:

Interactu(tw)=

α·Followut0,tw+β·Fansu(t0,tw)tw-t0(3)

3.3認可度系数

认可度系数可以用用户每篇发布内容的平均获赞和收藏的数量情况,以此来避免低价值的高频内容对最终排名产生的影响。因此,用户的认可度系数越高,表示用户发布的内容获得了越多人的喜爱和收藏,内容质量得到的认可度越高,具有更大的影响力。设社会化电商社区中的一个用户为u,Likeu(t0,tw)为用户u从注册时间t0到tw内发布内容所获得的点赞数,Collectu(t0,tw)为用户u从注册时间t0到tw内发布的内容获得的收藏数,Nu(t0,tw)为用户u在时间t内发表的内容数,则tw时刻用户u的发布内容的认可度系数Recognitionu如下:

Recognitionu(tw)=γ·Likeu(t0,tw)+δ·Collectu(t0,tw)Nu(t0,tw)(4)

综上所述,用户的创造性系数、互动性系数和认可度系数,均可以反映用户在社会化电商社区中的影响力。 ActivityRank算法中可以看到,用户的创造性越大、互动性越高以及内容的认可度越高,则用户在社会化电商社区中的活跃度就越大,用户影响力也越大。因此用户活跃度的计算主要分为两步:每个指标的无量纲转以及指标权重的计算。第一步的主要目的是将现实情况中具有不同计量单位的指标转化成无量纲的数据,进行标准化处理。第二步的目的是为了科学衡量每个指标对用户活跃度的贡献。因此在ActivityRank算法中首先将指标进行归一化,使最终数据取值均为(0,1]。 由于特征数据跨度较大,如用户粉丝数高的用户可以达到百万级别,低的用户甚至一个粉丝都没有,因此本文采用对数归一化处理方法。 这种处理方式计算简单、运算速度快、处理后数据跨度小。 因此社会化电商社区中用户u的活跃度Au的表示方法如下:

Au=ω1·lgCreateulgCreatemax+ω2·lgInteractulgInteractmax+ω3·lgRecognitionulgRecognitionmax(5)

在指标权重的计算中,一般的我们可以用平均加权的方法计算用户间的影响力,即三者权重相等。由于本文选取的指标采用层次化的分层结构,其结构与思想正好与层次分析法相吻合,为了使评价模型更加准确,本文采用层次分析法确定权重系数。最终各特征指标的权重向量为(0.11,0.309,0.581)。

现假设社会化电商社区中一个用户v关注m个用户,u是被关注用户中的一个,则 A(v,u)表示用户v给用户u的分配的ActivityRank值的比例,该值由用户u的活跃度Au来决定,用户活跃度的分配计算公式为

Av,u=Au∑mi=1Ai(6)

则ActivityRank算法如下:

ARu=1-dn+d∑u∈E(u)Av,uAR(v)(7)

从ActivityRank算法的角度来看,用户的活跃度越高,表示粉丝对该用户的关注越高,则这个用户分配到的AR值越高。相反用户的活跃度越低,表示粉丝对该用户的关注程序越低,则这个用户分配到的AR值越低。ActivityRank算法中可以发现粉丝对不同用户之间的关注情况有高有低,而具体的关注程度则可以用用户的活跃度来表示。因此ActivityRank算法也更加符合生活中的实际情况,通常在团队中我们会更加关注活跃度高的用户。

4实证分析

本文选取了小红书社区中护肤分类下随机选取的用户,按照雪球采样的方法爬取用户信息以及用户之间的关注关系。对爬取的用户信息进行处理,将关注数与粉丝数都很少同时几乎从未发布过笔记的用户删除,实验共抓取了4626个用户的信息。将这部分用户信息进行出入度分析,分析结果显示这部分用户的关注数量以及粉丝数量都遵循幂率分布,且具有胖尾特性,表明该社会网络有无标度特性,符合使用社会网络分析方法的条件。

根据用户相互之间的关注情况,生成用户关注矩阵。 若用户A关注用户B,则值为1;若用户A未关注B,则值为0。ActivityRank算法是根据用户关注关系来决定AR值的分配情况。

根据第一阶段中的ActivityRank算法的计算公式,利用matlab实现 ActivityRank算法,其中阻尼系数 d取值为0.85,在52次迭代运行后得到收敛的结果,用户的AR值都趋于稳定。

根据ActivityRank算法可以得到用户活跃度排序,经过ActivityRank值的排序,用户影响力的评价在用户关注关系的基础上增加了用户本身的行为特性。排名前十的用户如表1所示。

从排名中可以看到排名第一的用户为“林允 Jelly”,其粉丝数最高,虽然她发布的笔记不是很多,但是发布的笔记内容大多都以视频的形式呈现,质量很高,而且其明星身份加成,获得了较多的点赞和收藏,因此其ActivityRank值远高于其他用户,活跃度值最高。用户“Bunny0905”虽然粉丝数较少,但是她发布的笔记数较多,由于其表现相对较为活跃,排名仍然比粉丝数更多的后面几位用户更高。

5结论

本文基于 PageRank算法的思想提出 ActivityRank算法,从用户的创造性、互动性和认可度几个维度综合计算用户活跃度,并利用用户活跃度进行社会化电商平台的意见领袖识别。意见领袖往往是社会化电商社区网络中较为活跃的节点用户。但是不仅仅依靠用户的粉丝数量来判断用户在社会化电商社区中的影响力。还要综合考虑用户的创造性、互动性和认可度等因素。 对于平台和商家来说,可以发掘综合指数较高的网络节点用户,培养这批用户成为社区内的意见领袖。识别早期的意见领袖,可以借助意见领袖引导社区的话题,促进社区的交流氛围。

参考文献

[1]Travers J,Milgram S.An Experimental Study of the Small World Problem[J].Sociometry,1969,32(4).

[2]Chi S W,Zang J B,Mele A,et al.Argonaute HITS-CLIP decodes microRNA-mRNA interaction maps[J].Nature,2009,460(7254).

[3]徐德志,申红婷.网页排名算法及其应用[J].贵州大学学报(自然科学版),2007,(5).

[4]陈芬,陈佩帆,吴鹏,薛春香.融合用户特征与多级文本倾向性分析的网络意见领袖识别[J].情报理论与实践,2018,41(07).

[5]吴慧,张绍武,林鸿飞.微博社交网络的用户影响力评价方法[J].中文信息学报,2017,(04).

猜你喜欢
领袖网页社会化
领袖风范
咱们的领袖毛泽东
牵手校外,坚持少先队社会化
行政权社会化之生成动因阐释
基于CSS的网页导航栏的设计
基于URL和网页类型的网页信息采集研究
领袖哲学
高校学生体育组织社会化及路径分析
网页制作在英语教学中的应用
平民领袖