李 锋, 胡锦亚
(华南理工大学 工商管理学院, 广东 广州 510640)
加权符号网络(weighted signed network)是复杂网络领域中一类更加难以刻画的网络形式。从定义上说,加权符号网络兼具符号网络和加权网络的特点,即网络中所有节点之间的关系/连线有正有负——符号网络,且节点之间的连线权值有大有小——加权网络。因此,加权符号网络中的连线权值包含更多的信息量,对于节点的分析和评价更加复杂。
现实中,多数社交电子商务平台上的关系网络都是加权符号网络。在这些网站上,用户进行买卖交易之后,买家通常会对购买的商品或卖家的服务进行评价。这些评价有好有坏、有高有低,构建出了一个复杂的加权符号网络。由此延伸出一个非常现实的热点和难点问题:如何评价社交电子商务网站上的用户?随着二手交易平台的兴起,如“转转”网站、“闲鱼”网站、京东“拍拍二手”,有研究表明二手交易市场用户规模达到4 000万,交易规模达到5 000亿元,且交易额以每年30%的速度增长。而平台上的卖家或买家在选择交易对象时,如何评价与交易对象交易的风险成为他们普遍关心的一个社会问题。
当前,对于社会关系网络的研究还主要是针对无权、无向网络进行,即假定网络中节点之间的连线是双向的,且连线的权值统一为1;而对于加权符号网络,研究工作还处于初期和基础研究阶段。本文即是在此研究现状和市场需求的双重驱动下,结合具体加权符号网络的应用背景进行分析。通过分析,我们找出了交易网站中存在潜在交易风险的几类用户的网络行为特征,据此能够鉴别出存在潜在交易风险的用户特征。
当前,对于加权符号网络的研究工作还主要集中在基础领域,而应用研究相对较为简单[1]。
在基础研究领域中,研究重点包括运用结构平衡理论(structural balance theory)去分析实际符号网络的平衡性[2],并从平衡性的角度对网络中连线的正、负符号进行修订[3-4]和预测[5];对复杂网络社团划分的模块化指标Q进行改造,实现符号网络中的社团结构划分[6];根据节点的网络结构属性(中心度、相似度、参与度等)进行节点聚类分析,采用不同的路线实现网络社团划分[7-8];借鉴PageRank算法对网页的评价,采取类似的算法对符号网络中的节点进行重要性评价[9-10];借鉴HIT算法将网络中节点的评价指标分为两个对立的指标,从而对网络中的连线进行预测[11]等。除此之外,还有一些学者在研究符号网络的网络生成算法[12]。
但是,结合具体的应用问题和应用背景,将所研究的网络构建成为一个加权符号网络,并从应用层面上对其解释和分析的研究尚不多见。前期工作包括:采用模拟退火算法搜索出使得符号网络上信息扩散最广的源头节点集合[13];根据两支股票收益率的相关系数,得到股票之间正、负关系的符号网络,分析网络的平衡性以及度分布等指标,并从股票类型上对网络进行解释[14];将线上评价系统构建为一个符号二分网络(signed bipartite network),并从二分网络的角度对网络进行分析[15]。其中,与本文研究最为接近的是文献[15],即同样对一个线上评价系统进行符号网络建模并分析。但不同的是,文献[15]中将网络中的用户节点定义为买方和卖方,即二分网络;而本文所研究的线上评价系统中用户既可以是买方,也可以是卖方,含义更加复杂。同时,文献[15]将网络构建成为一个符号网络,即网络中连线只是正号或负号;而本文所研究的网络是一个加权符号网络,即网络连线不仅有正、负号的区别,还有数值上的差异。这两点都使得本文所研究的应用问题更加复杂。
本文研究的社交电子商务平台为一个比特币交易平台——Bitcoin OTC(https://www.bitcoin-otc.com)。在此P2P平台上,用户可以直接进行比特币的买卖交易,不需要平台的审核和介入。根据该网站政策,网站不对用户进行资格审查,也不对用户交易承担任何责任,所有交易风险由买卖双方自行负责。因此,在此网站上注册的用户既可能是比特币的买家和卖家,也可能是非诚信用户——骗子(impostor and scammer)。
为了帮助用户降低交易风险,网站同时提供了一个用户评价机制,即用户在交易之后可以对本次交易的交易对象进行评价。评价分数的范围从-10到+10(整数值,且不能取值为0),分数越高代表该用户对交易对方越信任,分数越低则表示认为交易对方越不诚信。例如,10分表示用户对交易对象非常信任,网站建议这是用户对线下的好朋友或同事才给予的评价(You trust this person as you trust yourself. Reserve this for close friends and associates you know in person);5分表示用户与交易对象进行了多次可靠的交易(You’ve had a number of good transactions with this person);-10分表示交易对象收了钱之后并没有完成交易,是一个骗子(Person failed to hold up his end of the bargain, took payment and ran, fraudster)。因此,如果一位用户被他人评价分数越高,且被多人评价较高,则可以初步认为其更加诚实,交易的可信度越高。
简而言之,对社交电子商务平台上平台用户的信用风险评价主要基于以下几个直觉和观点:①其他用户评价分数越高的用户,其信用越好,交易风险越小;②其他用户评价分数越低的用户,其信用越差,交易风险较大;③其他用户评价分数有正有负,其信用和交易风险也较大。
但是,由于网站用户并非都是诚信用户,用户之间的评分也存在作假的可能。例如,多个骗子账号可以先对一个账号集中打高分,从而提高该账号的可信度,再以此账号骗取不知情用户的信任,最终实施诈骗。
如图1所示,对于某指定用户而言,在2013年2月28日和3月1日连续两天中,有14位用户对其评价,且评价以+8和+10为主。而在5月14日,该用户因不正常的行为企图,被他人评价为潜在的骗子。如果仅根据该用户的评分判断其信用等级,那么根据其“被其他用户评价的分数均值”为8.2143(115/14),会得出交易风险较低的结论。可见,简单地根据用户的评分判断用户的诚信并不一定有效。
图1 网站上典型的骗子账号行为
本文以斯坦福大学的网络分析项目所提供的名为“bitcoin-otc”的数据集来构建用户之间加权符号网络。该数据集有35 592条评价信息,总共涉及5 881个用户。根据数据集合定义,每条数据包括四个字段:评价者(source)、被评价者(target)、评价分数(rating)和评价时间(time)。为避免评价时间因素的引入使得网络分析更加复杂,本文忽略了评价时间,仅以评价者、被评价者和评价分数三个字段构建加权符号网络。
在构造的加权符号网络中,每个节点代表了一个系统用户,而每条有向边描述了一个用户对另外一个用户的评价,边的权值则定义为用户评价的实际评价值。所得到的加权符号网络的基本统计信息如表1所示。
表1 加权网络的基本信息
忽略网络中连线的方向性和权值,做出加权符号网络的无向网络。对该无向网络采取标准的社团划分(community partitioning),以Q值作为评价社团划分的指标[16],并将节点按照社团进行聚类展示(如图2所示)。
从图中,我们可以看出除了一些分散在网络外围的边缘节点,核心区域中节点分群特征明显,即同属于相同社团的节点连接紧密,不同社团的节点连接较弱。
图2 展现社团特征的用户评价网络
根据用户评价系统的描述,当一个用户被其他用户以负值评价时,表明该用户在交易过程中表现“异常”;如果用户选择与此类用户进行交易,存在较高的交易风险。相反,当一个用户被其他用户都以正值评价时,表明该用户在交易过程中表现“良好”;如果用户选择与此类用户进行交易,交易风险较低。
因此,我们根据用户是否被其他用户给予负值评价为规则进行节点分类,得到曾经被其他用户负值评价的节点1 254个(简称为N类节点),未被其他用户负值评价的节点4 604个(简称为P类节点)。另外,有23个节点没有被其他用户评价的记录(简称为Z类节点)。
借鉴该评价系统中对用户的评价指标——用户对其他用户评价的次数(number of total ratings sent),评价指标代号为CI-1,对P类节点进行指标统计(如图3所示)。根据评价系统的有向网络定义,该指标值实际上统计了节点的出度(out-degree)指标。
(a)整体统计分布
(b)剔除极大值点影响后的统计分布
从该指标值的统计来看,P类用户在此指标上存在明显的分类特征,即用户指标值多数小于15,但是在数值25左右有着显著聚集。如果忽略极值点的影响,此特征更加明显,如图3(b)所示。
对于P类节点的另外3个基本指标,即用户被其他用户评价的次数(number of total ratings received)、用户对其他用户评价的分数均值(mean of ratings sent)、用户被其他用户评价的分数均值(mean of ratings received)进行统计。同样,根据定义,节点的“被其他用户评价的次数”指标实际上是有向网络中节点的入度(in-degree)指标值。
(a)用户被其他用户评价的次数(指标CI-2)
(b)剔除极大值点影响后的 用户被其他用户评价的次数
(c)用户对其他用户评价的分数均值(指标CI-3)
(d)用户被其他用户评价的分数均值(指标CI-4)
从图4可以看出,P类用户同样存在明显的子类集合。
根据图3和图4中的统计分布结果,可以看出对于P类用户而言:①如图3(b)和图4(b)所示,多数用户的交易频率不高(评价其他用户的次数和被其他用户评价的次数),但是有部分用户相对活跃,交易次数超过20次;②如图4(c)和图4(d)所示,多数用户对其他用户的评价分数均值多为1~3,因此用户被其他用户评价的分数均值也多为1~3;③如图4(c)所示,少数用户对其他用户的评价分数均值为-10,表明用户在交易中遇到了问题用户,因此评价对方为“骗子”;④如图4(d)所示,还有少数用户对其他用户评价的分数均值为+10。这个评价分数偏离多数用户的评价分数均值,表明这类用户自身也存在问题,有可能为“骗子”。
对1 254个N类节点进行相同的统计分析,如图5所示,我们可以发现N类节点同样具有明显的分类特征。
(a)用户对其他用户评价的次数(指标CI-1)
(b)用户被其他用户评价的次数(指标CI-2)
(c)剔除极大值点影响后的用户对其他用户评价的次数
(d)剔除极大值点影响后的用户被其他用户评价的次数
(e)用户对其他用户评价的分数均值(指标CI-3)
(f)用户被其他用户评价的分数均值(指标CI-4)
更加明显的是,对于N类节点而言,用户被其他用户评价的分数均值较大比例大于0(图5f所示),有的甚至接近了+5。
为了进一步发现P类节点和N类节点的整体特征,我们对其中与其他用户节点差异较大的节点进行特征挖掘。
1.P类节点分类
由图4c可知,在P类节点中有部分节点对他人的评价分数均值趋近于+10。表明这类用户可能是在帮助骗子账户提高其该指标均值,目的在于提高其信用等级,协助其达到欺骗的目的。
同时,图4d也发现P类节点中部分节点被他人评价的分数均值也接近+10。这表明此类节点可能是正在由骗子账户帮助其提高信用等级,等待不知情用户上钩的骗子团伙。
根据统计信息,4 604个P类节点的指标“用户对其他用户评价的分数均值”平均值为1.539 3,标准方差为1.896 5。因此,我们以3倍标准差为分界线(7.228 8=1.539 3+3×1.896 5)对P类节点进行划分,即将该指标值大于7.228 8的节点筛选出来,作为异常用户节点。为了描述方便,下文称此类节点为PS-1类节点。
同理,对P类节点的指标“用户被其他用户评价的分数均值”,根据其平均值1.665 3和标准方差1.279 4,以其3倍标准差5.503 5进行节点划分,即将该指标值大于5.5035的节点筛选出来。为了描述方便,下文称此类节点为PS-2类节点。
另外,有一些节点既属于PS-1类节点,也属于PS-2类节点,我们称此类节点为PS-12类。而那些既不属于PS-1类,也不属于PS-2类节点的P类节点,我们定义其为PS-0类节点。
2.N类节点分类
由图5e可知,在N类节点中有部分节点对他人的评价分数均值趋近+10,表明这类用户可能是在帮助骗子账户提高其信用等级,协助其达到欺骗的目的。与P类节点中PS-1类节点不同的是,此类节点是已经被识别的骗子账号。
从图5f可以看出,多数N类节点被其他用户评价的分数均值主要集中在-6~+4,但是存在部分节点的该指标值集中在-10。结合P类节点中的PS-1类节点的行为,可以认为多数N类节点是先被其他用户(骗子同伙)给予接近+10的评价,之后被受骗的用户给予接近-10的评价。从评价分数的统计值上来看,该节点的被评价分数平均值趋向于0。
相比之下,N类节点中被其他用户评价的分数均值为-10的用户,可能是该用户的同伙数量较少,给其正值评价较少;或该用户同时欺骗了多位用户,导致其评价分数的和较低。
根据以上分析,结合PS-1类用户的分类标准,我们同样以该指标值(CI-3指标)大于7.228 8的节点筛选出异常的节点集合,并定义其为NS-1。
从图5f中可以看出,N类节点在CI-4指标上取值较为分散。因此,本文简单地以CI-4指标值为-9对节点进行分类,得到CI-4指标值趋近于-10的异常节点集合NS-2。
类似的定义节点集合NS-12为同时属于NS-1和NS-2的节点集合,而集合NS-0为不属于NS-1和NS-2的N类节点。
根据分析,我们可以确定网络中被标记为NS-1类、NS-2类、PS-1类、PS-2类的节点都是异常节点,与其交易的风险较高。因此,下文尝试采用简单实用的分类方法发现这些异常节点的特征并从整个网络中进行区分。
1.基于节点指标值的分类
通过分类,我们发现无论是PS-1类节点、PS-2类节点,还是NS-1类节点、NS-2类节点,都具有明显的行为相似性。例如,图6分别给出了这4类异常节点的指标CI-1(用户对其他用户评价的次数)的统计分布情况。
(a)PS-1类节点
(b)PS-2类节点
(c)NS-1类节点
(d)NS-2类节点
从图6可以看出,这4类节点的聚类特性非常明显。因此,可以用节点的整体特性来描述这一类节点的特征。
我们以节点的CI-1指标(用户对其他用户评价的次数)和CI-2指标(用户被其他用户评价的次数)对节点进行可视化展示,如图7所示。因为CI-1指标和CI-2指标的取值都为整数,所以图7中节点呈离散分布。
颜色更加浅的点表示此处节点数量较多。从图7可以看出,采用多个指标对这些节点分类,可以发现节点的聚类特性更加明显。并且,这4类节点都相对集中在图形的左下角,这表明这四类节点的CI-1指标和CI-2指标值都较小,它们之间具有较高的相似性。因此,将这4类节点放在同一张散点图上,结果如图8所示。
(a)PS-1类节点
(b)PS-2类节点
(c)NS-1类节点
(d)NS-2类节点
图8 4类异常节点整体的散点图
可以看出,这4类节点都具有较强的相似性。将少数节点删除之后,多数节点都聚集在图形的左下角。
根据以上数据分析和展示,可以较为清晰地看出这4类节点区别其他节点的特征为这4类节点各项指标的均值,即PS-1类、PS-2类节点和NS-1类、NS-2类节点的指标均值可以作为区分这些节点的属性。
2.四类节点指标特征的显著性
在发现这4类异常节点的特征模式之后,我们将这4类节点放入普通节点集合之中,观察这4类节点的特征显著性。
将P类节点以CI-1指标和CI-2指标展示在散点图上,如图9所示。
从图9(a)可以看出,相比于PS-0类节点,PS-1类节点和PS-2类节点非常集中(图中PS-1/2标记所示的节点为PS-1或PS-2类节点的位置)。
类似地将N类节点以CI-1指标和CI-2指标展示在散点图上。从图9(b)上也看出了与图9(a)中相同的现象,即NS-1或NS-2类节点的特征非常明显,即使是放在整个数据集合中,其特征也能够清楚发现。
如果将这4类节点放在整个网络中,如图10所示,我们亦然可以看到这些节点特征明显,聚集在所有节点集合的中心。这表明这4类异常节点具有明显的特征,可以从整个网络中筛选出来。
图10 网络所有节点的散点图
3.异常节点的相似性
为了检验异常节点特征属性的识别特性,下面分别以不同类别异常节点的平均值作为此类节点的整体模式,并计算所有节点与该平均值之间的相似性。
以PS-1类节点为例,此类节点指标CI-1、CI-2、CI-3和CI-4的平均值分别为:
(1)
接着计算每个PS-1类节点i与该指标值的相似性(在计算相似性之前,首先根据指标的极大值和极小值对属性数据进行标准的归一化处理):
(2)
作为对比,同样计算PS-0类节点k与该指标值的相似性:
(3)
图11给出了PS-1类节点属性的相似度。
(a)PS-1类节点
(b)PS-0类节点
从图11可以看出,PS-1类节点与整体属性之间的相似性多数都超过85%,而PS-0类节点与PS-1类节点整体属性的相似性全部都低于85%。这也验证了采用PS-1类节点整体属性进行节点分类的有效性。
图12~图14分别给出了PS-2类节点、NS-1类节点和NS-2类节点的相似度计算结果。
(a)PS-2类节点
(b)PS-0类节点
(a)NS-1类节点
(b)NS-0类节点
(a)NS-2类节点
(b)NS-0类节点
可以看出,这4类节点的整体特征能够较好地代表这些节点(相似性指标较高),并与其他节点可以区分开来。但是,在未被划分为这4类的节点(PS-0类节点和NS-0类节点)中,也有部分节点与这4类节点相似度非常高。这说明,还有部分有潜在风险的节点特征尚未被识别出来。
4.小结
通过以上的数据分析和挖掘,我们可以得出以下结论:
第一,网络中用户的交易行为具有明显的整体特征,而那些偏离整体特征的异常节点多为问题节点,与这些异常节点进行交易存在较大的风险。
第二,根据节点在加权符号网络中的连线权值、符号和数量,能够简单并有效地区分出网络中的异常节点。
第三,由于异常节点行为特征的相似性,可以根据已经被他人证实的异常节点特征(NS-1类节点和NS-2类节点)去识别那些未被他人证实的潜在异常节点。
本项研究是以加权符号网络的模型构建比特币交易网站上的用户评价网络。通过用户之间评价的符号和数值,我们识别出网络中那些具有交易风险的用户的行为特点。通过数据分析,发现了这些行为特征模式,能够作为区分和判断存在潜在网络交易风险的用户节点的标准。作为交易平台,虽然并不为用户提供信用担保,但是可以提供类似的用户查询功能,帮助用户降低交易风险,同时也能保证平台的健康发展。