何湘东+++魏吉勇
【 摘 要 】 B2B电商平台的欺诈问题一直困扰着电商平台的经营者。以往利用数据挖掘技术解决B2B问题的研究中仍然存在着一些不足。论文利用真实B2B平台公司数据,采用基于决策树(Decision tree)的集成学习算法——Easy-Ensemble对B2B平台反欺诈问题进行研究。实验结果表明,Easy-Ensemble算法的确是解决数据类别不平衡性的一个有效的算法,适用于B2B平台反欺诈问题研究。论文在实验结果的基础上进行深入的商业分析,为B2B企业欺诈问题提出行之有效的建议。
【 关键词 】 B2B平台;反欺诈;数据挖掘;类别不平衡;代价敏感性
【 中图分类号 】 TP391
【 文献标识码 】 A
Research on the B2B Platform Anti-fraud Problem
He Xiang-dong 1 Wei Ji-yong 2
(1.Network and Information Center, Nanjing University JiangsuNanjing 210023;
2.School of Management, Nanjing University JiangsuNanjing 210093)
【 Abstract 】 The fraud in B2B business platform has troubled the platform operations. There are still many gaps and deficiencies in data mining technology area about how to solve these frauds. This paper use the real data of a large B2B e-commerce company and chose the ensemble algorithm ╞ Easy-Ensemble, which is based on Decision Tree to deal with the problem of B2B fraud. From the experiments results, we can find that Easy-Ensemble algorithm is effective to solve the problem of class imbalance and suit to solve the problem of B2B anti-fraud. As a result, we can provide supports and suggestions for the anti-fraud problems on B2B platform.
【 Keywords 】 b2b platform; anti-fraud; data mining; class imbalance; cost-sensitive
1 引言
随着互联网和信息技术的高速发展,电子商务以其高效益,低成本等特点,为企业尤其是中小企业,提供了更为广阔的发展空间。然而在电子商务高速发展的今天,其商业进行中隐藏的问题也逐渐暴露出来。最为显著的问题就是电子商务欺诈问题。B2B(Business to Business)是企业与企业之间通过互联网进行产品、服务及信息的交换。B2B网站为买卖双方提供信息交流的网络商业平台并为用户提供网上交流的条件,促成交易的机会。但是往往网站中的信息存在欺诈性,会对交易受欺诈方和平台方造成较大的损害。
本文的研究目在于解决B2B平台上欺诈检测问题。基于平台上的买家或卖家的数据对客户进行分类识别。从而增强B2B平台运营商对其网站上的欺诈用户识别与预防能力,从而保护用户的权益,维护平台的稳定发展。目前有研究者利用数据挖掘技术解决B2B电商平台的欺诈问题,但现有研究仍然存在一些不足:第一,在线欺诈问题描述性的较多,提出实际解决方案的研究比较少;第二,缺乏用来进行实验的真实数据;第三,以往研究很少考虑到类别不平衡问题与代价敏感问题。本文利用集成学习算法——Easy-Ensemble[1]对真实B2B企业数据进行应用,并于其他算法进行比较论证分析。
2 相关文献回顾
2.1 传统反欺诈的研究
欺诈指交易方有意隐瞒或提供错误的与交易相关的信息以获得经济利益的行为,是感知风险的一种。从根本上讲,B2B在线欺诈行为的出现可以用“信息不对称”进行解释。在信息不对称的情况下,卖方拥有比买方更多的关于交易对象的信息 [2]。
近十几年国内对电子商务的研究主要是新的技术带来的商业模式以及新的观念等方面 [3]。通过对相关文献的回顾,可以发现对于B2B平台反欺诈问题的研究主要包括两方面:一是欺诈预防;二是欺诈检测。欺诈预防指的是起初就采取有效措施阻止欺诈发生;而欺诈检测指的是当预防措施无效时,能够用最短的时间识别欺诈的方法[4]。大部分的研究都会同时涉及这两个方面。从信任机制的角度入手,有学者利用实证方法比较系统地研究了影响B2B电子商务风险的因素[5]。根据Selmar Meents等(2003)实证研究中所分析的声誉因素在B2B在线交易中的正向影响效应[6],Josang等人(2007)提出了关于基于名声的信任机制 [7]。Rafael Maranzato等(2010)在电子商务平台声誉系统的基础上运用逻辑回归和逐步优化的方法进行网上欺诈的研究[8]。
2.2 基于数据挖掘的B2B平台反欺诈研究
目前,数据挖掘方法解决B2B平台反欺诈问题研究有很多,大多集中于从描述性的角度[11]和欺诈预测的角度[12]来进展开。其中,Chang(2011)[12]运用决策树进行分类,Zhang等人(2011)使用了逻辑回归的方法[13],Pandit等人(2007)使用马尔可夫随机域模型的方法[14]。
此外,欺诈问题的研究还关注了类别不平衡性问题,在数据挖掘的研究中,一般是假定用于训练的数据集类型是平衡的,即各类所拥有的样本数量是大致相当的,然而这一假设在很多真实问题中是不成立的。例如在欺诈问题方面,欺诈的数据量远远小于非欺诈的数据量,在这种情况下,分类器通常会倾向于将测试样本全部判别为大类而忽视了小类,可想而知,由此得到的分类器在小类的预测上效果会很差。Weiss G(2004)指出分类器在不平衡数据上性能下降的原因有:不恰当的性能评价准则、不恰当的归纳偏置、一类样本数目过少产生的绝对稀少问题等[15]。
3 Easy-Ensemble算法
Easy-Ensemble算法首先是多次独立地利用随机下采样的方法,将大类样本划分成多个与小类样本平衡的子集,然后将如此得到的数据集进行训练得到多个分类器,然后将多次独立的下采样方法得到不同的分类器进行了集成;本算法可显著的提高下采样方法在类别不平衡问题上的性能,同时继承了下采样方法的高效性。该算法的原理是:
对于二元分类的类别不平衡问题,设定小类为正类,用字母P表示,大类为反类,用字母N表示,运用下采样的方法,从N中随机采样得到其子集,我们用N'来表示,并且有| N' |<| N |。为使类别平衡,一般地会使| N' |=| P |。
Easy-Ensemble方法是采取了一种直接的集成策略,它充分利用随机下采样方法所忽略的大类样本,我们用N∩N'表示。在Easy-Ensemble方法中,随机下采样方法被独立的使用多次,因此得到多个大类的子集N1,N2,…,NT 。然后将每个子集Ni(1
因此,最终的Easy-Ensemble得到是一个集成分类器,Easy-Ensemble方法使用了所有的小类样本。当小类样本很少时,充分地利用每个小类样本是非常重要的。本研究要解决的问题就是小类样本—欺诈用户样本信息较少的分类问题,而且通过解决类别不平衡问题,可以提高小类样本分类的正确类,从而也解决了小类样本误分类带来的高额代价,因此解决本文的问题,可以采用Easy-Ensemble算法。
4 实验结果与分析
4.1 实验设计
本研究的数据来源于国内一家大型B2B平台公司,该公司注册会员记录大约有300万。文中使用2012年1月至9月的数据,选取数据的方式是,首先收集全部欺诈数据,然后再从非欺诈数据中随机抽取一部分非欺诈数据。最终数据集中包含正常数据1250条,欺诈数据33条。
首先将原始信息进行预处理,得到的主要属性:1)公司ID号标识一家公司的唯一编号;2)欺诈与否的标签(其中0代表非欺诈用户,1代表欺诈用户);3)是否是金牌会员(其中0代表非金牌会员,1代表金牌会员);4)是否购买质量认证;5)用户从注册到数据更新时刻的时间间隔(月);6)平均每天的登录次数;7)平均每个月的登陆天数;8)该公司产品总共被搜索次数;9)该公司商情总共被搜索次数;10)访问公司数;11)访问产品数;12)收询盘总数;13)回复询盘总数;14)阅读盘总数;15)产品更新天数;16)产品总数;17)该公司所包含的三级行业数;18)IP数;19)近30天的产品数;20)近30天的三级行业数;21)近30天的产品关键词均值;22)产品关键词均值;23)总访问页面次数;24)总搜索次数;25)购买服务的金额。
实验中将本文采用的Easy-Ensemble算法与决策树算法、贝叶斯分类器以及SVM 算法进行比较,以验证Easy-Ensemble算法是否适合B2B平台反欺诈这类问题。实验采用Weka 3.7.10软件中提供的相关算法以及用Matlab编写的Easy-Ensemble算法进行实验分析。
4.2 实验结果与分析
本节将讨论实验结果,并对实验结果进行分析,如表1所示。
从四种算法的实验结果中可以看出,与三种比较算法相比,Easy-Ensemble算法除F-measure指标表现较差外,G-mean和AUC指标表现更优。对于F-measure指标进行进一步的分析,Easy-Ensemble算法在正确类的分类上,效果较其他几个算法是不太理想的,但G-mean和AUC两项指标说明该算法在分类时的第一类错误率和第二类错误率较低, Easy-Ensemble算法的Confusion矩阵如表2所示。
通过对表2的分析可以看出, Easy-Ensemble算法的准确率以及第一类误判率情况为:分类准确率为92.67%,说明该算法的分类准确性依然很高;第一类误判率为7.28%,这说明Easy-Ensemble算法在数据类别不平衡度较高的情况下将好用户分类的错误率也是比较低的。对于第二类误判率,也是我们比较关心的指标,Easy-Ensemble算法的实验结果是9.09%,说明当数据类别不平衡程度较大时,该算法不会将更多的欺诈用户预测为好用户。
将2012年份的样本数据使用Easy-Ensemble算法进行运行,最后将欺诈与非欺诈的数据进行区分之后,得到的模型如图1所示。通过该图可以看出是V _CNT(访问其他用户的总次数),S_PROD_CNT(用户产品被搜索的次数),MONEY(购买服务的金额),S_OFFER_CNT(用户商情被搜索的次数),INTER_ADD_TIME(从注册到数据更新时刻的时间间隔),这些属性需要重点监测。
综上分析,文中验证了Easy-Ensemble算法能够有效解决数据类别不平衡性,并且适用于本文研究的研究问题。通过实验得到的实验结果是本文重要的分析依据,基于此本文将对B2B企业反欺诈给出意见及建议。
5 B2B电商企业反欺诈策略
通过以上实验结果的分析,本文为电商平台企业提供指导性建议。
(1)增加在线支付的功能,或者是交易款项的担保功能。这样将使得买卖双方交易时更加放心,进而降低了欺诈的发生,从而也更好地促进电商行业的发展。
(2)增加物流配送功能,电商平台可以很好地清楚卖方是否提供符合要求的货物,而且也可以保证货物能够在规定的、可控的时间内到达买方指定的地点。
(3)完善电商平台上及时通讯软件的功能,如文字、音频、视频、大容量文件的传输功能等,且一定要保证该软件使用的安全性,让买卖双方更愿意使用平台自带的通讯软件来交流,且能够满足各种交流方式的需求。
(4)若B2B交易的额度较高,可以对交易双方的公司进行实地的考察,保证巨大交易金额背后的公司具有负担如此巨额货款的实力,进而降低交易的风险。
(5)针对有信誉或者信用等级较高的用户,也需要认识和了解欺诈行为发生的规律,即分类算法得到的决策树结果,从而有依据地提高自身甄别欺诈用户的水平,并创建口碑传播的相关机制。
本文引言部分提到在目前数据挖掘技术解决B2B平台反欺诈问题的研究中存在三个问题:一是在线欺诈问题描述性的较多,提出实际解决方案的研究比较少;二是缺乏用来进行实验的真实数据;三是很少考虑到类别不平衡问题与代价敏感问题。本文从所采用的方法,到实验用到的数据,再到根据实验结果给出的商业建议,很好地回答以上三个问题,希望能为B2B电商企业反欺诈问题提供一些借鉴。
参考文献
[1] Liu X., Wu J., Zhou Z.(2009) Exploratoryunder-sampling for class-imbalance learning.IEEE Transactions on Systems, Man, and CyberneticsPart B: Cybernetics, 39(2), 539-550. DOI:10.1109/TSMCB.2008.2007853.
[2] Mishra D.P., Heide J.B. and Cort, S.G. Information asymmetry and levels of agency relationships[J].Journal of Marketing Research,1998, 35(3):277-295.
[3] Zhang Rui, Gao Chang Yuan. Electronic Commerce Development of 13 years in China: A Literature Analysis[J].IEEE, 2011.
[4] Bolton,R. J., Hand, D. J. Statistical fraud detection: A review[J]. Statistical Science,2002,28(3), 235-255.
[5] Selmar Meents, Yao-Hua Tan and Tibert Verhagen. Distinguishing different types of trust in online B2B marketplaces[J].A Research Agenda for Emerging Electronic Markets, 2003: 53.
[6] Josang A,Ismail R,Boyd C.A survey of trust and reputation systems for online service provision[J].Decision Support Systems,2007,43(2):618-644.
[7] Maranzato R,Neubert M, Pereira A M, et al. Feature Extraction for Fraud Detection in Electronic Marketplaces[C]// Web Congress, 2009. LA-WEB '09. Latin American. IEEE, 2009:185-192.
[8] Almendra. Finding the needle: A risk-based ranking of product listings at online auction sites for non-delivery fraud prediction[J]. Expert Systems with Applications, 2013,2: 4805-4811.
[11] Gavish, B., & Tucci, C. Fraudulent auctions on the internet[J].Electronic Commerce Research, 2006, 6: 127-140.
[12] Chang, W.-H. and Chang, J.-S. A novel two-stage phased modeling framework for early fraud detection in online auctions[J].Expert Systems with Applications, 2011, 38:11244-11260.
[13] Zhang, L., Yang, J., Chu, W. and Tseng, B. A machine-learned proactive moderation system for auction fraud detection[C].In Proceedings of the 20th ACM international conference on Information and knowledge management CIKM 11. New York, NY, USA: ACM. 2011: 2501-2504.
[14] Pandit, S., Chau, D. H., Wang, S. and Faloutsos, C. NetProbe: A fast and scalable system for fraud detection in online auction networks[C]. In Proceedings of the 16th international conference on World Wide Web WWW 2007. Banff, Alberta, Canada: ACM Press.
[15] Weiss G. Mining with rarity: A unifying frame work[J].SIGKDD Explorations, 2004, 6(1):7-19.
作者简介:
何湘东(1975-),男,满族,吉林人,毕业于吉林大学,硕士,南京大学网络信息中心信息系统部主任,工程师;主要研究方向和关注领域:高校信息化建设、网络安全。
魏吉勇(1988-),男,汉族,山东人,毕业于南京大学,硕士,南京掌控网络科技有限公司产品经理;主要研究方向和关注领域:电子商务、云服务产品设计。