基于随机森林分类器的C2C电子商务欺诈识别模型构建

2018-11-30 02:43卫昆李想
关键词:随机森林决策树

卫昆 李想

【摘 要】C2C电子商务模式由于虚拟性和信息的不对称性,导致交易欺诈现象频发,其发展受到严重影响。论文通过构建具有一定分类精度的随机森林分类器模型,探索从C2C交易商家数据中发掘和识别出异常信息并分析评判的方法,帮助电子商务企业及时发现问题并做出决策,对C2C交易欺诈风险防范具有现实意义。

【Abstract】Due to the virtual nature and asymmetric information of the C2C e-commerce mode, there often occurs transaction fraud, and its development is seriously affected. Through constructing a random forest classifier mode, which has certain classification accuracy, we explore the method of discovering and identifying abnormal information from C2C trading merchant data and analyzing and judging it, so as to help e-commerce enterprises find problems and make decisions in time, it also has practical significance for the prevention of C2C transaction fraud risk.

【关键词】C2C电子商务;欺诈识别;随机森林;决策树

【Keywords】C2C e-commerce;fraud identification;random forest;decision-making tree

【中图分类号】F724.6 【文献标志码】A 【文章编号】1673-1069(2018)08-0171-03

1 C2C电子商务发展及其交易欺诈问题

随着互联网的发展,C2C电子商务交易模式不断成熟稳定,以其不受地域时间的限制、高效率、低成本等优势而受到越来越多人的青睐。近年来我国电子商务消费者人数迅速增长,根据CNNIC第41次《中国互联网络发展状况统计》,截至2017年12月底我国电子商务市场的交易总额高达29.16亿元,较之2016年增幅约为11.7%。网络购物市场总交易规模高达6.2亿元,比2016年增长24%。2010年C2C市场的交易额约为4651亿元,2015年C2C电子商务在中国整体网络购物市场规模中增长率为19.5%,2017年天猫双11全球狂欢节交易额高达1682亿元,年增长39%,数据表明C2C电子商务模式发展空间很大。

2 相关理论方法介绍

2.1 分类器原理

分类器是利用分类技术构建的模型,主要是用来预测数据对象的离散类别,经过对训练集(由类别已知的数据组成)的学习得到一个分类模型,可视作一个目标函数,待测集(所属类别未知的数据)中的每个样本通过该目标函数的映射,得出一个被预测的类别。

2.2 分类器性能评价指标

在分类器构建完成后,通常需要使用一系列的指标去衡量它的分类性能,首先是混淆矩阵。混淆矩阵,现在假设分类变量只有两个类别,分别为正例(positive)和负例(negative),其中,True positives(TP):表示实际为正例且被分类器判断为正例的样本的数量;False positives(FP):表示实际为负例但被分类器判断为正例的样本的数量;False negatives(FN):表示实际为正例但被分类器判断为负例的样本的数量;True negatives(TN):表示实际为负例且被分类器判断为负例的样本的数量。

2.3 决策树与随机森林

决策树可以抽象理解为一个树形结构,树中的每个非叶子节点代表某个属性,每个分支代表某个属性值,每个叶子节点对应着从根节点到该叶子节点所经历的路径表示的样本的类别,即叶子节点代表的属性就是该样本的分类结果。

随机森林分类器是包含多个决策树的一种组合分类器,最终的分类结果由这些决策树共同决定。随机森林的特点主要体现在它的两个随机性上,第一个随机性是它在构建每一个决策树时,采用自助法(bootstrap)重采样技术,即有回放地从数据集中随机抽取一定数量的样本,第二个随机性是在决策树进行节点分裂时,随机选择若干属性参与比较,以确定分裂节点。

3 基于随机森林的C2C交易欺诈识别模型构建

3.1 数据收集及属性确定

本研究从淘宝网收集了真实交易数据,整理后共包含41个属性,其中属性“is_cheat”为目标属性,用来表示样本的类别(欺诈商家,非欺诈商家),由于随机森林算法在构建决策树节点时,从数据集所有变量(除目标属性和用于标识的属性)中随机选取若干属性进行比较,所以它能够处理拥有属性较多的数据,无需进行特征选择[1]。如表1所示为各属性名和它们的含义。

该数据集含样本1456条,类别为“欺诈卖家”的样本数为621,类别为“非欺诈賣家”的样本数为835,训练集和测试集的样本数量。

3.2 随机森林分类器的构建与训练

3.2.1分类器相关参数选择

①mrty参数的选取

mrty参数表示随机森林在分类节点处选择参考的属性的数量,对随机森林分类的准确度有很大影响。为了确定mrty的最优取值,本文设计如下实验:将mrty的值分别取为50、100、150,mrty取3至10之间的整数(若数据集的属性个数为M,则mrty的值一般取为,由于本研究中,“count_id”和“is_cheat”属性不计算在内,则M=39,的值介于6和7之间,所以取3至10之间的整数进行实验),以训练集为数据集,以F的值为评价指标,分类器的分类性能和F的值呈正相关。当mrty=6时,F的值比较稳定且普遍较高,所以选定mrty的值为6,即将要构建的随机森林分类器在分类节点处选择参考的属性的数量为6。

②ntree参数的选取

ntree参数表示随机森林中所要生产树的数量,它的取值对最终的分类效果也起着至关重要的作用,所以本文也设计如下实验来确定其最优取值:mtry取值为6,将ntree的取值分别设定为10、40、70、100、130、160、190、220、250,同样以训练集为数据集,以F的值为评价指标。当mtry=6,ntree=70时,所得到的F值最大,此时分类器的分类效果也相对最好,所以我们将参数ntree的值确定为70。

3.2.2 随机森林分类器的训练

在确定分类器构建所需要的软件及相关参数的取值后,分类器的运行流程

参数值确定后,进行分类器的构建,在R软件中输入如下程序:

library(randomForest) ;#加载随机森林程序包

Data_train <- read.csv(" F: / train .csv" , header=TRUE) ;#读入训练集数据

Data_test <- read.csv(" F: / test .csv" , header=TRUE) ;#读入测试集数据

RF <- randomForest(is_cheat ~ , Data_train , importance=TRUE , ntree=70 , mtry=6 ) ;#运行randomForest()函数

A= predict( RF , Data_test , type="response") ;#運用测试集对随机森林分类器进行测试

table(A , Data_test $ is_cheat )#将测试结果进行展示

4 结论

本文在C2C电子商务交易欺诈日渐严重的情况下,提出以数据挖掘技术中的随机森林算法构建分类器模型,介绍了决策树与随机森林的原理、构建过程,对二者的分类性能进行了对比,得出了随机森林分类器分类效果好于决策树分类器的结论。进而运用从淘宝网上收集的真实交易数据进行分类器模型的构建,通过使用R软件、确定相关参数、测试集测试等步骤,构建了具有较高分类正确率的随机森林分类器模型,可以对欺诈商家进行有效的识别。本文工作试图从C2C电子商务交易卖家数据中有效地识别出欺诈卖家,以期望C2C电子商务交易欺诈问题能够早日得到解决,人们能够获得更加良好更加放心的网上购物体验,卖家可以在公平的环境下竞争,C2C电子商务持续健康发展。

【参考文献】

【1】王全才.随机森林特征选择[D].辽宁:大连理工大学,2011.

猜你喜欢
随机森林决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
拱坝变形监测预报的随机森林模型及应用
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测
基于肺癌CT的决策树模型在肺癌诊断中的应用