摘要:随着在线交易的普及,交易欺诈问题日益严重,给消费者带来了巨大的损失。文章提出了一种基于机器学习的交易欺诈能分析在线系统,通过分析交易数据和用户行为模式来识别潜在的欺诈交易。文章采用机器学习算法,如决策树和神经网络,对大规模交易数据进行训练并评估系统在真实数据集上的性能。结果表明,该智能分析系统在准确性、召回率和F1分数等指标上表现出色,能够有效地识别潜在的欺诈交易并进行实时预警。
关键词:交易欺诈;机器学习;决策树;神经网络;实时预警
中图分类号:TP18""文献标志码:A
0"引言
随着数字支付的发展,网络犯罪行为也越来越严重。研究发现,接近66%的被调查者曾使用同一账号注册不同类型的平台账户,而其中几乎大部分用户都有被电信诈骗的经历,少数甚至遭受严重的损失。随着移动支付产品的创新加快,各种移动支付方式在消费群体中呈现分化趋势,第三方支付的移动应用又很受年轻人群的偏爱,多样的支付方式也导致个人信息很容易被不法分子盗取。因此,开发一个自动化的诈骗检测系统成为一项紧迫而重要的任务。
1"基于机器学习的交易欺诈检测综述
1.1"欺诈检测的主要方法
目前应用于数字交易欺诈检测场景的机器学习技术包括有监督方法和无监督方法2类[1]。在有监督的机器学习方法中,欺诈模式的建立主要依赖于大量的历史交易数据,然后通过训练模型对最近的交易数据进行行为分析。无监督的机器学习方法则是直接检测交易数据中的异常值并发现交易数据的规律。常见的基于有监督方法的是人工神经网络(Artificial Neural Nets,ANN),这种检测技术可以处理海量数据,性能相对较好。无监督机器学习方法适用于对存在数据集的数据所属类别不了解的情况,通过异常值检测出可疑交易。采用基于卷积神经网络(Convolutional Neural Networks,CNN)的无监督机器学习方法,可检测出信用卡交易的欺诈行为,在对国外信用卡数据集的欺诈交易行为检测中准确率相对较高。
1.2"交易欺诈检测的机器学习
机器学习目前被广泛应用于大数据的处理。由于信用卡、网上支付等大规模的使用,形成了海量的日常交易数据,使用人工方法去验证解决交易欺诈行为显然已经不现实,只能依靠智能技术实现自动化检测。因此,本文旨在利用机器学习技术构建一个自动化的诈骗检测系统,以提高诈骗检测的准确性和效率。机器学习算法能够通过对大量数据的学习和模式识别,自动发现隐藏的诈骗模式并根据交易特征进行预测。机器学习技术与实时交易系统的结合可以实现对实时交易的自动分析和实时预警,及时防范潜在的诈骗行为,提高金融机构和客户的交易安全性。
2"基于机器学习的交易欺诈智能分析在线系统
用于交易欺诈行为检测的机器学习方法,主要是通过分析大量的数据从而建立欺诈检测模型或者行为分析模型,通过挖掘欺诈者的行为模式特征,提高模型的欺诈识别能力。
2.1"系统综述
基于机器学习的分布式诈骗行为分析系统提供了系统管理、模型训练、在线预测等功能,以供用户根据自己的需求进行相应的选择。系统的架构主要包括数据与计算、Web服务、渲染技术以及终端展示4大模块。
本文重点研究数据与计算中的数据集、算法模型的选择与训练以及最终的诈骗行为分析。本交易欺诈智能分析在线系统中智能检测的核心思想是首先通过决策树算法处理异常的数据;然后使用 Sequential 模型构建全连接的神经网络,网络包含多个Dense 层和一个输出层以提取不同层次的数据特征信息;最后神经网络模型引入非线性特征的激活函数,以便能够更好地输出二分类结果,从而提高线上交易欺诈行为检测的准确性。
2.2"数据集的选择
机器学习的优点是可以很好地处理大数据,因此,本节介绍数据集的分析处理以及针对数据集的特征工程,选用决策树和神经网络结合进行数据的建模。
系统中所使用的数据集card_transdata来自一些匿名的数据采集结构。数据集中共有100万条数据,每条数据共有7个特征和1列类标签,每条数据的内容如表1所示。
2.3"模型的选择与评估
根据数据集的特点,本文分析机器学习中常用的算法,最终系统选用决策树和全连接神经网络的混合模型。
2.3.1"决策树的模型
决策树(Decision Tree)算法是机器学习中常见的一类算法,是一种以树结构形式表达的预测分析模型。
常用的机器学习的模型有逻辑回归、支持向量机(Support Vector Machine,SVM)、随机森林以及决策树模型。本系统中数据集在这几个模型中的得分如表2所示,对比选择了决策树模型。
2.3.2"全连接神经网络
本文根据数据集的特征采用多层不同神经元数量的全连接神经网络,构建深度模型来提取数据的特征。神经网络模型中的全连接网络层的每一层都采用了ReLU激活函数。模型的第1层有16个神经元,第2层有32 个神经元,之后依次为 64、256、64、32、16个神经元。神经网络模型的最后1层有8个神经元,采用Sigmoid激活函数用于输出最终检测出来的分类结果。全连接神经网络的模型如图1所示。
2.3.3"模型评估
应用该模型进行评估,首先须要采用合适的数据集来训练模型。在此过程中,使用训练好的模型对测试用的交易数据进行预测,根据得到的预测结果和设定的阈值来检测判断欺诈行为。然后通过准确率(Precision)、召回率(Recall)、几何平均值(Geometric mean,G-mean)和调和平均数F1值(F1-Score)等对训练好的模型的预测结果进行评估。最后分析数据模型的性能并提出改进调整参数的策略。
3"实验结果与分析
3.1"实验数据
本文采用的数据集card_transdata共有1000000条数据,前5条数据如表3所示。
3.2"实验对比方法
为了证明决策树与全连接神经网络的预测效果,本文模型与 S-XGB-SMOTE[2]、XGBOOST[3]、AdaBoost[4]"、GBDT[5]和SVM进行性能对比。
3.3"实验结果
本文主要采用评价指标研究中最常用的ROC曲线下的面积(Area Under Curve,AUC)、G-mean、F1-Score、Recall、Precision这5个指标来进行判断性能,如表4所示。从表可知,本系统混合模型的预测性能均为最优的,这表明本系统的混合模型对数据有较强的处理能力和预测性。
本文设置EPOCH为10,对本系统的混合模型进行训练和测试,都能得到比较高的准确率。虽然在测试验证集时,测试集中的准确率高于训练集中的准确率,但是在训练测试集时,混合模型的准确率达到98%以上。基于上述实验结果,本系统混合模型的损失取值范围在[0.06,0.08],没有很明显的波动,模型的性能基本趋于稳定。
4"结语
本文提出了基于决策树和全连接神经网络混合模型的交易欺诈智能分析在线系统,重点介绍了智能分析系统的模型选择和训练,首先通过决策树的机器学习算法来平衡训练数据集,然后为了提取大量的交易数据的特征,构建了深度全连接神经网络模型,最后通过模型来训练和评估测试集。实验表明,与传统的线上交易欺诈分析方法相比,本文提出的智能分析方法有更高的准确性。当然该系统也存在一些不足,所采用的决策树模型容易产生一个过于复杂的模型,可以进一步采取最小样本数或者设置数的最大深度等策略对模型进一步优化。全连接神经网络可以通过多样的数据集,从而进一步优化神经网络的层数和每层的神经元数量等。
参考文献
[1]XU J,CHEN H.Criminal network analysis and visualization[J].Communications of "the ACM,2005(6):100-107.
[2]徐明.基于时序不均衡数据的在线交易欺诈检测研究[D].成都:电子科技大学,2019.
[3]杨琳坤,何培宇,潘帆,等.基于XGBoost-RFE-CBR的心电信号情绪识别研究[J].成都信息工程大学学报,2023(3):258-263.
[4]徐文倩.基于ADASYN-AdaBoost-CNN的信用风险评估模型[J].现代计算机,2021(28):39-44.
[5]王仕杨.基于一种新数据不平衡处理方法的销量预测研究[D].南昌:南昌大学,2022.
(编辑"王雪芬)
Intelligent analysis of transaction fraud based on machine learning
LIU "Xiaoqun, LI "Ning, HE "Guangwei
(Communication University of China, Nanjing 211172, China)
Abstract: "With the increasing prevalence of online transactions, transaction fraud has become a growing concern, causing substantial losses to consumers. This paper presents a machine learning-based transaction fraud analysis system that identifies potential fraudulent transactions by analyzing transaction data and user behavior patterns. The system employs machine learning algorithms, such as decision trees and neural networks, to train on large-scale transaction data and evaluates its performance on real-world datasets. The results demonstrate that this intelligent analysis system exhibits outstanding performance in terms of accuracy, recall, and F1 score, effectively identifying potential fraudulent transactions and providing real-time alerts.
Key words: transaction fraud; machine learning; decision trees; neural networks; real-time alerts