陈琳娣
[摘要]本文介绍了电信运营商内部审计借力大数据分析,通过正负样本的选定、变量的设计、特征工程等方式,直接定位问题,精确审计范围而进行神经网络建模。
[关键词]内部审计 运营商 大数据 神经网络 建模
在“数据即资源”已成为社会共识的背景下,扩大数据来源,开启数据通道,充分利用大数据建模开
展远程监督的审计新模式已成为时代选择。
一、神经网络模型表达
神经网络是一项重要的机器学习技术,从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。神经网络算法的基础结构是神经元,是包含权重和偏置项的函数,它在接收数据后执行计算,再通过激活函数将数据限制在一个范围内,神经元的结构见图1。
神经元的函数表达为:y=f(wx+b),其中x为输入值,w为权重,b为偏置项,f(x)即激活函数,常用的激活函数为sigmiod函数。
神经网络则是多个神经元的组合,由输入层、隐藏层和输出层三部分构成。输入层是模型输入的特征变量;隐藏层是神经元的组合,其中的每一个圆圈都是一个神经元;输出层是最终的输出结果,含有多个输出,处理多分类问题,并且每一层的输出都是下一层的输入,见图2。
建立神經网络模型有以下三个步骤:
第一步是确定函数表达式:y=f(x),它由网络结构决定,即神经网络有多少隐含层,每一层有多少神经元,神经元之间是如何连接的等等。不同的网络结构决定了不同的神经网络模型。本文构建的是较为简单的三层隐含层的全连接神经网络模型。
第二步是确定模型优劣的评价标准,即确定损失函数,通常为交叉熵损失函数,表达式如下:
第三步是选择最优的函数,使损失函数达到最小,也就是求解神经元之间连接的权重w和偏置b。BP神经网络的学习规则,即权重和阈值的调节规则采用的是误差反向传播算法。网络的权值和阈值通常是沿着网络误差变化的负梯度方向,依据设定的步长进行调节的,最终使网络误差达到极小值或最小值,即在这一点误差梯度为零。参数更新时,使用了梯度下降算法,使得权重向损失函数对权重求导的负梯度方向更新。权重的更新公式为:
其中,η为学习速率,即参数更新的步长。
限于梯度下降算法的固有缺陷,标准的BP学习算法通常具有收敛速度慢、易陷入局部极小值等特点,因此出现了许多改进算法,增加了算法的可靠性。其中最常用的有动量法和学习率自适应调整的方法。
二、神经网络模型下的审计实施
在流量红包专题审计中应用大数据神经网络技术,从海量数据中识别出购买非常规途径流量的用户,再从购买用户的来源方筛选出流量转售者,见图3。
(一)用户关系梳理与流程
利用大数据技术,从海量数据资源中寻求规律,从上亿用户流量划转数据中,探寻用户流量流转关系,梳理流量转售流程。确认流量转售大致流程为移动公司(A端)向违规企业(B端)低价出售企业流量,违规企业将流量直充至个人账户,经过多次流转到达流量转售者账户(C端),再通过网络途径以低于市价的价格售卖给流量购买者(D端)。
(二)识别流量购买用户
改变从源端核查的传统审计模式,从最终购买用户入手,依靠神经网络模型定位可疑购买用户,并向上追溯违规售卖用户和违规套利企业。大数据建模技术框架主要分为正负样本筛选、特征工程和模型建立三个流程。
第一步,正负样本筛选。在流程梳理的基础上,设立简单规则,初筛流量划转行为具有异常表现的用户。选取少量用户,外呼验证,获取准确正样本,并推广至该售卖用户的所有流量对端用户,标记为正样本。借助用户流量划转记录数据,筛选各项流量划转行为数据值处于正常范围的用户,标记为负样本。
第二步,特征工程。这是数据建模的关键步骤,关系模型结果的好坏。在项目实施时,结合业务知识、调研结果和数据探索成果,从流量划转行为特征、流量和通话交往圈流量划转特征和个人通信属性特征等角度入手,完成变量的设计工作。运用大数据平台数据库,从数据中获取特征,并利用Python语言进行数据预处理,完成缺失值判断与处理、分类变量哑元化、变量标准版等数据预处理工作。神经网络模型对于特征工程的要求较少,网络结构能够对低阶的输入特征进行组合变换生成高阶特征。但输入无关变量会增加模型的训练时间,因此本文在项目实施时进行了特征筛选。通过计算各变量的IV值,衡量自变量预测能力的大小,选取IV值较大的变量,实现变量特征的筛选。
第三步,模型建立。基于大数据内网挖掘平台,使用Ppython完成神经网络模型的构建工作,识别流量购买用户。最终建立三层神经网络模型,通过网络层级的增加,弥补特征数量不足的问题,在一定程度上减少人工设计特征变量的工作,并提升模型的准确性。通过模型的反复迭代,流量购买用户的识别准确率由规则筛选的40%提升至80%。
(三)识别流量售卖用户
在识别流量购买用户的基础上,探索流量购买者与售卖者之间的数据联系,制定数据规则,从流量购买者的流量划转来源对端中筛选流量售卖用户。经过这一步骤,剔除了流量购买者流量交往圈中流量划转总数和人数都相对较少的正常用户,能更加精准地识别流量售卖用户。
(四)定位集团违规折扣
基于大数据模型识别流量售卖者,追溯售卖者流量来源,结合传统审计方法,核查集团违规套利途径,并向相关地市公司部门追责。
三、审计成效及展望
(一)审计成效
通过运用大数据分析平台及科学建模技术,实现了流量转售专题分析项目中流量转售用户(C端)的自动识别,在保证一定准确率的基础上,实现大范围的用户识别。最终,模型对流量购买用户(D端)识别的准确率达到82%,核查用户超过100万,筛选出流量转售商(C端)超过100个。
典型违规案例如下:
1.某科技公司将流量和赠送话费拆分转售获取利益。该公司办理集团流量红包统付业务总计120万元,获赠等额馈赠金。一方面通过中间号码将所购流量进行转售,另一方面将每月的馈赠金通过名下其他账户划出,并通过第三方以95折同步转售,几乎零成本套回本金并获利。
2.某科技公司超低折扣转售套利。通过高额馈赠金的获取,该公司最终获得流量18000万M,通过网络转售,以450万元的本金获得630万元的收入,直接获利180万元(按网售价格计算)。
3.某科技公司执行漏洞造成的流量收入损失。该公司从某地市以市场售价4.2折的低价购买大量流量业务,再以低价公开转售。流量转售是利用公司营销活动或系统功能的漏洞,将原先只有特定目标客户可以享用的营销资源,通过人为组合使得非目标客户也可以使用,弱化了公司的营销目的,扰乱了特定产品的价格体系。此案例是通过第三方公司开展,正常的公司业务核查极难发现异常。而建模的识别先定义到问题所在,在此基础上核查目的明确、方向清晰,挖掘出隐藏的转售行为,进而找出公司营销活动或系统功能的漏洞,维护了公司利益。
(二)展望
通过大数据分析和建模技术,提高了审计工作效率。流程可复用度高,在相似审计业务场景中有普遍的适用性,可以提高审计工作的效率和效果。
此外,相关模型还可拓展应用于一些营销业务场景,如计算潜在低价流量需求客户群概率,也可为用户转售套利业务提供一定的判断依据。
(作者单位:中国移动通信集团浙江有限公司,邮政编码:310005,电子邮箱:13605756667@139.com)
主要参考文献
陈明.神经网络模型[M].大连:大连理工大学出版社, 1995
邓茗春,李刚.几种典型神经网络结构的比较与分析[J].信息技术与信息化, 2008(6):29-31
袁曾任.人工神经网络及其应用(第1版)[M].北京:清华大学出版社, 1999
[加]Simon-Haykin.神经网络与机器学习[M].北京:机械工业出版社, 2011