曹敏,邱格磊,林兴
(福建江夏学院 金融学院,福建 福州 350108)
深度神经网络具有强大的学习能力,其技术的发展已经深刻地影响了诸多领域,并在越来越多的领域中取得成功。其中,金融风险管理是一个重要的应用场景,大多数金融机构采用传统的机器学习算法来预测金融市场的发展、预测借款人的偿付能力或进行信贷审批决定等等[1-4]。鉴于深度学习模型的强大学习能力,本文尝试将深度神经网络应用于金融风险行为的预测,以预测识别高风险的客户。
金融点差交易是一种灵活的衍生品交易形式,是重要的金融工具。点差交易通常是指股票的成对交易或指期货市场的交易价差,本文探讨与差价合约(Contract For Difference,CFD)相关的点差交易形式。在金融市场中,散户投资者和做市商签订与特定金融工具相关的合约,并在合约结束时交换该金融工具收盘价和开盘价之间的差额。某些交易员可能会利用内部信息进行交易,从而在市场上涨时获得巨大的利益。这一行为会使得做市商处于不利位置,报价与要价之间的价差是做市商收入的主要来源。对于流动性市场,点差交易市场中的点差大于基础市场中的点差。但是,对于流动性较低的金融工具,点差小于基础市场提供的点差。如果做市商进行对冲交易,他们都会从价差中损失潜在的利润。做市商在对冲头寸时还面临交易成本。因此,设计一种区分A-book客户(即对做市商风险最大的客户)和B-book客户(风险较小的客户)的预测分类模型至关重要。做市商将对冲A-book客户的头寸以防止损失,并承担B-book客户头寸的风险以增加利润。将是否进行对冲交易的决策转化为分类问题,并利用深度神经网络来预测高风险(A-book)交易员。
A-book客户的定义是主观的,并且取决于做市商的商业策略。将在前20笔交易中获得5%回报的客户定义为高风险交易者。根据客户的前20笔交易的执行情况来确定客户的状态,因此对冲策略的部署也是动态的。客户的状态可能会因一次交易而改变,在对冲客户i的第j+k次交易的同时承担了客户i的第j次交易的风险。在投机市场中,一组过去交易的整体回报会为交易者的未来获利能力提供误导性的指导,即交易者过去的表现并不一定能反映其真实能力。因此,客户分类模型的目标是通过考虑数据中所有其它特征来生成可靠的对冲决策。利用深度神经网络技术,从过去的交易数据中了解交易者的潜在风险。对于深度神经网络而言,从交易数据中提取目标概念的高级分布式,其表示形式是非常关键的步骤,这些表示形式捕获了解释交易行为变化的潜在因素。
深度学习旨在从数据中学习多层次的表示形式,较高的层次能表示更抽象的概念。与传统的机器学习方法相比,具有多层抽象结构的深层体系结构具有更强的学习能力。学习理论表明,与深度为k+1的机器相比,深度为k的学习机需要成倍的计算单位来表示一种功能关系。深度学习模型的性能优于简单回归模型,而分类器的性能优于单个学习者。
在使用训练数据集进行训练后,机器学习可以执行分类任务。但是,训练数据可能缺乏代表性,这会影响机器学习的分类性能。分布式表示则可以适应训练数据缺乏代表性的问题。以交易者分类问题为例,交易者表现出不同的交易风格,即使用不同的策略、遵循不同的止损规则等。假设交易者被分为5个不同的类群,而同一类群中的交易者共享一种交易风格。使用非分布式表示,需要5个不同的特征功能来专门表示每个群集,而分布式的表示仅需要 3个特征即可对聚类进行建模。
预训练的目的是找到数据的分布式表示,分布式表示可以解释数据中的变化并放大那些对于分类起关键作用的变化。通过一系列的非线性变换,预训练过程可以创建特征检测层,避免错误信息在多层网络中传播,有助于克服梯度消失的问题。预训练的两种经典实现方式是深度置信网络和堆叠去噪自动编码器。这两种策略都最小化了生成模型的对数似然性,因此通常表现出相似的性能。使用堆叠去噪自动编码器来进行预训练。去噪自动编码器从输入样本中学习分布式表示。假设有N个样本,每个样本都有p个特征,输入样本为x,去噪自动编码器的学习过程包括五个步骤:
步骤1:去噪自动编码器首先破坏输入样本x,即通过从二项式分布(n=N,p=pq)中进行采样,去噪自动编码器会随机破坏样本的子集并引入噪声。
步骤2:去噪自动编码器将被破坏后的输入x映射到高级表示y,该映射过程是通过一层隐藏神经网络进行的。给出重矩阵W,偏差b和编码函数h(·),y可以表示为:
y=h(Wx+b)
(1)
(2)
步骤4:优化去噪自动编码器参数的目标是减少重建的误差Lx,z。从理论上讲,如果使用均方误差(LH(x,z)=‖x-z‖2)作为成本函数,使用线性函数用作编码器h(·)和解码器函数g(·),则去噪自动编码器等同于主成分分析(Principal Component Analysis,PCA)。此时,y中的k个隐藏单元表示数据的前k个主成分。成本函数的选择取决于输入x的分布假设,使用交叉熵损失函数来测量重构误差。另外,使用L2正则化的惩罚函数来刻画权重衰减。正则化参数λ刻画了重构误差与模型复杂度之间的权衡。最终的成本函数具有以下的形式:
(3)
步骤5:将多个去噪自动编码器堆叠在一起形成一个深度架构。每一层去噪自动编码器将前一层去噪自动编码器的编码输出作为其输入。去噪自动编码器的每一层都在本地进行训练,以找到自己的最佳权重。
为了更好地利用网络进行预测,需要网络训练进行有监督的微调。为此,在堆叠去噪自动编码器的顶部添加了softmax回归函数。使用原始输入的分布式表示作为特征以及二进制指标变量作为目标,该二进制变量表明是否应继续对冲交易。给定参数权重W和偏差b,交易x属于类别i的概率为:
(4)
采用负对数似然函数作为监督微调中的损失函数,假设yi是输入xi的真实分类,损失函数具有以下的形式:
(5)
为了解决深度神经网络模型的过拟合问题,为深度神经网络的每个隐藏层后都设置一个dropout层。在训练过程中,dropout会按照一定的概率移除隐藏层神经元及其对应的连接权重。由于是随机移除,因此每一个mini-batch都在训练不同的神经网络,隐藏神经元移除的概率服从给定dropout率的伯努利分布。在进行预测时,深度神经网络会考虑所有隐藏层神经元,并将每个隐藏神经元的连接权重乘以伯努利分布的期望值。Dropout模拟了几何模型的平均过程,并考虑了隐藏神经元的每种可能组合,以提高预测准确性。Dropout防止了隐藏的神经元彼此相互适应,有助于防止过度拟合[5]。
本深度神经网络使用堆叠去噪自动编码器进行无监督预训练,以逐层的方式调整权重,然后以监督的方式对深度神经网络进行整体微调,在每个隐藏层后接连接一个dropout层。在预训练阶段要确定的参数是权重矩阵和每个去噪自动编码器(编码器和解码器)中的偏差。有监督的微调阶段的参数是权重矩阵以及堆叠去噪自动编码器中编码器和softmax回归中的偏差。使用具有动量和递减学习率的随机梯度下降进行深度神经网络训练。使用Python库Theano,GPU是英伟达Tesla K20。
实验所采用的数据集包含了10年的真实交易数据,该数据包括25000交易者的超过3000万笔交易。使用EM插值和Chebyshev的离群值处理方法替换了缺失值。监督学习需要一个标记数据集D={yi,xi}i=1,…,n,其中xi是表征交易i的特征向量,yi是表示目标变量。使用来自先前交易的信息来决定是否对冲当前交易。目标变量yi的取值为1表明采取对冲策略,取值为-1意味着不采取对冲策略。当回报returni大于等于5%时,yi等于1,;否则,yi等于-1。returni的计算方式如下所示。
(6)
其中,PLij是交易j的盈亏,而Marginij是做市商下订单所需的金额。为了标记交易j,确定发行交易时交易者i的状态:如果交易者i从第j次交易之后的下一笔交易中获得了5%以上的回报,将交易者i定义为A-book客户。在进行交易j时,交易者i的未来利润是未知的。因此,本预测模型能根据先前的交易信息来预测yij。特征向量xij包括进行交易j的客户信息以及与客户在交易j之前的20笔交易的行为信息。
将特征分为五组。第一组是交易者的信息,例如年龄、原籍国、就业状况和薪资。第二组的特征记录了交易员的过去表现。使用平均值和标准偏差来计算前20个交易的特征。除了获利能力,还计算了一组相关的绩效指标,例如平均获胜率、平均获利点数等。第三组特征描述了交易者对市场和通道的偏好。利用这些特征来描述交易者的整个历史记录和最近20笔交易中最受欢迎的市场群,通道特征分别记录通过Web前端和移动应用程序进行的开仓和平仓交易的数量。第四组的特征描述了处置效果。处置效应描述了这样一种现象,即投资者倾向于快速卖出获利的交易,却不愿卖出亏损的交易。该特征记录了每个交易员赢得和失去头寸的平均金额和时间,并计算其比率。第五组特征描述了有关交易者策略一致性的信号,该特征描述了股票大小的标准偏差和交易频率及其变化。该组特征与客户在正常交易时间之内/之外进行交易的趋势有关,是交易者专业性的指标。将本模型与人工神经网络、自适应增强和支持向量机模型进行比较。
在表1中展示了四个分类模型在多个评估标准下的对比。表1中的结果是对10倍交叉验证的结果取平均值获得的。由表1的性能指标可知,提出的深度神经网络均优于其他机器学习模型。
表1 分类模型的性能对比
为了阐明深层结构的价值,将本深度神经网络模型与删除了深层隐藏层网络的逻辑回归模型(记为简单逻辑回归模型)进行了比较。图1展示了深度神经网络和简单逻辑回归模型的ROC曲线(Receiver Operating Characteristic)和P-R(Precision-Recall)曲线。由ROC曲线可知,本深度神经网络模型的AUC(Area Under Curve,曲线下方面积)更大,这意味着深度神经网络具有较高的准确率。结合P-R曲线的结果可知,深层的架构可以提高网络的分类能力。
接下来,考察无监督预训练阶段的性能,目的是判断深度神经网络是否学习到能在未标记数据中区分A-book和B-book客户的分布式表示形式。图2展示了第一个dA层中神经元的激活值。结果显示,当从B-book客户收到一笔交易时,激活值往往小于0.4,A-book客户的交易通常会导致激活值大于等于0.4。不同类型客户激活值的差异表明,在没有标记数据的情况下,第一个dA层还可以将A-book与B-book客户的交易区分开。
本研究探讨了深度学习算法在金融风险行为检测中的应用,设计了基于深度神经网络的金融风险行为的预测模型。采用真实数据集对提出模型的性能进行评估,实验结果表明提出的模型的具有较高的预测准确率。虽然高风险客户(即A-book客户)数量较少,但在很大程度上决定了做市商的整体风险敞口。本模型能够检测由少数人所带来的金融风险行为,为金融风险管理体系提供了新的理论和方法。