张 杰,甄柳琳,徐 硕,翟东升
北京工业大学 经济与管理学院,北京100124
农业是国计民生的基础,农产品经济更关乎我国的经济命脉。作为我国最早推出的期货种类,农产品期货市场正呈蓬勃态势发展,是金融市场不可或缺的组成部分。近年来,随着全球经贸发展、金融危机及地缘政治等因素影响,全球经济不确定性上升,农产品期货价格波动不稳定性加剧。如何结合相关变量、利用技术手段量化预测价格波动规律,对我国宏观政策制定、预警系统性金融风险、加速推动更有效的期货市场体系的建立具有指导价值。也为投机者规避价格风险,进行套期保值与套利策略制定提供依据。
在金融时间序列预测研究中,有学者采用统计学方法进行预测,如VAR[1]、ARIMA[2]等。该类方法具备灵活性和适应性,但往往对非线性序列拟合效果不佳[3]。金融时间序列具备非线性、多噪声的复杂特征,如何捕捉序列的动态变化趋势是一个巨大的挑战。
近年来,随着人工智能的发展,深度学习方法被广泛应用到金融时间序列预测问题上。基于卷积神经网络(CNN)、循环神经网络(RNN)的方法能够在时间尺度上实现特征提取任务[4],而如何挖掘变量间相关性特征问题得到了广泛关注。近期开发的LSTNet[5]、TPA-LSTM[6]模型在CNN、RNN网络的基础上引入编码器-解码器结构及注意力机制,有效捕获多元时间序列的非线性模式。然而,该类模型在处理较长序列时表现不佳,且并未对变量间的依存关系进行显式建模,弱化了模型的可解释性。
有学者将多元时间序列视为图结构,将变量视为图形中的节点,利用图卷积网络捕获节点间的相互依赖关系[7]。目前,基于图卷积网络的方法主要分为基于谱(spectral-based)和基于空间(spatial-based)的方法[8]。基于谱的网络往往利用正则化拉普拉斯矩阵研究无向图特征,而金融时间序列变量间往往存在因果关系信息,即节点间具备有向相关性特征。故基于空间的模型能够更适应于处理有向多源输入,但如何利用图神经网络对金融时间序列变量间的因果关系进行定量表征仍是一个挑战。
为应对以上挑战,本文提出了一种端到端的预测框架。设计时间卷积网络捕获代表序列的节点特征,发现多频率时间模式,应对长序列处理挑战;利用传递熵构建节点间的邻接关系矩阵,解决序列间的因果关系特征问题;设计图神经网络模型TE-GNN(graph neural network with transfer entropy),并应用于农产品期货预测任务中。主要贡献概括如下:
(1)构建融合传递熵的图神经网络模型,以变量间的因果关系作为先验信息构建传递熵图,指导预测任务。
(2)在端到端学习框架中,从图的角度出发,提取时间维度信息表示节点特征;同时利用传递熵矩阵表示节点间的邻接关系,最后使用图神经网络融合邻域节点间的信息,对多元时间序列进行建模。
(3)在真实的大豆期货数据集上进行实验。结果表明,TE-GNN模型的预测效果在MAE、RMSE指标上优于现有通用的时间序列预测模型。
目前已有学者就农产品期货价格预测问题进行了研究,预测方法集中于利用统计学方法与深度学习方法。
就统计学方法而言,自回归模型、移动平均模型及指数平滑模型等视序列具备线性变化特征,通过挖掘历史数据隐含信息实现价格波动趋势的预测。Yang等[9]构建具有时变稀疏性的HAR模型,利用波动率及其他潜在预测因子实现对中国农产品期货波动率的预测;Wang[10]构建ARIMA模型,利用自回归系数(p)、差分时间(d)和移动平均系数(q)对大豆期货收盘价进行预测。以统计学为学科基础的预测模型具备良好可解释性的优点,但往往需要复杂的特征工程,且对具备非线性复杂特征的农产品期货数据的预测能力往往表现不佳。
随着人工智能的发展,深度学习模型在图像识别、自然语言处理等领域表现良好。从非线性特征出发,通过堆叠神经网络实现对复杂非线性特征的拟合,成为了当前领域研究的热点与前沿。Zong等[11]采用BP神经网络对农产品期货价格进行预测,验证了模型具备比统计模型更高的预测精度;Kurumatani[12]构建基于递归神经网络(RNN)的时间序列预测方法,验证了RNN网络在农产品期货价格预测上的有效性。为解决传统的循环神经网络对金融时间序列预测的长期依赖问题及梯度爆炸问题,Jia等[13]设计结合长短期记忆网络(LSTM)及注意力机制的时间序列预测模型,对农产品价格指数进行预测,有效提高了传统模型的预测精度。
上述研究主要致力于对序列本身波动特征的挖掘,农产品期货价格走势仍反映了市场中交易双方博弈过程中的信息。我国农产品期货进出口依存度高、需求量大。考虑到由供求关系导致的价格波动情况,通过表征国际农产品期货价格的相关性特征,对价格波动走势进行预测,将有效提高预测精度[14]。
图是一种多元时间序列的特殊表达形式,将变量视为节点,利用节点间的邻接关系可清晰地表征变量间的相关性特征。在构建图的过程中,现有方法假定节点间皆存在依存关系[15]。事实上,变量间的因果干预作用将对序列未来值产生影响,通过先验因果信息表达变量之间的相互作用将为预测提供指导[16]。目前对序列因果关系表征集中于利用格兰杰因果关系检验与基于因果分析的传递熵方法。前者针对平稳序列构造自回归等经典计量经济模型,依次判断变量间是否存在长期均衡的因果关系,缺点是无法较好地处理变量间的非线性关系。传递熵方法在处理非线性关系时表现良好,目前已在金融时间序列挖掘、信号处理等领域得到广泛应用[17]。
鉴于此,本文提出一种融合传递熵的图神经网络农产品期货预测模型,利用时间卷积模块提取序列时间维度信息,并映射为图中的节点特征;同时,将传递熵矩阵视为节点间的邻接矩阵,表达国内外市场农产品期货价格的因果依赖关系;利用图卷积模块识别图结构特征,捕获信息从邻域传递到节点本身的高级表示,最终得到TE-GNN模型的单步预测输出。
针对各国市场农产品期货价格的预测任务,给定多元时间序列X={X1,X2,…,XT}∈ℝT×N,令表示第t个时间步处N个变量的观测值,Xn∈ℝT表示第n个变量在T个时间步内的观测值。构建图G=(V,E),其中V为节点集,E为边集。从图的角度看,视不同市场的期货价格变量为图中的节点;计算变量间的传递熵作为图邻接矩阵,表述节点间的有向关系。根据T时段内的历史价格数据X和反映变量间依赖关系的图G,预测未来第h天的期货价格构建映射关系f(·)表示如下:
模型整体结构框架如图1所示。输入农产品期货历史价格数据,利用时间卷积模块识别序列时间模式,并映射为图结构中的节点特征,其中每个变量视作一个节点;计算输入序列的传递熵矩阵,作为权重系数表示节点间的邻接关系,由此将序列映射为图结构。利用图卷积模块实现邻域节点间的信息交互。为避免梯度消失问题,使用残差连接方法[18]连接m层输出特征,经标准卷积操作将隐含特征投影为所需尺寸,实现多元时间序列预测任务。
图1 TE-GNN模型整体结构框架Fig.1 Overall structure framework of TE-GNN model
在输入时间窗口内,构建图G表示节点特征及变量间的邻接关系。在分析表示节点特征的单变量序列时,需考虑观测值随时间变化的趋势。金融时间序列往往伴随着一定的周期性时间模式,故设置时间卷积模块,以多个特定的时间周期为单位提取序列特征,实现序列长短期信号模式的挖掘。时间卷积模块通过识别单个变量的时间依赖性信息,表示为节点的隐含特征向量,结构如图2所示。
图2 时间卷积模块Fig.2 Temporal convolution module
时间卷积模块利用扩张卷积(dilated convolution)[7]处理输入数据,即在标准的卷积核中注入空洞,从而在保留模型参数量的同时增加感受野大小。通过一组具有不同尺寸的滤波器,实现对序列不同频率时间模式特征的提取。使用p个不同的一维卷积滤波器Wi(i=1,2,…,p),生成不同尺寸的卷积核1×ki(i=1,2,…,p),对输入序列Xn∈ℝT进行时间尺度的卷积。串联卷积提取的特征,实现序列不同时间模式特征的挖掘,过程表示如下:
其中,tanh(·)为双曲正切激活函数,并用作过滤器,σ(·)为sigmoid激活函数,用于控制卷积核传递给下一模块的信息量比率。*表示卷积运算,⊙表示元素哈达玛积,Concat(·)表示串联运算。金融时间序列具有的固定周期多为5、7、12、24、28、60,为表示包含这些周期的时间模式,采用四种滤波器尺寸,即p=4,Wi=2、3、6、7,生成1×2、1×3、1×6、1×7大小的卷积核来覆盖上述固定周期。
传递熵(transfer entropy)常用于对变量间信息传递过程的研究。通过计算一个变量信息量传递后被观测变量的不确定度,来表征两个变量之间的因果关系。
在多元时间序列预测任务中,通过计算传递熵作为节点的邻接矩阵,表示其余变量对目标变量的影响程度,将有效降低模型训练难度,防止不相关变量被模型学习。当变量Y由未知变为已知时,变量X的信息量的增加即为Y到X的传递熵,表示如下:
则变量X和Y间的因果关系可表示如下:
当TX,Y>0时,表示变量X是Y的原因,TX,Y<0则表示X是Y的结果。
利用传递熵矩阵作为多元时间序列的先验信息,通过计算序列的传递熵矩阵T∈ℝN×N作为图的邻接矩阵,表示节点间的交互关系。传递熵矩阵T的第i行第j列元素Tij表征了变量Xi和变量Xj间的因果关系,当i=j时,取Tij=1;当i≠j时,Tij计算公式如下:
其中,Xi,Xj∈ℝT,分别表示序列X的第i个、第j个变量,Tij数值的大小将直接反映变量Xj对Xi的影响程度。
继提取节点特征及节点间的邻接关系后,输入的多元时间序列由矩阵X∈ℝT×N转为由N个节点构成的图特征矩阵H∈ℝN×c,其中c为时间卷积通道数。实现图的构建过程后,利用图卷积模块处理图特征矩阵,将节点信息与邻域信息结合,实现对节点信息流的表示,结构如图3所示。
图3 图卷积模块Fig.3 Graph convolution module
通过传递熵矩阵T表示节点的邻接关系,利用信息传播与注意力机制[19]两个组件处理节点信息流。信息传播部分结合图结构特征,递归地传播节点信息,表示如下:
其中,H(k)表示传播层深度为k时的信息传播状态,α为控制节点保持原始状态比例的超参数,h={h1,h2,…,hN}为时间卷积模块输出的每个节点的隐含层状态,T为X的传递熵矩阵。
注意力机制部分利用参数矩阵β(k)充当信息传播状态的权重,筛选重要信息特征并传播给下一层,由此可实现网络节点本身及邻域信息的特征提取,表示如下:
为将隐含层信息输出为期望的维度,在输出模块进行残差连接操作和设置标准卷积层。由于最终输入到输出模块的信息为多个模块的拼接,故使用卷积核大小为1×Li的标准卷积并进行残差连接,将输入信息标准化,使其具备相同的序列长度,其中Li为第i层输出的序列长度。此外,利用卷积核大小为1×l的标准卷积层,在指定的维度下输出最终的预测值X̂T+h∈ℝN。
作为较早推出的农产品期货品种,大豆期货价格走势呈非线性、非平稳特征,如何对大豆期货价格走势进行预测则成为了一项备受关注的课题[20]。目前,美国、日本、巴西等大豆主产国在中国大豆进口贸易中占据主导地位,合理利用国内外大豆期货市场间的联动性特征将有效提高预测性能。选用2012年3月21日至2019年12月30日期间内,中国大连商品交易所(DCE)上市的黄大豆一号期货合约、美国芝加哥商品交易所(CBOT)、日本东京商品交易所(TOCOM)及巴西圣保罗证券期货交易所(BM&F)上市的大豆期货合约的日收盘价格数据作为数据集,数据来源于英为财情(Investing)。以时间为尺度匹配、对齐各国期货交易所的大豆期货交易数据,考虑到由节假日、停盘等因素导致的数据缺失问题,将缺失数据对应时间步的各国期货交易所数据皆予以剔除处理,由此可获得1 673组样本观测值,样本总数为6 692条,实验数据的描述性统计如表1所示。
观察表1可知,不同市场大豆期货原始价格数据均值、偏度及峰度等统计量相差较大,考虑到不同变量数据间不同量纲的影响,对数据集进行MinMaxScaler归一化处理,定义如下:
表1 大豆期货价格数据的描述性统计Table 1 Descriptive statistics of soybean futures price data
其中,xnorm为x在[0,1]之间的缩放表示,x、xmax及xmin分别表示各国大豆期货收盘价数据的原始观测值及其最大值、最小值。按时间顺序划分训练集(80%)、验证集(10%)和测试集(10%),使用滑动窗口技术以窗口长度为T时间步长的多元时间序列作为TE-GNN模型的输入,以任一时间t+1为始的输入{Xt+1,Xt+2,…,Xt+T}∈ℝT×N都可得到预测值X̂t+T+h∈ℝN。
为验证TE-GNN模型的预测性能,将模型与以下7种基线模型进行比较:
(1)VAR[1]:向量自回归模型,可分析序列自身滞后项的影响及相关变量的滞后项对未来值的影响。
(2)RNN-LSTM[13]:长短期记忆网络,主要利用门控单元来解决循环神经网络梯度爆炸问题。
(3)LSTNet[5]:一种专门针对多元时间序列设计的深层神经网络,结合了卷积神经网络、递归神经网络及自回归组件。
(4)Seq2Seq-LSTM[21]:一种循环神经网络的变体,基于编码器-解码器结构下的LSTM网络。
(5)TPA-LSTM[6]:一种基于注意力机制的递归神经网络,主要利用注意力机制选择相关变量进行加权,从而实现多元时间序列预测任务。
(6)GMAN[22]:一种基于多级注意力机制神经网络,在编码器-解码器结构下为序列的变量相关性特征和时间模式特征加权。
(7)MTGNN[7]:一种基于图神经网络的多元时间序列预测模型,可自适应地提取图结构关系。
(1)指标设置
为衡量模型预测性能,采用两种传统的评价指标来评价多元时间序列预测模型性能,平均绝对误差(mean absolute error,MAE)及相对平方根误差(root mean square error,RMSE),定义为:
其中,N为变量个数,D为窗口个数,表示第j个窗口下第i个变量的观测值,表示对应的模型预测值。通过上述两个指标衡量观测值与预测值间的差异,误差越小,表示该模型具有的预测性能越好。
(2)参数设置
利用Python 3.7及PyTorch 1.2深度学习框架构建模型,使用网格搜索法确定最优超参数,通过L1正则化计算损失。设置dropout率={0.1,0.2,0.3},Batch size={16,32,64},时间窗口大小Window={12,24,36},学习率=1E-4,残差连接通道数为16,输出通道为64。
此外,对具有代表性且对预测效果产生重要影响的模型参数进行调优,包括网络层数m、时间卷积层中卷积核通道数c及图卷积层信息传播深度k。在控制模型其他参数不变情况下,设计参数取值水平为m={1,3,5,7},c={16,32,64,128},k={1,3,5,7},参数对预测结果的影响如图4所示。由图4可选择网络层数为m=5、卷积核通道数c=64、信息传播深度k=3。
图4 模型参数对预测结果的影响Fig.4 Influence of model parameters on prediction results
模型训练集及验证集损失值随迭代次数增加的变化趋势如图5所示,训练集在经过50次迭代后,损失值将基本不再下降,故选择TE-GNN模型迭代次数为50次。此外,对于所有基线的神经网络模型,递归层与卷积层的隐藏层维数={16,32,64,128}。不同优化器在相同参数环境下对模型性能的影响情况如表2所示,Adam优化器通过动量累积梯度,具备收敛速度快、波动幅度小的优点,故采用Adam优化器对神经网络模型进行优化。
表2 优化器对预测结果的影响Table 2 Influence of optimizers on prediction results
图5 随迭代次数增加TE-GNN模型损失值变化情况Fig.5 Loss of TE-GNN model changes with number of iterations
本文构建TE-GNN预测模型,利用传递熵矩阵表示不同市场下的大豆期货变量间的因果邻接关系;时间卷积模块通过设置不同尺寸的卷积核,识别序列周期性时间模式,并用作节点特征表示;在图卷积模块通过设置信息传播与注意力机制实现节点及其邻域特征信息的提取与选择。表3总结了基线模型与TE-GNN模型在预测时间步长h={1,3,5,7}情况下的预测结果。每个预测时间步长下不同指标的最佳预测结果如表3粗体所示。
表3 TE-GNN模型与基线模型的预测结果Table 3 Prediction results of TE-GNN model and baselines 10-2
实验结果表明,基于传递熵和图神经网络的TE-GNN模型在不同预测时间步长下的MAE、RMSE指标预测结果皆优于基线模型。其中在h=1时,TE-GNN模型在MAE误差指标上比基线模型降低2.53%至80.70%,在RMSE误差指标上降低1.60%至76.48%;h=3时,在MAE误差指标上比基线模型降低1.45%至66.75%,在RMSE误差指标上降低0.93%至60.52%;h=5时,在MAE误差指标上比基线模型降低6.05%至54.09%,在RMSE误差指标上降低4.11%至52.05%;h=7时,在MAE误差指标上比基线模型降低4.46%至54.95%,在RMSE误差指标上降低1.89%至49.51%。
如图6所示,TE-GNN模型在短期及中长期预测性能皆由于基线模型,能够实现变量时间模式特征的表征及变量间依赖关系特征的提取任务。相比之下,VAR模型考虑变量间的跨期动态相关性,但由于其无法处理非线性复杂变量间的因果关系而具备最大的预测误差。RNN-LSTM网络、LSTNet及在编码器解码器结构下的Seq2Seq-LSTM网络仅关注了序列的时间相关性特征而具备了较差的预测效果。相对而言,TPA-LSTM模型及GMAN模型引入了注意力机制,为序列的时间相关性及变量间的非线性相关性动态加权,具备了更好的预测性能。此外,MTGNN模型通过图学习层自适应嵌入图的邻接关系,作为基于图神经网络的多元时间序列预测模型,能够更好地识别变量间的依赖关系及时间模式特征,但却忽略了金融时间序列变量间的因果关系,故具备高于TE-GNN模型的误差水平。
图6 TE-GNN模型与基线模型的预测结果Fig.6 Prediction results of TE-GNN model and baselines
为能够明确TE-GNN模型的预测性能,可视化测试集部分的预测结果。以中国大连商品交易所上市的黄大豆一号期货收盘价变量在预测时间步长h=3的情况下为例,对预测结果进行反归一化,预测值与实际观测值走势如图7所示。TE-GNN模型能够对大豆期货价格数据进行良好的拟合,且能够检测出波动幅度较大处的价格走势。TE-GNN模型在预测过程中出现误差较大的 时 刻 为 在2019年9月27日 至2019年10月23日及2019年10月31日至11月18日两段时间内出现 的谷值点处,前一段时刻内由于受技术性卖盘打压,且在美国农业部发布季度作物供需报告前,投资者轧平头寸,导致我国大豆期货收跌;后一段时刻由于中美贸易协议签订受APEC会议取消及中美贸易不确定性影响,导致我国大豆期货价格走势出现波谷。故引入事件分析法将更准确地拟合波峰、波谷处的价格数据,为模型的进一步优化提供参考。
图7 DCE黄大豆一号期货收盘价的预测结果Fig.7 Forecasting results of closing price of soybean No.1 futures in DCE
此外,为明确模型各模块对最终预测效果的影响方向及程度,并验证上述改进来自于添加的每个组件的效用而非特定的参数集,对TE-GNN模型进行了消融研究。使用相同的超参数集,分别设置如下:
(1)w/o TE:将传递熵矩阵替换为全1矩阵,即假设变量与所有的其他变量相关。
(2)w/o m_k:取消多尺度滤波器设置,将时间卷积层中滤波器大小固定为1×7。
(3)w/o GCN:去除整个图卷积层部分,并将图卷积层替换为线性连接组件。
(4)w/o ATT:去除图卷积层中的注意力机制组件,将信息传播的输出直接传播给下一模块。
消融研究的实验结果如图8所示。观察实验结果可知,完整的TE-GNN具备最佳预测效果。设置表征变量间因果关系的传递熵矩阵将显著改善模型预测效果,验证了传递熵矩阵能够作为邻接矩阵表征变量间的有向相关性,在TE-GNN模型中起着重要作用;多尺度滤波器的设置能够有效减小模型误差,验证了不同尺寸滤波器在捕获时间频率模式信息的有效性;图卷积模块的设置显著改善了预测结果,因为该组件的设置能够识别节点间的交互信息,实现有效的信息传播与特征筛选;图卷积层中的注意力机制组件的引入也将提高模型预测性能,这验证了注意力机制作为特征筛选器作用的合理性。
图8 消融研究结果Fig.8 Ablation study results
本文针对具备联动性的农产品期货序列,提出了一种基于传递熵和图神经网络的深度学习预测模型。视多元时间序列为图结构,利用时间卷积模块捕获节点特征,识别序列时间模式周期性频率特征;采用传递熵矩阵表征节点间的因果邻接关系;利用图卷积层实现对图结构特征信息的提取、传播及筛选,从而获取精准的预测效果。在真实的大豆期货数据集上进行实证研究,TE-GNN模型具备比LSTNet、TPA-LSTM、MTGNN等七种基线模型更好的预测效果,表明从变量间的因果关系角度出发,提取序列时间模式特征及变量间的交互信息,可为农产品期货价格预测任务提供更准确的指导,且通过消融研究验证了模型中重要组件设置的合理性。
考虑到模型对特定突发金融事件导致的价格波谷上的预测误差,在以后的工作中,可引入特定的事件类别数据作为变量,使模型能够更准确地拟合波峰、波谷处的价格趋势特征。