付星星 张 军 秦 岩 宋元超
1(山东理工大学管理学院 山东 淄博 255000) 2(山东卓创资讯股份有限公司 山东 淄博 255000)
随着我国在国际经济贸易中的地位提升,我国已经成为全球最大的大宗商品需求国。除了石油、矿石及各种农产品外,化工产品也是大宗商品的重要组成部分。它可以直接或间接地给能源、纺织、制药、仪器设备等众多行业提供原材料,在我国国民经济发展中处于重要的基础性地位。由于产业链上下游产品数量众多,产业链中上下游产品价格和收益率波动变化往往存在着一定的关联性,具有显著的联动效应[2],并且价格波动往往表现为复杂的非线性关系,政府对此进行监管有一定的难度。因此,分析产品及其上下游的历史数据和各项技术指标,并依据相关理论和算法模型来预测产业链产品价格走势具有重要的理论意义和社会价值[3]。
目前商品价格预测方法的研究经历了从定性到定量,从对数据的简单统计到经济计量,发展到现在基于大数据背景下的对历史数据的学习算法[4-8]。当前的经典计量经济学方法如ARIMA、Garch和VAR大多直接选取产品市场数据为研究对象,可以合理地在特征提取方面对数据进行降维和转换等操作,但是不能有效地将产业联动效应下多产品价格之间的潜在关联因素考虑在内,更不能针对产业链整体价格走势作出判断。并且这些方法在非线性时间序列预测准确性和时序信息利用方面也存在一定的不足。
近年来,一些学者将神经网络等算法应用于图结构数据的分析。Yu等[9]将卷积神经网络和递归神经网络引入对交通流的预测中,结果表明该算法具有更高的准确率。Tai等[10]针对自然语言表现出将单词自然地组合成短语的句法特性,提出不同于链结构(chain-structured)LSTM的tree-LSTM,将其运用于语句间的语义关联程度和语句情感分类的预测,通过与LSTM预测结果对比,表明tree-LSTM的准确率更高。Zitnik等[11]将不同的药作为节点,药与药之间的影响为边构建出药物间互相作用的网络结构图,引入卷积神经网络预测多药的副作用。实验结果表明该模型能够自动学习多药副作用的表征,对多药副作用的预测准确率达到了目前最高的69%。Battaglia等[12]针对近年来针对图结构数据的运算模型提出了一个基于实体和关系推理的算法框架-图网络(Graph Network,GN)框架。该模型[12-15]对非线性序列预测的准确率更高,不仅可以网络中全部节点属性,还可以对节点之间的关系进行推理,对图的全局运作规律进行挖掘。
因此,本文考虑产业链上下游产品间价格存在的联动效应出发,以聚丙烯产业链产品为网络节点,产品间的生产依赖关系为网络中的连边,聚丙烯产业链产品网络抽象为有向无权图G(V,E)。利用图深度学习算法对非线性时间序列良好的拟合预测能力开展预测研究。此外,将模型预测结果与传统的机器学习方法进行分析对比,检验本文模型的有效性。
图深度学习算法是针对非线性时间序列数据设计的一种机器学习算法。图结构数据模型如图1所示。在图数据结构中,实体表示成节点,而节点之间的关系被表示成边,系统层面的特征用全局属性表示。
图1 图结构数据模型
图网络结构的主要计算单元是GN模块,以图为输入,在GN模块内执行计算,并返回一个图作为输出。vi表示节点,ek表示节点之间相连的边,u表示全局属性。sk和rk分别表示边ek的发送节点和接收节点。
完整的图网络模块的内部结构包含三个更新函数φ1、φ2、φ3,以及三个聚合函数ρ1、ρ2、ρ3:
(1)
(2)
(3)
(4)
(5)
(6)
整个算法过程如下:(1) 利用当前的边信息E、节点信息V、全局信息U来生成新的边的信息;(2) 利用新的边信息,生成新的节点信息;(3) 利用新的节点和边信息,生成新的全局信息U,即完成整个更新过程。
GN模块关键的设计原则是:第一,多个实体和实体间的复杂关系可以灵活地表征;第二,模块内部结构可根据需要配置;第三,可组合的多模块框架,节点、边、全局属性的状态更新所需信息、更新顺序及更新函数和聚合函数的选用均根据实际情况进行设计[12]。
大宗商品包括能源商品、基础原材料和农副产品三个类别。传统的农副产品和基础原材料并不能依据生产依赖关系建立起完备的生产关系网络。
数量众多的大宗化工产品之间存在直接或间接的生产关系,构成了一个完备的图结构。鉴于此本文以产业链内产品为网络节点,产品间的生产依赖关系为网络中的连边,将整个化工产品网络抽象为有向无权图G(V,E)。其中V={v1,v2,…}中的每一个节点代表了一种化工产品,E={eij∈E|eij
图2 聚丙烯产业链网络结构图
图3 价格预测模型GN模块
2.2.1输入层
输入层负责对节点输入的节点属性、边属性、全局属性进行相应的处理,满足网络输入的要求。根据聚丙烯产业链中各产品市场特征,获得不同节点的现货价格(sp)、期货价格(fp)、产量(op)等作为节点属性。全局属性选取中国大宗商品指数(CCPI)、生产价格指数(PPI)作为对产业链产品所处市场宏观环境变化情况[16];此外,根据文献[17],本文选取产品网络结构熵(se)作为边属性,计算公式如下:
(7)
式中:p(i)为节点i的度概率分布。节点度是指和该节点相连的边的条数,网络结构熵衡量的是网络中某一节点的节点度的网络节点度分布中的重要性[17]。
2.2.2更新计算
步骤1在wind数据库中选取各产品数据,并按照节点属性、边属性、全局属性对数据进行分类,结合LSTM对输入数据的要求,对数据进行归一化处理。
步骤5训练完成后,将测试数据作为输入,输出值即为现货价格的预测值。
N表示节点的个数,更新函数LSTM1、LSTM2、LSTM3均在Keras框架下进行实现,分别进行单独训练,均选取MAE作为训练目标函数,Adam作为优化函数。
2.2.3输出层
将归一化数据还原到原始尺度,t+1时刻产品预测价格为:
(8)
根据聚丙烯产业链中各产品市场特征的不同,从wind数据库中获得2014年1月—2018年12月的不同节点的节点属性、边属性、全局属性的月度数据,如表1所示。选取2014年1月—2018年3月的51个月的统计数据作为训练集;2018年4月—11月的产品价格作为测试集。
表1 t时刻输入数据
续表1
采用min-max归一化对原始数据处理,消除量纲差异。对原始数据的线性变换,使结果落到[0,1]区间。转换公式如下:
(9)
式中:xmax表示样本数据属性中的最大值;xmin表示样本数据属性中的最小值;x为属性原始数据;X为归一化后的数据。
LSTM的网络结构和参数设置决定着模型最终的预测性能。经过调优最终确定的三组实验内LSTM的参数如表2所示。
表2 各实验LSTM参数设定
本文选取平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)作为评价指标对模型预测结果进行定量评价。MAE、RMSE、MAPE的数值越小,表明模型预测结果与真实值偏差越小,结果越准确[18]。具体公式定义如下:
(10)
(11)
(12)
为了验证该模型的预测性能,设置两组对照实验:第一组是单变量LSTM价格预测,输入为产品现货价格,更新函数为LSTM,输出为产品现货价格预测值;第二组是多变量LSTM价格预测,输入为产品的多个属性值,更新函数为LSTM,输出为产品现货价格预测值。
相关模型的预测结果如图4所示。
(a) 聚丙烯预测值比较
(b) 原油预测值比较
注:1英热=1 055.055 85焦耳
(d) 煤炭预测值比较
(e) 甲醇预测值比较
注:1加仑≈3.785升。
(g) 丙烯预测值比较
(h) bopp预测值比较
(i) cpp预测值比较
(j) PP注塑预测值比较图4 聚丙烯产业链各产品预测结果比较
由图4(a)-图(c)的对聚丙烯、原油、天然气现货价格的预测可见,图深度学习模型预测值在整体走势与真实值较为符合,但在真实值曲线波动剧烈处,预测准确度表现较差。在产业链价格波动单向传导的情况下,对产业链上游价格进行预测时,图深度学习预测模型无法获得更多的市场信息,因此无法对产品价格的波动进行有效的预测。观察中下游产品价格预测值可知,在对甲醇、丙烯的预测中,图深度学习模型的预测结果在8个月的时间段上非常接近真实值,对产品丙烯、cpp、PP注塑的预测表现优越,可见当充分掌握产业链上游产品信息,产品价格稳定时,图网络模型的预测更加精确。在对bopp的预测中,由于缺少产品自身市场信息,当产品价格发生波动时,图深度学习预测模型预测数值偏差较大。
根据表3所示的评价结果,在对产业链上原油、甲醇、丙烯、PP注塑产品的预测中,预测误差在MAE、RMSE、MAPE评价标准下均优于其他两种预测模型。在MAE评价标准下,图深度学习模型对天然气、cpp产品价格的预测表现稍差于其他预测模型,对产业链上其他产品的预测均优于其他预测模型。在RMSE评价标准下,单变量LSTM预测模型仅对bopp产品价格预测具有微弱优势;对产业链上其他产品的价格预测,图网络价格预测模型均表现优越,表明了深度学习模型在获取足够的市场信息的情况下,能够准确预测因市场环境变化带来的价格的异常变化。在MAPE评价标准下,对聚丙烯及上游产品天然气、煤炭、丙烷的预测中,图网络模型表现出微弱的劣势,而对下游产品丙烯、cpp、PP注塑其预测效果显著。
表3 各预测模型评价指标比较
由此可见,对于产业链上大宗商品的价格预测,在整体表现上,基于图深度学习的价格预测模型表现更好、预测精度更高。
本文针对大宗商品价格预测问题,在考虑大宗商品价格波动的非线性和上下游联动的基础上,在一般的单变量LSTM和多变量LSTM价格预测模型上加入了产品的边属性及全局属性,提出了基于图深度学习的价格预测模型。使用wind数据库中的产品数据进行实验,结果表明从产业链全局视角出发,建立产品价格关系图基于图深度学习的价格预测模型对产业链上的多种产品价格预测具有更高的准确度。
下一步工作一方面将在产业链上游价格波动向下游单向传导的基础上,考虑价格波动的双向传导,设计实验;另一方面,由于化工行业主要产品种类繁多,完整的产品网络体系结构庞大,现阶段尚未获取更多的产品数据,因此将在实验中加入产业链上产品的其他属性,完善图网络结构,进一步扩大实验的数据规模,达到更好的训练效果。