陆瑶
(东北财经大学管理科学与工程学院,辽宁大连 116025)
基于期货市场行为的时间序列切分及表示方法研究
陆瑶
(东北财经大学管理科学与工程学院,辽宁大连 116025)
对于期货市场所形成的时间序列数据,其主要的市场特征可概括为其单边模式,为了对其进行充分还原,应选取恰当的时间序列建模方法对所形成的的时间序列数据进行切分。文章首先介绍时间序列数据建模表示的一般方法,并在此基础上,提出文章所采用的基于市场行为的时间序列数据切分方法。数据处理工作全部基于C++编程实现。
期货市场;时间序列数据;切分;表示方法
时间序列连续而高维的特征导致对其进行直接处理较为困难,故建模成为实际数据挖掘之前的一个重要环节。
传统的时间序列数据建模通常采用分段表示的方式,可划分为两类:基于时域的分段表示方法与基于变换域的分段表示方法。其中基于时域的分段表示方法主要包括:使用分段的特征值来表示序列、使用分段的近似曲线来表示序列、使用重要特征点来表示序列、使用符号化来表示序列等。基于变换域的分段表示方法主要包括:离散傅里叶变换、离散小波变换、奇异值分解算法等。
2.1 切分方法描述
为充分还原市场的单边模式及震荡情形,本文引入数理统计中线性回归的思想,基于市场行为,对期货市场时间序列数据进行切分处理与表示。
算法基本思想是,在对时间序列数据进行切分处理时,对每个得到的子序列进行线性回归,当切分得到的子序列的回归判定系数R2大于给定的阈值t时,可将时间序列中的下一个数据点加入该子系列中继续计算,否则,可将当前数据点视为切分断点,从该数据点开始重新搜寻下一个子序列,直到将整个序列搜索结束或到达最新时间点。对于切分后得到的数据,长度达到3及以上的子序列,即可视为市场单边模式序列,对其利用线性回归的结果进行描述;而对于切分断点,相连即可得到市场震荡点序列。
对于行文中所需设定的回归判断系数的阈t值,若t设定过小,得出切分断点将极为迟钝,滞后严重;若t设定过大,将导致很少的数据点被划入到子序列中,从而出现时间序列被过度分割的现象。t的选择具有极强的主观性,本文建议贼的参考范围为:贼~[0.7,0.8]。
2.2 样本数据的切分处理
以伦敦金属交易所(LME)交易品种之一的伦铜期货为主要研究对象,将2001年1月2日至2015年5月12日的伦铜指数日交易数据的收盘价作为样本,进行数据的切分处理,将回归判定系数阈值t设为0.7。具体可获得3632个交易日的交易数据。
按照上述算法描述,对3 632个交易日收盘价序列进行数据切分处理,获得单边模式序列及震荡点序列。图1所示为2015年3月13日至2015年4月17日伦铜期货40个交易日的收盘价序列的切分结果。
2.3 切分后样本数据的表示
对于上述3 632个交易日收盘价序列切分得到的切分结果,将一个单边模式序列与一个震荡点序列组合,将其从取样期开始至结束划分为703组,结合领域知识与传统技术分析方法,每组选取6个属性进行描述:单边持续时间、单边趋势幅度、震荡持续时间、断点幅度、成交总量、终点收盘价距MA20差额百分比。对于单边模式后,趋势直接反转,即不存在市场震荡的情形,为统一分组处理方式,可将该组中震荡持续时间记为0。其中:
图1 伦铜指数切分数据
单边趋势幅度可定义为:
(单边模式终点收盘价-单边模式起点收盘价)/单边模式起点收盘价;
断点调整幅度定义为:
(断点收盘价-单边模式终点收盘价)/单边模式终点收盘价;
终点距移动平均线差额百分比定义为:
(终点收盘价-终点对应MA20值)/终点对应MA20值。
对于切分后得到的样本数据,可进一步利用数据挖掘中时间序列分析的方法对单边运行的趋势方向及单边运行深度的比例进行预测,以及对期货市场进行数理统计分析。
对于期货市场所形成的时间序列数据,其主要的市场特征可概括为其单边模式,为了对其进行充分还原,本文引入数理统计中线性回归的思想,提出基于市场行为的时间序列数据切分方法。对于切分得到的结果,以一个单边模式序列与一个震荡点序列相组合的方式,单边持续时间、单边趋势幅度、震荡持续时间、断点幅度、成交总量、终点收盘价距MA20差额百分比等6个属性进行描述。
本文提出的时间序列数据切分方法,以期货市场行为作为基础,既实现了对时间序列整体形态的细致刻画,又保留了单边趋势较弱但信息量丰富的市场震荡情形,最为突出的是,本文提出的方法适于跟踪预测,避免了数据滞后的虚假处理。此外,对于切分结果的分组表示,也可为后续对单边运行的相关预测奠定强有力的数据处理基础。
10.3969/j.issn.1673-0194.2015.19.083
F713.35
A
1673-0194(2015)19-0144-02
2015-05-25