统计学视角下的金融高频数据挖掘理论与方法研究

2019-10-21 08:01顾亦凡
科学与信息化 2019年28期

顾亦凡

摘 要 本文从统计角度,对金融高频数据的概念进行辨析,将其与传统数据进行对比,针对其具有噪声的特点,提出了应用HHT方法进行分析,并对HHT方法进行详细说明。

关键词 金融高频数据;金融高频交易数据;HHT方法;EMD分解

21世纪世界经济全球化趋向加倍显著,金融逐渐国际化。大范围的金融数据在人们的平日生活中起了越来越重要的影响。金融数据的挖掘和分析变得至关重要,在对金融数据处理和应用时,数据本身的统计特征不可以被忽视。

金融数据自身所具有的统计特点不可以被忽略,当我们在应用金融高频数据时。这是统计可以被看作是正确认识数据的依据。根据早期研究,金融高频数据并不是稳定的,在较短时间内,会有厚尾趋势。而近期研究显示,其还具有非正态性的特征。

1金融高频数据概念

首先要对高频,低频以及超高频数据来进行划分,对于主要用小时,分钟,秒来计量的数据我们将其称为高频数据。相应的,低频数据通常以天,周,月,年作为计量单位的数据,而并不是日内数据。进一步而言,金融中所提及的超高频数据,对于交易的过程是实时采集的,对于每笔的交易产生都条条记录,并不是我们所认为的抽样数据,而是全样本数据,也并不是等间距的数据,数据时间的发生是不等的。

金融中高频数据和超高频数据囊括的范围是广泛的,除去买卖价格以外,和买卖关联的诸如询价报价等也都被容纳其中。金融高频数据包含大量市场微观结构的信息。采用高频数据,可以在较窄的观测区间内产生满足分析所需要的数据量,同时对市场微结构模型做出恰当的验证。

想要区分高频和低频数据,就必须理解到噪声层面,噪声明显在高频数据中,相反的,低频数据中,噪声是可以被忽略的。

金融中高频数据和超高频数据大部分是相似的,首先它们都是体内数据,他们的价值也都是离散而非连续的,最后它们的业务的记载都是不等间隔的。但是同时它们也存在着不同点,比如说高频数据存在非同步交易的特点。

由于交易的数据会因为多方面的原因缺失,或者说交易的时间点,交易的计算等多种问题,同时微结构噪声,跳跃成分等等也对数据造成干扰,金融高频数据的质量往往并不高。

在接下来,我们来介绍高频交易。购买,销售证券,这一类根据速度获利的交易,常常被我们称为是高频交易,这个速度是非常惊人的,常常可以达到千分之一秒甚至百万分之一秒。高频交易中的决策并不单单只依赖于当前的数据,而是通过对大量的历史数据的快速处理,并且对价格微小变动迅速反应构造资产组合头寸。但是我们要区分一下交易高频数据和高频交易数据。交易高频数据在大部分时间是对一般买卖的即时记载,但是高频交易数据是对高频交易的记录。不过这两种数据都对短期很关注[1]。

2进一步理解金融高频数据

一种新的对数据的处理数段迫切被需要,因为在高频数据中,高频数据的脚标是随机间隔的买卖时间,这个时候,我们就准备将数据变为等时间间隙的,从而重新使用原来的方法,比如说HHT就是将非线性非平稳序列稳定分解之后,再对其做hilbert变换。

其实对于高频数据的使用大多要经过加总。虽然加总会损失一些信息,但是首先对于我们要分析的变量,这样构造和组织数据是经济并且实用的,其次这样可以减少市场微结构噪声的影响。

对于数据的加总,会产生一些问题,首先,如果这个交易并不是两个相同的交易,也就是说不是交易拆分的问题,那么即便在数据上记录的是同一时刻的交易,我们的加总也会产生问题。其次,对于一些过于活跃的交易,就算时间的记录精确到毫秒,我们也不能忽视在一毫秒内发生的多次交易对于交易非常活躍,即便记录时间精确可以到毫秒,但是1毫秒发生数笔交易也不是不可能的,在这种情况下,对令交易间隔的数据进行加总会导致误配。

但是,我们也要意识到加总时间也有很多优点。首先在进行挑选数据可以保持一致,当我们对数据实施多变量分析时。其次在进行预测时,一般是钟表时间可刻度的,但采用时间加总需要比较不同时间间隙所带来的效用,也就是说取样的缜密程度对解析的结果是有影响的[2]

3非平稳非线性序列hht方法

之前一直被广泛应用于分析信号的小波分析,在金融高频数据中并不能应用。因为小波辨析不具有根据当前信号的特点来实现自适应的分析,也就是说解析的频率需要在实践前给定。与之形成对比的是,HHT中的EMD是自适应的,也就是说,可以被应用于分解一些不是平稳的金融时间序列。

HHT方法由两部分组成,EMD和hilbert谱分析。选择EMD将信号解剖为一些imf,然后对imf做hilbert谱分析。

通过对数据分析可以得到EMD,根据数据由不一样的震荡的固定模式作为基础来分解,而每一种固定的模式象征着具有相同数目极点和零点的震动。但是在认识的时间点内,不一样的震荡模式是可以在同一时间点上共同存在[3]。

4EMD分解与原序列重构

预测并不是分析高频数据的真正目的,相反微结构以及短期行为特征的发现才是高频数据挖掘的目。在噪声被控制的前提下,EMD分解可以将数据序列的细节剥离出来,从而准确刻画波动的动态行为结构。

对于EMD分解,信号的时域是需要被首先研究的,从时域中我们可以获得信号中类似频率的特征。时间的尺度可以用信号的极点来计算。Imf时间跨度的量是通过时间尺度参数来形容的。

由于imf函数的各个变量是接近于正交的,这也就是说,imf变量之间的相互影响是几乎可以被忽略的,当我们需要某些imf来做分析的时候。方差贡献作为依据,我们可以从截断的角度来浓缩信息,将其中的主要信息来做近似。但imf函数需要满足以下两个条件,首先在所有样本高频数据集内,零点的数量必须和极大值或者极小值的数量一样 其次,任意时间内由样条插值得到的上下包络局部上看来是关于时间轴对称的也就是说均值为0。

5结束语

金融高频数据由于其数据的大量以及复杂给我们数据的挖掘与分析造成了不小的障碍与挑战,希望在未来更多的方法可以被更好的应用于其的分析。

参考文献

[1] 朱建平,魏瑾,谢邦昌.金融高频数据挖掘研究评述与展望[J].经济学动态,2011,(6):59-62.

[2] 薛雅娟.地震信号时频分析及其在储层含气性检测中的应用研究[D].成都:成都理工大学,2014.

[3] 唐勇.基于高频数据的金融市场分析[D].天津:天津大学,2007.