基于大数据视角的我国股市行情分类浅析

2016-02-17 08:12陈金林
金融经济 2016年24期
关键词:行情视图分类

陈金林

(广东外语外贸大学南国商学院,广东 广州 510545)

基于大数据视角的我国股市行情分类浅析

陈金林

(广东外语外贸大学南国商学院,广东 广州 510545)

大数据时代,数据创造价值的理念逐步深入人心,人们期待数据可以更好地为业务服务。由于股市行情数据的高度复杂性,使得一般的数据建模方法在进行股市行情建模时失效,而大数据方法具有灵活性、自适应性和非线性等特点,在处理股市行情数据时有很好的应用效果。本文运用大数据技术的k - 近邻分类方法,把我国股市行情分为下跌、反弹、上涨和回调四种类型。通过流式实时处理,验证了任一未知类行情总能与分类器中的一类行情相吻合。

大数据;股市行情;k - 近邻分类

由于股市行情数据的复杂性,传统的分类方法和计算技术很难根据行情数据对其进行分类。但是,大数据方法具有灵活、自适应和非线性等优点,处理技术以流式计算方式为主,擅长线下和联机实时计算。根据股市行情数据的特点,通过迭代计算和数据挖掘,采用k - 近邻分类方法,对我国股市行情进行分类具有可行性。

一、股市行情和大数据

通常情况下,人们在论述股市行情时,认为股市行情主要是指股票的市场价格:收盘价、开盘价、最高价抑或最低价。单位时间内,股票市场指数或者某只股票的市场价格,也就是股市行情,由投资者做多或者做空的情绪、未来的预期等等因素决定,即股市行情是股市各种因素在此时综合作用的结果。

在大数据时代,数据已经成为金融企业的重要战略资产。金融企业内部积累了丰富的用户数据和交易数据,数据类型从传统的结构化数据扩展为社交数据、流数据、地理空间数据、传感器数据等,数据时效从稳定的静态数据扩展到实时动态数据。我国股市经过26年多的发展,已经产生了大量的数据。以上证指数为例,单位时间内收盘价、开盘价、最高价、最低价叫做一组价格,如果单位时间为一月,则产生了312组价格,如果单位时间为1分钟,则产生了156万余组价格。这些海量数据已形成了一个巨大的数据仓库。

二、我国股市行情分类浅析

(一)股市行情数据具有的特点

与其他领域的数据比较,股市行情数据具有多种特点:

第一,股市行情数据为时间序列数据。在相等的时间间隔(单位时间,如每分钟、每小时或者每天)出现,由经济过程产生,自然观测的结果。股市行情时间序列数据包含不同时间点,重复测量得到。

第二,股市行情数据类型多。既有结构化数据,又有社交数据,还有地理空间数据等等。

第三,股市行情数据关系复杂。数据之间的关系很难用一个简单的数学公式来表示,具有高度的复杂性和非线性。

第四,股市行情数据特别具有动态性。在股市交易时间内,随着时间的推移行情会发生剧烈变化,呈现动态特征。

第五,股市行情数据自相关性强。时下的行情受前期行情的影响特别大,尤其我国实施的涨跌停板,虽然在预防非理性投资方面有重要作用,但是加深了股市行情数据的自相关。

概括来讲,股市行情数据的特点与现在是一个大数据时代的特点相吻合。数据创造价值的理念深入人心,期待数据可以真正地为业务服务。相应地,一些专做数据服务的第三方公司不断涌现,希望能够帮助需要数据的人们提供数据服务,挖掘出更多有价值的规律。

(二)股市行情分类处理技术的特征

在大数据视角下,股市行情分类处理技术有自己的特征,表现为:

第一,股市行情数据结构化处理技术明显。如果分析行情,而不考虑行情价格的社交和地理空间等,经主成分分析后,最强的系数呈现结构化数据特征。非结构化/半结构化数据占所有数据的比例比较小。

第二,股市行情数据获取处理技术以流式计算方式为主。这是因为股市行情数据是时间序列数据,虽然在构造分类器时采用批处理计算方式,但其实质还是流式计算方式。

第三,股市行情数据采用的计算类型是数据挖掘。通常情况下,需要对股市行情数据进行挖掘。通过数据或维度规约和变换后,数据被映射到变换后的空间里,保留变换后最强的系数作为特征,能最大限度地反映股市行情数据的实质内容。维规约和变换技术主要采用基于主成分分析的奇异值分解(因超出文章的重点,不做讨论)。

第四,股市行情数据处理技术以实时计算为主。联机计算和线下实时计算相结合,处理技术要求具有即时高响应性,未知分类的股市行情必须实时反映交易所的对应行情。线下实时计算的数据要能实时地从第三方获得,以保证股市行情在任何情况下的实时和正确。

第五,股市行情数据处理技术需要大量的迭代计算,为此必须提供具有高效的迭代计算能力的大数据处理技术。

由上可知,大数据视角下的股市行情分类的处理技术与传统的数据处理技术不同。与所有新事物刚出现一样,大数据是一个尚未被明确定义的概念。它如此年轻,以至于走在世界前沿的大学还没来得及完善这门专业,世上顶尖的专家还未能形成统一的理论体系,所有对大数据进行研究的人们都还在感悟。用大数据对股市行情进行分类尝试更是如此,何况到现在为止,人们无法用传统的数据处理方法对股市行情进行比较正确的分类,或者大家都认可的股市行情分类方法。

但是有一点可以肯定,应该尝试用大数据对股市行情进行分类。能够处理股市行情数据的专业人才可以是金融领域的专家,或者来自数学、物理或计算机工程领域的人们,因为这需要极强的专业知识背景与专业培训。正在研究大数据的人们认为,大数据挖掘并没有一定的方法,更多需要依靠挖掘者的天赋与灵感,这给那些想从大数据视角对股市行情进行分类的人们指明了方向。

(三)股市行情分类的可行性方法

由于行情数据的高度复杂性,使得一般的数据建模方法在进行股市行情建模时失效,而大数据方法具有灵活性、自适应性和非线性等优点,在处理股市行情数据时有很好的应用效果,实际的股市投资也证实了这一点确实大有可为。

在大数据技术中,分类是一种比较重要的数据分析手段,其目的是利用已有的观测数据,通过分析观测数据的特征,来构造一个分类器,将任何未知的数据对象进行分类。

在股市行情分类中,k - 近邻分类方法比较好。优点是事前不要通过数据来学好分类模型,再对未知样本分类,而是存储带有标记的样本集,给一个没有标记的样本,用样本集中k个与之相近的样本对其进行及时分类。

具体来讲,股市行情k - 近邻分类基本思路是:

第一步,对已有的股市行情数据进行函数F (X) 处理(由于某种原因,不对F (X) 进行阐述),得到标记好的样本集。对股市行情数据样本集进行数据或维度规约和变换,使数据被映射到变换后的空间,保留变换后最强的系数作为特征,得到可视图。

第二步,取近邻的一个未知分类的股市行情样本用来对其分类,也就是用未知类行情的可视图和样本可视图进行比较,得到未知类行的分类;

第三步,逐一取出近邻样本集中的股市行情,与未知类股市行情相比较,找到k个与之相近的股市行情数据,用这k个股市行情的样本的类为未知行情定类;

第四步,当把股市行情数据看做连续时间序列时,用k个股市行情的样本可视图为未知行情数据分类。

(四)基于大数据视角下我国股市行情分类

当人们从第三方获得股市行情的大数据后,对已有的股市行情数据进行函数F (X) 处理,然后得到可视图(如下图(1))。

现在对股市行情数据经函数F (X)处理后进行概括。

F (X)作用数据样本集,是时间T的N维空间函数,在进行数据或维度规约和变换后可以得到两个函数s(t)和b(t),两个函数均为时间的一阶边际函数,它们的数据被映射到变换后的二维空间,反映股市中多方和空方的行情变化。

设:

s(t)为空方行情的边际函数,当s(t)<0时,空方行情加强;当s(t)>0时,空方行情减弱。

b(t)为多方行情的边际函数,当b(t)<0时,多方行情减弱;当b(t)>0时,多方行情加强。

由于股市行情数据不为零,所以行情数据进行维度规约和变换后s(t)和b(t)不会同时为零。根据排列组合知识,可以得到s(t)和b(t)如下四种组合:

第一种组合:b(t)

第二种组合:s(t)

第三种组合:b(t)>s(t)>0,多头行情加强的变化幅度比空头行情减弱的幅度还要大,行情以多头行情为主,趋向升;

第四种组合:s(t)>b(t)>0,多头行情减弱的变化幅度比空头行情加强的幅度还要大,虽然以多头行情为主,但是行情上升中空头行情的变化在加强,升中有跌。

s(t)和b(t)是同时存在的一对结构化数据,经可视化后反映一个单位时间的股市行情,上述四种组合中的一种形式的连续N对结构化数据组合形成了一个可视图,能反映行情的特征。由反推可以得出,连续N对结构化数据组合表现出了相同属性的一个股市行情,可视图就构成一个分类器,如图(1)所示。

图(1)附注:①下跌 ②反弹 ③上涨 ④回调

经过对股市行情k-近邻分类后,发现我国股市行情有四种类型:

第一种组合为下跌行情;

第二种组合为反弹行情;

第三种组合为上涨行情;

第四种组合为回调行情。

三、结论

从大数据视角对我国股市行情进行分类,是一种尝试。这种分类方法在实践中得到了的检验,证明是行之有效的。

图(1)下半部分里的可视图,是对图(1)上半部分股市行情进行了数据处理的结果,并分类。任一未知类行情,通过流式实时处理,经过k - 近邻方法分类,总能与分类器中的另一类行情相吻合。

[1] 王珊,王会举,覃雄派. 架构大数据:挑战、现状与展望[J]. 北京:计算机学报,2011.

[2] 汪永强. 社会化网络中的推荐算法及其应用[J]. 上海:上海交通大学,2012.

[3] 许伟,梁循,杨小平. 《金融数据挖掘:基于大数据视角的展望》[M]. 北京:知识产权出版社,2013.

[4] 陈利强,梁如见,张新宇. 《金融大数据:战略规划与实践指南》[M]. 北京:电子工业出版社,2015.

[5] 李福东.《大数据运营:服务型企业架构新思维》[M]. 北京:清华大学出版社,2015.

[6] 魏瑾瑞. 《统计学视角下的金融高频数据挖掘理论与方法研究》[M]. 北京:中国社会科学出版社,2015.

广东省本科高校教学质量与教学改革工程项目《计算机科学与技术应用型人才培养示范专业》粤教高函[2015]133号

猜你喜欢
行情视图分类
分类算一算
分类讨论求坐标
数据分析中的分类讨论
最新粮油批发行情
5.3 视图与投影
最新粮油批发行情
视图
教你一招:数的分类
最新苗木行情
Y—20重型运输机多视图