探究数据挖掘技术在量化选股中的应用

2014-09-25 02:45刘裕良
卷宗 2014年8期
关键词:数据挖掘

刘裕良

摘 要:量化投资是当前金融投资领域非常热门方向之一,而数据挖掘技术在金融领域也有广泛应用。本文主要概述了数据挖掘的基本概念、主要步骤、常用模型和方法,和量化投资中的关于选股的量化选股模型,探讨和研究数据挖掘技术中的分类模型、聚类模型、关联规则和序列模式等模型,在基本面量化选股和技术面量化选股方面的一些应用,如多因子选股、板块轮动选股和筹码选股。

关键词:数据挖掘;量化投资;量化选股

1 数据挖掘技术

1.1 数据挖掘概述

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的,但是又潜在有用的信息和知识的过程。[1]数据挖掘是一门新的交叉学科,一般认为是在统计学、数据库技术、机器学习、信息科学、可视化技术乃至经济学等多门学科充分发展的基础上形成的。数据挖掘概念提出以后,金融业首先对其表现出了极大的兴趣,并率先将其纳入应用。目前数据挖掘在国外金融领域,特别是银行已得到了广泛应用。

1.2 数据挖掘的主要步骤

在实际进行数据挖掘的过程中,根据CRISP-DM模型,一般可分为六个阶段。

(1)、业务理解:从业务角度来理解数据挖掘目标和要求,并把业务理解的知识转换成数据挖掘问题的定义和实现挖掘目标的最初规划。

(2)、数据理解:从数据收集开始,通过一系列的数据探索和熟悉,识别数据质量问题,发现数据的内部属性。

(3)、数据预处理:是将各种不同来源的数据加以清洗、转换和归并,以适合数据挖掘技术的使用。一般包括数据类型转换、计算缺省数据、消除噪声、消除重复数据等。

(4)、建立模型:此阶段对预处理过的数据应用各种数据挖掘技术,建立分析模型。一般地,相同数据挖掘问题类型会有几种技术手段。某些技术对于数据形式有特殊规定,这时通常需要重新返回到数据预处理阶段。

(5)、评估模型:阶段主要包括通过评估备选模型,挑选冠军模型,评价模型的稳定性,确保模型正确回答了第一阶段的业务问题。

(6)、模型发布:即将发现的模型投入业务应用,产生商业价值,并且应用效果要及时跟踪和反馈,以便后期的优化和更新。

1.3 数据挖掘的常用模型和方法

数据挖掘是通过数据来建立一些模仿真实世界的模型,并应用模型来描述数据中的规律、规则及相互关系。这些模型不仅能够为我们的投资行为或其他决策提供所需要的信息,而且还能帮助我们做些提前预测。常用模型有分类、聚类、关联规则、序列模式等。

(1)分类模型 分类的目的是利用已有观测数据建立分类器,来预测未知对象属于哪个预定义的目标类。其任务是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,把类标号未知的样本映射到某个预先给定的类标号中。[1]分类技术是数据挖掘技术中应用最广泛的技术,分类模型学习方法主要有:基于决策树的分类方法、贝叶斯分类方法、k-最邻近分类(KNN)、神经网络方法(如SVM支持向量机)等。

(2)聚类模型 与分类不同,聚类是一种无指导的学习,没有预定义的类编号。聚类是一个把数据对象集划分成多个组或簇的过程,使得簇内的对象具有很高相似性,但与其他簇中的对象很不相似,即所谓"物以类聚"。相异性和相似性根据对象的属性值评估,并且通常用距离度量。[2]主要聚类方法有:划分方法(k-means算法)、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。

(3)关联规则 关联分析是寻找数据项之间感兴趣的关联关系,用关联规则的形式描述。关联分析生成的规则带有置信度和支持度,置信度级别度量了关联规则的强度,支持度度量了关联规则的重要性。关联规则的挖掘过程分两步,第一步先找出所有频繁项集,第二步由频繁项集产生强关联规则。[1]常用算法有Apriori算法和FP-growth算法。

(4)序列模式 序列模式与关系规则联系密切,所不同的是序列模式中相关的项目或序列之间在时间维度上存在联系。序列模式挖掘就是找出所有的频繁子序列,发现频繁序列算法大体有:类Apriori方法、GSP算法、基于投影方法、SPADE方法。[1]

2 量化投资和量化选股

2.1 量化投资及其优势

量化投资就是利用计算机技术并且采用一定的数学模型去践行投资理念,实现投资策略的过程。量化投资主要是依靠数据和模型来寻找投资标的和投资策略。[3]量化投资过程就是利用数学、统计学、信息技术的量化投资方法来管理投资标的和投资组合的过程。数量化投资的组合构建注重的是对宏观数据、市场行为、企业财务数据、交易数据进行分析,利用数据挖掘技术、统计技术、计算方法等处理数据,以得到最优的投资组合和投资机会。量化投资主要内容包括:量化选股、量化择时、股指期货套利、商品期货套利、统计套利、期权套利、算法交易、高频交易等。相比较传统的定性投资,量化投资的主要优势在于纪律性、系统性、及时性、准确性和分散性。纪律性可以克服人性的贪婪和恐惧等弱点,容易严格做到止损止盈。系统性包括多层次的量化模型、多角度观察和海量数据的处理。及时性体现在能及时快速跟踪市场变化,不断发现新的投资机会和新的策略模型。准确性指能准确客观的评价交易机会。分散性指的量化投资能在控制风险的条件下,实现分散投资的目标。

2.2 量化选股

量化选股就是利用数量化的方法选择股票组合,期望该股票组合能够获得超越基准收益率的投资行为。[3]即根据某种方法判断一只股票是否满足某些条件,如果满足则放入股票池,不满足则从股票池中剔除。传统股票分析技术主要分为基本面分析和技术面分析,相应的量化选股也可分为基本面量化选股和技术面量化选股两大类。股票基本面因素包括宏观经济指标、行业背景、企业财务指标、公司经营能力、公司估值等,常用基本面选股模型有多因子模型、风格轮动模型和行业轮动模型。其中多因子选股的基本原理是采用一系列的因子作为选股标准,满足这些因子的股票则被买入,不满足的则卖出。多因子模型相对来说比较稳定,因为在不同市场条件下,总有一些因子会发挥作用。风格轮动模型是利用股票市场的大盘股和小盘股之间的二八行情特征变换进行选股,当市场偏重那二成大比重的权重股市,选择大盘股,当市场出现八成小盘股上涨时,选择小盘股,在风格转换初期及时介入,则可以获得较高收益。行业轮动选股模型是指在经济周期不同阶段选择表现好的行业,选择相应板块的股票。技术面量化选股主要是根据股票价格K线组合、形态、趋势以及成交量等因素,有趋势跟踪、筹码选股、资金流选股、动量反转选股等模型。

3 数据挖掘技术在量化选股中的应用

3.1 在基本面量化选股方面的应用

(1)分类模型在多因子选股模型的应用。例如对A股的部分上市公司,首先选择一些重要公司属性,如行业地位、产品竞争力、盈利能力、负债情况等作为候选因子,对其公司等级进行评估,根据候选因子综合值的不同,将股票分为不同类型,如蓝筹股、成长型、垃圾股、题材型等,这过程在建立一个分类模型,同时也对一些候选因子进行检验,剔除一些对模型无效的因子。分类模型建立后,再用A股其他上市公司的数据,去训练已经得到的分类模型。分类模型验证有效后,投资者就可直接根据一些公司属性,选择对应股票进行投资。如基于贝叶斯分类的选股方法[4],决策树算法股票分析和预测中的应用[5]。

(2)聚类模型在多因子选股模型的应用,例如基于SOM自组织映射网络的股票聚类分析[3],选取A股一定数量股票的基本面指标,如每股收益、每股净资产、每股经营性现金流、净资产收益率、净利润等作为主要研究对象。应用SOM模型进行模拟聚类实验,通过聚类的方法分析股票,得到聚类结果。分析聚类结果,发现公司获利能力和成长性好的股票,每股收益、每股净资产、净资产收益率这个3个指标的值都比较高。这样投资者就可根据这3指标选择成长性好的股票。

(3)关联规则在板块轮动选股模型的应用,首先收集股票历史数据,对数据进行预处理,把每天板块指数的涨跌情况转化为二项数值,1代表上涨,0代表下跌。再根据板块指数涨跌情况,采用二值型关联规则算法进行挖掘,采用Apriori算法实施关联分析。设定支持度和置信度的阈值后,可以从模型中找到许多有意义的强关联规则。通过这些强关联规则,可以知道相关板块间的联动强弱。这样就能了解投资者在股市投资的轮动行为。[3]如果分析得出石化板块和煤炭板块有强关联规则,那么当石化板块出现上涨时,煤炭板块可能也会上涨,因为这两个板块同属于能源行业。这样在投资活动中,如果发现石化板块开始上涨,就可以根据关联模型,买入煤炭板块的股票,等待该板块的股票后续补涨。投资者就可以通过应用关联规则,预测不同板块的轮动变化,实现高额的投资回报。

3.2 在技术面量化选股方面的应用

序列模式在筹码选股模型的应用,主要是通过分析与时间相关的股票数据,发现某一时间段内某只股票筹码变化的模型。例如通过收集某只股票数据,分析发现其筹码在某一段时间内持续集中的趋势,即股东户数不断减少,股票筹码向一些主力集中的趋势,则在未来一段时间,该股可能出现上涨,或者有跑赢大盘的可能,那么就可以把这些股票加入股票池中,随时跟踪和监控,及时进行相应的买入操作,以期在未来一段时间内的股价上涨,获得较高投资收益。

4 结语

随着量化投资在中国的蓬勃发展,量化投资在整个金融投资市场的比重将不断变大,听着量化投资大师詹姆斯.西蒙斯的传奇故事,也将会涌现更多量化投资方面人才。关于数据挖掘技术在量化投资中应用和实战将会更多,相信数据挖掘模型和算法在量化选股方面也会有更多应用。

参考文献

[1]蒋盛益.李霞.郑琪.数据挖掘原理与实践[M].北京.电子工业出版社.2011.8.

[2]著Jiawei Han Micheline Kamber Jian Pei译范明,孟小峰.数据挖掘概念与技术(原书第3版).北京.机械工业出版社 .2012.7

[3]丁鹏.量化投资—策略与技术(修订版)[M]. 北京.电子工业出版社.2012.4.

[4]左辉,楼新远.基于贝叶斯分类的选股方法[J].电脑知识与技术(学术交流).2008年10期

[5]魏雄.决策树算法在股票分析与预测中的应用[J].电脑知识与技术(学术交流).2007年09期.

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议