基于模式识别的股票价格预测研究

2024-05-29 15:26徐亦凡
经济研究导刊 2024年8期
关键词:模式识别机器学习人工神经网络

徐亦凡

摘   要:基于模式识别的时间序列数据分析方法,因其能够揭示复杂、非线性的股价运行模式,在经济学、统计学和机器学习领域受到了广泛的关注。为了避免人判断的主观性,因此采用一种与双底形态的目标模板进行对比的方法,把一维的股价时间序列变换成二维的图形与目标模板进行对比,对比后相似度高的时间片段能作为未来市场价格上涨的信号。实验结果表明,此方法能够产生正收益,且对股票的未来涨跌具有一定的预测能力。

关键词:模式识别;股票价格预测;机器学习;人工神经网络

中图分类号:F830.592        文献标志码:A      文章编号:1673-291X(2024)08-0081-04

引言

在对金融时间序列数据进行分析时,技术分析投资者认为,股票价格的未来走势是能够基于某些特定形态来进行预测的,因为他们相信在金融市场中“历史会重演”。对于股票价格形态的研究有助于投资者作出合理的投资决策[1],因此,技术分析投资者把对股价走势形态的分析认作是一种能够在时域上评估特定股票未来变动趋势的技巧[2,3]。而随着金融科技应用范围的逐渐扩大,这一领域越来越受到人们的关注[4]。

美国经济学家尤金·法玛提出的有效市场假说[5]认为,投资人是不可能战胜市场的,任何股价形态都无法提前反映股票的未来走势。与此相对的,有一些研究人员支持市场并非有效的观点。这一观点揭示了投资者能够通过使用如基本面分析、技术面分析等来击败市场。为实现这一目标,本文试图找到一个能够处理大量数据并且基于數据生成适当交易信号(买入或卖出)的投资策略,这是本文的研究目的。目前已有研究人员提出不同的方法来表示时间序列,常见的表示可以分为三类:基于生成式模型的表示方式、基于变换的表示方式和基于时域的表示方式。生成式模型使用不同模型中的参数来表示时间序列,如隐马尔可夫模型[6]、贝叶斯网络[7]等。基于变换的表示方式旨在将原始数据转移到另一特征空间来表示时间序列,如离散傅立叶变换[8]、时间序列符号聚合近似方法SAX[9]。基于时域的表示方式的核心是从原始时间序列中找出具有代表性的点,如感知重要点PIP[10]、分段线性逼近PLA[11]、分段聚合逼近PAA[12]、分段常数逼近PCA[13]等。上述这几种基于时域的表示方式,其本质上都是进行数据降维工作,用少数的数据来重新表示原始时间序列[14]。

一、相关工作

(一)证券投资分析

在证券投资分析领域主要有两种分析方法:基本面分析和技术分析。基本面分析利用与公司有关的财务数据来寻找出同一行业中最具有竞争力的公司。技术分析是通过分析股票的历史价格图表来识别趋势以预测股票未来的走势。它是通过事先定义一些技术指标,当技术指标达到某一阈值时即意味着产生出了买入、卖出的投资机会[15]。技术指标通常是通过股票的历史价格计算出新的数值来预测未来的价格。比如波动率指标,如果该技术指标的走势不稳定并且其数值朝着正反两个方向不断变化,则说明该支股票波动率较大,其股价日后出现大涨或者大跌的概率也较大[16]。

(二)模式识别

由于国内A股市场缺乏做空手段,普通投资者只能以做多来盈利。因此,本文选取代表见底回升转势形态的双底形态(又称W底)为研究对象。双底形态技术分析中的经典形态,代表股价趋势将发生巨大变化,股价将从先前下跌趋势中发生反转。它的形状像英文字母W,股价先是下跌然后反弹,在形成了第一个底部之后第二次下跌至与第一次下跌底部接近的价格水平后股价又一次发生反弹,股价在两次触及低点之后都发生了反弹,此时这个低点被认为是一个重要的支撑位,股价有可能开始转势上涨。图1是展示双底形态的示意图。

在过往研究中已有研究者使用不同的方法来识别股票技术形态,如感知重要点PIP、时间序列符号聚合近似方法SAX等。本文采用与模板对比的方法,使用一个储存着各个点相应权重的矩阵[17]作为模板,如图2所示。通过把股价序列与目标模板进行对比,当股票的价格恰巧落在目标形态所在的点上,则给予该点高分;当股价远离目标形态时,则给予低分。最终对整个矩阵中各个点的分值求和得到表征拟合程度的拟合值,拟合值越高则表明待检测的股价序列与目标模板越接近。

二、方法

我们使用图2作为模板来进行股价形态识别。这是一个10 ×10 的矩阵,矩阵中的每一个元素代表该点的权重Wij,其值介于1到-2之间。在这个矩阵中,权重值定义为1的区域代表着股价走势呈现出以双底或双顶形态,在图中以深色显示。我们用代表着双底形态与双顶形态的模板和待检测股票收盘价的时间序列数据进行匹配,具体方法是,将待检测股票时间序列的收盘价格取一个宽度为40个交易日的时间窗口,从最早的价格开始与模板对照,之后将时间窗口向后移动一个交易日进行下一次匹配,之后逐步向前直至对整个时间序列完成匹配。对待检测股价序列与目标模板之间进行匹配的方法是一种在图像检测中用于目标识别的模式识别技术。我们把移动窗口中第t个交易日的收盘价记作Pt,t = 0,...,39,移动窗口本身的顺序以k表示,k从1开始。对于在时间窗口中的40个交易日的收盘价,我们将把它转换至那个10 ×10二维矩阵中的某一个元素的位置上,并把这个时间窗口记作Ik。最后,我们计算双底形态模板与转换后的矩阵Ik的互相关,把第k个时间窗口的拟合值记为FITk。除了FITk以外,我们还计算了第k个时间窗口最高价与最低价之差,并记为RANGEk。其中,互相关[18]在信号处理领域中通常用来衡量两个信号之间相似性,它通常用于在一段长信号中搜索较短的已知特征。此外,通过滑动模板来与源图像的各个部位进行比较,互相关也可用于识别图像中的特定目标。

这个算法的关键是对于每一个宽度为40个交易日的时间窗口k,如何将一维的时间序列信息映射到 10×10 的二维矩阵Ik中去。首先,我们把二维矩阵Ik中每一个元素的值记为gij,通过计算时间窗口内 40 个交易日收盘价的最高价与最低价之差,并把这个差值范围除以 10 以得到一个增量值inc,之后将通过这个增量值来计算每日的收盘价将映射到二维矩阵中的那一行去。

Pmax与Pmin分别是时间窗口内40个交易日收盘价的最高价与最低价。在得到了增量值inc之后,我们可以给二维矩阵中的每一行行i一个对应的区间:

二维矩阵中的第j列对应着40日移动窗口内的连续4日的收盘价格,例如,P4 ·j,P4 ·j+1,P4 ·j+2,P4 ·j+3对应着二维矩阵中的第j列,j=1,2,...,10。第j列中每个元素gij的值则由第j列所对应的4个交易日的收盘价格分别属于哪一行行i所对应的价格区间来决定:

最后,我们计算并记录第k个时间窗口的拟合值FITK与代表价格区间的值RANGEk。FITk是匹配模板的矩阵与经转换后的二维矩阵两者间的互相关,RANGEk是移动窗口内每日收盘价的价格区间除以该时间窗口最后一个交易日的收盘价Pk归一化的值,其计算公式分别为:

三、实验结果与分析

实验从国内A股市场中随机选取了10支规模大、流动性好、上市时间久的股票作为数据集。数据从Tushare平台上下载,时间段从2000年初到2022年12月30日为止,所选取的股票数据基本都有20年以上历史交易记录。选取交易历史记录长的股票以保证其股价模式具有代表性。

实验1:通过模式识别来识别双底形态。

我们通过将应用交易规则之后的结果与在比较期内每日买入并持有一段时间的结果进行比较以观察该方法的有效性。在使用移动窗口前进与模板对比时,移动窗口前进的步进设定为移动窗口长度的十分之一。因为如果将步进设定为一,相邻两个窗口几乎是相同的,时常会出现連续几天时间窗口的拟合值都高于阈值的情况。为了避免重复检测以及加快计算速度,故将移动窗口移动的步进设为窗口长度的十分之一。设pk为第k交易日的收盘价,RANGEk与FITk如上文所述分别代表价格区间与拟合值,买入股票之后的预测期内的交易天数用h表示,其中h的取值为5、10、20。对于买入并持有策略,同样采用移动窗口的方式,一共有k个移动窗口,其中,第一个移动窗口的编号为m,最后一个移动窗口的编号为n。然后计算每一个子区间的收益率,当每日都买入时,市场的平均收益为:

而只当买入信号产生后才买入时:

买入次数nb=■■Rk(7)

其中,Rk=1,如果RANGE■与FIT■满足我们所设定的买入规则0,如果RANGE■与FIT■不满足买入规则 (8)

那么按照交易规则后的平均收益率为:

最后,我们把应用交易规则后的平均收益率与采取每日买入并持有策略代表市场的平均收益率两者相减,得到超额收益率:

rex=rtavg-ravg(10)

表1展示了运用交易规则之后所得到的超额利润。表1中的超额利润值是市场平均回报和应用交易规则后再买入股票的平均回报之间的差值。两种市场策略都是在买入后持有一段时间以对比收益率。采用模式识别方法所用的交易规则如下:在某一交易日,如果RANGEk> RANGE且FITk>FIT,则买入并持有n个交易日。从结果可以看出,对于用于预测价格向上的双底形态进行匹配后的拟合值FITk较高的时间序列片段其后市股价的上涨幅度较大。

四、结束语

本文通过构建模型,提出了一种基于模板对比的股票时间序列模式识别方法,具有避免人的主观判断、能从全局的视角寻找极值点等优势。实验结果表明,与双底形态拟合度较高的股价时间序列片段其后市在平均上能有正的收益。在市场运行模式不变的前提下,按照此策略投资能够实现盈利。该模型是一种分析时间序列数据的有效方法,能够帮助投资者作出短期预测。

参考文献:

[1]   约翰·墨菲.金融市场技术分析[M].丁圣元,译.北京:地震出版社,2010.

[2]   BLAKEY P. Pattern recognition techniques[J].IEEE Microwave Magazine,2002,3(1):28-33.

[3]   SHAH D.ISAH H.ZULKERNINE F.Stock market analysis:A review and taxonomy of prediction techniques[J].International Journal of Financial Studies,2019,7(2):26.

[4]   KUMAR D,SARANGI P K,VERMA R.A systematic review of stock market prediction using machine learning and statistical techniques[J].Materials Today:Proceedings,2022(49):3187-3191.

[5]   FAMA E F.Efficient capital markets: A review of theory and empirical work[J].The journal of Finance,1970,25(2):383-417.

[6]   张旭东,黄宇方,杜家浩,等.基于离散型隐马尔可夫模型的股票价格预测[J].浙江工业大学学报,2020,48(2):148-153,211.

[7]   ZHAO Z Y.Bayesian Multiregression Dynamic Models with Applications in Finance and Business[D].Durham,USA:Duke University,2015.

[8]   SAMIEE K,KOVACS P,GABBOUJ M.Epileptic seizure classification of EEG time-series using rational discrete short-time Fourier transform[J].IEEE transactions on Biomedical Engineering,2014,62(2):541-552.

[9]   LEITAO J,NEVES R F,Horta N.Combining rules between PIPs and SAX to identify patterns in financial markets[J].Expert Systems with Applications,2016(65):242-254.

[10]   ZHANG Z,JIANG J,WANG H.A new segmentation algorithm to stock time series based on pip approach[C]//2007 International Conference on Wireless Communications, Networking and Mobile Computing.Shanghai,China:IEEE,2007:5609-5612

[11]   Li H L,GUO C H,QIU W R,2011.Similarity measure based on piecewise linear approximation and derivative dynamic time warping for time series mining[J].Expert Systems with Applications,2011,38(12):14732-14743.

[12]   BRASILEIRO R C, SOUZA V L,OLIVEIRA A L.Automatic trading method based on piecewise aggregate approximation and multi-swarm of improved self-adaptive particle swarm optimization with validation[J].Decision Support Systems,2017(104):79-91.

[13]   MEGALOOIKONOMOU V, Li G, WANG Q.A dimensionality reduction technique for efficient similarity analysis of time series databases[C]//Proceedings of the thirteenth ACM international conference on Information and knowledge management.Washington D.C.,USA:ACM,2004:160-161.

[14]   BAO D.A generalized model for financial time series representation and prediction[J].Applied Intelligence,2008(29):1-11.

[15]   OZTURK M,TOROSLU I H,FIDAN G.Heuristic based trading system on Forex data using technical indicator rules[J].Applied Soft Computing,2016(43):170-186.

[16]   GORGULHO A,NEVES R, HORTA N.2011.Applying a GA kernel on optimizing technical analysis rules for stock picking and portfolio composition[J].Expert systems with Applications,2011,38(11):14072-14085.

[17]   LEIGH W,PAZ N,PURVIS R.Market timing:a test of a charting heuristic[J].Economics Letters,2002,77(1):55-63.

[18]   ELHADI M,MERZOUGUI M,Hadi M,et al.Detection of the Objects by the Cross-correlation[J].International Journal of Computer Applications,2016,136(12):23-27.

Research on Stock Price Prediction Based on Pattern Recognition

XU Yifan

(School of Management, University of Shanghai for Science and Technology, Shanghai 200093, China)

Abstract: The method of time series data analysis based on pattern recognition has attracted wide attention in the fields of economics, statistics, and machine learning due to its ability to reveal complex and nonlinear stock price patterns.A heuristic based template called the “Double Bottoms”, which transfers a one-dimensional stock price time series to a two-dimensional template, and identifies time segments with high similarity to the template as signals which can predict future market price increments.Experimental results show that this method can generate positive returns and has a certain predictive ability for future stock price movements.

Key words: Pattern recognition; Stock price prediction; Machine learning; Artificial neural networks

[責任编辑   若   云]

猜你喜欢
模式识别机器学习人工神经网络
利用人工神经网络快速计算木星系磁坐标
人工神经网络实现简单字母的识别
浅谈模式识别在图像识别中的应用
第四届亚洲模式识别会议
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
第3届亚洲模式识别会议
基于声发射和人工神经网络的混凝土损伤程度识别
电气设备的故障诊断与模式识别