胡照跃 白艳萍
(作者单位:中北大学理学院数学系)
基于PCA-SVM组合模型的股票价格预测
胡照跃白艳萍
股票市场是个非稳定的时间序列,本文将支持向量机与主成分分析(PCA-SVM)结合对股票进行回归预测分析,以奥特迅(002227)为对象进行建模和预测研究。选取奥特迅90天的股票技术指标历史数据作为训练样本对收盘价进行预测,10天数据进行检验,并通过图像拟合来验证神经网络股票预测的可行性和准确性。
支持向量机;主成分分析;股票预测
1.引言
股票是市场经济的产物,股票的发行与交易促进了市场经济的发展。对股票投资者来说,未来股价变化趋势预测越准确,对利润的获取及风险的规避就越有把握。传统的股票技术分析方法有移动平均线法、点数图法、K线图法等,它们可以预测一段时间内股指变换的大致走势,但短期股票价格的变化往往是投资者更感兴趣的信息。不少研究者将目光投向基于人工神经网络建立的预测模型,并取得了较好的预测效果[1]。SVM对经验的依赖较小,能够获得全局最优解,具有良好的泛化性能,从而有效地克服了神经网络等方法无法避免局部极值的问题。由于影响股票预测的因素很多,这些因素之间存在高度的非线性、存在数据冗余等特征。因此,本文用主成分分析法对输入因子进行主成分提取并结合支持向量机对股票的开盘数进行预测。
2.支持向量机
支持向量机(SVM)是一种机器学习方法,它的基础是Vapnik创建的统计学习理论,采用了结构风险最小化准则,在最小化样本点误差的同时,缩小模型泛化能力。而且它是一个凸二次优化问题[2],能保证找到的极值解就是全局最优解。支持向量机可用于模式分类和非线性回归,它的主要思想是建立一个分类超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化。
在SVM算法中,为了使预测结果具有更高的精确度,在对样本进行训练之前,则需要对某些参数进行优化。本文中支持向量机算法中的核函数选取径向基核函数,本文通过交叉验证法对宽度参数σ以及优化惩罚参数C做出寻优。SVM模型采用的核函数是径向基(RBF)函数:
(1)
3.主成分分析(PCA)
主成分分析(Principal Component Analysis)又称主分量分析,是由皮尔逊(Pearson)于1901年首先引入,后来由霍特林(Hotelling)于1933年进行了发展。主成分分析的目的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量[3]。其数学模型如下:
对于一个样本资料,观测p个变量x1,x2,…xp,n个样品的数据资料阵为:
(2)
主成分分析就是将p个观测变量综合成为p个新的变量(综合变量)[4],即
(3)
4.实验结果分析
本文中的股票数据来自通信达股票交易软件,所用软件为MATLAB(R2014a)仿真软件。本文基于支持向量机模型,结合主成分分析方法,建立了一个股票预测模型。选取了奥特迅(002227)从2015年8月25日到2016年1月25日这期间内102个交易日每日的各种指标。引用这期间内的今日最高价、今日最低价、今日开盘价、今日收盘价、今日成交量、5日移动平均线、10日移动平均线、30日移动平均线、60日移动平均线、KDJ.K、KDJ.D、和KDJ.J这12个技术指标作为输入变量,将第二日收盘价作为输出变量。选择其中90组作为训练样本集,12组作为检验测试样本,输入样本和测试样本的数据均统一归一化到(0,1)之间的实数。
经过计算机的仿真实验,奥特迅测试的SVM算法和PCA-SVM算法计算结果见表1。比较表1中各算法的计算结果可以看出,PCA-SVM算法较SVM算法无论在收敛速度上,还是在误差及精度上,都取得了更好的效果。由于股价预测的复杂性非常高,受各方面的因素影响,随机事件也很多,要准确预测股价,要想提高投资的获利能力,可以考虑加入其他方法加以辅助。
表1 奥特迅各算法计算结果比较
图1-1SVM开盘价预测误差图图1-2PCA-SVM开盘价预测误差图
图1奥特迅测试结果图
5.结论
股票市场是一个高度复杂的非线性系统,其变化既有内在的规律性,同时也受到了政治事件、宏观经济情况、交易员的心理状况等诸多因素的影响。本文利用PCA-SVM神经网络模型来进行股票价格的预测,并对国内股市的涨跌进行了初步的尝试。此模型融合了主成分分析方法对输入变量进行降维处理,在缩短模型训练时间的同时,又保证了预测结果的精确性。从仿真的结果来看,对股票价格的短期预测能够取得较好的效果,将该模型应用于股市预测具有很强的现实意义和推广价值,但是在SVM核函数参数优化方面仍有可以改进的地方,需要进一步地探讨。
(作者单位:中北大学理学院数学系)
[1]黄静.神经网络模型在股票预测上的应用[J].电脑知识与技术(学术交流).2007(07)
[2]马法尧.模糊SVM在股市预测中的算法研究与应用[J].西南民族大学学报(人文社科版).2006(10)
[3]谢中华.MATLAB统计分析与应用:40个案例分析[M].北京航空航天大学出版社.2010:354-373
[4]高惠璇.应用多元统计分析[M].北京大学出版社.2005:265-290.
胡照跃(1991-),男,汉族,海南海口人,中北大学理学院 2013级硕士研究生,研究方向:现代优化算法。
白艳萍(1966-),女,汉族,山西太原人,中北大学理学院教授,研究方向:现代优化算法。