邢伟琛
摘 要:我国股票市场经过30多年的发展,逐渐形成了一个庞大的股票信息数据库,随着时间的积累,数据库中包含了大量的股票数据信息。当前,大数据应用得到了蓬勃发展,大数据技术也得到了较广泛的普及。为股票所产生的历史数据进行收集,整理,分析提供了便利,为通过探究历史数据对股票未来价格预测提供了可能。本文通过对大量的股票历史数据进行分析,利用MATLAB软件所带的BP(back propagation)神经网络模型对股票数据进行处理并分析。旨在为广大的股票投资者提供更科学、更理性的建议。
关键词:大数据 股票 BP神经网络
中图分类号:F830.9 文献标识码:A 文章编号:2096-0298(2020)02(a)--02
随着股票市场的不断发展,产生了大量的股票数据。但这些历史数据往往被人们所忽略它们的价值或者在对历史数据进行分析的过程中,难以深层次的挖掘出真正的对人们有用的价值,信息的利用率较低。并且股票市场向来“阴晴不定”,股价的高低起伏很大,而股票的价格变化又与每一位股票投资者的切身利益有着密切的联系。因此,要充分利用好大数据技术所带来的优势,结合神经网络算法,对股票的历史数据进行分析,尽可能有效地挖掘出隐藏在股票大量数据中的规律,找出股票的价格走势。
1 大数据的相关概念及发展
当前,信息技术和互联网技术得到了快速的发展,大数据也应运而生。大数据是指在一定时间内,通过常规软件或者是人工无法对涉及的规模巨大的数据量进行截取、管理、处理,并整理成为人类所能解读的信息[1]。大数据概括来讲具有以下五个基本特征,我们也常常称做“5V”:一是体量(Volume)大;二是速度(Velocity)快;三是多样性(Variety);四是价值(Value)密度低;五是真实性(Veracity)。
近年来,国家相继出台推动大数据产业发展的相关政策,涉及与数据相关的各个领域,完善大数据人才培养模式,加快大数据人才培养速度与质量。2016年“十三五规划”中明确提出实施大数据战略,把大数据资源作为战略发展的基石,加快推动数据资源的开发和共享,推动多项产业的转型升级[2]。图1为我国大数据产业市场规模图[3]。
2 我国股票市场的发展现状
我国股票市场从1989年开始试运行,经过30多年的发展,经历了从无到有,从少到多的重大跨越。起初,由于缺乏股票发展的相关经验,一点点的摸索前进,直到现在股票市场已经发展成为中国经济发展不可或缺的重要组成部分。我国股票市场在取得重大进步的同时也存在着一些潜在的问题。股票的价格会因为各种各样的因素而产生较大波动,比如:有较多的内幕交易在股票市场中出现,在退市的规则执行中力度稍显不足,股票市场中相关的法律法规未能及时制定等,以至于有一部分股民蒙受较大损失。并且我国股票市场还有“政策市”的特点,政府出台的相关政策也会影响到我国股票市场个股的股票价格,因此,一种去除噪声的科学合理的股票预测方法对于每一位股民来说就显得很有必要了。
3 通过整理大数据信息对股票进行预测分析
3.1 BP神经网络基本介绍
股票市场自身具有高噪声、非线性的特点,而BP神经网络可以较好的克服这些缺陷来对个股股票进行分析。BP神经网络,是一种按照误差逆向传播算法训练的多层前馈神经网络,也称之为误差反向传播神经网络[4],其构造的基本思路是:由信号的正向和反向传播两部分构成了一个完整的学习过程。信号样本值先从输入层输入,经过隐含层时按照制定的规则进行处理,再从输出层将信号输出,若输出的样本值与期望值存在较大差异,则进行反向传播,通过调节各个参数的权重重新进行训练学习,如此循环往复,直到满足预期的标准为止。
3.2 BP神经网络模型的参数确定及预测
首先,对神经网络模型的参数进行选择,主要通过获取股票的收盘价和开盘价等指标来对神经网络模型进行训练。其次,由于各个股票的数据存在数量级的差别,为了减少因数量级差别而造成的非主要因素误差,因此,对数据进行归一化处理。再次,要对隐含层节点数的数量进行确定,隐含层的节点数的个数与网络模型预测股票指标的精度之间关系密切。数量过多或者过少,都将会对预测精度产生重大影响。本文经过多次调试试验,最终确定最佳的隐含层节点数数量为20。然后,就是对BP神经网络结构进行确定。以MATLAB 2014a版本中所带的BP神经网络工具箱进行仿真实验。用newff函数来创建BP神经网络,BP神经网络神经元的传递函数和输出层神经元的传递函数用tansig函数,使用trainlm作为训练函数,最大训练次数为1000次,学习率为0.1次,目标精度为10~12次。最后,就是对实验数据进行选取,为了最大限度的体现普适性,选取了四支股票进行预测,分别是中国石油(601857),中国平安(601318),中国联通(600050),中国中铁(601390)。通过大数据的收集和整理,选取2017年1月3日至2019年4月30日共492个交易日记录为实验基础,其中,选择462组交易数据对BP神经网络进行训练,剩下30组数据待输出结果后与实际值进行对比。以下图2~图5是经过BP神经网络训练学习之后,预测的30组数据输出值与实际值相对比所产生的四支股票收盘价的相对误差图。
3.3 对预测结果进行分析
通过对中国石油(601857),中国平安(601318),中国联通(600050),中国中铁(601390)这四支股票的历史数据在BP神经网络模型中进行学习训练,得出了30组經过学习之后输出的预测值,然后预测值与实际值相对比,我们进一步得出了这四支股票的相对误差图。通过看图我们不难发现,中国石油和中国中铁这两支股票的相对误差控制在2.5%以内,而中国联通和中国平安这两支股票的相对误差大致在4%以内,考虑到由于企业的内在性质不同,导致中国石油和中国中铁这两支股票在相对误差方面优于另外两支,但总体来说,整个相对误差在4%以内,已经能够较好的对股票的收盘价的价格以及趋势进行预测,可以实现通过对大数据的分析整理,利用BP神经网络模型来对股票进行指导性预测,实现了为广大股民提供科学、理性投资的目的。
4 结语
本文首先对大数据进行了相关介绍,再利用大数据技术对股票的历史数据进行收集和整理,再将这些历史数据输入到BP神经网络进行训练并进一步预测,我们从各个股票的收盘价这一指标进行分析,产出了四支股票的相对误差图,从图中我们可以非常直观的看出该神经网络模型在对股票进行预测的过程以及结果具有较高的精确度,结果较为理想。因此,在大数据背景下,以大数据技术和大数据分析为依托,能够为广大股票投资者选择出更加科学、理性,适合自己的股票。
参考文献
吉泉烨.产能过剩与商业银行信贷风险的防范措施探讨[J].全国流通经济,2018.
我国大数据产业发展展望[J].软件和集成电路,2017.
2018—2024年中国大数据行业发展趋势及投资战略研究报告[DB/OL].http://www.chyxx.com.
王磊,王汝凉,曲洪峰,等.BP神经网络算法改进及应用[J].软件导刊,2016(5).