摘要:大数据挖掘是当今各方面研究的一个趋势,随着人们生活水平的提高,股票被越来越多的人当做投资工具,但众所周知,股票具有高风险的特性,本文利用已有数据通过实证研究来预测股票未来的买入情况。
关键字:大数据,股票,预测
一、 背景介绍
股票是一种有价证券, 是股份公司在筹集资本时向出资人公开或私下发行的、用 以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担 义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型 股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以 不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行 为,例如无货沽空,可以造成金融市场的动荡。
开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔 买卖成交价格。世界上大多數证券交易所都采用成交额最大原则来确定开盘价。
收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成 交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价 是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场 行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。
最高价指某种证券在每个交易日从开始到收市的交易过程中所产生的最高价。
最低价指某种证券在每个交易日从开始到收市的交易过程中所产生的最低价。
成交量是指一个时间单位内对某项交易成交的数量。一般情况下,成交量大 且价格上涨的股票,趋势向好。成交量持续低迷时,一般出现在熊市或股票整理 阶段,市场交投不活跃。成交量是判断股票走势的重要依据,对分析主力行为提 供了重要的依据。
K 线图这种图表源处于日本德川幕府时代(1603~1867 年),被当时日本米 市的商人用来记录米市的行情与价格波动,后因其细腻独到的标画方式而被引入 到股市及期货市场。通过 K 线图,我们能够把每日或某一周期的市况现完全记录 下来,股价经过一段时间的盘档后,在图上即形成一种特殊区域或形态,不同的 形态显示出不同意义。插入线、抱线和利好刺激线这三种 K 线组合是最常见的经 典见底形态。
二、 数据处理
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的 数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程。随着信息 技术的高速发展,人们积累的数据量急剧增长,动辄以TB计, 如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需 要应运而生发展起来的数据处理技术。是知识发现(Knowledge Discovery in Database)的关键步骤。
三、 数据分析
根据上述的日线信息,可计算出该股票在7日、14日、28日和56日,不同时间段内的统计信息,如下表所示。
表2:预测日前的各时间段统计信息
根据上述各时间段的统计信息,可根据模型的计算规则,并将结果归一化后分别计算出6个神经网络的输入变量。将输入变量代入神经网络中经过计算,可得到神经网络的输出变量。
四、 分析结论
根据各神经网络的输出变量值,可按照预测得分的计算规则得到最终的预测得分为60.048。由于该股票在2016年8月3日收盘后发出买入信号,参照2016年8月3日后28天内的日线信息,发出买入信号后的第13个自然日时,最大累计涨幅达到28.99%,符合最大涨幅超过5%的预期。
本模型中的各神经网络在训练时将误差可接受的范围设置为0.1%。在2006年1月至2016年1月的训练样本中工发出买入信号10050次,其中有8427次在发出买入信号起28天内出现5%以上的涨幅,准确率为83.85%。训练结果如下表所示。
在2016年2月至2017年1月的测试样本中共发出买入信号18934次,其中有17631次在发出买入信号起28天内出现5%以上的涨幅,准确率为93.12%。测试结果如下表所示。
作者简介:张琪琪(1991—),女,山西临汾人,山西财经大学2015(财政学)学术硕士研究生,研究方向:财政理论与政策.