林天华,张倩倩,祁旭阳,赵 霞
(1.河北经贸大学 信息技术学院,河北 石家庄 050061;2.河北经贸大学 经管实验中心,河北 石家庄 050061)
美国著名的未来学家阿尔文·托夫勒于1980年就在其出版的《第三次浪潮》中提出了大数据的概念[1];2008年《Nature》推出“big data”专刊,从互联网、生物医学等方面进行了大数据的研究;2011年《Science》出版了专刊“Dealing With Data”;2012年,美国公布“大数据研发计划”,旨在增强从海量数据中获取信息的能力。2013年中国计算机学会出版了《中国大数据技术与产业发展白皮书》,2014年出版《中国大数据技术与产业发展报告》,阐述了大数据背景下相关产业的各方面发展,2018中国信息通信研究院发布《大数据白皮书》[2],详细阐述了目前中国大数据技术的发展状况和数据立法等各个方面的内容。
国内证券行业蓬勃发展,其特点是数据量大,数据变化速度快,数据类型多样,但存在很多冗余和噪音,需要对大量的数据进行数据清洗、提炼和数据融合等处理。
通过数据转换规约、可视化技术、知识计算等大数据分析技术对证券数据进行分析,另一方面,结合深度学习预测模型对有时序性的股票价格数据进行预测分析等[3]。充分将证券行业和大数据技术结合,更好地指引证券市场,促进经济发展。
在日常运作中证券行业不仅会产生大量的数据,而且也需要运用数据来指导投资,证券数据自身的特点与大数据的特征相契合[4]。证券行业大数据主要表现在行情数据,财经网站的股票行情图以及通达信等行情软件所展现的各类数据、K线图、日均线图等,背后都是海量的数据[5]。利用大数据技术进行证券数据分析,对证券公司出现的问题进行诊断分析、挖掘事件本质,以及预测事件未来走势,从而发现客户潜在需求[6]。
目前,大数据技术在证券行业的应用涉及监督管理、财务分析、股票投资分析、股市预测等各个层面[7]。
市场频现新的交易品类,交易频率不断提高,导致数据分析管理变得越来越复杂,监管任务更加艰巨[8]。传统的交易监察体系的管理和数据计算性能大幅下降[9]。利用数据融合技术、MapReduce计算模型、Hadoop计算平台、Storm流式处理技术等,并结合分布式文件存储系统,如Spark系统,解决证券大数据多维数据的数据结构存储和智能计算管理难题,尤其是多元异构数据的存储问题,提高交易监管的效率[10]。利用大数据技术及机器学习相关算法在整个的数据集中分析研究出可疑交易数据,有机结合多元数据保证监察的全面性和完整性[11]。
传统的财务分析对数据的把控程度较低,能够处理一部分结构化数据,而对于非结构化数据,基本上没有进行处理[12]。通过云存储技术、Web存储、NoSQL技术、云计算等大数据技术对证券机构及证券公司财务数据进行存储和分析研究,挖掘财务数据之间的关联关系,发掘证券公司财务潜在的问题,有助于证券行业机构及证券公司财务部门的管理,使管理层做出更加科学性的财务决策,提高财务风险防控能力[13],深化财务风险的计量模型[14],得出高效的风险分析结果。进而达到事前风险预测、事中风险控制、事后风险评估的效果[15]。
恐慌指数是Bloom提出的一种金融不确定性的度量,是股市的波动率指数(volatility index,VIX),揭示市场参与者的恐慌情绪[16]。2003年推出的以无模型法为基础的新的VIX指数编制方法被广泛使用,各国开始编制适合本国证券市场的波动率指数[17]。
利用知识计算等大数据技术研究投资者情绪,有助于投资者在股市上涨和下跌时做出合理的判断[18]。收集股票论坛中的股票评论信息,分析研究投资者情绪和股票价格间的关系。
舆论热度是指网民对某一事件的关注程度,也称为网络舆情,是人们对于某一影响力大的事件的各种评论[19]。而在股票市场中,股民对某一事件的舆论导向将直接影响股票价格的上涨或下跌[20]。用大数据技术检索并挖掘社交媒体中的情感信息,如利用机器学习中的分类方法、时间序列聚类方法等对舆论热度进行分析,帮助投资者理性投资。在舆情热度分析方面,主要包括证券市场的舆情爆发点、舆情传播渠道和市场情绪走势的监控和分析[21]。
在互联网大数据背景下,证券公司获取的证券数据量增大[22]。将大量的证券数据利用数据可视化技术使用户能够自主分析,交互式的展示和超大图的展示,方便用户理解,设计出更加符合客户需求的产品。另外由于收集到的数据具有实时性,可以不断根据客户需求的改变而设计产品[23]。
量化投资主要是通过大数据分析技术对证券数据进行分析处理,形成投资策略[24]。证券公司在为客户提供信息服务时,需要准确的行业报告和上市公司报告、股价的实时变动信息、大盘走势等[25],将证券数据应用到量化模型中,进行数据的处理和分析,从而为客户提供投资决策的建议[26]。在不断的发展过程中,形成了许多效果很好的量化投资模型。如Fame提出的三因子选股模型[27]和五因子选股模型[28],谢合亮提出的Elastic Net量化投资模型[29],田利辉提出的股票定价的五因子模型[30]等。这些模型能够为人们的投资提供参考策略。
利用大数据技术对流式数据进行实时分析处理的优势,实时监控内幕交易。大数据技术结合人工智能算法,对异常的交易和风险主体进行分析识别[31],以保证证券交易的合法稳定进行。蒋东兴为保障证券行业全量数据的有效治理提出构建超级大数据治理平台的科技监管思路[32],利用大数据技术为监督管理提供科学的决策支持。黄素心运用GARJI模型从信息抵达和动态跳跃特征的角度提出基于信息抵达概率的内幕交易实时监控和预警方案,构建的Logistic和Probit甄别模型的判别准确率在不同条件下都非常高,甄别效果显著[33]。
大数据技术可以对证券企业财务数据进行精准挖掘,规避财务风险[34]。
Campbell等人利用证券交易数据通过动态logit模型进行财务危机预测[35],边海容利用Web金融信息文本构建的混合指标预测模型预测证券企业财务危机[36],有学者提出一种结合logistic回归和支持向量机技术的混合智能模型对金融企业财务危机进行预测[37],都取得了不错的预测效果。利用云计算技术和人工智能算法,根据企业自身的特点[38]建立财务数据的模型并设计出高效的算法,为证券公司制定更加合理高效的财务管理软件,如“财务云”、ERP系统、天财财务软件等。
对恐慌指数进行分析,可以预测市场是否会出现较大的波动。研究恐慌指数的方法有小波分析方法、利用ADR日价格的ADR定价模型、混合分位数回归-Copula等方法。Fathi Abid利用小波方法双变量分析研究发现股指与其对应的恐慌指数之间存在稳定的协动关系[39]。Omar A. Esqueda利用ADR定价模型发现ADR偏离单一价格规律的部分原因是恐慌指数的滞后[40]。刘思跃结合支持向量机和半参数Copula函数,对多个市场间的恐慌指数进行研究发现相依结构有明显的时变效应[41]。
行为金融学认为投资者的情绪会影响投资者的行为,进而影响股票行情[42]。由于人脑会有选择性的接受信息,在做出判断时会有偏差[43],不能客观地分析股市行情。
大数据技术结合自然语言处理技术,分析互联网中投资者的情绪因子,以预测投资者是否看好股市行情。将情绪分为积极、消极和中性三类,或根据临床医学情绪状态量表进行分类[44],筛选出表现情绪的自然语言,归纳人们评论中的表现情感倾向的字、词、句子或整个文本的情感值,对股市进行预测分析。江腾蛟提出了一种基于浅层语义与语法分析相结合的评价对象-情感词对抽取方法[45],对金融评论进行情感分析。Werner Antweiler用朴素贝叶斯和支持向量机算法将雅虎上150多万条股票评论信息进行情感分类[46]。
庞磊首次提出基于句子对将来的事物评论的情感分类研究,旨在自动识别投资者未来情感倾向[47],并且该方法非常有效。李国林利用最小自然语言粒度对网页文档情感进行分析[48],提出的情感倾向算法准确率达到84.34%。张世军提出基于网络舆情和股票技术指标数据的支持向量机回归模型预测股价[49],准确率达到71.43%。张书煜采用向量自回归模型检验投资者情绪与股市收盘价、股市成交量之间的时滞关系[50]。石勇基于优矿金融量化平台的股吧论坛用户评论数据、雪球网股民社交网络数据和财经新闻数据,分别构建指标,利用相关性分析和VAR模型研究其与股市的关系[51],表明不同来源的投资者情绪影响不同。
随着大数据的不断发展,量化投资更多地依赖大数据技术进行更智能的决策分析。Kensho公司通过机器学习和云算法,将传统几天时间的投资分析缩短到几分钟[23]。股票价格作为一种常见的证券时间序列,其波动及影响因子之间关系呈现复杂的非线性性[52]。深度学习和知识计算是大数据分析的基础,股票预测分析逐步使用机器学习来提高预测的准确度,主要包括时序预测方法、支持向量机预测方法和神经网络预测方法等。
3.5.1 传统时序预测模型
由算法模型的输出结果可以将经典时序模型分为确定时序模型和随机时序模型,确定性时序模型常用移动平均法、指数平均法、趋势拟合法和季节系数法,随机性时序模型包括ARMA、ARIMA、ARCH和GARCH等[53]。
ARMA模型是一种研究时间序列的重要方法,它分别包括自回归模型(AR)和移动平均模型(MA)[54]。ARCH模型是经济学家Robert在80年代提出的,并利用该模型对英国通货膨胀指数进行了预测[55]。传统时间序列预测模型的公式表达如表1所示。
表1 传统时序预测模型
3.5.2 机器学习预测算法
3.5.2.1 基于支持向量机的预测方法
支持向量机(support vector machines,SVM)是Corinna Cortes和Vapnik于1995年首先提出,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广到函数拟合等其他机器学习问题中。简单支持向量机是用支持向量机的算法对原始数据进行分析,并给出预测结果[56]。
SVM在预测领域的应用也一直在改进,将数据进行预处理,先对数据进行特征提取,并进行归一化处理,即PCA+SVM算法,这样处理后的数据作为SVM回归机的输入变量可以更有效地拟合复杂函数[57]。PCA能发掘原始数据的高维特性,并在高维空间对这些特征进行重构,从而提高SVM回归预测的准确性。
3.5.2.2 基于神经网络的股票预测方法
2006年,Hinton研究发现多层神经网络具有很强的学习能力[58],在《科学》上发表的这篇文章使得神经网络的研究迎来了再一次的浪潮[59]。近十年来,利用神经网络进行股票预测已成为研究热点。赵洪科对市场宏观动态进行了预测,提出一种基于深度神经网络融合层次多时间序列学习的模型[53],该模型获得非常好的预测效果。曾安提出一种基于深度双向LSTM的神经网络预测模型,比现有预测模型误差降低2%~5%,决定系数(r2)提高10%[60]。
(1)基于卷积神经网络的股票预测方法。
卷积神经网络(convolutional neural network,CNN)具有局部连接、权值共享及池化操作的特性可有效降低网络的复杂度,减少训练参数的数量,易于训练和优化[61]。陈祥一利用卷积神经网络强大的监督学习性能对沪深300指数涨跌情况进行预测,并与逻辑回归、SVM、决策树方法进行对比,CNN取得了不错的预测效果[62]。王重仁对金融信用风险进行预测,利用改进的CNN自动提取特征并分类,预测效果均优于对比模型Logistic回归和随机森林[63]。
将时间序列数据转化为图像,把股市时间序列数据进行标准化对齐与图形化转换,利用CNN模型进行预测[64]。蔺晓根据K线图,采用滑动窗口将股票数据分割成子序列,用CNN对子序列进行特征学习,基于此设计了股票时间序列反转点检测的分类预测模型和股票时间序列异常波动点检测聚类模型,预测准确率分别达到了61%和65%[65]。
(2)基于贝叶斯神经网络的股票预测方法。
贝叶斯理论的适应性和可扩展性使其得到广泛应用,尤其是非参数贝叶斯和正则化贝叶斯[66]。BP神经网络是一种多层网络的误差反向传播算法,用它来进行股票预测时,很容易陷入局部最优,采用贝叶斯正则化算法来改进传统BP神经网络模型,可以解决BP神经网络初始权值随机获取所导致的陷入局部最优问题。刘恒采用贝叶斯正则化改进后的BP神经网络模型对股票时间序列预测精度比传统的BP模型提高42.81%[67]。由于股票价格的概率分布函数不是单峰的,股价不能很好地用正态概率分布来表示,为克服这一困难,Kita提出基于离散变量的贝叶斯网络股票价格预测方法[68],该方法与AR、MA、ARMA、ARCH等预测算法相比,日经指数和丰田汽车公司股价的最大预测误差分别为30%和20%。
经典的贝叶斯公式如式(1)所示,其中Θ表示概率模型的参数,D表示给定的数据集,p0(Θ)是模型的先验分布,p(D|Θ)是似然函数,p(D)是模型的边缘似然函数[66]。
(1)
贝叶斯公式基础的预测模型如式(2)所示,给定训练数据D,通过贝叶斯方法获得对未知数据x的预测[66]。
(2)
(3)基于遗传神经网络的股票预测方法。
将神经网络与遗传算法结合,是一种新的算法优化方法。目前比较主流的是利用遗传算法对神经网络的权值和阈值进行优化[69]。通过文献的阅读,该算法的基本流程可总结如图1所示[70-74]。
图1 遗传算法对BP神经网络优化流程
3.5.3 几种股票预测算法的优劣性对比
股价的变动受到许多因素的影响,是众多因素和各种不确定性因素共同影响和作用的结果[61]。没有一种预测算法能够适用于所有场景,每种预测模型都有它自身的特点,不可能完全适应每种股票数据类型[67],由此而产生了不同的优缺点,在预测性能上有不同的表现力。综合上述文献及对比分析,总结上述预测模型的优缺点如表2所示。
表2 几种算法优劣性比较
续表2
证券机构应结合大数据平台,构建企业内统一的数据池,实现数据的“穿透式”管理[75]。数据治理是需要深入思考的命题,使数据资产成为证券机构的核心竞争力。
大数据技术强调对数据的采集、存储、处理和展现[32]。人工智能可以在各个阶段助力证券大数据发挥更大的作用。大数据与人工智能深度融合,拓展证券大数据的应用场景。
通过对证券大数据的应用领域、算法模型的介绍及机器学习预测算法的分析对比,得出如下结论:大数据技术在证券领域的应用十分普遍。采用机器学习算法对证券行情进行预测是研究热点。每种预测算法都有其相应的优缺点,要根据应用场景和证券类型进行适当选择。