行业与个股新闻对股票价格影响的定量分析

2015-03-04 09:11南京航空航天大学经济与管理学院徐伟李韵喆
财经界(学术版) 2015年13期
关键词:粗糙集贝叶斯预测

南京航空航天大学经济与管理学院 徐伟 李韵喆

随着互联网技术的不断发展,互联网新闻中包含了越来越多的财经资讯。财经网站已经演变成投资者用来交换想法与新闻媒体传播的主流载体,行业新闻与个股新闻在证券市场上对投资者的投资决策起到关键性作用。但是,投资者从海量的财经新闻中分离出有效的信息仍然存在着较大困难。因此,提供一种科学有效的方法来帮助投资者判断新闻的影响力是至关重要的。

目前,探索互联网媒体与股市关系的传统研究较少,大多数学者在有限理性假说的基础上,对投资者心理、投资行为、市场信息非对称性、政府对新闻媒体的控制以及财经新闻语义分析等方面进行研究,其研究结果偏理论性和概括性。而近几年,随着大数据的不断成熟,数据挖掘技术在证券市场预测上的运用也逐渐增加。

互联网财经新闻所蕴含的数据是非结构化的,所以将新闻量化成可视化的时间序列数据具有一定的挑战性。国内学者运用文本分类的基本方法对新闻标题或者板块个股的新闻进行情感分类,构建中文分词词典和情感词典。分词方面,罗海飞等在不断改进贝叶斯算法的基础上进一步提高文本分类的正确率。西南财经大学赵丽丽等主要应用文本挖掘技术和多元线性回归分析方法,结合股票主要技术主表就互联网财经新闻对股市影响进行了实证分析与定量研究。国外机器学习领域的学者以互联网社交媒体为主要研究对象,根据用户表达的投资意愿来分析其与股价之间的联系,运用支持向量回归模型、多核学习方法等建立股价预测模型。历史研究表明,智能方法与传统的CAPM和Fama四因素股价预测模型相比具有更高的准确性。

本文将运用数据挖掘技术分别预测个股新闻与行业新闻对股价的影响,建立智能方法模型,比较股价预测模型的准确性,在国内研究中具有创新意义。

一、方法

(一)系统概述

图一阐述了我们预测系统的全面流程。首先,我们需要搜集数据。在这过程中,我们运用文本挖掘技术抓爬财经网站上的数据,并建立相关股票新闻数据库。其次,我们在这些无结构数据中分离出有用的信息。我们去除HTML的标签,并且分离出有用的新闻特征,例如时间、新闻文本等,对新闻进行文本情感分类,将无结构数据量化。最后,我们的系统能够通过运用支持向量机(SVM)、贝叶斯算法、粗糙集模型对证券价值分别进行预测。

(二)数据搜集

我们选择证券行业为主要研究对象,在新浪财经网站(http://fi⁃nance.sina.com.cn/stock/)上搜集了证券行业18家股票的个股新闻和行业新闻。本研究抓取了2012年12月至2014年9月期间的行业新闻5063条,个股新闻10309条。其中,将2012年12月至2014年7月作为训练集时间段,选取2014年8月至9月作为预测集时间段,采用训练好的模型预测2014年8至9月期间每一则新闻报道对股票收益所产生的影响。本文以前一天15点到次日15点为T日,建立2012年12月4日至2014年9月26日期间的新闻文本资料库。

(三)情感分类

对于情感分类引入评价理论,通过从文本中提取形容词及修饰语构成的短语作为特征,进行语义倾向分析。本文将股票新闻的情感特征词划分为情感词和行为词两类,并进一步分为5个维度(正、负、程度、否定词、不确定词),利用ICTCLAS程序接口以及C++对所有新闻文本进行了分词,建立金融特征词库。

(四)文本结构化处理

在处理数据的过程中,本文基于金融特征词库,进行特征选择,利用向量空间模型(Vector Space Model,简称VSM)将无结构数据的新闻文本转换成计算机可以处理的结构化向量。通过TFIDF方法评估每个特征词在整个文档集中的重要程度。

(五)学习模型

1、SVM模型

图一 系统流程概述

SVM模型由Vapnik首先提出,主要思想是建立一个超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化。本文选用的是SVM模型中的C-SVC的分类器,其过程如下:

基于libsvm工具箱,本文选用多项式核函数,以结构化的文本向量及股票收益率为模型的输入。其中,每日股票收益率采用的是新闻当天数据,周末新闻算为下周一数据,对应下周一股票收益率,以此类推。同时,将停牌股的股票收益与当日新闻予以去除。在进行预测时,由于特征归一化对预测结果有影响,本文考虑分别保留未归一化和归一化的两类预测数据,模型分别用SVM1,SVM2表示。

2、朴素贝叶斯分类

贝叶斯分类原理是通过选取适当的模型的先验分布,利用贝叶斯公式计算出其后验概率。本文朴素贝叶斯分类器所选择的训练集和预测集与SVM的所选择数据相同,模型用Bayes表示。

3、粗糙集预测

由于分类器与新闻因素的差异对预测的数据都有影响,本文构建了一种基于粗糙集的组合预测方法,进而比较分类数据预测的准确性。

本文将SVM1,SVM2,Bayes三种模型求解的行业新闻与公司新闻的预测值作为条件属性集C的元素,将预测真实值y视为决策属性D{y}。论域为各公司预测集内各日数据的集合,该论域中对象的属性即为对应日的属性集C。考虑粗糙集理论中属性集等价类的概率分布[X;p]、[Y;p],引入信息论中信息熵,构建如下公式:

经过运算:

得出C各元素重要性,即各公司不同预测方法,不同新闻因素的重要性。在此基础上,加权不同的预测方法的预测值,可以得出新的预测值;加权不同方法对新闻因素的影响,可以得出两新闻因素影响的重要性。

二、实验与结果

(一)组合预测与其他预测结果比较

本文分别研究了互联网行业与个股新闻对证券行业股票影响强度,比较SVM、贝叶斯以及粗糙集三种模型的预测结果,得出结果如表1所示。

表1 组合预测与其他预测结果的比较

从表1中可以看出,基于粗糙集组合预测结果的准确率总体而言相对于其他两种方法较高。由于粗糙集组合预测需要在预测期间内相同时间段内同时存在行业与个股新闻,其可采用的新闻数据数量比其他两种预测方法会有所减少,影响了结果。所以在综合考虑行业与个股新闻时,同时考虑公司新闻因素和行业因素准确性并不见得会比单独考虑高,反而会出现更低的准确度,具体表现以中信、西南、招商、国金、光大、东吴为例。

但对于整个证券行业而言,粗糙集组合预测综合了各个模型的优缺点以及各新闻因素对各公司的影响程度大小,较大的提升了预测准确率。

(二)公司新闻和行业新闻对各公司影响结果分析

表2 行业新闻与公司新闻影响因素比较

根据表2可以得知,公司新闻因素为股票价格的主导因素。当我们去除预测率较低的个股后,这一现象表现的更为显著,这是因为公司新闻中所含的有价值信息超过行业新闻中的有价值信息。

三、结束语

本文采用文本挖掘技术和向量空间模型,引入了机器学习方法,结合股票技术指标,就证券行业与个股新闻对股市的影响进行了分析研究。在研究过程中,本文发现,互联网新闻对股票收益率存在一定的影响,并且个股新闻对股票收益率的影响高于行业新闻。互联网新闻的样本数量和质量也会影响预测的准确性,样本新闻信息处理的越好,预测则更加精准。

由于股票新闻存在不完整、不确定的特性,考虑到这个因素,本文在运用SVM模型和贝叶斯分类方法的基础上,创新运用粗糙集模型组合不同预测模型,得到了更加精确的预测结果。由此可以看出,运用数据挖掘预测股票收益具有较大的前景。

然而,互联网财经新闻不是一直可信赖的,投资决策还应该结合更多的技术指标和信息来进行分析。在未来的研究中,作者将进一步结合影响股票价格收益率的更多因素综合预测价格的波动。

[1]邹亚宝.媒体对有限理性投资者投资行为的影响研究[J].金融教育研究.2012.第25卷第5期

[2]谭华.不确定时态数据挖掘方法及其在证券行情预测中的应用[D].长沙:湖南大学.2008

[3]高旸,周莉,张勇,邢春晓,孙一钢,朱先忠.面向股票新闻的情感分类方法[J].软件学报.2010.Vol.21.P349-642

[4]陈华,梁循.互联网股票新闻归类和板块分析的方法[J].电脑开发与应用,2006,11:2-3+6.

[5]李丹.基于朴素贝叶斯方法的中文文本分类研究[D].河北大学,2011

[6]赵丽丽.互联网财经新闻对股市影响的定量分析[D].成都:西南财经大学.2012:1-49

[7]Yang Yu,WenjingDuan,Qing Cao.The impact of social and conven⁃tional media on firm equity value:A sentiment analysis approach.Decision Support Systems 55(2013)919–926

[8]VivekSehgal,Charles Song.SOPS:Stock Prediction using Web Senti⁃ment[J].Seventh IEEE International Conference on Data Mining.2007

[9]ShangkunDENG,TakashiMITSUBUCHI,KeiSHIODA,TatsuroSHI ⁃MADA,AkitoSAKURAI.Multiple Kernel Learning on Time Series Data and⁃Social Networks for Stock Price Prediction.10th International Conference on Machine Learning and Applications.2011

猜你喜欢
粗糙集贝叶斯预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
基于Pawlak粗糙集模型的集合运算关系
基于贝叶斯解释回应被告人讲述的故事
基于二进制链表的粗糙集属性约简
不必预测未来,只需把握现在
多粒化粗糙集性质的几个充分条件
基于贝叶斯估计的轨道占用识别方法
双论域粗糙集在故障诊断中的应用