无监督的财经新闻情感标注和情绪指数生成

2023-06-09 09:24邵元海吕孝敬
关键词:财经新闻分词词典

邵元海, 何 洋, 吕孝敬

(海南大学 a.管理学院, b.经济学院, 海南 海口 570228)

一、引 言

新闻媒体对于金融市场信息的传播起着重要的作用,对于普通投资者来说,获取市场信息的第一渠道往往是新闻媒体报道中的财经资讯。这些资讯在发布后会影响投资者的市场预期和交易行为,从而引起股市的波动。2020年初,武汉市政府发布“新冠”疫情通告后,互联网媒体立刻报道了大量有关疫情感染情况和政府管控的新闻[1],投资者第一时间从新闻中感受到生产生活将受到疫情的影响,几乎同时投资者恐慌情绪的蔓延导致了股市开始剧烈波动。2021年7月,国务院发布了针对校外培训机构的“双减”政策,该新闻在互联网媒体的发酵下[2],引起“新东方”“好未来”等教培股集体暴跌,给市场造成了冲击。近年来,越来越多研究者[3-9]将反映基本面的新闻信息应用于金融研究领域,进而发现新闻对金融市场走势有着重要的影响。刘海飞和许金涛(2017)[7]利用TF-IDF 文本表征技术和事件研究法,研究了不同种类的异质性财经新闻对股票短期异常收益率的影响。宋丹丹和张东(2018)[8]采集了大中城市机关报和都市报关于房地产市场的新闻报道,利用线性支持向量机对新闻标题进行文本分析并提取出房地产市场关注度和房地产市场情绪变量,发现媒体报道的情绪因素对市场有着显著的影响作用。齐甜方等(2021)[9]通过基于Seq2Seq的神经网络模型来挖掘新闻文本情绪特征,并利用自动文本摘要技术和情感挖掘技术来预测股票波动,取得了较高的预测准确率。从已有研究可以看出,自然语言处理技术在财经新闻分析领域有着广泛的应用,特别是在情感分析领域,如今的深度学习模型在基于大量已标注样本的情况下,已经能达到十分惊人的情感特征表示能力。但是,由于财经新闻具有无标注、专业性、客观性[10-11]的特点,许多研究者在使用人工智能模型分析新闻情感的时候,往往选择人工标注的方式来获取训练数据,这无疑会给研究工作带来困难。从已有文献来看,通过构造情感词典可以实现文本的无监督情感标注,Turney et al.(2003)[12]根据点互信息(Pointwise Mutual Information,PMI)和潜在的语义分析(Latent Semantic Analysis,LSA)两种不同的词关联统计方法测量文本的语义方向,并以此来扩展基础情感词典。Li et al.(2020)[13]通过比较四种新闻情感值与股票市场技术指标结合后的预测效果,发现Loughran-McDonald 金融词典生成的新闻情感特征显著提升了股市预测的准确性。聂卉等(2020)[14]基于点互信息算法对特征级情感极性进行自动判别,引入了依存句法分析语句间的情感转折来修正经典的点互信息算法,从而对上下文约束下的用户观点进行情感预测。姜富伟等(2021)[15]在Loughran-McDonald 金融词典的基础上通过人工筛选和word2vec 算法扩充,构建了一个更新、更全面的中文金融情感词典。从上述研究可以看出,目前有许多的主流情感词典,但仍然缺少财经新闻领域情感词典,此外,研究者主要关注构建情感词典的语料质量、分词算法、词典拓展算法等方面,对于如何结合情感词典对中性和情感模糊财经新闻计算精确情感倾向值的问题,目前研究尚不深入。

因此,为了实现财经新闻的无监督情感标注以及提取精确的新闻语义情感倾向值,本文设计了两阶段的财经新闻情绪指数(以下简称情绪指数)构造方法,同时提出了构建全新的财经新闻领域情感词典来解决财经新闻的无标注问题。首先,本文丰富了词汇情感倾向判别算法。该算法针对财经新闻专业性、客观性、无标注的特点,在传统情感倾向的点互信息算法 (Semantic Orientation from Pointwise Mutual Informa⁃tion,SO-PMI)[12]基础上做了进一步研究,解决了传统方法计算新闻分词情感值时出现的正负面情感词不平衡、正负面词共现等问题,并完成了财经新闻领域情感词典的构建。其次,本文创新性地解决了中性以及情感倾向模糊新闻文本的情感倾向值计算问题,通过构建的新词典对大规模财经新闻进行无监督标注,对新闻中正负面词比例较高的新闻分别赋予正负标签,随后将已标注情感标签的新闻语料作为训练数据代入到模型中训练新闻情感分类模型,最终通过模型得出的新闻类别概率值计算新闻情绪指数;对于中性以及情感倾向模糊的新闻文本,根据模型的类别概率预测结果即可生成较为准确的情感指数值。最后,本文拓展了文本情感分析技术在金融市场上的应用研究,将量化得到的情绪指数应用于股指涨跌预测。实验结果表明,在股指预测模型中加入情绪指数变量后,模型的分类准确率显著提高,说明新闻情绪指数变量对于股指波动有较好的表征作用。

二、构建财经新闻领域情感词典

本文从财经门户网站采集了2019 年1 月1 日到2021 年2 月28 日期间内的235931 条财经新闻快讯,并在此基础上利用算法自动构造财经新闻领域情感词典。词典的构建过程主要可以分为两个部分。

第一个部分如图1 所示,包括先对新闻进行初始分词,接着利用新词发现算法[16]获取财经新闻领域内新词,最后更新Jieba 分词工具词库(https://github.com/fxsjy/jieba)。在对新闻进行初始分词时,本文使用了Jieba 分词器完成第一次对财经新闻报道的分词,接着去掉结果中的停用词和低频词后构成了新闻词集。经统计,该数据集共含有56370个财经新闻领域内词汇,图2展示了分词结果的词云示例图,图中截取了部分高频词汇进行展示,字体大小代表了词汇频数的高低。从图2中可以看出“市场”“基金”“证券”等财经类词汇出现频数最高,涵盖了财经新闻报道中的常用词。

图1 新闻分词器更新流程图

图2 财经新闻分词词云示例图

进一步分析分词结果可以看出,分词工具无法完整切分出例如“由涨转跌”“新理念”“冲高回落”“补短板”等财经新闻领域内新词。为解决分词过程中Jieba分词无法识别部分新词的问题,本文对初始分词结果使用新词发现算法寻找可能的财经新闻新词。该方法通过衡量词语的内部结合度和边界自由度来发现新词。词语内部结合度通过点互信息公式来度量,公式如下所示:

其中,x,y表示两个相邻字串,p(x,y)表示x,y在财经新闻句子中相邻两个词语出现的概率,p(x)和p(y)分别表示某两个新闻词语各自出现的概率。如果PMI≫0,表明x和y从信息论的角度来看是一个整体,字符串xy可能是一个新词。其次,新闻字符串左右两边的自由度也是判断这个字符串是否可以向左右两边拓展的重要依据,例如“下子”“巧可”“证监”它们的词内部结合度很高,却不是一个完整的词语。因此,我们对字符串片段左右两边的信息熵的计算来判断字符串的边界自由度,左信息熵计算公式如下:

这里,p(wl|w)表示候选词w出现的条件下左邻字wl出现的概率,同理也可计算字符串的右自由度。对于字符串来说,如果边界的自由度越小,那么这个字符串就可以停止向左右两边拓展,而它自身构成的整体则是一个新词。经过新词发现并通过阈值筛选后,在Jieba 分词工具词库中加入发现的新词,从而完成对Jie⁃ba 分词器的更新。接下来,更新后的分词工具将用来对新闻文本进行再次分词,从而提高分词的准确性。图3 展示了新词发现前后分词效果示例,通过新词发现算法,在已有分词的基础上可以进一步识别出例如“由涨转跌”“冲高回落”“大湾区”“健康码”等一系列新词。分词工具在加入新词后,进一步提升了财经新闻文本分词的质量。

图3 新词发现前后分词效果示例

构建财经新闻领域内情感词典流程的第二部分如图4所示,本文提出新的新闻词汇情感倾向点互信息(News Vocabulary Semantic Orientation Pointwise Mutual Information,N-SO-PMI)算法来对财经新闻重新分词后的词语进行情感倾向判别,判别过程结合了种子情感词和分词的向量化表示来共同计算词语的NSO-PMI 值。接着,根据N-SO-PMI 值将判别得到的正负面情感词汇和已有基础情感词典合并,完成对基础金融情感词典的自动扩充,最终构造出财经新闻领域内情感词典。

图4 财经新闻情感词典构建流程图

基础情感词典[15]中的情感词和新闻分词的交集将构成财经新闻种子情感词,如“创新”“繁荣”“廉政”“暴跌”等词同时出现在财经新闻语料和基础情感词典中,将它们作为种子情感词。而部分基础情感词词语如“疤痕”“绊倒”“联姻”等未出现在财经新闻语料中,将它们删去。经过上述处理后共产生了5682 个种子情感词,包括正面词汇3226 个,负面词汇2456 个。表1 给出了正负面种子情感词汇示例,这些情感词在新闻语料和基础情感词典中同时存在并且情感极性比较明确。接下来将新闻分词词汇作为候选情感词,通过计算这些候选情感词与种子情感词的N-SO-PMI值进行情感判别,再根据判别结果对基础情感词典进行扩充,从而得到财经新闻领域情感词典。

表1 初始种子情感词示例

本文提出的N-SO-PMI算法通过计算候选情感词和种子情感词之间的余弦相似程度和点互信息值,结合两者来判断词语情感类别。点互信息值利用共现概率表示两个单词之间的相关性,二者相关性越大,则越有可能属于同一个情感类别,其计算公式如下:

其中,w1表示候选情感词,w2表示情感词典中的已有情感词,p(w1,w2)表示w1和w2在新闻文本中共现的概率,p(w1)、p(w2)分别表示情感词w1和w2在新闻文本中各自出现的概率。本文根据词频估计情感词出现的概率,通过计算固定文本长度中候选词和情感词的共现频数来估计共现概率。此外,词语的文档频率也反映了词汇的重要性,如图5所示,图中统计了不同情感词的文档频率,例如“发展”“增长”等词语在采集的新闻中的文档频率较高,而“诟病”“幌子”等某些突发事件或新闻中的个别专有名词出现的文档频率较低。由于词语之间的文档频率存在较大差异,导致一些有明显情感倾向但文档频率较低的情感词被忽略。因此,本文在用词频估计词语概率时引入了文档频数敏感因子,公式如下所示:

图5 情感词文档频率示例图

其中,αi代表候选词i的文档频数敏感因子,ni,w表示候选词和情感词的共现文档频数,nw是情感词的文档频数,n代表文档总数。乘上αi值,点互信息算法考虑了词语的词频和文档频率因素,计算结果更加合理。

此外,在候选词情感值计算过程中,可能会有正负面词共现的情况。例如词语“旺季不旺”出现在负面新闻语料中,该词语上下文语境中充斥大量的负面倾向词汇,可能造成“旺季”被划分到负面词典中。因此,本文利用预训练模型[17]中的词向量表征,计算候选词和情感词的语义相似度β 来避免正负类词汇被划分到一类词典中,语义相识度计算公式如下:

其中,Vwi和Vw分别代表预训练模型中候选词和情感词的向量表征,βi,w可以看作两个词语在高维语义空间中的余弦相似度。由于预训练模型是在大规模文本语料上训练得到,其产生的词向量表征蕴含了词语的语义信息,能够使相似度计算结果更加准确。

最后,本文在计算过程中发现当情感词典存在正负面词不平衡的现象时,会影响点互信息的计算结果。如图6 所示,该图统计了部分候选情感词对于情感词典中正面情感词的覆盖比例,可以看出不同候选词之间比例差距较大,例如“建设”“创新”等词汇和35%比例的正面词汇共同出现过,“短板”“反常”等词语与超过20%比例的正面词同时出现过。由于正负面情感词的不平衡,候选词和情感词的点互信息值经过累加后无法正确反映候选词情感倾向。例如:“在美元上涨的同时,通常与其走势反向的黄金价格周四也反常地同步走高,一度上破1530 美元关口。目前,金价在过去七个交易日已有六天上扬,惯例的跨年攻势无疑已经开启!”,这则新闻中的候选词“反常”与情感词“上涨”“走高”“上扬”等正面词出现在同一文本片段中,这些正面词都会提高“反常”的正向点互信息值。因此,本文在计算候选词最终点互信息值时,通过除以候选词的情感词覆盖个数得到平均值而不是累加值来计算情感倾向。

图6 候选词覆盖情感词比例示例图

为解决上述问题,本文通过如下新闻词汇情感倾向点互信息(News Vocabulary Semantic Orientation Pointwise Mutual Information,N-SO-PMI)公式对词语进行情感倾向值计算来扩充基础情感词典:

其中,wi代表候选词,wp和wn分别表示正类和负类情感词,αi和βi,*分别表示本文提出的文档频数敏感因子和语义相似度因子,Ni∙pos和Ni∙neg分别代表基础词典中与候选词i在同一长度文本中共现过的正面词和负面词数量。

与传统的点互信息算法公式[12]相比,公式(2.6)引入了文档频数因子(2.4)和语义相似度因子(2.5),并且使用平均值来计算最终值。公式(2.6)充分考虑了候选词和情感词在语料中的词频和文档频率因素,并对正负面词在语料中共现的问题做了修正。通过公式(2.6)计算新闻文本中候选情感词的N-SO-PMI 值,再根据阈值选取词语与基础情感词典合并得到财经新闻领域的情感词典。为了最大限度避免引入噪声情感词,在实际应用中则会将阈值调高,将整个情感词分类算法迭代多次进行,直到新计算出的候选情感词点互信息值低于设定的阈值或者达到模型最大迭代次数,即完成情感词扩充。本文生成的最终情感词典共包括正类词7678个,负类词9782个。合并后的财经新闻领域情感词典示例如图7所示,左边为根据阈值截取的正面情感词汇示例,右边为截取的反面情感词汇示例,字体的大小反映了该词语在语料中的词频。相比于基础情感词典,积极金融情感词增加了4452 个,消极金融词汇增加了7326 个,包括“肺炎疫情”“贸易战”“负增长”“ST”“对外开放”“以点带面”“阔步”等新的金融情感词都被纳入其中。

图7 财经新闻领域内情感词典词云示例图

三、财经新闻情绪指数生成

在生成新闻情绪指数时,由于财经新闻的专业性、客观性,大量中性及情感模糊新闻的情感倾向难以被量化。因此本文通过训练情感分类模型计算新闻的情感类别概率并将其转化为情绪指数值。具体流程如图8 所示,首先利用上文中生成的财经新闻领域内情感词典建立自动标注模型,完成对新闻语料的自动标注。随后利用已标注正负情感标签的新闻语料训练神经网络情感分类模型。最终,通过神经网络情感分类模型得到新闻类别预测概率,并根据概率值计算情绪指数。

图8 财经新闻情绪指数生成流程图

由于中文用语中出现“不算好”,“不太高”等“委婉”的否定结构表达方式,常常会提高正面词出现在负面文本中的比例,使得基于情感词典的情感判别方法会失效。因此,图8 在自动标注模型中还引入了否定结构词典和程度副词词典,通过否定词词典识别否定结构表达方式,才能准确判断句子的情感倾向。程度副词词典根据不同的情感强化等级可以分成五组不同权重值,如图9所示,词语的情感权值等于-1表示否定结构词,情感权值大于1 时表示情感强化副词。通过计算情感词前面的否定词数量,来处理语法结构中的否定和双重否定问题,新闻情感词语的情感倾向会因为否定结构词发生反转。

图9 否定词和程度副词情感权重图

接下来,在本文构造的情感词典、程度副词以及否定结构词的基础上,我们对23 万条新闻数据进行了无监督情感标注,由于基于情感词典的无监督标注仅仅生成了新闻的情感类别标签,还没有生成精确的情感强度值。为了解决上述问题,本文利用神经网络模型对标注数据再次进行分类,通过这种方式,模型就可以学习到新闻中的隐含语义表达,不但能得到精确的情感强度值,还能基于文本的语义特征进行情感分析。为了避免噪声数据,我们在语料中选择了正面和负面得分较高的新闻作为训练数据来训练情感分类模型。对于图8中的监督式情感分类模型,本文使用了自然语言处理领域中带注意力机制的神经网络模型来对文本序列建模。该模型包括词嵌入层[18]、双向长短期记忆(Bi-directional Long-Short Term Memory,Bi-LSTM)[19]网络层、注意力机制(Attention Mechanism)[20]层和全连接层[21]。在词嵌入层,我们可以通过预训练模型得到包含新闻分词语义信息的嵌入式向量表达,接着将词向量依次输入到Bi-LSTM 层中提取出每条新闻的语义表征。双向长短期记忆神经网络是一种改进的循环神经网络(Recurrent Neural Network,RNN)[22],它大大缓解了RNN 训练过程中出现的梯度爆炸和梯度消失问题,而且可以从前后两个方向对文本进行序列建模。双向长短期记忆神经网络存在不同的门控单元,包括遗忘门ft、输入门it和输出门ot。每个门控单元输入上一时刻的隐藏状态ht-1和当前时刻的新输入数据xt,也就是词嵌入向量。输入门决定了当前时刻输入词汇信息c͂t有多少被吸收,遗忘门决定了上一时刻词汇状态ct-1有多少被保留,输出门决定了当前时刻输出信息有多少被传递到下一时刻神经元中。每个门控单元的计算公式如下所示:

每个门控单元权重矩阵(三个门控单元的权重矩阵和一个输入值的权重矩阵)都分别由Wx∈Rdh×dx,Wh∈Rdh×dx两个部分组成,b是偏置向量,σ(∙)是激活函数,Tanh是双曲正切函数,⊙为元素的点乘操作。这里三个门控单元的计算方式相同,激活函数σ(∙)采用sigmoid函数,将每个门控单元的向量值映射到[0,1]之间。接下来,我们将输出的新闻隐藏状态矩阵H=[h1,h2,…,hT]∈Rdh×T输入到神经网络注意力机制层中进一步生成新闻的深层语义特征。

注意力机制(Attention Mechanism)是由Bahdanau(2014)[20]首次引入到机器翻译领域。通过注意力机制,神经网络模型可以生成注意力权重矩阵来对新闻中不同词语赋予不同的权重,区分了不同词语对新闻语义的影响程度,使模型能更好地捕捉新闻的核心信息,从而避免了神经网络模型在对一长段新闻文本的训练过程中,对距离当前输入词较远的词语产生梯度遗忘的问题。如果将LSTM 网络输出的隐藏状态向量所组成的矩阵记为,T 代表新闻的平均长度,对于超过或者不足长度T 的新闻采取了Padding操作进行处理,T也代表预测周期的长度,而预测标签即为上文通过无监督标注方法标记的新闻情感标签。注意力机制最终会在每一个隐藏状态向量ht之上产生一个注意力权重向量αt,而注意力网络层的输出ct是由所有隐藏状态向量经过αt加权,再进行非线性变换后得到,即最终新闻的向量化表示:

公式(3.7)使用了加性注意力机制公式,WK,WQ分别代表某种线性变换的权重矩阵,vt代表权重向量,每一个分量代表新闻中词语的语义权重。最后经由softmax层得到模型对类别的概率输出,如公式(3.11)所示:

其中,W 和b 分别表示全连接层的权重矩阵和偏置项,i 为经过注意力机制模型特征提取后的第i条新闻的向量表示,Pi为新闻i属于正面新闻的概率预测结果。最终,通过(3.12)式中的评分转化公式将预测概率转化为[-1,1]之间的情绪指数值。

四、实证结果与分析

本文采集了从2019年1月1日到2021年2月28日共23万条财经新闻文本和金融市场中有代表性的股票市场指数,包括上证指数、上证50指数、沪深300指数、深证成份指数四种股指。由于不同股指包含的成份股不同,本文根据新闻中提到的股票代码和名称进行匹配,对新闻进行了分类,从而构建了四种股指对应的新闻数据集。基于以上信息,本文生成了四种股指的月度收益率曲线,并且对四种股指各自的新闻数据集生成了基于N-SO-PMI算法和传统SO-PMI算法的新闻月度情绪指数曲线,如图10所示。

图10 四种股指及对应新闻情绪指数走势对比图

图10中四幅子图的横坐标表示时间跨度,即从2019年1月到2022年2月,共26个月,纵坐标表示情绪指数区间和收益率区间,SZ、SZ50、hs300、SC 分别表示上证指数、上证50 指数、沪深300 指数和深证成份指数。另外,图10中圆点线-●-代表股指收益率,三角线-▲- sen1代表由传统SO-PMI算法构造的新闻情绪指数,五星线-★-sen2代表基于本文提出的N-SO-PMI算法构造的新闻情绪指数。从图10中可以看出,相比于三角线,五星线与圆点线的趋势更具有一致性,即基于N-SO-PMI 算法生成的新闻情绪指数和股指收益率曲线走势更加吻合,且两者之间有较强的正相关关系。此外,通过观察可以发现,新闻情绪指数sen1虽然在走势上和待预测股指走势不尽相同,在某些时间节点还会出现相反的走势,但是和sen2 相比,sen1的走势对股指来说更加具有前瞻性。而sen2走势滞后于sen1,更加接近于近期股指波动情况,更适合用于股指的短期预测。原因可能是本文使用的情绪指数生成方式更好地提取出了当期新闻中与股指波动有关的情感语义特征,使得计算得到的新闻情绪指数和股指走势更具有一致性。

接下来,本文将通过统计股指收益率曲线和情绪指数曲线的同涨同跌天数占整个时间周期的比例来进一步说明两者的一致性关系。在新闻采集周期内共有522个交易日,本文利用上述四种股指各自对应的新闻数据集,分别生成了基于N-SO-PMI 算法和传统SO-PMI 算法的新闻文本日度情绪指数,并且计算了情绪指数和对应股指日收益率曲线之间的同涨同跌比例,如图11所示。

图11 不同互信息算法下情绪指数和股指同涨同跌比例图

图11 中横坐标代表不同的间隔天数,用period 表示,间隔天数分别选取了1 天、5 天、10 天、20 天。当period=10 时,表示如果股指日收益率曲线中第k 天的数值大于第k-10 天的数值,则第k 天的标签即为上涨,反之则为下跌。同理我们可以得到情感指数的涨跌标签,然后通过统计股指收益率和情感指数之间的同涨同跌天数总和计算同涨同跌比例值。图11 中纵坐标表示比例值,上半部分表示基于N-SO-PMI 算法在不同时间间隔下的不同股指收益率与情绪指数的同涨同跌比例值,下半部分表示基于SO-PMI算法在不同时间间隔下的不同股指收益率与情绪指数的同涨同跌比例值。从图中可以看出,基于N-SO-PMI算法生成的新闻情绪指数和股指涨跌的相关性更强,同涨同跌比例大部分在60%以上,普遍高于传统SO-PMI 算法。基于N-SO-PMI 算法生成的新闻情绪指数与上证指数收益率同涨同跌比例最高,超过70%,说明本文方法构建的情绪指数的走势与上证指数收益率的走势比其他股指更加一致。接下来,本文将重新构造数据集并利用生成的情绪指数来对上证指数收益率的涨跌进行预测。

为进一步说明生成的情绪指数在金融市场分析和预测应用上的有效性,接下来将对股指的涨跌进行预测,其中所用到的数据集、代码和预测工具已上传到网站①https://github.com/hheyang/-07-20。。本文从Wind 数据库获取了上证指数、上证50 指数、沪深300 指数、深证成份指数从2019 年1 月1 日到2021 年2 月28 日的历史交易数据构成数据集。接着在股指历史价格数据的基础上生成了股指技术指标,技术指标主要基于Zhang 等(2019)[23]和林杰等(2017)[24]两篇文章进行构造。最终,每条交易数据包括每日开盘价、收盘价、最高价、最低价和交易量、技术指标、新闻情感指数信息,共计2096 条数据。我们将四种股指的历史交易数据作为训练集,将最近三个月的上证指数作为测试集,数据标签通过计算当天的收益率R,并经过如下公式转换后得到:

本文使用了前文中带注意力机制的神经网络模型来预测股指收益率的涨跌。在实验中,我们对比了不同特征组合下的预测结果。根据上文的结果,用本文方法生成的sen2 情绪指数和上证指数走势更加趋同,但并不具有很强的前瞻性,情绪指数的变化情况更多反映了市场近期的状况。因此,本文建立了短期的股指趋势预测模型,即模型预测下一个交易日的涨跌情况。同时,为了选择训练数据的最优历史时间跨度,历史周期T将作为一个超参数加入到模型中。实验结果如表2所示。

如表2所示,实验共统计了两种神经网络模型在四种不同特征数据集上的预测准确率。两种模型分别是带注意力机制的LSTM 模型和GRU 模型,四种数据特征分别是技术指标、技术指标拼接新闻文本向量、技术指标拼接SO-PMI情绪指数、技术指标拼接N-SO-PMI情绪指数。本实验中统计了不同长度时间窗口T 下的预测效果,分别选取了5、10、15、25 天的历史窗口数据。当T 等于10 时,即用前9 天的历史数据去预测第10天股市的涨跌。从表中可以看出,在不同模型中,技术指标拼接N-SO-PMI情绪指数构成的数据特征的预测准确率相比于其他特征集提升了3%-5%左右。其中,历史数据时间周期选择10天的时候提升效果最明显;在其他时间周期,使用本文提出的财经新闻文本情绪指数变量,预测模型在准确度上有不同程度的提升。虽然在预测模型中添加向量化的原始新闻文本也有助于提升预测效果,但准确率的提升不如添加情绪指数明显,并且由于前者特征维度较高,会使得模型复杂度大大增加。

表3 中对上表中的实验结果进行了双样本T 检验,从结果可以看出,新闻情绪指数拼接技术指标构成的特征集在预测准确率上显著优于其他特征集。从前面的实证分析结果来看,情绪指数变量可以作为一个“插件”拼接到技术指标变量中,从而提升模型的预测能力。

表3 基于不同数据集的预测效果显著性差异

五、结论与启示

本文利用财经新闻文本数据集,构造了财经新闻领域内的情感词典,生成情绪指数,探究了情绪指数在金融市场分析和预测上的应用。研究结论如下:第一,针对财经新闻报道专业性、客观性、无标注的特点,本文利用新词发现和N-SO-PMI算法构造了财经新闻领域内情感词典。该词典可以用来快速完成大量财经新闻的无监督情感标注,大大减少了人工标注的工作量。此外,本文提出的N-SO-PMI 算法解决了传统SO-PMI算法在计算新闻分词情感倾向值过程中面临的基础情感词典正负类词不平衡、正负面词共现的问题。第二,本文结合情感词典和深度学习模型构造了情绪指数。在指数构造过程中,解决了“中性”新闻情感倾向量化困难的问题,验证了情感词典和深度学习模型这两种不同学习范式在情绪指数构造领域是可以互补的。第三,本文通过将技术分析指标和含有基本面信息的财经新闻相结合,探究了情绪指数在金融市场分析和预测上的应用。研究发现,情绪指数和股指收益率走势具有较强的趋同性。使用情绪指数和股指技术指标相拼接构造的数据特征,能取得比仅仅使用传统指标数据特征更好的模型预测效果,这说明新闻情绪指数指标是一类有助于分析和预测金融市场的经济变量。

综上,针对财经新闻具有专业性、客观性、无标注的特点,本文建立了一套完善的财经新闻情感分析和应用系统,克服了传统文本分析方法难以精准量化财经新闻情感倾向的缺点,为财经新闻情感挖掘与金融市场分析提供了一种新的方法和思路。基于此,未来学者们可以结合更多来源的文本进一步挖掘情绪细节,从而帮助市场参与主体把握市场情绪变化,提升决策行为的理性。

猜你喜欢
财经新闻分词词典
分词在英语教学中的妙用
米沃什词典
浅析大数据时代下财经新闻报道的改进路径
结巴分词在词云中的应用
结巴分词在词云中的应用
评《现代汉语词典》(第6版)
词典例证翻译标准探索
关于党报财经新闻的艺术性探微
“新常态”下财经新闻报道策略探析
都市报财经新闻建设的现状与应具备的几种意识