王培培
[摘 要] 在财务信息领域,通过情感倾向分析可以发现财务人员的真实意图,掌握真实的财务信息数据,同时得出其褒贬性倾向,为企业管理者提供决策参考信息。尤其是有关具体的金融市场,信息舆情往往对整个市场的影响非常大,不仅会体现国家的大政方针,同时还能够分析出行业的发展动向和市场前景的好坏,更为有益的是能够了解到多元投资者的交易动向和具体感情倾向。基于文本情感应用价值的分析判断,提出要充分运用目前网络信息时代的丰富网络信息资源,对其进行各种数据挖掘和文本信息数值化处理,实现有用信息的提取与使用,充分运用文本倾向性分析,得出情感倾向分析指标,确定具体的关键投资指标文本积极和消极化的判断,实现真正意义的财务信息利用与挖掘。
[关键词] 情感分析;数据挖掘;财务数据
[中图分类号] F253.7 [文献标识码] A [文章编号] 1009-6043(2017)08-0166-02
一、引言
科技的进步和研究的深入进一步推动了自然语言处理技术的前进与发展,同时也推动了文本分类技术的完善。目前,文本情感分类技术已经得到了大力的推广与应用。文本情感倾向性分析作为文本情感分类的重要构成之一,嫣然已经成为目前数据挖掘的研究重点之一。通过情感性分析不仅对计算机领域的发展有所裨益,同时对我国各行各业都能起到足够好的推动作用。在财务信息领域,通过情感倾向分析可以发现财务人员的真实意图,掌握真实的财务信息数据,同时得出其褒贬性倾向,为企业管理者提供决策参考信息。尤其是有关具体的金融市场,信息舆情往往对整个市场的影响非常大,它不仅会体现国家的大政方针,同时还能够分析出行业的发展动向和市场前景的好坏,更为有益的是能够了解到多元投资者的交易动向和具体感情倾向。
二、文本情感分类在金融市场财务信息中的应用
针对网络、电视、广播新闻中的文本进行情感分类和分析能够合理体现现实社会的实际情况,得到有关未来广大投资者的情感倾向,帮助投资者制定合理的投资方案,例如运用N元语言模型探索,得出有效的投资信息,最终运用到具体投资决策中。尤其当今社会是信息爆炸社会,文本情感分类能够根据证券市场的实时行为,随着时间节点的不同分析不同的情感变动。
文本分类技术和文本情感分析能够满足有关资本市场的大规模文本情感倾向分析,同时结果更为直观具体,能够带给相关受益人更多的信息,降低了证券市场信息过于复杂的缺点。具体过程如下:首先,构建数据库后,利用情感倾向标准文本中形容词、动词或副词短语,得出初步分析结果。其次,通过情感模式库,评估第一步中涉及词语的情感倾向,例如,与积极情绪相关的词——阳线日益凸显,就可以得出其结果为积极倾向的词语;反之,与消极相关的词——阴线出现几率较大,就可以得出其结果为消极倾向的词语。最后,将目标文本中抽取出的短语、词汇的情感倾向汇总分类到积极或消极中,最终得出市场走向。目前已有研究可以看出,文本情感分析技术运用于资本市场和金融行业未来前景良好。
(一)市场预测
股票的价格波动、股票个股信息的变动以及个股所在市场行业的变动,这些信息不仅会影响到整个市场的情感波动,同时也直接导致投资者的感情波动,进而影响到有关具体决策的真正实施。尤其是企业的个股股票价格除了受外部因素影响外,更多是与企业本身发展有关,通过分析与企业自身有关的情感数据,能够重点关注企业预测股票市场的未来走势。目前大部分研究都是结合数据文本分析技术,对目标企业进行资料收集和信息分析,由此预测未来企业价格走势,同时构建具体模型,确定企业、市场对有关新闻的反应模型,为后续工作打下基础。
(二)信息服务
“互联网+”时代的来临,显然已经使得金融行业与网络形成了密不可分的关系,尤其是网络技术带给金融行业的高新技术,其中文本情感分析技术就是不可忽视的重要组成部分之一,它能够为各方提供更加高效快捷的信息服务,实现了高效分析和决策。针对网络新闻重复性较大的问题,文本数据分析技术能够高效、快速的从语义相似度高的情况中迅速挖掘出有效信息,实现基于事件驱动的金融信息查询系统。目前,现实生活中已经有很多金融机构构建了自己的金融信息挖掘服务系统,例如同花顺的股票信息挖掘大数据系统、Google财经搜索系统等,这些成型的系统都能够提供给大家所需要的數据和信息。
三、基于语义理解的上市公司财务文本情感分析
(一)Web金融文本信息的情感计算框架
有关金融市场的互联网评论对企业股票市场表现的联系是非常密切、客观且直接有效的,主要包含两种信息:第一种信息的评论情感倾向并不是非常显著,但是内容能够客观真实,有效信息更多;第二种信息情感倾向非常清晰,但是由于存在严重的情绪化问题,所以有效信息并不充足。针对各类信息,结合分类器提取情感分析所涉及的各种词汇,包含各种类型的词语,具体的情感分析值计算的方法如下:
1.构建金融证券领域的情感领域数据库。数据库的构建是基于中英文词汇的同义词林构建,能够结合金融证券市场特性和网络语言的词汇。
2.计算词语情感倾向值。结合词性标注和词汇的分类结果来分析情感词,根据语素情感计算方法来计算情感倾向值。
3.计算语句情感倾向值。语句的结构对情感值的表达很重要,同样对于语句情感计算值也很重要,要充分考虑各种句子之间的关系,了解句子中间的语气增强或翻转等问题。
4.计算文档情感倾向值。计算时把每个企业所有评论视为一个文档,根据文当中的词语和语句来计算文档情感倾向值。
5.年文档情感均值计算。本项目把每个企业的所有评论的情感值进行求和,然后除以全年文档数,得到年文档情感均值。
(二)金融领域情感词语库的构建
1.结合现有技术,依据算法扩充。由于金融市场时效性很强,信息量巨大,且不像日常语言评论那样有现成的数据库,能够直接生成情感语料库,所以实际操作难度要高于电影评论分析的情况。所以,首先,要结合金融市场语料库和正向种子词集Seedc0={涨,走高,盈利},负向种子词集Seedd0={跌,走低,亏损},并将它们作为输入;其次,要结合同义词词林进一步拓展其中的正负向词集;最后,正向种子词集和负向种子词集中形成输出。如此循环,将输出作为新的一次输入最终形成完整数据库。endprint
2.结合知网数据库里的情感词汇,并基于金融市场特性相结合,通过预处理来确定相应的词汇,丰富情感词汇数据库。
3.构建网络词汇库,补充新型词汇的情感数据库。例如一些网络流行用词,如“囧”、“我去”“蓝色香菇”“给力”等,都是很明显的网络情感语言。
4.构建修正值,避免由于词库词语的偏差导致的误差,根据修饰程度不同,分别给不同的程度副词赋以不同的修正值grade。
(三)情感词的情感倾向值计算
1.语素的情感分数。根据词的情感假设,结合语境推导出有关词汇的情感分析,符合汉语语言习惯,能够更加准确确定语素的情感分数。通过词语的语素在正向情感词和负向情感词中出现的频率,来确定其到底是褒义还是贬义。
2.词的情感倾向值的计算方法。扫描整个正向情感词典和负向情感词典,如果词出现在正向情感词典中,则词的情感倾向性为1;如果词出现在负向情感词典中,则词的情感倾向性为-1;如果词没有出现在词典中,则通过语素情感值求和来计算其情感倾向性,和的值大于零,说明词是褒义词,否则是贬义词;如果和的值接近于零,词接近中性。
(四)句子的情感倾向值计算
为了衡量一个语素的褒贬倾向,为它定义正负两个权重,然后遍历其在正、负情感词典的语素出现次数,其差值即为该语素的情感分数。如差值为正,则表示该语素更多地出现于褒义词中,反之该语素更多地出现于贬义词中。如果差值接近于0,则该语素是中性的。
(五)文档和年文档情感均值计算
计算出全年每个企业的每条文档(评论)的情感倾向值后,将这些情感值进行求和,然后除以此企业的全年文档数,即可得到该企业年文档情感均值。按照此方法,求出所有样本企业的年文档情感均值。
五、展望
從目前已有研究可以看出,文本情感分析技术运用于资本市场和金融行业前景良好。因此,未来要充分运用目前网络信息时代的丰富网络信息资源,对其进行各种数据挖掘和文本信息数值化处理,实现有用信息的提取与使用,充分运用文本倾向性分析,得出情感倾向分析指标,确定具体的关键投资指标的文本积极和消极化的判断,实现真正意义的财务信息利用与挖掘。
[参考文献]
[1]王洪伟,张对,郑丽娟,等.网络股评对股市走势的影响:基于文本情感分析的方法[J].情报学报,2015,34(11):1190-1202.
[2]徐勇,张慧,陈亮.一种基于情感分析的UGC模糊综合评价方法——以淘宝商品文本评论UGC为例[J].情报理论与实践,2016,39(6):64-69.
[责任编辑:蔡宁]endprint