文本数据分析在金融学研究中的运用

2019-12-09 01:57苏芸
财讯 2019年25期
关键词:文本挖掘大数据分析

摘  要:文本数据分析主要是将数据源中文本中隐含的有用信息进行充分地挖掘和检索,为金融分析研究提供了新的视角与更充分的数据信息。本文对文本数据信息的处理方法进行总结,对于金融研究中采用文本挖掘、大数据分析的文献进行梳理,并在此基础上提出相关研究未来可能的发展趋势和方向。

关键词:文本挖掘;大数据分析;金融分析

一、引言

传统的金融分析的信息主要来源于历史股价、财务报表的等“硬信息”,而近年来,得益于网络技术的快速发展,更加科学精准地量化非财务信息的“软信息”成为可能。文本数据分析拓宽了金融研究的角度,现主要被运用于衡量文本可读性、情感语调、关注度、意见分歧等方面。而文本数据分析在金融分析中运用的核心挑战在于如何准确有效地提取和量化文本信息,国外相关研究相对时间较长、更为成熟,而国内研究仍处于起步发展阶段,本文对这些研究进行梳理,并提出未来研究展望。

二、文本数据信息来源及量化方法

(1)金融文本信息的来源

文本数据来源依据主体主要分为四大类:公司信息披露、媒体相关报道、政府机构信息披露和社交网络的公众舆论。而每个类别的形式也多种多样,公司信息披露则包括上市公司的招股说明书、季报、年报、分析师报告以及高管演讲等;媒体主要是通过新闻报道;而个人投资者或消费者主要是微博、Tiwtter、微信公众号、论坛等;政府机构主要则是公开信息和政策规定。这些数量庞大且更新时频高的文本为金融分析研究提供了充分的数据。

(2)文本数据信息量化方法

文本信息的量化主要是利用计算机模拟人脑思维进行数据分析和处理,即将文本作为原始数据输入,经过一定的转化对文本数据降维得到数据矩阵,再采用统计计量模型进行处理,输出目标信息序列的方法。

将原始数据转化为数据矩阵,主要运用的方法有分词、转化为词向量两种方式。对于分词法而言,英文由于单词被空格隔开,采用单词分词;中文分词则采用最大概率分词和最大熵分词,是基于词典对汉字序列进行切割和字符串匹配,依据句法语义分析分成词组的方式。而词向量法则是将文本数据转化为数字化矩阵,解决词语构成高位稀疏矩阵降维的问题。主要有采用多种措施对数字化文本矩陣实现降维和词嵌入技术,而词嵌入技术把一个维数所有词的数量的高为空间“嵌入”到相对低维的连续向量空间的技术模型,主要有独热法和Word2Vec技术。

而数据矩阵的信息提取主要分为有监督学习和无监督学习两类方法进行分析,无监督方法主要有词典法、主题分类模型法。有监督学习方法中经典的机器学习方法在金融研究中运用主要是朴素贝叶斯和支持向量机;新兴的深度学习方法主要包括深度神经网络、卷积神经网络等,但是目前在金融领域使用深度神经网络提取文本信息的文献较少。

三、文本数据分析在金融分析中运用

文本数据分析在金融研究中的运用主要从度量可读性、关注度、情绪和意见分歧等指标与市场现象的关系进行展开。

(1)可读性指标

可读性是投资者进行信息提取的前提,而有关文本可读性的研究大多集中于财务会计方面,近年来也运用于网络借贷研究,研究发现文本可读性可以显著提高公司股价(Li,2008;Loughran and McDonald,2014),而可读性更强的借款描述能向投资者传递积极信号,提高借款的成功率(陈霄等,2018)。

(2)关注度指标

关注是信息反应的前提,信息需要被关注才能反应到市场行为中,现有文献对于关注度的量化主要集中于投资者关注度和媒体关注度。使用文本数据度量投资者关注度的方法主要有一使用网络引擎统计对上市公司的搜索次数,二网络论坛上股民对于特定股票发帖数量。通过发帖数构建投资者关注度,段江娇等(2017)发现帖子数与当日及未来的股票收益率显著负相关,但与当日及未来的股票波动率显著相关。而媒体关注度主要采用新闻数量进行构建,研究发现媒体关注会导致更严重的投资者偏差(Hillert et al.,2014),但同时对管理层行为起监督作用(周开国等,2016),能提高分析师预测准确性(谭松涛等,2015)。

(3)文本情绪

文本情感倾向的度量是文本数据分析在金融领域的一大运用,文本情绪主要包括正面和负面,积极与消极等不同描述。而文本情绪的研究主体主要包括媒体语调、管理层语调、投资者情绪三个方面。

1.媒体情绪

媒体情绪度量主要是媒体报道内容中的乐观和悲观情绪,国外Garcia(2013)发现新闻中无论正面还是负面语调均能预测收益率;而国内研究中主要考察了媒体情绪与资产定价关系,发现文本情绪越极端,上市公司定价偏离程度越大(游家兴等,2012),同时负面预期可以解释IPO抑价率的变化,但是正面语气却不能(汪昌云等,2015)。

2.管理层语调

公司公开信息披露等文本中管理层语调可以看做管理层的策略行为的一部分,其中积极和消极的语调能对投资者起到引导和暗示作用,影响投资者在市场中的投资决策行为。国外文献Li(2010)发现管理层语调与公司未来盈利存在正相关关系。国内文献则从公司的业绩、投资者交易行为等角度进行研究,谢德仁和林乐(2015)发现业绩说明会管理层语调与未来公司的业绩存在显著正相关关系;曾庆生等(2018)发现积极的年报语调预示公司高管随后的卖出股票规模大、净买入股票规模小。

3.投资者情绪

通过对于网络论坛上投资者的发帖内容进行分析从而构建投资者情绪指数,现有国内外文献发现投资者情绪与收益率等市场变量同期相关(Da et al.,2011;段江娇等,2017),同时受到市场变量的影响,并且投资者情绪的预测能力有限(Gao et al.,2018)。

(4)投资者分歧

投资者分歧主要衡量投资者的异质信念,通过投资者情绪指数的标准差构建投资者分歧指数。研究发现分歧越高,市场交易量越高(Antweiler and Frank,2004),同时投资者分歧对价格也有影响,会导致资产价格被高估,错误定价(Hillert et al.,2018)。

四、研究展望

总体来看,国内外将文本信息作为非结构性信息的量化补充,在市场现象解释、预测等方面进行探究。这些文献在理论上扩展和创新了金融学研究的视野,对于市场参与的各个主体具有一定实践意义。但是文本数据分析对于算法的高要求,以及对文本数据背后金融现象的解释,都需要研究人员具有丰富的计算机和金融知识。

而未来金融研究中文本大数据的运用可能会在以下几个方面进一步完善发展。一是采用拓展更丰富的文本数据来源,如微博大V的观点、政府报告、法院判决等;二是文本挖掘和数据分析会更加深入和完善,如加入中文的句法和语义考虑构建更加精准的量化指标(如情感倾向)、特定领域文本分析的适应改进,考虑文本时效性的影响等;三是现在研究主要集中于相关关系的研究,未来文本数据分析对金融研究中因果关系的研究也会逐渐发展。

参考文献

[1]Jegadeesh N,Wu D.Word power: A new approach for content analysis ☆[J].Journal of Financial Economics,2013.110(3):712-729

[2]Loughran Tim,and Bill McDonald.Measuring Readability in Financial Disclosures[J].Journal of Finance,2014,69(4):1643–1671

[3]陳霄,叶德珠,邓洁.借款描述的可读性能够提高网络借款成功率吗[J].中国工业经济,2018

[4]段江娇,刘红忠,曾剑平.中国股票网络论坛的信息含量分析[J].金融研究,2017(10):182-196

[5]汪昌云,武佳薇.媒体语气、投资者情绪与IPO定价[J].金融研究,2015(9):174-189

作者简介:苏芸(1997—),女,汉族,四川成都市人,本科在读,研究方向:投资学。

猜你喜欢
文本挖掘大数据分析
数据挖掘技术在电站设备故障分析中的应用
大数据分析对提高教学管理质量的作用
基于大数据分析的电力通信设备检修影响业务自动分析平台研究与应用
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新
基于LDA模型的95598热点业务工单挖掘分析
文本数据挖掘在电子商务网站个性化推荐中的应用
从《远程教育》35年载文看远程教育研究趋势
慧眼识璞玉,妙手炼浑金