王春
摘 要:近几十年来,资本市场中信息的作用机制与信息含量方面的研究成为行为金融的重要领域。这首先缘起于20世纪70年代纽约时报的标题定性研究,经历了简单的新闻计数研究之后,开始探索计算机语言技术量化新闻内容,训练词库也从简单的Harvard-IV4心理词典到词向量构建。资本市场媒体信息作用的未来研究发展方向是使用机器学习技术训练新闻文本内容。
关键词:资本市场;媒体;信息
中圖分类号:F830.9 文献标志码:A 文章编号:1673-291X(2021)35-0144-03
引言
近几十年来,资本市场中信息的作用与信息含量方面的研究成为行为金融学者重要的研究领域。首先进行这方面研究的是Niederhoffer(1971),他分析的是具有世界性影响的事件,比如纽约时报中占用5—8个版面的具有足够重要性的事件。他使用未经训练的观测向量,将新闻标题分为20个类别,并按正面/负面标签,以7分标记,得到有趣的发现,即股票市场巨大的变化更可能发生于“世界性事件”之后,而不是平时。并提出股票市场信息效应量化研究的期待。
随后,在股票市场信息效应的量化研究方面,涌现出许多相关的论文。例如,Mitchell和Mulherin(1994)研究了每日道琼斯新闻的数量与新闻报道下公司股票的交易量及其股票收益。1970—2000年的30年间,许多研究人员运用粗糙且未经处理的变量,如简单的新闻数量以量化信息。直到Antweiler和Frank(2004)的研究,学者们才开始探索量化信息的内容。Antweiler和Frank(2004)使用计算语言技术,即朴素贝叶斯算法(Naive Bayes algorithm)来度量网络聊天内容的语义,并按牛熊予以区分。这篇论文在当时引起了广泛的关注,当时纽约时报还邀请了Varian教授就此专题撰写社论。从那时起,文本分析方法在金融领域的研究开始流行。接着开始出现程序化交易,计算语言和文本数据挖掘被越来越多地运用到金融经济领域。
媒体信息文本分析方法运用中,重要的研究突破是Tetlock(2007)。其文章运用文本语义分析软件Harvard-IV4心理词典,对华尔街日报著名的金融专栏内容进行了量化。该文获得了Journal of Finance Amundi Smith Breeden一等奖。值得注意的是,计算机辅助定量内容分析软件系统(General Inquirer)源于1960年代(Stone et al.,1962;Stone et al.,1966),这意味着金融领域研究人员经历了40多年才意识到这种工具在金融研究中的重要性。
自此,文本分析法在金融领域迅速发展,大量的论文探索运用此类新计算工具,从不同的角度研究资本市场中信息的作用。另一个具有标志性意义的突破是Loughran和McDonald(2011),他们认为Harvard-IV4词典中73.8%的被归为负面的词汇,比如“税收”、“成本”、“资本”等,在金融文本中并不真是负面的词。因而,他们微调了Harvard-IV4词典,使之与金融含义相关,并将词归类为“负面”、“正面”、“不确定性”、“争论性”、“约束性”、“奢侈性”、“趣味性”、“资本性”等八类词向量。
另一个有代表性的量化文本情绪的是Jegadeesh和Wu(2013),他们通过词向不同的角度衍生含义的做法,将Loughran和McDonald(2011)的正负词进行拆分。LM词向量由包含353个正面词和2 337个负面词,通过Jegadeesh和Wu(2013)方法,变为123个正面词和718个负面词。他们对上市公司年报并未采用手工区分正面词和负面词,而是对每一个词进行独立评分。在上市公司年报披露包含某些特定词时,他们基于文档中每一个词出现的权重计算异常收益率。类似将文本分析法应用于年报分析的是Chouliaras(2015b),他通过公司股票市场表现来预测上市公司年报收益。
当前,资本市场媒体信息研究的趋势是广泛使用机器学习技术。这类技术主要用于主题识别(LDA),具有代表性的是Blei等(2003)。他们将文档视做主题,将文中的词识别为各类不同的主题。
一、新闻信息的度量
尽管一些文献致力于度量新闻内容,以研究资本市场信息的影响,但仍有些文献使用新闻的数量度量资本市场的信息。例如,Fang和Peress(2009)使用1993—2002年美国主要报纸(纽约时报、今日美国、华尔街日报和华盛顿邮报)中NASDAQ上市公司相关新闻的数量。作者使用LexisNexis相关度评分作为公司新闻的取舍,确保90%以上的相关度。作者发现,未经媒体平台提及的股票比经过媒体频繁提及的股票表现更好,至于新闻的内容,作者并未关心。但事实上,进一步了解新闻包含的内容也是有必要的,比如,上市公司并未达成经营目标,汇报巨大的损失又或者是涉及巨大的自然灾害(如偶发性的飞机坠落、地震)等,这也可能受到媒体大量的报道。对于上市公司而言,还可能经营不达预期,产生了一个重大发现,又或者是产品销售超过预期。Fang等(2014)发现,共同基金倾向于购买媒体提及多次的股票,但遗憾的是,这些基金在年度的表现会较差。很可惜,他没有就文章的语气作进一步的文本分析,只是依据新闻信息发布当天股票收益为正或者为负来判别文章的语气。虽然这样做有一定的道理,但是实际上还是忽略了文章的内容。作者承认无法度量文章的语气,但也指出,如果能够针对新闻的内容作出度量的话,则会是非常有益的。
还有一篇使用新闻数量来度量信息的是Engelberg等(2015)的文章。这篇文章使用了金融研究文献中的97个异象,问题是这些收益异象在盈余公告时是否不同呢?作者研究表明,在盈余公告的日子,收益异象高达7倍,且在公司新闻发布日高达2倍。在本研究中,作者计算了489 996个盈余公告和超过600万条道琼斯新闻。然而,作者并没有研究新闻的内容,并不清楚在盈余公告日业绩超预期还是未达预期。
二、信息、文本分析与机构投资者
金融研究文献还未提及的领域是机构投资者如何使用资本市场中信息的。除了Fang等(2014)论及机构投资者使用公司新闻的数量作为信息的代理变量外,没有其他研究提及这类问题。一个例外是Solomon等(2014)发现,当基金持有媒体关注的前期高收益的股票时,会导致更多的交易。还有其他涉及信息对机构交易影响的是Chouliaras(2015a),他考察上市公司年报语义对机构持股和分析师荐股的影响。总体来看,关于信息对机构投资者交易影响的研究在当前文献研究中,略显不够。
三、提取上市公司相关新闻的技术
在众多的研究文献中,有没有以相同的方法提取上市公司相关新闻的呢?不同的论文使用了不同的方法。例如,Tetlock(2008)从道琼斯以及华尔街日报中提取了超过35万条上市公司新闻,这其中包含超过1亿个词汇。其中上市公司新闻的选择要求是,在前25个单词中至少要提及上市公司名称1次,且要求在文章全文中公司名称至少被提及2次,至少有50个词属于“正面”、“负面”词库。Chen等(2014)采用了类似的方法。他们要求道琼斯新闻服务的文章(DJNS)在开始的50个词内至少提及CRSP上市公司1次。当然,研究人员也承认这种方法也有不完美之处,即新闻可能提及的是子公司而非控股公司,也有可能提及的是产品而非上市公司(比如提及凯美瑞而非Toyota)。这类选择新闻相关公司的问题,广泛存在于DJNS新闻库中。然而,LexisNexis似乎并不存在这类问题,因为它采用的是新闻相关度评分法,研究人员可以选取相关度90%以上的文章,如Fang和Peress(2009)、Fang等(2014)。Chen等(2014)通过寻找阿尔法网站(seekingalpha.com),利用相关股票的价格变动,获取网络意见和评论。还有一种获取相关新闻的方法是通过新闻题目和文章内容关键词来选择,比如Chouliaras和Grammatikos(2015)。
四、资本市场媒体信息的影响效应
当前有大量的文献是围绕媒体信息与股票市场进行的相关研究。一些文献试图揭示两者的因果联系。其中,Engelberg和Parsons(2011)从经纪商那里获得交易数据,这使得他们可以将当地交易与本地媒体报道覆盖联系起来。他们发现,当地媒体对于盈余公告的报道能够显著影响当地交易,因而确立了媒体与资本市场之间的关系。另一个例子是Dougal等(2012),他们固定各种不同杂志对于道琼斯工业股票指数(DJIA)效应,以研究华尔街日报股票专栏,因为外生的变动来源于财经记者的变动,结论是财经记者的写作风格在一定程度上有助于解释股票收益,这证实了媒体和股票市场之间的关系。
五、文本情緒分析的未来方向
使用金融词典的方法在金融领域得到广泛应用,收到了较好的效果。这种方法源于Tetlock(2007)文本语义分析软件Harvard-IV4心理词典,后来发展成词库的运用Loughran和McDonald(2011)。即使这些方法不能完美地获取文本语义,但看起来效果也还可以。目前的难点是需要解决文本的语法和词的权重(当前负面词/正面词的权重相等)。一个可能的途径是依靠别的学科发展,如计算机科学技术,以促进当前金融情绪的度量。具体来说,比较流行的情绪分析方法应用的是Python自然语言分析平台,因为它不仅考虑了句子的内容,还考虑了句法结构。这种工具的缺点是使用了消费者评价和电影评价的语料库。然而,在金融环境下,这类语料库并非有效(Chouliaras,2015c)。比较折中的办法是使用Python NLTK工具,但是结合类似Loughran和McDonald(2011)的语料库,效果似乎更好。
从更广阔的视角来看,资本市场中信息相互作用有五类主体:分析师、上市公司、机构投资者、个人投资者和媒体。分析师主要提供买、卖和目标价等建议。上市公司通过公司报告、会议以及接待提供信息。媒体通过文章、访谈等形式提供信息。每一个参与主体提供的信息都相互影响。那么,信息从一类主体传到另一类主体,并产生影响的机制是什么?是否存在这样一类参与主体,它的绩效优于同行(如明星分析师和明星基金经理)?这种超出同行的业绩能力是否与较好接受信息或者处理信息有关呢?投资者有很强的动力处理信息,这能够让他们在资本市场获利。此外,仅分析机构投资者还是个人投资者是不够的,因为各类投资者还存在异质性,如共同基金、套利基金、高频交易、算法交易等等。投资者信息处理能力是否是他们在资本市场成功的重要因素?投资者投资信息基础设施、雇佣顶级高校毕业的成绩优良、有顶刊发表记录的具有博士学位的毕业生是否能发挥作用?互联网在其中发挥什么作用?其他社交媒体,比如推特或者Facebook,研究在同一时间、在同一大学毕业的学生可能通过交谈影响他们的投资决策。
六、结论
近年来,关于资本市场媒体信息作用的研究受到了广泛的关注。从人工区分新闻的“好”与“坏”,到量化研究新闻的内容,媒体信息的研究取得了巨大的进步。这类文章的代表是Tetlock(2007),Garcia(2013),季度收益(Tetlock,等,2008),年报(Loughran和McDonald,2011),机构投资者交易(Solomon,等,2014),研究资本市场异象的代表作(Engelberg,等,2015;Hillert,等,2014)以及并购方面(Ahern和Sosyura,2014;Ahern和Sosyura,2015)。
随之发展的是区分文章的标题(Niederhoffer,1971),使用心理词典(Tetlock,2007),继而使用金融词典(Loughran和McDonald,2011)。其他的技术包括文本相似性(Hanley和Hoberg,2010),继而采用主题模型的机器学习技术(Latent Dirichlet Allocation)(Hoberg和Lewis,2015)。当然,随着我国大数据、人工智能技术的发展,在这个领域的智能信息传播方面还有很多值得进一步研究的问题。借用Niederhoffer(1971)的寄语,“希望在资本市场信息效用研究方面,能够引起更多的量化研究参与”。
参考文献:
[1] Ahern,K. R.,and D. Sosyura. Who Writes the News? Corporate Press Releases During Merger Negotiations[J].Journal of Finance,2014,(69):241,291.
[2] Antweiler, W., and M. Z. Frank. Is All that Talk Just Noise? the Information Content of Internet Stock Message Boards[J].Journal of Finance,2004,(59):1259,1294.
[3] Blei, D. M., A. Y. Ng, and M. I. Jordan. Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993,1022.
[4] Fang, L. H., J. Peress, and L. Zheng. Does Media Coverage of Stocks Affect Mutual Funds’ Trading and Performance?[J].Review of Financial Studies,2014,(27):3441,3466.
[5] Garcia, D. Sentiment During Recessions[J].Journal of Finance,2013,(68):1267,1300.
[6] Hanley, K. W., and G. Hoberg. the Information Content of Ipo Prospectuses[J].Review of Financial Studies,2010,(23):2821,2864.
[7] Jegadeesh, N., and D. Wu. Word Power: A New Approach for Content Analysis[J].Journal of Financial Economics,2013,(110):712,729.
[8] Loughran, T., and B. McDonald. When is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-ks[J].Journal of Finance,2011,(66):35,65.
[9] Mitchell, M. L., and J. H. Mulherin. the Impact of Public Information on the Stock Market[J].Journal of Finance,1994,(49):923,950.
[10] Niederhoffer, V. the Analysis of World Events and Stock Prices[J].The Journal of Business,1971,(44):193,219.
[11] Solomon, D. H., E. Soltes, and D. Sosyura. Winners in the Spotlight: Media Coverage of Fund Holdings as a Driver of Flows[J].Journal of Financial Economics,2014,(113):53,72.
[12] Tetlock, P. C. Giving Content to Investor Sentiment: the Role of Media in the Stock Market[J].Journal of Finance,2007,(62):1139,1168.
[責任编辑 若 云]