杨玉龙,吴文,高永靖,张倩男
(1. 浙江工商大学 财务与会计学院,浙江 杭州 310018;2. 清华大学 五道口金融学院,北京 100083;3. 上海财经大学 会计学院,上海 200433)
我国的媒体最具特色之处是其双重性,以及由此衍生的媒体产业的双轨制运营(李良荣,2003)。改革开放以后,我国经济开始逐步转型,媒体产业结构也开始出现变化。特别是1992年之后,媒体企业化经营取得突破,部分媒体由政府拨款转向自负盈亏,经济上逐渐独立(田中初,2005)。同时,媒体数量迅速增长,管理机构开始对媒体产业采取“抓大放小”的分层管理策略。于是,媒体出现分化,一部分媒体继续维持传统运营模式,资讯内容偏重在政策方面;另一部分媒体如都市商业类报刊则逐步获得相对独立的编辑权,并开始注重市场对于资讯的诉求(李良荣,2003)。我们将前者称为“政策导向媒体”,将后者称为“市场导向媒体”,这便形成了我国媒体产业双轨制运营的特色。
通过对政策导向媒体和市场导向媒体正负面词汇使用的横向与纵向比较,我们可以看到媒体双轨制运营对资讯内容的鲜明影响。图1绘制了巨灵财经数据库2000−2013年所收录的政策导向媒体与市场导向媒体(相关定义与分类见下文)的正负面报道比例情况。图中有三点值得注意:一是媒体的正面报道比例远高于负面报道;二是市场导向媒体的正面报道要少于政策导向媒体,而负面报道要多于政策导向媒体;三是从时间趋势来看,正面报道比例在逐步减少,负面报道比例则逐渐增加,而且这一趋势在市场导向媒体中更加明显。
图1 2000−2013年政策导向媒体与市场导向媒体历年的正负面报道比例
资讯文本是信息的载体,不同类型媒体在资讯文本方面的差异必然导致在信息传递效果上有所不同。以往的文献从整体上探讨了媒体在优化公司治理、提升资本市场信息效率方面的作用,并给予了正面评价。更深入的研究还需要对媒体类型和资讯文本特征同时进行识别和分析,从而考察不同类型媒体的差异化表现。毕竟,对资本市场上的投资者而言,他们更感兴趣的问题是选取哪一类媒体、阅读哪一类资讯来支持其决策。换言之,他们需要识别对资本市场信息整合有实质性影响的媒体与资讯。因此,本文将从我国媒体的双轨制运营出发,探讨政策导向媒体与市场导向媒体在影响资本市场信息整合方面的差异,并分析导致这种差异的原因。
本文发现,媒体做出的负面报道能够促进特质性信息反映在个股股价中,正面报道反而不利于特质性信息整合。在将媒体区分为政策导向媒体和市场导向媒体后,本文发现媒体对资本市场的影响主要由政策导向媒体促成,市场导向媒体则无显著影响。随后,本文对媒体的资讯内容进行了文本分析,并计量了资讯内容的两项特征:信息传递和信息挖掘。分析结果表明,政策导向媒体的报道在这两项特征上显著不同于市场导向媒体。引入调节变量模型后,我们发现政策导向媒体主要凭借更深层次的信息挖掘与更精准的信息传递,更有力地在影响资本市场的信息整合。
本文可能存在以下两点贡献:第一,从我国媒体产业双轨制运营的特色入手,探讨了政策导向媒体与市场导向媒体在影响资本市场信息整合效率方面的差异。我们使用股价同步性和知情交易概率两个指标来衡量媒体信息整合效率,发现政策导向媒体可以更好地提升资本市场信息效率。另外,本文还发现媒体提升资本市场信息效率的关键在于信息挖掘的深入程度和信息传递的精准程度。这有助于监管部门评价和选择信息发布的媒体平台,并在资讯内容方面对媒体报道给予指引与建议。
第二,在技术方面,本文依托中国知网“中文信息结构库”提供的正负面词库,结合Loughran和McDonald(2011)提供的英文正负面词汇清单,通过文本挖掘得到了适用于我国媒体报道的正负面词库。同时,我们使用Python编程语言,以巨灵财经报刊数据库为基础,构建了时间跨度超过十年(2000−2013年)的媒体正负面报道数据库。此外,我们还利用潜在语义主题分配模型(Latent Dirichlet Allocation,简称LDA主题分析)度量了不同类型媒体对上市公司公告跟踪报道的信息挖掘深度和信息传递精度,并以此为基础解释了政策导向媒体和市场导向媒体在影响资本市场信息整合效率方面的差异。
(一)正负面报道与资本市场信息效率
公司股票价格的形成和变动有赖于三个层面的信息,即宏观信息、行业信息以及公司特质性信息(Piotroski和Roulstone,2004)。其中,宏观信息和行业信息会引起资本市场上所有公司或特定行业所有公司的股价波动,只有与公司基本面相关的特质性信息才会引起单个公司股价产生独立于市场或行业趋势的特异性波动。宏观和行业信息所引发的市场上多只股票的同向价格波动导致了股市的“同涨同跌”现象,即股价同步性。因此,股价同步性可以作为个股股价中特质性信息含量的反向测度(Morck等,2000)。本文主要使用股价同步性作为资本市场信息效率的测度指标。之所以选取这个指标,主要基于以下两点考虑:第一,股价同步性指标可以测度个股交易中整合的公司特质性信息(Morck等,2000),这便于我们直接探讨哪种类型的媒体能够挖掘更多的公司特质性信息;第二,媒体跟踪上市公司时覆盖的时间跨度往往很长,能够涵括这一时间跨度影响的市场类指标以股价同步性为佳,因为它可以精确地截取研究所需的市场交易时段进行计算。
在资本市场中,不同类型信息的扩散模式存在差异。这种信息传播差异可能来自两个方面:一方面,读者有关注负面消息的倾向。相对于好消息,人们更倾向于传播坏消息,所谓“好事不出门,坏事行千里”。在演化过程中,人类继承了原始社会狩猎环境下的相关习性,出于生存需要对负面与危险信号极为关注(Liu等,2014),这一遗传习性直接影响了我们对于信息资讯的传递。个体在获知好消息后,平均而言会向6个人传递;而在获知坏消息后,平均而言会向23个人传递(赵亚东和高研,2012)。Heath(1996)的实验研究也表明,在社会氛围普遍消极的情境下,人们更乐意传递坏消息。另一方面,个体有累积坏消息并打包释放的倾向。个体在面临多项损失或多项收益时,为了得到最大的效用,通常将损失合并在一起而将收益逐一分开(Kahneman和Tversky,1979)。这导致上市公司管理层有动机暂时隐藏坏消息,而等待特定时机一起公布(Kothari等,2009)。
综上所述,当媒体大规模披露坏消息时,坏消息应当比好消息传递得更快,①Hong等(2000)认为“Bad news travels slowly”,这看似与本文矛盾。但他们强调的是管理层会有意识地暂时隐藏公司的负面信息,使坏消息的释放与好消息相比会出现延迟。本文试图论证的是公司的坏消息被媒体挖掘(释放)出来后,在资本市场上传递的速度要快于好消息。这也与生活常识相一致,所谓“好事不出门,坏事传千里”。因此,本文的观点与其并不矛盾。而且管理层可能暂时隐藏坏消息而等待时机一起释放,导致坏消息披露时包含的公司特质性信息更多。因此,媒体针对上市公司的负面报道比例越高,上市公司股价同步性越低。而正面信息在传递中则相对缓慢且分散,使得上市公司股价在整合正面资讯时不如负面资讯及时,股价更多地随宏观或行业层面信息波动,从而股价同步性较高。据此,本文提出以下假说:
假说1:对上市公司的报道中,负面报道比例越高,该上市公司股价同步性越低;正面报道比例越高,该上市公司股价同步性越高。
(二)媒体双轨制运营与资本市场信息整合
政策导向媒体与市场导向媒体的资金来源不同。政策导向媒体享有公费订阅的支持,并在税收上得到减免等优惠;市场导向媒体则被推向市场,自负盈亏,易为广告费用等商业利益所俘获,从而在针对上市公司的报道中表现出较弱的独立性。
媒体的利益诉求会影响其报道行为,其中以商业利益最为典型。媒体挖掘和传播有关上市公司的私有信息可以促进资本市场的信息整合,但在挖掘出上市公司私有信息之后,并不必然通过发布报道来扩大报刊销量获益,也可通过威胁上市公司高管索取封口费来谋利,这便是“有偿沉默”。方军雄(2014)发现,如果公司在IPO期间向媒体支付费用以换取沉默,那么这类公司在IPO之后的盈余质量更差,也更可能出现业绩反转。这表明媒体的有偿沉默纵容了内部人的私有信息交易,牺牲其他投资者利益而谋取了私利。
与“有偿沉默”相对应的是“有偿报道”,既然媒体会屈从商业利益,自然有公司或机构会加以利用,使媒体发布对自身有利的信息。逯东等(2016)认为,机构投资者存在主动管理媒体的行为,即利用媒体制造信息噪音来引导市场热点的短期炒作行为;实证研究发现,为了获取超额收益,机构投资者会通过主动管理媒体来提高其重仓股票的媒体关注度。尽管这种“主动媒体管理”能在短期内推动股价上涨,但同时也会导致坏消息被藏匿,从而恶化资本市场的信息环境,增加未来的股价崩盘风险(逯东等,2016)。
媒体因商业利益而做出的有偏或虚假报道,会因投资者的羊群效应而将不良影响放大。媒体报道中充斥着大量所谓股评家的专业建议,普通投资者极易受其引导,争相购入特定股票。热点资讯总是稀缺资源,媒体通常会针对某一热点事件进行多次报道,而且不同媒体也会针对同一热点事件进行重复报道。这很可能会凸显本来微不足道的事件的重要性,对投资者预期产生正反馈作用,进而增强原有事件对投资者预期和决策的冲击。游家兴和吴静(2012)研究发现,股票价格对基本面的背离程度受媒体报道影响,特别地,媒体报道情绪越极端,股价对基本面的背离程度就越大。股价原本是公司价值的良好信号,但媒体的有偏或虚假报道会扭曲这一信号,加剧资本市场上的信息不对称。
政策导向媒体的收入来源主要是财政支持,因而更注重信息公平因素。①容易引发争议的是,有相反观点认为,政策导向媒体既然受财政支持,则有可能受到行政干预或管制,所报道的资讯更多的是宏观或行业层面信息,导致特质性信息更少。然而,这一观点在财经资讯领域并无可靠的证据支持。以《中国证券报》为例,它是典型的政策导向媒体,由于不可能每天都有政策变动或宏观事件发生,该报刊每天都有大量的个股信息。从大样本实证考察来看,中央媒体(主要由政策导向媒体构成)的确发掘了大量特质性信息(杨玉龙等,2016)。市场导向媒体的收入来源主要是广告收入等市场业务,因而更容易被商业利益所俘获,其“有偿沉默”与“有偿报道”等违规行为与政策导向媒体相比要更为严重。此外,资讯发布有着严格的纪律要求,低级别媒体通常需要等待高级别媒体的指示或讯号。政策导向媒体在行政级别上往往高于市场导向媒体,意味着其报道不仅独立于商业利益,而且更加及时,这强化了其对资本市场的影响。因此,在资本市场信息整合方面,我国媒体的影响主要体现在政策导向媒体上,而较少体现在市场导向媒体上。据此,本文提出以下假说:
假说2:我国媒体对资本市场信息效率的影响主要体现在政策导向媒体上,而市场导向媒体则无显著影响。
(一)数据来源与样本选取
1.媒体类型与媒体报道数据。本文以巨灵财经报刊数据库为基础,该数据库涵括了2000−2013年的媒体报道。本文使用Python编程语言,对数据库提供的上市公司相关报道进行统计,得到媒体报道相关变量。通过对数据库所覆盖的137家媒体进行追根溯源,我们可以准确地甄别和区分各个媒体,挖掘其主办单位及行政级别、注册地等信息,以便于探讨不同类型的媒体在资本市场信息整合方面的差异化表现。上市公司公告虽然借助媒体发布,但这是上市公司的主动披露行为,并不反映媒体的态度,不符合本文研究意图,故予以剔除。
2.上市公司数据来源与样本选取。本文以2003−2013年我国A股上市公司为样本,并做了如下筛选:(1)剔除金融保险类公司;(2)剔除在公司治理和股权性质等变量存在数据缺失的公司。样本期之所以从2003年开始,是因为CSMAR数据库从这一年开始提供公司治理和股权性质数据。本文最终得到了18419个样本。媒体的主办单位、行政级别、注册地信息等数据均手工搜集得到,其他数据来自CSMAR数据库和Wind数据库。本文对所有连续变量进行了上下1%的缩尾处理。
(二)主要变量定义。本文主要涉及三类变量:媒体类型与媒体报道相关变量、上市公司市场交易相关变量以及公司财务与治理相关变量。
1.媒体类型。本文将媒体区分为政策导向媒体和市场导向媒体两种类型。我们在分类时主要依据媒体主办单位的行政级别,并兼顾该媒体所在城市影响力。本文对政策导向媒体和市场导向媒体的划分参考了杨玉龙等(2017)等文献。
2.媒体正负面报道。我们参照汪昌云和武佳薇(2015)及张纯和吴明明(2015)提供的计量方案来识别媒体的正面报道与负面报道。具体而言,我们根据每篇媒体报道中正负面词汇数的相对大小来判断报道是正面的还是负面的:如果报道中的正面词汇数超过负面词汇数,则定义为正面报道;如果报道中的负面词汇数超过正面词汇数,则定义为负面报道;其他则视为中立报道。进一步地,对每一家公司的所有媒体报道进行描述性统计,得到该上市公司的负面报道比例和正面报道比例。在此基础上,我们进一步区分不同媒体类型,得到政策导向媒体的负面报道比例和正面报道比例,以及市场导向媒体的负面报道比例和正面报道比例。
3.股价同步性。本文参考杨玉龙等(2016)的计量方法,使用实证CAPM模型的拟合系数R2来衡量股价同步性:
模型的拟合系数R2越大,表明股价的波动包含越多的市场风险因素,即公司特质风险对股价的解释力越差。为了满足OLS的正态分布条件,我们对拟合系数R2进行了对数变换,得到股价同步性指标RSQm。
本文变量定义见表1。
表1 变量定义
续表 1 变量定义
(三)模型设定。本文采用模型(3)至模型(5)来研究媒体的正负面报道对股价同步性的影响。模型(3)等式右侧前两项是关键解释变量负面报道比例(Neg_News_Ratio)和正面报道比例(Pos_News_Ratio),模型(4)等式右侧前两项分别为政策导向媒体负面报道比例(Politic_Neg_Ratio)与正面报道比例(Politic_Pos_Ratio),模型(5)等式右侧前两项分别为市场导向媒体负面报道比例(Market_Neg_Ratio)与正面报道比例(Market_Pos_Ratio)。
Controln表示控制变量,包括操控性应计项目Da、上市公司政治关联Pc、独立董事比例Indep_dir、机构持股比例Inst、是否由四大审计Big4、第一大股东持股Lshr,股权制衡Othshr、高管持股比例Excutive、销售增长率Sgrowth、盈利相对波动Droe、个股股价波动Stdp、个股换手率Tvr、公司规模Size、公司上市年限Age以及行业虚拟变量Ind和年度虚拟变量Year。
(一)描述性统计
1.媒体类型与正负面报道。表2列示了我国媒体的正负面报道比例,以及每篇报道的正负面词汇使用情况。可以看到,无论是市场导向媒体还是政策导向媒体,正面报道比例远远大于负面报道比例(3倍以上),而且每篇报道中使用的正面词汇平均数量也远远超过负面词汇(约为2倍)。此外,相对于政策导向媒体,市场导向媒体的负面报道比例显著较高,而正面报道比例则显著较低,而且每篇报道中使用的负面词汇数量也显著较多,正面词汇数量显著较少。因此,政策导向媒体与市场导向媒体因其功能定位差异,的确在资讯内容方面表现不同。
表2 媒体类型与正负面报道
2.变量描述性统计。从表3中可以看出,无论是政策导向媒体还是市场导向媒体,负面报道比例都小于正面报道比例,说明媒体对不同上市公司也以正面报道为主。需要指出的是,表2是针对媒体所有报道所做的统计分析,表3则是针对上市公司的媒体报道所做的统计分析。
表3 变量描述性统计
(二)回归分析
1.正负面报道与资本市场信息效率。本文采用模型(3)至模型(5)来研究媒体的正负面报道对股价同步性的影响,以普通最小二乘法(OLS)进行估计。从表4中可以看到,在对上市公司的报道中,负面报道比例越高,股价同步性越低,但不显著;正面报道比例越高,股价同步性越高。这一结果部分支持了假说1,我们将在下文考察不同类型媒体报道对股价同步性的影响。此外,公司信息不够透明(Da较高)或者具有政治关联,均会导致较高的股价同步性。
2.媒体双轨制与资本市场信息整合。我们进一步将媒体区分为政策导向媒体和市场导向媒体,以便考察我国媒体的双轨制运营对资本市场信息整合功能的影响。从表4中可以看到,促成资本市场信息整合的媒体报道主要是政策导向媒体的负面报道,市场导向媒体的负面报道并没有显著传递有关上市公司的特质性信息。值得注意的是,市场导向媒体的正面报道也会提高上市公司的股价同步性。本文认为,市场导向媒体的正面资讯进入股价的速度缓慢,而且在报道方面通常紧跟政策导向媒体,造成信息冗余重复而特质性信息不足,这也是其导致股价同步性上升的重要原因。
表4 媒体正负面报道与股价同步性
(一)稳健性测试。以股价同步性来反映股价对公司特质性信息的整合是有争议的。West(1988)研究发现,基于噪声信息的交易降低了公司的股价同步性。Kelly(2014)认为,公司股票的R2越低,其信息环境越差,表明R2并非度量信息效率的有效指标。为解决这一问题,我们将使用直接反映特质性信息整合的指标知情交易概率进行稳健性测试。
知情交易概率(Possibility of Informed Trading,PIN)是指个股交易中知情交易的比重。其基本计量思路是将给定区间内针对个股的交易分为两类:一类是由私有信息促成的知情交易;另一类是由随机扰动因素驱动的噪声交易。促使股价向真实价值回归的动力主要来自知情交易,因此个股交易中知情交易的比重越高,股价对于信息的整合越有效。我们沿用已有研究中估计PIN 指数的经典方法(Easley 和 O’hara,1987,1992),计量方法详见朱伟骅(2008)及孔东民等(2013)。
表5列示了PIN对媒体正负面报道的回归结果。可以看到,负面报道可促使知情交易比例上升,而正面报道则会减少知情交易,这与上文所论证的“负面报道促进特质性信息整合,正面报道不利于特质性信息整合”相一致。同时,我们可以看到媒体报道对知情交易产生影响主要体现在政策导向媒体上,市场导向媒体对知情交易概率则无显著影响。
表5 媒体正负面报道与知情交易概率
(二)拓展性分析。本文的主要实证结果表明,在促进资本市场信息整合方面,政策导向媒体显示出了强于市场导向媒体的影响力。我们将从资讯特征的角度,探讨造成这一差异的原因。本文主要考察两项资讯特征:信息挖掘和信息传递。所谓信息挖掘,是指媒体通过公开信息渠道或者调查暗访等手段搜集各类信息,并进行分析比对,形成独立的观点和结论。所谓信息传递,是指媒体针对上市公司已经发布的信息,通过对语句进行重新组织、概括、演绎等,以投资者更容易理解的方式再次呈现出来。
以文本分析来考察媒体的资讯特征,目前只有很少的研究关注了媒体报道更深层次的信息角色。Drake等(2014)将媒体对上市公司盈余公告的跟踪报道区分为被上市公司雇用以传播信息的“信息传递”类报道(Presswire Services)和带有作者“信息创造”的报道(Newswire Services),发现媒体对上市公司年度盈余公告的报道能够减少现金流误定价,但不能降低应计误定价,且这种降低会计误定价的作用主要是由媒体“信息传递”而非“信息创造”功能实现的。他们对于信息传递和信息挖掘的度量,得益于特殊的数据库(News Wire),很难被复制。
在分析师跟踪的相关研究中,有文献探讨了分析师报告的不同“信息角色”。这类研究主要通过市场反应来度量分析师报告的“信息解释”与“信息挖掘”两类信息角色。Huang等(2014)认为用市场反应来间接度量分析师报告的“信息角色”有两点局限:一是以市场反应来度量信息挖掘和信息解释,其前提条件是投资者能够充分理解分析师报告中的信息,且信息能迅速融在价格中,但现有研究表明这一前提条件并不成立;二是上市公司披露信息和分析师跟踪发布报告在时间上比较接近,学者难以区分资本市场反应是针对上市公司信息披露还是分析师跟踪报告。因此,他们主张用潜在语义主题分配模型(Latent Dirichlet Allocation,简称LDA主题分析)来直接度量分析师报告的信息挖掘和信息解释程度。本文也使用LDA主题分析来直接度量我国媒体报道的“信息角色”,并区分政策导向媒体和市场导向媒体,探讨两者之间的差异。
1.信息挖掘与信息传递的度量。以LDA模型来度量媒体信息挖掘与信息传递的基本思想是,比较上市公司公告与随后的媒体跟踪报道之间的差异,根据这一差异来衡量分析师报告信息挖掘或传递的程度。附录A描述了我们对公司公告与随后的媒体跟踪报道进行匹配的具体过程。为避免出现噪音,本文仅选择公司当天有且仅有一条信息公告的观测值,从而可以对上市公司公告与媒体报道进行精确匹配。这会使样本量略有变化,我们最终得到18108个公司年份观测值。
本文参考Huang等(2014)及张纯和吴明明(2015)的方法,以公司公告和媒体报道的文本内容为对象进行LDA主题建模。这一建模的基本思路是,所有公告或媒体报道的内容尽管千差万别,但是主题(话题)却很有限,无非是产业支持政策、信息披露、股权发行、风险和相关披露、债务和担保、法律诉讼等,我们发现这些公告和资讯大致可以归结为40个有意义的主题(建模过程详见附录B)。而后我们可以测算两项内容:一是每篇上市公司公告与随后的跟踪报道所涵括的主题数量;二是每篇上市公司公告与随后的跟踪报道在描述同一主题时的用词分布。
在此基础上,我们采用媒体跟踪报道与对应的上市公司公告之间的主题分布差异来度量媒体跟踪报道的信息挖掘程度。这样处理背后的逻辑是,如果媒体对上市公司公告进行了深入分析,则其报道的隐含主题集合与公司公告的隐含主题集合之间会存在差异。因此,公司公告和媒体报道的主题分布差异越大,则媒体对公司信息进行了越深入的解读和挖掘。
同时,我们统计了媒体报道与公司公告在描述同一主题时的用词差异,反映媒体的信息传递水平。这样处理背后的逻辑是,如果媒体对上市公司公告进行了有效的信息传递,那么其报道的用词和表述应当与上市公司公告高度一致。因此,在描述同一主题时的用词分布差异越小,则信息传递的扭曲越小。
媒体的信息挖掘水平和信息传递水平分别记为Discover和Dissemination,本文对这两个变量的计量主要参考了Huang等(2014)及张纯和吴明明等(2015)的研究,略有调整,详见附录C。
2.媒体类型与资讯特征。表6列示了政策导向媒体和市场导向媒体在资讯特征上的差异化表现。可以看到,政策导向媒体在信息挖掘方面的表现要显著优于市场导向媒体(0.387>0.341);同时,政策导向媒体的信息传递水平均值为0.325,大于市场导向媒体的信息传递水平均值0.269。可见,政策导向媒体在信息挖掘和信息传递方面显著优于市场导向媒体,这与上文所述政策导向媒体具有更强的经济独立性与及时性相一致。
表6 媒体类型与资讯特征
资讯特征必然会对媒体报道的效果产生影响,本文使用调节效应模型来探讨这种影响。我们仍以股价同步性来衡量资本市场信息效率,区分政策导向媒体和市场导向媒体后,在模型(4)和模型(5)的基础上,加入不同类型媒体的正面报道比例、负面报道比例与资讯特征的交叉项,构建了模型(6)至模型(9)。
表7列示了回归结果。可以看到,政策导向媒体通过更深入的信息挖掘与更精准的信息传递,不仅可以强化负面报道的信息整合作用,还可以削弱正面报道对资本市场信息整合的不利影响。唯一的例外是,政策导向媒体对负面报道的信息传递在进一步降低股价同步性方面不显著。市场导向媒体的信息挖掘与信息传递则基本上没有展示出增强媒体报道效力的作用。基于以上证据,我们认为政策导向媒体在信息挖掘方面更加深入,在信息传递方面更加精准,使其整合资本市场信息的作用强于市场导向媒体。
表7 资讯特征、媒体报道与股价同步性
续表 7 资讯特征、媒体报道与股价同步性
改革开放以后,我国媒体产业发展迅速,媒体形式也逐渐多样化。然而,媒体数量上的增长带来了诸多问题,如经济利益对媒体独立性的绑架、媒体从业者水平有待提高等,使得读者在选取资讯来源时犹豫不决,并对资讯内容产生了诸多疑问。因此,需要科学的量化研究来探讨媒体的资讯特征,为读者遴选媒体与资讯提供指引。资本市场为我们理解我国媒体的影响力提供了良好的量化场景,尽管这一量化仅限于金融资源配置这一狭小领域,但是仍可以为我们理解媒体的社会功能提供参考。
本文从我国媒体产业的双轨制特色入手,借助文本分析技术,考察了政策导向媒体和市场导向媒体的正负面报道影响资本市场信息整合的效力。本文发现,媒体的负面报道对资本市场信息整合有促进作用,而正面报道则不利于特质性信息反映在股价中,这意味着负面报道对投资者而言更具决策价值。特别地,媒体报道对资本市场的影响主要集中在政策导向媒体上,这进一步缩小了投资者决策时的媒体参考范围。本文进一步探察了政策导向媒体与市场导向媒体出现上述差异的原因。本文利用LDA主题分析模型,测量了两者在信息挖掘深度与信息传递精度上的表现差异。本文发现,政策导向媒体在信息挖掘方面更加深入,在信息传递方面更加精准,使其整合资本市场信息的功能强于市场导向媒体。这一研究结果具有重要的现实意义,有助于投资者重新审视不同的资讯来源,并给予其一定的启发与指引。
[1]方军雄.信息公开、治理环境与媒体异化——基于IPO有偿沉默的初步发现[J].管理世界,2014,(11):95−104.
[2]孔东民,刘莎莎,应千伟.公司行为中的媒体角色:激浊扬清还是推波助澜?[J].管理世界,2013,(7):145−162.
[3]李良荣.论中国新闻媒体的双轨制——再论中国新闻媒体的双重性[J].现代传播,2003,(4):1−4.
[4]逯东,付鹏,杨丹.机构投资者会主动管理媒体报道吗?[J].财经研究,2016,(2):73−84.
[5]田中初.新闻实践与政治控制[M].济南:山东人民出版社,2005.
[6]汪昌云,武佳薇.媒体语气、投资者情绪与 IPO 定价[J].金融研究,2015,(9):174−189.
[7]杨玉龙,孙淑伟,孔祥.媒体报道能否弥合资本市场上的信息鸿沟?——基于社会关系网络视角的实证考察[J].管理世界,2017,(7):99−119.
[8]杨玉龙,吴明明,王璟,等.异质性媒体与资本市场信息效率[J].财经研究,2016,(3):83−94.
[9]游家兴,吴静.沉默的螺旋:媒体情绪与资产误定价[J].经济研究,2012,(7):141−152.
[10]张纯,吴明明.媒体在资本市场中的角色:信息解释还是信息挖掘?[J].财经研究,2015,(12):72−83.
[11]赵亚东,高岩.公安网络舆论的生成机制及其引导功能[J].中国人民公安大学学报(社会科学版),2012,(2):136−141.
[12]朱伟骅.公司治理与内幕交易监管效率研究[J].经济学(季刊),2008,(1):271−288.
[13]Drake M S,Guest N M,Twedt B J.The media and mispricing:The role of the business press in the pricing of accounting information[J].The Accounting Review,2014,89(5):1673−1701.
[14]Easley D,O’hara M.Price,trade size,and information in securities markets[J].Journal of Financial Economics,1987,19(1):69−90.
[15]Easley D,O’hara M.Time and the process of security price adjustment[J].The Journal of Finance,1992,47(2):577−605.
[16]Heath C.Do people prefer to pass along good or bad news?Valence and relevance of news as predictors of transmission propensity[J].Organizational Behavior and Human Decision Processes,1996,68(2):79−94.
[17]Hong H,Lim T,Stein J C.Bad news travels slowly:Size,analyst coverage,and the profitability of momentum strategies[J].The Journal of Finance,2000,55(1):265−295.
[18]Huang A,Lehavy R,Zang A Y,et al.A thematic analysis of analyst information discovery and information interpretation roles[R].Working Paper No.1229,2014.
[19]Kahneman D,Tversky A.Prospect theory:An analysis of decision under risk[J].Econometrica,1979,47(2):263−292.
[20]Kelly P J.Information efficiency and firm-specific return variation[J].Quarterly Journal of Finance,2014,4(4):1−44.
[21]Kothari S P,Shu S,Wysocki P D.Do managers withhold bad news?[J].Journal of Accounting Research,2009,47(1):241−276.
[22]Liu G,Xin Z,Lin C.Lax decision criteria lead to negativity bias:Evidence from the emotional stroop task[J].Psychological Reports,2014,114(3):896−912.
[23]Loughran T,McDonald B.When is a liability not a liability?Textual analysis,dictionaries,and10-Ks[J].The Journal of Finance,2011,66(1):35−65.
[24]Morck R,Yeung B,Yu W.The information content of stock markets:Why do emerging markets have synchronous stock price movements?[J].Journal of Financial Economics,2000,58(1-2):215−260.
[25]Piotroski J D,Roulstone D T.The influence of analysts,institutional investors,and insiders on the incorporation of market,industry,and firm-specific information into stock prices[J].The Accounting Review,2004,79(4):1119−1151.
[26]West K D.Bubbles,fads and stock price volatility tests:A partial evaluation[J].The Journal of Finance,1988,43(3):639−656.
附录A 媒体跟踪报道和上市公司信息披露公告的匹配过程
1.对于上市公司披露的财务报表,由于主要内容是表格和数字,不适用LDA主题模型进行文本分析,本文剔除了这类公告。
2.由于媒体跟踪上市公司公告一般会在新闻内容中出现“**(公司)**(时间)公告称”之类的用语,本文在新闻全文中首先定位找到“公告”这一关键词,将其之前直到上一个句终标点(句号、叹号、问号等)或新闻全文字符串的首个字符截取下来,然后删除其中的空格,进行时间关键词扫描。之所以不包括逗号、顿号等非句终标点,是因为存在以下形式的表述:“**(公司)**(时间)进行了**披露,公告称……”。时间关键词包括:
(1)“昨”,代表昨天,可以是“昨天”、“昨日”、“昨晚”等。
(2)“前日”“前天”,代表 2 天前。
(3)“今日”“今天”“今晚”“今早”,代表当天。
(4)具体的年月日,对于“年”“月”“日”之前的数字,可以是阿拉伯数字和中文数字及相应的全角数字。
(5)如果没有出现以上四类时间关键词,但是出现了“晚间”“上午”“下午”“早间”“一早”“晚上”“傍晚”,则代表当天。
附录B 对上市公司公告和媒体跟踪报道文本集进行LDA主题建模过程
1.LDA 主题模型
LDA主题模型是在自然语言信息处理中提取大规模语料集的主题结构任务的一类机器学习模型。它可以从文本集中估算提取出主题信息,并把每个文本表示为关于主题的多项式分布,而每个主题被表示为关于语料集合中所有不同词语的多项式分布。因此,学者可以利用LDA主题模型的输出结果,对不同文本的差异进行比较。
LDA主题模型用统计过程来模仿文本的生成过程。该算法假设所有语料集的所有文档共享同一组主题,但是主题在不同文档间的分布不同。每个文档被建模为关于主题的概率分布,而每个主题被建模为关于词语的概率分布。该算法假定文档中的每个词语通过以下两个步骤生成:第一步,文档的作者从所有可用的主题分布中选择一个主题;第二步,对于选定的主题,文档的作者从表现该主题的词语分布中选择一个词语。重复这两个步骤,逐词生成整个文档。每篇文档的生成过程都是一样的且相互独立。
在上述假定的基础上,LDA主题模型估算出最匹配(似然度最大)文本数据的模型参数。参数估算过程依赖于词语在同一篇文档中的出现情况。直观地讲,如果两个词频繁在同一篇文档中出现,那么LDA模型把这两个词归类为同一个主题的概率就会较高。LDA模型的主要输出结果是每个主题的词频分布矩阵(用Topic_Word表示),这也可以作为LDA的建模结果;另外,LDA模型也会同时输出训练集中每个文档关于主题的频率分布矩阵(用Doc_Topic表示)。
2.LDA建模前的文本数据预处理
与一般的中文文本分析准备步骤一样,在LDA主题分析之前,首先要对全文进行中文分词。我们采用NLPIR中文分词系统,将每篇上市公司公告和财经媒体跟踪报道分拆成词语列表。然后,为了防止对主题建模的干扰,我们剔除了分词结果中的非中文词语(包括数字、英文等),并根据《哈工大停用词表》剔除了中文停用词(Stop Words),如功能词“还有”、“即便”等。最后,中文分词系统会把媒体报道中大量存在的人名、公司名等非常见专有名词切割成出现频率较高的单个汉字,如“嘉”、“宏”等,这会对主题建模产生干扰,所以我们进一步剔除了分词结果中以单个汉字形式呈现的中文词。
3.决定主题个数
LDA主题分析的算法需要人工输入主题个数,而主题个数的选择会影响结果解读。设定太少的主题数会导致最后的主题区分过于宽泛和模糊,而设定太多的主题数又会产生一些没有经济意义的主题。基于Huang等(2014)及张纯和吴明明(2015)的研究,我们使用“复杂度”(Perplexity)统计量来确定LDA模型的主题数,最后选取40作为最优的主题数。
4.LDA 建模结果
由于不同行业的上市公司公告和媒体跟踪报道内容会涉及含有各自行业特点的主题,我们按照证监会二级行业代码,剔除“金融、保险业”,对余下的21个行业进行了LDA主题分析。表8列示了样本中文档数最多的制造业中“机械、设备、仪表”(C7)行业的LDA建模结果。其中,“主题的词语分布中前20个词语”为LDA建模后输出结果,而“人工拟定主题名称”为我们根据该主题的词语分布中前20个词语人工判定的主题语义。从前10个主题的前20个词语可以看出,LDA较好地概括了上市公司公告和财经媒体跟踪报道经常涉及的主题,其中第二个主题“产业支持政策对公司的影响”、第四个主题“新项目机会”和第八个主题“出口、海外市场”体现了一定的行业特点,另外六个主题则是上市公司一般都会涉及的主题。
表8 样本中文档数最多的“机械、设备、仪表”行业LDA建模结果(前10个主题的前20个词语)
附录C 信息挖掘(Discover)和信息传递(Dissemination)计量步骤
1.以文档d标记上市公司公告与媒体报道的文本,构建文档d中的主题向量Td。在文档分词的基础上,利用LDA建模可以取得各个行业文档集的主题−词汇分布矩阵Topic_Word,这一矩阵将实现特定主题(S)与一组词汇的对应。针对某一文档d(可以是上市公司公告,也可以是媒体报道),以句子为单位,分析句中的词汇,若该句所用词汇归属于主题S的最多,则该句被归为主题S。以此类推,我们可以对文档d中所有句子进行主题归类。我们再把文档d中归属于各个主题的句子数除以文档d中句子总数,形成如下向量:
2.确定文档d中的主题后,针对特定主题S,汇总文档中出现的归属于主题S的词汇列表,并统计各个词汇出现的频数,进而形成每篇文档中每个主题的词语向量。
其中,元素viS或wiS代表所在文档中词语i用于描述主题S的频数。
3.度量媒体跟踪的信息挖掘程度。本文计算了上市公司公告与媒体跟踪报道的主题向量余弦值,用1减去该余弦值来衡量两者之间的主题分布差异,其现实意义便是媒体跟踪报道的信息挖掘程度,计算公式如下:
其中,SMedia,s和SAnn,s分别代表媒体跟踪报道和上市公司公告的主题向量中第s个元素。
4.度量媒体跟踪的信息传递效果。首先针对每个主题S,计算该主题的词语向量的余弦,然后将所对应上市公司公告中的前Sd个主题下计算的这个值进行算数平均。我们对每篇上市公司公告的主题频率从高到低排序,取累积频率达到80%的前Sd个主题进行检验,以排除文档中不太重要的主题所带来的干扰。
其中,N为文档d中所有不同的词语个数,vjs和wjs分别为上市公司公告和媒体跟踪报道中主题S的词语向量中第j个元素。