基于年报文本分析视角的公司信用信息披露现状和特征研究

2022-09-28 10:37高锦萍教授博导吴美娟高鹤菲
商业会计 2022年17期
关键词:词频企业信用年报

高锦萍(教授/博导)吴美娟 高鹤菲

(北京邮电大学经济管理学院 北京 100876)

一、引言

诚实信用,在当今资本市场交易中不仅是道德层面的要求,更是法律层面的要求。失信行为的频繁发生使得市场主体之间逐渐失去信任,提高了市场交易成本,严重影响了市场交易秩序。各类交易主体恪守信用,遵守透明公开的经营原则,主动、真实地公开企业的信用信息是信用管理的基本要求。虽然依托大数据、云管理等现代信息技术的发展,我国已建立较为成熟的企业信用信息公示系统,但仍然存在披露信息不充分、不规范等缺陷。2015年国家标准化管理委员会发布的《GB/T23794-2015企业信用评价指标》(以下简称《企业信用评价指标》),将企业信用评价指标细化为“守信意愿”“守信能力”和“守信表现”三个维度共28项指标,为衡量和评价企业信用信息披露质量提供了有力的依据。本文以相对规范的上市公司年报为研究样本,采用文本挖掘技术与人工复核相结合的方法,以《企业信用评价指标》作为初始评价指标,并结合《公开发行证券的公司信息披露内容与格式准则第2号——年度报告的内容与格式》(以下简称《年度报告的内容与格式》)来构建信用信息关键词词典,以年报关键词词频与年报总字数之比构建信用信息披露指数,进而考察上市公司年报中信用信息披露的现状及其特征。

二、文献综述

(一)企业信用信息披露质量评价

企业信用信息反映了企业在履行缔约关系时交易行为的守信能力、守信意愿和守信表现等方面的综合信息。信用信息的披露可以减少双方在契约签订后对彼此履约的监督,降低契约履行成本。现有研究从多方面评价了企业的信用信息披露质量,Barron&Staten(2003)以及 Kallberg&Udell(2003)从未偿还债务和正偿还债务的类型、信贷时长、新申请的信贷、逾期拖欠破产等方面评价了市场主体的商业信用信息披露质量。潘滕杰和梁艺榕(2017)从信用信息披露的深度和广度两个方面衡量了商业银行信用信息披露质量,其中披露深度指标包括是否含有正面和负面的信息、企业和个人的信息、信用信息披露机构类型、信用信息披露时长、信用信息披露标准等,披露广度指标是指征信机构登记的范围。总体来看,现有研究对评价指标体系的构建仍然缺乏全面性和系统性。《企业信用评价指标》基于企业文化管理、学习型企业文化管理、学习型组织管理、文化链管理等理论,从我国国情出发,从守信意愿、守信能力、守信表现三个方面衡量了企业信用情况。该指标体系所覆盖的信用信息全面,且各项指标便于理解、采集和使用,因此本文依据该指标体系来调查和分析上市公司年报中信用信息披露的现状和特征。

(二)企业信息披露质量的度量方法

由于其特殊的文本载体,非财务信息难以设置统一和明确的限制标准,因此对于非财务信息披露质量的衡量也需要采用特殊的方法。内容分析法作为一种对传播内容进行客观、系统和定量描述的研究,被广泛应用在非财务信息披露质量研究领域。该方法基于所要分析的内容进行框架性梳理后建立指标体系,通过专家打分予以量化处理。一些国内外学者采用了基于内容分析法的人工评分方式,对上市公司的年报信息如自愿披露信息、社会责任信息、环境信息等的披露质量及经济效果进行了研究和检验。

随着文本挖掘技术的发展,文本分析法在各个研究领域得到迅速应用。该方法通过量化从文本中抽取的特征项来衡量文本信息,特征项可以是字根、字、词素、词、短语、句子等单位。文本分析法可以提高工作效率,增加样本数量,从而降低抽样误差,增强回归效度,因其具有较强的客观性、可比性、高效性及可靠性,文本分析法逐渐受到非财务信息披露研究领域的青睐。现有研究利用的文本挖掘工具主要包括ROST CM工具、JAVA语言、自然语言处理方法(NLPIR)、Python程序等。张秀敏等(2014)利用ROST CM工具对社会责任报告中的环境信息进行采集,形成环境信息的高频词、高频词共现矩阵及社会网络图,构建环境信息特征词词典,作为环境信息披露质量的评分依据。王华和刘慧芬(2018)借助NLPIR分词系统,采用人工、软件双复核的方式构建研发信息关键词库,以年报中关键词频量化研发文本信息。易珩(2019)和宋岩(2020)借助Python程序对年报和社会责任报告中的风险信息和社会责任信息关键词进行词频提取和分析以形成关键词表,计算特征词频度量相关信息披露质量。

三、信用信息披露指数构建

《企业信用评价指标》中的守信意愿信息描述了企业决策者的价值取向、企业在经营过程中追求的目标;守信能力信息描述了企业履行承诺的综合能力;守信表现信息描述了企业承担社会责任、履行对利益相关者责任及承诺的情况。本文采用文本挖掘技术提取以上三个维度的三级指标的相应关键词,作为三级指标是否出现的判定。依据语料库语言学中的“词频”及“共现频率”,频率高的词语或词语搭配说明通用率高。据此本文以信用信息关键词频与年报总字数之比构建信用信息披露指数。

(一)资料收集和文本处理

自2015年我国开始构建企业信用信息公示“全国一张网”,高质量的信用信息披露被提升至战略高度,但仍然存在企业披露信息不充分、不准确、不规范等问题。基于此,本文以成熟的、规范的上市公司年报为研究样本。通过巨潮资讯网下载2015—2018年我国A股上市公司PDF格式的年报资料,并剔除ST与*ST、金融类行业企业,最终得到了11 910个年度公司样本。由于ROST CM分词软件是以TXT文件为基础进行处理的,因此本研究利用Replace pioneer将PDF年报转化为ANSI格式的TXT年报,并手工对其进行格式排版方面的整理。

(二)形成词典

《企业信用评价体系》中有28个三级指标,其中由于各上市公司均会对财务状况进行披露,属于强制性披露的内容,与财务能力相关的信息披露质量差异性较小,因此本文未将守信能力的二级指标即财务能力指标下的偿债能力、盈利能力、营运能力及发展能力这四个三级指标纳入统计范围之内,仅对剩余的24个三级指标进行统计分析。形成年报信用信息关键词词典的具体步骤如上页表1所示。

表1 信用信息关键词词典的构建步骤

(三)计算信用信息披露指数

参考张淑惠等(2021)计算风险信息披露质量的方式,以词频数与总字数之比来计算信用信息总体及三个维度的披露指数。首先利用Python程序中的jieba分词功能,统计年报信用信息关键词词典在年报中出现的频数。分词采用结巴分词中的精准模式,如在“公益慈善活动”三级条目下,代表扶贫的词语“扶贫”与代表医疗扶贫的词语搭配“医疗扶贫”同时出现时,该程序能够准确对“医疗扶贫”进行分词,并赋予该词频率值1,不会对“扶贫”一词重计。为避免计算机程序错误而导致词频统计出现误差,随机抽取100家公司年报,将PDF版本转化为Word版本,利用查找功能进行关键词词频统计。结果发现,人工统计频数与计算机程序统计频数一致,没有出现错计或重计的情况。在得到公司年报各关键词词频总计后,逐一查看各年报的具体关键词词频情况。若发现很明显的异常词频数,则通过人工阅读年报对不符合语境的词频进行剔除,最终得到样本公司年报信用信息关键词词频。其次利用Python统计了每份年报的字数,在文本程序分析中,自动进行文本数据的清洗,过滤掉标点符号与空格等无意义的字符。最后计算词频数与总字数之比,得到公司年报总体信用信息及其三个维度的信息披露指数。具体信用信息披露指数的定义如表2所示。

表2 信用信息披露指数的定义

四、公司信用信息的披露现状

首先对变量在1%水平上进行Winsorize处理。通过表3的描述性统计结果可知,样本公司信用信息披露指数(cdi)均值为 0.022966,最大值为 0.0309514,最小值为0.0161906,样本公司之间的信用信息披露质量存在一定差异。

表3 全样本描述性统计

进一步对样本公司信用信息披露的三个维度进行结果分析可知:2015—2018年四年内,守信意愿披露指数(cdi1)均值为0.0119553,占信用信息披露总指数的52%左右;守信能力披露指数(cdi2)均值为0.0043689,占比19%左右;守信表现披露指数(cdi3)均值为0.0066102,占比29%左右。这说明年报中守信意愿信息披露质量较高,内容较为全面;守信能力及守信表现内容较少。之所以会出现上述情况,是由于多数公司将经营重点放在了企业战略、年度治理情况、公司制度情况、股东及董事会情况上,这些信息披露较为集中且数量较多,依据《年度报告的内容与格式》,年报价值观信息披露格式及内容已成体系,所以公司守信意愿披露质量较高。而公司守信表现即社会责任部分披露零散且少,这是因为社会责任报告将公司年报中披露的社会责任相关信息进一步细化和延伸,公司主要通过社会责任报告披露履行社会责任的详细信息,年报中承载的社会责任信息较少;此外,年报披露格式也尚未对该指标中的部分条目进行格式的统一。公司守信能力披露较少主要与本文未对二级指标财务能力指标下的偿债能力、盈利能力、营运能力及发展能力相关指标进行统计有关。以上分析表明,排除强制性披露的财务指标信息后,公司履行社会承诺的意愿方面的信息在年报中披露最多。

对公司年报信用信息披露指数的分布做进一步分析,结果如上页表4和图1所示,在全部样本公司中,信用信息披露指数处于0.02—0.0225区间的样本最多,达到3 335家,占全部样本比重的28%;其次是处于0.0225—0.025区间的样本,达到3 254家,占全部样本比重的27.3%;指数超过0.03的样本最少,仅有212家;指数低于0.0175的也较少,占3.44%。由图1可以看出,信用信息披露指数近似呈“正态分布”,表明我国上市公司总体信用信息披露质量良好。

表4 总体信用信息披露指数分布

图1 信用信息披露指数分布

五、公司信用信息披露指数特征分析

(一)公司信用信息披露指数年度分析

2015—2018年这四年公司年报总体信用信息披露指数的结果如表5所示,样本公司总体信用信息披露指数平均值从0.0227914增加到0.0230473,呈逐年上升趋势。这说明在2015年11月国务院倡导提升信用信息披露质量后,公司年报中信用信息的披露质量在不断提高,说明上市公司逐渐加深对年报信用信息披露重要性的理解,并根据政策导向逐年提升年报信用信息披露质量。

表5 信用信息披露指数年度分布

对信用信息评价指标的三个不同维度每年占比进行进一步具体分析,如表6所示。样本公司每年的守信意愿信息披露指数(cdi1)占比在2015—2018年呈逐年下滑趋势。守信能力信息披露指数(cdi2)在2015—2018年呈先下降后上升的趋势。守信表现信息披露指数(cdi3)占比除2017年略有下降外,基本呈逐年上升趋势,这说明公司对于年报中守信能力和守信表现方面的信息披露愈发重视。

表6 信用信息披露指数三个维度年度分布

(二)公司信用信息披露指数得分行业分布

由于各行各业经营范围及角色特征存在差异,因此,各个行业的信用信息披露指数参差不齐。如表7所示,以样本公司信用信息披露指数的均值统计为例,排名靠前的行业分别是卫生和社会工作、公共设施管理业、科学研究和试验发展、信息传输软件与技术服务业、文化体育和娱乐业、建筑业。其中,信息传输、软件与信息技术服务业的披露指数是行业中最高的,得分为0.0249386。信用信息披露指数最低的三个行业是房地产业、批发和零售业、住宿和餐饮业,得分分别为0.0196716、0.0204717、0.0206155。统计结果表明,行业不同,信用相关信息披露的详细程度也有所不同。

表7 信用信息披露指数的行业分布

(三)公司信用信息披露指数按产权性质分布

考虑到我国经济制度的现实情况,国有企业与非国有企业面临着不同的政府支持和融资限制等情况。Chen et al.(2011)等认为国有企业享受着政府更优惠的补贴政策、享有国有银行更加宽松的融资政策,拥有更高的信用等级,可以较低的成本获取资金。由于国有企业的政府背景,通常其能够更加方便地从银行获得贷款。国有企业与非国有企业相比拥有更多的资源和关系网、更小的经营风险和更高的发展潜力,可以吸引更多的投资者。因此国有企业与非国有企业披露信息的动机有所不同,非国有企业会通过更多的信息披露来弥补以上方面的不足。

下页表8描述了在不同产权性质下,公司信用信息披露指数的分布情况。国有企业信用信息披露指数的均值为0.0217378,非国有企业的信用信息披露指数均值为0.0235186,高于国有企业,而且守信意愿、守信能力和守信表现信息三个具体披露指数也呈现出同样的特征。出现这种情况的主要原因是国有企业与政府存在天然的产权关系,往往可以得到政府更多的资源,企业通过信用信息披露获取声誉、降低融资成本的意愿较弱。而非国有企业利用政治关联获利的概率减少,提升信用信息披露的动机较高。

表8 信用信息披露指数产权性质分布

六、结论

本文基于上市公司年报文本分析视角,从履行社会承诺的意愿、能力和表现三个维度来衡量公司信用信息的披露质量,对公司信用信息披露的现状及年度分布、行业分布、产权分布等特征展开调查和分析。研究发现:

第一,公司年报的信用信息披露中,在排除强制性披露的财务指标信息后,公司守信意愿信息披露最多,守信能力与守信表现披露内容相对较少。总体来看,信用信息披露指数分布近似呈“正态分布”,我国上市公司总体信用信息披露质量良好。

第二,2015—2018年期间,公司的信用信息披露指数在逐年提高,说明上市公司逐渐认识到信用信息披露的重要性,对信用信息披露的重视程度不断提高;从三个维度的披露指数占比来看,相比守信意愿信息,守信能力和守信表现方面的信息披露质量呈逐年上升趋势。

第三,公司年报信用信息披露呈现出一定的行业特征,各行各业的信用信息披露指数参差不齐。其中,信息传输、软件与信息技术服务业的披露指数是行业中最高的;披露指数最低的三个行业是房地产业、批发和零售业、住宿和餐饮业。

第四,在不同的产权性质下,国有企业信用信息披露指数的平均值低于非国有企业,这可能是因为国有企业拥有更多的资源,通过信用信息披露获取声誉、降低资本成本的动机比非国有企业有所减弱。

猜你喜欢
词频企业信用年报
工行企业信用报告可线上查询
能源局试点承装修试电力设施企业信用监管
2017上市公司年报主要财务数据(6)
2017年上市公司年报主要财务数据(1)
毛泽东话语的词语特征
企业信用在企业市场营销中的作用
上市公司2015年年报重要数据
词频,一部隐秘的历史
沪深上市交通设施产业板块2013年年报主要经济指标