摘 要:基于文本挖掘技术,本文选取了15家白酒A股上市企业的2018年度内控评价报告作为样本,通过ROST CM软件工具的分词、词频统计、共现分析、语义网络分析,发现了企业内控评价报告的基本特征,并探究了文本挖掘在内控评价报告研究中可以使用的技术。本文为利益相关者分析研究企业内控评价报告提供了一种新的思路。
关键词:企业内部控制评价报告;文本挖掘;信息披露
为认真落实关于防范化解重大风险和推动高质量发展的决策部署,充分发挥内部控制(以下简称内控)体系对中央企业及上市公司强基固本作用,进一步提升中央企业及上市公司防范化解重大风险能力,加快培育具有全球竞争力的世界一流企业,需要继续加强中央企业及上市公司内控体系建设与监督工作。[1]本文以沪深两市的上市公司作为样本,通过文本挖掘技术,发现企业内控评价报告内容的特征,为政策制定部门提供建议,同时也拓展了利益相关者分析研究企业内控评价报告新路径。
一、企业内部控制
一个基本规范和三个配套指引标志着我国企业内控规范体系基本建成。同时,规定要求在境内外同时上市的公司自2011年1月1日起执行,在上交所和深交所主板上市的公司自2012年1月1日起执行。企业内控是由企业董事会、监事会、经理层和全体员工实施的、旨在实现控制目标的过程。[2]内控评价是指企业董事会或类似权力机构对内控的有效性进行全面评价、形成评价报告、出具评价报告的过程。其目的是促进企业全面评价内控的设计与运行情况,规范内控评价程序和评价报告,揭示和防范风险。[3]
二、文本挖掘技术
文本挖掘是从大量的、无结构的文本信息中发现潜在的、可能的数据模式、内在联系、规律、发展趋势等,抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。[4]进入互联网+时代,各类文本信息的篇幅增长、内容增多,专业术语频繁出现,极大地影响了阅读者的阅读耐心,甚至阅读后不能提炼有价值的信息。然而,文本挖掘技术可以对大量文档集合的内容进行总结、分类、聚类、关联分析、分布分析以及趋势预测等。[5]虽然文本挖掘的相关论文逐年增多,通过知网论文检索,尚未发现国内有相关学者使用文本挖掘技术对企业内控评价报告作为研究对象进行相关研究。
三、研究设计
(一)样本选取
本文通过巨潮咨询网选取A股上市公司公开披露的年度内控评价报告作为样本。样本行业为白酒业,行业分析为贵州茅台、五粮液、泸州老窖等15家上市公司的2018年度内控评价报告。
(二)研究工具
本文所选择的文本挖掘软件是ROST CM 6.0软件。它是由武汉大学沈阳教授团队开发的数字人文辅助研究平台。它能够为研究者提供一个高效、有针对性的人文知识的获取、分析、集成和展示,能够对海量的数字化人文资料进行组织、标引、检索和利用,以保证人文研究的海量性、智能性和客观性,并可通过定量分析和定性分析的结合,归纳出具有说服力的普遍性结论。[6]
(三)研究过程
1.词频分析
首先对样本手工处理,把PDF格式转为TXT文本格式,只保留文本部分。利用ROST CM软件及其所设词表,将非结构化的内控评价报告分解为可供统计与分析的各种词汇。定义词表时,需要考虑内控评价报告中大量存在的会计术语和专有名词的特征,确保内控评价报告分词处理更符合专业属性。对文本进行分词挖掘分析,文本转换为各个词汇和单字,需要手工复核可能存在的错误词汇和单字划分,确保分词的严谨性。对内控评价报告出现的不同词汇进行统计时,更多的是关注与内控学理论相关的词汇,从而得出词频表。本文摘取了高频词汇表前30个词汇进行分析研究。详见如下表1。
内控指引包含五章二十七条。通过表1发现,前十的高频词汇,充分地反映了指引内容。如“内部控制”贯穿了指引全文,居于词频之首;“评价”包含了内控评价定义、内控评价内容、内控评价程序和内控评价报告;“缺陷”属于指引第四章内控缺陷认定的核心内容,位于词频第二位,说明企业内控评价报告主要是围绕内控缺陷认定开展工作的。前十的其他关键词,如“重大”“标准”“财务报告”“错报”“认定”“总额”等都是对内控缺陷认定工作的具体反映。由此可见,企业内控评价指引是起指导作用,各企业内控评价报告内容基本是依据指引要求撰写的。虽然,对样本高频词汇进行了统计和分析,但毕竟各个词汇孤立存在,缺乏内在联系。
2.共现分析
共现是指被挖掘文本中分词得到的不同的关键词共同出现的现象。共现分析可以实现比较一组关键词直接的联系。是否具有关联可以通过是否具有共现频数进行测量,关联程度的大小则可以通过共现频数的大小来测量。[7]通过ROST CM软件构建分词后的关键词共现矩阵词表。本文摘取了部分关键词的 10×10的共现矩阵,详见如下表2:
观察发现,“内部”与“控制”关联次数最多;其次,“内部控制”与“缺陷”组合,“內部控制”与“评价”组合,“内部控制评价”与“报告”组合紧随其后,表明内部控制评价报告是基于企业的内部控制进行评价,并出具报告。“财务”与“报告”组合,共出现438次,表明内控评价从定量方面分析,主要以财务报告为依据。“重大”与“缺陷”组合,共出现373次,表明企业内控缺陷认定时,尤其关注“重大缺陷”对企业内控的影响程度。“缺陷”与“标准”组合,共出现233次,表明企业是按照事先制定的“缺陷标准”开展内控缺陷认定工作的。10个关键词中,除了“内部” “控制”关键词组合外,“缺陷”与9个关键词进行了组合,最少出现次数达104次;“报告”与8个关键词进行了组合,最少出现次数达154次;“评价”与7个关键词进行了组合,最少出现次数达93次;“财务”与8个关键词进行了组合,最少出现次数达149次;“重大”与8个关键词进行了组合,最少出现次数达95次。这表明在企业内控评价报告中主要披露信息是财务报告与非财务报告中各项缺陷的评价,重大缺陷尤为重要。
3.语义网络分析
语义网络图可以观察出不同关键词之间的直接联系和间接联系,把整个内控评价报告内容的信息在一张图中构建信息知识地图。关键词聚集的指向箭头越多表示关键词的中心程度越高,不同节点之间的连线表明了不同关键词之间具有联系,关键词连线的长度体现了不同关键词直接联系程度的大小。[7]利用ROST CM软件对样本进行语义网络分析,详见如下图1:
图1 关键词语义网络图
通过图1构建的语义网络知识地图分析发现,“内部”“控制”成为中心词,表明评价报告的主体是以企业的内部控制为核心,评价内部控制是否有效是结果。“财务”“报告”“缺陷”“评价”成为中心词的外围关键词,表明企业内控评价是通过对财務报告和非财务报告中存在的缺陷进行认定和评价。最外围的“存在”“上述”“认定”“标准”“确定”“定量”“企业”等关键词出现的次数较少,但更加量化或客观化,是对外围关键词的具体阐述。它们仍然属于非常重要的披露信息,把这些关键词串联起来,表明评价报告中关于定量与定性的内控缺陷标准的认定与评价,是企业董事会评价内控有效性的重要依据。通过关键词语义网络图分析,不能简单的认为关键词联系次数越多披露的信息越重要,联系次数越少披露的信息不重要。而是重点关注关键词彼此联系的内容是否存在偏离控制目标或重大风险。一旦企业存在不同影响程度的内控缺陷,对于利益相关者而言,需要进一步关注存在的缺陷如何整改,以及整改落实效果如何。
结束语:
通过样本高频词汇与评价指引对比分析,企业内控评价报告的内容基本符合指引要求,同行业不同企业的内控评价项目相似度较高,但定量标准还是有差异。然而定性标准辨识度不高,增大了企业内控评价成员对缺陷认定和评价的难度。通过文本挖掘分析,企业内控评价报告存在一些显著特征,一是内控是评价报告的核心内容,内控理论框架又是由五要素构成的。二是内控评价标准是建立在基本规范、应用指引和企业内控制度基础之上的。企业内控制度建设尤为重要。三是企业内控认定和评价的对象为内控缺陷。对于利益相关者而言,应该更加关注重大缺陷和重要缺陷。对于企业管理层而言,所有的内控缺陷都是整改的对象。四是内控缺陷的认定标准通常从定量和定性两个方面加以规定。评价过程中,定性的内控缺陷又是较难做出判断的。五是指引规定重大缺陷应当由董事会最终认定。实务中,企业存在一项或多项内控重大缺陷,应该认定企业内控是无效的。基于此,企业内控评价报告往往避重就轻,对存在的问题和采取的措施,也只是隔靴搔痒。重形式轻实质,造成利益相关者难以从报告中获取实质性非财务信息。实务中,常常存在企业内控评价不能客观地揭示和防范风险。比如:康美药业货币资金299亿不翼而飞,企业内控评价仍为内控有效。鉴于此,本文的后续研究应聚焦在,基于文本挖掘技术的我国上市公司企业内控评价报告是否客观的实证研究上,从而建立起一种内控评价报告文本主客观性的评价模式,为相关理论研究提供重要的实证依据。
参考文献:
[1]国务院国有资产监督管理委员会 关于印发关于加强中央企业内部控制体系建设与监督工作的实施意见的通知,2019.
[2]财政部 证监会 审计署 银监会 保监会.关于印发企业内部控制基本规范的通知,2008.
[3]财政部 证监会 审计署 银监会 保监会.关于印发企业内部控制评价指引的通知,2010
[4]郑双怡.文本挖掘及其在知识管理中的应用[J].中南民族大学学报,2005(04):127-128.
[5]蒋良孝.蔡之华. 文本挖掘及其应用[J].现代计算机,2003(02):29.
[6]ROST CM 6.0软件使用手册
[7]宋英慧.黄麒.基于文本挖掘技术的财务报表附注披露研究[J].会计之友,2019(01):143-145.
作者简介:彭小军(1974-),男,汉族,研究生,高级会计师。研究方向:企业风险管理与内部控制。