宋英慧 黄麒
【摘 要】 近年来,财务报告附注的篇幅越来越长、信息越来越庞杂,这无疑增加了财务报告使用者的阅读难度。文本挖掘技术可以视为提炼文本中有用信息的工具,对提取财务报表附注中披露的关键信息具有很大的帮助。以文本挖掘为工具研究财务报表附注信息披露的特征,使用ROST CM软件对财务报表附注文本内容进行分词处理,经过词频统计、关键词共现分析、文本内容语义网络分析等过程发现财务报表附注披露内容的特征,探究了文本挖掘在附注研究中可以使用的技术。基于文本挖掘技术的相关研究在国内刚刚起步,财务报表附注方面更是鲜有研究,文章尝试使用文本挖掘技术来研究财务报表附注,对未来此方向的研究提供了一个可供借鉴的方法。
【关键词】 财务报表附注; 文本挖掘; 信息披露
【中图分类号】 F231.5 【文獻标识码】 A 【文章编号】 1004-5937(2019)01-0142-06
一、引言
财务报表以表格形式列报和披露企业信息为主要特征,财务报告的主体部分是几大报表,报表只以项目和金额的方式列报和披露信息,而财务报表附注是对前述项目和金额进行详细的解释,具体形式包括文字描述和表格明细。对于报表使用者来说,表格无疑是财务报表通用的列报和披露形式,在财务报表附注篇幅不断增加的今天,报表附注中大幅的文字描述已超过表格形式,成为财务报表附注披露内容的重要部分并包含着很多重要信息,但是,文字较表格而言,具有非结构化的特征,难以直观地得到文字信息所要披露的重要内容,也无法直接了解披露信息中相关事项的联系。此外,除了关注某一公司财务报告外,金融机构等报告使用者会阅读大量的财务报告,如何在财务报告附注中提取关键信息,进行公司之间的对比以及行业之间的对比,对于报告使用者来说是一个焦点问题。
在信息时代,如何快速获取信息并从海量而复杂的信息中抽取关键的知识成为信息井喷时代的一个重要问题。据此,数据挖掘技术应运而生,它是一个在海量数据库中提取有用信息的过程。数据挖掘的对象不是狭义的数字数据,而是广义的数据,不仅包括数字数据,也包括文本与多媒体数据等,文本挖掘的目的是针对文档集合抽取知识信息。随着企业数量增多、披露信息不断增长,应用文本挖掘技术研究这些文本数据成为提高信息交换过程的一个重要手段。
文本挖掘技术是专门提取知识密集型文本数据信息的一种方法,是数据挖掘的一个分类,它可以通过使用者设置的识别模式,在非结构化的庞大数据集中抽取结构化、数据化、可视化的信息,便于快速识别文本特征,提取文本中的关键词,构建文本知识地图,从而更有效地阅读文本信息。目前,国内的文本挖掘研究,主要是从事计算机科学方面研究的学者,研究对象主要集中在从网络直接获得的文本数据。在年度报告、董事会决议、企业社会责任报告等方面的报告型文档研究较少,有些方面甚至为空白。近年来,这些报告数量呈现大幅增长的趋势,内容也在不断增加,通过文本挖掘技术,合理解构报告中非结构化文本,快速提取有效信息,将有利于市场交易的主体获取市场信息,降低交易成本。
二、财务报表附注的相关理论
(一)财务报表附注的内容
财务报表附注在《企业会计准则》中被定义为“对在资产负债表、利润表、现金流量表和所有者权益变动表等报表中列示项目的文字描述或明细资料,以及对未能在这些报表中列示项目的说明等[1]。”
《企业会计准则》中规定财务报表附注应包括:财务报表的编制基础,遵循企业会计准则的声明,重要会计政策的说明,重要会计估计的说明,会计政策和会计估计变更以及差错更正的说明,对已在资产负债表、利润表、现金流量表和所有者权益变动表中列示的重要项目的进一步说明,或有事项和承诺事项、资产负债表日后非调整事项、关联方关系及其交易等需要说明的事项,其他未在与财务报表一起公布的其他信息中披露的信息[1]。证监会规定公开发行证券的公司的财务报表附注披露的内容包括公司的基本情况、财务报表的编制基础、重要会计政策及会计估计、税项、合并财务报表项目附注、合并范围的变动、在其他主体中的权益、与金融工具相关的风险、公允价值的披露、关联方及关联交易、股份支付、或有事项、资产负债表日后事项、其他重要事项、母公司财务报表的重要项目附注的披露[2]。
(二)财务报表附注的作用
为了制定更优的投资决策,报告使用者对会计信息的需求越来越高,传统的财务报表已无法满足财务报表使用者的需求,将财务报表中无法列报和披露的信息通过财务报表附注提供,以括弧注释、脚注的形式表现出来,进行单独列报,成为会计实务中一个较好的选择。财务报表附注的作用是为了报表使用者更方便地阅读财务报表,即对报表中未列报和披露项目进行补充,以及对报表中列报的金额进行解释,或者对综合性项目的明细内容进行披露。财务报表的编制有相关性、可比性、实质重于形式、重要性等原则。
(三)财务报表附注的局限
市场经济迅速发展,企业的规模不断扩大,业务也不断增多并涵盖不同的行业,这使得会计主体的交易和事项日趋复杂,作为会计信息主体的财务报表没有得到使用者的重视,而附注作为财务报表的补充部分,其作用和篇幅甚至超过了财务报表的基本部分,这些使得财务报表附注容易出现以下问题:第一,财务报表附注内容的增多使得表外信息过载。财务报表附注出现的目的就是为了帮助报告使用者更好地解读财务报表,如果附注内容过多、信息过于复杂,就可能本末倒置,使得使用者更加难以解读财务报表。第二,由于财务报表附注可以对报表中未列示项目进行补充与列示项目进一步解释,企业可能会把一些重要信息与非重要信息混杂于附注之中,混淆使用者的耳目,或者一些对企业不利的信息隐藏在附注大段的文字之中,而使报告使用者忽略这些信息。第三,财务报表作为财务报告的主体,是披露企业财务信息的主体的部分,但随着财务报表附注披露篇幅的不断增加以及使用者对附注的不断关注,有可能使得报表和附注的主次位置颠倒[3]。
三、文本挖掘的相关理论
(一)相关概念
文本挖掘的对象是文本,它是一个分析文本数据、抽取有用信息、发掘知识的过程,文本挖掘的目的是指为了发现知识、提取信息,它从非结构化的文本数据中提取的信息是隐含在文本中的,具有以前未知、对未来有用的特点[4]。
文本挖掘的对象是文本数据,其具有非结构化的特点。非结构化数据,简单来说就是无法用真假二维逻辑表现的数据,其数据格式、存储方式、业务流程、数据结构等不尽相同,具有难以标准化的特点。通过文本挖掘,可以把非结构化的文本数据集合,用高度组织的方式表示,以向量、矩阵或表格的形式来呈现知识信息。
(二)文本挖掘的开发
文本挖掘技术作为数据挖掘的一种子技术,在国外有着较为深入的研究,不仅在学术上做出了丰富的理论研究,在实际应用上也有着丰硕的成果。目前,文本挖掘的应用多集中在网络文本数据的开发上,其文本数据可以直接从网络上获取,通过爬虫技术可以搜集海量的文本数据,建立数据库,使用不同的文本挖掘技术以实现不同的目标。目前的文本挖掘在商业文档的分类、知识提取与总结、可视化分析上有着较为全面的功能,围绕着挖掘文本信息的主题、提取关键信息来实现。
数据挖掘技术在国内起步较迟,而文本挖掘的对象也发生了变化,由于中文的特点,中文文本挖掘技术具有更复杂的过程和特点,目前中文文本的挖掘技术在国内并不是很完善,在学术和实际应用中也不是很广泛,主要集中在在线文本信息的挖掘,对于报告型的文档研究较少。目前,类似的研究在企业社会责任报告上有一定体现,段钊等[5]把PDF格式的报告进行文本化处理,然后进行文本挖掘,研究其报告披露的信息;此外,林钟高等[6]提取企业年度报告中的董事会报告文本信息进行相关研究;田程涛[7]在大数据审计理念下,导出被审计单位的非结构化数据,采用統计学的方法研究审计工作。目前尚未发现国内有相关学者以财务报表附注为研究对象,使用文本挖掘技术进行相关研究。
四、以文本挖掘为工具的财务报表附注分析
(一)资料来源
本文选取A股上市公司财务报告的财务报表附注作为样本,通过手工处理对财务报表附注进行文本化并录入财务报表附注数据库中。本文的样本行业为航空公司,单个报告样本来源为东方航空2017年度财务报告,行业分析为航空业中晨曦航空、上海航空等共计10家公司的2017年度财务报表附注。
(二)研究工具
ROST CM,全称为ROST Content Mining,是本文主要使用的文本内容挖掘工具,它由武汉大学的沈阳教授开发完成,可以实现分词、微博信息分析、网站分析以及分词、词性标注、社会网络分析等功能,在社会科学研究中具有广泛的应用。
NetDraw是本文主要使用的文本挖掘可视化软件,是一款社会网络与语义网络分析软件,由Steve Borgatti开发完成,可以分析网络中具有联系的节点、节点之间联系的紧密程度以及节点在网络中的地位。NetDraw可以通过共现矩阵绘制出反映网络中各节点联系的知识地图。
(三)单个财务报表附注分析
1.分词后形成高频词
分词是进行文本挖掘分析的第一步,也是将非结构化的文本数据分解为可供统计与分析的词汇的关键一步。在进行分词之前,首先要设定词表,即被分析内容要按照一定的标准进行分词处理,财务报表附注不同于一般文本,具有非常多的会计术语,而且根据不同的报告主体,里面的一些专有名词也要进行专门的定义。设定会计术语自定义词表,一方面要包括会计术语“会计分期”“金融工具”等,另一方面包括公司的专有名词即公司全称、公司简称等,还要包括“2017年度”等作为一个整体具有特殊含义的词汇。
以“遵循企业会计准则的声明”这样一句话为例,分词处理后就会得出“遵循 企业会计准则 的 声明”这样的结果。被分析文本会以单个词汇、单字的形式呈现出来。对分词进行统计,可以得到财务报表附注词频表,即对不同的词汇出现的次数的统计。由于篇幅所限,本文摘取了词频表中出现次数最多的前30个词汇,编制出财务报表附注披露文本高频词汇表(见表1)。观察发现,出现频率最高的关键词的“本集团”;其次是“资产”“东航”“确认”“公允价值”“金额”“计量”等。
会计四大假设是核算的前提,这在词频统计中得到了很好的体现,会计主体“本集团”是出现最多的词,其次是公司简称“东航”,而“金额”与货币计量相关的关键词出现频率也居前列,会计“确认”和“计量”则是财务信息记录的方法。词频统计与分析是文本挖掘最简单的一步,它可以直接反映被挖掘文本内容的关键信息以及关键信息出现的频率,其缺点是只能观察出独立的关键信息,而无法观察出它们之间的联系。
2.共现分析
共现是指被挖掘文本中分词得到的不同的关键词共同出现的现象,共现分析可以实现比较一组关键词直接的联系,即两个关键词之间是否有联系,哪两个关键词之间有联系。是否具有关联可以通过是否具有共现频数进行测量,关联程度的大小则可以通过共现频数的大小来测量。将分词后的文本导入ROST CM软件,可以构建出所有关联词汇的共现矩阵词表,本文只摘取了部分关键词,呈现了财务报表附注披露信息关键词的11×11的共现矩阵(见表2)。观察发现,“资产”与“确认”这一组关键词一起出现了43次,而“金融资产”与“确认”这一组关键词共同出现了24次,表明附注中着重披露了资产的确认这一方面的信息;“子公司”关键词只与“东航”共同出现,表明在附注中披露的子公司信息是围绕着公司主体出现的。在11个关键词中,“确认”与“计入”两个关键词是与其他关键词共同出现最多的词,分别与7个词共同出现,表明在附注中披露的项目及其金额是围绕着金额如何确认、计入何种项目中去的。
共现分析与高频词分析相比是二维的,即高频词分析只能观察出财务报表附注披露关键事项的出现次数,而共现分析可以看出披露内容的两个关键词之间的联系。共现分析的一大缺点是只能分析一组关键词的直接联系,即只能比较两个关键词之间的直接联系,不能看出多个关键词之间的联系以及关键词之间的间接联系。
3.语义网络分析
对文本挖掘可视化程度最高的是语义网络分析,它可以构建出财务报表附注披露信息的知识地图,语义网络图可以观察出不同关键词之间的直接联系和间接联系,把整个财务报表附注披露内容的信息在一张图中构建信息知识地图。通过NetDraw制作的语义网络图,可以自定义设置图形来展示不同关键词的特征,关键词节点的大小表现了关键词的中心程度,不同节点之间的连线表明了不同关键词之间具有联系,关键词连线的长度体现了不同关键词直接联系程度的大小。
通过财务报表附注信息披露关键词语义网络图可以观察出:第一,会计主体“本集团”节点图形最大,表明其中心程度最高,会计主体处于财务报表附注信息披露内容的关键词语义网络中心。第二,“资产”“收入”“当期损益”“现金流量”等一系列体现的经营成果和财务状况的关键词与“确认”“计量”等会计活动关键词节点的大小为第二大,也是中心节点的外围节点,这些关键词节点一方面以“本集团”会计主体为会计活动或事项的主体,另一方面与“金融工具”“坏账准备”等其他报表项目和“物流”“发动机”等公司业务层面活动相联系,第二外围的节点是构建会计主体中心节点和外围项目及业务活动的纽带。第三,最外围的“金融工具”“坏账准备”“余额”等关键词则是财务报表附注披露的其他会计事项以及“发动机”“物流”“进出口”等与公司业务相关的关键词,这些外围的关键词出现的次数较少,表明这些财务报表附注中的关键词中心程度较低,与其他信息披露内容的关键词节点联系较少,在附注中并非属于重要信息。详见图1。
(四)行业报表附注分析
首先进行分词后提取关键词,得到关键词词频表,表3列示了频数前30的行业财务报表附注关键词高频词汇表。财务报表主要以列报数字为主,“金额”作为各项目实际金额的关键词成为出现频数最高的关键词,其次是会计主体“本公司”,“资产”类项目作为财务报表中的重要项目在财务报表附注中披露频率也很高,在后面出现的关键词中,“单位”“余额”“计量”等出现较多的关键词反映了披露货币计量相关的内容,“航空”“机场”“飞机”“服务”等关键词反映了企业业务。
构建12×12共现矩阵表(见表4),可以发现反映财务报表列报数字的“金额”依旧是与各关键词共现频率较高的词,表明在整个航空业财务报表附注对报表中各项目所列示金额的合理确认是附注披露的重点内容;“资产”作為财务报表中列报的重点项目类别,在附注中与“确认”“计入”等表面资产记录于财务报表中的方式。
进行关键词语义网络分析,可以构建出航空业财务报表附注关键词知识地图(见图2),可以看出“确认”成为网络中心关键词,其次是“资产”“金额”“计入”。与个体报表附注披露内容知识地图相比,行业报告披露的内容所构建的语义网络表达了更丰富、更全面的航空业的报表附注所披露信息关键词之间的逻辑关系。可以看出,资产、负债、当期损益、收入、成本等实质性内容在财务报表附注披露中,与确认、计量、计入等会计记录手段相比较少,表面附注披露的内容更关注把报表中的项目正式记录和计入财务报表内的全过程。
五、结论与展望
(一)研究结论
第一,财务报表附注具有对报表各项目及其金额进行解释和补充的重要作用,其信息披露的篇幅越来越长,信息披露内容成为报告使用者重点关注的内容。但是财务报表附注也存在着一些问题,比如表外信息过量让报告使用者阅读难度增加,重要信息与非重要信息混杂从而误导使用者等。
第二,文本挖掘技术具有把文本中非结构化数据抽取为可视化、规则化、结构化信息的特征,其对于直接获取的网络文本信息应用较多,对于传统的报告型文档应用较少。
第三,使用文本挖掘作为研究工具分析财务报表附注,可以发现有分词、词频统计、共现分析、语义网络分析等途径来实现,分词是对财务报表附注进行文本挖掘的前提,即把文本集合进行信息拆分;词频统计是对财务报表附注披露关键词的简单统计,可以最直观地看出披露内容重点集中在哪些信息上;共现分析可以实现具有直接联系关键词的呈现,即通过共现矩阵发现哪些关键词直接具有联系并联系较多;语义网络分析是可以绘制出关键词节点的中心程度以及信息披露内容关键词之间的直接联系和间接联系,它构建了一幅财务报表附注披露信息的知识地图。
第四,财务报表附注的信息披露,通过文本挖掘可以发现一些显著的特征,一是重点关注会计事项的确认和计量,对报表所列报金额的完整性、连续性等方面的验证。二是财务报表附注重点披露了资产类科目的项目内容和明细资料。三是附注围绕着会计主体而展开,重点披露了报表中报告主体各项目的内容,作为报表的补充,对子公司、关联方交易等重大事项也做出了说明。四是附注说明了报表中金额的来源是根据一定的规则得出的,即按照准则、按照公司的会计政策或者其他有供选择的标准,金额的来源具有合理性的保证。
(二)研究不足
本文在使用文本挖掘作为工具研究财务报表附注披露的过程中发现了研究中存在着很多不足:第一,样本规模较小,行业综合分析上,选择了航空业,由于航空上市公司较少,只选择了主板上市的10家航空公司,样本量较个体分析而言差异不是很大;第二,文本挖掘尚不够深入,本文只是使用了文本挖掘技术中分词、词频统计、共现分析、语义网络分析等功能研究财务报表附注信息披露的特点,功能并没有涵盖文本挖掘技术的全部,技术尚不够深入,而且是通过相同的分析技术分析了不同的研究对象,没有多元化分析。
(三)建议
通过对研究的总结和不足的反思,对使用文本挖掘技术作为研究财务报表附注的工具,可以对未来的研究提出建议:第一,使用文本挖掘技术中的聚类分析,对财务报表附注信息披露的关键词进行聚类,与企业会计准则中规定的应当披露的内容进行对比分析。第二,由于会计师事务所出具财务报告都具有各所的模板,可以通过相似性对比,比较由同一家事务所出具的不同年份的同一家企业的报告的相似性,以及相同行业企业财务报表附注的相似性。
【参考文献】
[1] 财政部会计司.企业会计准则第30号——财务报表列报[M].北京:中国财政经济出版社,2014.
[2] 中国证券监督管理委员会.公开发行证券的公司信息披露编报规则第15号——财务报告的一般规定(2014年修订)[EB/OL].http://www.csrc.gov.cn/pub/zjhpublic/G00306201/201412/t20141226_265704.htm,
2014-12-15.
[3] 葛家澍,杜兴强,等.会计理论[M].上海:复旦大学出版社,2015.
[4] TAN A H.Text mining:the state of the art and challenges[Z]. Proceedings of the Pakdd Workshop on Knowledge Discovery from Advanced Databases,1999:65-70.
[5] 段钊,何雅娟,钟原.企业社会责任信息披露是否客观——基于文本挖掘的我国上市公司实证研究[J].南开管理评论,2017,20(4):62-72.
[6] 林钟高,杨雨馨.风险提示信息与银行信贷决策——基于A股上市公司年报文本信息的研究[J].安徽师范大学学报(人文社会科学版),2017,45(2):245-255.
[7] 田程涛.大数据审计下统计分析方法研究[J].会计之友,2018(1):140-145.
【作者简介】 宋英慧(1968— ),女,吉林长春人,博士,东北师范大学人文学院教授、东北师范大学商学院教授,研究方向:财务会计理论与实务;黄麒(1996— ),男,江苏泗阳人,东北师范大学商学院,研究方向:文本挖掘、财务会计