云南财经大学信息管理中心 曾志勇 云南财经大学信息学院 闫亚丽
基于XBRL层次结构的数据挖掘模型分析*
云南财经大学信息管理中心曾志勇云南财经大学信息学院闫亚丽
摘要:XBRL作为一种基于XML的可扩展性商业报告语言,是未来财务信息编制和交换的标准。本文提出了一种基于XBRL层次结构的数据挖掘模型架构,该模型架构包括数据提取转换、X-Hive数据存储、数据挖掘和结果展示四大模块,综合了XBRL层次结构思想,符合数据挖掘相关流程,并利用数据挖掘方法和XQuery查询思想对存储于X-Hive数据库中的XBRL数据做深度挖掘。
关键词:XBRL数据挖掘X-Hive数据库
XBRL是商业和财务数据电子化交流的一种语言,它有助于商业信息的编制、分析和交流,为提供和使用财务数据的所有人提供低成本、高效率的服务以及可靠而准确的商业信息。进入21世纪后,由于互联网的应用和普及,加深了各行业的融合度,针对社会不同领域进行综合数据的挖掘显得愈来愈重要,数据挖掘技术获得了长足的发展,特别是基于结构化数据产生了很多的数据挖掘方法,并且取得了很好的数据挖掘效果。要对XBRL格式文件进行数据挖掘,必须将XBRL的技术规范与传统的数据挖掘技术相结合。基于XBRL层次结构的数据挖掘模型架构如图1所示,它由以下四个过程构成,主要包括数据提取转换模块、X-Hive数据存储模块、数据挖掘模块以及结果展示模块,它们之间的各种协调工作都是围绕XBRL数据格式进行的。
图1 基于XBRL层次结构的数据挖掘模型架构
数据提取转换模块是将各种形式的数据格式转变为符合XBRL格式规范的过程。在数据挖掘整个系统中该模块是一个非常重要的模块,可以为最后的数据挖掘提供一个质量高、匹配性好、优质的数据源。从数据组织形式的角度来区分,数据可以分为两大类,一类是基于XML语言基础描述的适用于XBRL规范的数据源,一类是非XBRL规范的数据源。在数据挖掘过程中可以处理各种不同规范格式的数据源,在数据挖掘之前需要进行统一规范,也就是将第二类非XBRL规范格式的数据源按照一定规则进行处理,最后转化成符合XBRL规范格式的数据源。
(一)HTML文档转化为XBRL规范在对HTML类型的文档进行XBRL规范格式化时,首先要对HTML文档进行分析,使其数据呈现为DOM树形式,然后再继续进行下一步的格式转换。HTML文档的XBRL转换过程主要解决的问题是HTML文档及其合集结构内容的提炼和模式的生成。举例来说,可以在XBRL文档中建立一个标志,用来表示HTML页面中一个特定位置的信息,这个XBRL标志就称为一个元数据的说明。这个内容的作用是用来描述数据内容如何在HTML中组织等信息。然后进一步分析HTML文件,增加丢失的信息,并明确对象名称和他们之间各种不同的关系,生成一个完备的、标准的XBRL规范格式的数据模型。另外,对抽取模式进一步明确是否严格按照XBRL规范来进行标记,并且要明确指出其在HTML文档中需要进行转换的数据信息所在HTML文档中的标记,确定那些已经完成转换的XBRL规范的文档标记同这些被转换的HTML文档信息之间的特定关联,最后再根据这些特定关联对HTML文档进行详细描述,并输出最终结果,即XBRL规范文档。
(二)现有文本数据的XBRL规范化当前的文本格式文件都是具有一定结构信息的文件,如日常数据表格文件、电脑的访问记录文件、各种文字数据的存储文件等。为了对这些数据进行XBRL模式的数据挖掘,必须将这些文件都转换成符合XBRL规范的数据格式才可以使用。在数据转换过程中的主要工作是要获取人们兴趣度比较大的、具有一定数据结构的数据内容。对于这些组合起来比较灵活的文本格式数据,通过一些经过多次验证的、可靠性的程序来进行文件解析和格式转换。当前现有的技术中,DOM技术就可以完成向XBRL规范文档的转换。这个转换过程可以分成三个块来进行:第一块是通过建立datastream来进行文本的读取;第二块是将文件中的内容按照Schema中定义的标准格式来进行统一组织,然后再转换成所对应的DOM树形式;最后第三块是通过调用集成的转换类Transformer,利用生成的DOM树来产生所对应的XBRL规格文档。
(三)结构化数据转换成XBRL格式关系数据表可以用来表示结构化的数据。由于关系数据的结构性强、形式比较简单,而且最终的信息视图都具有不同的语义,所以可以很方便地用XBRL规范的数据模式来表示,而且其转换也比较容易。
(四)XBRL规格文档的检验工作通过上述三个步骤生成XBRL规范格式文档后,需要对其进行进一步的检验工作,从中查找出不能够满足要求的内容并加以改正,使其可以满足数据格式的要求。到此,就可以完成XBRL格式文档数据的转换任务了。
作为一种对XML数据存储的数据库系统,XML数据库系统同类型为半结构化的数据匹配性非常好,在对这种类型的数据进行存储时不需要进行拆分和再组合,数据的存储效率比较高。这种存储系统不但可以同时为多个用户提供数据访问请求,且具有传统数据库在数据的安全保障、数据管理、编程接口等方面的特点,而且还支持W3C最新发布的XML技术,如XQuery或XPath技术同该数据库之间的无缝连接。
XML数据库有比传统数据库更便利的特点:第一,在半结构化数据的存储和管理上,XML数据库的存储效率明显比传统数据库要高,这些数据结构在传统的关系数据库中是无法有效管理的。第二,可以提供针对路径和标记的查询工作。XML数据库不仅可以通过标记名来查找,还可以对路径进行查询。这与传统的数据库语言只能对数据元素所对应的特定值进行查询,却对元素所表达的名称不能查询是完全不同的。第三,因XML独特的层次结构语言模式,XML数据库在解决具有层次结构特征的语言形式时显得非常便捷。第四,由于XML存储数据时具有明显的顺序结构特征,这使得数据的链接,查询和修改更加便利。
对XBRL格式的数据而言,基于来自XML扩展的特点,采用XML数据库对XBRL数据存取和操作是现今最合理的选择。近几年,随着互联网技术的大力发展和普及,很多数据都是通过XML或者XBRL来表现的,各国对这方面的研究也显示了足够的重视,并取得了丰硕的成果,这使得XML数据库的存储技术得到了迅猛的发展并已成功运用到各数据存储领域,这些都为充分采用半结构化数据结构特点的XML数据库对XBRL数据进行存储管理提供了非常好的技术支持,而且这种方法对XBRL数据文档的存储是极为有效的。
在本文中,针对XBRL数据挖掘系统的数据存储模块使用的是X-Hive数据库,该数据库中的数据存储结构如图2所示。在X-Hive数据库中,存在一个可以存放所有“文件集合”、XBRL文档和目录的“根文件集合”。鉴于XML数据库是一种具有可以分层存储的存储系统,所以把“子文件集合”嵌入到“文件集合”中。通过对一类XBRL文件建立一个“文件集合”的方式就可以实现对数据的管理功能。在这里通过一个“交易”文件集合的创建来实现被挖掘的XBRL文档的管理。每一个“交易”都有一个目录,目录是用来存放DTD或者XBRL Schema的地方,所有的DTD或者XBRL Schema如果被引用了,则首先必须先被导入到该目录中,如果想创建文件集模式,就要把DTD或者XBRL Schema同对应的文件目录连接起来。在X-Hive数据库中还支持包括ID属性索引、文档索引、值索引和全文索引等多种不同的索引方法,而且在文件进入数据库之后还会创建与之相对应的索引。
图2 XBRL在X-Hive中的存储结构
在数据的存储流程上,X-Hive数据库和其他类型的数据库基本是差不多的,X-Hive数据库的存储流程首先要对数据库创建连接,然后再将挖掘的数据导进来。
基于XBRL层次结构的数据挖掘的目的是从大量的XBRL文档结构中发掘出值得利用的信息。因此数据挖掘在整个数据处理过程中起着至关重要的作用。但是数据挖掘的目的不同所采用的方法和技术也不尽相同,主要是将XBRL存储于XML数据库中,并对其进行数据挖掘。
目前为止,对XBRL数据内容的挖掘方案有如下两种:第一种是针对当前关系模型的结构化特点,可以先将XBRL文档转换成结构数据,然后再把转换后的XBRL数据同关系模型相关联,最后在数据挖掘过程中采用比较流行且已经成功使用的数据挖掘方法。但是鉴于XBRL数据本身就是一些半结构化的数据,因此在同关系模式相关联时候会存在一些未知的因素影响最终的挖掘效果。第二种是将一些查询语言嵌入到其他应用程序中以实现XBRL数据或半结构化数据的查询功能,来获得对数据集的挖掘结果。这种方法的优点是能够将XBRL技术与数据挖掘技术紧密结合,而且实现起来比较方便。当前X-Hive数据库已经拥有XQuery查询功能,所以,在对XBRL数据进行数据挖掘的过程中,可以将XQuery数据查询技术同成熟的数据挖掘方法相结合,从而实现面向XBRL的数据挖掘算法。
在对XBRL数据进行查询挖掘后需要根据数据挖掘的目的进行有效的展示,这一步需要对数据挖掘的目的要明确,在进行数据挖掘的过程中要选择好合适的方法,应用恰当的工具分析、反复对比,最终总结出相应的结论,并选择合适、有力的表示及可视化方法。结果展示模块是最后一步也是至为关键的一步,它呈现了挖掘数据的结论,为之后的工作奠定了基础。因此要展示出正确的结果就需要对数据挖掘的方法相当熟悉,在数据挖掘过程中做好充分的准备工作。
本文提出了基于XBRL层次结构的数据挖掘模型架构,该模型由数据提取转换,X-Hive数据存储,关联规则挖掘以及结果展示四大模块构成。数据提取转换模块部分负责将采集的多种格式数据提取转换为需要的XBRL文档格式,转换成功后的XBRL数据存入X-Hive数据库中,根据X-Hive数据库格式进行数据挖掘,最后将挖掘的结果可视化展示出来供用户使用。本文提出的数据挖掘模型将传统数据挖掘方法与特殊的XBRL格式相结合,实现新的面向XBRL的数据挖掘,能充分利用XBRL数据格式的特点,对财务信息数据挖掘的研究具有现实应用意义。
参考文献:
[1]刘听:《基于XBRL的会计财务报告应用》,《财会研究》2010年第5期。
[2]赵利兵:《基于XBRL的网络财务报告模式构建》,《财会通讯》(综合·上)2015年第4期。
(编辑 陈 玲)
*本文系教育部人文社会科学研究青年基金“网络信息披露机制下的海量金融数据挖掘模型研究”(项目编号:10YJCZH004)、云南财经大学校科研基金重点项目“金融数据在分布式环境中的数据挖掘模型研究”(项目编号:YC10A003)阶段性研究成果。