摘 要:由于面板数据是时序数据与面板数据的结合,使得多指标的面板数据聚类分析存在一定的困难。针对这一问题,本文设计选取2014年-2018年39家公司的8个财务指标来反映其财务状况,并对每一年度数据进行主成分分析提取主成分,并利用每个公共因子的方差贡献率占累计方差贡献率的比例来进行加权最终得到综合得分指标,在此基础上通过系统聚类法进行分类。最后通过实证研究表明此方法的聚类效果拥有一定的合理性和可解释性。
关键词:多指标面板数据;财务状况;主成分方法;聚类分析
一、引言
当我们对特定的事物进行实际研究时,从更全面和严谨的角度来看,人们通常要采取与其相关的多个指标,同时也需要考虑多种维度。而面板数据就是同时兼顾时间维度与空间维度,所以能够尽可能多地包含更多的信息,也能揭示事物发展的动态特点。近年来我国学者对面板数据的研究从无到有,日益增多,并在理论研究和实际应用上都有了创新和进步,从相关研究来看,对面板数据加以利用与建模可以得到较为不错的效果。郑兵云(2008)阐述了面板数据的特点,并重新构造了用于聚类分析过程中的距离函数及离差平方和函数,最后通过实证研究证明其效果良好。王双英等(2014)对面板数据中的因变量与自变量进行区分,通过定义不同的协方差,重构度量数据间相似程度的距离函数。任娟(2013)改进了基于多指标的面板数据聚类方法,将有序聚类理论融合进入传统的方法中,实现了多指标面板数据的有序聚类,实证结果表明了这种方法能够解决一些时间维度上由于均值处理带来的偏差。董锋等(2009)选取一定时间段内40家公司的多个R&D能力评价指标为样本,利用改进的因子分析方法处理面板数据,最后得出能够得到可以直观地评价40家公司的综合因子总得分。王泽东(2019)提出了能够体现出面板数据的动态变化特征的趋势距离概念,并且通过实证表明了在此基础上的聚类方法具有较良好的稳定性。吴利丰等(2013)通过三维的灰色凸关联度来聚焦面板数据的聚类方法,作者提出使用数据的凸性表征样品之间的相近程度,并使用二阶的差商值来近似代替二阶导数,实证表明该种方法具有很大的改良性。
通过在前人研究基础上的学习与借鉴,本文将对面板数据先进行分年度的主成分分析,得到各个样本的综合得分时间序列,在此基础上通过系统聚类法对面板数据实现聚类分析。
二、多指标面板数据特征
1.单指标面板数据
单指标的面板数据可以用一个二维表格来表示,其中每一个元素都可以用
2.多指标面板数据
多指标面板数据具有时间序列数据和截面数据的特征,是两者的结合,它不能再和单指标面板数据一样用二维表来表示,但我们可以用一个三维矩阵来描述它。设有N个研究总体,每个个体的记录时间为T,共选取了P个指标来描述总体,那么第i个个体在第t时间上的第j个指标可以表示为
三、多指标面板数据聚类分析
1.利用主成分分析法进行特征提取
由于多指标面板数据是一个三维的数据,在处理的时候比较困难,因此本文采取先对面板数据进行标准化处理,消除量纲的影响。视各个时间节点的数据为二维截面数据,使用主成分分析法来进行特征的提取。主成分分析的意义在于对数据进行降维处理,从而简化数据,对原来复杂的数据关系进行简明有效的统计分析。
对提取的主成分计算综合得分,并通过每个公共因子的方差贡献率占累积方差贡献率的比例为权重系数,这样能够考虑到每个主成分综合原始信息的能力差别,这里我们选取的主成分是特征值大于1的。通过计算每个个体的加权综合得分,就能得到一个加权综合得分时间序列数据。
2.特征提取后的聚类分析
基于主成分分析法提取的加权综合得分序列数据,已经减少了指标维度,将面板数据转化为一个时间序列数据,每个个体对应的是长度相等的时序数据,此时我们可以使用二维截面数据的聚类方法对多指标面板数据进行聚类。
本文尝试利用系统聚类法进行聚类分析。采用欧式距离作为样本相似性的度量,由于主成分分析需要将指标进行标准化,得到的各主成分间不相关,满足欧氏距离的要求。
由于不同的类间距离计算方法,系统聚类法又可分为重心法、离差平方和法和类平均法等,虽然每种方法的优缺点不同,但不可否认都有其可取之处。本文采取的方法是系统聚类法中多数学者经过数次实验认证的比较推荐的方法:类平均法中的组间联结法。此方法与其他方法的差别就在于它在计算距离时只考虑两类之间样品之间距离的平均,虽然取平均的做法在一定程度上抵消了一些样品之间差异性的表现,但是平均值表达的方式一直有其稳定性和计算便捷性的优势。
下面给出距离计算公式:
四、实证分析
1.数据来源与指标选择
综合考虑影响公司财务状况的各个指标,考虑到数据的可获取性与数据的可靠性,并结合以往学者的研究,本文选取总结资产负债率、应付账款周转率、净资产收益率(ROE)、净利润现金含量、每股盈余公积、总资产同比增长率、流动比率、速动比率、现金比率和Z值这八个指标为特征变量,综合反映企业的财务状况,通过公司的经营情况,我们可以对公司做出的种种可能行为进行解释其原因。其中总资产負债率和应付账款周转率是评价公司负债程度的综合指标,可以看出公司将债权人的资金进行经营的能力如何,企业的流动负债的偿付能力,合理的应付账款周转率可以带来更好的资金状态。每股盈余公积是企业用来弥补亏损和增加资本的保障。总资产同比增长率代表了企业相较于上一年度的发展情况,公司资本规模的扩张程度可以从中反映,是一个企业成长的重要度量。流动比率、速动比率和现金比率都是用来描述企业能否快速变现,形成资金链,来偿还各种短期负债或流动负债。Z值是由美国学者Altman提出的,用来预警企业财务状况的一个指标,因此也可以代表企业的财务状况。本文的数据来源于wind数据库,选取了39家上市公司在2104年-2018年间的财务指标数据为样本。
2.聚类分析
按照本文上述的方法,使用SPSS和Excel软件进行操作。先对面板数据的每个年份数据进行主成分分析,根据方差贡献率加权并得到其综合得分,再对各公司进行系统聚类分析,以此达到对多指标面板数据的聚类分析目的。在聚类分析后可以从冰柱图和树状聚类图看到各类分别包含的样品。通常是通过聚合系数随分类数变化的曲线,来确定样本划分的类数。本实验可以比较明显看出在分类数为5之后的曲线变化十分地缓慢,所以可以把样品划分为5类会比较符合分类的目的。
将样本按五类划分后,最终的聚类结果为:第一类为尔康制药,ST慧球这两家公司;第二类为华塑控股这一家公司;第三类为华创阳安这一家公司;第四类为青海春天这一家公司;第五类为科融环境、春兴精工、澄星股份、佳电股份、圣莱达、青岛中程、上海普天、武汉凡谷、中兵红箭、联建光电、华闻集团、ST康美、恒顺醋业、ST锐电、ST中基、康欣新材ST天成、山东墨龙、迪马股份、登云股份、嘉寓股份、北大荒、亚太实业、淮河能源、海联讯、康达新材、南纺股份、启迪古汉、亚星化学、华阳集团、宁波富邦、鲁北化工、安妮股份、科达股份。
本文所选的公司都是曾经被证监会公开行政处罚的年度财务报表披露有虚假地方的公司,但各个公司在不同年度的财务状况表现不一样,进行虚假披露的年份和类型也不一样。从上述分类结果来看最后一类囊括了大部分企业,这也从一定的角度说明了相似的处于困境的财务状态会使公司做出同样的举动,即虚报财务报表的行为,说明第五类中的34家公司在一定程度上是具有相似性的,分类的结果较为合理。
第一类是尔康制药和ST慧球,这两家公司在2015年和2016年这两年都具有虚假披露财务报告的行为,故分为一类也是合理的。华塑控股是一家制造业企业,被指控在2011年进行了年报披露造假,在之后的年份里并未发现造假行为,说明在之后的几年内企业的财务状况比较良好。第三类华创阳安在2014年-2018年间的财务状况表现正常,并未有虚假披露的状况出现,故自成一类。最四类是青海春天,该公司在2011年-2012年有虚假披露的行为,与其他类别表现也不同。从聚类结果来看,39家公司的不同财务状况导致的虚假披露行为得到了比较合理的划分。
五、总结
本文采用的聚类分析方法对多指标面板数据的聚类分析具有一定的参考意义。该方法提供了多指标面板数据的降维方法,使问题更加简化,通过主成分分析降维后,面板数据就可简要地转化为截面数据的分析。利用此方法对2014年-2018年的39家公司的财务数据进行了实证研究,结果表明该方法得到的聚类结果有一定的合理性,对信息使用者有一定的参考价值。
参考文献:
[1]郑兵云.多指标面板数据的聚类分析及其应用[J].数理统计与管理.2008.(27):265-270.
[2]王双英,王群伟,曹泽.多指标面板数据聚类方法及应用-以行业一次能源消费面板数据为例[J].数理统计与管理.2014.(33):42-49.
[3]任娟.多指标面板数据融合聚类分析[J].数理统计与管理.2013.(32):57-67.
[4]董锋,谭清美,周德.多指标面板数据下的企业R&D能力因子分析[J].研究与发展管理.2009(21.):50-56.
[5]王澤东,邓光明.基于趋势距离的面板数据聚类方法探讨[J].统计与决策.2019(08):34-38.
[6]吴利丰,刘思峰.基于灰色凸关联度的面板数据聚类方法及应用.[J].控制与决策.2013(28):1033-1045.
作者简介:吕晨(1995- ),女,汉族,安徽宣城人,安徽大学经济学院,2018级研究生,应用统计专业