王 哲,郭 强,刘建国 WANG Zhe, GUO Qiang, LIU Jianguo
(1. 上海理工大学 复杂系统科学研究中心,上海200093;2. 上海财经大学 会计与财务研究院,上海200433)
(1. Research Center for Complex Systems Science, University of Shanghai for Science & Technology, Shanghai 200093, China;2. Institute of Accounting and Finance, Shanghai University of Finance and Economics, Shanghai 200433, China)
物流活动是人类最基本的社会经济活动之一,物流业是兴起较晚但发展相当快的一个产业,对世界各国特别是发达国家的国民经济增长发挥着重要的支持和带动作用。据统计,发达国家像法国1996 年物流产值高达15 840 亿法郎,德国物流产值高达1 580 亿马克,日本1995 年物流产值高达314 690 亿日元,而且与日俱增[1],世界范围内,不仅发达国家物流业的发展尤为迅猛,发展中国家也在逐步的进步。我国虽然物流行业起步较晚,但是人口众多、土地幅员辽阔,市场潜力巨大,特别是在电商迅猛发展的刺激下,我国物流业实现了跨越式发展[2]。物流给人们的生活带来的改变也越来越显著,无论是网购已经成为人们日常生活消费的一部分;还是国际贸易、大宗商品的交易越来越便捷都能清晰的表现出来。当下,无论是科技革命的发展还是最近的疫情应对中,物流都在其中扮演着重要的角色,这些足以说明物流将会成为未来拉动我国经济增长的重要助力。正因为物流业的重要性越来越显著,对物流行业的分析也越来越多,研究的目光大多集中在成功的上市公司上。本文以研究上市公司会计报表为基础,先选出了报表中基本的12 个指标,随后利用随机森林的方法进行指标的筛选,选出了覆盖80%以上信息的6 个指标,接着根据Pearson 相关系数选择了符合筛选原则的阈值来构造公司间的网络,最后根据网络中心性指标从中筛选出重要的上市公司,再进行深度剖析。
本文通过Wind 对物流企业的会计报表进行处理,得到了12 个指标,随后用随机森林进行指标的特征重要性评价。随机森林是一种组合分类器,最基本的是决策树[3]。本文在决策树的生成过程中,节点分裂遵循的原则为最大程度降低该节点的不纯度,达到局部最优化。目前大多数的分裂方法有ID3、C4.5 和CART。ID3 算法指的是信息增益;C4.5 算法指的是信息增益率;CART 算法指的是Gini系数[4]。ID3 和C4.5 对选择的节点可分裂成多个子节点,但是不支持特征的组合,只能用于分类问题;然而CART 对每个节点只会分裂成两个子节点,所以支持特征的组合,可用于分类和回归问题。本文进行的是特征的重要性排序,即组合,因此本文采用CART 分裂算法。Gini系数是指一个随机样本被分错的概率,则其公式如下:
其中:pk表示选中样本属于k类别的概率,则不属于k类别的概率便是1-pk。CART 的分类规则是选用Gini系数较小的属性作为分类属性。
本文基于特征重要性对12 个指标进行筛选,并选择出了涵盖80%以上信息的6 个指标。
Pearson 相关系数是衡量向量相似度的一种方法,即两个变量之间的协方差和标准差的商,其在比较变量相似度方面应用较广。本文采用Pearson 相关系数度量不同公司的相关性,输出范围为-1 到+1,0 代表无相关性,负值为负相关,正值为正相关,其公式如下:
由于一篮子指数内的公司同属于物流行业,故其相似程度较高,直接判断区分度不大,所以在这里需要设置阈值,阈值的设立本文遵循使其网络中拓扑结构稳定,并且可以很好地反应股票网络的内在性质[5],这样能清晰的看出它们之间的区别,紧接着根据相关系数构造临边,就可以进一步生成公司间的网络[6-7]。
复杂网络中节点重要性的评价方法源于图论和网络分析理论,网络的分析主要通过各种中心性指标来进行度量。中心性指标由Bavelas 在1948 年首次提出,之后Freeman 在1979 年设计了最为经典的3 种中心性:度中心性、中介中心性和邻近中心性[8]。
本文选择了度中心性作为评价指标,度是指在网络中一个节点其直接联系的节点的个数,而度中心性是在网络科学中分析节点中心性时最直接的一个度量指标。其表达为,一个节点的节点度越大就意味着这个节点的度中心性越高,那么此时该节点在网络中就显得越重要。一个包含N个节点的网络中,节点最大可能的度值为N-1,通常为了便于比较而对中心性指标作归一化处理[9],度数为ki的i节点的归一化度中心性定义为:
本文用的数据是中证指数下的沪港深通物流指数在2015 到2019 年的年报。选择沪港深通物流指数,因为其指数内涵盖的中国物流上市公司最为全面,并且是由中证指数有限公司所开发,具有一定权威性。而年报是反映公司一年内运营状况的重要来源,也是国家要求披露并受监督的文件,其价值巨大。本文将报表中的数据进行整理,选出了“每股收益(元)”,“每股净资产(元)”,“销售毛利率(%)”,“销售净利率(%)”,“净资产收益率(%)”,“主营业务收入增长率(%)”,“净利润增长率(%)”,“应收账款周转率(次)”,“存货周转率(次)”,“流动比率(倍)”,“速动比率(倍)”,“资产负债率(%)”组成本文的特征数据,极少数的缺失数据设为零,涨跌情况是用0、1 表示,涨跌时间段是年报所反映的时间段,具体如表1所示。
表1 数据介绍
本文将经过处理的沪港深通物流指数2015 到2019 年的年报数据用随机森林进行特征筛选,输出特征重要性,结果如图1所示。
图1 2015 到2019 年指数数据的特征重要性输出图
本文选出的六个指标为:2015 年:主营业务收入增长率,应收账款周转率,存货周转率,流动比率,速动比率,资产负债率;2016 年:每股净资产,销售净利率,净资产收益率,流动比率,速动比率,资产负债率;2017 年:每股收益,每股净资产,净资产收益率,主营业务收入增长率,存货周转率,速动比率;2018 年:每股收益,销售净利率,净资产收益率,应收账款周转率,存货周转率,流动比率;2019 年:每股净资产,净资产收益率,主营业务收入增长率,应收账款周转率,存货周转率,流动比率。每年选出的6 个特征均涵盖了80%以上的信息。
然后,本文又用Pearson 系数对筛选出的数据进行矩阵化,得到了Pearson 相关系数矩阵。根据阈值筛选原则,本文得到阈值0.9,得出2015 到2019 年输出图,2015 年结果如图2 所示。
从图中得到在2015 年物流行业有较大影响力的公司为中远海发、中远海控、中远海运港口、北部湾港、光汇石油、日照港。
2016 到2019 年得到的有影响力的公司分别为:2016:中远海能、东方海外国际、嘉里物流、中远海特、中信海直;2017:中远海控、深圳华强、淮河能源、小商品城、铁龙物流;2018:中远海控、海丰国际、东方海外国际、韵达控股、顺丰控股;2019 年:宁波港、北部港湾、白云机场、天津港发展、顺丰控股。从中不难发现从2016 年和2017 年只有嘉里物流一个民营企业,到2018 年和2019 年顺丰控股、韵达控股的崭露头角,物流行业的重要企业呈现出日新月异的变化和发展,随着物流行业整体的大发展和民营企业的不断进步,物流行业整体上发展还是较为乐观。
本文研究了2015 到2019 年的沪港深通指数内上市公司的会计报表的数据信息,认为每个阶段所发布的会计报表其所反映的上市公司的信息与当下其股价波动是有关联的,进而能反映出上市公司在行业内的影响力,所以本文对报表进行分析进而研究。首先,通过Wind 数据库对报表进行预处理,从报表中整理出了基本的12 个指标数据,其次运用了随机森林的方法,以报表时间内的涨跌情况为结果,输出涵盖信息80%以上的6 个指标,基于Pearson 相关系数结合阈值0.9 进行矩阵化,并生成网络图,然后利用网络科学的知识进行节点重要性分析,进而得到重要节点。从结果中不难发现,我国物流上市公司的重要节点分布从2015 年的纯国企到近两年像顺丰控股和韵达控股这样优秀私企的出现[10],说明我国物流行业的发展越来越多元化,私企的声音也越来越大。
本文提出的基于会计报表和网络中心性的对物流行业的研究,一方面拓宽了对物流行业研究的视角;另一方面也结合了机器学习、会计知识和网络中心性分析契合当下的多学科结合发展的热潮。当然,本文的研究也有不足:首先,本文对网络中心性分析存在欠缺,完全可以考虑多个指标;其次,对选出的物流企业完全可以再进行更深度的剖析,这也是接下来要进行的工作。
图2 2015 年结果输出图