郝瑞 张悦
【摘要】在股票投资市场不断发展的今天,由于各种限制因素,可供广大投资者选择的价值投资方式都存在不同程度上的缺陷。本文选择沪深300指数成分股作为样本,运用SPSS软件因子分析与聚类分析的方法将样本股票排名、分组,对排名高低与各个分组的股票进行了特征分析,以此探索出了一种新的股票基本面分析方法,可以在较低维度综合考虑若干股票分析指标,并把股票分类,适应不同偏好的广大投资者的投资需求。
【关键词】因子分析 聚类分析 股票分析方法
一、引言
随着中国金融市场的发展,股票投资在中国早已成为了广大投资者投资组合的重要组成部分。但是,散户投资者由于信息成本等原因大多更多的侧重于技术分析,一定程度上忽视了基本面分析;其次,西方现代股票定价理论如CAPM、Fama-French三因子模型、APT理论、MM理论,甚至DCF现金流贴现法都存在着各自不容忽视的不足,以及欠缺在实践中的可行性;再次,国内机构投资者的选股理论存在较高运行成本或初始投资要求,散户投资者难以采用;国内目前实际中广泛采用的价值投资方法为主观赋权法,但此方法需要考虑的财务指标与财务数据很多,人为给定的权数客观性较弱会影响模型的准确性,也不适合散户投资者运用。基于以上的原因,提供出一个适用于新时代背景下证券投资市场的证券分析方法具有充足的必要性。
本文将分析样本定为沪深300指数成分股,运用资产总计、产权比率、每股收益等十个指标进行因子分析,将原有十个指标降维成三个公共因子,然后基于降维后的数据,采用聚类分析的方法对样本股票进行分类处理,得到具有不同特征的股票分类,最后构造出一个在更低维度下综合考虑多项价值分析指标的适用于具有不同偏好的投资者的股票分析方法。
二、数据来源与处理
本文的研究样本为沪深300指数的三百只成分股,数据来源为Wind数据库中相应股票2013财年年度业绩报告数据,原始数据矩阵从略。为了数据的可参考性,对样本中的唯一一只ST股票“*ST大荒”进行了剔除。原因为该股票的利润总额与净利润两项指标均为负,且都是非常大的异常值,会对因子分析的结果产生显著的负面影响。
本文初始使用的十个股票基本面分析指标如下:
表1 因子分析模型指标
三、多变量方法
根据何晓群[1],因子分析主要用于对指标降维,聚类分析主要用于对样品分类。本文利用因子分析和聚类分析来构建股票分析方法。下面对这两种多变量统计分析方法作简要介绍。
(一)因子分析
因子分析模型是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,单科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量数目,还可检验变量间具有某种潜在关系的假设。
设原有p个变量,…,且每个变量(或经标准化处理)的均值为0,标准差均为1。现将每个原有变量用m(m
X
=a
F
+a
F+…
+a
F+
ε
X
=a
F
+a
F+…
+a
F+ε
……………………………………
X
=a
F
+a
F+…
+a
F+
ε
也可用矩陣形式表示为:
X=AF+ε
其中:
A=
F称为X的公共因子,矩阵A中的元素称为因子载荷,的绝对值大,表明与的相依程度越大,或称公共因子对于的载荷量越大,ε称为特殊因子,表示了原有变量不能被因子解释的部分。
因子分析模型的建立步骤大致为:
第一,建立指标体系,构成原始矩阵Z,在保证全部指标同向化的基础上对样本数据进行标准化处理,公式如下:
Z=(i=1,2,...,p;j=1,2,...,n)
=X,S=(X-)(i=1,2,...,p;j=1,2,...,n)
得到标准化矩阵,计算变量的简单相关系数矩阵R。
第二,解特征方程|R-λE|=0,计算相关矩阵的特征值λ,若
λ1≥λ2≥…λp,以λp≥1为标准确定公共因子个数P。
第三,计算初始因子载荷矩阵和公共因子方差,用正交或斜交旋转的方法求得正交或斜交因子载荷矩阵;根据正交或斜交因子载荷矩阵相关系数绝对值,确定并命名公共因子。
最后,计算公共因子得分和综合得分。在最小二乘法的意义下,可以得到F的估计值:
=A'R-1X
式中,A为因子载荷矩阵,R为原始变量的相关阵,S为原始变量向量。
根据各因子的方差贡献率占p个因子总方差贡献率的比重作为权重进行加权汇总,得出各样本的综合得分。
(二)聚类分析
聚类分析是一种多元统计方法,它将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。
我们认为,所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类。
聚类方法主要有系统聚类法和K-均值法,K-均值法主要应用于比系统聚类法大得多的数据组。由于要对299只股票进行分类,本文的实证分析使用了K-均值法。
K-均值法的思想是把每个样品聚集到其最近形心(均值)类中去。这个过程由下列三步所组成:首先,把样品粗略分成K个初始类;然后进行修改,逐个分派样品到其最近均值的类中去(通常用标准化数据或非标准化数据计算欧氏距离)。重新计算接受新样品的类和失去样品的类的形心(均值);重复第2步,直到各类无元素进出。
四、实证分析
股票投资中的基本面分析的共同缺点为同时需要考虑的指标过多且数据非常庞杂,不适合普通投资者使用,所以本文首先运用因子分析的方法对初始选定的十个指标进行降维处理,缩减为三个指标,在每个指标下对样本中的299只股票给出得分并构造分别的排名与综合排名。最后,运用快速聚类的方法对样本中的股票进行分类处理,使本文所构建的股票分析方法适用于具有不同投资偏好的投资者。
(一)因子分析
1.数据预处理。首先,本文所选指标并非所有都为正向指标,根据范坤等[2]提供的方法,我们对逆向指标和适中指标进行正向化处理。指标产权比率是逆向指标,它是负债总额与所有者权益总额的比率,产权比率高,是高风险、高报酬的财务结构;产权比率低,是低风险、低报酬的财务结构,因之,我们将该指标下所有数据取负。指标资产负债率是一种适中指标,它是企业负债总额在资产总额的占比,公认的适宜水平为40%~60%。我们设定50%作为阈值,将数据与50%的差的绝对值取负。
其次,由于本文选取的各指标数值大小存在较大差异,单位不尽相同,需要对各指标进行标准化处理。标准化后的数据矩阵如表2,从中可以看出,十个指标变量中大部分变量之间存在高度相关,故适合进行因子分析。
表2 标准化后的数据矩阵
2.确定公共因子个数并进行因子旋转。从样本相关矩阵出发进行因子分析,计算得出特征值和特征向量,选出三个特征值大于1的公共因子并对因子进行方差最大正交旋转后进行分析,输出结果如表3和表4所示:
表3 因子提取及总方差贡献率
表4 旋转后因子载荷阵
在表3中可以看到因子模型具有三个公因子如第一、二、三行所示,累计总方差贡献率达到了83.55%,代表着因子分析模型在保持可以解释83.55%的总方差的同时达到了降维的效果。
表4中的二、三、四列分别是三个特征值所对应的特征向量。可以看到表中的前六个指标:利润总额、净利润、总股本、资产总计、主营业务利润,以及主营业务收入在第一公因子1上都具有大的正载荷,可以成为公司规模因子;第七、八个指标:资产负债率与产权比率在第二公因子2上均有大的正载荷,可以成为公司偿债能力因子;第九、十指标:每股收益和净资产收益率在第三公因子3上为大的正载荷,则可以解释为公司盈利能力因子。
3.因子得分。基于以上分析,采用回归最小二乘法则可以得出旋转后因子得分矩阵,如表5所示:
表5 旋转后因子得分矩阵
基于表5就可得出因子得分方程:
1=0.207zscore(利润总额)+0.205zscore(净利润)+0.218zscore(总股本)+0.512zscore(资产总计)+0.180zscore(主营业务利润)+ 0.221zscore(主营业务收入)
-0.022zscore(每股收益)-0.005zscore(净资产收益率)+ 0.081zscore(产权比率)+0.158zscore(資产负债率)
2=0.038zscore(利润总额)+0.031zscore(净利润)+0.061zscore(总股本)+0.098zscore(资产总计)+0.014zscore(主营业务利润)+ 0.284zscore(主营业务收入)
-0.049zscore(每股收益)-0.050zscore(净资产收益率)+ 0.510zscore(产权比率)+0.590zscore(资产负债率)
3=0.014zscore(利润总额)+0.010zscore(净利润)+0.046zscore(总股本)+0.039zscore(资产总计)+0.003zscore(主营业务利润)+ 0.037zscore(主营业务收入)
-0.568zscore(每股收益)-0.556zscore(净资产收益率)+ 0.062zscore(产权比率)+0.011zscore(资产负债率)
将原始变量下标准化之后的数据代入上述方程就可以计算出每一只股票的各个因子的评价得分,然后以各因子方差贡献率占三个因子总方差贡献率比重作为权重进行加权汇总,得出每只股票的综合得分,即:
F=(48.537F1+18.79F2+16.217F3)、83.549
最后根据综合得分就可以得到299家上市公司的综合得分排名,为从简,该表列示了前后十名的股票:
表6 三因子综合得分排名
4.结果分析。从SPSS软件输出结果来看,三个因子和综合得分的取值范围为:-0.817≤1≤8.861,-3.047≤2≤0.585,-0.412≤2≤0.536,-1.092≤综合得分≤4.710。第一因子1越大表明上市公司的规模越大,反之越小;第二因子2越大表示上市公司的偿债能力越强,反之越弱;第三因子3越大说明上市公司的盈利能力越好,反之越差。
在因子一,规模因子的排名中,国有四大行工商银行、农业银行、中国银行、建设银行,及中石油、中石化包揽了前六名,同时这六家上市公司也是综合排名的前六名。影响综合排名的主要因素还是因子一,即使由于因子一的权重较大,但究其根本,还是由于上市公司的规模大小起到了决定性作用。考虑到我国股票市场现实,规模较大的公司拥有天然的较强的风险承受力与抵御力,也拥有较低的融资成本与充足的消费者资源储备,比较适合风险厌恶程度比较高的投资者,当整个市场下挫的时候这一类公司仍然有能力使其股价保持稳定。
在因子二,偿债能力的排名中,由于资产负债率与产权比率较高,包括四大行在内的商业银行的排名均较为靠后。排名靠前的股票是中石油、中石化、上汽集团之类的大型上市公司,而且这些公司大多有一个共同的特点:规模大、盈利能力中等,综合排名靠前。根据曹裕等[3]提到的生命周期理论,这些公司均处于成熟期,与别的发展初期的企业相比,由于规模较大,得出在盈利能力方面不占优势的结论也属合理。投资这一类股票面临的金融风险较小,但由于盈利能力处于一般水平,短期之内股票价格可能不会产生较大增长。综合来讲,这类股票比较适合注重长期增长的风险厌恶的投资者。
在因子三,盈利能力排名中可以看出盈利能力好的股票在规模与偿债能力上不一定有较大优势,但在综合排名中大多处于较为靠前的位置,这说明盈利能力也是对股票综合排名贡献较大的一类指标。这类股票在短期之内股价可能会有较快较高的增长,但持续时间会比较短,适合偏好流动性,投资周期比较短的投资者。
(二)K-均值法聚类分析
我们需要在样本中的299只股票中将具有相同、相近性质的股票聚合为一个类。由于在因子分析中已经对样本数据进行了处理,且将分析指标浓缩为了三个维度,我们就可以直接利用三个公共因子对股票进行聚类分析。
1.第一次聚类分析。首先,运用SPSS软件将样本分为四个类别,各个分组中的股票数量如表7所示:
表7 分组情况
其中,第一组的成员为贵州茅台,第二组的成员为工商银行、中国银行、农业银行,以及建设银行,第三组为中国石油与中国石化,第四组为其他所有292只股票。最后的各分类重心如表8所示:
表8 最后各分类重心
第一组的贵州茅台在规模与偿债能力上均表现一般,但突出的盈利能力使其单成一组;第二组的成員国有四大行在规模因子的得分远远超过其他股票,但偿债能力较差,盈利水平一般;第三组中石油与中石化在规模上相比第一组稍差,但在偿债能力上非常突出。
由于将分组定为四个,其中第四组尚有292只股票,实际并没有达到聚类分析的目的,所以基于此种情况,我们对第四组股票样本进行了第二次快速聚类分析。
2.第二次聚类分析。将分类数定为3,第一次聚类中的第四组的292只股票的聚类情况如下:
表9 分组情况
表10 最后各分类重心
如表9、10所示,第一类股票有27只,包括平安银行、招商银行、华夏银行等,特点为规模较大,盈利能力稍强,偿债能力处于一般水平;第二类股票有86只,包括美的集团、东阿阿胶、云南白药等,特点为规模较小,偿债能力与盈利能力均优秀;第三类股票有179只,包括比亚迪、三一重工、长江电力等,较前两类而言规模最小,偿债能力较好,盈利能力较弱。
3.结果分析。综上,将第二次聚类结果中的三类股票作为综合的第四、五、六类股票,给出两次聚类分析得到的六类股票的横向比较,如下表所示:
表11 两次聚类分析最后各分类重心
最终,根据因子分析以及两步聚类分析的结果,我们可以得出如下结论:
第一类股票是贵州茅台。在样本中,相比其他股票,规模较小,偿债能力处于一般水平,但其盈利能力非常突出,适合偏好流动性以及短线投资的投资者。
第二类股票是国有四大行:工商银行、农业银行、中国银行,以及建设银行。在规模上与其他股票相比绝对领先,但在偿债能力与盈利能力上表现都不突出。适合风险厌恶程度较高的股票投资者进行投资。
第三类股票是中国石油与中国石化,在规模上与第二类相比稍差,但在样本中也处于领先的位置,在偿债能力上非常优秀,盈利能力一般。这两只股票短期内可能不会在股市上有很优秀的表现,但由于其出色的偿债能力以及较大的规模,非常适于风险厌恶且偏好长期投资的投资者。
第四类股票规模一般,偿债能力较差,盈利能力较好。其中主要包括一些规模相对较小的轻资产型商业银行。这类股票在保证了一定增长能力的同时,股价在一段时间内会比较稳定。上行市场中股价不会有太大上涨,同时下挫市场中也不会有太大的下跌,比较适合稳健型的投资者进行投资。
第五类股票规模较小,偿债能力与盈利能力均较为优秀,适于偏好流动性、投资周期较短的投资者进行投资。
第六类股票规模较小,偿债能力处于一般水平,盈利能力较差。因此,此类股票在一定时间内不适宜投资者进行投资。
五、结论
基于SPSS软件的因子分析的方法可以有效地减少分析上市公司股票公开报告时需要考虑的指标数目,而后的聚类分析可以清晰的将具有不同因子特征的上市公司分类,找出与某类投资者投资偏好相符的股票。
本方法的优点在于:第一,可以浓缩上市公司公开的财务指标,用很少的因子代替繁杂的指标种类,使投资者对上市公司有一个简明、清晰的认识;第二,投资者可以清晰的看到每个因子下每只股票的得分排名情况以及综合得分排名情况,便于比较上市公司在经营管理能力等各方面的优劣;第三,投资者可以轻易的找到适宜达到自己投资决策的目标类型的股票来补充自己的投资组合。总之,本文对于不同投资者或投资机构分析股票以及构建投资组合都有一定的参考和指导意义。
参考文献
[1]何晓群.多元统计分析[M].北京:中国人民大学出版社,2012.
[2]范坤,冯长焕.因子分析中指标数据如何正确预处理[J].财会月刊:理论版,2013(003):85-88.
[3]曹裕,陈晓红,王傅强.我国上市公司生命周期划分方法实证比较研究[J].系统管理学报,2010(3):313-322.
作者简介:郝瑞(1992-),男,北京人,对外经贸大学投资学本科在读,研究方向:财务管理;张悦(1993-),女,北京人,对外经贸大学经济与金融本科在读,研究方向:金融经济学。