基于主成分分析和支持向量机的影视业盈利能力预测

2019-12-23 07:24朱立云刘媛华
计算机时代 2019年12期
关键词:支持向量机主成分分析

朱立云 刘媛华

摘  要: 盈利能力也称获利能力,是指企业在一定时期内获取利润的能力。利润率越高,盈利能力就越强。针对中国影视业上市公司样本规模较小,常规的预测方法难以奏效,文章尝试运用支持向量机来预测其盈利能力。首先从不同的角度选择盈利能力单项指标,以此为基础构建反映公司盈利能力的集成指标,再运用2007—2017中国A股影视业上市公司的数据,构建基于支持向量机的盈利能力预测模型,最后对影视公司的盈利能力进行预测。研究结果显示,经过训练的支持向量机模型能比较成功地预测样本公司的盈利能力,2009-2018的预测准确率均超过80%。

关键词: 影视业上市公司; 盈利能力预测; 主成分分析; 支持向量机

中图分类号:F222.1          文献标志码:A     文章编号:1006-8228(2019)12-33-05

Enterprise profitability forecast based on PCA and SVM

Zhu Liyun, Liu Yuanhua

(University of Shanghai for Science and Technology, Shanghai 200093, China)

Abstract: Profitability, also known as earnings-generating capacity, refers to the ability of an enterprise to make a profit in a certain period of time. The higher the profit rate, the stronger the profitability. In view of the small sample size of listed companies in China's film and television industry, and the conventional forecasting methods are difficult to work, this paper tries to use support vector machine to predict their profitability. Firstly, select the profitability single indicator from different angles, build the integration index reflecting the company's profitability based on this, and then use the data of 2007-2017 China A-share film and television listed company to build a profitability prediction model based on support vector machine. The profitability prediction model finally predicts the profitability of the film and television company. The research results show that the trained support vector machine model can successfully predict the profitability of sample companies, and the prediction accuracy of 2009-2018 is more than 80%.

Key words: listed companies in the film and television industry; profitability prediction; analysis of main components; support vector machine

0 引言

盈利能力预测属于模式识别范畴。目前常用的模式识别方法包括数据挖掘、人工神经网络和支持向量机[1]。数据挖掘一般是指通过分析每个数据,从大量数据中寻找其规律的技术[2],对数据量有较高的要求。人工神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型[3],在样本量充足的情况下,该模型识别效果较好。但它容易陷入局部最优的困境。支持向量机是以一种基于统计学习理论和结构风险最小原理的模式识别方法,在解决小样本模式识别问题上表现出很多特有的优势,并且通过核函数可以解决神经网络局部最优的问题。

中国影视业上市公司的数量较少,只有25家,难以满足数据挖掘和人工神经网络大样本的要求。相比而言,支持向量机主要是针对小样本进行模式识别,便更适合。目前支持向量機方法主要应用于投资风险评价和企业信用评价等评价领域[4]。本文首次将其应用于企业盈利能力预测,既扩展了支持向量机的应用范围,同时也是对盈利能力分析的一种全新尝试。要想比较准确的预测盈利能力,选择合适的反映盈利能力的指标是很关键的。目前会计上常用的盈利能力指标包括“资产收益率([X1])”、“净资产收益率([X2])”、“成本费用利用率([X3])”、“主营业务利润率([X4])”、“每股收益([X5])”[5-6]等。上述五个指标也从五个不同的角度反映了企业的盈利能力。然而不同角度的指标在同一时期内往往呈现不同的趋势[7],仅凭单个指标是很难客观的评价企业的盈利能力的。因此,本文将采用主成分分析法构建一个盈利能力的集成指标,以期解决单个指标相互冲突的问题。由此,本文以中国影视业的上市公司为样本,首先基于既有研究选择反映盈利能力的单项指标,并采用主成分分析法创建集成指标;其次建立盈利能力预测的支持向量机模型;最后选取部分影视业上市公司为训练样本,采用支持向量机模型对样本进行盈利能力预测训练,并得出结论。

1 盈利能力指标的分析与构建

1.1 数据来源

本文根据国泰安数据库中国证监会制订的《上市公司行业分类指引》,选择2007—2017年中国A股的影视业上市公司为样本,共计25家,公司股票代码均可查询。

1.2 盈利能力单项指标选择

在既有研究的基础上,本文分别从资产利用效率、股东权益、费用控制、主营业务收益能力、股票投资回报这5个角度选择反映上市公司盈利能力的单项指标,即[X1到X5]。选择2007—2017年中国A股的影视业上市公司为样本,对其盈利能力单项指标进行统计分析,得出均值,并将结果导入matlab,画出各指标的折线图,结果见图1-图5。

分析图1-图5,可以清楚地看出以下几点:

⑴ 主营业务利润率在2010年跌成负值,又返回到最高点,说明企业在主营业务竞争力和产品定价上面都做了很大的调整;

⑵ 从2007-2017年,影视业的盈利能力起伏很大,尤其是衡量盈利能力最重要的两个指标,资产收益率和净资产收益率,在2011年到达一个较高的点后,一直降低,说明影视业整个行业的盈利能力在下降;

⑶ 成本费用率和每股收益虽然有很大的起伏,但是总体上是上升的,这说明盈利能力在增强;

由此可见,当从不同角度分析影视业上市公司的盈利能力时,不同的单项指标表现出不同的变化趋势,有时候甚至会得出自相矛盾的结论,很难凭借单个指标对盈利能力做出总体判断。因此,构建一个集成指标是很有必要的。

1.3 盈利能力集成指标的构建

由于不同原始指标变量具有不同的量纲,数据之间缺乏可比性,直接比较没有意义,也会得出错误的结论。因此,在利用主成分分析法构建集成指标时,首先须对单项指标进行标准化处理。具体做法是:先计算因子的特征值及其方差贡献率;再根据方差贡献率确定主成分因子;然后根据成分矩阵和特征值计算特征向量,并结合标准化的单项指标数据确定主成分因子;最后将方差贡献率作为系数对主成分因子进行线性组合,得到集成指标P。本文结合中国A股影视业上市公司2007—2017年的数据(共275个样本。利用SPSS软件对数据进行标准化处理,利用处理后的数据进行因子分析,得到包含原始指标所有信息的因子[Yi](i=1,2,…,5)。各个因子的特征值和方差贡献率,如表1所示,因子对应的成分矩阵如表2所示。

由表1可知,前三个因子[Y1]、[Y2]和[Y3]的累积方差贡献率达到 89.787%,可以将其作为主成分因子。结合表2的成分矩阵,选取[Y1]、[Y2]和[Y3]的成分向量,利用公式⑴计算主成分特征向量。

其中,[Y*i]表示第i个主成分的特征向量(i=1, 2, 3);[Yi]是第i个主成分的成分向量(见表2);[][i]为第i个主成分的特征值(见表1)。按照公式⑴可计算出主成分[Y1]、[Y2]和[Y3]的特征向量,如表3所示。

以表3的主成分特征向量为系数,可将每个主成分表达为标准化指标的线性函数,见式⑵-式⑷:

其中,ZX表示经过标准化的单项指标数据。

以表1的方差贡献率为系数,建立[Y1]、[Y2]和[Y3]与P的线性表达式如下:

再结合公司2007-2017年的数据,便可计算出各年度影视业上市公司综合盈利能力指标均值,结果如下:

2007-2017年分别为-0.27、-0.41、-0.12、0.43、 0.32、0.27、0.15、0.04、0.27、0.30、0.42。

从上述结果可以看出2007-2009年公司总体盈利能力较差,而 2010—2017 年总体盈利能力较好。从2010-2013年,p均值一直在下降,说明这几年影视业盈利能力下降,而从2014年开始,盈利能力起伏很大,说明该行业虽然盈利能力比之前增强了,但还不是很稳定,管理层需要多多关注盈利的稳定性。

2 构建支持向量机模型

前面两部分已经计算出了各年度影视业盈利能力综合指标P,这部分的任务是构造基于支持向量機模型来预测盈利能力。

基本思路

第一步,选择适当的核函数和参数构建支持向量机。前面提到,核函数是支持向量机的重要组成部分,可以解决人工神经网络局部最优的问题。常用的核函数包括四种:线性核函数、多项式核函数、Sigmoid核函数和径向基核函数(RBF)。目前大部分学者推荐使用RBF[8]。RBF模型包括两个重要的参数,惩罚参数C和核参数γ。参数的选择是很重要的,因为参数选择不当将会严重影响最终的分类超平面。由于这两个参数没有什么规律可循,为了正确选择参数,学者们常使用网格与交叉验证方法。本文利用 LIBSVM软件包完成支持向量机的参数选择工作[11];

第二步,建立训练样本对支持向量机进行预测训练。具体操作是:以影视业上市公司第t年和t+1年的数据作为训练样本。将样本公司第t年的5个盈利能力单项指标作为支持向量机模型的输入量;并对第t+1年的盈利能力进行划分。盈利能力集成指标P大于0的划分为+1,盈利能力集成指标P小于0的划分为-1,以+1和-1作为模型的输出量,形成支持向量机预测模型的基本框架。再借助MATLAB统计软件和 LIBSVM 软件包对样本进行训练;

第三步,用前两步训练好的模型来预测盈利能力。即将样本公司第t+1年的5个盈利能力单项指标输入训练好的预测模型,根据输出量预测其t+2年的综合盈利能力。

3 影视业上市公司盈利能力预测

3.1 建立训练样本

本文利用相邻两年的数据建立训练样本对支持向量机进行训练,将经过训练的模型用来做下一年度盈利能力的预测。即2007-2017年的11年间,可建立10个训练组,利用这些训练组对模型进行训练,可依次预测中国影视业上市公司2009-2018年盈利能力。例如:2007年和2008年中国A股影视业上市公司都只有6家。便以2007年的6家公司为训练样本,将其按照A1-A6编号。再将2007年的5个单项盈利能力指标作为输入向量,拟合2008年的综合盈能力状况,分别输出+1和-1。训练样本的原始数据和训练结果如表4所示。

由表4可知,在2007年6个训练样本中,盈利能力较差(集成指标P大于0)的公司只有1家,盈利能力较差(集成指标P小于0)的公司有5家;而训练的结果是6个样本的模拟结果均为-1,即模型正确地判断出了5家公司的盈利能力,说明支持向量机能对83.3%的训练样本进行正确分类。

表4是第一组训练样本的结果。类似的,可建立其余九组训练样本。

3.2  预测盈利能力

本文使用2007年和2008年的数据,预测样本公司2009年的盈利能力。操作流程是将样本公司2008年的5个单项盈利能力指标作为输入向量,利用训练好的支持向量机模型预测2009年的综合盈利能力,原始数据和预测结果如表5所示。

表5中,P大于0的有1家,小于0的有5家,说明盈利能力较好的只有一家,盈利能力较差的有5家。支持向量机模型预测出6家公司的盈利能力都较差,准确率达到了83.3%。

同理,可以预测出2010年到2018年的盈利能力,支持向量机预测准确率如下:

2010-2018年分别为86.7%、88.2%、84.3%、 90.1%、92.3%、89.9%、91.2%、85.6%、87.4%。

上述结果表明2009-2018年支持向量机模型预测准确率都高于了80%,说明该模型能比较成功地预测上市公司的盈利能力。

4 总结

由于影视业上市公司数量较少,不满足神经网络大样本的要求,本篇论文创新地运用支持向量机来预测盈利能力。论文的总体框架是:先从资产利用效率、股东权益、费用控制、主营业务收益能力、股票投资回报这五个角度选择反映上市公司盈利能力的单项指标,即资产收益率、净资产收益率、成本费用利润率、主营业务利润率、每股收益,使用SPASS软件构造集成指标P。再根据2007-2017年的数据,建立基于支持向量机的盈利能力预测模型,并借助MATLABA对模型进行训练。最后利用相邻两年的盈利能力预测样本公司下一年的综合盈利能力。结果表明,经过训练的支持向量机模型准确率都超过80%,能较为成功的预测样本公司的盈利能力,因此会计人员在具体实务中,可以尝试运用该模型,从而降低工作量,节省时间。

参考文献(References):

[1] PengX.TPMSVM:ANovel Twin Parametric - Margin SupportVector Machinefor Pattern Recognition[J].Pattern Recognition,2011,44(10).

[2] 穆瑞辉,付欢.数据挖掘概念与技术[M].数据挖掘:概念与技术,2005.

[3] 范高锋,王伟胜,刘纯,等.基于人工神经网络的风电功率预测[J].中国电机工程学报,2008.28(34):118-123

[4] Chen J,JiangF,Huang Z,etal.Performance Evaluation for GEM Listed Companies Based on Support Vector Machine[J].International Journal of Applied Mathematics and Statistics,2013.45(15).

[5] Hoque Z.Measuring Divisional Performance in the Short-Run[J].Handbook of Cost & Management Accounting, 2012.

[6] Yasser Q R.Corporate Governance and Performance (ACase Study for Pakistani Communication Sector)[J].International Journal of Trade, Economics and Finance,2011.2(3).

[7] 張红,林荫,刘平.基于主成分分析的房地产上市公司盈利能力分析与预测[J].清华大学学报(自然科学版),2010.3.

[8] HuangG B,Saratchandran P,Sundararajan N.A generalized growing and pruning RBF (GGAP-RBF) neural network forfunction approximation[J].IEEE Transactions on Neural Networks,2005.16(1):57-67

猜你喜欢
支持向量机主成分分析
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
基于熵技术的公共事业费最优组合预测
SPSS在环境地球化学中的应用
基于支持向量机的金融数据分析研究