(贵州大学 数学与统计学院,贵州省博弈决策与控制系统重点实验室,贵阳,550025)
高送转股票是指上市公司高比例送红股或者高比例转赠股票的简称,一般市场送转比例超过0.5(包括0.5)被认为是高送转.高送转本质上是股东权益的内部结构调整,无论是送红股还是转增股票都是将资金转化成股票的形式发放给投资者,对公司的盈利能力没有任何实质性影响,所以也并不会改变公司总市值.一些研究表明,高送转预案公告前后均存在显著的超额收益率[1-5].所以对投资者而言,如果能提前预知上市公司是否高送转,不仅能享受除权前的超额收益,还能从除权后的填权行情中获利.因此能准确预测可能实施高送转的公司对投资者来说有着重大意义.
对于高送转预测问题,许多学者已有了相应的研究.熊义明等(2012)[6]将不同送转理论纳入logistic回归模型.送转理论中包含的变量有股价、股本、每股积累、每股收益、净利润增速、市值账面比、是否次新股、上年是否高送转和低价股9个变量.基于中国市场2006-2010年数据进行样本外预测,其主要方法是以第t年之前的数据为基础估计获得系数,然后结合第t年的自变量数据,计算第t年高送转的概率,并与实际情况对比,最终得到各年份的预测准确率在50%-90%之间.王鹏等(2016)[7]基于logistic回归模型分析影响创业板上市公司进行高送转的因素,研究表明:影响创业板上市公司进行高送转的因素主要是股价与公司总市值.潘明娟等(2016)[8]以2015-2016年上市公司为研究样本,通过运用多项logistic模型实现分档预测以及线性回归来构建相关因子之间的关系,以此制定具体投资策略获得尽可能大的超额收益率.石好等(2016)[9-10]采用logistic回归与主成分分析相结合的方法,构建了年报高送转股票的预测模型,直接选取每股净资产、每股资本公积金、每股未分配利润、每股现金净流量、上市时间、股价和股本7个解释变量代入此预测模型,实证结果显示:预测准确度最高可达80.91%.王凯等(2016)[11]利用上市公司三季度财报数据,采用3种集成学习算法构建预测模型,结果显示,由K-近邻算法、决策树以及加惩罚项的logistic回归算法组成的“组合”模型预测得到的高送转股票组合表现最优.胡宸(2019)[12]运用逻辑回归和支持向量机的集成学习预测上市公司下一年是否高送转以及对投资策略设计做了一些深入的探讨.
上述文献中大多数学者采用logistic回归模型,后来有些学者利用组合模型的方法对高送转进行预测,但是其组合模型是求取各模型算法类别概率的均值,未考虑到各模型的预测正确率的高低.本文数据来源于点宽网络科技有限公司提供的3465家上市公司7年的年数据交易信息.本文在模型的构建中,考虑到各模型的预测正确率的高低,将各单一模型进行线性组合,利用拉格朗日函数求得组合模型中各单一模型的权重,最后基于此组合模型进行预测,提高了预测准确率.本文的结构安排如下:在第2节中,介绍建模的相关理论以及组合预测模型的方法.在第3节中,构建模型并进行实证分析.第4节是结论,对全文进行总结.
随机森林(Random Forest,RF)算法是Breiman在2001年提出的一种集成算法,它利用bootstrap自助抽样方法,采用决策树和bagging的结合模式,在以多棵决策树并行的基础上结合成为一个强学习器.该算法在对有众多特征变量的数据处理时可以用来筛选出重要变量,进而再进行后面的一系列建模分析.在本文数据集中,正类数据约占15%,负类数据约占85%,对于不平衡的数据集来说,随机森林算法可以平衡误差.
Lasso(Least absolute shrinkage and selection operator)方法是以缩小变量集(降阶)为思想的压缩估计方法,它通过构造一个惩罚函数,将变量的系数进行压缩并使某些回归系数变为0,进而达到变量选择的目的.
逻辑(Logistic)回归模型是一种广义线性模型,适用于处理结果变量为二值型变量或分类变量的回归问题,即结果变量Y可以取0或1(其中Y=1表示事件发生,Y=0表示事件不发生),其条件概率分布如下:
其中g(x)=β0+β1x1+β2x2+…+βpxp.
决策树算法是一种逼近离散函数值的方法.它是一种典型的分类方法,本质上决策树是通过一系列规则对数据进行分类的过程.决策树构造可以分两步进行:(1)决策树的生成:由训练样本集生成决策树的过程;(2)决策树的剪枝:决策树的剪枝是对上一阶段生成的决策树进行检验、预测和修正的过程,主要是用测试数据集中的数据校验决策树生成过程中产生的初步规则,将那些影响预测准确性的分枝剪除.
将多种模型进行组合可以充分发挥各模型的优势,预测出的结果也更加可靠.假设有M个子模型,则其线性组合的数学表达式如下:
为了提高组合模型预测准确率,引入各分类模型的分类准确率作为权重系数的惩罚项.在本文中,M=2,构造的损失函数[16]如下:
(1)
其中,fi,gi分别为logistic回归模型和决策树模型的预测类别概率,λ为拉格朗日乘数,αm为第m个模型对应的权重,wm为各模型分类准确率(m=1,2).
由于函数L(α1,α2)为二次凸函数,故有唯一的极值点,即最优权重,它可利用Python软件求得.
本文中的年数据共计24262个.数据涉及的范围广、量大,且有部分数据缺失.若某只股票或某变量缺失信息太多,则将其舍去,如果缺失值较少,就采用向前填充的方法将缺失值填充为前一个值.由于不同量纲的数据之间的差别可能会很大,所以将数据进行标准化处理.
3.2.1 基于随机森林算法的特征提取
通过预处理阶段对缺失值的处理后,年数据中有未分配利润、净债务、留存收益、资本公积、每股收益、每股现金流量净额等228个指标变量,其中有许多冗余变量,且数据量庞大、结构复杂.随机森林算法刚好适用于这种类型的数据.故采用该算法对年数据中228个指标进行分析处理,得到每年的各个变量重要性得分,再筛选出得分较高的变量作为影响股票高送转的重要因子.
图1与图2是从第3年到第6年数据的228个指标中选取的最重要的前30个指标.Mean Decrease Gimi通过基尼(Gini)指数计算每个变量对分类树每个节点上观测值的异质性的影响,据此比较变量的重要性.该值越大表示该变量的重要性越大.从图1中可以看出,第3年和第4年数据的变量重要性中上市年限的值最大,从图2中看出,第5年和第6年数据的变量重要性中基本每股收益的值最大,说明上市年限与基本每股收益这两个因子对上市公司是否实行高送转具有重要影响.在这4年数据的指标中80%的指标是重复的,所以选取这4年的重要变量,最后选出了上市年限、基本每股收益、有形净资产、营运资本、留存收益等43个变量(因子).
图1 第3-4年变量重要性
图2 第5-6年变量重要性
3.2.2 基于Lasso方法的特征提取
运用Lasso方法对基于随机森林算法选取的43个变量提炼出更加重要的变量放入模型.表1为第3年到第6年数据中系数不为0的变量.
表1 第3-6年系数不为0的变量
综合第3年到第6年数据中的重要变量,我们得到11个重要因子:每股收益(期末摊薄)、基本每股收益、每股净资产、每股资本公积、每股公积金、每股未分配利润、每股留存收益、总资产净利率、总资产报酬率、上市年限、每股送转.
本文构建的高送转预测模型是基于两个单一模型的组合预测模型.根据数据中的信息,高送转预案公告日一般都在一年中的3月份或4月份,因此可根据上一年的数据预测下一年是否高送转.据此,我们确定解释变量是在3.2中选取的第t-1年的11个重要因子,被解释变量为第t年的是否高送转.数据集分为训练集和测试集,训练集为第t-1年的数据,测试集为第t年的数据.第一种模型是基于logistic回归建立的预测模型,第二种模型是基于决策树的二分类预测模型,然后将这两种模型依据权重进行线性组合,组合权重由拉格朗日函数求解.
对式(1)中的损失函数关于各变量求偏导并令它们等于零,得:
(2)
利用Python对式(2)进行求解得到各年份每个模型的权重,进而得到如下的各年份的组合模型:
第5年的组合模型:
0.488×fi+0.512×gi,
第6年的组合模型:
0.764×fi+0.236×gi,
第7年的组合模型:
0.555×fi+0.445×gi.
Logistic回归模型、决策树模型和组合模型的预测准确率,结果如表2和图3所示.
表2 各模型预测准确率
图3 各模型预测准确率
从表2中可以看出,在第6年的预测准确率中,logistic回归模型的预测准确率为76.59%,决策树模型的预测准确率为73.795%,组合模型的预测准确率为77.9798%,可见决策树模型的预测准确率最差,组合模型的预测准确率比决策树模型的预测准确率提高了4.19%,比logistic回归的预测准确率提高了1.39%.同理,在第5年的预测准确率中组合模型提高了1.01%(相比较于各单一模型中的最优模型,下同),在第7年的预测准确率中组合模型提高了0.6%.由图3可以看出,组合模型的预测准确率比各单一模型的预测准确率都要高,可见组合模型可以表现出更加优越的效果.
本文基于组合模型对高送转公司进行预测.为了提高预测准确率,首先根据数据不平衡的特点,利用随机森林算法从228个指标变量中选取出43个因子,之后为防止解释变量间相关系数过大而造成过拟合的情况,又利用Lasso方法在选出的43个因子中选出11个重要因子放入模型.从实证分析结果可以看出,基于损失函数确定权重的组合模型的预测准确率比各单一模型的预测准确率都要高,相比单一模型中的预测,组合模型的预测准确率最高提高了1.39%,说明该组合模型是有效的.
证券市场中的股票实施高送转时在预案公告日公布之前的一段时间股价会持续抬升,带来显著的正的超额收益,因此是中小投资者强烈追捧的对象,所以对上市公司是否实施高送转的预测是一个比较热门并且很有意义的问题.本文的组合模型是logistic回归模型与决策树模型的线性组合,其权重是由拉格朗日函数确定的,考虑到了各算法的好坏,所以组合模型的预测效果要比各单一模型的预测效果要好.因此,采用组合模型预测可以为中小投资者提供可靠的具有理论支撑的决策依据.