基于LightGBM的上市公司“高送转”预测

2022-04-11 13:14李威张攀红
关键词:机器学习

李威 张攀红

摘要:本文基于机器学习中最新的LightGBM算法构建训练集,并基于上市公司的各项财务数据训练机器学习模型,进一步利用该模型对预测集中最有可能实施“高送转”的公司进行预测,最终预测出“高送转”概率最高10家公司。本文最后训练出的模型准确率较高,但覆盖率较低,最终能够预测出部分“高送转”上市公司,可为投资者构建股票投资组合提供有益参考。

关键词:高送转;LightGBM;机器学习

一、引言及文献综述

“高送转”是指高比例送红股或转增股本的简称。国外鲜有高比例送红股或增资的情况存在,这是我国市场上的特有现象。一般来说,投资“高送转”概念的公司往往可以增加其收益的可能性,因此,无论是否要参与“高送转”概念的炒作,上市公司每年披露年报或半年报时,中国投资者将关注其股利分配方案,实施“高送转”的公司也将受到追捧。从公司财务角度来看,“高送转”的实施不会对公司未来的业绩预期产生任何影响,也不会影响公司的实际价值。“高送转”实施后,虽然股份总数有所增加,但公司股东权益不会增加。作为中国金融市场发展过程中遗留下来的炒作题材,相关股票的炒作甚嚣尘上。我国A股市场历年都有炒作题材股的现象,伴随一些突发事件,A股市场上总会掀起一股短线炒作概念的热潮,不管是游资大户还是普通散户,甚至一些投资机构都会或多或少地参与其中。例如,中美贸易战时的国产芯片替代概念和半导体概念、地摊经济概念股、免税牌照概念股等等。我国市场游资大户数量多、资金体量大,每年的“高送转”也就成为A股市场上市公司年报和半年报出台前的炒作对象。

近几年实施“高送转”的公司越来越多,“高送转”概念股成为预案公告日和除權除息日前后炒作的热点。随着监管力度的增强,相关的炒作热情有所降温,但“高送转”概念仍成为炒作的暗线题材,其他题材股叠加“高送转”概念后,往往会取得更高的超额收益。能够在公司公布股利分配预案之前,重点关注“高送转”的真实目的,考察公司基本面及业绩预期,警惕高管配合二级市场,利用“高送转”股预测模型筛选出的股票池作为参考,就能取得一定的超额收益。因此,研究“高送转”行情,准确训练“高送转”模型并预测下一年最有可能实施“高送转”方案的公司,以此作为参考构建投资组合,对于保护中小投资者利益,维护金融市场稳定具有重要意义。

国外研究方面,哈佛大学教授约翰·林特纳(John Lintner)于1956年在《美国经济研究》杂志发表的一篇文章中,首次提出了股利分配的行为理论模型。1961年美国经济学家弗兰哥·莫迪利安尼和金融学家默顿·米勒于提出股利无关论,又称MM理论。该理论建立在一系列假设之上,认为公司的价值仅仅由公司经营和投资情况确定。而股利相关理论认为公司的市场价值会受到股利分配政策的影响,认为股利无关论提出的相关假设前提根本无法实现。其分支不确定感消除论由林特纳和戈登提出,认为较高的股利支付率有助于消除投资者由投资风险带来的不确定感和不安感,投资者在投资活动中对高股利支付率的公司有较强的偏好,因此管理层应该维持高股利的股利政策。信息传递理论认为股利政策可以传递出一种有关公司财务状况和预计未来经营状况的信息。股利迎合理论是由马尔科姆贝克和杰弗里提出的,认为投资者的需求很大程度上会影响公司股利发放决策。

国内研究方面,一部分学者对上述传统股利分配理论进行了实证检验。例如,吕长江、王克敏(1999)的实证结果支持林特纳的股利信号传递理论和詹森的代理成本理论,不支持迈尔斯的资金顺序理论。何涛、陈小悦(2003)对送转行为动机进行了分析和讨论,检验了现有的“信号传递假设”和“流动性假设”对中国市场解释能力的强弱。提出了“价格幻觉假设”,并用L0git回归对“价格幻觉假设”进行检验,结果支持这一假说。熊义明、陈欣等(2012)通过实证研究探讨了不同的股利分配理论在现实生活中的成立情况,为解决关于股票送转动机的争论提供了经验证据。最近几年,出现了一些研究构建模型来预测“高送转”上市公司,例如,刑小艳(2016)选取了影响上市公司实施“高送转”的九个特征因素作为影响因子,运用LO gistic的回归方法,建立模型,预测每家“高送转”公司实施的概率并排序。谢忱(2017)将“高送转”行情分为三个阶段,选取其中预期和填权两个阶段分别构建两套不同的投资策略。

在炒作预期阶段,利用2011年至2016年6月所有A股上市公司数据,基于Iogt回归模型预测每家上市公司下一年度实施“高送转”的概率,并选取实施概率最高的20家公司构建投资组合。在填权阶段,运用事件研究法得出在每年除息日后滞胀的股票会取得不错的超额收益的结论。张田华、罗康洋(2021)选取2158家上市公司7年的数据,利用特征选择算法选出10个最重要的影响因子,利用集成学习算法构建预测模型,最终构建的ADASYN+mRMR+XGBo0st组合模型能够取得较高的预测准确率。

二、上市公司“高送转”现状及其成因

(一)上市公司“高送转”现状

从“高送转”题材炒作出现开始,实施“高送转”股利分配政策的公司数量就呈现逐年上升的趋势,到2015年达到顶峰,直到近几年,随着我国金融市场各项制度逐渐完善,“高送转”公司数量才趋于平稳。每年11月份开始,上市公司就开始出现年报业绩披露潮,实施“高送转”的公司会受到投资者热捧,叠加“高送转”题材的公司股价上涨的可能性增大。例如,2020年3月,“高送转”龙头新诺威在短短14个交易日内,涨幅达到84%。在“高送转”题材炒作期间,短线炒作有其他题材时,“高送转”一般作为暗线叠加属性,而在短线周期的末期时,“高送转”主要龙头股又可作为主线或单独的题材来炒作。

尽管参与“高送转”题材交易有时的确能在短时间内取得可观的收益,但同时也伴随着巨大风险。并不是所有的“高送转”公司股价都是上升的,反而是表现不一,有的公司连续涨停,股价翻倍,有的却连续跌停。“高送转”仅仅是影响公司股价的一个因素,在参与“高送转”交易时还应注意到公司的基本面、其他题材概念、所处短线周期、市场情绪等多重因素。实际上,“高送转”炒作本就是不理性的行为,“高送转”现象不利于我国金融市场健康有序发展,也引起了监管层的注意。2017年,时任证监会主席刘士余表示,“10送30”的“高送转”方案在全世界罕见,必须列入重点监管范围。2018年,沪深交易所发布了《高送转指引》,指出上市公司送转方案必须与公司基本面相符。尽管近年来针对“高送转”题材炒作的监管趋严,但就目前我国A股市场投资环境来看,“高送转”作为暗线属性,炒作依然存在。

(二)上市公司“高送转”现象成因

“高送转”现象是我国证券市场上特有的现象,是基于一系列历史原因加上我国特有的投资环境形成的。20世纪90年代,随着上市公司股本扩张的意愿不断增强,送转方案也逐渐增多。到2015年,沪深两市实施“高送转”的公司数量达到

一百多家,实施的方案也越来越夸张。上市公司“高送转”现象成因最重要的一个因素就是市场反应因素。公司为了拾升股价,为后续进一步发展做准备,会实施与自身基本面不相匹配的送转方案。同时,我国A股市场上游资和中小投资者数量多、体量大,热衷于短线题材炒作,投资者的专业素养有待提高,我国市场上也就形成了公司管理者和投资者相互配合的局面。若要消除这种现象,还需监管层加强监管,各项规章制度得到进一步健全,专业机构投资者比例得到进一步上升。

三、LightGBM算法介绍

(一)LightGBM简介

LightGBM是微软亚洲研究院DMTK团队在Github上开源的性能超越其他Boostingdecisiontree的工具,一经推出就广受好评,广泛运用于各大数据挖掘比赛。与XGB00st相比,LightGBM主要有直方图算法、基于梯度的单边采样算法、互斥特征捆绑算法三方面的优化。

(二)基于直方图的决策树算法

直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数,也就是分桶bis思想,例如[0,0.1)离散化为0,[0.1,0.3)离散化为1。用离散化后的值代替原来的浮点值进行计算,统计每个bi里面的样本个数,根据离散值来寻找最优的切分点。需要切分的个数就等于bis的个数减1,而XG-B00$t的切分点个数等于样本取值的不同个数减1,需要计算的是样本的特征值、样本的一阶导和二阶导。后续计算bis里样本一阶导之和与二阶导之和时,计算量也会相应小很多。

LightGBM只会保存离散化后的值,在内存占用上也会小很多。

(三)直方图做差加速

LightGBM的另一个优点是使用直方图进行差分加速。当节点分裂成两个时,右边子节点的直方图就可以直接通过上方父亲节点的直方图减去左边其兄弟节点的直方图得到,用这种做差的方法可以使其在运算速度上加倍。在构建完一个叶子节点的直方图后,LightGBM可以先计算直方图较小的叶节点,然后利用直方图做差来得到直方图大的叶节点,这样,可以以相对较小的成本得到它兄弟叶的直方图。例如,将某个特征的取值分成4个桶,每个桶里面的样本个数分别为4、4、5、3,左边子节点直方图每个桶中的样本个数分别为1、1、2、1,那么右边子节点的直方图样本个数分别为3、3、3、2。

(四)带深度限制的Leaf-wise算法

在直方图算法之上,LightGBM还进行了进一步的优化。按层生长(level-wise)的决策树生长策略是大多数GBDT工具使用的策略,而LightGBM不再使用该策略,转而使用带有深度限制的按叶生长(leaf-wise)的算法。按层生长(level-wise)同一层的所有节点都要做分裂,分裂完成后再根据需要进行剪枝,因为它毫无区别地对待同一层中的叶子,需要分裂计算的节点过多,所以Levl-wise效率相对较为低下,它带来了很多不必要的开销。同一层的其他很多叶子节点也根本无需进行分裂。

Leaf-wise以降低模型损失最大化为目的,是一种更高效的策略。与按层生长的决策树相比,按叶生长的决策树只需要在分裂增益收益最大的节点处进行分裂,其他的节点处不需要进行分裂,可以得到更小的误差,但同时分裂的次数会增加,生长出的决策树过于庞大,容易产生过拟合。为了解决这个弊端,LightGBM可以设置一个决策树的最大深度。

四、“高送转”预测模型的实现

(一)影响因子

参考已有相关文献,将影响上市公司高送转主要因素确定为基本每股收益、每股净资产、股票价格、总股本、每股营业收入、每股资本公积、每股未分配利润、每股现金流量、每股经营现金流9个因素。将上述9项指标作为自变量,是否实施“高送转”作为二分类因变量,将实施“高送转”的公司标记为1,没有实施“高送转”的公司标记为0。

(二)数据获取

从同花顺软件客户端下载A股所有上市公司共4266家

2018年至2020年的上述9项指标,鉴于科创板投资具有较高门槛,且从历史数据看科创板公司分红意愿较低,本研究将科创板所有公司剔别除。将2018年公司年报披露数据作为训练集,将2019年报披露的数据作为测试集,将训练出的最终模型作为“高送转”预测模型,并以2020年上市公司半年报数据作为依据,预测出2021年即将实施“高送转”的公司。别除掉少量空白无效数据后,共得到训练集3651组数据,测试集3520组数据。

(三)LightGBM参数设置

超参数是机器学习之前人为设置的变量,模型参数是通过模型训练得到的参数数据,模型超参数是模型外部的配置。虽然无法知道给定问题的模型超参数的最佳值,但是我们可以使用经验法则,在其他问题上使用复制值,或通过反复试验来搜索最佳值。设置模型超参数时,需要我们根据经验设置较为合适的值,使得模型的训练能力与实际情况较为吻合。

(四)交叉验证

因为模型的参数和结构不同,一般無法直接评估不同模型的泛化能力,为了更好地理解模型的泛化能力,引入了交叉验证。在划分数据集时,通常将数据集划分为三个子数据集,分别称为训练集(train set)、评估集(valid set)和测试集(testst)。交叉验证结果越小,模型的泛化能力越强。交叉验证的

一个极端称为去一法。也就是说,每次从数据中提取一个样本,然后用其余样本进行训练。k-fOLd交叉验证将数据分为k个部分,每次提取其中一个部分,其余部分用于测试,共总需要k次。通常,用5折和10折交叉验证。

(五)模型评估

本文使用AUC指标来评估训练好的模型。对于二元分类问题,结果标签可以分为1和0。在实践中,会出现以下四种情况:

将上述四种情况进行组合,可以得到一个混淆矩阵。

由混淆矩阵可以引出真阳率(TPR)、假阳率(FPR)两个概念:TPR表示真实类别为1的样本中预测类别也为1的比例,FPR表示预测类别1在具有真实类别0的样本中所占的比例。在这个例子中,“高送转”的实施记为1,否则标记为0。

ROC曲线是以FPR为横轴,以TPR为纵轴绘制的曲线。在大多数情况下,TPR大于FPR,这是我们想要的。而AUC表达的含义是ROC曲线下方的面积,因此AUC的值一般大于0.5。在最佳的理想情况下,AUC的值为1,在现实生活中几乎不存在。作为衡量模型准确率的指标,我们希望AUC值越大越好。一般情况下,AUC值在0.85和1之间就表明模型有较好的预测能力。经过208轮循环后,我们得到最佳AUC的值为0.901886。

(六)训练模型并预测

将训练出的模型保存为best_model.pkl。将2019年数据导入该模型,预测出是否“高送转”标签值为1的公司有三家,分别为金马游乐、锐科激光、迈为股份,其中前两家已确定为实施了“高送转”,表明该模型对测试集预测的准确率为23。再将预测集2020年上市公司的数据导入模型,预测出是否实施“高送转”标签的值保存为y_yuce_pred。该数值越接近1,表明实施“高送转”的可能性越大。选取10家是否“高送转”标签值最高的公司,其中有6家公司已经在2020年年报中披露会实施“高送转”行为,表明该模型对预测集的准确率达到60%。

五、结论与启示

本文首先介绍了我国A股市场题材概念股炒作的市场背景,阐述了在我国A股市场上准确预测出下一年“高送转”公司的意义。其次简单介绍了机器学习中LightGBM算法原理。最后利用LightGBM算法模型构建训练集最佳模型,并利用该模型预测下一年最有可能实施“高送转”的10家公司供投资者参考尽管本文做出了机器学习LightGBM算法在“高送转”预测的应用,提供了“高送转”公司预测名单,但仍要提醒投资者注意规避风险,不可盲目参与“高送转”题材炒作。同时呼吁投资者要保持客观理性,监管层要加强监管,使我国金融市场不断健康发展。

参考文献:

[1]BakerM.,Wurgler J.A catering theory of dividends[J].Journal of Finance,2004,59(3):1125-1165.

[2]Fama,E.F.,French,K.R..Dividend yields and expected stock returns[J].Journal of financial ecnomics.1988.22(1):3-25

[3]Li.W.&Lie.E.Dividend changes and catering Incentives[J].Journal of Financial Economics,2006,(80):293-308.

[4]LintnerJ.Distribution of incomes of corporations among dividends,retainedearning,and taxes[J].The American Economic Review,1956,46(2):97-113.

[5]Miller,M.H.,Modigliani F.Dividend pOLicy,growth,and the val-uation of shares[J].the Journal of Business,1961,34(4):411-433

[6]陳浪南,姚正春.中国股利政策信号传递作用的实证研究.金融研究,2000,(10):69-77.

[7]何涛,陈小悦.中国上市公司送股、转增行为动机初探.金融研究,2003,(9):44-56.

[8]吕长江,王克敏.上市公司股利政策的实证分析[J].经济研究1999,(12):31-39.

[9]刘大进.创业板上市公司“高送转”动机与效益分析.集美大学学报(哲学社会科学版),2011,(1):36-39.

[10]刘红忠,张昉.投资者情绪与上市公司投资——行为金融角度的实证分析[.复旦学报:社会科学院,2004,(5):63-68.

[11]李昆,宋婷婷.送股和转增对股东结构和股票流动性的影响统计与决策,2005,(09X):97-98.

[12]凌士勤,谢忱.基于L0git模型的高送转投资策略[J].时代金融,2017,(7).

[13]李心丹,俞红梅,陆蓉等.中国证券市场“高送转”现象研究管理世界,2014,(11):133-145.

[14]石好,刑小艳基于模式识别的“高送转”预测模型[J]云南:时代金融,2016,(12):289-290.

[15]沈海平.我国上市公司高送转公告效应的实证研究[J].区域金融研究,2011,(4):47-51.

[16]唐家麒.“高送转”股利分配政策信号传递作用研究[J].上海:复旦大学,2012

[17刀魏刚.中国上市公司股利分配的实证研究[J].经济研究,1998,(6):31-35

[18]王鹏,孔刘柳.影响创业板上市公司进行高送转的因素——基于L0git模型分析[.中国林业经济,2016,(3):35-41.

[19]吴松谚深圳创业板市场运行与解读[M].北京:经济科学出版社,2012.

[20]谢忱.基于高送转的投资策略研究设计[J].湖北:中南财经政法大学,2017.

[21]刑小艳.基于模式识别的“高送转”投资策略研究[J]广东:华南理工大学,2016.

[22]徐慧玲,吕硕夫.中国上市公司“高送转”股利政策分析[J]经济研究,2012,(11):84-88.

[23]熊义明,陈欣.中国上市公司送转行为动因研究——基于高送转样本的检验[北京:经济与管理研究,2012,(5):81-88

[24]杨汉明.股利政策与企业价值一基于中国上市公司的分析[M].北京:经济科学出版社,2008.

猜你喜欢
机器学习
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统
基于图的半监督学习方法综述
机器学习理论在高中自主学习中的应用
极限学习机在图像分割中的应用