周嘉灏 张明福 冷鸿杰
(华南农业大学电子工程学院(人工智能学院),广东 广州 510642)
随着经济社会的不断发展,为了使自身获取更多的收益,关于投资选择的研究和实践一直是社会的热门话题。国际上关于投资选股的方法层出不穷,其中以多因子模型为代表的量化选股技术更是被广泛运用,其运用主要在于选股、对冲和统计套利三个方面。多因子模型传入我国的时间相对较晚,但目前有关多因子模型的研究与实践与日俱增[1],其主要运用在量化选股、量化择时、预测涨跌方面。因此本文从研报中提取特征指标进行机器学习,研究多因子量化模型,有助于在保留传统多因子模型投资视角广、投资纪律性强、对历史数据利用率高等特点的同时,将证券研究机构的选股预测能力转化为现实的投资价值,扩宽多因子选股策略的分析方法,充实我国多因子模型相关的理论研究。
本次券商信息收集在国信证券的金太阳交易软件上完成,其对各股票的评价内容较为完整,且有专栏总结,容易查询。在数据收集过程中,由于部分股票的券商研报信息中存在着一些较为明显且重要的缺漏,为了保证模型的合理性,我们对相关不完整股票进行了剔除。其中包括:(002060)粤水电,(601318)中国平安,(000921)海信家电,(600048)保利发展共4 家公司。
经过对相关数据的分析,本文初步构建了估值因子、成长因子、盈利能力因子等七大方面个特征指标,总体结构如图1 所示。
图1 初步提取的29 个特征指标
为了进一步分析各股票之间净利率的线性关系的强度,排除走势相似的股票类型,本文先进行了pearson 的相关性分析,用Python 编程计算系数,绘制出30 支股票近六年来净利率的相关性热力图,根据以上热力图矩阵,优先排除与其他股票的相关系数较高的个股,选取与其他股票相关系数较小的个股,我们最终选出了10 支特征最明显的湾区指数股票。
表1 相关股票符号的定义
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。
设随机变量y 与一般变量x1,x2…,xp的线性回归模型[2]为:
整理可得, 当(X'X)-1存在时,即得回归参数的最小二乘估计为:
为定量分析29 个特征指标与股票净利润的关系,我们在这10 支股票近6 年共60 组数据的基础上,以不同的29个特征指标来作为自变量,以股票净利润作为因变量y,利用Python 求解多元线性回归模型,得到多元线性回归方程为:
R 方为0.988,表示自变量一共可以解释因变量98.8%的变化,可以认为该模型的拟合优度良好。
以所选的10 个特征指标为自变量,股票的净利润为因变量,对所选10 支股票列出多元线性回归方程,得到析研报特征指标对股票走势的影响,结果如下所示:
各回归方程中系数绝对值越大的项,对股票的净利润的影响也越大,总结主要影响因子如表2 所示。
表2 影响各股票净利润的主要特征指标
根据股票趋势图与相关特征指数,可以对股票的未来趋势进行一定程度的预测。在此我们忽略以下因素影响:
3.2.1 市场风格特征
在证券市场上,投资风格是指某类股票具有相同的回报特点或者类似的价格趋势特征,比如大盘股和小盘股就是两类投资风格,市场有时倾向大盘股,有时又倾向小盘股,某段时期市场上投资者不同的偏好形成了不同的市场风格[3]。
3.2.2 行业轮动趋势
行业轮动与风格轮动类似,受经济波动周期的影响,市场上一些行业会比其他行业优先发展起来。根据经济周期对行业轮动的趋势进行研究,在轮动趋势开始前对投资组合进行配置,或在轮动结束后对选股组合进行调整,都将会得到不同的收益。
3.2.3 资金流动
图2 10 支股票年净利润的趋势图
本文围绕选股问题,首先需要深入挖掘所采集的30 支股票详细特征,通过相关的收集到的股票研报中初步提取出特征指标,共筛选出29 个普遍意义指标,进行pearson相关性分析,而后采用多元线性回归与等权重法,对这些股票的特征指标进行打分,构造基于研报的量化选股模型,提取出最重要的10 个特征指标作为最终有效因子。之后以净利率为目标函数,利用多元线性分析对10 支股票分别列出多元线性回归方程,从而绘制出曲线图来分析股票净利率走势,筛选出高利润和一般利润股票。通过以上分析给出对这10 支股票的下年度的持仓策略。