余应敏 刘 婧 余浩文
1.中央财经大学会计学院 2.中央财经大学粤港澳大湾区(黄埔)研究院
我国经济处于蓬勃发展阶段,资本市场规模日趋庞大。然而毋庸讳言,某些金融产品的定价与其内在价值存在一定的偏差,而该偏差的出现会导致量化投资。量化投资是使用计算机科学技术结合金融学及数学模型的相关理论用以实现投资理念及投资策略的相关过程。相较于传统投资模型:主要以基本面分析法及量化分析法为主,量化投资主要基于数据及模型探寻相应的投资方式。其分类如表1所示。
表1 量化投资研究方向
伴随着投资分析技术的不断进步,量化投资发展迅速,量化因子数量也随之激增,2022年国泰安量化因子库相关数据显示,其数据库主要量化因子数已达10类,共计254个因子;2018年清华大学国家金融研究院民生财富管理研究中心推出的《中国A股市场量化因子白皮书》显示,符合中国市场行情的因子大约为56个,主要包括交易摩擦类因子、动量类因子、价值类因子、成长类因子、盈利类因子和财务流动性类因子等;同时,随着量化研究的逐渐深入,各种因子数量也正呈井喷式涌现。有鉴于此,对量化因子进行筛选显得尤为必要。
本文基于遗传算法,通过对所选取的32个市场主流因子进行有效性分析,筛选出符合我国资本市场的量化投资因子,由此建立相对优异的投资选股策略。笔者认为,该策略具备一定优势:(1)信息客观及时:以计算机与数学模型为主要工具,将人为情绪与投资系统区分开;(2)立足市场现实:结合市场数据对模型进行训练,结合实际选择最符合市场现实的量化因子,从而构建最终选股策略;(3)结合优秀理论:遗传算法有效结合生物进化理论,对较大规模的量化因子库进行筛选,选取有效因子(适者生存);(4)可调节性强:程序化算法可以依据研究需求,相机调节基因因子的个数及相应时间窗格大小。
量化思想最先起源于国外,是数理工具运用于金融学上产生的一种新的思考方式,并非伴随着金融学产生。1952年美国经济学家马科维茨(Markowitz)发表的《投资组合选择理论》一文首次提出将定量研究引入当时只存在定性描述的投资组合理论中,利用证券一段时间的平均收益率作为收益率衡量,使用标准差作为风险度量的均值-方差模型由此诞生。基于模型假设,Markowitz确立了有效边际理论,建立了资产优化配置模型。基于Markowitz的资产组合理论基础,William Sharpe、John Lintner和Jan Mossin先后对资本资产定价模型(CAPM)进行检验和改良,形成了现代CAPM。
其中:r表示组合S的收益变量;r表示市场组合的收益变量;r表示当前市场的无风险收益率;β表示组合S对于市场风险的敏感度,计算公式为:
Ross受CAPM模型启发建立了套利定价理论(Arbitrage Pricing Theory,APT),多因子定价为APT理论的典型代表,从而为后期多因子选股策略的诞生奠定了理论基础。
据统计,量化投资在美国已经有40余年的历史。1970年,量化投资刚刚兴起,而在2001年,量化投资规模已超过880亿美元;之后更是增长迅猛,诸如James Simons和David Shaw等更是名声大噪。近年来,随着科技进步与机器学习的日益发展,量化投资与算法的结合逐渐紧密,Vrontos et al.采用机器学习构建模型,不仅利用了各类统计指标评判模型预测的能力,还结合大量的投资策略评估模型结果的经济意义,研究结果表明,不论是在统计意义上还是经济意义上,文中所用的机器模型在隐含波动率预测方面都要比主流计量模型更有效。Markus et al.构建了一系列复杂的预测指标,采用不同机器学习模型测试。研究发现,流动性指标在不同机器学习模型中都表现出一致的重要性,而反映价值的基本面指标则显次要;散户的存在,使得股价在短期变得更容易预测(在小盘股表现更为突出);长期而言,大盘股和国有企业可预测性更好;仅多头的策略,在考虑交易成本后,仍然可以取得显著的收益。
1975年美国密歇根大学霍兰德(Holland)教授基于生物进化理论提出了遗传算法,在之后几十年中,很快在各个领域中得到了广泛的应用,在金融投资领域更是有着重要的作用,如Hyejung Chung et al.利用现有的财务数据建立了长短时记忆网络和遗传算法融合的股票市场预测模型,提出使用遗传算法(GA)确定LSTM网络的时间窗口大小和拓扑结构的系统方法,研究股票市场数据的时间特性,进行投资时间窗口的优化;Bonde et al.使用遗传算法和进化策略进行特征选择及权重优化,每个属性的输入在根据其连接权重进行放大后被赋予一个sigmoid函数,试图找到每个属性的连接权重,以预测股票的最高价格,实验结果表明,在每种情况下,算法都能够以至少70%的准确度进行预测。国内学者陈诗乐提出了基于遗传算法(GA)的股票特征选择方法,并结合股票数据时序性和非线性特点,实现了基于LSTM与Transformer模型的深度学习股票预测方法;何盼等提出运用遗传算法(GA)与模拟退火算法相结合的方式,建立股票走势预估模型,有效弱化了各自的缺陷,避免了局部最优解的情况,提高了股票走势预估的精准度。
本文将遗传算法作为主要研究算法,对染色体上不同基因个数和不同投资周期条件下对因子有效性的影响及对策略收益的影响进行研究。借鉴梁晓颖的因子筛选思想,并在其基础上引入遗传算法对筛选的因子进行迭代,完成了策略的优化。首先,对所选因子库进行相应分类,划分为盈利因子、估值因子、成长因子、分红因子、杠杆因子、规模因子、流动性因子、动量因子8类;其次,以个股因子得分为依据,选出得分较高的个股进行投资组合的构建,以投资组合收益的高低作为该因子组合好坏的评价指标;最后,基于遗传算法,将表现优异的因子组合尽可能地保留并遗传给后代,在多次迭代后,满足终止遗传迭代的条件下,选出最优因子组合;本文选取时间窗口为2016—2020年,在基本的因子基础上加入遗传算法的因子选择技术,通过运用前24个月度沪深300指数成分股数据,对各因子进行筛选和检验,构建相对有效的多因子选股模型,并使模型更加稳健和实用。
基于多因子量化选股理论,本文从Wind金融终端导出市值、总资产、净资产等32个因子数据;根据因子代表的含义,将32个因子划分成盈利因子、估值因子、成长因子、分红因子、杠杆因子、规模因子、流动性因子、动量因子8类。
1.盈利因子。盈利因子旨在选择具有较强获利能力的优秀公司,本文选取的盈利因子有:(1)净资产收益率=净利润/净资产;(2)销售毛利率=毛利/销售收入×100%;(3)销售净利率=净利润/销售收入×100%;(4)经营性现金净流量=(净利润+折旧-税收)/营业总收入;(5)息税前利润=(净利润+利息+所得税)/营业总收入;(6)总资产收益率=净利润/年均资产额×100%;(7)投入资本回报率=息前税后经营利润/投入资本×100%;(8)销售费用率=销售费用/营业总收入×100%。
2.估值因子。估值因子包括:(1)市盈率=每股市价/每股收益;(2)市净率=每股市价/每股净资产;(3)市现率=每股市价/每股现金流;(4)市销率=每股市价/主营业务收入。
3.成长因子。增长率=(本期对象值-上期对象值)/上期对象值×100%;公司最根本价值在其净资产和持续不断创造价值的能力,成长因子的主要作用是选择能持续创造价值的股票,创造能力越强则说明成长性越好,公司价值越高。本文选取的成长性因子有:(1)基本每股收益增长率=(本期每股收益-上期每股收益)/上期每股收益×100%;(2)净利润增长率=(本期净利润-上期净利润)/上期净利润×100%;(3)营业收入增长率=(本期营业收入-上期营业收入)/上期营业收入×100%;(4)营业利润增长率=(本期营业利润-上期营业利润)/上期营业利润×100%;(5)净资产收益率增长率=留存收益增加量/年初净资产×100%;(6)净资产增长率=资产增加额/净资产总额×100%;(7)每股经营活动产生的现金流量净额增长率=(本期经营活动现金净流量-上期经营活动现金净流量)/上期经营活动现金净流量×100%。
4.分红因子。分红因子反映公司对股东的分红情况。本文选取的分红因子有:股息率、每股股利=股利总额/流通股数。
5.杠杆因子。杠杆因子用来衡量公司整体运行的负债与权益配比情况的因子。本文选取的杠杆因子有:(1)长期负债占比;(2)资产负债率=负债/资产总额;(3)全部资产现金回收率=经营活动现金净流量/平均资产总额×100%;(4)股东权益比=股东权益/资产总额。
6.规模因子。规模因子旨在找寻较大规模公司的股票建立投资组合。本文选取的规模因子有:(1)市值=市场价格×发行总股数;(2)总资产;(3)净资产即股东权益=总资产-总负债。
7.流动性因子。流动性因子旨在找寻流动性较好的股票建立投资组合。本文选取的流动性因子有:(1)换手率=成交量/发行总股数×100%;(2)流通市值:一般由当前可交易流通股股数×当前股价计算获得;(3)流通股本:上市公司发行在外的流通股股数。
8.动量因子。动量因子旨在找寻在前期具有一定涨幅,从而拥有上涨惯性的股票建立投资组合。本文选取的动量因子为涨跌幅,即股票股价的涨跌幅度。
根据达尔文进化论的思想,种群是生物进化的基本单位,种群一旦产生,就受到自然界的选择作用,不适应自然环境的个体会被自然界不断地淘汰,整个种群的基因频率向适应环境的方向发展,此种选择淘汰机理即为自然选择。遗传算法(GA)是基于生物进化论的自然选择和基于遗传机理的生物进化过程的算法模型,主要是通过计算机模拟仿真自然界物种的进化过程寻求问题的最优解;从一个初始种群出发,种群由基因编码而来的个体组成;个体携带会决定其个体表现的染色体,一条染色体上有多个基因,基因在染色体上呈直线排列;为了研究基因频率,遗传算法需要完成从表现型到基因型的编码工作,编码方法主要有二进制编码、格雷码编码、浮点编码、符号编码等;初始种群产生后,就可以开始进行模拟生物进化过程,在每一轮的进化中,适应力强的个体更容易将基因遗传给下一代,并通过组合交叉、基因变异等方式,演化出新一代种群;这个不断繁衍、演化、进化的过程,会使得后生代生物更加适应于环境。遗传算法的基本运算过程如图1所示:(1)编码、初始化种群:将实际问题编码,随机生成N个个体作为初始种群;(2)个体适应度计算:根据求解的问题,设置有一定意义的适应度函数,计算种群中每个个体的适应度大小;(3)选择运算:基于个体适应度,通过某种筛选原则作用于群体,目的是使当代较优的个体将基因直接遗传或交叉配对至下一代;(4)交叉运算:基于单点交叉、两点交叉、多点交叉等交叉算子,作用于群体父代,将基因部分交叉重组遗传至下一代;(5)变异运算:设定基因变异概率,基于个体编码方法的不同,有二进制变异和实值变异等变异算法;(6)终止条件判断:可以设置最大进化代数T,当迭代次数等于T时终止,也可以设置其他的终止条件。通过编码工作能够将问题解决方案转化成遗传学概念中的染色体,染色体和问题解决方案之间一一对应。随后,设定适应度函数计算各个解决方案对求解问题的适应能力,适应力高的解决方案更容易采用。最后,在迭代(iterate)计算过程中,求解问题最优解就犹如生物进化论中生物不断进化的过程,在满足一定条件后,迭代过程所得到的个体通过解码,即为所需要求解的问题最优解决方案。
图1 遗传算法流程
基于多因子量化选股,本文引入遗传算法的应用:从因子库中挑选32个因子,将其划分为盈利因子、估值因子、成长因子、分红因子、杠杆因子、规模因子、流动性因子、动量因子8类;将部分因子作为一个因子组合,以个股因子得分为依据,选出得分较高的个股进行投资组合的构建,以投资组合的收益率作为该因子组合好坏的评价指标;基于遗传算法,将表现优异的因子组合尽可能地保留并遗传给后代,在多次迭代后,满足终止遗传迭代的条件下,选出最优因子组合。
⒈编码、种群初始化规则:本文采用多层嵌套字典的方式,将32个因子数据构建成一个因子库数据。随后,将因子名称存放于一个列表当中,通过产生0—31范围内的5、8、10个随机整数作索引与字典键值对应的机制,实现从因子库中随机抽取5、8、10个因子,对初始种群染色体进行编码。因子库数据结构如图2所示。
图2 因子库数据结构图
⒉淘汰机制:在种群进行繁衍前,需要选择一个评估种群个体适应度并进行自然选择淘汰。本文以投资组合收益率为基础,构建得分函数作为适应度函数;在自然选择过程中,淘汰得分位于初始种群数量后10%以外的个体,保留得分位于前10%的个体。
⒊繁衍机制:每代繁衍中,从当代种群保留个体中随机抽取两条染色体进行组合交叉繁衍,组合交叉方式采取单点交叉,每代繁衍100个子染色体。在繁衍过程中,有一定概率(本文设置为5%),产生基因突变。
⒋繁衍过程:种群在进行繁衍时,组合交叉方式采用单点交叉,在染色体上随机选择一个位置点,与另一条染色体交换该位置点右侧的第一个基因,实现两条染色体之间的基因互换,单点交叉过程具体如图3。
图3 单点交叉方式
⒈投资组合的构建过程。在确定因子所组成的因子组合后,对样本池中各股进行因子打分,为了消除量纲的影响,需要对各因子打分进行标准化处理;股票与该因子组合的得分即为该股票各因子得分之和,投资组合由因子得分位于前30的股票组成。
⒉得分函数设置:鉴于本文旨在构建组合收益最大化的投资策略,故设置与投资组合收益率相关的得分函数。(1)设置时间观察窗口:自2016年2月至2018年1月,即24个月度(M)的股票收益数据;(2)股票选取原则:投资组合由因子得分位于前30的股票构成;(3)投资组合调整周期:分别以1、3、6月(M)为一个调仓周期,在周期开始的首月,根据上一周期末最后一月的实时因子得分和上一年度财报因子构建新的投资组合;(4)投资组合仓位权重设置:采用等权仓位控制,将资金均匀分布至投资组合中30只股票;(5)投资组合买卖仓位总额设置:每一期调仓,买卖新的投资组合时,仓位总额为上期期末仓位余额;(6)因子组合得分:将因子组合得分等价于在2016年2月至2018年1月各投资周期基于该因子组合构建的投资组合的累计收益率。
⒈因子库。个数为32,划分为盈利因子、估值因子、成长因子、分红因子、杠杆因子、规模因子、流动性因子、动量因子8类。
⒉样本池。样本池(股票池)大小为300只个股,个股来源于Wind所示沪深300指数成分;样本池数据选样时间区间为2016年1月1日至2020年12月31日,共五年;样本数据字段主要涉及日期、前收盘价(元)、开盘价(元)、最高价(元)、最低价(元)、收盘价(元)等;样本数据为月度数据。
⒊遗传设置。染色体:每条染色体上都携带基因,一个基因对应一个因子。本文设置染色体上可携带基因个数分别为5、8、10,分别探究在上述情况下,最佳因子组合所对应的收益率,并进行比较,得出构成最佳因子组合的因子个数与因子成分;种群个数:种群个数N初始设置为1 000;每代保留个数:每一代经过自然选择淘汰后保留的种 群 个 数 为N×10%,N为初始种群数,自然选择淘汰即按所设置的得分函数进行排序,选出得分在前10%的个体;突变概率:设置基因突变概率为5%;交叉方式:采用“单点交叉”,通过在当代种群中随机选择两条染色体,在随机选择的位置点上进行分割并交换右侧的部分交叉一个基因;繁衍速度:每代繁衍、产生100个染色体;最大迭代次数:设置最大繁衍迭代次数为100;终止判定条件:(1)遗传迭代次数达到100次。(2)在连续8次迭代过程中,具有最佳投资收益的投资组合所对应的因子组合不变。
本文基于遗传算法对染色体上不同基因个数和不同投资周期条件下对因子有效性的影响及对策略收益的影响进行研究;以个股因子得分为依据,选出得分较高的个股进行投资组合的构建;探究了投资周期为1/3/6的周期跨度和5/8/10个因子组合的策略方案、共计9种超参数组合。总体而言,在算法迭代过程中,出现了优胜劣汰即子代策略收益率大于父代的现象,符合遗传算法基于生物进化论的基本思想,再次印证了使用遗传算法作为基本研究范式的可行性。以下是针对不同周期跨度及不同因子组合数的详细分析。
⒈选取1个月(1M)为投资间隔策略
从图4中可以发现,在每次迭代过程中,子代基本展现出优于父代的优良特性,尤其是在迭代初期,性状得到快速优化,优化过程在后期趋近于平缓。本文选取8代为迭代停止界限,即在迭代过程中若8代内未出现基因的进一步优化则说明基因性状已经达成局部最优,染色体基因趋近稳定。从染色体基因个数来看,迭代速率与染色体个数之间未表现出显性关系,可能是由于5—8个、8—10个之间增加的基因对模型效果影响较为随机且难以测量,由此就目前研究情况来看,染色体基因个数与模型效果之间关系并不明显,可在后续展开更多样本的研究。同时,由图4可以发现,基因个数为8和10的迭代次数多于5,可初步认为迭代次数与基因个数间呈现一定正相关关系,其原因可能在于策略广度的增加导致了基因互换过程的排列组合数增加。
图4 投资间隔为1状态下不同基因数迭代收益情况走势图
2.选取3个月(3M)为投资间隔策略
类似于选取1个月(1M)为投资间隔的情况,从图5中可以发现,在每次迭代过程中,子代基本展现出优于父代的优良特性,同样是在迭代初期,性状得到快速优化,后期趋近于平缓。通过组间对比可以发现,相较于投资间隔为1个月(1M)的情况,在策略收益上出现了明显的降低,可以初步认定投资期间隔对策略收益影响较大;同样,基于组(1)中的相关结论,依然可以判定,染色体基因个数与策略收益之间没有明显的相关关系;基因个数与和迭代次数之间呈现正相关,投资间隔不会对迭代次数产生明显影响。
图5 投资间隔为3状态下不同基因数迭代收益情况走势图
⒊选取6个月(6M)为投资间隔策略
在第(3)组中,由于生物进化论中基因性状的随机性,导致选取6个月为投资间隔周期,基因个数为5时在初始情况出现接近局部最优的情况,因此也导致了图6的出现,同样验证了遗传算法与生物进化论的相似性,体现了实验的科学性;另外,投资间隔变化后又一次出现了总体收益降低的情况,验证了前文投资周期越长、策略总体收益会降低的假设,其他结论与前文所述结论无冲突之处。
图6 投资间隔为6状态下不同基因数迭代收益情况走势图
综上所述,通过图形本文可得到初步结论:(1)投资间隔较长时,策略总体的超额收益会出现降低。(2)策略的优化速率在迭代过程中会表现出先快速增长后趋向于平缓的状态。(3)基因个数与收益率水平未体现出明显关系,可能是由于基因个数由5个增长到更多的过程中,后续增长基因对策略优化效果的影响较为随机导致。(4)由于生物进化论的随机性,使用遗传算法在某些情况下可能会出现初始基因性状接近局部最优的情况,迭代曲线趋近于平缓。(5)一般情况下,基因个数较多时,生物进化需要的迭代次数随之增加。
本文遗传参数组合中,分别将投资间隔设置为1个月(1M)、3个月(3M)、6个月(6M),染色体基因个数设置为5、8、10,为了实现投资组合收益最大化,探讨了不同投资间隔、不同染色体基因个数情况下,投资组合的收益率变化情况;对所有可能的遗传参数组合进行了因子回测,将各种情况下的收益率同沪深300指数收益率进行比较,得出最优遗传参数组合。
如图7所示,当投资间隔为1个月(1M),染色体基因个数分别为5、8、10时,因子策略最终累计收益率分别可达504.46%、459.39%、416.69%,同期市场(沪深300)累计收益率为25.17%;选出的投资组合表现都远远高于市场(沪深300)表现。本文采用的是复利型投资策略,累计收益率变化幅度较大,但从多因子策略每一周期平均收益率看,不同染色体数所对应的多因子策略每一周期平均收益率都分布于5%左右,差异不大。
图7 投资间隔1M、染色体基因个数不同情况下的投资组合收益率
如图8所示,当投资间隔为3个月(3M),染色体基因个数分别为5、8、10时,因子策略最终累计收益率分别可达210.13%、239.06%、226.33%,同期市场(沪深300)累计收益率为25.17%;在投资间隔3个月(3M)时,基于遗传算法构建的因子组合选出的投资组合表现都远远高于市场(沪深300)表现。从多因子策略每一周期平均收益率看,不同染色体数所对应的多因子策略每一周期平均收益率都分布于11.5%左右,差异不大。
图8 投资间隔3M、染色体基因个数10投资组合收益率比对
如图9所示,当投资间隔为3个月(3M),染色体基因个数分别为5、8、10时,因子策略最终累计收益率分别可达172.43%、181.87%、182.09%,同期市场(沪深300)累计收益率为-39.06%;在投资间隔1个月(1M)时,基于遗传算法构建的因子组合选出的投资组合表现都远远高于市场(沪深300)表现;三种因子策略因子个数的变化对策略最终累计收益率影响更小,策略间最大变动幅度仅为9.66%。
图9 投资间隔6M、染色体基因个数10投资组合收益率比对
基于上述分析,(1)在同一投资间隔下,因子个数分别于5、8、10构成的最佳因子组合所选取的投资组合收益率变动不大;可能是由于各个因子反映的信息可能存在一定的重合,如“总资产”同“净资产”之间有着一定的相关关系,导致选出的股票组合差异不大。因子个数跨度不大的情况下,遗传算法所提取的信息有限,对投资组合收益率影响也有限。(2)在同一投资间隔下,三种因子策略的平均收益率变化情况较为一致,上涨期同时上涨、下跌期同时下跌,最终三种策略的累计收益率不同源于其上涨期各自的上涨幅度不同。(3)投资间隔期越大,因子个数的变动对投资组合收益率的影响也越大。这主要是因为投资间隔期越小时,能够及时根据上期表现最好的因子进行当期的投资组合构建,倘若投资间隔期增大,则会造成“锁仓”的现象,不能及时调整有效的投资组合,一旦因子表现不佳,则投资组合收益率影响波动较大。(4)本文采取遗传算法筛选最优因子组合与复利型投资策略组合进行量化投资。遗传算法依据每一代优胜劣汰的机制,最终所得到的最佳因子组合在大多数投资周期都能实现正收益。
本文将Wind沪深300指数成分股作为股票池,利用遗传算法对净资产收益率、销售毛利率等32个因子所组成的多因子策略进行研究,探究在不同投资期中,选择不同的多因子策略进行投资的收益分布情况,得出不同投资期所对应的最佳多因子策略,并得出以下结论:(1)遗传算法能在众多因子策略组合选出局部最优策略。在训练期,本文选取1个月(1M)、3个月(3M)和6个月(6M)三种投资周期与五因子策略、八因子策略和十因子策略组成的九种策略组合进行分析,发现在迭代过程中每组策略组合均实现一定程度的进化,其中进化次数最多的策略组合为投资周期为一季度加十因子投资策略,迭代46次达到局部最优,在因子组合和投资周期的选择问题中,遗传算法有助于投资者选择相对而言收益更高的策略组合。(2)同一周期内因子个数对收益率影响不大。本文根据所选1个月、3个月和6个月三种投资周期不同因子个数的策略组合投资收益得出,同一周期内因子个数若未出现较大幅度的提升,其所选出股票获得的收益也并没有较多的提升;可能是各个因子反映的信息存在一定的重合,因子个数跨度不大可能造成从因子提取的信息没有较大的提升,所选出的股票组合差异不大的问题。故因子个数差异不大的因子策略具有一定的无差异性。(3)不同投资周期和因子组合的选择对应的投资收益率也不同。本文采取复利型投资策略进行研究,即将本金和上一投资周期所获得收益全部作为下一投资周期本金进行投资。研究发现,遗传算法通过每一代优胜劣汰机制,选择出的因子组合能在大多数周期内实现正收益,而当所选因子组合在大部分周期能实现正收益的情况下,投资周期越短,最终投资者的收益率将越高,故本文投资周期为1个月的收益率普遍大于投资周期为3个月和6个月的策略组合。同时投资信息的及时性也是导致投资周期为1个月的收益率普遍大于投资周期为3个月和6个月的策略组合的原因之一,投资周期较短的策略组合,能够根据较新的信息进行决策,所选出的股票组合在短时期内收益更趋近稳定,同一时间段内复利得到收益也就高于投资周期较长的投资收益。
本文的局限:(1)数据来源可进一步扩充。本文选取Wind沪深300指数成分股作为股票池,净资产收益率、销售毛利率等32个因子作为因子池进行研究,所得出的策略组合可能会出现在其他股票中失效的情况,策略组合的普遍性还有待研究;同时,本研究所选因子池仍存在可以优化的空间,可能存在优秀因子没有入池的风险;可考虑选择更多的因子加入因子池,增加因子组合的丰富度,以选出投资收益表现最为优异的因子组合。(2)受限于遗传算法的固有局限,初始种群采用随机选取的方法取得,可能存在收益最高的因子群未被选中且后续杂交和基因突变仍然未获取的风险,而错失最佳因子组合策略。(3)计算资源的限制。受限于计算资源,本文只选取了选取1个月、3个月和6个月三种投资周期与五因子策略、八因子策略和十因子策略组成的九种策略组合进行分析,超参组合测试尚不完善,仍存在一些策略组合未被考虑模型内;同时,染色体数量、因子数量、种群数量、繁衍速度和种群保留数量等超参的选取可以进一步优化,使用更大的染色体数量、因子数量、种群数量、种群保留数量和更快的繁衍速度,可能会得到更好的结果。(4)采取复利型投资策略进行研究,具有严格的周期性。众所周知,投资者情绪易受股价波动的影响,当某一周期多因子策略组合给投资者带来损失时,投资者对策略组合的信任度可能会下降,最终可能无法获得较好的收益;同时,复利型投资策略风险较高、未考虑到避险的情形。(5)因子得分权重关系有待进一步优化。资源所限,采用了最高每条染色体上10个基因个数的组合,虽能体现因子之间一定的权重关系,但存在可优化的空间。(6)采用等比例方式进行股票投资,股票收益率按照所选股票每个股票买进一股的模式进行计算,未将各个股票具体股价考虑进去,实务中,可能存在对不同股价的股票采用对应的权重,所获投资收益更高的情形。