赵 琪 徐维军,2 季昱丞 刘桂芳 张卫国,2
(1.华南理工大学工商管理学院;2.广州市金融服务创新与风险管理研究基地;3.广东财经大学金融学院)
机器学习是人工智能领域重要的基础学科之一,致力于研究使计算机程序能够从数据中学习经验知识,以改善其针对某任务的处理性能的算法。近年来,得益于大数据技术带来的海量数据和并行计算带来的计算效率提升,机器学习这一研究领域得以飞速发展,这也吸引着不同领域的学者将其应用到计算机技术以外的研究中。在金融领域,随着不断提升的金融数据分析需求,机器学习的应用已经成为新的研究热点,其中,尤以“金融市场预测”(资产价格预测)方面的研究最具代表性。研究表明,自2007年开始,包含“机器学习”“金融市场预测”等关键词的文献数量呈显著增长,并且至今仍保持着稳定的增长趋势[1]。与此同时,机器学习算法在资产配置的实践中也被广泛应用,量化投资者倡导应用机器学习来寻找最优的交易策略或基准投资组合[2]。无论是从学术研究还是金融实践的角度而言,在人工智能飞速发展的今天,机器学习的应用已成为金融市场预测及资产配置这一研究课题的题中应有之义。
相比于利用传统的计量和统计模型对金融市场进行预测并得出资产配置决策,机器学习的优势主要体现在两个方面:①机器学习具有从数据中学习经验知识的能力。机器学习算法对未来价格趋势的预测,主要基于其从数据中学习到的经验知识,并非完全依赖于人为给定的先验知识,这就使得从数据中挖掘出更多与未来资产价格相关的信息成为可能;此外,机器学习中的某些分支算法能够更好地处理文本等非结构化数据,而这类数据中蕴含的信息往往是对结构化数据的重要补充[3]。②金融数据所具有的特征决定了机器学习在这一课题中的适用性。金融时间序列数据所具有的非线性性、高维度特性及噪声性质,使得应用传统计量方法的研究难以有进一步的突破[4,5],而机器学习对模型的函数形式并未做出严格的假设,对变量之间的相互作用以及参数的统计分布假设,相较于传统计量方法更为宽松[6],因而在分析和预测金融数据时更具优势。综上所述,机器学习算法的应用,其意义并不仅止于简单引入跨学科的研究方法,更重要的是为传统研究中数据和方法上的局限性引入针对性的解决思路。
有别于现有文献,本研究聚焦于机器学习在金融资产价格预测和配置这一子课题中的应用,对已有文献的研究方法及内容进行梳理、分析(1)本研究首先以“机器学习”“投资组合”“价格预测”及其类似表达作为关键词,同时在Google Scholar和知网进行检索;然后用检索结果的参考文献进一步扩充所选论文,保留近15年内的论文,并根据摘要内容删除与研究内容关系不大的论文;最后追踪这些论文的发表期刊和被引情况。对于会议论文,仅保留发表于中国计算机学会推荐会议的论文;对于期刊论文,首先保留金融领域顶级期刊和中文CSSCI期刊论文,其次保留被引率较高的其他期刊论文(影响因子较高的SCI和SSCI索引期刊)。由于涉及深度学习的论文较少,在筛选时也考虑了公开的工作论文。最终筛选出中英文论文共35篇。,并从以下两个方面对既有的综述文献[1,4]进行补充:①不同于HENRIQUE等[1]对文献的总结性梳理,本研究在文献的基础上分析了机器学习的适用性和局限性,并进一步探讨了未来可能的研究方向;②有别于苏治等[4]的研究,本研究全面回顾应用传统机器学习和深度学习的相关文献,对比两种方法在应用于金融资产价格预测和配置研究中的优势和不足。这是本研究对现有文献的重要边际贡献。
机器学习是“人工智能”领域最重要的基础学科之一[7],隶属于计算机科学领域。这一学科致力于研究“使计算机能够从数据中学习经验知识”的算法,即“机器学习算法”。与通常意义上的计算机算法不同,机器学习算法并非静态的代码指令,而是通过一定算法,使得计算机能根据输入的经验数据产生解决特定问题的模型,并利用该模型对新的数据产生相应的判断。通常,输入数据并不能以其原始形式被计算机读取,而是要转化为特定的表示后,再作为机器学习算法的输入。这类特定表示称为“特征”。从数据中习得模型的过程,称为“学习”或“训练”。通过训练,机器学习算法能够习得从“特征”到特定问题的解之间的映射关系,并且在面对训练数据以外的新数据时提供相应问题的解。机器学习算法的一般流程框架见图1。
图1 机器学习算法的一般流程
传统机器学习算法的性能很大程度上依赖于用于表示数据的特征。数据的特征通常由研究者手动设计,但对于大多数问题来说,手动设计的特征往往并不一定和问题的解相关。解决这个问题的一个方法是,利用机器学习来学习特征本身,这类方法称为表示学习。当下研究火热的深度学习正是表示学习的一种形式,它通过将复杂的特征表示分解为一系列嵌套的简单特征表示,从原始数据中习得数据的高层次抽象特征[8]。与传统机器学习算法不同,深度学习更类似于一种“端到端”的形式(即不包含图1的特征提取步骤),能够直接从原始数据中学习经验知识;经过合理设计的深度学习结构,能够习得与特定问题更具相关性的特征,从而达到比传统机器学习方法更优的性能。然而,深度学习也有其局限性:相较于传统机器学习算法,深度学习对超参数更为敏感,对深度学习模型的充分训练往往需要更大量级的数据[9]。对于具体的应用问题而言,机器学习和深度学习孰优孰劣并不能一概而论,而是要结合可用数据的特点来进行具体分析。
广义的金融资产包括股票、债券、期货等多种金融产品,而本研究中讨论的资产价格预测和配置主要落点于股票市场。这也是资产价格预测和配置研究中被讨论最多的一个问题。
传统实证研究中的资产价格预测主要包含:基于价量信息的技术分析方法、基于基本面信息的基本面分析和时间序列预测模型。这3类研究中所采用的数据均可作为机器学习算法的输入特征,以应用于资产价格预测的研究。下面将根据输入数据的类型分别对代表性文献进行分类梳理和讨论。
(1)基于技术分析指标的资产价格预测KIM[10]提出的模型是应用机器学习以预测未来资产价格的一个典型例子。该研究采用12种技术分析指标作为特征,用支持向量机(support vector machine,SVM)对韩国股票市场指数(KOSPI)的单日变动方向进行分类,并将结果与神经网络(neural networks,NN)和基于案例的推理(case based reasoning,CBR)预测的结果进行比较,证明SVM具有更好的预测性能。HUANG等[11]则采用支持向量回归(support vector regression,SVR)对单日股票价格的具体数值进行回归预测。该文献通过特征选择方法来优化输入特征,并运用自组织特征图(self-organizing feature maps,SOFM)技术,对输入SVR的训练样本进行筛选,以提升SVR的预测准确度。不同于上述文献,CHANG等[12]应用神经网络,将未来的资产价格变动直接预测为买入点和卖出点,并采用基于案例的动态窗口(case based dynamic window,CBDW)进一步优化预测结果,在实证中取得了较高的收益。KUMAR等[13]研究了多种特征选择方法的性能。他们将特征选择与SVM结合起来,利用4种特征选择方法,从55个原始的技术指标中选择特征,用于训练近似支持向量机(proximal support vector machine,PSVM),并发现结合了特征选择方法的PSVM,比单一的PSVM具有更优的股票价格预测性能,且随机森林(random forest,RF)方法能够挑选出最优的特征。PATEL等[14]对比了神经网络、支持向量机、随机森林和朴素贝叶斯(Naïve Bayes,NB)4种机器学习算法的预测性能,同样发现随机森林算法能够达到最佳的预测效果。除此之外,PATEL等[14]还发现,将技术分析指标本身指示的未来价格趋势信息作为机器学习算法的输入,能够进一步提升机器学习算法的预测性能。这表明在资产价格预测问题中,通过改良传统实证研究中已有的预测变量,使之成为更适合机器学习的特征,能够有效地提升机器学习模型的预测性能。除对输入特征的选择和优化以外,模型的优化也是现有文献研究的重要方向。ARMANO等[15]提出了模型选择的方法。通过在神经网络之前添加一个用于选择预测模型的层,该研究能够利用遗传算法选择性能最好的预测模型,以此提高预测的准确度。
(2)基于基本面信息的资产价格预测ENKE等[16]选取了31个金融和经济变量,利用基于信息增益的数据挖掘方法,选取了其中15个与未来资产价格具有更高相关性的变量,并采用神经网络对标普500指数的变动趋势进行预测。在此基础上,ZHONG等[17]选取了60个金融和经济变量,并对比了3种主成分分析(principal component analysis,PCA)方法的特征选择性能,证明原始的PCA方法挑选出的36个变量能够更好地预测标普500指数的日线方向。以上研究表明,在机器学习的应用中,引入更多的预测变量,可以有效地提升机器学习模型的性能;这也从侧面证明,传统实证研究中所用的预测变量,远不足以反映出金融市场数据中所包含的所有有关未来资产价格的信息,对这一课题的研究来说,进一步的数据挖掘仍然是必要的。BALLINGS等[18]研究了集成学习算法的性能,构建并结合多个同类型的分类器来预测资产价格的年度变动趋势,并证明相比于AdaBoost和Kernel Factory方法,随机森林方法能够更好地集成多个分类器的分类结果。不同于一般的集成学习算法,BARAK等[19]研究了不同类型的单分类器(包括SVM、NN、决策树)的集成,使用基于数据集聚类和候选分类器准确度的方法确定基础分类器的数量和类型,并对比了Bagging、Boosting和AdaBoost 3种集成学习方法,证明利用Bagging方法集成的模型能够达到最高的预测准确度。
(3)结合技术分析指标和基本面信息的资产价格预测YU等[20]的研究采用技术指标和基本面数据作为特征,提出了一种演化的最小二乘SVM,利用遗传算法进行特征选择和模型的参数选择,并证明这一模型的性能优于传统SVM以及自回归移动平均(autoregressive integrated moving average,ARIMA)模型、NN及线性判别分析。TSAI等[21]将NN作为基准预测模型,研究了PCA、遗传算法和决策树3种特征选择方法的作用,发现与单一特征选择方法相比,多种特征选择方法的组合能够提供更高的预测准确度。PAN等[22]认为,资产价格预测的输入特征应当包含不同频率采样的数据,且输出预测也可以为多个。通过构建多个SVM,并应用无限制混合数据采样方法,该研究能够利用多种采样频率的输入特征,预测多种时间长度下的未来股票指数变动趋势,其性能优于采用单一采样频率输入特征的预测模型和单一输出的预测模型。这一研究通过使用不同采样频率来构建输入特征,从时间维度丰富了输入特征中包含的信息。
(4)基于价格时间序列数据的资产价格预测HASSAN等[23]将每日股票价格作为NN的输入特征,并将NN的输出作为隐马尔科夫模型的输入,以预测单日的股票价格;隐马尔科夫模型的参数优化由遗传算法完成。实验表明,这一融合模型能够达到与ARIMA模型相近的预测性能,证明了机器学习在处理价格时间序列数据的适用性。NGUYEN等[24]和REN等[25]同时采用了历史价格数据和情绪指标作为预测变量,训练SVM以预测股票价格变动,证明了情绪变量的引入能够进一步提高机器学习模型的预测准确度。YAN等[26]提出了一种基于贝叶斯正则化的神经网络模型,根据网络权重的概率性质来提升模型的泛化性能,并进一步使用粒子群算法来优化网络参数。实证结果表明,这一改进的神经网络模型,在预测能力上优于普通神经网络、SVM及HASSAN等[23]提出的模型。SERMPINIS等[27]利用NN、k近邻算法和平滑过渡自回归模型(smooth transition autoregressive models,STAR),从历史价格数据中构建非线性的预测变量,并将这些变量作为SVR算法的输入,预测5个欧洲ETF指数的买入和卖出点。与以上研究不同,KRAUSS等[28]将历史价格序列转化为历史收益序列,并将其作为输入特征,对比了神经网络、梯度提升树(gradient boosting decision trees,GBDT)及随机森林3种机器学习算法的预测性能,并证明随机森林的性能优于其他两种,且3种算法的等权重组合能够达到比其他权重组合更高的预测准确率。除直接用于处理时间序列数据以外,机器学习还能以与经典时间序列模型结合的方式应用于资产价格的预测。PAI等[29]和WANG等[30]将机器学习算法与时间序列预测模型结合起来,以提升预测性能。前者使用SVM作为ARIMA模型的补充,用于捕捉时间序列中的非线性特征;后者则将指数平滑模型(exponential smoothing model,ESM)、ARIMA和神经网络的预测结果结合起来,并用遗传算法优化3种模型的权重,得到了比3种单一模型及等权重模型更优的预测性能。对本节中所述文献使用的数据及主要方法的总结见表1。
由表1可见,价格数据和基本面数据是最主要的输入特征来源。大部分文献都聚焦于预测未来市场的变动趋势或投资决策时机,预测具体数值的文献相对较少。其中,SVM(SVR)和NN是应用最多的两种方法,包括二者的原始形式及改进形式。但应当注意到,有研究表明[14,28],RF在预测准确度上比这两种经典方法表现得更好。从文献中应用的改进方法来看,对已有方法的改进主要集中于输入特征和算法两个方面。在输入特征方面,特征选择方法的引入是比较普遍的做法,其目的在于,从已有特征中筛选出与未来资产价格变动更相关的特征,以提高预测的准确度。也有文献考虑到将不同数据来源的特征结合起来,如同时采用技术分析指标和基本面指标作为特征,从文本数据中挖掘情绪指标和主题特征[24,25]等。除此之外,对输入特征本身的特性进行探讨,并尝试改进特征的构建方法[14,22,27],也是一个被证明可行的思路。从算法的改进来看,已有文献主要做了3个方面的尝试:采用改进的经典机器学习方法[13,20,27],改进模型的参数选择方法[20,23,26,30]以及多种方法的结合或集成[12,15,18,19,23,29,30]。在参数选择方法中,启发式算法是应用最多的一类方法,包括遗传算法、粒子群优化算法等,用以寻找使预测准确度更高的模型参数。对于方法的结合和集成,不仅存在对不同方法的简单结合(如使用不同算法完成预测中的不同步骤、多个模型的加权组合等),也存在利用集成学习方法对多个单一的预测模型进行集成。此外,机器学习方法和传统时间序列预测模型的结合,也能带来预测准确度的提升。
表1 应用传统机器学习算法的资产价格预测研究汇总
尽管应用机器学习的资产价格预测这一研究问题隶属于计算机和金融的交叉领域,但从以上梳理的文献中不难看出,对这一问题研究较多的大部分是计算机领域的学者,发表期刊也以计算机领域的期刊为主,因此,针对这一问题的研究思路也多以计算机角度的算法改进方面见长。然而,单纯的算法优化必然存在瓶颈,对资产价格预测这一具体研究问题而言,更重要的是从金融理论的角度出发,探索和发现与市场趋势变动有关的因素,进而改进现有的资产价格预测方法。PAN等[22]对不同采样频率的输入数据的讨论即是一个很好的尝试。从长远来看,这不仅有赖于相关金融理论的发展,也需要金融领域的学者更多地进入这一交叉领域,探讨如何利用已有的金融知识对这一领域的研究提出针对性的优化思路。
作为近年来机器学习领域的热点研究之一,深度学习也逐渐被应用于资产价格预测与配置的研究。但是,由于深度学习相比于传统机器学习的发展时间尚短,目前,公开发表于权威期刊与顶级会议的相关研究还较少,因此,这里将不再对相关文献进行分类,而是将应用深度学习的所有研究合并讨论。
在资产价格预测中,未经处理的原始数据主要包括价格序列和文本数据,这也是传统研究中常用指标的数据来源,因此,应用深度学习的研究,主要从这两类数据中提取特征并进行预测。FISCHER等[31]对比了传统机器学习算法和深度学习算法在处理收益时间序列上的性能。他们采用了与KRAUSS等[28]相同的输入,分别对比了逻辑回归、随机森林和长短时记忆(long short-term memory,LSTM)网络在预测标普500成分股价格趋势时的准确度,发现LSTM能够达到比随机森林算法更高的预测准确度,而后者在KRAUSS等[28]中被证明是表现最优的传统机器学习算法。这一结果证明,深度学习确实能够从时间序列数据中提取出更优的特征。此外,他们还尝试探究深度学习的“黑箱”性质,初步探讨了LSTM预测中看涨的股票的共性特征,发现其与股票市场中的“短期反转效应”存在一致性。TROIANO等[32]同样采用了LSTM来处理时间序列数据,将运用传统技术指标方法做出的投资决策作为训练数据的标签,将己有的历史价格序列数据作为输入,利用LSTM算法“复制”这一投资决策的产生过程,习得的模型可从特定资产的历史价格中预测可能盈利的交易行为。SEZER等[33]将15种不同时间间隔的15个技术指标转化为灰度图像,以预测资产价格的未来趋势。具体地,将每种时间间隔的技术指标表示为15×15像素图中的像素点,每个技术指标的具体数值用像素点的灰度值表示;随后,采用卷积神经网络(convolutional neural network,CNN)分析该灰度图像,将未来的价格变动趋势预测为买入、卖出、持仓3种交易信号(与CHANG等[12]类似),并通过样本外测试,证明这一预测能够获得比“买入-持有”策略更高的收益。DING等[34]针对事件驱动的股票市场变动,提出了一种预测股票价格变动的深度学习方法。在该研究中,从新闻文本中提取的事件,经过神经张量网络训练后被表示为密集向量,而后被送入深度卷积神经网络,用于根据新闻事件预测未来可能的股票价格变动。实验结果表明,该模型能够分别在标普500指数预测和个股预测两方面均实现可观的改进。以上两个研究都将深度学习的输入数据转化为特定的形式,这能够更好地发挥特殊设计的深度学习模型在处理对应结构的数据时的优势。DENG等[35]将深度学习算法引入“金融信号处理+在线交易”的学习框架,构建了一个基于深度强化学习的交易系统。深度学习算法用于从动态的市场变化中学习特征(金融信号处理),强化学习算法基于这些特征学习具有高累积收益率的实时交易模式(在线交易)。另外,他们还将模糊学习扩展到深度学习模型中,以减少原始时间序列中的不确定性,这是针对数据中可能存在的噪声的优化。KRAUS等[36]利用LSTM方法对文本数据进行处理,根据上市公司年报文件中的文本信息预测未来回报,并采用了迁移学习的思想,以进一步提高预测准确度,在预测变动趋势(分类任务)和具体数值上(回归任务)都取得了可观的预测性能。
与传统机器学习方法相比,深度学习在理解输入数据方面往往更具优势:严格意义上来讲,FISCHER等[31]与SEZER等[33]使用的训练数据并非纯粹的原始数据,但他们的成功也恰恰证明了深度学习在提取数据特征表示上的优越性能,即使是面对已经过人工编辑的输入数据。FISCHER等[31]的分析也表明,深度学习足以从数据中学习到被传统金融实证研究证实的规律。而在文本数据处理中,深度学习的特征提取能力,使其能够从文本中提取出与资产价格变动相关的信息,并在资产价格预测问题中表现出比应用传统机器学习的自然语言处理方法更好的性能。但同样应当注意到,由于深度学习提取的特征往往无法在逻辑上与相关问题关联起来,因此很难根据具体的应用问题来对深度学习模型进行优化,如基于传统机器学习的研究中通过改良输入特征来提升模型性能。现有研究也未曾涉及对深度学习方法中各个环节的进一步优化。另外,成功的深度学习模型往往与输入数据的形式相关,除金融时间序列数据可以被直接用于适合序列数据的深度学习算法以外,部分数据仍需要被转换为特定形式后再输入深度学习模型。这就对深度学习的应用提出了更高的要求,使得其不像传统机器学习那样更容易被迁移到资产价格预测与配置的相关研究中。
资产配置是将资产分散投资于多种资产的过程,其目的是通过调整投资组合中不同资产的比例来平衡风险和回报。可靠的未来资产价格预测能够为资产配置策略提供一定的先验信息,从而在控制一定风险的情况下获取更高的回报。现有应用机器学习的资产配置研究主要基于对资产价格的预测,但仍有部分文献讨论了如何将机器学习直接应用于资产配置问题。下面将对以上两类文献分别进行梳理,探讨机器学习算法在资产配置方面的应用现状。
(1)基于价格预测的资产配置研究李斌等[37]利用3种机器学习算法(SVM、NN和AdaBoost)预测股票未来的涨跌,根据预测结果构建等权重投资组合,并证明根据机器学习算法预测结果构建的投资组合绩效,显著优于“买入-持有”策略和传统技术分析策略。KRAUSS等[28]与FISCHER等[31]用机器学习方法,预测标普500中的每只成分股的收益是否大于500只成分股收益的中位数,并根据预测结果构建可能盈利的投资组合。具体地,通过买入看涨概率值(即收益大于500只成分股中位数的概率)最大的k只股票,并做空概率值最小的k只股票,构建多空投资组合。实证结果表明,这一基于预测的投资组合能够获得较高的期望收益。同时,FISCHER等[31]证明采用LSTM模型具有更高的预测准确度,从而可以带来更高的投资组合回报。HEATON等[38]采用栈式自编码器来对股票未来的表现进行预测。他们训练自编码器以得到单只股票的编码,根据股票与其编码之间的范数差异大小,选择多只股票构建投资组合。实验表明,该方法构建的投资组合能够获得比IBB指数更高的收益。MALANDRI等[39]提出了一种基于机器学习和情绪指标的预测算法,用于构建并调整在线投资组合策略。他们采用价量信息、社交媒体上的正负面评论数及变化率等7种指标作为输入,预测投资组合中的5支股票成为其中收益最高的股票的可能性,并将这些概率值归一化之后作为每只股票的权重,以构建投资组合。实验表明,增加了情绪指标的预测模型能显著提升在线投资组合策略的收益,而LSTM算法能提供比随机森林和多层感知机更高的投资组合收益。HUANG等[40]应用无监督机器学习算法来学习股票的交易规则。无监督机器学习算法是一类无需将特定问题的解作为训练数据的机器学习算法,其训练过程通常用来学习数据的内在性质和规律[41],再将其与特定问题联系起来。该研究应用双聚类方法对技术指标矩阵进行聚类,挖掘出技术指标矩阵的列常数型双聚类作为交易规则,并将其分为买入、卖空、持有3种交易信号;在样本外测试中,采用k近邻法(对应于有监督算法学习到的预测模型)确定测试样本的交易信号,并根据相应的交易策略进行交易。与有监督机器学习方法不同,这一研究中学习交易规则的过程并不受历史数据中资产价格的涨跌标签影响,从而在一定程度上避免了噪声数据的影响。
(2)机器学习算法与经典投资组合模型的结合除基于预测的投资组合优化外,机器学习算法与经典投资组合模型的结合也在引起研究者的关注。BAN等[42]采用正则化和交叉验证两种机器学习中常用的优化方法,对投资组合模型进行优化。正则化是机器学习中用于提升模型泛化性能的方法,通过在机器学习的损失函数中加入惩罚项来约束模型复杂度,从而避免机器学习模型的过拟合问题。该研究创新地将正则化方法用于降低投资组合中风险(方差)和收益(期望)的估计误差,用以改善基于有限样本的期望和方差估计。具体地,他们定义了一个基于模型性能的正则项(performance-based regularization,PBR),令该正则项小于一个给定的约束值,并将其作为投资组合优化问题中的约束条件。而交叉验证则是机器学习中一种常用的超参数调试方法,在该研究中用于确定正则化约束项的约束值。实证研究表明,基于PBR的投资组合模型(均值-方差模型和均值-CVaR模型)比普通的样本估计具有更高的年化夏普比率,也同样优于等权重投资组合和基于L1正则化、L2正则化(机器学习中常用的正则化方法)的模型。TSANG等[43]则用深度神经网络来解决多期投资组合优化问题,并证明了这种方法的收敛性。具体地,该文献用两层神经网络作为模拟马尔科夫决策过程中单次状态转移的子网,多个子网叠加后即可用于模拟多期投资组合的决策过程。这一方法将神经网络的优化过程与多期投资组合的决策产生过程联系起来,能够有效地求解多期投资组合优化问题。XING等[44,45]则在Black-Litterman资产配置模型的基础上应用了机器学习算法。前者提出了一种可解释的学习架构来模拟生成市场观点,并将该市场观点作为Black-Litterman模型中的投资者观点变量,根据模型计算相应的投资组合权重。具体地,他们训练神经网络(LSTM和动态进化神经模糊推理系统),使其能够在已知历史价格、成交量及市场情绪指数的情况下,尽可能地逼近最优观点(与未来实际收益最接近的观点),这模拟了投资者在多期投资中的学习过程,提高了模型生成的投资组合权重的可解释性。他们还将提出的模型与传统的均值-方差模型及Value-Weighted(按市值分配权重,即大盘指数)投资组合模型进行了对比,发现包含情绪指数的市场观点能够显著提升投资组合的表现。与单纯的价格预测不同,这一工作将机器学习算法用于产生投资组合模型的先验信息,为机器学习在投资组合研究中的应用提供了一个新的切入点。在XING等[44]的基础上,XING等[45]应用在线聚类算法改进了生成投资者观点的LSTM的性能,使得LSTM网络的每次更新都能够引入和过去信息的均值差别较大的信息(即非噪声信息)。实验表明,该模型能够获得显著高于等权重投资组合及基于时间序列预测模型的投资组合(ARIMA模型和Holt-Winters模型)的年化收益,而改进的LSTM模型的表现也显著优于纯LSTM模型。这一研究为处理输入数据中的噪声提供了成功的示例。
与资产价格预测不同,现有文献将机器学习算法应用于资产配置问题的形式更加多样,缺乏固定的应用框架。在基于资产价格预测的资产配置问题中,资产价格的预测内容被进一步扩展,除直接预测单一资产的价格变动趋势或收益之外,投资组合中资产的相对收益也是重要的预测内容之一。囿于资产价格预测所能提供的信息,现有文献主要集中于根据预测结果选取股票并构建等权重的投资组合,较少进一步考虑投资组合中单个资产的权重优化;但考虑到资产价格的预测准确度远没有达到精确的程度,权重的分配对于投资组合的收益而言尤为重要。对于这一问题,MALANDRI等[39]将概率值归一化的方法提供了一个很好的示例,但这也仅仅是简单地依据预测的概率值来做判断。由此可见,如何根据资产价格预测结果来为投资组合分配合理的权重,应当是这一类研究需要深入探讨的问题。而在将机器学习算法与经典投资组合模型结合的研究中,机器学习不仅被用来直接生成投资组合策略,还为经典投资组合模型的实证研究提供方法借鉴或所需变量。其中,BAN等[42]的研究严格意义上来说是对机器学习算法思想的一种借鉴,而非直接利用机器学习算法来解决相关问题。但这一研究反而为这一交叉领域的研究提供了新的思路,即借鉴机器学习算法中的优化思想来解决经典投资组合实证研究中的优化求解问题。
从文献梳理中不难看出,在资产价格预测问题中,机器学习的应用大部分遵循其一般流程。通常,与未来资产价格变动相关的数据(特征)被作为机器学习算法的输入,经过训练后,产生相应的预测模型,用于根据新的数据进行预测。有关资产配置的研究大都基于对未来资产价格的预测,预测的内容从单一资产的价格变动进一步扩展到投资组合中各个资产的相对变动。除此之外,仍有部分文献探讨了应用机器学习的其他方式。
对于应用传统机器学习算法的研究而言,输入特征往往是传统研究中常用的结构化数据。一方面,虽然传统机器学习算法同样能够处理经过特征提取的文本数据,但一般都用于分析投资者情绪[24,25]并将其作为预测变量,很少直接用于资产价格预测,因此在本研究中未作深入讨论;另一方面,传统机器学习算法在自然语言处理任务中的性能,往往受限于自然语言本身的复杂性和歧义性,而深度学习算法从数据中提取特征的能力恰恰解决了这一问题[36],并在多个主要的自然语言处理任务中,表现出相对于传统方法的显著优势[46]。鉴于此,与上述机器学习算法的基本流程不同,已有文献在应用深度学习算法时,也将非结构化数据作为输入以直接预测未来资产价格。另外,深度学习所用的数据往往被重新表示为特定形式后再作为输入,以更好地发挥深度学习的性能[33,34]。现有关于资产价格预测和配置的文献中深度学习的一般应用框架见图2,其中,虚线框部分省略了深度学习的一般流程,如前文所述,深度学习的一般流程与图1类似,但不含特征提取步骤,而是直接将其整合进了训练过程中。
图2 深度学习算法在资产价格预测与配置中的一般框架
如前文所述,机器学习是一类被用来分析和理解数据的算法;而在金融和经济领域中,资产价格预测和配置的相关文献,则更多地涉及到用于分析历史数据的方法和实际应用。这也就解释了为什么机器学习首先被广泛地应用于这一具体研究课题中,也概括地体现了机器学习在这一课题的适用性。
从机器学习算法本身的角度来看,首先,机器学习的算法框架决定了其可以直接被应用于“从数据中得出结论”这类问题,而无需限定该问题的具体应用背景。资产价格预测和配置恰恰遵循这一模式:传统实证研究中的资产价格预测与配置,正是从历史数据中获取与未来资产价格相关的信息以完成预测,并在准确预测的基础上构建可盈利的资产配置策略。其次,具体到资产价格预测和配置研究中所使用的数据,其在预测中的有效性已经被传统实证研究充分证明,这就为机器学习算法的应用提供了可靠的输入数据。尤其是对于传统机器学习算法而言,研究者和实践者们已经基于原始金融数据构建了多个与未来资产价格相关的指标,如技术分析指标、公司基本面信息、宏观经济指标等,这些因素可直接作为机器学习的输入特征,从而避免了额外的特征设计步骤。
从资产价格预测和配置这一具体研究课题来看,传统的实证研究面临的最主要问题是,如何更好地分析金融市场这一复杂的动态系统,而机器学习的引入则为这一问题带来了新的思路。首先,相对于传统的统计和计量方法,机器学习能够更好地描述输入变量与预测结果之间复杂的非线性关系。传统的统计和计量方法一般通过一定的函数形式对数据进行建模,这些单一形式的模型在面对变量关系更加多样化的数据时,往往表现出一定的不适性。反之,机器学习并不严格假设变量之间非线性关系的函数形式,而是通过一系列算法来描述变量之间的关系,这使得机器学习不仅能够更准确地拟合变量之间的非线性关系,也能够更好地处理多样化的金融数据。其次,深度学习所具备的特征提取能力使其能够更好地理解输入数据,从而更好地拟合预测结果与输入数据之间的关系。正如前文所言,深度学习提取的特征是从数据中学习得到的,在学习过程中,这些特征不断逼近使其与预测结果相关性最高的形式,从而使预测的准确度不断提高。与人工设计的特征相比,来源于数据的特征往往能更客观地反映出原始数据中与目标任务相关的信息,这也是深度学习的关键优势[8]。
尽管从以上两个角度论述了机器学习在资产价格预测与配置这一课题中的适用性,但不可否认的是,机器学习算法仍有其局限性:①机器学习的“黑箱”性质。不同于传统的实证研究和金融实践,机器学习的内在逻辑是依靠特定的算法来使计算机自行理解输入数据与输出结论之间的相关关系,这一理解并非建立在金融理论的基础上,因而很难从逻辑上描述其输出与输入数据的相关关系。这一问题在深度学习中表现得尤为明显。传统机器学习中所需的输入特征与输出数据尚可能具备直观认知上的联系,如公司的基本面信息反映的公司经营状况能够指示公司未来业绩,进而指示其未来股票的价格变动趋势;而深度学习中的高层次抽象特征往往由深度神经网络经过多层计算习得,原始数据和习得特征之间很难从逻辑上产生联系。事实上,深度学习的可解释性也一直是该领域本身的难点问题之一。对于资产价格预测与配置这一具体问题而言,机器学习的应用虽然能提升预测的准确性和资产配置策略的收益,但其黑箱性质也限制了应用机器学习的研究在相关金融理论上进一步深入的可能。②机器学习的数据驱动性质是一把双刃剑。虽然这一性质使得具备丰富数据积累的研究领域能够较好地引入这一算法,但这一性质也决定了机器学习算法对训练数据的依赖性[47]。机器学习研究中有一个共识,即数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限,因此,高质量的数据对于充分发挥机器学习的性能至关重要。已有文献中所采用的数据及其输入形式都或多或少地存在一定的局限性。一方面,应用传统机器学习算法的研究中,将用于传统研究中的已有指标作为输入特征并非最优解。以技术分析指标为例,将其作为输入特征的机器学习算法所能达到的预测性能,可能不及经验丰富的金融从业人员基于技术指标作出的判断;也就是说,已有的指标可能在传统实证研究的框架中更能发挥其作用,而并不适合机器学习。PATEL等[14]的研究即证明了这一点:将利用技术分析方法预测出的未来价格趋势作为机器学习算法的输入特征,其预测准确度高于将技术分析指标直接作为机器学习的输入特征。事实上,特征的选取在机器学习领域本身就是一个关键的研究问题,也因此局限了其在跨学科领域的应用。另一方面,深度学习优越的特征提取能力不仅需要大量优质数据,也需要数据形式与算法结构相匹配。这也是为什么SEZER等[33]与DING等[34]需要将数据处理为特定形式后再应用深度学习算法。如何组织金融数据以充分发挥深度学习的优越性能,是将深度学习进一步应用于资产价格预测与配置研究时所要克服的难点,这需要研究者对深度学习算法和金融市场数据特性有更充分的认识。
在对文献进行综述与讨论的基础上,针对现有研究存在的局限,本研究认为这一交叉领域未来的研究可从以下几个方面着手。
(1)参数选择在早期基于机器学习的资产价格预测中,参数选择是相关文献中被提及最多的一个研究方向[10,11,17,19],也得到了充分的后续研究[20,23,26]。但现有文献对于参数选择问题的研究主要集中于启发式算法[20,23],其有效性无法从理论角度得到解释;仅有极个别文献从理论角度出发,探讨如何利用参数的概率性质来选取最优参数[26]。由此,除应用更多被证明有效的优化算法之外,从理论角度出发的参数选择是一个更需要被深入研究的问题,这有赖于机器学习这一领域本身相关研究的进展。
(2)采用准确度更高的机器学习算法(2)一般来说,准确度更高的机器学习算法通常以更高的计算复杂度为代价。但对于资产价格预测与配置而言,除高频交易以外,大部分机器学习算法的计算复杂度都不足以对其在这一场景中的应用产生大的影响,因此,追求单一的准确度提升是可行的。SERMPINIS等[27]认为更复杂的算法可能提升预测准确度,YU等[20]的研究也证明了改进的算法在预测准确度这一维度上优于原始算法。事实上,随着机器学习的发展,越来越多的算法将会被用于资产价格预测与配置这一领域,但应当注意到每种算法的准确度可能受到输入数据的某些特性的影响。在选择算法时,充分考虑其在资产价格预测问题中的适用性,仍然至关重要。
(3)多种算法的结合多篇文献研究并探讨了多种算法的结合方式及其对算法性能的提升[18,19,28,30],但最优的结合方式及权重分配尚未达到统一结论,因此,对多种算法结合方式的比较研究,可能是提升资产价格预测与配置模型性能的关键。
(1)对于特征选择的进一步探讨尽管多个研究证明了特征选择算法的有效性[11,13,17,21],但对于各种特征选择算法的全面比较仍较为缺乏。TSAI等[21]认为,从实际角度来看,很难对所有现有的特征选择方法进行全面研究,但从中选出最具代表性的方法来进行比较研究,可以被视为未来的研究方向之一。此外,虽然深度学习的特征表示能力能够在一定程度上替代传统的手工特征,但手工特征在帮助研究者理解影响市场变动的因素和促进相关理论发展中仍具有重要作用,特征选择仍然是未来这一领域需要进一步研究的问题,而与相关金融理论的结合无疑是一个很好的切入点。
(2)多时间间隔数据的应用KRAUS等[36]与WANG等[30]均提到了多时间间隔数据在未来研究中的重要性,而PAN等[22]和HUANG等[40]也证明了多时间间隔的数据在提升预测性能中的有效性。然而,这些研究都仅停留在定性分析的层面,未能从根本上指出不同时间间隔的数据在多大程度上与未来资产价格的变动相关。一个可能的研究方向是DENG等[35]指出的智能选择方法,利用机器学算法学习到与未来资产价格变动趋势相关的数据采样时间间隔。此外,从金融理论的角度出发,探讨不同时间间隔的数据如何影响未来资产价格变动,也是一个可能的研究方向;而这也与特征选择问题相互联系。
(1)考虑金融市场的现实因素多篇文献指出,现有关于资产价格预测与配置的研究较少考虑金融市场的现实因素,如市场摩擦[39,44]、交易成本[16,44]及资产的流动性[44]等问题;KRAUSS等[28]也表明,机器学习算法的普及程度可能影响基于机器学习的资产价格预测与配置模型的性能。部分文献在实证分析中考虑了交易成本[31],但其他可能影响实际资产交易的因素尚未被充分研究。将这些现实因素纳入这一领域未来的研究应当是一个重要的方向。
(2)基于金融理论的机器学习“黑箱”探究考虑到机器学习的“黑箱”性质,在基于机器学习的资产价格预测与配置中,模型的可解释性一直是研究者比较关心的问题[48],但仅有部分文献从机器学习算法的角度对此进行探讨,比如,通过观察输入特征的权重来探究“黑箱”的运行机制[28],或观察机器学习得到的结果与已有金融理论的联系[31]。可以预见到,随着这一交叉领域研究的深入,模型的可解释性将会被赋予更重要的意义,除机器学习算法研究本身的发展之外,从金融理论角度出发对模型进行解释应当是一个较为可行的研究方向。
(1)应用机器学习算法预测多个资产的价格现有关于资产价格预测的研究大都仅适用于单个资产,对多个资产的价格预测与配置的适用性尚需进一步的检验[15,35]。FISCHER等[31]与MALANDRI等[39]从数据标签设计的角度提供了可行的思路,但可能的研究方向不止于此。例如,与预测单个资产不同,资产之间的相关性可能影响多个资产预测的准确性,这是进一步研究需要解决的问题。另外,如何利用机器学习算法直接从历史数据中学习到最优的资产配置策略,也是资产配置研究中一个重要的方向。DENG等[35]提出的深度强化学习框架可能是这一问题的一个切入点。
(2)机器学习算法与经典投资组合模型的结合BAN等[42]和XING等[44,45]为机器学习算法在经典投资组合模型中的应用提供了两个截然不同的成功范例。从以上文献的角度出发,未来机器学习算法可能从两个角度应用于资产配置问题:①将机器学习算法本身包含的优化思想与经典投资组合模型相结合,探索模型的改进或是求解方法的优化;②利用机器学习算法处理市场数据,生成经典投资组合模型中需要的统计数据,为其实证研究提供帮助。对于后者而言,利用机器学习来度量资产的风险因素是一个可行的研究方向,这是经典投资组合模型中关注而现有文献中很少涉及到的。实际上,机器学习算法同样已被用于风险预测研究[49]。
通过梳理将机器学习应用于资产价格预测与配置问题的相关文献,本研究总结了机器学习在该领域的应用现状,包括常用的数据与算法、一般的应用框架,以及机器学习在分析这一问题时的适用性与局限性。在此基础上,从算法、数据及具体应用问题3个角度出发,进一步探讨和分析了应用机器学习来进行资产预测与配置研究的未来方向。
总体来讲,机器学习在资产价格预测与配置研究中表现出良好的适用性,进一步丰富和拓展了这一课题的实证研究。与传统研究相比,基于机器学习算法的资产价格预测与配置至少具有如下特点:①研究中所采用的数据体量更大、来源更加丰富、形式更加多样。与经典的计量方法相比,机器学习算法表现出更优越的数据分析能力,并且能够更好地从非结构化数据中提取信息,如社交媒体、财经新闻等传统方法难以处理的金融文本数据。这使得资产价格预测与配置方面的研究能够更加充分地利用相关的市场信息,从传统研究未能涉及的数据中挖掘与市场变动相关的变量,进而获得更准确的资产价格预测和更优的资产配置。同时,数据的多样性也对有效数据的筛选提出了更高的要求,为相关的实证研究带来了新的挑战。②相关研究的发展与计算机领域具有更加紧密的联系。机器学习算法的应用为资产将预测与配置这一课题的发展引入了来自计算机科学的思路和方法。一方面,性能更优的机器学习算法不仅提高了资产价格预测的准确性,也为资产配置研究提供了更多可能的优化算法;但另一方面,机器学习算法的“黑箱”性质使得其在具体问题中的应用往往很难具有可解释性,因而相关研究往往重实证而轻理论,更多地强调方法的有效性而非逻辑上的合理性。在机器学习算法本身的优化研究到达瓶颈之后,这一问题的存在可能会限制相关研究的进一步发展。由此可见,如何更加有效地将机器学习算法与相关的金融理论和实证研究结合起来,是这一领域需要进一步解决的关键问题,也是推动机器学习在其他金融领域进一步应用的重要步骤。