何大安
从机器学习在新科技应用中扮演的角色考察,无论是以许多简单模型代替单一复杂模型,进而得到大量计算机服务器支持并广泛运用的“数据驱动法”,还是以计量经济学为底蕴从而将人工智能作为通用技术使用的分析方法,机器学习都将成为赫然贯穿其间的主要技术方法。
(一)机器学习技术及其类型不断提升的过程,是大数据金融发展的过程,这个过程代表着金融运行的未来趋势
机器学习是指通过对海量数据之多维度的分析处理,甄别和剔除扭曲信息和错误信息,通过搜寻真实或准确信息来实现最大化决策的一种匹配大数据的人工智能方法。学术界根据机器学习的特征,将之分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning)三种类型。监督学习与无监督学习之间的区别,在于学习过程中有没有标签的数据样本。对于大数据金融来说,由于不同金融产品具有不同资本属性,具有不同的价格数据,金融机构通常会运用具有回归算法和分类算法的监督学习,按照数据输入和输出的一般法则,通过建模对这些数据展开机器学习。另一方面,在大数据金融的运行中,基于任何一种金融产品都不明显具有反映明确收益的特征,金融机构也会运用没有数据样本标识的聚类算法来进行无监督学习,以期通过机器学习来体验和匹配各种不同金融产品的大数据,进而运用于自己的决策。不过,针对大数据金融之数据多维度的复杂性,监督学习和无监督学习只是金融大数据走向大数据金融中的基础性机器学习方法;它们通常局限于历史数据,对现期数据的匹配还有相当大的距离,至于把未来数据转化成“算法”则是很遥远的事。目前正在广泛运用的强化学习(Reinforcement Learning),是一种在动态环境中不断试错从而努力使决策最大化的人工智能算法;强化学习比较适合于金融机构对短期金融品种的经营,能在一定程度和范围内匹配现期数据,但它还是望尘莫及于未来数据。随着大数据金融的进一步发展,金融机构开始使用迄今为止最先进最深邃的深度学习(Deep Learning)方法,机器深度学习方法之所以被广泛运用于大数据金融,是因为它将以大数据的多维度为锲入口,通过多层次神经网络的设计,把低层级特征数据与高层级特征数据相结合,以揭示大数据的分布特征;深度学习推动了人工智能技术的进一步发展,但它仍然不能处理和匹配现期数据和未来数据。大数据金融的未来发展趋势,是具备顶级新科技的金融机构能够匹配现期数据和未来数据,这要求金融机构以机器学习为代表的人工智能技术的快速提升。
(二)大数据思维会代替过去只依据部分数据进行推论的因果思维,随着大数据金融的发展,在将来金融机构的因果推断中机器学习会得到越来越多的应用
大数据思维本质上仍然是因果思维,但较之于过去那种只依据部分数据进行推理的因果思维,它是建立在决策信息来源于大数据这个推论之上的,大数据思维反映了工业化时代人类运用有限样本数据不能准确剖析事物因果关系从而不具有总体性和相关性的缺陷;关于这个问题,舍恩柏格曾通过对大数据分析如何提示人类取舍信息的解说,對大数据思维是一种包含总体思维、相关思维、容错思维和智能思维的模式作出了论证。总的来讲,金融机构投资经营的效用函数会驱动他们放弃传统因果思维模式,金融大数据的极大量、多维度和完备性等特征,会要求金融机构采取容纳总体思维、相关思维、容错思维和智能思维的大数据思维模式。
机器学习之于选择行为的预测,越来越显示出机器学习在因果推断中的极强应用前景。计量经济学融合机器学习方法是一种学术趋向。从学科发展和大数据金融的未来发展考察,有一点几乎可以肯定,那就是这种融合会产生一种以机器学习为主、经济计量为辅的格局。这可从以下两方面说明:1.基于利用常规倾向性得分匹配法(Propensity Score Matching)得出的估计难以在协变量众多的前景下进行,机器学习可以采用套索算法(LASSO)和随机森林(Random Forest)等方法来筛选众多协变量,以代替传统步骤对大数据进行的匹配;2.机器学习重视因果推断中的异质性处理效应(Heterogeneous Treatment Effect),这将在很大程度上弥补过去因果关系推断只关注平均处理效应(Average Treatment Effect)的不足。金融大数据包含众多协变量,它在数据匹配和数据异质性处理等方面,一定会随大数据金融之覆盖面的进一步拓宽而复杂化,因而机器学习方法的应用空间是巨大的,这是其他人工智能手段无法比拟的。大数据金融中的机器学习应用空间拓展的效应,突出反映在金融机构对现期数据和未来数据的挖掘、加工、处理和匹配上。对于金融机构来讲,如果他们的数据智能化达到很高乃至于达到顶级水平,那便意味着机器学习将会深入应用到各种金融产品及其组合的相对准确的预测上,投资效用是很高的;反之,则表明金融机构驾驭金融大数据的能力还处于较低层级,意味着机器学习的应用水平还有很大的提升空间。
(三)在大数据金融的实际运行中,金融机构的决策行为仍然是理性选择,他们具有怎样的数据智能化层级就会有怎样的效用函数值
金融大数据的完备性和极大量具备了提供完备信息的基础,金融机构可通过5G通信、互联网、物联网、传感器、定位系统、社交媒体等,去搜集、整合和分类各种金融产品的大数据;可通过云平台、云计算、机器学习、物联网、区块链等人工智能手段,去加工和处理各种金融产品的大数据,于是,信息约束的局面将随金融机构能够从金融大数据中获取大量信息而逐渐被打破。就认知约束而论,金融机构可通过云平台、云计算、机器学习等人工智能手段,通过对金融大数据进行多维度分析以取得正确认知,从而使认知形成过程由以前明显夹带主观判断的分析路径转变成主要依靠新科技的认知路径。这种转变实际上是改变了金融机构的理性选择的内容和过程,以至于悄然改变了金融机构的认知函数、偏好函数和效用函数,值得经济学家深入思考和研究。大数据金融实践在理性选择理论上向我们展现的基本分析线索和画面,既不是传统理论在“经济人假设”基础上通过给定条件约束和运用严密数理逻辑推论所得出的何种选择才符合理性,也不是运用大量数学模型来解释什么样的选择才是能实现最大化的理性。结合机器学习等人工智能手段的运用来理解,这种画面可以解释为是“人与数据对话”以及“数据与数据对话”。需要说明的是,这两种对话形式与经济行为主体的新科技层级相关联。
如上所述,依据云平台、云计算、网络协同、机器学习等人工智能技术的掌握和运用,我们可把金融机构划分为掌握新科技的低级层级、中级层级和高级层级的决策主体;易言之,金融机构运用机器学习等技术手段加工和处理金融大数据的能力,从而取得什么样的效用函数的能力,是由他们的新科技层级决定的。
在全球经济一体化的背景下,金融机构面对错综复杂的金融产品的价格波动,要实现效用函数最大化,必须能够对金融大数据有挖掘、加工和处理的能力,这是我们反复强调的。但从严格意义或高标准要求来讲,金融机构必须具有将客户和竞争者的偏好和认知等转化为“算法”的能力,这便要求金融机构在掌握和运用机器学习方法的同时,还能够掌握和运用诸如逻辑推理、概率推理、专家系统、语音识别、自然语言处理等人工智能技术。金融机构进入新科技的顶级层级的标志,是能够挖掘正在发生的现期数据和尚未发生的未来数据,因此,问题的讨论又回到了机器学习这一人工智能技术的掌握和运用上。