目前,人工智能面临的挑战有:一、人工智能很难定义问题;二、不能完全自动化地收集数据;三、好的应用模型还不能和业务逻辑完美结合。
—微众银行首席人工智能官杨强
首先,我们把人类学习和机器学习进行对比。人的大脑由很多个神经元组成,我们的神经元组成我们的机制。不同的神经元之间可能有连接,连接管道的粗细代表我们学习的强度。
人类学习新知识的时候,经常会接触一些新的概念,大脑会加强对新概念、新知识的记忆。我们可以把这个理念赋予计算机,形成我们熟知的计算机神经网络,也是我们今天深度学习得以成功的一个最基本的单元。一个神经网络有输入,也有输出,输入和输出之间的学习过程,会把两个神经元之间的连接加强或者减弱,形成一个网络。
人工智能的成功不仅取决于算法的成功,更取决于硬件方面的突破,以及大数据技术的发展。
人工智能算法的设计需要很多模型的支持,包括神经元和神经元之间的连接、深度学习网络等。那么由谁来搭建这样一个网络?这就需要人工智能工程师。
我们知道,人工智能领域的人才少、培养时间长、投入成本高。我们很自然会提出这样的问题,我们有没有可能用AI设计AI?这可以解决很多企业、行业所面临的AI人才严重不足的问题。要解决这样的问题,我们不妨看看人工智能解决此类问题的流程。
首先,我们要定义问题。我们把一个问题从现实场景,如金融、制作,变成人工智能的目标,我们把它称之为目标函数。同时,我们要定义问题解决时的约束条件,我们把这些约束条件变成数学公式,把行业中遇到的问题变成一个数学问题,这个过程就像艺术一样。但是这个过程很难自动化,很难用人工智能的方式进行改造。
其次,我们要收集数据。收集数据看上去很简单,但实际上需要很多人的力量。数据不一定在本地存储,很多数据需要通过人与人的沟通来获得,或者通过两个不同机构之间的战略联系来获得。并且因为监管的缘故,数据不能很简单地从一个地方传到另一个地方。所以,收集数据是不能实现完全自动化的。
假设我们有了足够的数据,我们还要在数据里抽取足够多的特征,形成可以训练模型的数据,再进行模型的训练和评估。特征的提炼工程、模型训练和模型评估,这三部分是可以实现自动化的。
最后,我们要凝聚力量来形成好的模型应用。因为这个应用要和业务的逻辑相结合,业务逻辑本身存储在很多人的大脑里,现在还不能用一个数学公式来表示。
现在有一个新的人工智能方向—AutoML,主要思想是把数据处理、特征处理、模型选择和模型优化全部自动化。不仅如此,它还需要把网络架构部分自动化,比如这些网络是如何连接的,他们连接的频度,对内和对外应该怎么设计才能使数学公式得到最佳的优化。
在只有小数据的情况下,如何享受到人工智能的红利?在企业,数据分散在不同的部门,不同的企业有不同的分散数据。比如在医疗上,如果利用人工智能,我们会发现不同的医院有不同的图像数据,现在还没有比较好的办法把这些分散的数据聚集在一起形成大数据。针对这个问题,人工智能技术设计者自然会设想一些新的算法。现在有一个算法可以很好地解决小数据的问题—迁移学习,所谓迁移学习就是用类比的方法把一个已经建立好的模型和一个有大数据的领域的知识迁移到只有小数据的领域。我们发现在成熟领域数据足够大的前提下,我们可以非常好地实现迁移学习。
我们的最终目的是获得一个好的模型,我们把这个模型类比成一只被饲养的羊,数据就像草一样,要想让羊吃到草,我们就要收集在不同的地方的草,就像我们到不同企业收集数据一样。但是现在我们不能把数据就像草一样堆集起来,我们就可以用另一种办法,让这只羊在草堆里走来走去,使得羊在草不挪地儿的情况下同样可以长大,这种做法就是联邦学习(Federated Learning)。
在云端的用户群中,每个手机其实都是一个用户,这些用户之间有很大的重叠性,因为每个手机收集的数据是差不多的,我们要利用横向学习建立刚才说的联邦学习模型,收集不同的用户特征,兼顾用户群的重叠性,利用这些重叠的用户不同的特征建立一個更好的模型。当用户和特征没有重叠,我们也有办法,我们将迁移学习和联邦学习结合起来,称之为联邦迁移学习。
最后,我要向大家介绍微众银行的AI。微众是一家互联网银行,7×24小时在线上运营。现在它的用户群数量在1.5亿以上,主要面向数百万的小微企业服务。
我们的AI部门现在的发力方向包括人脸识别、反欺诈、AI+广告营销、AI+新型数据,以及用联邦学习做风险控制模型等。
联邦学习的例子有很多,比如与供应链的结合、和新零售的结合等。同时我们发布了世界上第一个联邦学习的开源软件,并被Linux基金会承认接受。
(根据演讲内容整理,未经本人审核)