李俊玲,李咸璞
(1 中国石油大学(华东)理学院,山东 青岛 266580;2 北京林大学生命科学与技术学院,北京 100083)
广义的算法(Algorithm)是指解题方案的准确而完整的描述,是解决一系列问题的分步指令。现代算法代表着用系统的方法描述解决问题的策略机制。工业的发展催生了现代算法,现代算法被广泛运用于各种控制系统,代替人工进行批量、分步的工作;也可用于大批量、程序化的复杂数据处理。
化学工序就是广义上的算法,从古人制作肥皂到现代药物合成,化学工业作为最古老的工业概念处处离不开算法。现代化工在化工设计、机器控制、检测工序、工艺开发等方面都有算法的应用。在实际生产过程中,为确定最佳工艺参数,需要做大量工作,反复实验,耗费大量人力物力。通过机器学习可以根据工艺过程中内部机制构建虚拟模型,优化实验模式,有效设计及优化系统和工艺过程,提高生产效率,提高经济效益。随着计算机技术的进步,基于编程的高级算法有了长足的发展。机器学习作为一种高级算法为化学化工研究提供了一种高效手段。
机器学习算法(程序)即使用计算机模拟或实现人类的学习行为,组织已有的数据以获取新规律的一大类算法(程序)。目前由于电脑可以处理的数据量远超人类,所以机器学习算法可以取代人工完成以前不可想像的宏大数据处理任务。但是,目前机器学习算法的自我学习性、创新创造性还远不如人脑。
机器学习应用于化工研究的优势在于其高效性。机器学习算法减少了建立复杂的数据模型带来的困难,能够处理非结构化数据,能够处理大数据量,还可以有效利用历史数据。适合分析过程复杂问题以及一些不易数学建模的抽象问题。
逻辑回归、向量机、最大熵等浅层机器学习算法在20世纪90年代就已出现,但是局限于当时匮乏的样本和赢弱的计算能力,使计算机寻找关联数据间复杂函数的能力有限。于是,基于机器学习的人工智能在当时并没有得到大规模的应用。
进入21世纪后,随着计算机存储大量数据的成本下降、高性能运算能力的提升,以及算法的持续优化,基于机器学习的应用最终产生了革命性的突破。在合理时间内训练有效的神经网络模型的可行性证明了这种方法在电子商务、游戏、医学、图像分析、人脸识别和自动驾驶等领域的应用潜力[1]。如Tesla公司使用基于机器学习的神经网络算法开发了自动驾驶程序,该程序通过实时处理摄像头的画面识别道路、车辆和行人,从而配合其他硬件实现自动驾驶功能。2020年第四季度,Tesla公司凭借自动驾驶新能源汽车,市值超过通用、丰田等传统车企,达到一万亿美元,成为全球市值最高的汽车公司。
机器学习通过对大批量数据的反复分析,不断优化自身处理数据的模型,从而在大批量的数据中寻找客观事物的相互联系,形成高效分类、预测或者决策的新算法。
化学研究经常要面对十分复杂的物质体系和实验过程,实验过程中需要处理大批量的实验数据,从而很难通过化学物理原理进行精准的分析和判断。
基于机器学习的人工智能算法可以替代人类进行重复冗杂的简单工作,挖掘化学实验中产生的海量实验数据的相关性,帮助化学家做出合理分析预测,加速化学研发过程甚至挖掘创新点。
R语言和Python是两种机器学习最常用的工具。每一个工具都有其优缺点,但Python最近在各个方面都略有胜出。Scikit-Learn库包含有完善的文档和丰富的机器学习算法。本文重点介绍基于Scikit-Learn库的Python语言机器学习方法。
(1)选择数据分析模型
根据实际需要明确分析数据的模型,为选择具体算法作准备。现有模型大致分为三类。
监督学习:从成对已经标记好输入和输出的经验数据中进行学习,用来预测输出结果,是从有正确答案的例子中学习。常用于分类、回归。如:k值近邻回归算法(k-Nearest Neighbor Algorithm for Regression)、局部加权回归算法(Local Weighted Regression)、线性回归算法(Linear Regression)等。
无监督学习:无经验判据,给出在数据中发现一些规律。常用于聚类、降维。如:基于密度的聚类方法(DBSCAN)、用高斯混合模型(GMM)的最大期望(EM)聚类算法等。
半监督学习:又叫增强学习,介于监督学习与无监督学习之间,问题可以通过决策来获得反馈,但是反馈与某一个决策可能没有直接关系。
(2)数据的收集与加载
收集实验数据或样本数据,将数据加载到内存中。
定义X特征物数组和Y目标变量的值。
(3)数据标准化
基于梯度方法的机器学习算法对于数据的缩放很敏感。在运行算法之前,需要进行标准化或规格化。
标准化包括替换所有特征的名义值,让它们每一个的值在0和1之间。而对于规格化,它包括数据的预处理,使得每个特征的值有0和1的离差。Scikit-Learn库已经为其提供了相应的函数。
(4)特征的选取
解决问题的重要方法就是抓重点,利用机器学习解决问题就需要我们提前定义数据的特征,这个过程叫做特征选取。通过定义数据不同特点的不同权重,使计算机可以按照要求发现数据中的规律。
约76%的受访学生表示不满意。随机抽样访谈中,受访学生对教材的意见集中为:(1)文化内容少,编排不连贯;(2)主题陈旧过时、枯燥乏味;(3)文化点注解不够详细,甚至没有注解。
(5)算法的选择与开发
根据不同的样本、不同的目的选择合适的算法。Scikit-Learn库已经实现了所有基本机器学习的算法。下面介绍几种常用机器学习算法。
①逻辑回归
大多数情况下被用来解决分类问题(二元分类),但多类的分类(所谓的一对多方法)也适用。这个算法的优点是对于每一个输出的对象都有一个对应类别的概率。
②朴素贝叶斯
最有名的机器学习的算法之一,它的主要任务是恢复训练样本的数据分布密度。这个方法通常在多类的分类问题上表现的很好。
③k-最近邻
④决策树
分类和回归树(CART)经常被用于问题中对象有可分类的特征且被用于回归和分类问题。决策树很适用于多类分类。
⑤支持向量机
支持向量机(SVM)是最流行的机器学习算法之一,它主要用于分类问题。同样也用于逻辑回归,SVM在一对多方法的帮助下可以实现多类分类。
除了分类和回归问题,Scikit-Learn还有海量的更复杂的算法,包括了聚类,以及建立混合算法的实现技术,如Bagging和Boosting。
蛋白质计算设计是利用原子物理、量子物理、量子化学等理论揭示微观粒子能量、运动与相互作用规律从而达到人工设计蛋白质目标的技术。也有部分蛋白质设计研究以统计能量函数为算法依据。研究者在计算机的辅助下,通过运用分子对接(Molecular docking)、分子动力学模拟(Molecular dynamic simulations)、量子力学(Quantum mechanics)方法、蒙特卡罗(Monte Carlo)模拟退火(Simulated annealing)等一系列计算方法[2],预测并评估数以千计的突变体在结构、自由能、底物结合能等方面的变化。基于计算结果,从中筛选可能符合改造要求的突变体并进行实验验证(如突变体能否正常表达、折叠及行使预期功能等);再根据实验结果制定下一轮计算方案,循环往复直到获得符合需求的蛋白质。
蛋白质突变体及其对应的实验数据本身是无法被机器学习算法直接识别的,其序列、结构、功能等特征(Feature)信息必须以向量或数组的形式展现出来,才能构建被机器学习算法识别的模型。模型的好坏取决于特征提取。以氨基酸在蛋白序列上的位置信息为特征,是比较常见的处理方式;另外,氨基酸残基位点的理化性质(如带电性、亲疏水性、侧链空间体积等)或所处的二级结构信息均可作为特征。问题在于应优先选取哪些特征,以及这些特征能在多大程度上决定蛋白质拟改造性能是需要进行考量的[3]。
目前已经有一些蛋白质/氨基酸特征工具箱可供参考,一旦特征提取之后,将交付机器学习算法进行学习并生成可以描述数据模型的目标函数,并对蛋白质序列进行虚拟进化,通过训练和测试评估效能,最终给出预测结果(表1)。
表1 近5年机器学习在蛋白质设计的部分应用Table 1 Applications of machine learning- guided protein design in 5 years
化学信息学(chemoinformatics)是一门应用信息学方法解决化学问题的学科。其主要任务之一是基于化合物二维(2D)或者三维(3D)结构发展能够预测化合物潜在性质的模型,该模型基于的基本假设是“相似的分子具有相似的性质”。这一假设也被称为构效关系(structureacitivity relationship,SAR),用来建立化合物结构与性质之间的相关性。定量构效关系(quantitative structure-acitivity relationship,QSAR)是在构效关系的基础上,结合物理化学中常用的经验,使用数学模型来描述分子结构和分子的某种生物活性之间的关系。其基本假设是化合物的分子结构包含了决定其物理,化学及生物等方面的性质信息,而这些理化性质则进一步决定了该化合物的生物活性。定量构效关系核心方法是美国波蒙拿学院的Hansch在1964年通过Hansch方程提出,方程由lgP疏水参数,ES立体参数,σ电性参数组成。Hansch模型引导了经典QSAR理论的发展。其后QSAR的研究被大量用于预测化合物的药代动力学性质,如吸收、代谢、分布和毒性。构建QSAR模型一般需要3个主要步骤:生成已知化合物测量性质的训练集;编码关于化合物的化学结构的信息;建立数学模型,从编码的化学结构信息预测测量的性质。在训练集已知的前提下,通常一个QSAR模型的构建会涉及以下两个过程。
(1)编码过程:将一个化合物转化成有效的表征。通过化学专业知识设计出描述化合物性质的分子描述符,从而计算出用来表征化合物性质或者拓扑结构的x,即模型的输入特征。
(2)映射过程:即模型构建过程,发现一个函数f使得输入特征x与目标性质y之间产生经验性的联系,即y≈f(x)。早期的QSAR模型先是基于线性回归模型和贝叶斯神经网络,随后是RF和SVM。但是这些模型都依赖于特征的设计和选择。而近年来发展的基于深度学习的QSAR模型也逐渐参与到了研究工作中。下面就基于模型框架的类型分别讨论近年来深度学习技术在QSAR中的进展情况。
深层神经网络(deep neural network,DNN)框架是最传统的一套深度学习框架,在QSAR中,该模型的能力得到了很好的应用。Dahl和Hinton带领的团队在2012年首次将深度学习引进QSAR中,并赢得了Merck赞助的Kaggle比赛。在15个药物靶标的预测比赛中,DNN模型的平均R2(皮尔森相关系数平方)以0.494的成绩打败了RF模型(0.420)[9],虽然优势微弱,但是这是首次打破RF模型冠军地位的模型。该方法数据的编码采用“atom pair”描述符(来自Carhart等[10])和“donor-acceptor pair”描述符(来自Kearsley等[11])。其描述符的基本模式是:原子i—(键距)—原子j。在映射过程中,该方法建立在一个简单的DNN框架上,加上了避免梯度消失的ReLU激活函数,采取了先前提到的dropout和无监督预训练的训练策略,然后利用批量随机梯度下降法[12]对模型进行训练以及优化,从而建立了药物和靶标之间的映射关系。该方法后来被Merck团队在扩充的数据集上进行综合性的评估和分析,他们发现该DNN方法能够在很多任务上轻松地超过RF模型,并强调了该方法可以作为一种实用的开发QSAR模型的技术[13]。
从分子编码技术在深度学习中的应用来看,基于机器学习的原子水平特征输入在逐渐取代基于分子描述符或分子指纹的特征输入,这说明深度学习拥有足够的能力从原子层面提取支持分子水平预测的信息,印证了其强大的特征提取能力。
4.3.1 靶点识别
靶点是药物研发的基础,药物靶点的识别在药物研发过程中尤为重要。近年来越来越多的研究表明,相对于未知的靶点,已发现的靶点只是冰山一角。通过人工智能辅助预测药物靶点,可以大大缩短靶点发现周期,对药物研发具有重要意义。
决策树算法可用于预测药物靶点。Costa 团队[14]基于决策树来预测与疾病相关的基因,发现了多种转录因子在代谢通路和细胞外定位中的调控作用。
基于蛋白靶点的化学结构和几何特征,Nayal 团队[15]选取了 99 个蛋白的 99 个药物结合位点和1187 个非药物结合位点,构建了一个随机森林分类器来预测成药靶点。
Kumari 团队[16]结合自助法(bootstrap)采样提升了随机森林算法,成功从非药物靶点中区分出了药物靶点。针对乳腺癌、胰腺癌和卵巢癌等疾病,Jeon等[17]利用一系列基因数据集构建了一个 SVM 分类器,可将蛋白分为药物靶点和非药物靶点 2 个类别。
4.3.2 靶点筛选
药品的有效分子在人体内可以同时作用多个靶点,但如果作用于非靶向受体就会引起副作用。机器学习算法可以辅助对预备化合物的筛选,更快找出作用于特定靶点且具有较高活性的化合物。
决策树模型可用于拓扑异构酶Ⅰ抑制剂的分类和预测。利用低维QSAR描述符建立决策树,Neugebauer 等[18]成功预测了与蛋白相互作用的抑制剂,并利用模型进一步精细决策树得到真阳率更高的蛋白相互作用抑制剂。王洁雪等[19]采用决策树与随机森林2 种机器学习方法分别对脾酪氨酸激酶(spleen tyrosinekinase,Syk)抑制剂与非抑制剂建立模型,经过对比,随机森林具有更好的预测精度,采用随机森林模型对Syk 抑制剂进行虚拟筛选,从 ZINC 分子数据库筛选得到潜在的 Syk 抑制剂分子。Warmuth 等[20]利用 SVM方法生成最大间隔超平面来从一系列化合物中分离出活性化合物,结果表明 SVM 的分类效果强于其他模型。Poorinmohammad 等[21]建立 SVM 分类模型对抗人类免疫缺陷病毒(human immunodeficiency virus,HIV)肽进行分类,预测准确率达到了 96.76%。
随着机器学习与化学研究的不断发展,将会出现更加可靠、高效的机器学习工具参与到实际的应用中,为衍生模型、参数及其潜在的分子机理解析创造更多的研究手段,加速我们对微观结构-宏观功能关系的深入认识。
同时希望越来越多的数据库能够开放接口给化学工作者们使用,同时化学工作者共享最新实验数据,结合数据的标准化,将极大推动有学领域机器学习的发展。未来,化学界应该努力打破不同研究机构、高校和组织之间的数据壁垒,以更加开放的姿态共同推动化学领域的理性化进程。