第七讲 计算机辅助分子设计方法

2020-03-19 05:08姚建华李佳徐雯丽蒋舒仰胡静李靖靖王宇飞
上海化工 2020年1期
关键词:描述符数据库系统性质

姚建华 李佳 徐雯丽 蒋舒仰 胡静 李靖靖 王宇飞

1中国科学院能量调控材料重点实验室,中国科学院上海有机化学研究所(上海 200032)

2郑州工程技术学院 (河南郑州 450044)

众所周知,一个化合物的性质与其化学结构式关系密切。通常做的分子设计或化合物设计,本质上是要设计一个具有某种特定功能/性能的化合物。人们关注的目标是化合物的功能/性能,而非化合物的几何结构。

国际纯粹与应用化学联合会(International Union of Pure and Applied Chemistry,(IUPAC) 是世界化学命名、术语(包括周期表中新元素的命名)、标准化测量方法、原子量和许多其他重要评估数据的权威机构,并为全球化学界提出开发和维护创造共同语言的建议。在IUPAC出版的化学术语概略(Compendium of Chemical Terminology)[1]书中,分子设计的定义如下所述:所谓分子设计,即采用各种技术去发现具有潜在应用所需的特定性质的新化学实体。计算机辅助分子设计的定义为:所谓计算机辅助分子设计,即采用各种计算机辅助技术,开展发现、设计和优化具有特定结构和性质的化合物的工作。

本文将介绍用于分子设计的计算机辅助方法。

1 经验型分子设计

经验型分子设计是以设计者的经验及相关理论为依据,设计具有特定功能/性能的化合物,其工作流程如图1所示。

图1所示的经验型分子设计工作流程表明,工作人员根据灵感和经验,以及已有的研究报道,提出一个可能具有某种功能/特性,且未见报道的化合物结构。采用合成方法获得该化合物后,用对应的实验方法,测试该化合物的相关功能/特性。如果实验测试结果符合设计要求,那么该化合物的分子设计工作即完成。如果实验测试结果不符合设计要求,设计者则根据经验和灵感,修改化合物的化学结构,然后进行合成、实验测试。如果实验测试结果仍不符合设计要求,则重复前一过程,直到获得符合设计要求的化合物。

图1 经验型分子设计工作流程示意图

2 计算机辅助分子设计

IUPAC关于计算机辅助分子设计的内容包含三部分:化合物发现、设计和化合物结构优化。可以认为,所谓化合物发现是利用计算机辅助技术在自然界的动物、植物和矿物中发现具有特定功能/性能的化合物;所谓化合物设计是利用计算机辅助技术设计具有特定功能/性能的化合物;所谓化合物结构优化,即利用计算机辅助技术对那些具有特定功能/性能的化合物结构的取代基团及其位置作适当调整,以起到提高化合物性能的作用。

计算机辅助分子设计的方法主要有三种:基于数据(D)、基于逻辑(L)和基于原理(P)(如图 2所示)。基于数据即是利用数据库系统,获得相应的化合物功能、性质和化学结构等数据;基于逻辑即是利用功能/性质与结构之间的关系及规则,根据化合物的化学结构预测它的可能功能/性质;基于原理即是利用量化计算方法,根据化合物的化学结构,计算化学结构对应的相关物化参数,并根据参数,推测可能的功能。一般而言,人们关注的化合物功能/性质取决于化合物的应用领域,它们的预测策略和方法因应用领域不同而不同。如,医药或农药领域,化合物的生物活性预测,需要同时关注化合物的化学结构以及作用靶标信息;材料领域,材料的性能不仅与单种成分化合物的性质相关,还与配方中所有化合物的性质及它们之间的相互作用相关。

图2 三种计算机辅助分子设计方法

图2 所示的In house数据库系统,一般为自建的数据库系统。通常,In house数据库系统由两部分组成:数据库管理系统和数据库。数据库管理系统是用于管理和查询数据库中的数据;数据库中包含的结构化的数据,可以是本单位自用的专用实验与计算研究数据,也可以是专门从文献中采集的化合物及其特定性质数据。

图2所示的基于逻辑的性质预测系统,具有根据化合物的化学结构预测其相关性质的功能。而基于原理的方法,通常是利用程序计算一些参数,根据这些参数预测相关的性质。

计算机辅助的分子设计的流程如图3所示。

图3 计算机辅助分子设计的流程

图3 显示的流程表明,计算机辅助分子设计过程中,先利用数据库系统查询凭经验和灵感设计出的化合物是否已存在(即基于数据的方法)。如果数据库中已收录了对应的化合物,则需要根据预测模型、经验和灵感修改化合物结构;如果该化合物尚未被收录到数据库中,则需要利用结构与性质之间的关系及规则,预测该化合物的性质;如果预测结果符合设计要求,则进入合成阶段;如果不符合要求,设计者则需要根据预测模型、经验和灵感优化化合物结构,利用基于数据的方法,判断该化合物是否被数据库收录;利用基于逻辑或原理的方法预测该化合物性质,并判断是否符合设计要求;重复这个过程,直到获得预测结果符合设计要求,然后进入合成阶段。之后的工作流程与经验型的基本相同。

自1946年计算机问世,化学数据管理系统就是化学家们期盼的文献和数据查询工具。早在20世纪50年代,美国国家标准化办公室数据处理部门的工作人员,在《科学(Science)》杂志发表了题为“用数字化计算机查找化学记录”的文章[2]。在这篇文章中,作者介绍了化学数据、化合物结构计算机处理的一些方法和策略,以及当时已建立的SEAC[NBS(National Bureau of Standards)Electronic Automatic Computer]系统。

由于计算机系统的不断更新,对应的化学数据管理系统一级数据库结构也随之不断更新升级。从单机版的化学数据库系统,逐步转化为“Client/Server”,现在已更新为“基于网络”的系统。“基于网络”系统的优点是:数据及其管理系统的维护及时且方便。目前,在化学及相关领域常用的商业化合物数据库系统有:美国化学文摘社的SciFinder[3],BIOVIA公司的化合物毒性数据库系统、化合物代谢数据库系统、可用化学品目录数据库系统[4],爱斯唯尔的Reaxys化学数据库系统等等[5]。In house或非商业化学数据库系统一般不公开,这里只介绍一下中国科学院上海有机化学研究所姚建华团队建立的一些非商业专用的化学数据库系统,如化合物疏水常数数据库系统、农用化学品数据库、食品添加剂信息管理系统和危险化学品信息查询系统等等[6]。

关于化合物性质预测的工作,在20世纪40年代就有人提出化合物生物活性与它的化学结构相关的概念[7]。目前,化合物性质预测的方法主要有以下三大类:(1)以分子描述符[8]为自变量,性质为因变量的方程式作为预测依据;(2)以实验得到的规律作为预测依据的专家型推理;(3)以分子结构信息与性质的对应关系为预测依据。

第一类预测方法大多通过已有的软件计算多种的分子描述符,分析这些描述符与性质的相关性,建立对应的方程式,并用于预测化合物性质。这种方法的优点:软件开发的工作量不大;不足之处:必须依靠计算分子描述符的软件。

第二类预测方法通过收集已报道的实验总结得出的结构与性质关系,比较被预测化合物结构与规则相符度,预测化合物的性质。这种方法的优点:有效地利用了实验结果;不足之处:实验规则数量的有限性。

第三类预测方法通过收集已报道的实验结果,分析化学结构与性质之间的关系,建立化学结构与性质的关系模型,并用于预测化合物性质。这种方法的优点:有效地利用了实验结果及其结果中隐含的规则;不足之处:软件开发工作量极大。

分子描述符主要包含以下10大类:拓扑类(topological)、 几 何 类 (geometrical)、 电 子 类(electronic)、物化类 (physicochemical)、指纹类(fingerprints)、官能团类(functional groups)、特性类(properties)、电荷类(charge-related)、半经验类(semi-empirical)和热力学类(thermodynamical)。描述符计算软件各自定义描述符类型及其计算方法。

目前,现有的分子描述符的计算软件主要包括几类[9]:ADAPT,ADMET Predictor,ADRIANA.Code,CODESSA,DRAGON,GRID,ISIDA,MARVIN Beans,MOE,MOLCONN-Z,MOLGEN-QSPR,PowerMV,HyperChem[10]和Gaussian[11]等等。其中部分软件还具有描述符与性质的关系数据分析功能,如CODESSA和DRAGON等。

第二类预测方法的软件有DEREK(Deductive Estimation of Risk from Existing Knowledge)[12],该软件可用于预测化合物的毒性。

第三类预测方法的软件有PASS[13]、CISOCPSMT、CISOC-PSAT 和 CISOC-pKa 等[14]。

在计算机辅助分子设计工作中,常用的预测软件有:PASS,Sybyl(原 Tripos公司的产品),CoMFA(Comparative Molecular Field Analysis)[15],CoMSIA(Molecular Similarity Indices in a Comparative Analysis)[16],DEREK,MultiCASE[17],CISOC-PSCT,CISOC-PSMT,CISOC-PSAT,CISOC-logP,CISOC-pKa,CISOC-logS[14],TOPKAT,Discovery Studio 和Material Studio[18]等等。其中,PASS,Sybyl 和Discovery Studio适用于药物或农药研发中化合物生物活性的预测;Material Studio适用于材料研发中化合物物化参数和材料性能的预测;DEREK,MultiCASE,CISOC-PSCT,CISOC-PSMT,CISOCPSAT和TOPKAT可用于预测化合物的毒性;CISOC-logP,CISOC-pKa和CISOC-logS分别预测化合物的疏水常数、酸碱解离常数和水溶解度。

与经验型的分子设计相比,计算机辅助分子设计有效提高了分子设计的效率和精准性,降低了实验的盲目性和化合物设计过程中产生的不符合设计要求的化合物数量,降低了实验废弃物处理工作量。

猜你喜欢
描述符数据库系统性质
基于结构信息的异源遥感图像局部特征描述符研究
随机变量的分布列性质的应用
完全平方数的性质及其应用
基于AKAZE的BOLD掩码描述符的匹配算法的研究
九点圆的性质和应用
Oracle数据库系统的性能优化研究
基于深度学习的局部描述符
厉害了,我的性质
微细铣削工艺数据库系统设计与开发
江苏省ETC数据库系统改造升级方案探讨