惠庆丹,马 羚,焦 龙
(西安石油大学化学化工学院,陕西 西安 710065)
生产具有可控,的且能释放大量能量的高能化合物是[1]高能材料化学研究的重点。由于唑类化合物的密度与爆轰性能成正比,所以在分子设计的过程中,设计出密度大的物质,其对应的爆轰性能就越大。由于合成新的唑类化合物既耗时又成本高,因此,最好省略任何一个不良的候选化合物。这可以通过在早期阶段的预测方法来获得[2]。定量构效关系(QSAR)是一种已知且可靠的方法,可以有效地预测唑类化合物的理化性质。
全息定量构效关系(HQSAR)是一种利用分子全息作为描述符的巧妙的QSAR方法,分子描述符可以快速地处理大量数据。它不仅避免了二维QSAR方法中获取结构描述符的大量计算,也避免了3D-QSAR方法中需要优化结构[3]。此外,在预测能力方面,HQSAR高于2D-QSAR,与3D-QSAR相当。
这些特点说明HQSAR技术可用于筛选大型化学品数据库。本文研究的目的就是建立可靠的HQSAR模型来预测唑类化合物的密度。
所研究的121种唑类化合物的密度来自参考文献[4]。将121个多亚硝基芳烃化合物按5∶1的比例随机分为两个样本集,即训练集(Group 1)和测试集(Group 2)。用于建立HQSAR模型的训练集包括96个样本,用于评估所开发的QSAR模型预测性能的测试集包括25个样本。
所有的计算都是在i5-7200U/4G-RAM个人计算机上进行的,与HQSAR建模相关的计算在SYBYL-X2.0软件(Certara,美国)中进行,其他的计算都是用我们的研究小组开发的程序进行的。
HQSAR是Hurst等人提出的一种特殊的QSAR方法[5],是分子全息和偏最小二乘法(PLS)一种创造性的结合。分子全息是分子指纹的一种扩展形式,是将化学结构表示转化为二进制的基于分子片段的描述符。所有的可能的分子片段包括环状,分支,重叠和线性等这些特征。
分子全息图实际上是一个包含分子片段计数的阵列,分子片段用Sybyl谱线法(sybyl line notation SLN)描述[6]。这是一种通过使用短的ASCll字符串来明确描述分子片段、结构、反应查询、结构库、配方、分子的规范。
建立最佳的HQSAR模型需要优化两个参数“fragmentdistinction”和“fragmentsize”。在Sybyl中,默认“fragmentsize”为4-7,fragmentdistinction包括原子(A)、化学键(B)、连接性(C)、手型(Ch)、氢原子(H)、质子的供体和受体(DA)[7]。不同类型的fragmentdistinction可以自由组合,所有的可能的片段都是由S原子生成的(S是M和N之间的整数)。M的值应该小于N, M一般大于2,N的值一般不超过12,并且不超过分子中的原子数。在设置好“fragmentdistinction”和“fragmentsize”,循环冗余校验(cyclic redundancy check, CRC)是通过将每个片段映射到0~231范围内的整数。每个整数对应一个固定长度的整数组中的一个序列,它表示分子全息图的长度。在sybyl软件的HQSAR模型中,L通常是从53到401的12个质数之一,L通常设置分别为97、151、199、257、307和353。分子位串指纹包含0,它通常没有有效的信息。在后续的PLS建模步骤中,计算时间随指纹长度的增加而增加,更重要的是,这些“0”可能会阻碍PLS模型的后续计算。这种增加可以通过“哈希”的过程来阻止时间的延长,该过程将多个碎片分布到指纹的相同位置[8]。
(1)
(2)
(3)
(4)
(5)
(6a)
(6b)
(6c)
(6d)
表1 不同“fragment distinction”建立的HQSAR模型的统计参数
表2 不同“fragment size”建立的HQSAR模型的统计参数
表3 外部测试集验证法和留一交叉验证法的统计参数
图1 HQSAR模型密度实验值与预测值对比图
从外部测试集验证和LOO-CV的结果可以推断,HQSAR模型有良好的预测能力。
采用新开发的基于分子全息的QSAR方法来预测唑类化合物的密度值,结果表明,该HQSAR方法对唑类化合物的密度值具有较高的预测能力,唑类化合物的预测密度值与实验值非常接近。此外,基于分子全息的HQSAR模型可以快速、轻松地发展,具有很高的统计意义和预测能力,因此HQSAR技术是一种筛选和预测唑类化合物密度很有前途的工具。