唑类化合物密度的全息定量构效关系模型研究*

2022-05-17 07:45惠庆丹
云南化工 2022年4期
关键词:类化合物全息指纹

惠庆丹,马 羚,焦 龙

(西安石油大学化学化工学院,陕西 西安 710065)

生产具有可控,的且能释放大量能量的高能化合物是[1]高能材料化学研究的重点。由于唑类化合物的密度与爆轰性能成正比,所以在分子设计的过程中,设计出密度大的物质,其对应的爆轰性能就越大。由于合成新的唑类化合物既耗时又成本高,因此,最好省略任何一个不良的候选化合物。这可以通过在早期阶段的预测方法来获得[2]。定量构效关系(QSAR)是一种已知且可靠的方法,可以有效地预测唑类化合物的理化性质。

全息定量构效关系(HQSAR)是一种利用分子全息作为描述符的巧妙的QSAR方法,分子描述符可以快速地处理大量数据。它不仅避免了二维QSAR方法中获取结构描述符的大量计算,也避免了3D-QSAR方法中需要优化结构[3]。此外,在预测能力方面,HQSAR高于2D-QSAR,与3D-QSAR相当。

这些特点说明HQSAR技术可用于筛选大型化学品数据库。本文研究的目的就是建立可靠的HQSAR模型来预测唑类化合物的密度。

1 实验部分

1.1 数据集

所研究的121种唑类化合物的密度来自参考文献[4]。将121个多亚硝基芳烃化合物按5∶1的比例随机分为两个样本集,即训练集(Group 1)和测试集(Group 2)。用于建立HQSAR模型的训练集包括96个样本,用于评估所开发的QSAR模型预测性能的测试集包括25个样本。

所有的计算都是在i5-7200U/4G-RAM个人计算机上进行的,与HQSAR建模相关的计算在SYBYL-X2.0软件(Certara,美国)中进行,其他的计算都是用我们的研究小组开发的程序进行的。

1.2 HQSAR模型

HQSAR是Hurst等人提出的一种特殊的QSAR方法[5],是分子全息和偏最小二乘法(PLS)一种创造性的结合。分子全息是分子指纹的一种扩展形式,是将化学结构表示转化为二进制的基于分子片段的描述符。所有的可能的分子片段包括环状,分支,重叠和线性等这些特征。

分子全息图实际上是一个包含分子片段计数的阵列,分子片段用Sybyl谱线法(sybyl line notation SLN)描述[6]。这是一种通过使用短的ASCll字符串来明确描述分子片段、结构、反应查询、结构库、配方、分子的规范。

建立最佳的HQSAR模型需要优化两个参数“fragmentdistinction”和“fragmentsize”。在Sybyl中,默认“fragmentsize”为4-7,fragmentdistinction包括原子(A)、化学键(B)、连接性(C)、手型(Ch)、氢原子(H)、质子的供体和受体(DA)[7]。不同类型的fragmentdistinction可以自由组合,所有的可能的片段都是由S原子生成的(S是M和N之间的整数)。M的值应该小于N, M一般大于2,N的值一般不超过12,并且不超过分子中的原子数。在设置好“fragmentdistinction”和“fragmentsize”,循环冗余校验(cyclic redundancy check, CRC)是通过将每个片段映射到0~231范围内的整数。每个整数对应一个固定长度的整数组中的一个序列,它表示分子全息图的长度。在sybyl软件的HQSAR模型中,L通常是从53到401的12个质数之一,L通常设置分别为97、151、199、257、307和353。分子位串指纹包含0,它通常没有有效的信息。在后续的PLS建模步骤中,计算时间随指纹长度的增加而增加,更重要的是,这些“0”可能会阻碍PLS模型的后续计算。这种增加可以通过“哈希”的过程来阻止时间的延长,该过程将多个碎片分布到指纹的相同位置[8]。

1.3 HQSAR模型评价参数

(1)

(2)

(3)

(4)

(5)

(6a)

(6b)

(6c)

(6d)

2 结果与讨论

2.1 HQSAR结果

表1 不同“fragment distinction”建立的HQSAR模型的统计参数

表2 不同“fragment size”建立的HQSAR模型的统计参数

2.2 HQSAR模型验证

表3 外部测试集验证法和留一交叉验证法的统计参数

图1 HQSAR模型密度实验值与预测值对比图

从外部测试集验证和LOO-CV的结果可以推断,HQSAR模型有良好的预测能力。

3 结论

采用新开发的基于分子全息的QSAR方法来预测唑类化合物的密度值,结果表明,该HQSAR方法对唑类化合物的密度值具有较高的预测能力,唑类化合物的预测密度值与实验值非常接近。此外,基于分子全息的HQSAR模型可以快速、轻松地发展,具有很高的统计意义和预测能力,因此HQSAR技术是一种筛选和预测唑类化合物密度很有前途的工具。

猜你喜欢
类化合物全息指纹
手性磷酰胺类化合物不对称催化合成α-芳基丙醇类化合物
全息? 全息投影? 傻傻分不清楚
麻疯树叶中3个新的糖苷类化合物
全息“魔镜”在身边
1,3,4-噻二唑取代的氮唑类化合物的合成及体外抗真菌活性
像侦探一样提取指纹
为什么每个人的指纹都不一样
微生物来源的甲氧丙烯酸酯类化合物研究进展
唯一的指纹
可疑的指纹