基于CNN模型的小分子活性预测

2023-07-17 09:30霍旭祥徐峻
计算机应用文摘 2023年13期
关键词:深度学习神经网络

霍旭祥 徐峻

摘要:计算机辅助药物设计(Computcr-Aidcd Drug Dcsign,CADD)已成为当今药物研发不可或缺的一部分。采用传统的方法预测小分子结合自由能有一定的局限性,由于传统方法默认了小分子的结构信息与结合能之间是线性的关系,而对于结构化学信息二者之间并不是线性关系的情况,其预测结果并不是十分准确。随着深度学习技术的发展,我们可以通过神经网络对线性问题或者是非线性问题进行建模,以在小分子的结构信息与其结合能之间建立线性或者非线性的联系,使其预测的结果准确率有所提高。

关键词:深度学习;神经网络;小分子结合能预测;计算机辅助药物设计

中图法分类号:TP391 文献标识码:A

1 引言

计算机辅助药物设计已成为现代药物研发的重要手段,其在药物分子设计、活性预测、药效优化和副作用评估等方面的应用,将为药物研发和临床应用做出重要的贡献[1] 。这种方法的引入不仅可以辅助研发药物,甚至成为推动或决定药物研发成败的主要因素,这种方法改变了以往通过大量实验筛选进行药物研发的传统模式。结合神经网络与计算机技术进行药物研发已经越来越普遍,北京大学、中国科学院上海药物研究所、中国科学院长春应用化学研究所等高校和科研单位将人工神经网络法与分子模拟研究相结合[2~3] ,并将其直接用于指导实际的药物合成,取得了很好的研究成果。

2 相关工作

本文主要研究预测小分子的结合能,在传统的预测小分子结合能的方法基础上加入深度学习的一些方法,通过卷积神经网络提取特征,使预测小分子结合能的准确率有所提高。在此研究过程中,使用了三维定量构效关系(3D⁃QSAR)的方法,所谓三维定量构效关系是引入了分子三维结构信息并结合物理化学中常用经验方法的数学方法[4~6] 。在此基础上,利用卷积神经网络提取小分子的空间特征,小分子的空间特征主要包括小分子中原子的类型、原子的三维坐标,通过获取这些空间信息进行特征提取并找到结合能与其之间的联系,从而有利于提高预测小分子结合能的准确率。利用数学模型来拟合分子结构和分子活性之间的关系,使预测小分子活性值的准确率有所提高。

3 预测模型的网络架构

3.1 卷积神经网络模型架构

3D Convolutional Neural Networks (3D⁃CNNs) 是一种用于处理三维数据的卷积神经网络。3D⁃CNNs可以学习高级特征,并进行分类或回归。

三维卷积神经网络(3D CNN)是在三维数据上进行卷积计算的神经网络模型,通常用于处理视频、医学影像等具有时间和空间信息的数据。其一般架构包括输入层、卷积层、池化层、全连接层和输出层。其中,卷积层用于提取输入数据的特征,池化层用于对特征图进行下采样,降低数据维度,全连接层将池化后的特征图转化为一维向量,最后通过输出层将向量映射为分类或回归结果。

3.2 预测模型网络架构

在对预测模型进行相关研究后,开始构建预测模型体系结构,如图1 所示。

其中,总共使用了7 个卷积层和2 个密集层处理网格数据,以生成嵌入特征。7 个三维卷积层卷积核的大小分别为128,256,512,1024,512,128 和256。模型输出为复合物的结合自由能值。对于L3D⁃MLP 模型,添加了6 个额外的致密层(即MLP块),其与生物活性数据相关,而在L3D⁃PLS 模型中,PLS 模型取代了MLP 块来预测生物活性。对于这2 种模型,将pIC50 的平均标准误差作为损失函数,表达式为:

4 实验数据

4.1 数据来源

通过爬取各种开源数据库中的数据获得各种不同靶点不同分子的数据,并将其整理成需要的数据集,最终得到20 个不同靶点对应的2 000 多个分子的数据,结果如表1 所列。

4.2 模型评估标准与实验结果

在本模型中,使用相关系数R2 和交叉验证Q2 评估了L3D⁃PLS 在30 个不同公开数据集上的性能。对于一组预测值(ypred )和参考值(yref ),其计算公式为:

R2 的取值范围在0~1,其中R2 =1 说明预测值完全解释了实际值的变化,模型预测效果最佳。R2 = 0则表示预测值完全无法解释实际值的变化,模型预测效果最差。我们比较了PyCoMFA,L3D⁃MLP 和L3D⁃PLS 3 种QSAR 模型的性能。在20 个测试集上的R2结果如表2 所列。L3D⁃PLS 在10 个数据集中表现最好,PyCoMFA 和L3D⁃MLP 分别在7 个和3 个数据集上表现最好。与单独在这20 个基准测试上的PyCoMFA 模型相比,L3D⁃MLP 和L3D⁃PLS 在10 个和12 个数据集上显示出优越的性能。

5 结束语

CoMFA 是一种力场与药物分子活性定量相关的方法,通过CoMFA,科研可以预测配体的性质,并利用其建立定量模型来设计新的化合物、预测化合物的活性,以及药物化学家可以指导配体的设计,这也是CoMFA 的一个主要功能。目前,L3D⁃PLS 模型虽然可以得到更好的预测pic50 的结果,但目前仍无法实现。在未来的工作中,我们将探索该模型的更多应用来实现这一目标,同时将尝试将深度学习方法与传统方法相结合,以创建更好的算法来解决这些问题。

参考文献:

[1] 吕婷婷,禹文韬,张慧琳.面向抗乳腺癌候选药物拮抗雌激素受体α 生物活性的定量构效关系模型构建[J].中南药学,2022,20(11):2542⁃2548.

[2] 田淇,李耀旺,李博.活性肽定量构效关系建模过程中1 种肽段长度不等的表征方法的建立[J]. 中国食品学报,2021,21(4):28⁃38.

[3] 馬瑶,智敏,殷雁君,等.CNN 和Transformer 在细粒度图像识别中的应用综述[J].计算机工程与应用,2022,58(19):53⁃63.

[4] 钮嘉铭,杨宇.基于CNN 的人群计数与密度估计研究综述[J].软件导刊,2021,20(8):247⁃252.

[5] 陈芳,王建龙,陈丽珍,等.ε⁃CL⁃20/ F_(2311)PBXs 力学性能和结合能的分子动力学模拟[J].原子与分子物理学报,2015,32(3):360⁃365.

[6] 刘达山,刘潞琦,张光驰,等.基于深度学习的Attention 机制文献综述[J].信息技术与信息化,2023(1):189⁃194.

作者简介:

霍旭祥(1998—),硕士,研究方向:计算化学。

徐峻(1958—),教授,研究方向:中药药效组学、医药化学、药物设计、化学信息学、多变量统计分析、化学结构图论算法、化学结构专利文献检索引擎、蛋白质NMR 结构解析和模拟。

猜你喜欢
深度学习神经网络
神经网络抑制无线通信干扰探究
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定