深度学习在药物研发中的研究进展

2020-09-10 11:24张莉

看世界·学术上半月 2020年9期

张莉

摘要：科学技术是第一生产力，国家的繁荣发展依赖于科技力量的不断进步。近年来以深度学习为代表的人工智能技术与医学、药学等多个领域深度融合。深度学习被应用于蛋白质结构与功能预测、药物靶点预测、药物代谢动力学性质预测、药物有效性及安全性预测以及药物相互作用预测等多个药物研发环节，取得了显著成就，提高研发效率的同时降低临床前试验以及临床试验相关的成本和风险。通过总结多种深度学习方法在药物研发各个过程中的具体应用及分析不同深度学习方法在药物研发中的应用特点，阐述了深度学习在药物研发中现存的一些问题并做出展望，以期为进一步研究提供借鉴的思路和方法。

关键词：深度学习;药物研发;研究进展

引言

众所周知，各种新药上市前都需要经过临床前试验，即上市前研发阶段。临床试验与临床医疗有着质的区别。临床医疗是用已被证明的安全有效的方法解决患者的实际疾病问题而进行的医疗干预。其收益和风险的评估是针对患者本人进行的。而临床药物研发则是为获得可以被普遍承认的结果而进行的干预，受试者会承受潜在的风险，其研究结果是为了增加医学科学知识，让未来的患者受益。尽管多年来上市前药物研发已经形成一整套的程序和法规，然而很少有人系统地评价药物上市前试验中存在的问题，本文尝试对于这个问题进行一些初步探讨。

一、人工智能概述

（一）人工智能的主要应用领域

人工智能的主要应用领域包括机器学习、进化计算、图像识别、自然语言处理、认知计算等。除此之外，其他领域仍在持续性发展中。目前机器学习的主流研究方向也是人工智能的重要应用领域，机器学习可以通过计算获得经验来提高系统本身的性能。机器学习可以分为传统机器学习和高级机器学习，传统机器学习包括无监督学习和有监督学习等，高级机器学习则包括深度学习、强化学习和迁移学习等。

（二）人工智能的主要发展过程与自身特点

自从1956年人工智能诞生以来，它经历了从高潮到低潮的各个阶段。最近的低潮发生在1992年，当时日本的第五代计算机并未取得成功，其后人工神经网络热潮在20世纪90年代初退烧，人工智能领域再次进入低潮期。直到2006年，GeoffreyHin-ton提出了深度学习的概念并改进了模型训练方法，突破了神经网络的长期发展瓶颈，人工智能的发展迎来新一轮浪潮。此后，国内外众多知名大学和知名IT企业开展了深度学习、强化学习、迁徙学习等一系列新技术的课题研究。同时，智能医疗、智能交通、智能制造等社会发展的新需求驱动人工智能发展进入了一个新阶段。人工智能基于先进的机器学习、大数据和云计算，在感知智能、计算智能和认知智能方面具有强大的处理能力。它以更高水平接近人的智能形态存在，主要特点包括：①从人工知识表达到大数据驱动的知识学习技术。②从多媒体数据的子类处理到跨媒体交互。③从追求智能机器到高层人机协作。④从关注个人智能到基于网络的群体智能。⑤从拟人机器人到更广泛的智能自我处理系统。

二、深度学习在药物研发中的应用

（一）蛋白质结构与功能

蛋白质的功能研究在生命科学中占据重要的地位，大多数疾病的发生都与蛋白质功能障碍有关。1973年，Anfinsen发现变性的只保留了一级结构的核糖核酸酶可以重新折叠并恢复生物活性，说明代表蛋白质一级结构的氨基酸序列中隐含了蛋白质二级、三级结构的信息。而蛋白质二级结构预测又可为蛋白质三维结构预测和蛋白质功能预测提供重要信息。因此从一级氨基酸序列预测二级结构及蛋白质的性质是药物研发中的重要任务。尽管近年来X-射线晶体学和冷冻电镜技术的不断发展在蛋白质结构解析上获得突破，但其检测蛋白质的成本过高，利用DL对蛋白质进行预测显然是一个更高效的方法。通过对数据库提供的蛋白质数据特征提取，预测出蛋白质结构与功能，为解决蛋白质结构和功能的预测问题提供了可能的途径，并在蛋白质结构和功能预测方面取得了较好的结果。

（二）活性药物靶点的确定

药物靶点与疾病或生物分子的病理状态相关，药物靶点的确定是药物研究和开发的基础。传统的药物发现主要遵循“一种药物，一种靶点，一种疾病”的观念，最近越来越多的研究人员接受了药物靶点是多种靶蛋白的观点，并且多种靶蛋白倾向于出现在同一种疾病中。因此，如何快速准确地识别药物与靶点之间复杂的相互作用已成为药物开发的关键。采用CNN训练检测和分类核苷酸与血红素结合位点，准确度达到了95%，且實验模型能够推广到类固醇结合蛋白和肽酶。DL模型在检测药物活性靶点时可以在保证98.2%的准确率的情况下对400万个数据进行计算。首先对未处理的原始数据进行预处理，标记出已知的药物靶点相互作用，然后应用已知的标记过的药物靶点对来训练分类模型，该模型的10-折交叉验证的曲线下面积，通过分层抽象学习药物靶点对的有用特征，在平衡和不平衡数据集（平衡数据集是指各个样本数量差距不大，而不平衡数据集则相反，在一些模型中数据集是否平衡对预测结果有着不同影响）上的预测性能均比现有方法更好。结合化合物的图形神经网络（graphneuralnetwork，GNN）和蛋白质的CNN开发了新的复合蛋白相互作用预测技术。此外，所提出的方法在不平衡数据集上明显优于现有方法。这表明由端到端GNN和CNN获得的化合物和蛋白质的数据驱动表示比从数据库获得的传统化学和生物学特征更稳健。采用DL算法DeepWalk基于异构拓扑计算药物-药物和靶点-靶点的相似性，基于“牵连犯罪”原则推断药物靶点关联，AUC得分为0.9896。

（三）药物挖掘

医学、物理学或材料科学领域的专业论文非常广泛，但这些专业论文中有大量独立的专业知识和研究结果，快速且有针对性地组织和连接这些知识和发现的能力对于药物挖掘是极其重要的。使用人工智能可以从大量的科学论文、专利、临床试验信息和非结构化信息中生成有用的信息。通过自然语言处理算法的深度学习优化，分析和理解上下文信息，然后进一步学习、探索、创建和翻译它所学到的知识以产生独特结论。该技术通过寻找可能遗漏的连接使以前不可能的科学发现成为可能：可以自动提取药学与医学知识，找出相关关系并提出相应的候选药物，进一步筛选对某些疾病有效的分子结构，使科学家们能够更有效地开发新药。2016年BenevolentAI公司曾通过人工智能算法在1周内确定了5种假造药物，用于治疗肌萎缩侧索硬化。BenevolentAI使用AI算法建模来确认化合物对睡眠的潜在影响，这是解决帕金森病相关嗜睡症状的一大机会。该公司目前的药物研发产品组合表明，它可以将早期药物研发的时间缩短4年，并有可能在整个药物研发过程中将药物研发的平均效率提高60%。

结语

作为精准医学的基石，CD在临床药物研发中具有重要的作用。作为药物靶向治疗的工具，CD将进一步推动精准医学在肿瘤、血液疾病、自身免疫疾病等多个领域的发展，真正达到改善治疗预后并降低医疗经费的目的。目前，我国伴随诊断自主研发市场尚处于空白阶段，我国应当尽快起草相应的指导性文件，规范药物的研发和应用，从而使各种药物的治疗方案更有效和更安全。

参考文献：

[1]张星一，吕虹.人工智能在药物研发与监管领域的应用及展望[J].中国新药杂志，2018，27（14）：1583-1586.

[2]凌曦，赵志刚，李新刚.人工智能技术在药学领域的应用：基于WebofScience的文献可视化分析[J].中国药房，2019，30（4）：433-438.

[3]周凌.大数据在医药行业的创新性应用[J].通讯世界，2017（8）：289.