中药活性成分中新型冠状病毒3CL 蛋白酶抑制剂的消息传递机制神经网络虚拟筛选

2024-02-28 06:02张智强朱增文陈俊利绪连彩
中草药 2024年3期
关键词:抑制率蛋白酶抑制剂

张智强,朱增文,陈俊利,绪连彩

郑州轻工业大学材料与化学工程学院,河南 郑州 450000

2019 年底爆发的新型冠状病毒肺炎(corona virus disease 2019,COVID-19)已成为席卷全球的公共卫生事件,截至2023 年7 月,全球已报告超过7.6 亿例确诊病例以及超过690 万例死亡病例[1]。虽然目前疫情已经过去,但不排除未来再次爆发的可能。2020 年2 月世界卫生组织将引起COVID-19 疾病的病毒命名为严重急性呼吸综合征冠状病毒2(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)[2-3]。该病毒与引起2003 年非典型性肺炎以及2012 年的中东呼吸综合征(middle east respiratory syndrome,MERS)的病原体SARS-CoV、MERS-CoV 病毒同属于冠状病毒。冠状病毒因外形似皇冠得名,属于RNA 病毒,其基因组大小为27~32 kb,是目前已知的最大病毒RNA 基组[4]。RNA病毒本身具有较高的变异率,使得疫苗的有效性逐渐降低,这给疫情的防控带来了巨大挑战,有效治疗药物的研发显得尤为重要。

RNA 依赖性RNA 聚合酶(RNA-dependent RNA polymerase,RdRp)主要负责病毒RNA 的复制,因此成为研究广谱抗病毒药物的关键靶点。病毒复制相关的蛋白酶如半胱氨酸蛋白酶-木瓜蛋白酶样蛋白酶(PL protease,PLpro)、3C 样蛋白酶(3C-like protease,3CLpro)、弗林蛋白酶(Furin protease)等则在病毒蛋白的加工与多聚蛋白的裂解中具有重要作用,可成为潜在药物靶点[5-6],有助于抗病毒药物的研发,并且3CL 蛋白酶在冠状病毒中高度保守,同时尚未发现3CL 蛋白酶的人类同源蛋白。因此,3CL 蛋白酶成为抗SARS-CoV-2 病毒药物的理想靶点[7]。目前,用于治疗SARS-CoV-2 感染的匹洛那韦和利托那韦就是3CL 蛋白酶抑制剂。

我国SARS-CoV-2 感染患者早期的治疗过程,中医药发挥了重要的作用[8]。在国家卫生健康委员会颁布的《新型冠状病毒肺炎诊疗方案(试行第8版)》中,推荐了藿香正气胶囊、金花清感颗粒、连花清瘟胶囊、疏风解毒胶囊等一系列中药,在COVID-19 患者的治疗中发挥了重要的作用,但其作用机制尚待明确[9-10]。由于药物研究周期长的客观特点,及时开发针对新发突出病毒性疾病的新型药物是无法实现的。筛选抑制SARS-CoV-2 3CL 蛋白酶活性高的中药有效成分,不仅能够为开发治疗SARS-CoV-2 感染药物发现先导化合物,也能够为未来不可预期的新型冠状病毒引发的公共卫生事件的防治积累经验[11]。本研究通过构建消息传递机制的神经网络(message passing neural networks,MPNN)模型,采用6 000 余个具有SARS-CoV-2 3CL 蛋白酶抑制活性的化合物数据集对模型进行训练和评估,使用该模型对中药活性成分数据库中收录的186 味具有清热解毒功效的中药活性成分进行预测,为开发治疗SARS-CoV-2 感染的中药方剂及中药药理学研究等提供理论线索。

1 数据集与神经网络模型

1.1 数据集

本研究用于神经网络模型优化的数据集来源于PubChem 网站上公布的1 组对SARS-CoV-2 3CL 蛋白酶的抑制率,该抑制率是使用荧光共振能量转移技术在化合物浓度为20 μmol/L 时测得[12]。该数据集中原始数据样本共7 220 条,经数据清洗、合并重复数据后,共6 157 个样本。其中抑制率>90%的有161 个样本,占比为2.6%,抑制率>10%的有3 443 个样本,占比55.9%。

虚拟药物筛选的数据集来自于中药系统药理数据库(TCMSP)[13]中收录的186 味清热解毒中药的活性成分,约4 000 个数据样本。

1.2 消息传递机制神经网络模型(message passing neural networks,MPNN)

MPNN 是一种图神经网络(graph neural network,GNN)的变体,与其他类型的图神经网络相比,MPNN 的主要特点是在每个图卷积层中,MPNN 会计算每个节点的消息,将其聚合到邻近节点中,然后再次传递消息。这个消息传递过程可以发生多次,每一次都可以聚合不同的信息。这种消息传递方式使MPNN 能够捕捉节点的局部和全局信息。另外,MPNN 可以处理具有不同节点和边特征的图,使得其适用于各种应用,在分子图的表示学习中表现尤为出色[14]。MPNN 的特点非常适合药物发现、分子属性预测等任务。

本研究使用的MPNN 模型是基于谷歌公司发布的MPNN 通用框架以及DeepChem 中MPNN 模型[14]搭建的,网络整体结构见图1。该模型用于处理无向量图G(v,w,evw),其中v代表节点,w代表边,evw代表边的特征。用无向量图G 可以描述分子特征,节点即为分子中的原子,节点的属性即原子的属性,本研究采用的原子属性包括元素名、价态、杂化类型以及连接的氢原子数目。无向量图G中的边即为原子间的键,键的属性即为边的特征,本研究采用键的属性有2 个,一是键级,如单键、双键、三键、芳香键等;二是是否为共轭键。本研究采用的MPNN 模型包括消息传递、消息读取、活性预测3 个阶段。首先,将原子属性、键属性和键两端原子的索引数据送入消息传递层,通过多次迭代聚合邻居节点的信息并更新节点状态,得到最终的分子描述图;接下来将分子描述图和分子指示器数据送入消息读取层,该层的本质是1 个变换网络(transformer)的编码器,其根据分子指示器数据将分子描述图划分成多个子图,通过应用多头注意力机制、残差连接和层归一化,从图数据中提取有用的表示,并将整个图的信息汇总为一个读出表示;最后,把读出表示送入多个全连接层做回归分析,输出分子的属性,即20 μmol/L 时对SARS-CoV-2 3CL 蛋白酶的抑制率。

图1 消息传递机制神经网络模型结构Fig.1 Structure of message passing neural network(MPNN) model

MPNN模型使用Python 3.7搭建,在TensorFlow 2.6 平台上进行优化。模型优化和后续的药物筛选都是在计算机上完成。

2 结果与讨论

2.1 MPNN 模型优化

MPNN 模型优化时,以化合物的简化分子线性输入规范编码(simplified molecular input line entry system,SMILES)码作为神经网络的输入数据,以化合物20 μmol/L 时对SARS-CoV-2 3CL 蛋白酶抑制率为神经网络的输出数据,数据集按9∶1 的比例随机划分成训练集和验证集。对模型进行训练时,以均方误差为损失函数,采用Adam 方法进行参数优化,1 个批次送入32 个样本,训练不低于100 轮,如果连续10 轮训练,训练集损失函数值未下降,则降低学习率20%,如果连续20 轮训练,训练集损失函数未下降,则停止训练。模型优化时会出现过度拟合,即训练集损失函数值下降,而验证集损失函数值不降反升。最终,本研究的模型训练终止于训练集损失函数值稳定在0.01 以下,验证集损失函数值稳定在0.03 以下停止,并将训练集损失函数最小值0.003 的模型用于接下来的中药活性成分筛选。抑制率预测值平均误差在±0.06 以内。抑制率预测值指MPNN 模型预测的化合物浓度为20 μmol/L 时对SARS-CoV-2 3CL 蛋白酶体外活性的抑制率,酶的活性被完全抑制时,取值为1。

2.2 清热解毒中药活性成分SARS-CoV-2 3CL 蛋白酶抑制剂筛选

SARS-CoV-2 3CL 蛋白酶抑制剂筛选是以中药为单位进行的。用优化后的MPNN 模型预测矮地茶等186 味清热解毒中药的活性成分在浓度为20 μmol/L 时对病毒3CL 蛋白酶的抑制率。预测的数据样本有8 959 条,抑制率预测值大于0.5 的有347条,占比约4%。因为同一个活性成分可能广泛分布在不同的中药中,合并重复项后,预测样本数为3 863 条,抑制率预测值大于0.5 的样本数为186条,占比约5%。

在所有筛选的中药中,有81 味中药至少含有1个预测抑制率大于0.9 的活性成分。这81 味中药分别为地锦草、猕猴桃根、木蝴蝶、关黄柏、半夏、半枝莲、大血藤、板蓝根、柴胡、桂枝、椿皮、灯盏辛夷、白果、白芷、白莲、白附子、矮地茶、苍耳子、葱白、薄荷、谷精草、赤芍、防风、鬼针草、了哥王根、决明子、昆布、木贼、满山红、牛蒡子、牡丹皮、猫爪草、猫眼草、积雪草、罗汉果、胡黄连、芥子、苦丁茶、荆芥、荷叶、菊花、虎耳草、连翘、迷蒙花、金沸草、金莲花、金银花、零陵香、马兜铃、马尾莲、马齿苋、麻黄、黄柏、黄芩、黄药子、黄连、龙胆、使君子、前胡、天葵子、山慈菇、山豆根、桑叶、桑白皮、沙棘、生姜、秦皮、青果、青蒿、余甘子、夏枯草、栀子、玄参、紫苏、紫苏子、紫草、肿节风、芫荽、辛夷、银杏叶、香薷。在所有筛选的中药活性成分中,来源于龙胆的龙胆素(TCMSP MolID:3152)的活性最高,预测抑制率为1.07,同时龙胆的另一个活性成分龙胆赛因(TCMSP MolID:3170)的抑制率预测值为1.01。需要说明的是,因为训练集数据抑制率有大于1 和小于0 的样本,所以抑制率预测值有可能大于1 或小于0。龙胆素和龙胆赛因的分子结构都含有1 个氧杂蒽酮母核(图2),并且都属于多酚类化合物。其中龙胆素葡萄糖苷曾被用于治疗由SARS 病毒感染引起的疾病[15]。

图2 氧杂蒽酮、龙胆素 (TCMSP MolID:3152)、龙胆赛因 (TCMSP MolID:3170) 分子结构Fig.2 Molecular structures of oxanthranone, gentianin(TCMSP MolID: 3152) and gentiosine (TCMSP MolID: 3170)

在筛选的所有活性成分中,共101 个化合物的抑制率预测值大于0.9,它们绝大多数都是多酚类化合物,主要包括黄酮类、香豆素类、没食子儿茶素类、羟基肉桂酸酯类等。非酚类化合物抑制剂主要是含硫化合物、烷基酯和萘类等。

2.2.1 黄酮类SARS-CoV-2 3CL 蛋白酶抑制剂 黄酮类化合物是药用植物中广泛存在的一类活性成分,通常具有抗炎、抗病毒、抗肿瘤等活性。有很多黄酮化合物已经被研究证实为SARS-CoV-2 3CL蛋白酶抑制剂,如橙皮素、木犀草素、槲皮素、芹菜素、山柰酚、黄芩苷、杨梅素等[16-17]。分子对接研究结果显示黄酮类化合物通过其吡喃环上的苯基或多羟基苯基与酶催化活性中心的His41 之间的ππ 堆积相互作用结合,以非共价方式占据酶的活性中心,从而抑制酶的活性[18]。共筛选出来19 个黄酮类化合物,分子结构如图3 所示,抑制率预测值0.91~1.01。黄酮类抑制剂的抑制率预测值、PubChem CID、化合物名称、实验或理论支撑数据等信息如表1 所示。19 个黄酮化合物中,抑制率预测值最高的为芹菜素(TCMSP MolID:8),该化合物在训练集中的抑制率为0.99。而文献报道的分子对接结果显示,芹菜素与3CL 蛋白酶的结合吉布斯自由能为-7.3 kcal/mol(1 kcal=4.2 kJ)[19],在黄酮类化合物中相对较高。根据MPNN 模型的预测结果,7 个黄酮类抑制剂分布于黄芩之中。黄芩是中医药最常用的清热解毒燥湿药,在疫情期间,黄芩是治疗效果最好的中药之一[21]。此外,木蝴蝶的活性成分中有3 个黄酮化合物被筛选出来,木蝴蝶按中医理论归肺经,有清肺利咽的功效,常用于治疗肺热咳嗽等症,符合COVID-19 的症状[22]。

表1 MPNN 模型从中药活性成分中筛选出的黄酮类SARS-CoV-2 3CL 蛋白酶抑制剂Table 1 Flavonoids SARS-CoV-2 3CL protease inhibitors screened from TCMSP by MPNN model

图3 MPNN 模型筛选出的黄酮类SARS-CoV-2 3CL 蛋白酶抑制剂分子结构和TCMSP MolIDFig.3 Molecular structures and TCMSP MolID of flavonoids SARS-CoV-2 3CL protease inhibitors screened by MNPP model

2.2.2 香豆素类SARS-CoV-2 3CL 蛋白酶抑制剂香豆素类化合物含有1 个2-H-1-苯并吡喃-2-酮基本母核,如图4 所示。天然的和半合成的香豆素类化合物通常具有较小的毒性和副作用,具有抗氧化、抗肿瘤、抗炎、抗病毒等活性。在抑制RNA 病毒蛋白酶方面,香豆素类化合物也得到广泛应用,其中就包括SARS-CoV-2。文献报道的分子对接研究结果表明,香豆素类化合物与SARS-CoV-2 3CL 蛋白酶的亲和性要强于抗SARS-CoV-2 药物洛匹那韦和利托那韦,香豆素类化合物主要与3CL 蛋白酶催化活性中心的His41 和Cys145 结合,从而抑制酶的活性[23]。本研究预测出8 个香豆素类抑制剂,主要来自于柴胡、桑叶、防风、秦皮等中药。虽然在数量上不及黄酮类化合物多,但是香豆素化合物的平均抑制率预测值(表2)要高于黄酮类化合物。其中抑制率预测值最大的香豆素化合物是七叶皂苷(TCMSP MolID:4456),结构如图4 所示,其与SARS-CoV-2 3CL 蛋白酶的结合能为-7.1 kcal/mol[24]。来自于地锦草等中药的伞形花内酯(skimmetin,TCMSP MolID:2558)是训练集中出现过的化合物,预测的抑制率为0.98,训练集中的抑制率为0.92。

表2 MPNN 模型从中药活性成分中筛选出的香豆素类SARS-Cov-2 3CL 蛋白酶抑制剂Table 2 Coumarins SARS-CoV-2 3CL protease inhibitors screened from TCMSP by MPNN model

图4 MPNN 模型筛选出的香豆素类SARS-CoV-2 3CL 蛋白酶抑制剂分子结构和TCMSP MolIDFig.4 Molecular structures and TCMSP MolID of coumarins SARS-CoV-2 3CL protease inhibitors screened by MPNN model

2.2.3 没食子儿茶素类SARS-CoV-2 3CL 蛋白酶抑制剂 没食子儿茶素是一种多酚儿茶素类化合物,它们广泛存在于茶植物中,尤其是绿茶中含量较高。这类化合物表现出广谱抗病毒活性,包括抗寨卡病毒、疱疹病毒、肝炎病毒、流感病毒等,同时也具有抗SARS 和SARS-CoV-2 的活性[25]。体外实验数据证实,表没食子儿茶素-3-没食子酸酯(TCMSP MolID:6821)对SARS-CoV-2 3CL 蛋白酶的抑制活性要高于木犀草素、槲皮素、山柰酚等黄酮类化合物[26]。此外,体外实验研究显示没食子儿茶素-3-没食子酸酯(TCMSP MolID:5830)的抑制活性高于其差向异构体表没食子儿茶素-3-没食子酸酯(TCMSP MolID:6821)[27]。本研究共筛选出7 个没食子儿茶素类化合物,预测活性等数据见表3。但是亮可酚素(TCMSP MolID:7217)的结构严格地讲与其他6 个化合物不同(图5),前者在苯并吡喃母核的杂环上多了1 个羟基。但是,分子对接研究表明,亮可酚素与SARS-CoV-2 3CL 蛋白酶有很强的亲和力,并且可以通过改变酶的结构削弱其催化活性[28]。

表3 MPNN 模型从中药活性成分中筛选出的没食子儿茶素类SARS-CoV-2 3CL 蛋白酶抑制剂Table 3 Gallocatechins SARS-CoV-2 3CL protease inhibitors screened from TCMSP by MPNN model

图5 MPNN 模型筛选出的没食子儿茶素类SARS-CoV-2 3CL 蛋白酶抑制剂分子结构和TCMSP MolIDFig.5 Molecular structures and TCMSP MolID of gallocatechins SARS-CoV-2 3CL protease inhibitors screened by MPNN model

2.2.4 羟基肉桂酸酯类SARS-CoV-2 3CL 蛋白酶抑制剂 筛选出的中药活性成分中,羟基肉桂酸酯类化合物数量较多,主要是咖啡酸酯,如果将咖啡酸也计算在内的话,总共筛选出19 个此类化合物(表4)。此类抑制剂中有2 个化合物出现在训练集中。其中一个是草芥素(TCMSP MolID:3333,抑制率为0.98,抑制率预测值为0.99),另一个是迷迭香酸(TCMSP MolID:11865,抑制率为0.97,抑制率预测值为0.98)。此类抑制剂中咖啡酰奎宁酸类数量最多,分子结构见图6。奎宁酸分子结构中含有4 个羟基可以与咖啡酸成酯。另外,天然的咖啡酰奎宁酸有单酯、二酯,因此可以得到数量众多结构相似的化合物。分子对接结果显示,咖啡酰奎宁酸单酯和二酯与SARS-CoV-2 3CL 蛋白酶的结合吉布斯自由能相近,-7~-6 kcal/mol,其中5-O-咖啡酰奎宁酸、3,4-二氧-咖啡酰奎宁酸和4,5-二氧-咖啡酰奎宁酸与3CL 蛋白酶的亲和力更强,可以作为抗SARSCoV-2 的先导化合物[29]。另一项分子对接的研究显示,咖啡酸本身对SARS-CoV-2 3CL 蛋白酶也有抑制作用,只是与3CL 蛋白酶的亲和力较咖啡酰奎宁酸化合物低一些[30]。羟基肉桂酸酯类化合物除了通过非共价键的形式与3CL 蛋白酶结合外,还有学者指出,它们可以通过共价键形式与SARS-CoV-23CL 蛋白酶催化中心的Cys145 结合,从而非选择性地抑制酶的活性[31]。因为羟基肉桂酸结构中含有α-不饱和羰基,可以与半胱氨酸的巯基发生迈克尔加成反应,许多抗炎药物的生物活性也源于此反应[32]。因此,羟基肉桂酸酯类化合物的抗SARSCoV-2 的活性可能由多重途径实现[17]。

表4 MPNN 模型从中草药活性成分中筛选出的羟基肉桂酸酯类SARS-CoV-2 3CL 蛋白酶抑制剂Table 4 Hydroxylcinnamates SARS-CoV-2 3CL protease inhibitors screened from TCMSP by MPNN

图6 MPNN 模型筛选出的咖啡酰奎宁酸类SARS-CoV-2 3CL 蛋白酶抑制剂分子结构和TCMSP MolIDFig.6 Molecular structures and TCMSP MolID of caffeylquinic acids SARS-CoV-2 3CL protease inhibitors screened by MPNN model

2.2.5 其他酚类SARS-CoV-2 3CL 蛋白酶抑制剂此类抑制剂共筛选出37 个化合物,具体数据见表5。其中预测抑制率值最大的是来源于桑白皮和桑叶的桑辛素C(TCMSP MolID:3857,预测抑制率1.07),分子结构如图7 所示。大血藤的活性成分3,4-二羟基苯基-β-D-豆腐果苷(TCMSP MolID:7924,预测抑制率1.04)预测活性仅次于桑辛素C。值得注意的是,从昆布中筛选出的鹅掌菜酚(TCMSP MolID:10616)及其4 个结构相似的化合物(图7),均具有较高的预测抑制率。鹅掌菜酚和间苯磺酰呋喃酚A(TCMSP MolID:10620)曾被实验证实是SARS 3CL 蛋白酶的抑制剂,IC50分别为8.8 和16.7 μmol/L[33]。此外,此类抑制剂中有2个化合物含有羟基肉桂酰的结构片段,但不是酯类化合物,而是酮类化合物,它们分别是来源于鬼针草的奥卡宁(TCMSP MolID:6436)和来源于桑叶的补骨脂乙素(TCMSP MolID:5009)。体外实验证实补骨脂乙素对SARS 3CL 蛋白酶有强的抑制作用[34]。考虑到SARS-CoV-2 和SARS 病毒的3CL蛋白酶结构相近,并且很多抗SARS 病毒的药物也被证实具有抗SARS-CoV-2 的作用,所以补骨脂乙素及鹅掌菜酚极可能对SARS-CoV-2 3CL 蛋白酶也有抑制作用。此类抑制剂中还有2 个来源于马尾莲的生物碱,(R)-番荔枝碱(TCMSP MolID:8797)和N-甲基网状番荔枝碱(TCMSP MolID:8798)。分子对接研究证实(R)-番荔枝碱可以与 SARSCoV-2 3CL 蛋白酶的催化活性中心结合,结合吉布斯自由能为-4.32 kcal/mol[35]。另外,尤克蒽酮(TCMSP MolID=3358)与龙胆素和龙胆赛因具有相同的氧杂蒽酮母核。尤克蒽酮具有抗RNA 病毒的活性[36],虽然目前还没有关于尤克蒽酮抑制SARS-CoV-2 的3CL 蛋白酶的报道,考虑到SARSCoV-2 是RNA 病毒的一种,尤克蒽酮也是一种潜在的抑制剂。

表5 MPNN 模型从中药活性成分中筛选出的其他酚类SARS-CoV-2 3CL 蛋白酶抑制剂Table 5 Other phenolics SARS-CoV-2 3CL protease inhibitors screened from TCMSP by MPNN model

图7 MPNN 模型筛选出的部分其他多酚类SARS-CoV-2 3CL 蛋白酶抑制剂分子结构和TCMSP MolIDFig.7 Molecular structures and TCMSP MolID of some other polyphenols SARS-CoV-2 3CL protease inhibitors screened by MPNN model

本研究筛选出的101 个中药活性成分(预测抑制率大于0.9)中,含有酚羟基的有90 个,占比为90%。研究发现来源于天然产物的SARS-CoV-2 3CL蛋白酶抑制剂,其中绝大多数的分子结构中都含有酚羟基[17,19,34],从一定程度上证明了本研究优化的MPNN 模型是可靠的。

2.3 非酚类SARS-CoV-2 3CL 蛋白酶抑制剂

筛选出的非酚类抑制剂见表6,部分抑制剂的分子结构见图8。非酚类抑制剂中含硫化合物数量最多,包括三硫醚、二硫醚、硫醚等。临床研究显示,有部分COVID-19 患者是使用精油治愈的,其中大蒜精油中所含的主要活性成分就是硫醚[37]。本研究筛选出的硫醚化合物共有4 个,分别为来源于葱白和罗汉果的甲基三硫醚(TCMSP MolID:7628),来源于葱白的丙基三硫醚(TCMSP MolID:7630)、甲基二硫代-1-丙烯(TCMSP MolID:7644),还有来源于芥子的3-甲硫代丙基异硫氰酸(TCMSP MolID:13025),它们都有较高的预测抑制率。

表6 MPNN 模型从中药活性成分中筛选出的非酚类SARS-CoV-2 3CL 蛋白酶抑制剂Table 6 Non-phenols SARS-CoV-2 3CL protease inhibitors screened from TCMSP by MPNN model

图8 MPNN 模型筛选出的部分非酚类SARS-CoV-2 3CL蛋白酶抑制剂分子结构和TCMSP MolIDFig.8 Molecular structures and TCMSP MolID of some nonphenols 3CL protease inhibitors screened by MPNN model

除硫醚外,还有2 个含二硫代酰基的化合物,一个是来源于白果的甲氧基芸苔素(TCMSP MolID:11069),另一个是来源于紫苏子的S-丙氧硫酰基-巯基胺(TCMSP MolID:12897),两者的结构见图8,它们对SARS-CoV-2 3CL 蛋白酶的预测抑制率分别为0.91 和0.98。此外,含硫抑制剂还包括麻黄中的1 个巯基四氮唑化合物1-苯基-5-巯基四氮唑(TCMSP MolID:10 750)。该抑制剂的预测抑制率是0.96,在训练集中已被证实具有较强的抑制活性,训练集中的抑制率为0.89。此类抑制剂中还有1 个精油类成分,来源于香薷等中药的黄樟素(TCMSP MolID:199),分子对接的结果显示黄樟素对SARS-CoV-2 3CL 蛋白酶具有一定的亲和力,结合吉布斯自由能为-4.9 kcal/mol[37]。此外,还有几个结构简单的化合物如2-甲基萘(TCMSP MolID:5483)、氯乙酸丙酯(TCMSP MolID:12885)、5-羟基-4-氧代戊酸甲酯(TCMSP MolID:11 324)。其中5-羟基-4-氧代戊酸甲酯是非酚类抑制剂中预测抑制率最高的1 个,预测抑制率为1.05,可以作为抗SARS-CoV-2 先导化合物做进一步的实验和理论研究。值得注意的是,最近有学者利用氯乙酰基结构片段与SARS-CoV-2 3CL 蛋白酶催化中心的特异性结合特点,设计了针对病毒蛋白酶的化学探针,用于3CL 蛋白酶抑制剂的快速筛选[38]。因此,氯乙酸丙酯同样值得进行深入研究。

3 结论

本研究以PubChem 网站上公布的生物检测数据为训练集,优化了1 个MPNN 神经网络用于预测化合物在20 μmol/L 浓度下对SARS-CoV-2 3CL 蛋白酶的抑制率。利用优化后的模型从186 味清热解毒中药活性成分中(3 863 个)筛选潜在的SARSCoV-2 3CL 蛋白酶抑制剂,约5%的活性成分预测抑制率大于0.5,其中预测抑制率大于0.9 的有101个。这101 个化合物来自于81 味中药。在经由MPNN 模型虚拟筛选出的101 个化合物中,龙胆素、桑辛素C、5-羟基-4-氧代戊酸甲酯、3,4-二羟基苯基-β-D-豆腐果苷等化合物显示出较高的预测活性,可以作为先导化合物进一步进行理论和实验研究。在经由MPNN 模型虚拟筛选的中药中,黄芩所含预测抑制率大于0.9 的活性成分数量最多,同时苍耳子、昆布、芫荽、紫苏等中药也含有较多活性成分。在后续的抗SARS-CoV-2 中药方剂的开发中,值得关注这些中药。

MPNN 模型虚拟筛选的抑制剂中,约有1/5 的抑制剂已经有体外实验数据或分子对接数据,证明其对SARS-CoV-2 3CL 蛋白酶具有抑制作用。此外,还有一些抑制剂虽然尚未见到相关研究报道,但已被证实具有抗SARS 或其他RNA 病毒的活。经由MPNN 模型虚拟筛选出的抑制剂中有很大一部分的分子结构与已证实的SARS-CoV-2 3CL 蛋白酶抑制剂相似,它们很可能也是潜在的SARS-CoV-2 3CL 蛋白酶抑制剂。因此,MPNN 模型虚拟筛选结果具有较高的可信度。值得注意的是,本研究使用的MPNN 模型嵌入transformer 的编码器层,用于提取分子特征,优化后的MPNN 模型可以通过微调用于预测分子的其他属性。因此,MPNN 模型可作为一种范例在药物虚拟筛选领域进行推广。

利益冲突所有作者均声明不存在利益冲突

猜你喜欢
抑制率蛋白酶抑制剂
中药单体对黄嘌呤氧化酶的抑制作用
血栓弹力图评估PCI后氯吡格雷不敏感患者抗血小板药物的疗效
思乡与蛋白酶
日本荚蒾叶片中乙酰胆碱酯酶抑制物的提取工艺优化*
凋亡抑制剂Z-VAD-FMK在猪卵母细胞冷冻保存中的应用
多胚蛋白酶 高效养畜禽
IgA蛋白酶在IgA肾病治疗中的潜在价值
组蛋白去乙酰化酶抑制剂的研究进展
磷酸二酯酶及其抑制剂的研究进展
冷却猪肉中产蛋白酶腐败菌的分离鉴定