侠之大者,为国为民。武侠小说中,大侠往往有奇遇。段誉吞了莽牯朱蛤、郭靖饮下梁子翁的药蛇血,两人于是百毒不侵。凡此种种,类似主动免疫(接种疫苗)或被动免疫(血清疗法)的原始版本。动物免疫血清用于传染病治疗已有上百年的历史,德国科学家冯·贝林因此获得首枚诺贝尔生理学与医学奖。当前,康复患者血浆治疗新冠肺炎依然有效。这些疗法其实质是多克隆抗体药物。从1986 年美国食品药品监督管理局批准第1 个单克隆抗体药物迄今,全球上市的单抗药已有上100 个,广泛用于肿瘤、自身免疫性疾病、传染病等各类疾病的治疗。近十年来,全球最畅销的十大药物中,抗体药物每每占据半壁甚至更多江山。阿达木单抗常年蝉联最畅销药物之首,年度销售额近200 亿美元。因此,开发单抗药物,为国为民,不仅缓解人类病痛,还能推动社会经济发展。
虽然开发单抗药物的成功率高于传统化学药物,但仍是万里挑一。近年来,抗体可开发性预测已成为生物信息学研究的一个热点。早期预测抗体可开发性可减少研发成本,加快研发进程,降低市场价格,利国利民。该领域的经典研究是所谓的可开发性指数(DI)计算,相应方法已整合到价格不菲的DS 软件平台中。然而,贵不见得好。该方法基于同源建模得到的抗体结构,运算速度慢,结果也常不靠谱。这篇论文基于抗体序列,绕过结构,直接预测抗体的交叉或自身相互作用,而这些互作会直接影响抗体的可开发性。相应预测模型速度飞快,可处理大规模抗体数据,开发的网络程序CISI2.0 自由免费。但这还远远不够。
最近,百度旗下的生物信息公司百图生科与清华大学智能产业研究院正在合作举办2021 全球抗体亲和力预测大赛,任务是根据抗原和抗体的氨基酸序列预测抗体−抗原结合的亲和力。广义上讲,亲和力是开发抗体药的前提,因此,预测可开发性首先要预测抗体−抗原结合的亲和力。我们期待包括亲和力预测在内的更多更好的抗体可开发性预测方法与工具的问世,让生物信息的学子们能为国为民做出自己的贡献!
当前,生命科学正处于第三次革命中,关注于生物信息存储、传输与表达,是理解“生命是什么”的最佳契机。生物医学也处于一个百花开放、百家争鸣的时代,“生物信息学”“系统生物学”“合成生物学”等多个学科快速发展,“Hi-C”“单细胞”“相分离”“焦亡”等是当前分子生物学领域最火的名词。
分子生物学的研究大都绕不开“基因的表达”。调控基因表达最关键的调控元件就是启动子,它负责和RNA 聚合酶的特异性结合,从而转录出RNA。因此,开发能够准确识别启动子的模型,对于研究基因的表达意义重大。该文章对2005 年以来开发的39 个用于原核启动子识别的计算工作进行了总结和展望。论文对已发表的用于原核启动子识别的基准数据集进行了搜集和整理,整理得到的资料为将来如何构建合理的、具有代表性的训练和测试数据提供了参考;进而,对广泛使用的DNA 序列描述符进行了介绍,这些DNA 序列特征提取方法不但可以用原核启动子的预测,也可以用于其他DNA 调控元件的表征;再次,是关于序列特征的优化算法应用,包括基于信息论的mRMR 和基于概率论的F-Score 等算法,如何将这些算法的优点结合,是提高启动子识别精度的一个途径;最后是关于机器学习方法的应用。
目前,尽管已经对原核启动子预测的研究取得了较满意的结果,但这些模型仅限于大肠杆菌等少数几个模式生物。将这些方法用于更多的物种上,构建合适的模型,也是未来的发展方向。希望该文章能为更多学者就此问题研究时,提供新思路、新角度。