肖贞林 黄雪霜
进入21世纪,多组学技术和生物治疗等医学前沿技术突飞猛进,人类社会进入一个前所未有的历史性变化中。可是发明了那么多新技术,积累了那么多新知识,发表了那么多高水平论文,为什么人类面临的很多健康问题依然得不到有效改善?
要回答这个问题,不得不提起20世纪90年代兴起的转化医学。转化医学的初衷是要把临床提出的问题快速转化为基础研究项目,而后再将研究项目的成果通过研究型病床有效地转化为针对临床患者疾病的准确预防、诊断、治疗及预后评估等一系列方案,从而让新技术更快,也更有的放矢地用于增进人民群众健康福祉。
近30年来,我国在基因组测序技术、临床疾病分子分型与诊治标志物、药物设计靶点、临床队列与生物医学大数据等方面积累了大量的数据,但这些数据并没有有效地服务于临床患者。为了有效地将它们转化成解决临床问题的信息,切实造福人民健康,迫切需要科研人员加强突破慢病防控、精准医学等关键技术。响应国家在转化医学领域的号召,方海从牛津大学全职回国,回到上海交通大学医学院附属瑞金医院,组建并负责转化医学国家重大科技基础设施(上海)瑞金基地的生物信息(以下简称“生信”)大数据平台,聚焦复杂慢性疾病,开展遗传靶点“计算医学”研究工作。
方海作报告
“我一直想要开创一个新的转化医学研究范式,利用现有的组学大数据,挖掘支持治疗靶点选择的遗传证据。”方海认为,在个体化治疗中,必须挖掘个体的遗传变异信息,而在各种相关的组学数据里,真正有助于患者受益的是找到潜在的治疗靶点。这是一个新的遗传靶点计算医学研究模式。这些年,他专注于领域的前沿算法的研究,相关工作多次在国际学术会议作口头报告及特邀报告,获得2017年度牛津大学卓越奖,并先后入选上海高校特聘教授、上海市高层次特聘专家、国家高层次引进人才(青年)等。
在医学研究中,如何将大量的数据转化为解决临床问题的有用信息一直是个难题。这个难题的破解需要生命科学、统计学、计算机科学和医学领域专家的有效合作与交叉研究。
方海恰恰具备多学科的学术背景。早年在中国科学院上海生命科学研究院硕博连读时,他的专业领域是遗传学与生物信息学,而2010年前往英国布里斯托大学深造时,他决定加入计算科学系。从传统的生物医学转向计算科学,是一个大胆的本能决定,却为之后的研究打下了坚实的基础。
在布里斯托大学,方海除了维护数据库之外并没有固定的课题。“在这种‘自由放养’式坚守本职工作的环境中,他逐渐发现事务性工作反而赋予他更多的遐想和对原创思维的重视。”工作半年间,他完全凭借自己的兴趣和创新动力,自主研发了新算法,为之后蛋白结构域语义注解数据库的建立奠定了基础。该数据库在连续3次国际蛋白质功能预测竞赛中的预测成绩均名列前茅,直到10年后的今天,仍被使用并收录于维基百科全书中,对后续的研究工作产生着深远的影响。
2015年,方海回归生物医学领域,在牛津大学威康人类遗传学中心从事医学基因组大数据与计算医学研究。“我已经积累了多学科的技能,出于本能决定再回到生物医学领域。”对方海来说,这是一种必然的回归。
在牛津大学,方海主要是在欧盟创新药物计划(IMI)资助下的协会中工作,参与多国合作的创新药物研究。针对复杂疾病治疗研究瓶颈共性(即非编码区遗传变异位点加大了潜在靶点的选择难度),以及遗传靶点重要性(即遗传靶点支持加倍提高药物研发的成功率),他率先提出并开展“复杂疾病遗传靶点计算医学”研究。这一前沿研究具有鲜明的多学科交叉特征,涉及多门基础学科,包括医学(复杂疾病)、基因组学(多层次遗传调控组学)、计算科学(蛋白结构)、人工智能(非监督式自组织学习)等。方海的多学科背景正好为他在这些领域的探索和突破提供了施展的空间。
几年后,方海领衔团队取得了具有重要国际影响力的标志性原创成果。2019年6月,方海在《自然·遗传学》(Nature Genetics)发表文章,介绍了他负责创建的“优先指数”(Priority index)。“优先指数”是计算医学转化系统,可以预测遗传靶点以期指导药物研发,实现组学大数据向治疗遗传靶点计算转化的概念。相关成果一经发表,便引起制药行业各大企业的关注。
全基因组关联研究(GWAS)产生了海量遗传组学大数据,其中蕴含潜在的疾病易感遗传位点,是研究复杂疾病的有效手段。但GWAS所揭示的遗传位点绝大多数位于基因组的非编码区,其生物学意义(如潜在的调控基因)难以解释,进而加大了对潜在治疗靶点选择的难度。“优先指数”攻克了这一难题,针对复杂免疫疾病GWAS汇总数据,利用功能基因组数据(产自于基因表达数量性状定位分析技术与染色体构象捕获技术)预测疾病潜在致病调控基因,并整合基因互作网络信息将潜在调控基因扩展至网络关键节点,从而实现了对治疗靶点“五星等级式”量化推荐。
“‘优先指数’最大的优势是针对复杂疾病非编码区遗传信息,通过‘生物与信息融合’理念指导推测治疗靶点。”方海的这一成果被认为“是一个重大的突破”,因为复杂疾病靶点选择痛点是非编码区遗传变异位点,而“优先指数”实现了从非编码区的信息到临床应用治疗靶点的量化利用。为此,《自然·遗传学》发表2019年度编辑评论“遗传学年度回顾(A year in genetics)”,提及方海的工作“在药物基因组学上具有前瞻性”。基于该研究成果,2020年,方海受邀在医学权威杂志《柳叶刀·风湿病学》(Lancet Rheumatology)上撰写综述,系统性阐述以遗传学为导向治疗靶点计算医学研究的理论基础,并指明该领域的前沿方向。
近5年,方海在计算医学领域取得的标志性原创成果有Priority index、OpenXGR与dcGO,均发表在《自然·遗传学》《柳叶刀·风湿病学》《核酸研究》《血液》等国际杂志上
“遗传靶点是指遗传证据支持的候选治疗靶点。”2021年,方海明确定义了遗传靶点的概念,这也是计算医学的核心目标。药物研发回顾性分析表明:若I期临床候选药物具有遗传靶点支持,其研发成功率将提高两倍;若具有与疾病存在因果关系的靶点支持,药物研发成功率还将进一步提高。“优先指数”可以预测高通量细胞筛选平台测量的靶点活性,这些平台包括L1000技术、CRISPR筛选技术、随机突变技术及基于病人样本的细胞筛选技术,因此对于药物的研发具有实用性,若合理利用,可以大大节省研发时间与人力成本。“经典的药物研发是在传统的实验室里根据自己的兴趣来研究某一条具体通路,有时候失败是因为没有基于临床资源的遗传靶点的支持。精准医学或新药研发的核心是治疗靶点的筛选。”这是方海从过去近20年的研发历程中总结出的朴素经验。
针对某一疾病,“优先指数”可以发现已知药物治疗靶点并刻画遗传信息支持治疗的潜能,进而构建基于治疗遗传靶点的疾病间关系全图。专家对此给予了高度评价,认为“优先指数”核心算法提供了一个新思路,即将组学数据向靶基因和靶通路的计算转化,开启了复杂慢病遗传靶点转化研究的新模式:非编码遗传位点—调控基因—靶基因量化推荐—通路交汇干预靶点。
值得一提的是,方海创建的“优先指数”不仅包括方法学,还提供了开源软件与数据库。用户可以通过开源工具包,针对自己的数据开展计算医学研究。
“从人类基因组的遗传信息中发现潜在的治疗靶点,指导药物的研发。这在当时一直停留在概念阶段且比较受质疑,具体实现并不被大家看好。”但随着方海的研究成果陆续刊登发表,各大药企逐渐表现出了极大兴趣。一些媒体预测,随着制药行业加大对医学组学大数据研究的投入,计算医学时代即将到来。
随着“优先指数”的问世,这一算法体系在国外的计算医学领域备受关注。此时,方海决定将它带回国并进一步拓展,希望在祖国大地上深耕推广。
生信大数据平台成员合影
2020年,方海回到上海交通大学医学院附属瑞金医院,组建生信大数据平台,通过生物与信息融合的理念,挖掘基因组数据,找到潜在的遗传证据支持的靶点,旨在助力后续原创药物研发效率的提高。
近年来,关于遗传靶点的研究成果主要集中于剑桥大学的“开源靶点(Open Targets)”与牛津大学的“优先指数(Priority index)”。然而,无论是“优先指数”还是“开源靶点”,都仅提供预先计算并存储于关系数据库中的遗传靶点。为打破这一瓶颈,在瑞金医院,方海于2022年上半年在国际期刊《核酸研究》(Nucleic Acids Research)上连续发表最新研究成果,并借助该期刊的“2022年度数据库专刊”对外发布了同名数据库“优先指数”,以及“2022年度在线工具专刊”发布了“优先指数”在线服务工具PiER(翻译为“码头”)。不同于以往的资源工具,PiER以“从头实时”整合量化推荐的优势,致力于“用户至上”的宗旨支持用户输入自己的数据,3分钟内一键式实现遗传靶点的计算转化。
“目前,‘优先指数’已成功地应用于30余种免疫介导相关复杂疾病的遗传靶点计算转化。”方海介绍。“优先指数”系列专门的数据库和在线网站可支持数字化挖掘,助力计算医学研究。该数据库专门网站提供便捷的疾病、靶基因及其蛋白结构查询。查询结果除了靶点量化排序信息及背后遗传证据外,还提供可靶向性模式信息,尤其是基于已知蛋白PDB结构的可成药性口袋预测信息,并支持其3D互动可视化展示。网站还支持高级使用,用户可以开展跨疾病比较分析。
现在,“优先指数”计算医学系列工具资源已经基本涵盖所有免疫介导的复杂疾病,并成功将靶点计算医学研究模式扩展至其他复杂系统性疾病,无偿地支持第三方用户开展多种疾病的遗传靶点发现工作,如1型糖尿病、阿尔茨海默病、心血管疾病、纤维增生性疾病等,这些工作均发表在国际学术期刊上。
“这不仅停留在算法和理论基础上,还是一个有数据库的支撑工具,供大家免费方便使用。”在“组学大数据——蛋白结构计算预测”大科学与大健康的背景下,“优先指数”系列的算法工具数据库有望赋能我国计算医学研究最底层基础设施的建立,在不久的将来实现治疗靶点选择的自动化、智能化与平台化。
创建“优先指数”并研发数据库和用户服务网站,对方海来说,既是原创性的本职工作,也是对服务性工具的一种坚持。他认为好的科研工作不仅要有原创,更要有服务意识,两者相辅相成,原创工作终将服务于大众。
方海将自己“原创与服务”的理念延续到生信大数据平台。在平台创建初期,他就明确了其定位:一方面是服务,即服务临床多组学数据的解读;另一方面是研发,即自主研发核心算法与新工具。原创工具增加平台的实用性及服务水平。除了前述的“优先指数”与dcGO,方海还是非监督式自组织学习工具(supraHex)与组学汇总数据在线解析工具(OpenXGR)的研发者与维护者。OpenXGR收录于《核酸研究》“2023年度在线工具专刊”,支持各个层面组学汇总数据解读,并将进一步改善用户使用体验感,类似于OpenAI现象级产品ChatGPT,实时响应自然语言请求。
生信大数据平台成员合影
“在瑞金医院,我们不仅是为临床医生解读临床数据,更多的是推广一种新的研究模式。”方海口中所说的这种模式就是从临床样本中挖掘有用信息加以利用,产生新的知识再加以论证,进而指导临床实践。方海希望他的工作不仅服务于瑞金医院,还能服务于自己不直接参与的项目,让更多人便利地使用算法工具数据库,为我国计算医学的发展添砖加瓦。
方海的团队秉持“原创与服务齐头并进”的理念。虽然他回国工作时间不长,仅招收了第一批研究生,但他希望培养的学生能支持合作项目的数据分析,同时也能自主研发一些公益数据库。“不问得失,但求极致。”有了原创性研究就相当于拥有了“有源之水”和“有本之木”,而怀揣为“它”之心,才能让水润万物,大树枝繁叶茂。
方海近期的目标很清晰——建设一个重大疾病治疗靶点发现与论证的生信大数据平台。“除了肿瘤研究,我们的特色或者重心也应放在复杂慢性疾病及其病前亚健康上。”与诸多同道前辈想法一致,随着我国老龄化加剧,复杂慢性疾病呈现显著增长趋势,因此他和团队的目标是继续创新计算医学,全面提升其在转化医学与精准医学研究领域中的引领作用,以满足人们对慢病及其病前亚健康防控需求的增长,主动应对人口老龄化,改善老龄健康。
方海希望加速转化利用自然人群队列与专病人群队列中蕴含的临床资源与组学数据,高效准确地识别并论证全新的分子标志物和治疗靶点。他还希望在研发新算法与建立新范式的基础上,开发运行高效、结果可靠、用户友好的应用软件功能性产品,实现一键式快速挖掘数据背后的临床转化知识,预测个体化药物靶向作用组合,指导个性化临床防治实践。最终,方海的目标是通过计算医学研究工作,助力“健康中国”国家战略,提高国民的健康水平和幸福感,这也是他毕生所追求的“最幸福的事业”。