李明丽
张世华
随着科学技术的迅速发展,多种多样的海量数据正被广泛地产生和积累。各式各样的数据不仅存在于日常生活中,也正在成为各科学领域深入研究的基本要素。这种“数据密集型”的研究甚至被认为是科学研究的新型范式,显著促进了数据科学的蓬勃发展。生物医学领域就正在发生这样的变化。丰富的组学大数据正在迅速产生,这催生了以生物数据解析为对象的生物信息学的迅速发展。大数据与数学特别是运筹学、统计学、机器学习等的碰撞,正在促进基础研究以及解决复杂的实际问题的能力不断发展和创新,并被广泛应用于生物、信息、工程、军事等各个领域。
在大数据的时代背景下,如何“运筹”优化、“统计”计算,实现复杂数据特别是生物大数据的解析呢?中国科学院数学与系统科学研究院研究员张世华的研究工作即面向该方向,将几个传统学科紧密联系在一起,致力于寻找数据解析、生命优化的金钥匙。
近年来,现代生命科学与生物技术取得了一系列重要进展,并正在扩大基础研究的深度与广度;同时向应用领域渗透,在解决人类发展所面临的环境、资源和健康等重大问题方面展现出广阔的应用前景。生物技术的不断发展,产生了大量的不同层面的数据,传统的生物学研究范式已不足以应对生物大数据的产生和发展。应用数学、运筹学、统计学、计算机科学等学科在生物研究领域显示出越来越重要的作用。
“很多交叉科学的研究,很难定论它是属于哪一学科。从研究本身的角度来说,科学研究是没有边界的,只不过后来人们为了方便交流、管理和统筹,才划分并强化了学科的概念。但很多学科之间都是密切联系的,很多科学技术的创新与突破也是多学科交叉融合的产物。”张世华带领团队主要围绕与基因组学、表观遗传学和网络生物学相关的生物信息学和与优化、统计以及机器学习交叉的数据科学进行探索和研究,专注于开发新的计算模型与算法,并用于大规模生物数据的分析和生物模式的发现。
多年来,张世华团队已经在生物信息学与数据科学领域积累了丰富的经验,发展了多个有影响力的方法,研究成果发表在Advanced Science、Nature Communications、Nucleic Acids Research、Bioinformatics、IEEE TPAIM、IEEE TKDE、IEEE TFS、AoAS等一系列重要杂志。张世华获得中国青年科技奖,入选国家“万人计划”青年拔尖人才计划,并主持完成了国家自然科学基金优秀青年基金项目。
通常,一般的方法对异源噪声数据进行集成分析时,往往忽略了不同来源的数据之间噪声存在很强的异质性。最近,张世华团队提出一个针对异源噪声建模的贝叶斯联合矩阵分解框架;并针对大数据可扩展性问题,提出基于交替方向乘子法的贝叶斯分布式矩阵分解方法,给出理论的解释。非独立同分布噪声的结构化问题,是机器学习与统计学领域的一个热点问题。斯坦福大学著名统计学家Jonathan Taylor(2018 ICM 45分钟报告人)与合作者曾尝试给出基于先验知识的思想,但这样的知识通常是不可得的。张世华团队提出图噪声建模的框架(Graphical Noise Modeling)与精妙算法,将这个想法推向可操作的层面,同时加深了人们对经典主成分分析方法以及精确矩阵估计问题的理解。
随着高通量测序技术(如C h I Pseq,RNA-seq和Single-cell RNA-seq)的发展,逐渐产生并积累了大量的不同条件且相互关联(如不同癌症、不同细胞系、不同时刻)的基因组数据。这为通过大规模数据分析和数据比较,来揭示不同关联条件下存在的共性和特异性提供了机会。整合分析与差异分析是两个常用的数据分析的范式。然而,通常的整合方法忽略了差异的模式,而差异分析方法通常不能识别差异部分的组合模式,一些识别组合模式的方法则要求数据的维数是匹配的。张世华团队针对组学数据整合的问题,多年来,开展了系统性的研究。比如,最近提出了一个基于联合非负矩阵分解的技术,以同时识别共有和特异组合模式的强大模型C S M F(Common and Specific patterns via Matrix Factorization),并应用于4种不同的生物学场景。该成果发表于国际知名期刊Nucleic Acids Research后,随即获得了Faculty of 1000 Biology的推荐。
随着染色质构象捕获技术(3C)及其衍生技术的迅速发展,三维基因组图谱数据正在大量累积,这为进一步揭示哺乳动物染色体的折叠机制提供了机遇和挑战。张世华团队针对3D基因组图谱数据,提出一个通用且高效的多尺度拓扑结构域识别方法M S T D,以从多种类型的三维基因组数据中鉴定多尺度的拓扑结构,其中包括顺式和反式的交互结构。该方法不仅能够鉴定多尺度的拓扑关联结构,而且首次提出鉴定启动子锚定的交互结构域和成对的拓扑关联交互结构域。该成果发表于国际知名期刊Nucleic Acids Research。
新兴的单细胞技术正在逐渐成熟,它使得在单细胞分辨率下并行检测大量单细胞的变化成为可能。这涉及诸如转录组学、基因组学、代谢组学、染色质开放性、甲基化组和三维染色质结构等层面的信息。这些技术给研究者提供了前所未有的机会,使得人们可以利用单细胞动态变化的连续性,揭示细胞的时间和空间变化。先前的大量研究证明,使用单细胞RNA-seq数据在转录组水平上的伪轨迹重构是研究细胞核内生物过程动态性的有效方法。
最近,基于流式细胞仪分选的单细胞H i-C技术的发展,使研究者能够通过计算分析来判断单细胞的周期相位,并分析染色体结构和组织的动态性。然而,这项开创性研究的计算方法过度简化了染色质的拓扑结构信息,严重依赖于多个经验阈值,缺乏可扩展性,对生物用户来说具有显著的挑战性。因此,迫切需要基于单细胞Hi-C图谱探索染色体结构动态特征的有效的、高度自动化的计算方法。为此,张世华团队提出一种功能强大且稳健的环状轨迹重构工具CIRCLET。该方法考虑了染色体的多尺度结构特征,并无须指定起始细胞,用以排序单细胞的周期阶段。CIRCLET被应用于1171个单细胞的细胞周期Hi-C图谱集,表现出最佳的重构性能。该工作被国际重要学术期刊Advanced Science在线发表。
“目前,我们做得很有意思的一个事情是,研究可解释的统计学与人工智能方法,并应用于模拟和生成单细胞三维基因组图谱,指导数据的产生过程和提高生物发现的潜能。”这听起来很不可思议,但看起来张世华乐在其中,信心满满。
2008年,张世华从中国科学院数学与系统科学研究院毕业,获得运筹学与控制论专业博士学位。博士毕业之前,他已经开始思考自己未来的路该怎么走,他主动联系了美国南加州大学进行博士后工作;毕业前夕,中国科学院数学与系统科学研究院也邀请他留所工作。张世华坦言,留所工作是他的意外之喜,但是也深感责任在肩。2011年年初,张世华回到中国科学院数学与系统科学研究院,其后他曾先后被邀请到加州洛杉矶分校、新加坡国立大学、日本东京大学、美国哈佛大学进行访问交流。虽然中国科学院数学与系统科学研究院对上课没有强制要求,但张世华主动开设了强化基础、面向前沿的多门课程,比如正在开展的“数据科学与矩阵优化”。“做科研其实是一个不断学习的过程,讲课就是这样一个再学习的机会。因为要不断地解决问题,所以要不断学习新东西,不能坐吃山空。”张世华说道。
2010年前后,国内有关数学、计算机与生命科学交叉研究的青年学者之间的交流活动还不够活跃。面对这一情况,他开始思考国内是否可以在这方面多进行一些交流。2012年,张世华找到中国科学院遗传与发育生物学研究所王秀杰研究员交流了自己的想法。他们一拍即合,然后组织了“数学、计算机与生命科学交叉研究青年学者论坛”。截至目前,该论坛已经成功举行了7届,论坛主题涵盖了基因组学、表观修饰组、肿瘤基因组、RNA与蛋白质结构预测、机器学习以及脑连接谱等前沿研究领域。论坛不但为青年学者提供了难得的锻炼机会,还提升了学生们的学术交流能力。
诺贝尔曾说过:“科学研究的进展及其日益扩充的领域将唤起我们的希望。”在人工智能时代,数学、计算机与生命科学的交叉研究还能为我们带来什么样的惊喜?带着这一问题,张世华正在路上!