陈秉塬, 钟 源
(1.东北大学秦皇岛分校图书馆, 秦皇岛 066004; 2.天津大学化工学院, 天津 300072)
合成生物学是当前最热门的研究课题之一,它采用工程化设计理念,对生物进行有目标的设计、改造乃至建立人工生物系统,是具有重大的科学、技术价值与应用潜力的新兴前沿学科[1]。政府、基金会、企业等多方资金的支持和投入促进了合成生物学相关产业的蓬勃发展,并在解决人类能源、环境、医疗、药物生产等领域发挥重要作用。
2010年以来,合成生物学取得许多突破性的成果,研究人员也对合成生物学研究领域进行及时总结归纳。Choi等[2]综述了系统代谢工程(包括工具和策略)的趋势,重点介绍宿主菌株选择、代谢途径重建、耐受性增强和代谢通量优化的最新发展;Xu等[3]总结了CRISPR-dCas工具在转录调控、表观遗传学工程、基因组成像、基因筛查和染色质免疫沉淀方面的应用;刘洋儿等[4]综述了乳酸菌合成生物学中元件设计、载体选择、转化方法和基因编辑技术的发展现状;刘晓等[5]总结了DNA合成和基因编辑领域的主要技术及其研究进展;Carlson等[6]探索了无细胞基因表达中功能基因组学和结构生物学合成、个性化药物生产等方面的新应用;张先恩[7]讨论合成生物学发展及中国科学界在合成生物学领域的贡献。
与上述对合成生物学综述方法不同,现结合文献计量学和科学知识图谱分析方法,以从Web of Science核心合集检索的4 765篇文献和参考文献为分析样本(检索式:TS=“synthetic biology”;文献类型:Article;时间跨度:2000—2019;检索时间:2020年2月27日),以引文分析软件CiteSpace为工具,对合成生物学的学科发展脉络、关键节点、研究前沿、研究热点和演进趋势进行系统分析,进而探究合成生物学未来发展方向,以期理清合成生物学在此期间的知识体系与理论基础,梳理合成生物学研究现状和发展趋势,为中国合成生物学领域研究和发展起到一定的推动作用。
从年度发文趋势上看,自2004年以来,合成生物学研究呈稳步上升趋势,2008年以后,合成生物学发展加速,如图1所示。
图1 合成生物学年度发文趋势图
从国家/地区贡献上看,美国、中国、英国、德国为合成生物学的研究主力,四国发表论文数量占总论文的70%以上,特别是美国,自开始有研究论文以来,一直在合成生物学领域起主导作用。中国在合成生物学方面的研究发展迅速,自2014年开始超过英国,成为第二大贡献国。
通过学者发文量以及合作者统计能反映学者在相应领域的学术贡献度和影响力,同时展现学者之间的合作与联系。选择分析样本中发文量前30%的作者,时间间隔限定为1年,形成作者网络,如图2所示。
图2 合成生物学作者发文数量及关系聚类图谱
合成生物学领域的核心贡献者有Keasling J D、Zhao H M(赵慧民)、Voigt C A、Jewett N C、Chen G Q(陈国强)、Yuan Y J(元英进)等,其中,北京化工大学赵惠民教授、清华大学陈国强教授、天津大学元英进教授作为中国学者在该学科领域作出重要贡献,具有较强的国际影响力。
合作关系方面,合成生物学研究合作特别是国际合作频繁,且大部分学者倾向于相对稳定的合作集群,每个集群通常包含两个或更多的核心学者。中国学者发表的论文中国际合作论文占23%,最大的合作伙伴是美国,其次是英国和德国。
机构发文量分析显示文献由2910个研究机构贡献,核心研究机构主要分布在美国、欧洲和中国。各机构既独立发展又相互合作,形成了“多极发展、整体扩散”的分布模式,发文机构关系聚类如图3所示。其中以麻省理工大学(179篇)、加州大学伯克利分校(148篇)、哈佛大学(124篇)为代表的美国研究机构表现突出,是合成生物学研究的主力。中国的合成生物学研究发展迅速,其中中国科学院(153篇)、天津大学(67篇)、清华大学(58篇)、中国科学技术大学(47篇)、上海交通大学(40篇)等研究机构均有良好国际影响力。
图3 合成生物学发文机构及关系聚类图谱
分析样本文献来自461个期刊,从发文期刊聚类情况看,目前合成生物学研究领域的核心研究成果主要分布在Nature、Science、AcsSyntheticBiology和PLoSOne等国际前沿期刊上。
对分析样本研究主题进行聚类形成学科领域知识图谱,如图4所示。合成生物学所涉及的学科面较为广泛,核心研究为生物化学以及生物化学相关,和生命科学、细胞生物学、系统生物学、计算生物学等生命科学的前沿领域有紧密联系,也和化工、制药、食品等传统化工领域的研究息息相关。
图4 合成生物学学科领域聚类图谱
在图谱之中可以看到数学、计算机等技术也融入其中,多学科交叉在合成生物学之中也占有重要的地位,这印证了合成生物学的一些特点:运用生物和化学的相关手段人工建立生物系统,结合数学、计算机等相关知识,使其像电路一样运行。
高被引文献记录了这个领域的重要研究成果。通过对高被引文献的解读能加深对合成生物学领域研究逻辑和理论基础的理解。在分析样本中共有10篇高被引文献,发文集中在2008—2011年。
其中,Canton等[8]所著的《精细化和标准化合成生物部件和设备》可以说是合成生物学标准化的开端;而同年Stricker等[9]所写的《快速、强大且可调的合成基因振荡器》则为基因线路的发展提出了核心构想。
Gibson等[10]、Salis等[11]和Wang等[12]则分别提出了高分子量DNA的酶促组装方法、自设计合成核糖体结合位点以控制蛋白质表达以及通过多重基因组工程和加速进化对细胞进行编程的方法使得合成生物学的实验手段更加简洁高效。此外,Purnick等[13]的《合成生物学第二波:从模块到系统》把合成生物学的进一步发展方向描述得更加确切,指明了合成生物学已经从最初摸索的把生物体模块化到将这些模块拼接成系统的进一步跨越。
Khalil等[14]详细介绍了合成生物学的应用以及前景,Gibson等[15]的《由化学合成的基因组控制细菌细胞的产生》则把人造基因组插入天然生命之中,Ajikumar等[16]的《大肠杆菌中紫杉醇前体过量生产的类异戊二烯途径优化》运用合成生物学方法高效合成了抗癌药物紫杉醇。
Tamsir等[17]的《使用遗传编码的NOR门和化学“导线”进行强大的多细胞计算》则为基因线路的多细胞计算提供了更广阔的思路。
从这些经典文献可以看出,以应用和实践为导向进行研究仍然是合成生物学的前进方向,其理论基础主要是工程化、模块化、系统化理论,研究基本框架主要有基因回路、代谢工程等。
根据分析样本的关键词共现和聚类分析,可以得到已有文献的研究热点和前沿。
在CiteSpace软件中利用寻径网络分析(pathfinder)绘制共被引关系图谱,模块值ModularityQ为 0.843 5,大于0.3,平均轮廓值S为0.907 3,大于0.5,满足聚类结构显著性和聚类效果合理性要求。从合成生物学研究领域的高频关键词、共现聚类的大小及轮廓值,获得聚类值>0.1的聚类共15个,如表1和图5所示。
图5 合成生物学论文关键词聚类
表1 合成生物学聚类值>0.1的聚类标签列表
为了更清晰地分析合成生物学关键词聚类,根据研究层次绘制合成生物学研究热点逻辑关系图,并在接下来章节按逻辑关系图进行分类阐述,如图6所示。
图6 合成生物学研究热点逻辑关系图
聚类1:多尺度模型(multiscale models)。模型是科学研究之中一种很常见的研究手段。通过构建模型,把现实世界中的物体进行抽象和研究,能够得到更加简约和具有普适性的规律。在合成生物学的理论体系中,主要通过热力学和动力学进行研究,但是因为合成生物学的反应远远达不到热力学极限,常微分方程的方法并不是特奏效,而且,因为生化反应的物质量相对较少,使用传统分析方法的全部连续性建模显然不适用。因此,要引入一定的离散与随机建模,相互结合形成多尺度模型,这在合成生物学的理论构建之中起到了十分关键的作用[18]。
聚类3:RNA指导的多重基因调控(ribonucleic acid guided multiplex gene regulation)。过去RNA只被认为是从DNA到蛋白质之间的传声者,但是随着研究的不断深入,RNA的功能也正在不断显现出来。在翻译过程中,RNA可以通过碱基互补配对沉默目标RNA进而对产物做出更多影响,例如改变基因表达或者阻止定向进化。RNA分子的基因调控途径大体上分两类,即转录水平基因沉默:因为与具有同源性的dsRNA或RNA结合,使启动子DNA甲基化,进而不能启动转录;转录后基因沉默:在基因转录后通过对细胞液内靶mRNA特异性降解而使基因失活[19]。
聚类4:规律成簇的间隔短回文重复(clustered regularly interspaced short palindromic repeats, CRISPR)。CRISPR是源自原核生物基因组内的一段重复序列,细菌为了将病毒的外来入侵基因清除,进化出CRISPR-Cas9系统,利用这个系统,细菌可以把病毒基因从自己的基因组上切除,这是细菌特有的免疫体系[20]。
利用细菌免疫体系切除目标DNA的典型模式是依靠一个被RNA引导的复合物,定向寻找目标DNA序列,然后将该序列进行切除。但是细菌的免疫复合物都很复杂,其中一种蛋白Cas9的操作技术是目前已经被掌握的,可以切除多种目标细胞的DNA,这种方法被称为CRISPR-Cas9基因编辑系统,是目前生命科学界最热门的技术。
聚类8:合成生物学开放语言(synthetic biology open language,SBOL)。生物系统被合成生物学通过基于工程的设计,以分子生物学、遗传学和代谢工程的技术和功能为基础来解决传统研究过程中存在的种种问题。但是合成生物学仍然存在很多问题,包括开发时间长、失败率高和可重复性差。解决这些问题的一种方法是改善实验室之间有关设计系统的信息交换。合成生物学开放语言已开发为支持合成生物学中规范和交换生物学设计信息的标准,满足了其他现有标准无法满足的需求[21]。
聚类10:系统生物学(systems biology)。系统生物学是以实验数据与计算结果为基础来研究生物系统的学科,它对生物的系统性进行研究,检测基因、蛋白质以及信息通路的各项表征和翻译,然后通过对数据的整合,最终建立数学模型,通过模型进一步描述生物系统结构和对各种扰动的反应[22]。
聚类2:组合优化(combinatorial optimization)。合成生物学的主要挑战是设计具有新颖功能的复杂生物系统,但是通常很难合理设计合成基因网络中的每个组件以实现最佳性能。组合工程是解决该问题的重要方法,可以极大地促进新型生物学功能的构建。组合优化有很多种方式,包括微调途径组件系统、策略优化代谢途径、以及引入多重基因组范围微扰的技术[23]。
聚类5:蛋白质表达(protein expression)。蛋白质表达是合成生物学研究的又一个重要方向。蛋白表达是指用模块生物表达外源基因蛋白的一种分子生物学技术。由宿主、载体和辅助部分组成,而表达方式也分为原核蛋白表达、酵母蛋白表达、哺乳动物与昆虫细胞表达。
聚类6:同源重组(homologous recombination)。同源重组是在合成生物学实验中构建生产更大DNA构建体的重要技术。同源重组技术是指两个DNA之间的遗传信息精准特异性互换。在酿酒酵母菌的体系之中不但有更加稳定高效的同源重组修复双链DNA断裂机制,而且只要两个DNA分子之间有30~50 bp(base pair,碱基对)的长度就可以进行,比其他酵母菌更加有效。进而引发出聚合酶链式反应(polymerase chain reaction, PCR)介导的重组技术,作为PCR引物的人工合成寡核苷酸单链可扩增同源区段[24]。
聚类9:转录后调控(post-transcriptional regulation)。在生物学研究的过程之中,转录是极其重要的一步,但是随着研究的不断深入,加工、 成熟、 降解、 翻译等诸多转录后小段RNA的过程中都存在复杂而精细的调节机制,这些都是基因表达的影响因素。研究热点从非翻译区到末端等诸多方面均有涉及[25]。
聚类12:蛋白质重组(protein reconstitution)。蛋白质是生命活动的重要载体,而蛋白质不只是简单的大分子,它具有非常复杂结构,而研究这种复杂的结构的方法目前主要通过电镜来实现[26]。
聚类13:合成回路(synthetic circuit)。前期的合成生物学工作主要是基于利用转录层面的控制,蛋白质之间的偶联发展相对于DNA元件的开发一直进展缓慢。然而蛋白质水平的电路可以使强大的新细胞行为工程成为可能。一个可组合的蛋白质-蛋白质调节系统将有助于合理的蛋白质回路设计。在该系统中,各个蛋白质组成可以相互调节,从而产生各种不同的回路结构。在合成回路中,蛋白质特异性地改变彼此的活性、定位或稳定性。合成蛋白回路可以提供优于基因调节回路的优势,包括更快的操作、与内源途径的直接耦合、单转录物递送以及无需基因组整合的功能[27]。
聚类14:基因回路(genetic circuit)。基因回路是合成生物学的重要组成部分,合成生物学的目的之一是把生物模块工程化运行,因此把基因抽象成逻辑符号,使其能够像电路元件一样标准化、规范化运行也是合成生物学的应用。科学家们把已知可利用的并且可以相互调控的基因组装起来赋予它们抽象电路之中的含义。与、或、非门三种基本逻辑门是由特定的mRNA的浓度作为逻辑信号。在细胞内,mRNA操作转录形成的分子与其他蛋白质相互作用,绑定特定的DNA结合位点,并最终调节其他蛋白质表达。这些调控活动,可以用数字逻辑功能及模拟信号处理来实现。随着合成生物学的不断发展,现在已经由单一的门逐渐扩展到多细胞、多角度的回路。还实现了振荡器计时器等多种基于回路特性构建的系统[28]。
聚类15:核糖开关(riboswitch)。核糖开关是小段RNA序列,它们结合代谢物等小分子后可以改变构象,从而调控基因表达。核糖开关是一种非常经济的基因调控方式,在基因表达调控、抗菌、挑选适配体以及制作生物传感器等方面具有重要作用[29]。
聚类7:生物燃料(biofuel)。生物燃料包括纤维素燃料、微藻燃料以及近年来新开发的优质生物燃料(高级醇、高级脂肪、高级烃等)和利用新技术合成的原有生物燃料(生物乙醇、生物柴油等)。而生物燃料高效利用的关键也在于工程改造微生物,主要途径如下。
(1)从源头上通过合成生物学技术提高生物质原材料的转化特性或设计出更多种类的生物燃料,使其更容易生产或转化为特定燃料。
(2)开发绿色高效催化剂,提高生物燃料的转化效率。
(3)构建微生物工厂,实现生物燃料规模化生产[30]。
(4)构建微生物燃料电池,实现特定产物的可控生成和分解[31]。
聚类11:生物制药(biopharmaceutical manufacturing)。药品的研发与工程化生产一直是研究热点之一,随着合成生物学技术的成熟,让科学家和工程师能够通过微生物系统大规模生产药物和其他高附加值产品。而运用合成生物学来生产药物,是因为本来有很多药物就是纯天然大分子,例如青霉素、青蒿素等,这些高分子的合成本身也具有生物途径,运用微生物来进行规模化生产也很方便。并且生物体的复杂性使得其在生物体内的合成过程存在复杂的多级调控,基因回路等合成生物学的常用手段能够对这些阶段进行工程化的精密调控。
时间线图(timeline view)可以从时间维度来揭示合成生物学的研究趋势和发展历程,通过时间线图和总结分析可以推断出合成生物学不同维度的演进特征,进而总结出变革趋势。
结合文献计量研究法,采用CiteSpace的时区共现聚类功能对相关文献数据按照每隔两年的时间周期进行了聚类分析,进而从理论指导、技术推动、线路工程、代谢工程、实际应用五个维度对合成生物学研究的演进特征进行系统描述,如表2所示。
表2 演进特征年份维度图
整体来看,合成生物学聚类呈现先增加再放缓的趋势,说明合成生物学的整个学科体系已经逐渐建立,研究人员更加倾向于对深层次、多角度、工业化的研究。
从合成生物学的理论指导学科增加放缓,说明合成生物学正在脱胎于其他学科,构建出属于自己的知识体系,而技术推动的一次次进步则标志着合成生物学与其他检测、计量等精密学科和物理、化学、数学、计算机等基础学科的紧密联系。线路工程与代谢工程的不断发展显示出合成生物学最为主体的研究脉络,也预示着合成生物学未来一段时间的发展进程,代谢工程的更高产量、更快速度、更多物质和线路工程的复杂化、模块化、算法化方向不断推进。
应用上来说,合成生物学能够不断地将自己研发的成果转化为实际应用,能够造福社会,可以提高合成生物学的普及度,促进发展,同时也对合成生物学的研究提出了更高的要求。可以预见未来10年之中仍会有大量的合成生物学研究和应用成果涌现。
从21世纪初的起步,到如今的蓬勃发展,合成生物学受到各国的高度重视,学者们在线路工程、代谢工程等领域不断研究,实现从模块到系统的过程。在这个期间,中国高度重视,利用“863”计划等国家平台,组织关于合成生物技术研究项目,解决合成生物技术实际应用中面临的关键技术问题,通过关键技术的突破,提高中国在生物能源、药物研究和生产领域的综合应用能力[32]。
基于对4 765篇合成生物学文献记录的引文分析,对合成生物学研究领域近20年的发展历程进行分析,展示了合成生物学领域的发展历程。利用CiteSpace的知识图谱聚类功能,将多种研究工具和方法相融合,绘制多维度的知识图谱,并以此为基础梳理出合成生物学的重要研究方向和未来研究趋势,为合成生物学领域的科研人员探寻同类学科、主要文献、主要研究对象提供了明确的指向,有助于其更好地了解和追踪研究热点和研究前沿。