夏建业,田锡炜,刘 娟,庄英萍
(1.华东理工大学生物反应器工程国家重点实验室,上海200237;2.武汉大学计算机学院,湖北武汉430072)
生物制造相较于传统制造具有绿色、环境友好等显著优势,正成为推动社会经济可持续发展的重要方向,被广泛用于包括生物材料、生物能源、生物肥料、大健康产品、精细化学品、食品、医药、卫生等诸多领域[1],在其应用过程中形成了大量的数据,包括组学数据、过程在线数据等,然而由于人类对微生物细胞调控规律以及发酵过程规律认识的局限性,对这些数据的分析挖掘不充分,极大限制了整个生物制造产业的跨越发展。
随着合成生物学、系统生物学的发展,微生物细胞生命过程的组学数据得到大量积累;同时,过程检测技术的进步,也促使生物过程中的在线数据急剧增加。这些数据的积累呈爆炸式增长,为探究微生物细胞内细胞生命过程的调控规律、实现生物过程的智能化提供了大数据基础。
进入大数据时代,数据就是价值,数据中蕴含知识的理念深入人心。我们无时无刻不生活于大数据中,每天用的搜索引擎、购物网站,甚至使用的输入法等都生成大量的数据,随之而来的基于大数据的机器学习以及由此产生的人工智能,显著提高了工作效率。输入法可以快速识别并预测后续输入内容,搜索引擎甚至在没写全主题词时,就已经预测好搜索内容列表以供选择。由此带来的便捷可改善我们的生活,提高我们的效率。生物制造也面临步入智能制造时代,然而,到底如何利用生物制造过程的大数据,如何通过机器学习提高制造效率、提高产品质量等依然并不明朗。
本文中,笔者试图从机器学习的基本概念入手,结合生物制造过程的特点,综述目前我们在朝向智能生物制造的路上,走在什么位置,可能的发展方向,并提出一些意见和建议,以此抛砖引玉,希望更多的人关注并投身该领域,促进智能生物制造的发展。
“人工智能(artificial intelligence)”一词最初是在1956 年Dartmouth会议上提出的。从那以后,研究者们发展了众多理论和原理,人工智能的概念也随之扩展。维基百科对人工智能的定义[2]:“人工智能,亦称机器智能,它不同于人类自身的自然智能,是指由人类制造出来的机器所表现出来的智能”。Russell等[3]则在他们的经典教材《Artificial Intelligence》中将人工智能归纳为“像人一样合理地思考,像人一样合理地行动”。Kaplan等[4]的定义则更加具体,“人工智能是系统能够正确解释外部数据,能从这些数据中学习,并灵活利用所学来实现特定的目标和任务的能力”。
具体而言,人工智能定义包括两个部分,即“人工”和“智能”。人工智能概念的核心是如何理解“智能”。“智能”本身就是一个抽象而复杂的概念。Howard Gardner在1983年提出多元智能理论,指出人类的智能是多元化而非单一的,主要是由语言智能、数学逻辑智能、空间智能、身体运动智能、音乐智能、人际智能、自我认知智能、自然认知智能八项组成,每个人都拥有不同的智能优势组合[5]。综合而言,人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。它试图了解智能的实质,并生产出一种能够以人类智能相似的方式作出反应的智能机器。人工智能被列为计算机科学的一个分支,其基础涉及多个学科,包括信息科学、数学、物理学、认知科学、哲学、经济学、神经科学、心理学、语言学和控制论等[3]。可以看出,人工智能实际上是一门多学科广泛交叉的学科,随着各类大数据的积累,以深度学习为代表的机器学习算法的提出和计算机硬件的飞速发展,人工智能已在很多领域展现出了非常振奋人心的进展。
人工智能大体可以分成弱人工智能、强人工智能和超人工智能三类。弱人工智能只用于解决特定的具体问题,多采用统计数据,并从中归纳出模型用以预测应用,如谷歌的AlphaGo。由于弱人工智能仅能处理较为单一的问题,且发展程度并没有达到模拟人脑思维的程度,所以弱人工智能仍属于“工具”范畴,与传统的“产品”在本质上并无区别。强人工智能则是能达到人类智能级别的人工智能。与弱人工智能不同,强人工智能可以像人类一样应对不同层面的问题,能够进行思考、计划、解决问题、具有抽象思维、可以理解复杂理念、并从经验中学习。在强人工智能阶段,由于已经可以比肩人类,同时也具备了具有“人格”的基本条件,机器可以像人类一样独立思考和决策。超人工智能则是在几乎所有领域都比最聪明的人类大脑聪明很多,包括科学创新、通识和社交技能。此阶段的人工智能已经不是人类可以理解和想象。强人工智能将打破人脑受到的维度限制,其所观察和思考的内容,人脑已经无法理解,人工智能将形成一个新的社会。现阶段,由于很多机制还未被完全挖掘,很多理论和技术有待突破,人工智能水平尚处于弱人工智能阶段。
目前,数据、算力和算法是驱动人工智能发展三大支撑要素,缺一不可。算法是人工智能的核心,算法的不断迭代和更新,促进人工智能及其生态的不断发展;数据是人工智能的基石,数据用来训练算法,只有具备了大量的数据资源,人工智能才可能有好的发展,没有数据,再好的算法也很难进行有效升级;算力是人工智能落地应用的根本保障,算力提速刺激很多领域进行革新,这些革新反过来又驱动数据和算法的持续提升。算法、数据、算力相互促进。围绕上述三个方面,人工智能技术涵盖以提供软、硬件平台和设施为主要目的的云计算/存储、分布式存储、大数据、边缘计算、人工智能框架、信息安全、智能芯片、GPU/FPGA加速芯片等相关技术;以数据获取和初步处理为目标的信息检索、智能感知等技术;以数据精度解析为目标的自然语言处理、图像处理、视频处理、音频处理、语音识别等技术;以智能模型建立为目标的特征工程及机器学习算法等。其中,机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。不难看出,机器学习是实现人工智能的根本途径。
根据采用的学习策略的不同,机器学习一般可以分为有监督学习、无监督学习和强化学习三大类。为了应对一些应用领域中有标签数据获取成本较高的问题,机器学习研究领域发展了半监督学习,迁移学习等策略。为了解决数据孤岛及数据隐私和数据安全问题,联邦学习也成为当前机器学习的新框架。深度学习(deep learning)是机器学习领域中伴随深度神经网络及相关算法的发展而迅速发展的一个分支。深度学习是对人类大脑的工作方式的模拟,是利用深度神经网络来解决特征表达的一种学习过程。深度神经网络本身并非是一个全新的概念,可理解为包含多个隐含层的神经网络结构,其目的在于建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,实现诸如智能导航、智能安防、智能医疗等人工智能应用。
“人工智能是什么?当下主要指机器学习,所谓机器学习就是把智能形式化为数学公式,并转换成计算机可以操作的算法和软件”这是中国科学院院士、西安交通大学徐宗本教授2019年在中国人工智能大会的报告《AI与数学:融通共进》中对机器学习与智能的精辟阐述。我们把机器学习如何通过大数据的训练学习获得所谓智能的过程用图1来概括,从中可见所谓机器学习获得的“智能”就是通过数据训练获得的模型,而这个模型可以针对具体的输入数据来预测可能的输出,就像它在思考一样,因此看上去是有了智能。相信2016年在与人类顶级棋手开展的世纪对决中,AlphaGo展现出的精湛棋艺,使“机器真的具有了超人类的智能”这样一个观念深入人心。而这精湛棋艺背后的“智能”实际上就是利用了人类历史几乎所有的棋局基础上训练出来的机器学习模型,而该模型的预测能力已经超过人类棋手。我们真的进入到人工智能的时代。如何利用这一技术为生物制造服务将是今后一个重要的研究方向。
图1 机器学习通过大数据训练获得“智能”的过程Fig.1 Process of machine learning obtaining "intelligence" through big data training
合成生物学的发展已经达到一个新的高度,CRISPR/Cas等基因编辑技术极大地拓展了我们改造微生物的效率,使得工程化DNA分子,生物大分子、小分子的基因线路调控,外源途径的插入等改造更加高效。然而,由于微生物细胞代谢的复杂性,这些改造的结果具有各种各样的不可预测性,这就催生了高通量筛选技术,通过“暴力”手段,不断经历反复的试错实验,利用高通量的办法在更短时间内来筛选出具有优良性能的菌种。该技术路线进而演化为Design-Build-Test-Learn(DBTL)[6]这样一个循环概念(图2),通过反复经历该循环,利用多轮筛选最终获得高性能菌种。然而,合成生物学构建的高性能菌种要想获得产业化应用,必须经历大量的实验摸索,这导致开发成本的显著提升,限制最终产品的产业化。
图2 合成生物学里的DBTL循环Fig.2 DBTL cycle of synthetic biology
这种生命过程的不可预测性,一方面来自于我们对生命过程认识的局限性,另一方面不可否认的是大量过程数据的缺失。这些数据包括细胞在调控内部代谢的过程中各种生物学参数是如何变化的,其中存在怎样的规律等等,这些曾被大量研究,但形成的知识还不足以构建可预测基因改造结果的软件,因此,需要开发相应的检测技术以便自动化获得标准化的工具,从而为构建基于数据的预测模型奠定基础。
在工程技术领域总结出的DBTL循环[6]在合成生物学里得到了很好的应用,该方法的应用极大地促进了人类改造菌种用于天然或非天然产物大量合成技术的发展。然而,多轮的DBTL循环意味着大量的资源、人力物力的投入,使得相应技术路线的开发成本也大大提升。为了减少循环次数,节约成本,Carbonell等[7]提出了自动化的DBTL循环概念并在大肠杆菌改造生产天然产物类黄酮中进行应用,他们利用开发的外源途径酶选择工具RetroPath[8-9]和Selenzyme[10]进行途径酶的自动化选择,之后再利用部件选择程序PartsGenie[11]自动化选择合适的部件,结合试验设计(DoE)方法将设计空间缩小,并利用自动化DNA部件组装[12]自动实现已选择部件的组装,同时生成标准化的标注并自动提交数据库,以便后续数据分析。利用组装部件进行大肠杆菌的构建,自动在96孔板培养平台进行培养,结束后自动送入超高效液相色谱-串联四级杆质谱(UPLC-MS/MS)系统检测目标产物[7]。在此过程中形成的数据由编制的R脚本进行自动化分析与处理,大大提高了DBTL每一轮循环的筛出率,从而节约大量成本,最终产物量提高了500倍。这充分展示了自动化、标准化DBTL实验平台对提高效率降低成本方面的巨大潜力。
在以上的案例中我们看到在实现合成生物学的DBTL的每一个环节都涉及大量的数据,而且这些数据形成的变量空间非常大,靠传统的基于小样本的统计推断方法已经无法满足要求,也严重限制了知识获取及再利用的效率。这也就给依赖于大量数据的机器学习尤其是深度学习发展应用的空间,表1总结了近些年来在Design、Build、Test、Learn的各个环节中机器学习的应用情况。为了实现工程生物学真正成为推动生物经济学发展的原动力,美国工程生物学联盟结合80位领域专家的意见,经过多轮研讨于2019年6月制定的工程生物学路线图中重点指出,未来发展基于多组学数据和机器学习的DBTL循环支持系统是关键环节[13]。要实现这一目标,需要满足一些先决条件,即用于机器学习的数据需满足:找得到(findable)、可获取(accessible)、能共通(interoperable)、可重用(reusable)即FAIR原则。要获取关于FAIR原则的更多信息可以参考Wilkinson等[14]的文章。
合成生物学自提出便得到快速发展,并有望成为推动生物制造支撑的生物经济发展的主动力。然而我们也必须意识到,在实现实验室高性能菌种工业化生产的过程中,合成生物学所面临的挑战就是生物过程的放大难题。在剑桥咨询公司组织的一次合成生物学专项研讨会形成的会议报告[32]中指出,填补实验室规模到工业规模生产的放大难题将是合成生物学面临的一个主要挑战。
实验室规模反应器与工业规模反应器内流场的差异是导致生物过程放大的一个主要外因,而其内因则在于微生物细胞对外界环境扰动下的复杂代谢调控响应的非线性特征,因此导致很难预测生物过程放大过程的结果。而这种复杂的非线性特性也使得基于数据驱动的各种人工智能技术获得突出表现。其实,早在20世纪80年代,人工智能浪潮发展的初期,就有了大量利用人工神经网络、支持向量机、模糊编程、专家系统等人工智能在生物过程优化与控制中的应用,但受到在线数据匮乏、算法存在局限性并未获得大量成功应用。然而,当前逐渐兴起的机器学习、深度学习再度燃起生物过程优化与控制智能化应用的热情。
表1 合成生物学DBTL各环节中人工智能的应用情况
rs—底物消耗速率;rN—氮源消耗速率;rpre—前体消耗速率;rpro—产物生成速率;rH+—酸生成速率;rx—细胞生长速率;OUR—摄氧率;CER—CO2释放率;μ—比生长速率图3 在生物反应器中进行的细胞培养过程涉及复杂的变量系统Fig.3 Complex variable system involved in cell culture in bioreactor
过程深度学习的基础是广泛大量的在线数据,笔者所在的国家生化工程技术研究中心(上海)研究团队,经过几十年的积累,形成了一套基于在线多参数检测系统的过程多参数相关性分析技术及多尺度微生物过程优化理论[33]。
生物反应器中进行的生物过程存在两个不同尺度上的复杂性,第一个是细胞尺度上细胞对外界环境响应的复杂代谢特性;第二个是反应器内处于湍流状态流动的复杂性,包括混合、传质、传热等的复杂传递特性。总结来说,细胞反应过程是在基因表达、细胞代谢、反应器操作等多个尺度下多输入、多输出的复杂系统。总结生物反应器中进行的生物过程涉及的变量可归纳,如图3所示。图3中展示的变量可分成两类:一类为操作变量、一类为状态变量,也可分为细胞生理特性变量和环境变量。生物过程放大的困难就来自于这些变量之间复杂的非线性关系,而机器学习可以从复杂的非线性关系中发现规律,从而有可能成为解决过程优化放大的有效工具。
在生物过程优化与放大中实施多尺度研究方法包括五个关键步骤[33]:①系统简化。②数据采集系统收集过程变量数据。③数据驱动型研究。④子过程分析。⑤各子过程之间量化关系及跨尺度观察。经过以上5个关键步骤可实现基于细胞代谢流分析与控制为核心的多尺度研究方法。其中,提到数据采集系统及数据驱动型研究即是基于过程大数据的人工智能研究的雏形。
实施生物过程参数的在线检测与在线参数的获取是实现生物过程大数据的前提。笔者所在课题组在此方面进行了大量研究与积累,在生物反应器上实现了除溶氧(DO)、pH、温度、压力和液位等常规参数外的多个参数的在线测量,开发了在线活细胞传感器[34]、在线红外检测[35]、在线电子鼻[36]和在线尾气质谱[37]等多种可用于生物反应器在线检测的仪器设备,实现了实时在线细胞量、在线尾气O2、尾气CO2、挥发性中间代谢物浓度及在线葡萄糖浓度等多种参数的在线实时采集。基于这些实时在线采集的参数进行了多个产品的发酵过程优化与放大[38]。在实施生物过程多尺度优化技术的过程中,逐渐意识到生物过程的数据,尤其是在线数据中含有过程中最大量的信息,对这些数据进行分析整理对生物过程的优化放大具有十分重要的意义。通过大量在线检测设备的应用,逐渐形成了不同生物过程的在线大数据系统,如何开发并利用这一宝贵资源变得十分迫切和重要。
早在20世纪八九十年代,各种传统人工智能的技术就在生物过程优化与控制中开展了大量研究[39],包括人工神经网络在发酵过程状态估计[40]及过程优化[41];利用基于规则的专家系统进行酒精连续发酵系统的设计[42];模糊理论建模用于发酵过程的自动化控制[43]等。这些传统的人工智能技术在推动工业生物过程自动化智能化方面起到了积极的作用,即使在近些年仍有研究者对其应用进行研究[44]。Yu等[45]将贝叶斯推断与两级支持向量机结合实现批培养发酵的软件传感器,利用该软件传感器成功实现在线菌浓、在线底物、在线产物青霉素浓度的预测。二十世纪末期,传统人工神经网络开始在生物过程优化与控制中受到重视,并不断取得进步。Aysnsley等[46]对此做了综述,文中提出了基于知识实时的生物过程调控方法,形成了一套基于实时知识系统,即生物过程控制指导与分析的软件平台(Bio-SCAN),利用该系统,可以实时模拟、预测、统计推断和生物反应器状态分析等功能。旨在提供一种通用的生物过程指导和控制助手,实现类似人类的智能化。这是早期应用传统人工智能的一个典型代表。
图4 近十年每年机器学习在生物过程研究中的 文章数量(2019-12-15)Fig.4 The number of articles on machine learning in biological process research in recent ten years
近些年随着生物过程大数据的积累以及信息技术领域大数据技术的进步,逐渐出现以机器学习为代表的现代人工智能在发酵过程中的应用。Wu等[47]就利用机器学习的方法从100篇稳定性同位素13C代谢流分析的文献出发,形成了一个可以根据给定的生产菌种、碳源种类、溶氧条件、细胞生长速率等预测胞内代谢流分布的算法。同一个课题组的Oyetunde等[29]在2019年以多于100篇涉及基因工程改造大肠杆菌的文献数据为基础构建机器学习模型,用于预测影响产率、得率及速率的关键基因水平扰动或环境参数改变下的值,取得了较好效果。Petsagkourakis等[48]利用强化学习对批发酵过程进行优化,提出了策略梯度方法,通过利用循环神经网络利用批与批之间的差异更新控制策略的参数,并展现了3个成功案例。图4显示了谷歌学术以“Bioprocess Machine Learning”为关键词统计近十年的每年相关文章发表量。可见,十年来利用机器学习进行生物过程研究的文献报道逐年增多。
智能生物制造是生物经济发展的大趋势,虽然目前还没有从实质上进入智能生物制造的时代,但是相关技术理论的不断提出,正在加快其实用化的步伐。目前已经有智能微生物工程[49]的提法,该思路基于对基因线路、基因调控知识的认知、基因工程组件等预测能力的不断提升,希望通过系统的微生物改造工程实现微生物细胞对外界环境智能感知,并调控相应的代谢网络使其朝向期望的方向。合成生物学DBTL各个阶段通过人工智能获取的“智能”模型可以为智能微生物工程提供设计工具,加快微生物细胞的智能化。
另一方面,随着生物过程在线传感技术的不断发展,越来越多的过程在线传感系统应用不断被开发,生物过程数据已初步具备大数据特征。基于此运用人工智能的机器学习,从数据中获取深层的知识,实现生物过程的智能感知,并在此基础上形成智能决策与控制,将实现生物制造过程的跨越式发展,真正达到智能生物制造的高度。
如今,我国已率先启动5G商业化,未来万物互联时代的到来也为生物过程在线传感的联网,基于在线传感的无线互联,人工智能软件系统实时获取数据并进行智能化学习和决策控制,实现更大层次上对整个生产车间甚至是企业整个生产流程上的智能感知与控制,将极大地促进生物经济对实体经济的推动作用。