李蓝宇,黄新烨,王笑楠,邱彤
(清华大学化学工程系,北京 100084)
图灵奖得主、关系型数据库的鼻祖吉姆·格雷于2007 年1 月11 日的NRC-CSTB 大会上进行了“科学方法的革命”的演讲,提出了科学研究的“第四范式”[1]。不同于以记录和描述自然现象为主的第一范式、以理论研究和归纳总结为主的第二范式和计算机仿真代替实验成为科研常规方法的第三范式,第四范式的科学研究以数据密集型分析和人工智能为驱动提升科研效率。计算化学和人工智能的发展给化工领域带来了革新,涌现出了一系列辅助实验和研究的智能化手段,对传统的实验体系带来变革性的影响。通过计算机辅助,可以将部分需要耗费人力的工作转为计算机自动建模、计算、自动化实验,加快计算和实验的速度,减轻科研人员的工作量。
近年来,国内外化工实验室的智能化转型已有一系列跨越式进展,逐步从应用基础人工智能算法工具(如机器学习)辅助实验数据的建模分析,到进一步与自动化、高通量实验相结合,融合发展并通过系统集成,最终形成以一体化闭环智能实验室为代表的最新形态。
实验研究的一般流程包括文献阅读、提出假设、计算建模、实验分析、归纳总结。目前,各个科研环节都已经涌现相关的智能化算法工具辅助科研。在文献阅读阶段,可以利用自然语言处理技术辅助文献综述。如麻省理工大学的Olivetti团队[2]尝试将自然语言处理运用在材料学中,辅助将材料学中的不同数据信息进行集中收集与分析。在提出假设阶段,多伦多大学的Pascal Friederich 团队[3]尝试通过机器学习产生人类可解释的科学假设,并分别在分子化学和量子光学两个领域取得了阶段性成果。在计算建模阶段,普林斯顿大学的Zhang 团队[4]提出了一种深度电位生成器的主动学习程序,用于构建准确且可迁移的势能面模型,对材料进行分子建模,并对合成途径和材料稳定性进行预测[5]。
除了学术界的积极参与外,工业界也针对智能实验室进行了大量的探索。2011 年时任美国总统奥巴马提出了材料基因组计划[6],目标是通过整合材料计算、高通量实验和数据库全面提高先进材料从发现到应用的速度,降低成本。对此,谷歌于2019年设立了Google Accelerated Science 团队[7],应用机器学习和人工智能加速自然科学的进展(主要研究对象包括医学图像解读、蛋白质设计、药物研发和材料研发)。另外,IBM于2020年开发了利用深度学习、机器学习、大数据辅助有机化学合成的人工智能工具——IBM RXN for Chemistry,正向反应产物预测精度高达89%[8],是领域发展的重要里程碑。此外,在日本,旭化成、三菱化学、三井化学、住友化学与东丽工业等约20 家日本化工企业也通过化学材料开放平台组成横向协作,收集并利用材料结构信息,开发了可以在较少实验条件下进行高精度预测的人工智能技术,助力提高研发效率、节省研发时间。
伴随智能化算法工具的创新应用,高通量实验及其他适配实验流程的自动化技术也在近年获得很大关注,两者结合后诞生了一系列实验机器人系统平台。2016 年至2020 年,麻省理工学院(MIT)的Timothy F.Jamison和Klavs F.Jensen 团队[9-13]通过硬件、软件、分析、AI 技术集成,逐步建立连续流动化学合成系统和基于人工智能规划的有机化合物流动合成机器人平台。2019 年,利物浦大学Andrew Cooper 团队[14-15]搭建了移动式化工机器人,在8 天内进行了大约700 个实验后,优化了从水中产生氢气的光催化过程。2019 年至2021 年,英国格拉斯哥大学化学系Leroy Cronin团队[16-17]基于自然语言处理提出了“从文献到化合物”的自动化实验机器人系统,该系统可以自动阅读和识别文献中的合成步骤并将其转化为实验机器人系统可读取的指令。同时,该团队开发了通用的自主合成工作流程,并建立可以与任何实验机器人系统集成、易于使用的交互界面——ChemIDE,仅探索约100 种可能的化学反应就能以超过80%的准确度预测1000个反应的结果。2015 年,伊利诺伊大学香槟分校的Martin Burke 团队[18]针对有机小分子合成设计了广泛适用的自动化过程,基于共同模块策略,实现了14 种不同小分子的合成全自动过程。目前,已有许多研究人员使用高通量机器人平台优化反应条件或筛选催化剂[19-21]。另外,高科技合成设备在制药行业也比较常见。例如,辉瑞和默沙东通过高通量的反应筛选体系选择最佳反应前体和最优反应条件。
基于上述智能算法工具和自动化设备的发展,智能实验室这一话题也在学界引起了广泛关注,很多实验平台正朝着智能化发展,许多国家也提出并实施了一系列关于科研智能化转型的战略计划。其中,比较典型突出的是德国联邦教研部资助的人工智能未来实验室(KIWI-biolab)的项目[22],该项目汇聚了人工智能、机器学习和生物过程工程领域的国际顶尖科学家,分成四个任务小组,分别着眼于主动学习、模型预测控制、信号处理和自动化,共同探索如何使用人工智能和机器学习技术自动开展微生物数据分析,使计算机能够在没有人工干预的情况下设计和优化实验,以期未来实现更有效和可持续的生产。除此之外,DataHow[23]是2017年起家于苏黎世联邦理工大学的公司,专门从事加工行业,尤其是在生物制药和化学领域的数据分析和过程建模,它的核心业务是提供结合数据科学、机器学习、流程知识和业务专长的定制解决方案。剑桥大学也于2020 年11 月与阿斯利康和Shionogi 合作[24],建立新的数字分子技术创新中心(iDMT),整合高通量合成、分析、化学信息学、机器学习、机器人技术和反应工程,加速制药、农用化学品、功能分子和分子材料的研发。
伴随智能实验的快速发展,国内也逐渐意识到了智能实验室的重要性,着手立项建立智能实验室,尤以中国科学院精准智能化学重点实验室等为代表[25]。中国科学院精准智能化学重点实验室于2023 年获批建设,聚焦化学研究范式变革,探索建立化学研究的精准化、智能化双驱动模式,致力于把实验室建成精准智能化学领域国际顶尖的研究机构。该团队开发的机器化学家“小来”已经实现文献阅读、实验设计、自主优化的化学品开发全流程,为化学研究提供了精准化、智能化的解决方案。
虽然智能化工研发领域目前具有巨大的发展潜力,但在国内外仍处于起始探索阶段,对于化工智能实验室和智能研究院缺乏清晰的定义。因此,本文旨在凝练智能实验室和研究院内涵,提出具体、实质的化工智能化研究院蓝图和建设大纲,为化工行业的研究人员和企业提供前瞻性的视角和启示,推动领域智能化高效发展。
化工产业通常可以根据化工价值链不同阶段划分为上游勘探开采等原材料生产供应环节和下游加工转化环节。研发阶段主要包括基础研究、工艺开发和优化实验等。基础研究实验通常在实验室尺度进行,旨在深入了解物质转化规律,探索新的化学反应、材料性质或工艺过程,包括合成、分析以及数据测量和收集等工作。工艺开发和优化实验则涉及反应条件、催化剂选择、反应器设计、工艺路线和操作参数等方面的优化,通过实验数据的收集分析来评估工艺性能。除了日常的湿实验外,也有模拟和计算实验,这类实验通常通过计算机模拟与数值计算,模拟、预测原子、分子或化工过程的行为和性能。面向现阶段化工研发通常包含文献阅读、实验设计、理论分析/模拟计算/实验、得出结论等主要环节,计算机领域的自然语言处理、数据储存、机器学习、深度学习、主动学习、计算机视觉等方法将作为基础形成一系列智能计算工具并有机结合到化工研发的每一个环节,有望实现智能文献阅读、智能实验、自动报告生成的智能科研闭环(图1)。
图1 面向未来化工研发的智能科研框架
在此基础上,更广义的化工智能研究院架构还将包括:研究院内部的科研管理模式智能化适配更新(此处定义为智能支撑)以及对外的与其他机构、产业与市场间的数据信息传递、智能化需求分析和技术支持(此处定义为智能外延)。面向智能化转型,智能科研管理将涵盖智能化平台搭建、开放共享、人才培养及激励机制,支撑智能科研创新所需要的智能计算和智能科研流程(包括数据挖掘、计算推理、机器人辅助实验或科研、智能化平台服务等),以数据驱动的第四科研范式辅助替代传统的以人工为主的经验、推导和试错的研究模式,提高科研工作的质量和效率。同时,通过智能外延向生产、宏观决策等方向辐射,切实增加科研成果的产业和市场效益,实现研发、管理、生产和服务的智能一体化协同。
面向未来自动、精准、高效的智能研发愿景,智能研究院的建设仍需要经历由点到面、由局部发展到全面完善的过程(图2)。化工研究院也将从单一环节的智能化应用和试点的模式全面推广至化工研发的全流程。本文作者团队围绕碳中和与未来智能实验室等新兴交叉学科,开展新能源、低碳技术及人工智能应用的研究,开发了基于机器学习的多孔碳材料CO2吸附性能预测与智能化CO2吸附材料设计[26]、机器学习指导的CO2分离捕集金属有机骨架混合基质膜的合成[27]、基于主动学习助力分子尺度材料研发的高性能光敏剂自我改进发现系统[28]、基于主动学习和高通量微流控反应体系的微纳尺度材料研发软硬件平台[29]、基于主动学习的器件尺度材料开发[30]、基于机器视觉算法辅助材料仪器表征[31-33]、基于智能优化算法的油品性质预测及分子重构[34-35]、基于贝叶斯优化的智能实验优化[36]一系列工作,突破“经验指导实验”的传统开发模式,使化工、能源、新材料的开发效率得到显著提高。同时,本文作者团队也对国内外化工实验室进行了深入调研,发现目前国内许多实验室和研究院都有智能化转型的迫切期望,但是缺乏清晰的智能化发展规划。此外,石化行业上游研究院具有数据集中、数据关联性强、信息化程度高等特点,目前可以立足于数字化进展运用大数据技术进行局部和全面智能化的同步推进,而下游研究院具有数据分散、体系关联性弱等特点,目前可以着重展开局部智能化研究,通过试点的方法对智能计算、智能实验、机器人等方法进行探索,辅以凝练智能化方法,为智能化系统平台建设奠定基础。在智能计算方法的开发中,需要专业软件与人工智能同步发展。在智能科研流程的建设中,需要人工智能、自动化联合提效。在智能支撑中,需要平台、共享、人才、激励等科研管理手段同步构建。在智能外延中,可以通过物联网、5G、区块链等技术实现高效的数据共享、沉浸式交互的技术支持,打造智能化工科研元宇宙。
图2 智能研究院建设蓝图
实现化工实验室或研究院的智能化转型需要有一个兼容、弹性发展的标准体系,切实有效地为有意向进行智能化转型的研究院提供指导和参考。为此,本文作者团队以全面智能化的研究院为目标,提出了从传统科研出发的包括信息化、数字化、局部智能化、全面智能化4个层级的智能研究院建设发展指标体系(表1、图3),转型中的科研实体可以对照自身情况灵活推进智能化转型。
表1 智能化演进层级
图3 智能研究院建设大纲
在智能化浪潮下,国内外各行各业正在进行快速的智能化迭代,化工研究院的智能化是大势所趋。智能计算和智能科研的发展是化工研发智能化的关键核心。近年来各种智能化方法发展和应用发展迅速,但目前许多科研人员对科研领域的智能化普遍缺乏了解,常把信息化、数字化的概念与智能化混淆。因此,理清各项技术、概念之间的关系并通过培训提高一线人员的科研智能化意识和能力是开展科研计算、科研流程以及科研服务全面智能化提升的关键。另外,科研范式的转变也离不开科研管理的推动,管理人员和专门的智能化团队可以在平台、共享、人才和激励方面促进化工研发的智能化发展。此外,在智能研究院的建设中,企业的发展不能受数字化发展不完善的掣肘,也不能局限于照搬国外现成的套路。同时,不能局限于现有技术,需要建立长远的智能化发展战略,发展有自主迭代升级功能的、具有良好智能化与创新生态的智能研究院。目前智能化研究院在国际上的建成开发尚处于早期,仍未有全面完成的先例,本文提出了有层次递进关系的智能研究院演进路径总纲,有助于协助集团和相关科研、管理人员评估研究院目前的智能化水平,明确发展路径,从而早日实现智能化,占据先机,引领变革,创造更多的效益。