李建会 杨 宁
人工智能驱动的科学研究(AI for Science)是大数据时代以机器学习(ML,machine learning)为代表的人工智能技术与科学研究深度融合(AI+Science)的产物。作为AI子领域,机器学习,特别是深度学习技术以其在理解高维数据和解析复杂系统方面远胜人类的优势,成为科学研究数字化和自动化转型的中坚力量。当前,AI for Science在物理学、生命科学、材料科学和地球科学等领域的知识发现与成果优化方面表现惊人,基于多领域整合和人-机协作的数据驱动型科学发现模式越来越得到科学家的认可和应用。AI for Science不仅加速科学的发展,而且反过来,加速发展的科学又推动AI的加速发展。AI与科学之间的持续双向赋能使得AI向着其技术奇点加速迈进。在这个循环加速的发展中,数据隐私和AI模型可信度及可控性等重要科技伦理问题也引发社会担忧,使得开发可解释的AI模型成为焦点议题。在AI领跑科技创新的国际竞争背景下,开展AI for Science的前瞻性规划及其资源整合研究对推动我国基础科研实力具有非常重要的价值。
科学研究的目的之一是做出科学发现。AI诞生初期,一些专家便开始尝试开发程序以通过机器进行科学发现。起初,他们雄心勃勃地认为,“学习的每一个方面或智力的任何其他特征在原则上都可以被精确地描述,以至于可以制造一台机器来模拟它。”①McCarthy J., Minsky M. L., Rochester N, et al. “A proposal for the dartmouth summer research project on artifi‐cial intelligence,august 31,1955”,AI magazine,2006,27(4),p.12.20世纪40―70年代的传统AI只服务于特定的任务,通过逻辑和启发式算法实现游戏、知识表达、推理和专家系统。此后的30年里,感知机模型的提出使研究界更加关注从观察数据中自动提取“规律”,并开始尝试为能够实现指定任务的候选模型搭建一个统一架构。进入新世纪,“深度学习之父”杰弗里·辛顿(Geoffrey Hinton)解决了困扰神经网络用于表征学习的模型过拟合和梯度扩散难题,并进一步开发出更高精度的卷积神经网络(convolutional neural networks,CNNs)模型AlexNet②Alom M. Z., Taha T. M., Yakopcic C., et al. “The history began from alexnet: A comprehensive survey on deep learning approaches”,arXiv preprint arXiv:1803.01164,2018,pp.1-39.,基于多层次型人工神经网络(artificial neural network,ANN)的深度学习(deep learning,DL)因此成为AI 的新的潮流。作为ML技术的强大子集,DL更加适应多层次结构数据的表征学习③指将原始数据转换成能被机器学习有效开发的表征,即允许机器通过简化复杂的原始数据,自动发现并提取可用于检测或分类的特征。,成为语音识别、计算机视觉、自然语言处理、知识图谱和自动驾驶的重要方法④LeCun Y.,Bengio Y.,Hinton G.,“Deep learning”,Nature,2015,521(7553),pp.436-444.。
在AI发展的第一阶段,著名的AI专家赫伯特·西蒙(Herbert Simon)就提出了用计算机模拟人的创造性思维的想法。为此,西蒙及其研究团队尝试用机器再现历史上的科学发现过程,他们研制了BACON系列程序,这些程序不仅重新发现了波义耳定律、开普勒行星运动第三定律、理想气体定律等多种定律和函数关系,而且还涉及一些定性定律的再发现、结构模型的再发现和过程模型的再发现、以及实验过程设计的再现等方面。他们还设计了GLAUBER 程序和DALTON程序等。GLAUBER程序能再发现酸和碱的概念以及有关的定性定律;DALTON程序能够模拟多重化学反应,甚至可以应用于粒子物理学和经典遗传学,比如发现孟德尔(G.Mendel)遗传学定律。另外一个科学再发现模型是列纳特(D.B.Lenat)开发的AM程序。AM能在初等数学和集合论中重新发现概念和假设,比如发现加法、乘法、素数等概念以及哥德巴赫猜想等等。“这些再发现程序使科学发现逻辑的研究重新兴旺起来,为思考发现的逻辑是否存在,及其能否作为科学哲学合法研究主题问题的研讨,提供了新的论域。”⑤樊阳程:《科学创造力的机器发现研究述评》,《自然辩证法研究》2007年第11期,第40页。
科学假说或理论的评价问题也是早期机器发现专家努力的目标之一。著名认知科学家萨伽德(P.Thagard)用联结主义方法开发了ECHO 程序来评判相互竞争的理论假设的优劣问题。ECHO程序对科学中许多对立的理论进行过对比分析,比如,ECHO对氧化理论和燃素说、进化论和神创论、哥白尼天文学和托勒密天文学等学说的优劣进行了评判。
除了模拟或重建历史上的科学发现过程和对理论假设进行评价外,机器发现还尝试进行真正的科学发现。例如:“AUTOCLASS系统通过对红外光谱的分析,扩展了原先主要基于可见光谱分析的恒星分类学;RL系统能发现有经济价值的化学药品的致癌性的定性规律;PRPGOL系统能应用于基因变异中化学因素的发现;GRAFFITI系统在数论和其他离散数学领域中产生的猜想已经引发了数学领域学者的研究兴趣;MECHEM系统自动发现了乙烷氢化裂解反应的新机理;PAULI系统得到了能解释产生守恒定律的历史数据的新守恒定律;LAGRAMGE 系统发现了生态行为的时间定律等。”①樊阳程:《科学创造力的机器发现研究述评》,《自然辩证法研究》2007年第11期,第41页。早期的机器发现研究虽然取得了一系列成果,但由于数据、算法和算力的局限性,机器发现取得的成果非常有限,进一步的发展需要等待计算机在数据、算法和算力方面取得突破性进展。
随着数字化时代到来,计算机和高通量实验仪器成为科学研究的基本工具。AI不仅模拟感知智能,而且还模拟认知智能和决策智能②Xu Y., Liu X., Cao X., et al. “Artificial intelligence: A powerful paradigm for scientific research”, The Innova‐tion,2021,2(4),p.2.。AI通过整合计算机科学、数学、神经科学和机械工程等学科的思想,具备科学与技术的双重特性。AI带来的“数据、算法、算力”三位一体的计算方式极大提升了应对海量数据处理和复杂系统求解的能力。在数据驱动与模型驱动两种方法的有效整合下,AI驱动的科学研究——AI for Science模式——在设计科研框架、揭示科学定律和知识、提升数值模拟速度和准确度方面取得了巨大的成绩。以蛋白质三维结构解析为例,传统的实验室方法复杂且难以得出有意义的结果,AI的应用则迅速推进了此类研究的进展:2014年领域内开始通过ML方法预测蛋白质二维结构,预测准确率在一年间突破80%;2016年AlphaGo以4∶1战胜顶尖棋手时,AI预测蛋白三维结构的尝试也悄然展开③Wang S.,Li W.,Liu S.,et al.“RaptorX-Property:a web server for protein structure property prediction”,Nucle‐ic acids research,2016,44(W1),pp.430-435.,2017年就实现了以DL方法对蛋白质结构氨基酸间空间距离的预测,并被用以搭建AI预测系统Alpha Fold;2020年,Alpha Fold 2在第14届国际蛋白质结构预测竞赛(CASP14)中以绝对优势夺冠,引起世界关注。当前,AI for Science的可行性和适应性已在更广泛的应用场景中被证实,如药物和材料设计、求解薛定谔方程和控制论方程、加速分子和空间模拟等等,AI正在帮助加快走完科学研究和技术创新之间的最后一公里。
值得一提的是,科学的进步也在启发机器学习理论(Science for AI),助力神经网络模型训练方法的持续迭代。生物学和神经科学一直是AI发展的灵感原型,上世纪中期受生物神经细胞启发而设计的感知机(perceptron),是神经网络模型和现代DL算法的重要基础,前沿的CNNs中神经计算的数个标志也源自哺乳动物视觉皮层单细胞对视觉输入的独特处理④Holzinger A., “Introduction to machine learning & knowledge extraction (make) ”, Machine learning and knowledge extraction,2019,1(1),pp.1-20.。近年来,大型复杂系统的对称性、大规模自由度、多尺度和多分辨率动态等特征对科学仿真和ML技术提出更高的要求。例如,量子计算实现了更高性能的量子机器学习,量子增强、量子比特和连续变量(continuous variable)量子强化了生成模型(generative model)的表达⑤Dunjko V., Briegel H. J., “Machine learning & artificial intelligence in the quantum domain: a review of recent progress”,Reports on Progress in Physics,2018,81(7):074001,pp.1-116.;统计力学的物理分析方法为深度学习的表达、信号传播和泛化等理论原则提供了概念性解答①Bahri Y., Kadmon J., Pennington J,. et al. “Statistical mechanics of deep learning”, Annual Review of Con‐densed Matter Physics,2020,11,pp.501-528.。此外,用智能材料升级的计算机和智能机器的设备和芯片,必将大幅度促进AI在所有领域的发展和应用,AI研究正在致力于开发能够从先前经验中自主学习的软件,如ChatGPT4,甚至尝试实现全自动的无人研究闭环②Shahriari B.,Swersky K.,Wang Z.,et al.“Taking the human out of the loop:A review of Bayesian optimization”,Proceedings of the IEEE,2015,104(1),pp.148-175.,将会以智能化搜索和数字孪生助力科技创新与制造。
可见,兼具跨领域知识和人机合作创新的“AI+Science”(包含AI for Science和Science for AI)形成了AI和科学之间的双向赋能,并将持续推动二者间的循环加速发展。
生命世界具有高度的复杂性和多样性,在后基因组时代,生物技术的数字化和数据驱动的高性能计算平台对生命科学研究越发重要。AI技术提高了探索生物过程及其相关机制的效率和精度,引领着生命科学研究“从颠覆性使能技术(enabling techonology)创新走向工程化平台建设”③赵国屏:《合成生物学:开启生命科学“会聚”研究新时代》,《中国科学院院刊》2018年第11期,第1141页。。
1.组学研究
基因是人类生存的密码,其表达水平与疾病的筛查、检测和治疗休戚相关。AI参与进行的分子生物学研究范围已经覆盖了从基因到表型的关键过程与机制,研究对象涉及DNA序列、DNA的化学修饰和开放程度、组蛋白的分布和化学修饰、RNA及RNA的转录后修饰、蛋白质、代谢通路和代谢产物④Caudai C., Galizia A., Geraci F., et al. “AI applications in functional genomics”, Computational and Structural Biotechnology Journal,2021,19,pp.5762-5790.。DNA序列和DNA在细胞核内的组织方式和折叠状态是调控基因表达水平的关键因素,通过AI理解基因调控过程的方法能够高效全面地整合和解释高通量测序获得的组学信息。例如,基于CNNs的Akita⑤Fudenberg G.,Kelley D.R.,Pollard K.S.,“Predicting 3D genome folding from DNA sequence with Akita”,Na‐ture methods,2020,17(11),pp.1111-1117.仅依靠DNA序列就准确预测出基因组的三维空间结构,揭示DNA序列如何编码一个特定基因座的折叠模式,解码基因组功能。基于DL的Enformer⑥Avsec Ž.,Agarwal V.,Visentin D.,et al.“Effective gene expression prediction from sequence by integrating longrange interactions”,Nature methods,2021,18(10),pp.1196-1203.提高了对基因序列表达及其单个位点变体效应的预测精度,并学会直接从DNA序列中预测增强子-启动子的相互作用,推进了疾病-位点映射研究前沿。细胞对基因扰动的反应一直是基因药物组学的重要问题,但可能的多基因扰动组合数量巨大,传统实验难以覆盖,而GEARS方法⑦Roohani Y., Huang K., Leskovec J., “GEARS: Predicting transcriptional outcomes of novel multi-gene perturba‐tions”,BioRxiv,2022,2022.07.12.499735,p.5.实现了根据单细胞RNA测序数据预测细胞对单基因或多基因扰动的转录反应,并泛化到训练集尚未覆盖的基因扰动,其预测精度是先前方法的翻倍。
2.智慧医疗
自然语言处理、计算机视觉和数据挖掘正在快速推动智慧医疗的发展。自然语言处理的著名应用案例是IBM Watson平台开发的肿瘤专家系统“沃森医生”(Doctor Watson),可利用病例、病史和文献知识储备提供治疗建议,以提高不同病情的诊断率。计算机视觉中的许多模型可用于医学图像的分类、检测和分割任务,帮助识别异常和诊断疾病。例如,算法对黑色素瘤可疑色素病变的自动识别准确率与专业医师诊断间的一致性高达88%①Soenksen L.R.,Kassis T.,Conover S.T.,et al.“Using deep learning for dermatologist-level detection of suspicious pigmented skin lesions from wide-field images”,Science Translational Medicine,2021,13(581):eabb3652,p.1.;针对宫颈癌开发的AI医疗工具突破了组织病理学检测水平和医生个人经验的限制,利用临床数据库提高了筛查效率②Bao H.,Sun X.,Zhang Y.,et al.“The artificial intelligence‐assisted cytology diagnostic system in large‐scale cer‐vical cancer screening: a population‐based cohort study of 0.7 million women”, Cancer medicine, 2020, 9 (18),pp.6896-6906.。医疗效率方面,基于ML的预测或预后模型利用覆盖遗传、临床和人口特征的医药大数据平台,准确预测患者的药物反应以指定最佳处方,提高了重度抑郁等疑重症的诊治效率③Taliaz D., Spinrad A., Barzilay R., et al. “Optimizing prediction of response to antidepressant medications using machine learning and integrated genetic, clinical, and demographic data”, Translational psychiatry, 2021, 11 (1),p.381.。精准医疗是近年来迅速发展的新兴概念,根据个体的基因组学信息、遗传学和生活方式等因素,定制个体化的精确诊断、用药及医疗方案。随着对基因-疾病关系的深入了解,AI技术在精准医疗中的应用更加全面,主要涉及基于测序和医学成像的疾病早筛④Dlamini Z.,Francies F.Z.,Hull R.,et al.“Artificial intelligence (AI) and big data in cancer and precision on‐cology”,Computational and structural biotechnology journal,2020,18,pp.2300-2311.,依据组学数据的靶向药物选择⑤Yang Y., Yang J., Shen L., et al. “A multi-omics-based serial deep learning approach to predict clinical out‐comes of single-agent anti-PD-1/PD-L1 immunotherapy in advanced stage non-small-cell lung cancer”,American jour‐nal of translational research,2021,13(2),p.743.,以及基于基因编辑技术⑥Choi G. C. G., Zhou P., Yuen C. T. L., et al. “Combinatorial mutagenesis en masse optimizes the genome editing activities of SpCas9”,Nature methods,2019,16(8),pp.722-730.和核酸药物成药性⑦Wei J., Chen S., Zong L., et al. “Protein–RNA interaction prediction with deep learning: structure matters”,Briefings in bioinformatics,2022,23(1),p.540.的基因治疗。
3.药物研发
传统的药物研发是一个投入成本高昂且产出高度不确定的复杂过程,经历信号通路研究,蛋白结构解析,药物作用位点探索,药物分子设计和发现,以及药物分子活性优化后才能进入临床试验⑧Paul D.,Sanap G.,Shenoy S.,et al.“Artificial intelligence in drug discovery and development”,Drug discovery today,2021,26(1),p.80.。AI通过赋能药物靶点、药物分子和二者间亲和力(相互作用力)这三个关键层面的研究,正在引领药物研发,尤其是药物设计、药物筛选和药理检测,走上降本增效的高速路。药物靶点解析方面,通过采用DL算法,Alpha Fold 2预测人类蛋白质组三维结构的范围提升至98.5%⑨Tunyasuvunakool K., Adler J., Wu Z., et al. “Highly accurate protein structure prediction for the human pro‐teome”,Nature,2021,596(7873),pp.590-596.,并实现了对RNA近天然态结构的高精度优化①Xiong P., Wu R., Zhan J., et al. “Pairing a high-resolution statistical potential with a nucleobase-centric sam‐pling algorithm for improving RNA model refinement”,Nature Communications,2021,12(1):2777,pp.1-2.。药物设计与合成方面,2018年提出使用深度神经网络和符号AI来发现逆向合成路线②Segler M. H. S., Preuss M., Waller M. P., “Planning chemical syntheses with deep neural networks and symbolic AI”,Nature,2018,555(7698),pp.604-610.,比传统的计算机辅助搜索速度要快30倍,产生的分子数量几乎是后者的两倍。近期,深度图像生成模型Deep LigBuilder③Li Y., Pei J., Lai L., “Structure-based de novo drug design using 3D deep generative models”, Chemical sci‐ence,2021,12(41),pp.13664-13675.推进了基于结构的新药设计和线索优化,通过从头药物设计策略实现了具有高度药物亲和力的类药分子的三维构象。基于DL模型的AI工具Deep Tox④Mayr A., Klambauer G., Unterthiner T., et al. “DeepTox: toxicity prediction using deep learning”, Frontiers in Environmental Science,2016,3,p.80.通过识别药物分子的静态和动态特性来预测分子毒性,在扩展药物筛选维度的同时提升药物可用性检测的效率。蛋白-蛋白亲和力计算的主要难题在于蛋白间作用位点的采样数量巨大,且蛋白动态构象变化难以用传统方法描述。对此,AI能够快速处理复杂的动态数据,擅长高维空间的搜索;神经网络的高维表示能力也为高效采样提供了解决方案⑤Wang D., Wang Y., Chang J., et al. “Efficient sampling of high-dimensional free energy landscapes using adap‐tive reinforced dynamics”,Nature Computational Science,2022,2(1),pp.20-29.。关于蛋白动态构象研究,常用的分子动力学模拟计算法受到力场精度和采样效率的限制而成本过高,而ML模型idp GAN⑥Janson G., Valdes-Garcia G., Heo L., et al. “Direct generation of protein conformational ensembles via machine learning”,Nature Communications,2023,14(1),p.774.实现了通过模拟数据进行训练,直接生成物理上真实的蛋白质构象集合,还能泛化到训练集以外的构象,使得计算成本可以忽略不计。
在物理学领域,ML凭借其自适应配置和数据处理,特别是图像重建与分析方面的优势,在相应的粒子物理学、核物理学、凝聚态物理学和宇宙物理学中都发挥着重要作用。AI正在帮助加速粒子的模拟与识别。在超级计算机上使用马尔可夫链蒙特卡洛模拟方法来研究夸克间强相互作用力的非扰动特性时,难以避免拓扑冻结和临界减速,而DL通过提出和测试新算法克服了此类困难⑦Foreman S., Jin X. Y., Osborn J. C., “Deep Learning Hamiltonian Monte Carlo”, arXiv preprint arXiv:2105.03418,2021,p.1.。不仅如此,ML还可以缩减物理观测数据的方差,通过区分信号和广泛的背景事件来优化数据信噪比和缩短生成数据的时间成本⑧Zhang R., Fan Z., Li R., et al. “Machine-learning prediction for quasiparton distribution function matrix ele‐ments”,Physical Review D,2020,101(3):034516,pp.1-19.。核探测方面,传统探测法通过脉冲信号的不同波形(脉冲信息分布)来进行分离与识别,但只能处理单脉冲波,ML通过对波形组合的分类实现了多脉冲波的特征分析,甚至能够改进和重建算法,使探测效率高且误差小。凝聚态物理学方面,AI模型显示出捕捉原子间力场(描述原子间的相互作用)的巨大优势,不断推进分子动力学模拟方法的发展。一些AI原子间势模型已经被开发出来,DimeNet⑨Gasteiger J.,Groß J.,Günnemann S.,“Directional message passing for molecular graphs”,arXiv preprint arXiv:2003.03123,2020,p.9.构建定向信息传递的神经网络时,能够将原子间的键长、键角、二面角和未连接原子间的相互作用通通加入模型中,以获得良好的精确度。宇宙物理学方面,观测和数据分析在天文研究中起着核心作用。除了长期进行的银河数据溯源和星系分类,如今基于CNNs的引力波信号实时检测和解码,已经能够在2毫秒内重建所有参数,而传统算法需要几天时间才能完成同样的任务①George D.,Huerta E.A.,“Deep neural networks to enable real-time multimessenger astrophysics”,Physical Re‐view D,2018,97(4):044039,p.20.。此外,已经开发出基于DL的自动智能溯源工具②Lao B., An T., Wang A., et al. “Artificial intelligence for celestial object census: the latest technology meets the oldest science”,arXiv preprint arXiv:2107.03082,2021,pp.1-28.,不仅在操作速度上有很大的优势,而且可以识别传统软件和视觉检查无法检测到的特殊形式的物体,促进人类对宇宙的全面了解。
历史上,新材料的发现和工业应用往往需要相当长的时间。2011年,美国首次提出材料基因组计划(Materials Genome Initiative,MGI),目标至少两倍速地提升了先进材料的发现、开发、制造和部署的进度。在MGI与大数据的不断融合下,数据驱动模型已被视为材料研究中最有前途的方法,AI技术是获得成分-结构-工艺-性能关系的关键③Pollice R., dos Passos Gomes G., Aldeghi M., et al. “Data-driven strategies for accelerated materials design”,Accounts of Chemical Research,2021,54(4),pp.849-860.,甚至有望彻底改变材料科学。
众所周知,当前形式的化学元素周期表是在一个世纪左右的时间里被构建出来的,而ML技术的辅助使得科学家有可能在几个小时内重建周期表。一个名为Atom2Vec的无监督机器从已知化合物和材料的广泛数据库中自主学习原子的基本属性,然后在神经网络中运用它们来预测新材料的详细特征,并具有显著的准确性④Zhou Q., Tang P., Liu S., et al. “Learning atoms for materials discovery”, Proceedings of the National Academy of Sciences,2018,115(28),pp.6411-6417.。在新兴的超材料领域,高分子复合材料的结构几何和基本成分决定了对合成设计至关重要的材料参数,二者的组合变化远超出传统试错法的能力。AI仿真模型则能高效高精度地实现从分子单体到链结构再到大分子团聚结构的多尺度建模,以探索聚合物材料的构效关系⑤Luo X., “Subwavelength artificial structures: opening a new era for engineering optics”, Advanced Materials,2019,31(4):1804680,p.1.。同时,借助ML不断产生的新高分子聚合物数据,填补了目前数据缺乏的问题,最终实现更高性能的材料合成⑥Goldsmith B.R.,Esterhuizen J.,Liu J.X.,et al.“Machine learning for heterogeneous catalyst design and discov‐ery,AIChE Journal,2018,64(9),p.3553.。大规模的高质量数据集是AI技术扩展到材料科学研究领域的必要设施,“atomly.net”数据库计算了超过18万种无机化合物的特性,在此基础上建立的ML模型,实现了快速预测几乎任何给定化合物的形成能量,产生了相当好的预测能力⑦Liang Y., Chen M., Wang Y., et al. “A universal model for the formation energy prediction of inorganic com‐pounds”,arXiv preprint arXiv:2108.00349,2021,p.9.。近十年,拓扑(电子和声子)材料凭借奇特的物理特性成为热电、光学、催化和能源相关领域的新宠,而利用高通量方法建立的相关数据库为加速筛选和实验发现新型拓扑材料的功能应用提供了可能⑧Chen X. Q., Liu J., Li J., “Topological phononic materials: Computation and data”, The Innovation, 2021, 2(3):100134,pp.1-3.。
地球演化史研究、气候变化评估、灾害事件预测、自然资源计算和环境管理治理等重要地球科学问题紧密关联着人类的生存生活与社会发展。然而,地球科学现象具有明显的动态时空结构,其变量服从非线性关系,在不同程度上表现出不完整性、噪声和不确定性,使得实验手段难以有效观测地球系统实况并探究其子系统之间和内部的联系①Karpatne A.,Ebert-Uphoff I.,Ravela S.,et al.“Machine learning for the geosciences:Challenges and opportuni‐ties”,IEEE Transactions on Knowledge and Data Engineering,2018,31(8),pp.1544-1554.。当前,智能传感器、图像可视化和智能反演(intelligent inversion)等计算建模手段为解决上述难题提供了更多可能,ML算法和模式挖掘技术的整合正在帮助模拟地质演化的极端条件、从观测中估计地学变量并预测系统走势、解析地学数据的潜在规律,以及因果发现与推理②Toms B.A.,Barnes E.A.,Ebert‐Uphoff I.,“Physically interpretable neural networks for the geosciences:Applica‐tions to earth system variability”,Journal of Advances in Modeling Earth Systems,2020,12(9),pp.1-20.。惰性气体同位素测年是地球早期物质演化史研究的重要途径,例如,检测氦在典型地壳岩石中的流失时,主要的岩浆脱气过程要求高温低压的极端反应条件,已通过AI技术实现了传统实验和计算手段均无法满足的精度要求,并且通过仿真得到的数据与经典分子动力学计算结果及实验数据较为一致③Luo H., Karki B., Ghosh D. B., et al. “Diffusional fractionation of helium isotopes in silicate melts”, Geochemi‐cal Perspectives Letters,2021,19,pp.19-22.。天气预测方面,已有研究用深度生成模型取代大气物理方程,实现了200万平方公里的大气层的物理仿真④Ravuri S., Lenc K., Willson M., et al. “Skilful precipitation nowcasting using deep generative models of radar”,Nature,2021,597(7878),pp.672-677.。在基于雷达的风速估算方法来确定大致的降雨范围上,DL绕开物理条件的约束对未来降雨率进行直接预测。此外,地质资源管理方面,自适应智能动态资源规划系统的设计和应用是可持续自然资源管理的亮眼成果⑤Krishnan S.R., Nallakaruppan M.K., Chengoden R., Koppu S., Iyapparaja M., Sadhasivam J., Sethuraman S.,“Smart Water Resource Management Using Artificial Intelligence—A Review”, Sustainability. 2022, 14(20): 13384,pp.1-28.,AI技术发挥其在建模、灵活性、推理和预测资源需求量方面的显著优势,在优化资源配置的同时最小化运营成本,助力可持续性发展。
图灵奖得主吉姆·格雷(Jim Gary)将近代以来的科学研究划分为:经验范式、理论范式、计算范式和作为第四范式的数据密集型范式。通过引入大数据分析,“第四范式”反映了经由信息技术和数字化技术赋能科学研究和发展的本质,适用于各科学领域。作为当下科学实践中的一种革命性工具⑥Zdeborová L.,“New tool in the box”,Nature Physics,2017,13(5),pp.420-421.,尽管AI的科学解释能力尚不足以生成严格库恩意义上的颠覆性理论⑦赵云波:《AI预测可以代替科学实验吗?——以Alpha Fold破解蛋白质折叠难题为中心》,《医学与哲学》2021年第6期,第17—21页。,但“大数据+智能算法”模式已被集中应用于实现自动化、建模、逆向问题和发现,引发了新一轮科技革命。在2022年首届科学智能峰会上,有专家指出AI for Science是建基于应用数学之上的机理和数据的融合计算,更将其称作“科学研究的第五范式”①张伟:《AI赋能科研“第五范式”引变革》,《中国高新技术产业导报》2022年8月15日,第13版。。对AI for Science新范式全景及其基础的探讨,仍需对更多具体研究领域的典型案例进行基本原理和关键技术分析,但可以确认的是,AI for Sci‐ence已然推进了科学发现进程、扩展了科学理解途径,并带来了对科技伦理的挑战。
数据驱动的科学仿真,也即AI模型,成为重要的科学发现手段。科学模型是一种具有重要科学意义的理想化表征②Weisberg M.,“Three kinds of idealization”,The journal of Philosophy,2007,104(12),pp.639-659.,而AI技术为科学研究提供了一种以数据为中心的科学仿真和预测性分析方法。在朴素科学时代,解决科学问题的关键在于追问能否观测并总结规律;计算机普及后,科学活动依赖于实现有效近似的多项式和计算机模拟。如今,科学活动的数字化使可用数据和计算资源迅速增加,将海量非结构性数据转化为形式化的知识成为基本科学任务。在算法和算力的强耦合下,AI技术更频繁地辅助研究人员创建现实世界的“数字孪生”,从混乱数据中提取洞见、开发模型或测试假设。因此,科学解谜转型为首先寻找问题背后的可用数据和原理。参考药物研发领域的进展,AI for Science正在走向一种融合物理模型与数据的系统处理模式,在实测数据不足的情况下,可以利用高精度物理模型生成的仿真数据反过来优化和纠正AI模型。对此,ML算法已经开发出基于领域知识和目标参数来模拟复杂系统的替代模型,例如,通过设计蛋白质折叠转换网络塑造了单体蛋白的多种突变途径(不改变其四元结构而切换折叠),帮助发现了更全面的蛋白质进化机制及其变体效应③Ruan B.,He Y.,Chen Y.,et al.“Design and characterization of a protein fold switching network”,Nature Com‐munications,2023,14(1),p.431.。以Alpha Fold 2的惊人表现为例,当前生成式AI已经能够学习先验知识和科学原理,更将“知识”“数据”和“模型”有机结合起来,以推进科学原理的进步。从数据分析扩展到预测性分析和规范性设计,AI的前景或许不再仅仅是一种高性能工具,AI模型甚至可能成为一种新的知识形式,与人类能够理解的知识并驾齐驱,共同组成科学知识。
科学目的除了真理、解释和预测外,也包括科学理解的重要一环④De Regt H. W., “Understanding, values, and the aims of science”, Philosophy of Science, 2020, 87 (5),pp.921-932.。AI在科学理解中已经扮演了两种角色:首先,放大数据规律的“计算显微镜”。例如,用AI自动提取以视频形式记录的实验数据中的隐藏变量⑤Chen B., Huang K., Raghupathi S., et al. “Automated discovery of fundamental variables hidden in experimental data”,Nature Computational Science,2022,2(7),pp.433-442.。其次,提供创新灵感的“人工缪斯”。这类启发通常来自于⑥Krenn M.,Pollice R.,Guo S.Y.,et al.“On scientific understanding with artificial intelligence”,Nature Reviews Physics,2022,4(12),pp.761-769.:专家对数据异常的识别、对ML模型的重新审视(如,通过反事实解释打开算法“黑箱”)和对人工自主体(artificial agent)行为及其内在奖励策略的探测,AI对科学文献特殊点的自动抓取,以及算法提供的可解释性解决方案(如,数学公式、图论等)中的新概念。“学习”是这个时代AI研究的关键词,ML本身是关于理解用来设计和开发算法的智能,其工作流涉及⑦Bengio Y., Courville A., Vincent P., “Representation learning: A review and new perspectives”, IEEE transac‐tions on pattern analysis and machine intelligence,2013,35(8),pp.1798-1828.:从原始数据中学习,提取知识,使其普遍化,对抗维度诅咒,以及破解数据背后的解释要素,以达到在时间推移中优化自身学习行为的目的。AI先驱唐纳德·米奇(Donald Michie)曾将机器学习分类为弱机器学习、强机器学习和超机器学习。最后一类不再是辅助性角色,而是作为“理解主体”直接获得新的科学见解,并传授给人类专家。二十世纪八九十年代,科学知识社会学家和认知科学哲学家就对“AI能否替代科学家独立完成科学发现”问题展开过激烈论战①曾点:《人工智能能替代科学家吗?——再思STS的一场论战》,《哲学分析》2023年第1期,第159—171页。。现在,AI工具正在演化出能够自主学习的“AI科学家”。例如,AI-笛卡尔(AI-Descartes)已然实现了开普勒行星运动第三定律的再发现②Cornelio C.,Dash S.,Austel V.,et al.“Combining data and theory for derivable scientific discovery with AI-Des‐cartes”,Nature Communications,2023,14(1):1777,pp.1-10.,通过利用符号回归和逻辑推理寻找方程拟合数据,该系统得以确定哪些方程最符合背景科学理论,未来甚至可能自己构建背景理论。然而,哲学家们质疑先进的计算方法和理想化模型是否在根本层面上帮助人们获得新的科学理解③Potochnik A., “The diverse aims of science”, Studies in History and Philosophy of Science Part A, 2015, 53,pp.71-80.。此类争议的一个潜在解决方案是开发可解释AI(ex‐plainable AI,XAI)④Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,也即解释学习算法的内在逻辑、由学习算法产生的模型或基于知识的推理方法的发展。此外,也有研究建议对人类决策的结构因果模型进行形式化处理,并将这些模型中的特征映射到DL方法中⑤Holzinger A., Langs G., Denk H., et al. “Causability and explainability of artificial intelligence in medicine”,Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2019,9(4):e1312,p.10.。
尽管AI for Science表现出蓬勃生机,但AI生成内容(AI generated content)受到ML模型“黑箱”属性的干扰仍然表现出半客观性,在数据隐私性和决策严谨性方面存在隐患⑥邓莎莎、李镇宇、潘煜:《ChatGPT和AI生成内容:科学研究应该采用还是抵制》,《上海管理科学》2023年第2期,第15—20页。,因而招致科技应用在伦理、公平和信任方面的持续争议。相关热点议题包括但不限于:如何确保AI系统的设计和使用方式的道德和社会责任,并尊重基本的人权和价值观⑦Muller H., Mayrhofer M. T., Van Veen E. B., et al. “The ten commandments of ethical medical AI”, Computer,2021,54(07),pp.119-123.?如何确保AI系统是公平的,不会延续或放大现有的偏见或歧视⑧Angerschmid A., Zhou J., Theuermann K., et al. “Fairness and explanation in ai-informed decision making”,Machine Learning and Knowledge Extraction,2022,4(2),pp.556-579.?如何确保AI系统的透明性和可解释性,以建立用户和利益相关者的信任⑨Holzinger K.,Mak K.,Kieseberg P.,et al.“Can we trust machine learning results?artificial intelligence in safetycritical decision support”,Ercim News,2018 (112),pp.42-43.?以及,面对上述伦理和社会影响,应如何制定和实施有效的政策、法规和治理框架,并促进各方利益相关者间的对话和合作?目前学界普遍认为,确保研究对象在科研链上各环节的详细记录的可溯性和可验证性是提高AI模型可信度的重要思路之一。基于该路径搭建的溯源模型(provenance model)能够以机器可读的方式留存研究历史档案①Wittner R.,Mascia C.,Gallo M.,et al.“Lightweight Distributed Provenance Model for Complex Real–world En‐vironments”,Scientific Data,2022,9(1),p.503.,在分布式多机构协作背景下实现了对数据质量的程序化评估。另外,鲁棒性和可解释性是提升可靠性和确保AI系统时刻受控的重要因素。鲁棒性的一个可能强化方法是将统计学习与知识表示相结合②Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,可解释性则使人们得以理解和评估AI系统的决策过程,确保AI解决方案的可信度和公平性③Holzinger A., Dehmer M., Emmert-Streib F., et al. “Information fusion as an integrative cross-cutting enabler to achieve robust,explainable,and trustworthy medical artificial intelligence”,Information Fusion,2022,79,pp.263-278.。医药等敏感领域已对可解释性提出强制性要求,例如,欧洲体外诊断法规(IVDR)已有明确条例对软件和AI算法提出要求④Müller H.,Holzinger A.,Plass M.,et al.“Explainability and causability for artificial intelligence-supported medi‐cal image analysis in the context of the European in Vitro Diagnostic Regulation”, New Biotechnology, 2022, 70,pp.67-72.,针对遗传资源获取和共享的《名古屋议定书》(Nagoya Protocol)强调了数据的透明度、可追踪性和可解读性⑤Martins J., Cruz D., Vasconcelos V., “The Nagoya Protocol and its implications on the EU Atlantic Area coun‐tries”,Journal of Marine Science and Engineering,2020,8(2),p.92.。在具体策略上,还可以考虑对AI模型的结构和训练过程提供清晰的文件和说明,使用可解读的(interpretable)模型或技术⑥Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,以及将模型的输出和决策过程可视化等。
大数据时代,利用多源异构的科学数据来推进知识前沿的追求激发了AI技术与科学研究的深度融合,但数据、知识、模型、算法、算力共同建构的AI for Science仅被挖出冰山一角,前路仍远。一方面,作为新兴技术,ML尽管取得迅猛进步,但算法难以解释因果关系,相应模型敏感于微小的输入差异以至产生大幅输出变化,且部分研究领域仍存在低质量数据。要提高AI在科学研究中的可信度和可控性,尚需提高AI模型的鲁棒性,并在保持准确率的前提下,降低ML模型对计算资源的依赖。从可解释性方面来看,作为科学理解的要素,前文提及的XAI尽管被视为有前景的技术出口,但“解释”的定义和涵盖解释各种属性和维度的结构化格式尚不清晰⑦Vilone G.,Longo L.,“Notions of explainability and evaluation approaches for explainable artificial intelligence”,Information Fusion,2021,76,pp.89-106.,一些ML主导的闭环研究仍有赖于人类专家的领域知识进行概念性理解和决策。
AI for Science已成为全球新前沿,AI协助的科技创新发展对国家经济实力和国际竞争力具有重大意义。以新材料研发为例,对材料的利用能力是人类生产力和生产方式的标志性体现,材料作为“工业骨骼”为各行业的技术进步起到基础性和先导性作用。2014年美国将“材料基因组计划”提升为国家战略,配套建设了45个材料基因组创新平台,每个平台政府投资0.7~1.2亿美元,建设周期5~7年①宿彦京、付华栋、白洋、姜雪、谢建新:《中国材料基因工程研究进展》,《金属学报》2020 年第10 期,第1313—1323页。。包括我国在内的多个国家也迅速启动类似的研究计划,争取在新一轮材料革命中占得先机。事实上,针对我国高科技人才短缺和AI生态系统不成熟的问题,国内已拥有良好的AI技术基础和全球最庞大的人口市场,突破口在于针对未来发展趋势展开前瞻性规划和相应的基础研究②陆成宽:《中国科学院院士杨金龙:让AI for Science更好服务国家战略需求》,《科技日报》2023年5月22日,第5版。。近期,为落实国家《新一代人工智能发展规划》,科技部会同自然科学基金委启动了“人工智能驱动的科学研究”专项部署工作,点名药物研发、基因研究、生物育种、新材料研发等重点领域的科技研发体系布局。可见,我国AI for Science发展的当务之急在于为重大科学问题研究建设专用平台,鼓励建设计算与智算融合的科研生态体系和更多的开放科学数据。从文章第二部分的案例中发现,AI方法在科学领域内的发展和普及通常是由一个既定科学问题推动的,而成功的最佳途径是AI技术员在各个科研环节与科学家紧密合作。因此,跨领域融合的科研组织模式与跨学科重构的综合人才培养是拉动创新平台建设与专项研究的重要基础,也是推进资源整合和政策合力的重要一环。首先,需要鼓励科研人员积极接纳和学习AI工具和手段,在国家战略性需求领域的科学难题上实现技术突破,推进我国在基础科研的国际竞争中的主动地位。其次,除了实现AI技术创新的人工智能人才,更需要高校建立跨学科的人才培养体系,通过设置交叉学科来培养能够快速适应智能手段,甚至快速将技术创新转化为实用科研设计的高层次人才。最后,要建设开放创新的专项智研平台与公共大数据平台,并制定配套的AI治理原则、数据安全规范和跨学科交叉研究政策。只有实现“项目、平台、人才”三方合力的可持续发展联合体,才能全面提升我国AI驱动的科学研究自主能力与范式变革。
加快新一代AI的发展是我国的一项关键战略,旨在促进科技发展,升级各工业领域,并提高整体生产力。最大限度地发挥AI在基础科研领域的潜力,要求更健康的科研体系布局与多方协作,实现研究机构、投资者、企业和市场之间的合作和知识转移。可以设想,在“AI+物理模型+高性能计算+自动化实验”的基础上,以“搜索”为核心的精准仿真建模和重新设计(de novo de‐sign)有望真正实现“以终为始”——从需求出发升级工业设计和智能制造,重塑相关行业的技术标准和商业模式,最终推动我国的制造业转型和实体经济发展。因此,为更好地利用AI for Sci‐ence带来的科研范式革命的机遇,我们应当鼓励科学工作者积极拥抱AI for Science,加快AI for Science的科学研究平台建设,挖掘AI for Science在各类科学研究中的潜力,使AI for Science在科学研究中最大限度地发挥作用,更好地服务国家战略需求,以增强我国的科学研究实力,确保这一领域在国际竞争中处于世界前列。