科研智能化新趋势下知识服务的挑战与机遇*

2022-06-23 14:01孙蒙鸽黄雨馨张婧睿
情报杂志 2022年6期
关键词:科学实验模型

孙蒙鸽 黄雨馨 韩 涛 张婧睿

(1.中国科学院文献情报中心 北京 100190;2.中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190;3.南京农业大学信息管理学院 南京 210095)

0 引 言

2013年,美国麦肯锡研究院发布《2025年前可能改变生活、企业与全球经济的12项颠覆技术》,该报告提出知识自动化将是继工业自动化后提出的另一创新理论体系;2015年,物理学诺贝尔奖获得者弗兰克·威尔泽克发表的断言----“在100年内,最好的物理学家将是一台机器”;2016年,日本科学家北野宏明发表文章ArtificialIntelligencetoWintheNobelPrizeandBeyond:CreatingtheEngineforScientificDiscovery[1],为AI提出一个新的重大挑战:开发一个能够取得重大科学成果的AI系统,通过图灵测试,进而能够获得诺贝尔奖。如今,这些预言正逐渐成为现实,引发一场新型的科研范式变革—科研智能化。

近来,成熟、通用、强大的AI技术不断应用到具有挑战性的基础科学研究中,极大提升了科研效率,为各学科解决了科学难题。科研智能化的强势来袭,迫使知识服务机构思考:究竟如何做,才能在研究范式变革的前期融入新的科研浪潮。本文通过描述科研智能化趋势的最新进展,解析其中的实现过程,对应我们知识服务的能力,思考未来的变革方向,以搭上科研智能化的“快车”,推动学科研究的持续创新。

1 科研智能化趋势新进展

上千年的科学历程见证了“实验范式”“理论范式”“仿真范式”和“数据密集型范式”的诞生。AI模型、系统的出现,使得科学研究的面貌正在发生改变。通过借助AI模型计算所有可能的科学假设,结合高度自动化的机器人实验装置,科学发现过程正被转化为高效的实践工作,以前所未有的速度加速科学发现。我们将这样的研究范式称为“科研智能化”[2]或“智能科学家”[3],本文暂称为前者。

这类新的研究范式虽尚无定论,大体上看其典型特征为“人机有效融合”:AI算法、机器人技术与科学研究的有效融合,以实现科研假说的自主提出、实验方案的自主设计、假说合理性的自主验证等,甚至自主完成科研全流程;其对应的两大优势为:对已知知识空间探索时,凸显其效率优势;对未知知识空间中发现时,凸显其“突破人类认知局限”的优势。

通过阐述、分析此范式在四大基础学科中的应用案例,结合调研支撑以上科研工作的国家战略政策,综合论述“科研智能化”趋势很有可能成为下一个科研范式的观点。

1.1 科学研究的新态势

近来,“AI技术加速科学发现”的实现主要体现在以下四大学科:

a.生物学科。从AI快速筛选抗生素到RoseTTAFold快速生成蛋白质结构,AI模型的推理能力在不断变强。① AI模型通过对分子结构的向量化表示使得AI系统在3天时间内筛选1亿化合物,发现超级抗生素Halicin[4]。其关键创新性在于针对特定功能训练分子向量表示的方法更有利于寻找具有期望特性的分子,由此开启“借助分子结构的向量化进行AI药物发现”的新时代。②AI系统仅需46天从零设计研发新药[5],而传统方法则需十年,其效率提升的关键在于分子结构的向量化表示结合生成对抗网络技术,使得以分子功能为目标、定制AI药物发现模型成为可能。③Alpha Fold模型[6]凭借分子结构三维表示方式和Evoformer的方法破解了“基于基因序列即可预测蛋白质3D结构”的科学难题。这是AI系统首次把一个公认的具有重大意义的科学难题突进到几乎破解的地步,被业界认为是首个有望获得诺贝尔奖的AI成果。④RoseTTAFold模型[7]在保证与AlphaFold2模型相差无几准确率的基础上,提升了预测速度,降低了所需要的计算机处理能力,使得智能科研的桌面应用成为可能,开启机器破解蛋白质结构的新战场。

b.化学学科。相比于生物学科,化学学科不仅在AI模型的推理能力上逐层深化,更是在自动化实验装置上进行了颠覆性变革。①Alpha Go模型针对任一化合物,可像GPS导航一样在5.4秒内以前所未有的速度给出反应路径[8]。关键性在于基于1 240万个化学反应训练得到的神经网络与蒙特卡洛搜索树算法。即大量格式化的化学反应数据是AI模型提升智能化的基石。②“自我驱动型”AI化学机器人无需提取化学信息[9],仅通过排列组合化学官能团,借助自身实验装置自动进行反应、自动识别反应结果,而后学习以上反应过程数据,即可判断任意一对化合物是否具有反应活性,进而发现当前未知的新反应。即该AI系统不需局限于已知的数据库和常规的有机合成规则中,即可“自我驱动”进行科学发现。③可移动机器人化学家8天时间内自主完成668个实验[10],以人类科学家62.5倍的效率研发出一种全新的催化剂。优越性在于更为高阶的机器学习算法和更灵活的实验设备:算法方面借助贝叶斯优化算法不断学习已经完成的实验确定下一步要进行的最佳实验;实验设备方面可移动地独立执行化学实验中的所有任务,如固体称重、液体分配等;实验效率被大大提升。④集文献阅读与有机合成一体的机器人化学家[11],将科技文献转化为化学描述语言下的反应序列,进而转化为可执行的机械手指令,进而自动合成化学反应,实现了化学机器人自主看文献并自主进行实验操作的功能。

c.材料学科。研究模式变革更类似于化学学科,AI模型占据科学发现中的推理主力,实验装置也在向全自动化迈进。①一种无监督AI方法,在没有增加任何额外知识库的情况下从材料科学文献中提取潜在知识,捕获复杂的科学概念,预测出一种未知的新型材料[12];②材料加速操作系统(MAOS)通过智能机器人实现了“按需”合成和发现材料的功能[13],以电商的形式向用户开放;③基于AI规划的有机化合物合成机器人平台[14],结合AI设计合成路线和机器人执行的自动化合成平台,整合计算机辅助合成路线设计、反应条件优化与评估以及机器人执行等流程,有效导航材料合成空间。

d.物理学科。相比于实验学科,理论学科更需要的是AI从数据中汲取理论知识,提炼易于解释规则定理的能力。①“AI哥白尼”的神经网络系统通过学习行星运动的数据[15],准确预测出“日心说”的理论;②“AI Physicist”模型通过学习小球运动数据[16],能够对数据所描述的物理环境给出该环境下的物理法则。

种种研究工作的出现,或许仅仅是AI技术加速科学发现的苗头;在多种因素下,可以料想的是,未来会越来越多地爆发出AI技术自主进行科学发现的事件。

1.2 国家布局的科研战略

科学发展的进步离不开背后国家政策、基金的支持,分析每一个重大突破背后的战略布局,可以发现总体布局的发展历程为:从AI技术在科学研究的初尝试,到机器科研全流程的自动化,再到机器高阶认知能力的重点提升。按时间顺序,各国布局的科研战略有:

a.2004年,英国科技部Robot Scientist计划[17],希冀研发一个能够独立发现新科学知识的机器,将自动化和人工智能结合,致力于2050年打造出有实力赢得诺贝尔奖的机器人。该项目已研发出“Adam”“Eve”[18]两款机器科学发现系统,用于热带病药物设计。

b.2011年,美国材料基因组计划,希冀通过增强AI技术和材料数据加快新材料开发;截至2016年已投入超5亿美元。该计划主要基于三个支柱:一是可以准确预测材料性质的计算方法;二是扩大材料库的高生产能力实验;三是挖掘科学文献中已有材料,促进材料数据共享的项目。目前基于该计划催生出的材料数据库有:Materials Project(体量13万)、OQMD(体量63万)、AFLOWlib(体量320万),包含实际验证过的材料和模拟计算待验证的材料[19];同时整合实验、计算和理论,研发出若干机器学习材料模拟工具包(MAST-ML),加速新材料研发。

c.2018年9月,美国DARPA,“下一代人工智能”(AI Next)计划共包含41个子项目,预期投入超20亿美元,旨在推进AI常识推理能力。其中“AI+Science”领域的项目共12个,约占AI全领域总项目数的1/3。短期计划“AI Exploration”中包含如“科学知识自动萃取(ASKE)” “AI研究助理” “AI物理学”三项项目;中长期探索计划“Ongoing AI Programs”中包含“加速分子发现(AMD)”“大机制项目”“知识导向型的AI推理模型(KAIROS)”“不同来源的主动解释(AIDA)”“因果探寻”“数据驱动的模型发现”等9项项目。此12项项目,根据项目内容,笔者将其分为四类:

①以ASKE为代表的“NLP的知识抽取”类,旨在抽取表示科学概念的知识元素(如模型参数、函数、因果关系等),用于构建具有丰富语义表示的科学推理模型。代表性成果有M2E2多媒体事件抽取系统[20]和事件推理系统[21]。

②以AIDA为代表的“科学知识自动推理”类,希冀研发一种能生成、验证和完善其自身假设的AI系统。代表性成果有:多媒体多语言的知识提取和假设生成系统GAIA[22]和支持有关COVID-19文献知识的自然语言回答和报告生成的EvidenceMiner系统[23]等。

③以“大机理”为代表的“因果推理”类,希冀开发协助计算机阅读科学文章的技术,从海量文献中自动抽取因果片段,将它们组装成完整因果模型,从而综合推理出全局的因果关系。目前在构建癌症系统生物学路径上取得一定进展[24]。

④以AMD为代表的“科学研究全流程自动化”类,为DARPA2015年“Make It”计划的延伸版,旨在开发基于AI的智能方法和更智能的机器软件平台,通过自动化合成装备使材料按照分子特性按需合成,告诉机器人要制造什么分子以及如何制造,加快具有特定性能分子的设计、验证和优化速度;代表性成果有溶解度自动筛选平台[25]和材料加速平台[26]。

d.2021年,美国DARPA (D17AC00004)计划,旨在挖掘机器学习在认知和行为科学上的潜力。

同时,调研国内近年来关于“AI技术加速科研发现”的相关政策:2015年,科技部启动了“材料基因工程关键技术与支撑平台”重点专项,希冀借鉴人类基因组计划的理念,构建材料高通量计算平台、高通量实验平台和数据库平台,以材料需求为导向设计材料结构。总体来讲,对此方面关注度相对较小,发展状态稍显劣势。

2 科研智能化的总体框架

分析、总结以上“AI加速科学发现”的相关研究,解析科研智能化的实现过程,给出通用的实现框架,设想实现场景;而后针对每一步骤,综述相对应的发展态势。

2.1 科研场景设想——平行概念下的人机共生

图1为本文对未来人机共生科研场景的设想,其中包括智能科学家执行科学研究的过程以及与人类科学家的相互交互过程。

图1 科研场景设想概念图

上千年的科学研究发现都是在假设生成与验证的循环过程中产生的;对应上述案例,借鉴培根科学归纳法,将智能科学家的科学发现引擎描述为一个包含假设生成和验证、知识更新与融合的闭环系统。该系统打通了科研全过程,主要的实现过程分为五大步骤:一是理解科研信息(包含科技论文、科技数据、开源数据等)的知识,检验标准或者反馈行为能否为科学家自动生成科技动态快报或领域文献综述,同时也可大大提升人类科学家的科技信息获取速度;二是根据理解的知识,自动推理其中可能存在的科学问题,得到科学假设;三是根据科学假设设计相应的实验方案,以实验结果表现推断上述假设的合理性;四是将上述步骤按一定模式生成科技论文,进而由同行评议审判其科学性;五是将此过程中的实验数据、科技论文、专家评议结果自动存储入库,用于自我学习、优化下一轮科学假设。

在机器科学家自我驱动进行科学发现时,人类科学家与其同步假设、探索,以一种平行系统的方式与机器科学家交流、反馈。这种合作可以被认为是一种在智力活动上的人机共生关系,触发一种“互为她者”的镜像关系。其中,机器系统的计算实验过程实际上是为人类科学家系统运行的可能情况提供借鉴、预估和引导,尽可能避免失败的假设,大大节省资源、提升效率。

具体来讲,智能科学家整个科学发现的过程需要用到很多的技术,总结归纳为三大要素:计算、执行与学习,其对应的具体算法(四边形所示)与用途(五边形所示)如图2所示。

图2 科研自动化实现过程的关键要素与对应技术元素

2.2 科学知识的理解与掌握

智能科学家进行科学发现时,首要步骤为借助科技文献、科研数据等非结构化复杂数据理解、掌握现有的科学知识,输入端到输出端的实现框架如图3所示。从具体解析来看,输入端通常为专业领域的文献、专利、报告、实验数据等,或通用领域的开源文本,如Wikipedia;经过数据处理、知识表示和不一致推理三大步骤处理后,输出端为嵌入推理模型的结构化数据及科技动态快报、文献综述等知识产品。

首先,对输入数据做处理,最为关键的是数据抽取及关联。由基础到高级,由实体关系抽取到科学知识概念抽取;而后语义关联多源数据,用于最为广泛、精准的知识发现。Science DB是已知的以数据为导向的科技数据库,关联了与科学论文密切相关的表格、图片、软件代码、材料结构、实验流程等科学数据,使数据具备可发现性、可重用性和可操作性。

图3 “机器获取科学知识”的实现框架

二是将上述数据转化为统一的机器可读、可操作形式,做到对知识的精准表达、加工。作为智能科学家的先决输入,知识表示的精准性和丰富度对于后续的知识发现至关重要。其中,“万物皆可表征”方法(比如Node2vec,GNN,Bert)的出现,向量化表征数据成为挖掘隐式语义的趋势;同时还出现了配套的向量化数据库Milvus[27],用于管理和分析Embedding数据,作为基座支撑各种类型的AI模型。此外,新型机器可读数据框架也逐渐成为机器获取知识的关键,如“可执行的化学文献”系统[11],借助化学程序语言XDL自动抽取科技文献中包含软硬件的实验过程信息,而后将其转化为可执行文件,输入到实验平台自动执行、得到化学实验结果,从而弥补了从科技文献到实验装备间自动传输信息的鸿沟,实现了自动执行科技文献中实验过程的任务。

三是对以上数据模糊地带的推理。坦白来讲,假设生成和初始验证过程的限制,来源于从出版物、数据库等数据中提取得到的知识体。然而并不是所有从科技文献或科学数据中提取得到的数据都是正确的、可信赖的,还会包含重大的错误或遗漏的信息等,这样的模糊地带将需要AI系统识别、推理出来。当智能科学家发现某一部分报告与绝大多数报告不一致时,将这些报告判断为错误,还是判断为有可能的重大发现,是一个较为关键的问题。

2.3 数据驱动的科学假设生成与评估

“智能科学家”进行科学发现的关键步骤为基于以上数字化可计算化内容,结合众多先进的AI算法,生成、评估科学假设,即称为“数据驱动的科学假设生成与评估”。该步骤可以认为是数据密集型科研范式的发展后期,其本质特质之一是科学问题的出现来源于数据计算,而非人类科学家的直觉、经验,数据计算发挥引擎作用。具体的,“数据驱动的科学假设生成与评估”为基于以上数字化可计算化内容,结合众多先进的AI算法,高效探索知识空间,形成行之有效的科学假设,主要包含三点:

一是“AI+算力”的知识计算,通过探索、消化机器可读、可操作数据中的内在原理、规律,形成科研假设空间;包含已有知识空间的高效发现及未知知识空间的探索,前者突破人类科学家的空间计算能力,后者突破人类科学家的认知局限。图4表示AI模型的三大要素及善于解决的科学问题,三大要素分别为(a)组合空间搜索能力、(b)明确的目标函数、(c)大量数据或明确有效的数据模拟方法;对应善于解决的科学问题图4中右侧列举。如实验科学中的分子合成路线问题,需要借助大量化学反应数据(c)训练后的AI模型,在小分子排列组合的巨大空间(a)中不断寻找最符合目标要求(b)的分子路线。而后,科学问题的解决又可用于扩充模型训练所需的数据,反过来提升AI算法的表现,迭代式精进科学发现模型。

图4 AI模型的三大要素及善于解决的科学问题

二是“AI+多目标优化算法”的假设评估,有时还需要结合实验结果迭代反馈、进行优化。在得到假设集合后,优化算法会指导智能科学家根据最有效路线的实验方案自主选择参与实验的成分、条件,缩短实验的设计-制造-测试-分析周期[28]、减少材料成本,有效促进科技资源的利用。比如,2020年可移动机器人化学家在贝叶斯优化算法的指导下,在9 600万假设空间中,根据上一次实验结果自主选择下一次实验方案,最终仅执行668次实验即得到最优的实验效果。

三是“AI+主动学习”的迭代评估。对于机器而言,没有反馈就没有学习。最终的科学假设和实验方案往往是根据实验结果改进的上一步假设。这意味着实验结果的每一个细节,不管是不完整的或者失败的数据都要存储起来变得可获得。比如,材料探索与优化闭环自主系统CAMEO[29],借助主动学习来确定下一步要进行的最佳实验,迭代反馈后仅需很少次实验即可找到最优材料。

2.4 实验方案的自动执行

在得到科学假设后,“智能科学家”借助自身的机器人实验装置,自动执行实验方案,以快速验证假设的合理性。这样的实验装置系统有很大的扩展潜力,未来很有可能成为科学研究的驱动力之一。实验装置与AI系统的连接,更是带来对知识空间深度探索的效率飞跃。目前,具有代表性的自动化实验平台如图5所示,自上而下,自动化程度逐级升高。

图5 代表性的自动化实验平台

如果说科学知识的理解与掌握、科学假设的自动生成与评估是智能科学家的脑力活动,那么实验方案的自动执行及假设验证则为体力活动,极大解放了劳动密集型实验中的劳动力,减少重复工作,使得人类科学家得以腾出时间进行更多创造性活动。

图6 生成式模型的相关进展

2.5 科研数据的自动获取、规范与存储

在完成实验操作后,“智能科学家”往往含有自动收集、存储科研过程数据的配置,主要包括文献数据、实验数据、开源代码等,为接下来自动设计科学实验、自主优化实验结果、自动验证科学假设打下基石。由于文献数据方面已有成熟完备的体系,这里重点阐述实验数据的进展。

实验数据的自动记录、分析,促使科研过程全记录、可追溯的同时,也在加速科学发现。比如,Materials Project中,研究人员利用SVM算法学习了4 000次不同反应条件下制备晶体的失败和成功实验数据,通过学习到的规律预测任意一次化学实验成功的可能性,由此大大提高了化合物的合成率。

实验数据自动获取及存储方面,智能化的硬件设备是效率提升的关键。根据不同的数据类型,对应的存储平台有:a.基本属性数据方面:溶解度自动筛选平台[30]可凭借计算机视觉系统和反馈算法来自动获取反应物的溶解度、密度等;b.实验反应数据方面:智能实验室玻璃器皿[31]可以记录反应过程中的反应时间、反应产率和产品特性;更智能化的是有机合成机器人[9],它配备了实时传感器以记录反应混合物的光谱。

实验数据自动采集和存储相辅相成。目前Experiment databases[32]提出了一个协作框架,旨在让研究者在社区中共享机器学习实验,并自动将其组织到公共数据库中,以利于重复利用。综合分析,各项研究工作都表明了包含实验数据在内的科研数据自动获取、复用的重要性。

2.6 科技文本的自动形成

科技文本的自动形成涉及机器根据不同的用户需求产生、提供各种形式的文本,比如科技论文的动态快报、科技领域的文献综述等,使用的方法主要有3种:模版式、抽取式和生成式。

a.模板式方法主要基于输入的知识点与模板库进行候选模板检索,利用优化算法进行智能模板筛选,确定最终使用的模板生成文本;b.抽取式是从海量的已有文本素材中抽取重要信息后生成摘要等,提高用户从大量数据中获取有价值的可直接阅读的总结性报告;c.生成式自然语言生成,主要指通过序列的深度学习和增强学习技术根据现有文本生成模型用自然语言的形式写成文本,难度最大,但应用价值也巨大。这里,本文主要描述生成式模型的相关进展,如图6所示。

2021年,Springer Nature首次以人机交互形式创建一种侧重于文献综述的新图书——《气候、行星和进化科学:计算机生成的文献综述》[33]。计算机通过AI聚类查询、整理和组织相关文章,同时使用生成模型放置在特定上下文中的章节摘要;作者则为每个章节提供科学观点;最后融合这两者生成该书。其中,AI模型的优越性在于能够发现文章与文章间的隐形联系,凸显未知的知识。

3 科研智能化驱动的知识服务新机遇

可以肯定的是,智能科学家的出现将以一种完全没有先例的方式大大增强人类科学家的智力,并且有可能从根本上改变科学的进行方式。就像是现在研究员们会配备高通量实验系统,相信未来智能科学家也将会变成高阶研究机构中基础设施的一部分。

如何有效融入这场科学变革、为一线科学家提供更加强有力的支撑作用,是我们知识服务方向研究人员需要考虑的问题。在当今如此重视科技创新的国度里,我们知识服务机构更需要抓住时机勇于变革。

3.1 知识服务新机遇

对应以上梳理的实现过程,未来知识服务的发展契机主要分为两大部分:一是科研数据基础设施的建设;二是科研数据推理平台的建设。需要明确的是,这两者的服务对象为人和机器,因此还需要统一的资源表述框架来进行存储和交流,总体框架如图7所示。

图7 知识服务发展机遇的总体框架

3.1.1科研数据基础设施的建设

数据象征着对客观世界的刻画,AI算法通过学习分析数据达到对现实世界的精准建模;从某种意义上来说,有限的数据空间内,AI算法对现实世界建模的越精准,它离科学真理就越近。表1描述的是“科研智能化”范式下重大科学发现所用的科研数据情况。

表1 “科研智能化”研究中所使用的科研数据举例

由表1可知,智能科学家实现科学发现的基础是大规模科研数据的智能发现问题,本质又是大规模科研数据基础设施的建设问题。科研数据本身蕴涵着规律,是新型智能的载体和产物。然而由于科学数据的多元异构、跨域复杂关联、信息总量巨大和价值密度较低等因素,使科学大数据的深度挖掘与价值利用面临着种种挑战。由此,支撑科研数据基础设施建设的解决方法主要有以下两方面:

a.科研数据细粒度语义抽取。利用AI技术从大规模数据集中抽取相关知识内容,具象内容如领域术语、术语间的关联关系、技术参数、化学反应式、材料物质、蛋白质结构、模型算法等领域知识库,抽象内容如知识概念、科学事件等的描述,以细粒度揭示知识内容间的关联、组织,使得知识内容的自动更新和质量保证成为可能,为后续知识挖掘提供保障。

b.多源多尺度科学数据的全景化融合。不同数据源的高精度融合和实体画像构建,助力科学家从整体做出准确判断。依据关联聚合原理,只有关联数据才能看到全貌、产生价值;即针对科学数据的多元异构性,需要实现多模态数据之间的表示转换,以便将不同的特征映射到统一的知识表示空间中。比如,实体/概念融合方法将来自于不同格式(文本、本体、向量)、不同描述(专业、通用)存储的观测目标信息转化为统一的资源描述框架,并进行语义关系上的对齐和消岐,通过参数共享、正则化添加等方式完成观测实体的融合。

3.1.2科研数据推理平台建设

在建设好科研数据基础设施后,根据分析致用原理[36]—“不仅要感知、存储数据,还要挖掘数据的价值”,以及效用倍增原理—“数据经过一层一层逐步深入挖掘,形成无限迭加的价值;由底向上提炼知识,形成更深层次的倍增价值”,科研数据的挖掘、推理成为关键。同时,已知“AI技术已成为一种赋能技术,成为科研生活中无处不在发动机”的情况下,知识服务人员更应该借助AI技术,通过知识计算,为研究人员提供科研假说,跨越数据与知识的差距,帮助他们探索可能的科学发现;最后,工程化为平台工具升值我们的科研知识服务。

图8 科学数据推理平台建设的概念图

科学数据推理平台的实质内容为科学计算元件库,以重复利用各种复杂的科学分析算法。计算推理模型分为基础的、通用领域推理模型和深层的、特定于专业领域的推理模型。前者主要包括数理统计模型、实体间可能存在的关系模型、预训练语言模型等,如置信度模型、链接预测模型、Bert模型等,为基础的科学发现提供便利;后者主要为专业的、需要一定算力支持的领域推理模型,比如生物学领域的蛋白质结构预测模型Alpha Fold2,化学领域的反应路径预测模型Alpha Go等;最后集成到平台向用户直接提供工具接口。

同时,支撑推理平台的算力、类似于虚拟实验室这样的数字孪生设备,不可避免地也需要知识服务机构承担。反观行业内,智能化数字基础设施建设已成为新基建的主导方向,这为推理平台的建设提供可行性。

3.1.3科研数据统一描述框架的规范

无论是科研数据的存储步骤,还是推理步骤中,标准化“语言”是机器成为重要助手的关键。开发机器可读、可操作的数据标准集合是一件刻不容缓、势在必行的事情,将进一步提高文献数据的应用价值,充分挖掘和揭示知识内容,将文献数据库转化为知识发现工具。比如,目前在表征向量化数据库中,不同AI模型训练得到的实体表示均是一些相互独立的Embedding空间,是一系列信息孤岛,就好像Wikipedia的每个词条都是用不同的语言书写。因而需要一种规则或者技术打通Embedding空间,将不同事物进行关联,这样的技术也许是一些中间层的Embedding空间,也许是一些中间层的神经网络模型,有待研究人员进一步探究。

3.2 讨论与思考

如果以上构建的科研场景在现实中变成了普遍现象,那么,深层次的变化是什么呢?

3.2.1重新定义知识发现

重新定义知识发现的必要性源于机器智慧与人类智慧的不一致性,并且不被人类理解的神秘、复杂性。比如Alpha fold模型的存在,专注于从头开始建模目标形状,并不使用先前解析的蛋白质作为模板;这也就表示疑难问题的解决越来越不依赖于人类的先验知识,甚至不被人类理解。在机器智慧与人类智慧对世界的认识存在差异的情况下,对比下这两者的表现:人类对蛋白质结构的理解是基于长期研究的结果,但是机器智慧从另一条蹊径出发,却走在了人类前面。这不得不让人反思,未来会不会出现人类通过机器智慧学习和发现更多未知知识的现象?而这也将使得人类获取知识的逻辑发生根本变革。

此外,在MachineBehavior[37]文章中,作者认为理解机器行为对于控制他们的行为、最大化他们的效率优势以及减小对人类的伤害是十分有必要的,甚至可以将其设立为一门新的学科进行研究。研究方式上,机器行为与人类/动物行为具有很大的不同,所以研究时需要避免将其过度拟人化;研究态度上,则需要与研究living systems一样研究AI系统。

3.2.2新型的人机共生科研生态

虽然,未来AI将成为我们科研生活里无处不在的“发动机”;但是AI并不是魔法,其仍需要人们掌握原理,如更明确的生物信号调控、更有效的药物靶点,未来才能给研发效率带来革命性的提升[38]。其中,科学家承担更为复杂的研发及创造性工作,机器承担更为一般性、重复性的工作,两者相互迭代、相互塑造。比如,在研发清洁能源材料的智能自动化平台中,研究人员需要与自主研发的机器人进行合作,设计实验,分析结果,更新研究人员的知识到数据库,使用AI方法进一步设计新实验,优化研究目标,完成整个自动化研发流程的闭环,在协同合作中相互塑造。

更进一步地,人机共生的科研生态或将带来新型的科研范式[39]。新的研究范式一样会以数据为对象,不同的是更侧重于人、机器与数据之间的交互,强调人的决策机制与数据分析的融合,体现了数据和智能的有机结合。对比来看,第三和第四范式都用到计算:第三范式是“人脑+计算机”,重点在人脑;第四范式是“计算机+人脑”,重点在计算机。未来新的科研范式则更强调人脑与计算机的“有机融合”。由此可以肯定的说,未来或者即将到来的科学研究范式不仅仅是传统的科学发现,更是对智能科学家系统的探索和实现。

4 结束语

通过展示、解析科研智能化的最新进展,分析其中的特点及优越性,研判得出正如托马斯的蒸汽机成为工业革命的驱动力,“智能科学家”科学发现系统可能也正推动一场新的科研革命,带来以“人机有效融合”为典型特征的范式变革。然而,这场变革最终会通过促进一系列重大科学发现使我们的人类文明更加强大,还是会由于人类对人工智能系统的广泛、过度依赖而变得更加脆弱,还有待观察。

可以肯定的是,知识服务机构为顺应科研智能化的时代机遇,需要把自己从数据库商、出版商提升为知识内容分析服务的提供者,将自己定位为信息方案的提供者、内容方案的提供者、信息与数据分析的领导者。可行的变革方案为:以科研数据为根基,积极构建科研数据基础设施及科研数据推理平台,为各类知识内容分析提供解决方案,服务于科研需要。

最后,笔者所在的科研智能化研究小组仍在持续跟踪科研智能化的最新动态,解析其中的数据和算法,并展示在http://las-science-intelligence.com网站平台上;同时,还在陆续集成开源工具、共享科研数据,供科研人员调用。未来,期待做出支撑科研活动全生命周期的产品/工具。

猜你喜欢
科学实验模型
记一次有趣的实验
适用于BDS-3 PPP的随机模型
重要模型『一线三等角』
做个怪怪长实验
点击科学
科学大爆炸
模型小览(二)
NO与NO2相互转化实验的改进
实践十号上的19项实验
离散型随机变量分布列的两法则和三模型