孙坦,赵瑞雪,杨晓蓉*,王剑
1.中国农业科学院,北京 100081
2.农业农村部农业大数据实验室,北京 100081
3.中国农业科学院农业信息研究所,北京 100081
进入新世纪的第二个10 年,以大数据、人工智能为代表的战略性信息技术呈现出叠浪式发展的态势,不同技术之间的横向融合及其对科学研究交互应用的渗透广度、深度进一步加强,大数据及其相关技术所带来的思维、理念和方法对科研领域全方位赋能的同时,也显著拓展各学科领域研究范围和创新能力,继而对科研模式的方方面面产生了颠覆性的影响[1],形成了“科研信息化、信息数据化、数据知识化”科研治理新业态。在这一背景下,科研人员也在积极思考应对在数据密集型环境下科学研究工作所面临的挑战,迫切需要构建一种面向海量数据的新的研究方法、模式、技术和服务[2]。就理论基础而言,这种基于数据的研究方法与分析技术注重于从海量数据中抽取研究对象的变化规律和内在联系,主张以量化、计算和自动化的理念,从数据出发,应用先进的计算技术和定量方法,开展数据化分析、数据驱动决策以及智能化分析应用等[3]。这意味着,在大数据环境下,未来科学研究会显现出以数据为中心,以定量化和数据化分析为原则,拥有智能性、融合性和可自动处理性等计算型特征,这种具备计算特征的科研活动可被概括为“计算型科研”。就本质而言,计算型科研作为一种基于数据密集型科研范式的新型科研模式,是“计算型思维”扩展到科研领域的表现形式,也是“第四科研范式”发展的一个新阶段。在实践中,计算型科研能够推动人工智能、网络分析、建模仿真等数据分析处理技术与科研活动的深度融合,减少传统基于人工判断所引发的主观性误差,真正实现数据在科研活动中的要素驱动作用[4]。可见,计算型科研是大数据时代科研活动发展的一个必然趋势[5],了解和应用计算型科研思维理念和技术方法,对于提升科研创新能力,应对数据密集型科研范式变革具有重要意义。
随着大数据时代的到来,科学研究活动正从传统的理论科研、实验科研向数据密集型科研转变[6]。在这一过程中,基于定性和实验现象分析的科研模式已经无法满足日益复杂的科研活动需求和科技创新任务,进而需要面向海量数据所开展的精准化、细粒度的分析来提升科研创新的质量[7]。在这种科研模式变革的背景下,2007 年美国国家工程院院士Jim Gray 第一次提出了科学研究领域的第四范式的概念[8]。在此基础上,哈佛大学的Lazer 教授等人基于“Data Intensive Computing(数据密集型计算)”的理念提出了“Computational SocialScience(计算型社会科学)”的概念,强调利用数据分析技术来开展社会科学研究工作,从数据计算结果和各类信息的相关性来揭示研究对象的内在变化机理和运行规律。在实践中,伴随着上述理论的扩展,计算型科研模式逐渐演变成型,它的本质是一种数据驱动型的研究模式,是以大数据为研究基点,综合实验、推理和模拟等研究方法要素,并能有效应对当前海量数据挑战的新型研究方式。在计算型科研模式下,科研活动过程在直接面对被研究物的同时,注意力更多地转向到探索海量数据中所蕴含的信息。在这一过程中,研究者所面临的研究客体、数据形式、科学分工、研究驱动方式和科学发现模式等要素也随之产生了很大变化[9]。因此,在科研实践中,与描述自然现象的实验科学、采用模型或归纳法的理论研究,以及使用计算机进行模拟复杂现象的仿真科学的科研方式相比,计算型科研模式是以数据为研究基础,通过实验、理论、仿真融合的方法开展研究活动,其具有以下特征:
(1)在研究对象上,表征具体研究对象的海量数据在研究过程中的地位不断提升,使研究对象呈现出来源多样化、结构复杂化、数量海量化的特性[10]。因此,大量数据的获取和从大量复杂数据中获取有用数据以及洞见知识的能力将成为计算型科研模式开展的关键。
(2)在研究推理上,关联关系与逻辑关系并重的分析模式的出现,使研究过程更加复杂,但更客观。计算型科研通过构建基于科学研究问题的数学模型,进而进行数据分析得出结论,数据模型往往具有客观的科学依据,使人为主观因素在科学研究中的作用越来越小。
(3)在研究手段上,海量数据的存储、分析、识别已经超出人工甚至是普通计算机的功能范围,将更加依赖通过提高计算机计算、存储以及知识挖掘等能力来实现科研创新[11]。计算型科研从数据获取、建模到分析预测,全部由计算机自动完成。因此,计算机、网络等科研信息化设施的水平提升成为计算型科研模式开展的重要基础。
(4)在研究结果验证上,传统科学研究过程为:假设—论证—验证。而基于计算型科研模式的研究过程不仅仅立足于传统的假设前提,而是将基于大量数据的推理论证而得出研究结果,这种结果可能具有不可假设的特性。这意味着,在大数据时代,科学研究的关注重点将从传统意义上的单一型因果关系逐步向新型的逻辑与相关性并重的复合型要素转变,这使得基于计算型科研模式所获取的研究成果相较于传统的科研成果更具有说服力。
当前,随着科研活动从定量、计量向计算转变,其研究方法的“计算”特征日益凸显,计算型科研模式逐步走向“前台”。在国外,以美欧为首的发达国家对计算型科研或计算化科研活动非常重视,在政策、设施、资金、人员等方面投入了大量资源,构建起支撑计算型科研应用体系,以期在新一轮科技竞争中获得更多优势[12]。我国也积极打破行业及主体壁垒,强化科研资源共享与协同合作,旨在推进以数据融合和计算分析为主的科研生态加速发展,以应对计算型科研带来的科技创新挑战。相关应用实践及主要经验体现在以下几个方面:
2012 年3 月,美国政府制定了“大数据研发计划”,并把大数据纳入到国家战略体系中来。在此背景下,2014—2016 年,美国政府相继启动了“云计算测试床建设”项目、国家级的“战略性计算计划”“大数据研究与开发战略计划”等[13]。在欧洲方面,欧盟委员会为了推动新兴的信息与通信技术发展,制定了一系列规划与政策,其中《充分发挥ICT 潜能:赋予欧洲更多能力》报告已成为当前欧洲各国发展新一代通讯与信息技术、推动数字科研战略的共同纲领[7]。在我国,尽管在大数据科研战略方面起步较晚,落后于美国和欧盟,但随着世界范围内对大数据研究重视度的不断提升,我国在此领域的发展较为迅速。2018 年国务院办公厅在其印发的《科学数据管理办法》中详细说明了相关单位在数据收集、存储、共享、使用、管理和汇交中的职责,以及数据安全保障等各方面的工作事项[2]。在此背景下,各地方政府也纷纷出台一些方针政策促进数据科学与产业的融合发展。农业农村部、国家海洋局、交通运输部、国土资源部等国家部委机关,也从各自负责的行业领域实际需求出发制定了科学数据管理与使用的方针和政策[3],有力地推动了我国国家政策加速向大数据技术研究与应用转变。在农业领域,2016 年农业农村部印发了《农业农村大数据试点方案》提出了“推动涉农数据共享、开展单品种大数据建设、推动农业农村大数据应用”等主要任务,促进了农业农村数据生态的完善和发展。
与计算机仿真不同,计算型科研发展的一个重要要素是“研究领域拥有大量的数据”,而大数据所蕴含的各类数据间关系也往往超过一般用户的认知范围,这使其更加难以理解。为了突破这一瓶颈,解决计算型科研所引发的大数据处理与分析问题,全球范围内正在加快以超级计算、云计算、计算集群、分步式数据库为代表的信息化基础设施建设,打造具备一流计算、处理和传输能力的计算型科研生态系统。在美国,由美国国家科学基金会(National Science Foundation, NSF)出资,多个大学参与所研发的超级计算机,其重点聚焦海量数据计算与处理过程中存储资源与计算资源的平衡问题,并提供了硬件层面上的加速与协处理功能[14]。在欧洲方面,欧盟委员会投资1 亿欧元来推动面向数据科学的基础设施建设,并在其“地平线2020 计划”中将面向数据的信息化基础设施建设当作重点领域加以推动[15]。我国政府也积极推动国家重大科研基础设施的布局与建设:2013 年,我国“天河二号”晋升为全球第一的超级计算机,在此基础上,2020 年,中国科学院面向高端芯片产业研发了具备分布式异构弹性特征的高性能计算环境,可支持1000 多个设计用户同时开展芯片研发任务,为超大规模和高端芯片设计提供灵活高效的计算资源[16],推动了我国高端芯片产业核心制造技术的攻关,形成了高性能计算服务科技创新的工作新形态。在农业领域,随着网络生态与高性能计算在农业生产领域的融合应用,智能化、自动化的集成装备技术已逐步成熟,有效推动了农业机械化设备和生产设施智能化改造,使农业上的各类资源、气象、生产、销售数据得到了大规模的积累与沉淀,构成了农业计算型决策方式的“大脑”,有效推进了国家乡村振兴战略的实施。
在信息技术推动下,世界经济合作趋势日益加快,科研活动更多地以多学科、多机构、多层次的分工协作模式开展,且整体研究过程的体系化、平台化和精细化程度日益突出,开放科学以网络平台和众包科学的方式越来越频繁地进入到科学研究中,大数据应用的科学共同体所展现的凝聚力和包容性极大优化了各学科领域非结构化数据的有效利用,推动更多的学者跨学科参与相关研究、分享各自的研究成果、及时检验和矫正科研数据,从而最大限度避免了数据错误的发生,减少重复的科研活动,提升了科研质量,加快了科学研究的进程。当前,欧美发达国家非常重视开放科学与协作科研,2016年,美国国家科学基金会在未来十大项目计划中把以开放科学、协作科研为特征的融合研究作为重要机制与支撑创新计划之一[13];欧盟制定的“开放科学共享空间方案” (Open Science Commons)也提出要通过设施、平台、工具和服务的建设,营造良好的协作科研环境,推动开放科学的发展[17]。我国政府也非常关注开放与协作研究,国家自然基金委员会早在成立之初就设置了重大项目来资助多学科合作研究;2020 年,中国科学院微生物研究构建了微生物资源全球数据合作网络,覆盖了全球50 个国家的133 个微生物资源中心[16],有效支撑了微生物资源基因组测序和功能挖掘的国际科研协作。在农业领域,集互联网、移动互联网、云计算和物联网技术为一体全新智慧农业的出现,让多种信息技术在农业中实现综合、全面的应用,有效加速了农业跨区域的科研协作与共建,从而助推农业科研全面腾飞。
计算型科研作为“计算思维(Computational Thinking)”的一种表现形式,其本质是一种分析方式,即利用计算这一基本理念来开展科学研究中的问题排查、系统设计和规律找寻等活动[18]。具体而言,计算型科研是通过抽象物理世界的各类对象和关系,并利用计算机以自动化的方式解析和处理这些抽象,这其中的“计算”包含抽象和自动化2 个基本要素[19],重点强调通过多种信息技术辅助科研人员的分析活动,并构建功能广泛的信息化基础设施来支撑科研协作体系的建立。由此,在科研模式向计算型科研转型升级的过程中,数据与技术设施的支撑具有决定性的推动作用,计算型科研模式对其的需求表达主要体现在以下几个方面。
基础设施效能化是指科研活动所依托的计算设备、存储设备、网络设备等信息化基础设施性能显著增强,扩展性持续提升。这是因为在计算型科研模式下,绝大多数与计算相关的科学研究活动已经突破传统模式的简单、定性化的统计分析,转变为面向大数据相对复杂的定量分析、相关性分析和语义分析等形式[20]。在实践中,这类分析模式由于数据处理量大、计算复杂度高、实时性强,因而必须借助高效能的信息化基础设施,才能从计算、存储和传输等方面支撑计算型科研活动,使相关研究任务在有限的时间内得以完成。这就要求新时期支撑计算型科研的条件设施必须依托云计算、分步式存储、虚拟化等技术,重点解决传统单一服务器设施和并行化计算所面临的耗能高、处理器性能弱、内存占用大、网络传输慢等问题,大幅增加数据存储与处理能力,满足计算型科研下的计算与存储需求。
研究对象数字化是指应用信息化手段,扩展科研活动所涉及的各类对象,并推动其各类属性信息由传统的纸质或模拟信号形式转变为数字化形式。随着数字化、互联网技术赋能科学研究的深入,各种科研信息及其所依托的载体数字化程度不断增强,数字化信息已成为计算型科研活动的一种常态,这不但显著扩展了传统领域科研分析的客体范围,也使科研对象的可计算性大幅提升[21]。这意味着科研活动所采集和整理的信息只有通过数字化的方式,才能够更有效地进行分析和使用,最大限度地发挥其价值。从这一点意义上来说,以数字化形式存在的各类数据资源由于具备能够被计算设备读取和处理的特性,已经日益成为计算型科研活动的基石[14]。这就要求计算型科研支撑环境建设应进一步强化信息技术对科研活动的赋能作用,研制新型的数字化智能装备,将新技术融入实验设计、分析和创新发现等科研活动的各个过程,打造具有适应不同环境下的低成本的智能设备和数字化设施,有效提升科研对象的数字化水平。
研究模式融合化是指在科学研究过程中借助跨学科领域的各类工具、理念和技术,突破学科之间的壁垒,形成一种覆盖创新过程全链条、多方研究主体广泛参与的科学研究框架模式。在实践中,由于计算型科研的开放性与协作性,使得新时期科研活动必须在加强沟通和联结后,才能实现科研活动从问题中来、到问题中去的闭环过程模式,形成一个综合、全面的研究框架[22]。这就要求计算型科研支撑能力与环境建设不仅仅局限于运用技术和工具将各类学科领域的人员聚合在一起,而是要营造一个以问题为导向,多学科领域开放协作的研究环境;借助先进的信息技术手段为科研人员设计目标、部署实验、挖掘数据,推动多种知识、理论、数据和方法的融合与渗透,形成多领域科研人员广泛认可的研究框架和研究方法,有效提升跨学科领域研究的融合水平。
研究方法智能化是指随着机器学习、知识表达、语义推理等技术的发展与深度应用,科学研究所依托方法的智能性不断提升的一种趋势。即研究方法和工具已突破传统的统计分析的范畴,转向更高层次的计算建模方向发展。在科研活动中,由于传统的统计分析方法很难在海量数据中抽取出其所蕴含的知识和规律,只有运用智能化的计算与分析方法才能够在不同的数据环境下,以自动化的方式发现潜在的知识、关系和规律,从而解决更复杂、更前沿的科学问题[15],在科研活动中真正解放人的脑力劳动。从这点意义上来说,传统科研模式向计算型科研模式转变的实质是研究方法从简单的统计计算形式转变为高阶的建模计算应用形式,这说明在大数据时代,单一地应用人脑判断和简单的统计方法已不能完整地发现科研对象的内部关系并满足科研活动深层次的需求。因此,只有依托具备智能化的计算方法和模型,才能帮助研究者更快、更有效地揭示大数据所蕴含的各类关系和特征,实现对研究对象的深度分析和理解。这就要求计算型科研的研究方法模型必须深度融合大数据、人工智能等核心关键技术,形成一系列支撑智能化研究方法的工具、模型及产品,构建智能化研究协作平台,充分满足研究者对科研对象深度洞察的需求。
计算型科研的本质是在大数据和第四范式变革的背景下,以数据为中心,通过运用计算机可处理的方法和工具来分析数据所蕴含关联信息的一种研究方式。在计算型科研环境下,计算方法与计算工具的发展程度是科研分析与创新能力的重要基础[13]。因此,构建有效支撑计算型科研的环境与设施,推动科研创新范式的革命性改变与提升,是新时期科研发展的必由之路。特别是对于农业这一学科领域,由于其研究范围广、研究对象繁多、研究环节复杂,科研过程对数据分析方法与工具的依托更加紧密。这意味着,农业科研活动只有迅速适应计算型科研模式所带来的新的科研环境和科研条件,加速与开放科学的融合发展,才能推动海量的农业数据资源在复杂应用场景的深度融合,由此可以预期未来农业科研将会充分遵循基于“云-数-智”计算型理念与方法,实现农业产学研协同创新的引领与带动作用,使“数据”与“计算”要素充分融入农业科研活动的各个环节,推动农业创新发现与计算分析能力实现颠覆性革新,这也是新时期农业科学研究发展与变革的重要方向。然而,值得注意的是,当前国内计算型科研在农业领域的应用相较欧美等发达国家还存在着一定差距,具体表现在农业领域内数据“重收集、轻应用”,数据分析处理的基础与核心技术缺乏、数据共享与协作环境还未充分建立等。为此,在充分吸收和借鉴国外先进发展经验的基础上,应正视自身的缺陷与不足,进一步推动计算型科研模式在农业科研领域的深入变革与应用。基于此,可提出以下几点启示。
计算型科研方式对以信息技术为基础的科研基础设施提出了更高要求,这使得以智能化、数字化和网络化为主要特征的信息化基础设施日益成为计算型科研环境下研究活动的必备条件。在农业领域,重视计算型科研对信息化条件和设施的新需求,加快农业科研信息化基础设施战略布局,对于提升农业科技创新能力具有重大意义。为此,应积极规划面向农业领域的科研信息化基础设施建设,打造以科研工作者为核心、全面覆盖农业各类创新主体的科研基础环境,支撑跨学科、跨部门、跨地域的科研协作,拓展支撑计算型科研的数据资源和计算资源应用范围,切实满足计算型科研转型与升级的技术与设施需求。
拥有海量数据并对其进行有效共享与应用是计算型科研模式的主要特征[15]。为此,农业计算型科研变革应积极推进农业基础数据汇聚,融合各类面向农业学科领域的基地、实验室等各类创新单元的科研大数据资源,以平台建设促进科研数据共享服务,实现农业领域各类数据和计算资源的共享与高效利用。进一步完善面向整个农业学科领域数据资源的汇聚与共享管理机制体制,增强基础数据分类管理和共享应用算法与技术的研发以及相关工具的研制,以共享平台建设推动系统化积累农业全源数据集,为农业计算型科研的深度应用提供必要的数据基础环境。
在计算型科研模式下,类型丰富、数量庞大的数据资源已日益成为其重要的研究基础,这意味着在农业计算型科研的转型升级过程也是数据资源大规模采集和汇聚的过程,其所带来的不仅仅是新型的数据采集方法与技术在农业学科领域的应用,更多的是数据采集智能工具和装备的推陈与出新。为此,应充分借助高速网络、人工智能等战略性信息技术,加大研发投入力度,研制具有人类部分信息感知能力和行动能力的自动化、半自动化农业数据采集工具与装备,使得科研人员能够在短时间内采集数量更多、精度更高的观测数据,智能判断排除数据所存在的各类问题,增强农业海量数据采集与处理能力,夯实农业科研数据基础性要素,赋能计算型科研创新发展。
在计算型科研模式下,以开放协作为主要特征的开放科学已日益成为数据密集型科研范式的重要研究形式。为此,农业科研信息化发展应聚焦基于计算型科研模式的开放科学与科研协作体系,研发支持开放科学理念的协同创新平台,打造开放式科研协作环境,大力提升跨机构、跨部门、跨地域的资源共享和实验协同深度与广度,增强重点农业学科领域科研协作交流活跃度,推动传统科研向计算型科研的转型与升级。
计算研究素质是指研究主体灵活应用计算型方法与工具开展相关研究活动的思维方式。对于农业科研领域来说,由于其研究对象和研究范围的广泛性与复杂性,培育农业科研人员计算研究素质对于推动农业计算型科研深入革新具有重要意义。为此,应大力增强计算型科研普适性培育,使计算研究素质真正成为农业科研人员必备的基本条件,鼓励农业科研人员自觉融汇集成各类数据资源,利用各类数据自动处理工具,开展计算与分析工作,提升农业科研活动的客观性和问题解决效率,推动计算型科研模式切实融入农业整体研究体系中。
本文通过对计算型科研模式探讨,概略介绍了其产生的背景、内涵、理念及对科研设施与环境的需求。在这其中可见,计算型科研模式和传统科研模式虽然在功能表现和分析方法上有所差异,但其本质和目标是一致的,计算型科研是传统科研“深度研究”的表现形式,也是科研活动适应当前数据密集型环境和社会需求的一种变化趋势。在农业领域,计算型科研的变革对科研能力、科研素养和科研方法提出了更高的要求。因此,深入探索农业领域计算型科研发展的理论、工具、应用和方法,为计算型科研效率的改善与提升提供启示建议,全面增强计算型科研理论方法面向农业科研创新的“融入环境、嵌入过程”的能力,将是新时期农业科研转型升级的关键。
利益冲突声明
所有作者声明不存在利益冲突关系。