文/胡良霖 黎建辉 沈志宏
科学大数据的建设与管理
文/胡良霖 黎建辉 沈志宏
科学数据是指通过实验、测量、观测、调查和计算等方式采集,以科学证据形式存在的客观事实(Facts),包括数字化观测、科学监测等来自仪器设备或传感器的数据,计算模拟与模型输出的数据,对情景或现象的描述,对行为的观测或定性描述,用于管理或者商业目的统计数据等等。科学数据通常是科研过程的输入,是证实或者证伪科学发现或科学观点的事实、证据或者论证推理的基础。广义上讲,人们目前接触到的所有数据都可以被应用到科学活动,可以纳入科学数据的范畴,所以这里不做概念性定义和探讨。
科学数据的采集方式主要有两种:一是手工采集,科研人员通过观察、测量、访谈、调查等方式,记录在纸张上或者其计算机中的表格、文本、图形等,该类数据通常量较小,复杂度低,但价值密度高;二是机器采集,由大型科学仪器设备、大科学装置、各种联网的自动监测网络以及大规模计算模拟等自动产生,这类数据量比较大,产生的速度快,复杂度高,但往往有程度不一的噪声。
从大数据4V特征分析典型学科领域的科学数据,如表1所示,科学数据是很典型的大数据。科学大数据作为国家科技创新的战略资源,已在国家《促进大数据发展行动纲要》予以明确。
大数据时代已然到来,科学活动也在进入基于大数据的大发现和大科学新时代。郭华东院士在《中国科学报》发表的题为《大数据+大科学=大发现》访谈文章中提出:“尤其是需要巨额投资建造、运行和维护大型研究设施的大科学工程,以及需要跨学科合作的大规模、大尺度的前沿性科学研究项目,更是与大数据联系密切。大数据+大科学=大发现。”2016年5月24日,BBC以特别报道的方式详细介绍引领中国科学革命的五大工程:FAST天文望远镜、猪角膜移植人体、大亚湾中微子实验、彩虹鱼无人潜水器、载人航天和探月计划,很显然这些工程都离不开数据的支撑,而且FAST天文望远镜、大亚湾中微子实验、载人航天和探月计划都是生产大数据的工程部署。
表1 典型科学大数据的4V特征
在科学数据建设与管理方面,过去的30年中国科学院一直不断探索和努力,从1986年国家计委正式批复启动“科学数据库及其应用系统”工程以来,在国家和中科院的持续支持下,现在已经发展到了第五个阶段。第一个阶段是1986~2000年,研究所/课题组自主自治的科学数据资源积累和共享服务;第二个阶段是2001~2005年,中科院“十五”信息专项支持,实现了规范化和规模化资源积累;第三个阶段是2006~2010年,中科院“十一五”信息化专项和国家科技基础条件平台等支持下,实现了领域数据整合与系统性开放共享(科学数据网格);第四个阶段是2010~2015年,中科院“十二五”信息专项支持,实现资源深度整合与应用服务,形成了科学数据云;第五个阶段是从2016年开始的目前,科学迈入大数据时代,科学数据的资产化管理和数据驱动的科研创新成为该时期工作的重点。表2是过去30年中科院科学数据资源发展的统计。
围绕着科学数据,经过30年的探索形成了比较完善的体系,主要包括以下工作:
1.科学数据集成整合与共享服务
2.基础环境与云服务能力
3.数据管理云服务技术体系
4.科学数据管理与服务标准规范体系
5.科学数据服务体系
6.典型应用
7.数据共享政策与数据服务评估管理体系
关于科学数据集成整合,以资源学科领域、植物资源保育学科领域为例,说明集成整合的现状。在资源学科领域基础科学数据整合与集成方面,以资源学科体系为框架,通过联合共建,推动跨单位、跨地域的资源互补和数据整合,形成了比较完善的数据资源体系。在植物资源保育学科领域基础科学数据整合与集成方面,实现了武汉、版纳、华南三个植物园,基于统一的物种名称和数据访问中间件实现跨库整合。在资源融合的基础上,通过中科院数据云服务门户(www.csdb.cn)向社会免费共享服务,服务效果良好,取得了很好的科研效果和社会效果。多源异构科学数据云管理技术体系如图1所示。
中国科学院科学数据库的基础环境与云服务能力、数据管理云服务技术体系、科学数据管理与服务标准规范体系、科学数据服务体系都已经形成,并在应用中取得了良好的效果,并且这些成果都向社会开放,以科学数据管理和服务标准为例,据不完全统计,标准规范文档已经被下载两万次之上。
科学数据资源建设和服务的目的是促进数据的深度及广泛应用,“十二五”期间,数据应用也取得了丰硕的成果,以下从三个示例简单说明一下。
一是中微子实验数据库支持中微子震荡研究。大亚湾中微子实验是中国基础科学领域目前最大的国际合作项目,基于实验数据建设的中微子实验数据库,成功支持了中微子振荡模式的发现和精准测量,助力我国科学家首获“基础物理学突破奖”。
二是动物主题数据库支撑中国生物多样性红色名录。2015年,由环境保护部联合中国科学院,全国500多位相关领域专家参与,目的是全面掌握中国物种受威胁状况。动物数据库承担并完成《中国生物多样性红色名录-脊椎动物(两栖类)卷》和《中国生物多样性红色名录-脊椎动物 (爬行类)卷》的评估报告。
三是学术论文引用,经权威机构统计,在CNKI收录的期刊中,已经查得有1773篇学术论文明确标注了使用中科院科学数据云开放共享的科学数据资源。
表2 中科院科学数据30年发展统计
图1 多源异构科学数据云管理技术体系
科学大数据在进入大数据时代以后,无论是天文、空间、高能还是微生物研究,都面临着海量数据快速、高效处理的挑战。2016年,中科院计算机网络信息中心承担了国家重点研发计划“云计算和大数据”重点专项科学大数据管理系统,联合了中科院有关研究所以及清华、北大、人大、西安交大、上海大学、山东大学等高校的共同参与。
经过近一年的联合攻关,该项目已经取得了重点突破和显著进展,在完善的技术架构体系下,实现了多源数据采集、大数据组件弹性部署、高性能数据管理、多元大数据管理系统集成管理、可配置大数据流水线管理等多项技术突破和深度应用,且在项目外的部分单位得到了应用验证。
虽然已经置身于科学大数据时代,我们还应客观、清醒地认识到科学数据积累与应用的重要性,毋庸置疑大数据管理与分析水平已经成为全球分秒必争的科技竞争能否胜出的关键,正因如此,全社会应该更加重视科学数据的持续积累这一长期性基础工作。在数据开放共享的政策法规尚需完善的情况下,全社会应利用新技术和新思路去探索数据开放共享的可行模式,这方面比较成功的探索有,以Nature的Scientific data、《中国科学数据》为代表的数据出版等,都值得关注与跟进。科学数据为科学发现服务的同时,应进一步释放数据红利,探索服务于“双创” 的机制、运行模式等,这也符合国家《促进大数据发展行动纲要》对大数据发展的定位和要求。
(责编:杨洁)
(作者单位为中国科学院计算机网络信息中心)