文/刘荣 张娜
共享 体现科学数据价值
——访中国工程院院士孙九林
文/刘荣 张娜
科学数据是科学研究的生命,任何科学研究都离不开科学数据的支撑。随着我国科技研究的日益繁荣,各界对科学数据的需求也随之越来越迫切,科学数据共享已成为时代发展的必然选择。与此同时,“科学数据共享工程”的有效推进,开启了我国科学数据的共享新篇章,而这些成绩的取得离不开科学界众多有识之士多年来的呼吁和不断努力,中国工程院院士、中国科学院地理科学与资源研究所研究员孙九林便是其中一员。
孙九林是我国农业与资源环境信息工程学术带头人之一,一直十分重视地学领域科学数据的开发和共享,长期从事信息科学与国土资源以及农业交叉领域的研究,开拓了“国土资源及农业”信息科学管理应用新领域,主持完成多项国家级重大项目并解决一系列关键技术,为信息科学在资源环境中的应用作出了开拓性贡献,是国家级有突出贡献专家。
自21世纪以来,信息本身也被当作一种资源,甚至是一种比物质资源和能量资源更为重要的战略资源,而数据就是信息的基础。2002年底,在孙九林的倡导和亲自主持下,我国正式启动了“地球系统科学数据共享服务网”的建设。2004年,该网作为国家“科学数据共享工程”首批 9个试点之一被纳入国家科技基础条件平台,属于科学数据共享工程规划中的“基础科学与前沿研究”领域,主要是为地球系统科学的基础研究和学科前沿创新提供科学数据支撑和数据服务,同时也是目前科学数据共享工程中唯一以整合、集成科研院所、高等院校和科学家个人,通过科研活动所产生的分散科学数据和科研项目产生的数据为重点的建设项目。
据了解,国家投资产生的科学数据主要包括两种类型,一是行业部门长期采集和管理的科学数据;二是各类科技计划项目产生的研究型数据。从事科学研究是数据密集型的活动,离不开这些科学数据的支持,它对海量的、多样化的观测、探测、调查和试验数据具有很强的依赖性,对相关领域科学数据的共享有着强烈的需求。
但孙九林介绍,许多非常规的监测、观测数据,特别是研究过程中产生的数据,以及地球系统科学研究所需要的专业数据产品,是不能全部从专业部门获得的,它们还分布在从事地球学科研究的机构和组织、高校、科研院所以及科学家手中。长期以来,获取科研数据难一直是科技工作者反应比较集中的问题之一,很多科学家一直呼吁由国家财政支持的科研项目产生的数据能够实现共享。
“科学数据既是项目研究成果的组成部分,又是科技创新的重要基础,如果不把它们交汇、管理起来,不仅不能充分在共享和流通中发挥其使用价值,也会使一些研究结果无法进行追溯检查和验证,从而削弱国家对科技投入的效益。”孙九林表示。为此,2002年我国实施了“科学数据共享工程”,其目的就在于将这些观测、监测、探测、试验、实验等获得的数据、研究项目的过程与成果数据,以及在这些数据的基础上加工融合产生的多学科、系列化的数据产品进行整合、集成和分享,从而发挥它们的最大价值和效能。
孙九林介绍,发达国家很早就开始注重数据的开放和流动,甚至斥巨资建立许多部门和行业数据中心,为社会公众提供数据共享服务,而且为了满足科学技术发展和国家经济建设的需要,国家不断增加投入获取更多新的数据资源扩大共享活动,促进科技创新和增强国力,而美国就是最好的代表之一。美国政府建设的国家级科学数据中心群和国家级数据信息共享服务网,不但实现了公益性科学数据资源的长期积累,也实现了数据的高效管理与广泛应用。
近年来,倡导数据共享的国际组织也越来越为活跃。例如,国际科学联合会(ICSU)在一系列全球性研究计划的推动下,将原来专门设立的“世界数据中心”(World Data Center,WDC),改名为“世界数据系统”(World Data System,WDS)和“国际科技数据委员会”(Committee on DATA for Science and Technology,CODATA)两大数据组织,主要负责开展科学数据的收集、交换和服务等活动。
国内近几年也加大了数据共享的力度,越来越多的学科和单位都开始注重和开展数据交换及共享的相关工作。更为重要的是,由于我国数据共享工程的建设,给大量依托于行业部门的地学数据的流通和共享提出了“为科学研究服务”的数据产品要求和发展规划。在此背景下,孙九林等科研人员开展了“地球系统科学数据共享网”的研究,“我们希望通过这项研究不仅能够充分利用和分享国内的资源,还能通过镜像、交换、导航等多种手段将国外资源充分利用起来。”孙九林说,通过“地球系统科学数据共享网”的研究,目前我国已同“世界数据系统”(WDS)建立了数据交换和镜像合作。
此外,2002年,我国实施了“科学数据共享工程”,气象、地震、农业、林业、医药卫生等领域的数据已经实现了共享。另外,根据《科学数据共享工程发展规划》,到2020年,科学数据共享工程将实现80%以上公益性、基础性数据资源面向全社会共享,使科学数据资源的积累与共享达到基本满足科技创新和国家发展的需求,提高国家创新能力和竞争力,最大限度地满足国家对科技投入的效益。
孙九林说:“数据共享工程是国家科技基础条件平台建设的主要内容之一,在财政部和科技部的领导和支持下,我国数据共享的状况已经得到了很大改善,同时也得到了社会各界的认可。该工程在讨论立项的最初就得到了众多知名专家的好评和赞同,并一致认为这是一件有百利而无一害的事情。”尽管最初数据共享的理念并不能被大多数人接受,但是经过这几年的发展,现在理解和支持数据共享工程工作的人越来越多。未来虽然还有很长的路要走,但数据共享工程的明天是光明的。
孙九林院士(右)2009年12月到香港中文大学太空与地球信息科学研究所访问交流
孙九林院士(右)2009年12月在香港中文大学建筑学院参观交流
国家各类科技计划项目每年都会产生大量的研究型科学数据,这些数据既是项目研究成果的组成部分,也是科技创新的重要基础。长期以来,我国科学家在科研中大量依赖国外科学数据,而国内各类科研活动中产生的大量科学数据,由于缺乏数据共享的机制,无法发挥其应有的作用,数据的潜力得不到充分挖掘和利用。孙九林说:“科学数据不仅有科研价值,还有社会价值和经济价值,只有在共享平台上实现数据的共享和流动,数据才能不断升值。”
从2007年开始,科技部在推动气象、地震、医学与健康等行业科研数据共享的同时,开始尝试对科研项目产生的数据进行汇交管理共享的工作,根据“地球系统科学数据共享网”建设的经验,选择973计划资源环境领域项目产生的科学数据进行汇交和共享试点工作,试图把分散在科研人员手中的基础研究项目数据集中起来,通过长期积累建立数据共享中心,目的是让更多的科研人员能够发掘和利用这些科学数据的价值,从而促进我国科学研究水平的提高,使得科研活动的价值得到进一步提升。
孙九林认为:“数据汇交是手段而不是目的,在汇交相关数据的基础上,推动科技创新,提高综合研究的能力才是数据汇交的真正目标。”高质量的数据是保障高质量共享服务的基础,数据汇交中心通过对元数据、数据说明文档和数据实体的审查来保障数据的可靠性;还通过同行专家对项目组预先制定的数据汇交计划进行审核,以此来保障数据的准确性、系统性和科学性。孙九林说:“这是为了提高数据质量而不得以采取的约束性制度。”
据悉,经过一年的调查研究,科技部形成了《国家重点基础研究发展计划(973)资源环境领域项目数据汇交暂行办法》,2008年科技部正式启动了“973计划资源环境领域项目数据交汇工作”,下发了《关于开展国家重点基础研究发展计划资源环境领域项目数据汇交工作的通知》,颁布了形成的“汇交暂行办法”,并在资源环境信息系统国家重点实验室成立“973计划资源环境领域项目数据汇交管理中心”,由孙九林院士担任中心主任。2009年10月,科技部又规定2009年(含)以后参加验收的项目必须先完成数据汇交工作,才能进行项目验收。973计划资源环境领域项目从1998年开始启动,2010年以前结题的29个项目均已完成数据汇交,绝大部分数据提供完全开放共享;2010年以前启动但尚未结题的32个项目均已完成了数据汇交计划的编制。希望在不久的将来,科学家能够把数据汇交与共享视为一种自觉行为,这样才能更好地挖掘科学数据的价值。
孙九林院士2011年5月考察秦岭山区登上太白峰
孙九林院士2011年5月在秦岭北坡考察
数据一汇交便涉及到科学家的知识产权保护问题,这是数据共享工程中非常重要的一个问题,那么怎样才能既实现科学数据的共享,又能保护科学家的知识产权呢?谈及工作多年对此最深的体会,孙九林表示:“其实科学数据的汇交工作并没有想象中的难以实现,最早我们很担心科学家们不配合工作,但是经过几年的发展,很大一部分科学家都明确支持数据汇交,也愿意将自己的研究数据上交到数据管理中心。”
据了解,科学家们的担心主要有两个方面:首先,文章没发表前,关键数据如何保密?其次,如何保证引用者在引用时都会注明出处?孙九林介绍,他们剖析了NIH数据共享政策和共享规范,同时深入研究了“世界数据系统”的科研项目数据管理,科技部基础司在此基础上结合我国项目数据交汇的现实状况,制定了非常详尽的细则即上述的“汇交暂行办法”,以确保科学家的知识产权得到保护。比如,他们规定数据汇交管理中心工作人员不得从事所负责领域的科学研究。
此外,数据还可以设置保护期,保护期内的项目数据仅供项目和课题承担单位及其授权范围内的用户访问和使用。过保护期后,数据汇交中心以在线、离线等方式分期、分批向全社会提供数据共享服务,用户利用汇交数据所产生的成果需要注明数据来源。另外,有的科学家也提出,最初产生数据的科学家利用这些数据发表了很多文章,之后再利用这些数据的科研人员,不仅要标明数据来源,也要标注已经利用这些数据发表的文章。“标示清楚了就解除了后顾之忧,而标注的形式也都是科学家自己提出的方式。”孙九林说。
记者了解到,虽然数据是免费提供的,但并不是任何人随时随地都可以获得数据。首先使用者要向管理部门提出申请,其次必须写明从事研究的领域和课题,需要的数据类型等,经过审核才能提供相关数据。孙九林坦言:“经过几年的实践,我们已经具备了较完整的技术平台开发和建设能力,而且,我们开发的所有平台软件和工具都具备可移植性和扩展性,在功能体系上,能够满足项目数据汇交用户、数据使用者、数据汇交管理机构三方的要求,在其他领域应用也很方便,”
科学数据共享通过前期的试点,后期在科技部条件平台项目中建设,目前共享的科学数据资源基本涵盖了我国三分之一左右的公益性、基础性科学数据类型,内容涉及自然科学、社会科学与人文科学等学科,它们都是行业部门及科研领域通过巨资投入而产生的。据不完全统计,科学数据共享工程的实施,已经整合盘活共享了超过250亿元的国家投入产生的科学数据资源,并建立了若干数据库,积极开展数据共享服务,为科学研究、政府决策提供了坚实的支撑,效果显著。科学数据共享工程先后为若干 “973”项目、“863”项目、科技支撑项目,以及自然科学基金等重大项目和工程提供基础数据支撑,有力地促进了我国科技创新和社会发展。
自第一个试点——气象科学数据共享工程试点以来,在资源环境、农业、人口与健康、基础与前沿等领域共24个部门开展了科学数据共享工作,迄今为止已初具规模。如今,科学数据共享的概念已经在科技界得到广泛认可,形成了良好的共享氛围和服务意识。我国科学数据封闭独享的局面也得到了有效改善,该工程不仅带动了跨行业数据交换工作的发展,也在科技界乃至全国产生了深远的影响。
谈到未来的发展和目标,孙九林表示:“希望能够将科学数据共享工程所形成的管理办法、标准规范、技术平台,包括一些经验和体会,更好地推广到更广泛的领域中去。这也是我们研究这项事业的初衷。”交通部门、人口与健康等领域都想开展科研项目产生的数据汇交管理工作,就目前的形势看,数据共享工程很有发展前景。我们也希望科研项目数据的汇交工作不仅局限于资源环境领域的项目,至少能够逐步使国家财政支持的科学研究项目,都能采取数据汇交的管理办法,使国家投资所产生的数据,能对我国的科学创新作出更多贡献。
孙九林院士2009年12月在香港中文大学接受黄乃正副校长(右)赠送的纪念品
孙九林,中科院地理科学与资源研究所研究员,博士生导师,资源学家,农业与资源环境信息工程学科带头人之一。在其取得的15项重大成果中,11项获省部级以上18种奖励;出版专著十余部、发表论文100余篇。20世纪80年代首次提出我国资源信息管理体系结构、资源信息分类编码、区域开发模型体系、统计型空间信息系统模式等,为信息科学在资源环境中的应用做出了开拓性贡献。“十五”期间主持国家科技基础性工作重大项目“中国地球科学数据中心完善与服务”、中国科学院知识创新前沿方向性项目“中国自然资源数据库及信息系统”、国际合作项目“全球气候变暖影响模型研究”及“亚太环境创新战略研究”等。2001年当选为中国工程院院士,2003年起开始主持国家科学数据共享工程试点项目“中国地球系统科学数据共享网建设”等。他所领导的“地球系统科学数据共享网”团队获得“十一五”国家科技计划执行优秀团队奖。