黄筑斌,吴 隽,彭志良
(贵州省农业科学院 科技信息研究所,贵州 贵阳 55000)
由于农业集自然性、生产性和社会性于一体的特点,农业领域的信息复杂多元,其需求对象同样如此。虽然存在众多农业信息资源,但这些单一维度(空间区域、学科领域、信息载体)的信息系统无法很好地为解决一个复杂农业问题提供支持,也难以更好地满足农业领域的从业者、研究者和决策者等不同群体对农业信息的现实需求。农业领域信息及其需求对象的复杂性决定了需要区域性甚至全球性的广泛合作,才能整合分散的农业信息资源,使其更容易被发现,并且得到进一步利用。21世纪伊始,国际上已有一些组织就此作出了有效实践,如GFAR(Global Forum on Agricultural Research,全球农业研究论坛)在2004年为促进全球各区域性农业信息体系协作倡导建设的GLOBAL.RAIS(The Global Alliance of the Regional Agricultural Information Systems,全球区域性农业信息体系联盟)项目[1]和2005年提出建设的IIAST(International Information System of Agricultural Science and Technology,国际农业科学与技术信息体系)[2]等。我国也于2016年由中国农科院海外研究中心牵头成立了全球农业大数据与信息服务联盟,致力于构建多种开放合作平台和运行机制,实现全球农业大数据和国家农业文献信息资源共知共享,以及海外农业研究和国家农业信息科技创新协作协同[3]。
对于在全球范围内实现农业科研信息的开放共享,早在2008年8月举行的世界农业信息与信息技术大会上,GFAR和FAO(联合国粮农组织)就正式提出了建立CIARD(Coherence in Information for Agricultural Research for Development,以促发展为目标的农业研究信息汇聚共享)这一国际联盟的倡议[4]。我国也在联盟成立之初作出积极响应,并于2011年6月在北京举办了CIARD国际专家磋商会[5],还于当月21日正式上线CIARD中文版网站(http://www.ciard.net/zh-hans/ciard-ring)[6]。根据CIARD RING网站的统计数据(http://ring.ciard.net/partners),截至2020年10月,全球已有873个组织机构成为CIARD成员,其中我国有56个,笔者所在单位也于2016年12月成为其中一员。为促进更多农业领域的国内研究者了解CIARD及其重点建设的RING网站,更好地通过其发现和利用全球范围内开放共享的农业信息资源和信息服务,对CIARD的理念、目标和组织运作模式,以及RING网站的服务模式和服务内容进行介绍。
CIARD的理念(愿景)是使公共领域的农业研究信息和知识能够被所有人访问,旨在使创建或处理公共农业知识的组织和个人能够更有效率地传播这些知识[7]。为此,CIARD的主要目标是,针对农业领域构建集成不同来源、学科领域和载体形式(书目、全文、多媒体和原始数据等)信息的体系,以提供多维度、多学科、多区域相关联的综合和定制的农业信息,满足更广泛受众对农业信息的需求。更深层次地,CIARD计划构建的集成信息体系并不是简单地将信息集中在一起,而是要进一步通过将不同信息片段关联起来实现对信息更好的认知和理解,即实现已有信息的增值。同时,在构建这样一个体系的过程中,培养和增强组织和个人利用相关技术框架或工具集合建设和利用信息资源的能力。并且,引导和鼓励不同体系或制度环境中的组织和个人在技术和机制模式层面开展协作,实现互补。由此解决构建集成信息体系(integrated information system)面临的主要问题,包括许多信息资源所有者不重视现有的资源和缺乏实现资源互操作性的技术和协调机制,以及因不能从中获得显著收益而缺乏参与的动力。总之,CIARD不仅为实现全球农业信息的开放共享提供多样化和经济性的技术手段,还在此基础上培养和发展组织和个人使用这些技术,促进开放性农业信息资源和信息服务建设和应用的能力,并探索农业信息共享和深度开发利用的全球性合作模式。
CIARD目前按工作任务划分有3个工作小组。其中,内容管理(content management)工作小组着力于开放资源库建设的理论方法和相关工具的研发和改善。能力建设(capacity building)工作小组关注愿意遵循CIARD纲领的组织和个人的能力发展,开展培训和开发培训资源。支持(advocacy)工作小组致力于增强CIARD的利益相关者对CIARD纲领的认识,促进CIARD在政策和组织层面获得支持[7]。一般情况下,3个工作小组使用远程通讯工具进行协作,在必要时支持工作小组会组织召开区域性专家磋商会,商议CIARD的相关工作,特别是修订最佳实践检查表(checklist of good practices)。其在机制构建和改善研究成果的有效性(availability)、可访问性(accessibility)和可用性(applicability)方面列出了相应的方向性指引,可看作是CIARD的行动指南。基于这些指引,CIARD进一步制定了具体的行动措施,称为CIARD Pathways[7]。
为实现CIARD的理念和目标,GFAR在2009年11月牵头实施了名为RING(Routemap to Information Nodes and Gateways,信息节点与网关路线图)的重要服务项目[8],并于2010年建立了RING网站(http://ring.ciard.net)。其旨在提供全球农业领域现有信息源的地图,使信息源提供的开放性信息资源和信息服务更加容易发现和再利用。为此,RING致力于实现不同信息资源和服务之间的互操作性(interoperability)。其是指信息资源和服务提供的数据可以容易地被其他信息系统处理,特别是能够以多种形式实现机器访问、获取和转换,而无需对不同类型的分散数据进行集中控制和统一使用特定的标准化软件[9],从而确保可分发的数据能够更好地实现交换和再利用。
按照建立RING的目标,RING自身并不直接提供农业信息资源和信息服务,而是提供分散信息资源和信息服务的综合索引,成为访问全球农业信息资源和信息服务的统一入口,使RING的用户能够通过不同的手段和途径,包括不同的浏览器、搜索引擎和数据处理软件等,发现其需要的存在于广泛分散信息源中的有效信息,或使用特定的信息服务。同时,RING提供如何实现信息互操作性和高效再利用的指导,如由CIARD制定的信息管理规范和RING管理员、技术专家撰写的有关信息互操作性的技术文档,以及鼓励信息所有者提供实现信息互操作性的指南等[8],以促进信息的增值。由此,RING能够成为增强信息互操作性以及支撑构建新的集成信息体系的全球性技术平台。
RING收录的信息服务泛指在整体上能够使信息具有更好的可访问性和互操作性,进而实现信息有效可用的方式[9]。任何通过网站,电子邮件服务器,web服务和XML(Extensible Markup Language,可扩展标记语言)文件等不同信息载体提供信息的手段和途径,如RSS(Really Simple Syndication,简易信息聚合)服务,OAI(Open Archive Initiative,开放文献倡议)数据的提供和收割(harvest,指采用特定的客户端程序获取这些数据)[10],RDF(Resource Description Framework,资源描述框架)文件等都是信息服务。根据这一定义,通常意义上的信息资源,如原始数据集、数据库和电子图书文献等,在RING中也是信息服务,因此,下文中将信息资源和信息服务统称为“信息服务”。
RING收录的信息服务来自与信息服务相关的人员(信息服务的所有者、管理者和建设维护者)在网站上的注册提交。为更好地对信息服务进行索引,便于更好地检索这些信息,注册时需要按照信息服务的用途和互操作性提供详细的描述和分类。RING为此制定了相应的标准,包括主题范围、地理范围、内容类型、目标受众等内容标准,以及采用的元数据集、词汇表、协议和软件等技术标准[9]。另外,为确保信息服务归属的准确和避免重复注册,个人注册的信息服务记录必须与已经注册的组织相关联。与信息服务相关的组织在注册服务时,RING管理者(GFAR建立的一个联合成员单位)会定期检查,以确保数据的所有权和可靠性[11]。基于这种模式,随着所注册信息服务数量的增长,RING将会成为一个综合的信息服务资料库和基础体系架构,其中的优秀服务还可作为实现信息互操作性有效实践的典型案例,为构建新服务提供借鉴。此外,通过对不同信息服务的数据进行搜集和分析可能会挖掘出潜在的新发现。
2.3.1 数据集(dataset) RING收录的数据集所提供的数据可以通过特定的协议和地址实现人机访问,并且能以多种文件格式进行下载(分发)[9]。数据集在RING框架中属于信息服务的类型之一,因此,RING收录的数据集来自已经注册的一个信息服务,但为和其他类型的信息服务有所区分,便于用户检索,数据集在RING网站中列为一个独立的内容栏目(http://ring.ciard.net/datasets)。按照RING为所注册信息服务制定的索引标准,数据集具有完备的详细信息:1)基本属性。包括数据类型、数据起始年、总记录数及与农业相关的记录数百分比和更新状态。2)内容层面。包括数据使用的人类语言、数据涉及的空间范围(以地图形式体现)、学科领域、按照AGROVOC词汇表(FAO制定的农业领域多语种词汇表)[12]设置的主题词和受众。3)技术层面。包括数据集适用的互操作性技术、使用的KOS(Knowledge Organization System,知识组织系统)、依托的软件和汇聚数据的方式(数据导出的文件格式)。4)管理层面,包括访问授权、责任主体和联系人信息。上述这些信息是实现信息服务互操作性的重要基础。
截止2020年10月14日,RING网站已收录3 197个数据集,占所有已注册的5 486个信息服务的58%。其中,全球性数据集和国家层面的数据集分别有741个和2 236个。在学科领域上涉及农学、动物科学、林业科学、农业经济、自然资源与环境等共计10大学科,服务于决策者、研究者、信息员、农民、教师和业余学术爱好者等共计19个不同类型的受众。提供信息服务的形式包括数据库、RSS种子、文档库、博客、网站和电子期刊等。在信息的互操作性方面,具有XML、HTML、CSV(Comma-Separated Values,字符分隔值)、EXCEL文件和图片等多种格式,并且可以利用RSS、OAI-PMH(实现电子文献信息互操作性的技术协议)[13]、FTP、SPARQL(为RDF开发的一种查询语言和数据获取协议)[14]查询和关联数据编程接口等多种技术手段进行访问和处理。
2.3.2 软件(Software) RING 近年来开始搜集能够处理已注册数据集的软件服务,并提供使用链接。由于软件是RING新收录的一种服务类型,目前数量较少,主要是agINFRA(欧盟委员会为改善农业领域数据和信息共享实施的项目)[15]和 SemaGrow EC(欧盟委员会为提高对全球农业数据的实时处理能力而启动的技术研发项目)[16]中研发的软件工具和应用程序接口,如辅助网络爬虫程序处理农业领域信息的AGROVOC Tagging(http://ring.ciard.net/applications/agrovoc-tagging),以及处理数据源描述的工具集SemaGrow stack(http://www.semagrow.eu/indexb482.html?q=tools)。随着大数据技术的发展,有助于数据处理的软件服务将会成为RING收录的重要信息服务之一。
2.3.3 关联数据(linked date) 为使已注册的信息服务可以应用关联数据技术进行处理,RING提供了描述所有已注册信息服务的实体(数据集、数据服务和组织名称等)和概念(信息服务的内容主题、区域范围和所用协议等)URI(Uniform Resource Identifier,统一资源标识符)、RDF仓库(RING中记录所有已注册信息服务详细信息的数据库)使用的词汇表,以及使用SPARQL引擎访问RDF仓库的端点(endpoint)地址。此外,提供了运用SPARQL 查询语言处理这些数据的代码范例,如获取特定数据类型、主题词和组织名称的数据集。
2.3.4 其他 RING收录的信息服务还包括RSS种子、网站、Web服务、博客、电子期刊、搜索引擎、专家信息系统等共计25种类型。截止2020年10月14日,除数据集外,RING已收录2 289个不同类型的信息服务。这些总体数量庞大且类型各异的分散信息,通过RING这样的信息服务门户,能够更好地被其受众所发现和利用。
CIARD成立至今已近13年,其建设的RING网站已运营10年。经过多年发展,CIARD得到了全球众多农业领域相关组织的广泛支持和积极参与,RING也成为了其构建全球农业科研领域集成信息体系,进而推动全球农业科研领域信息开放共享的有力探索和实践成果。RING不仅是汇聚和共享农业领域研究信息的服务平台,更重要的是,其为挖掘和发挥这些信息的潜在应用价值提供了重要基础。此外,RING的建设发展很好地展现和传播了CIARD的理念和目标,将促使更多农业或非农业领域的组织和个人加入CIARD。CIARD和RING的建立和发展进一步传递出明确的时代信号:当今的农业不仅早已处于全球化的时代,更处在一个大数据的时代,需要全球农业领域的研究者以更开放的视野和更积极的态度把握全球农业信息开放共享的时代契机,推动全球农业科研事业的进步,进而助力农业这一密切关系全人类生存和发展的基础产业稳步前进。