结合公民科学的 Kingdonia 协同工作平台的构建与应用

2017-03-07 00:12:29
数据与计算发展前沿 2017年4期
关键词:公民标本志愿者

中国科学院昆明植物研究所标本馆,云南 昆明 650201

引言

科学界普遍认同整合与共享生物多样性数据将会极大的促进生物多样性及其相关学科的发展,由此产生的“生物多样性信息学”已经发展成为一门全新的、前沿的交叉学科[1-5]。标本馆作为生物多样性数据的重要收集场所,一直以来都是各大生物多样性信息学平台最主要的数据贡献者之一[6-8],但是由于传统分类学的式微,与之紧密相关的标本馆随之受到了一定的影响,加之生物多样性及其相关学科的高速发展,也向标本馆提出了新的服务需求。这些快速的变化,导致传统标本馆必须寻求改变,以适应学科的发展。为此,中国科学院昆明植物研究所标本馆 (以下简称 KUN) 于 2013 年发起了一项内部革新计划 (以下简称 Kingdonia 计划):该计划旨在通过信息化的手段和公民科学的内涵,建立一个数据科学驱动的现代化植物标本馆,以最大限度的发挥标本馆在生物多样性数据富集方面的优势,满足未来学科发展的需要。

公民科学,是指由公众、科学爱好者参与,科学家提供支持和监督的科学活动。其在数据收集与探索、数据处理与分析、数据协同与共享等方面相比传统科研模式拥有非常明显的优势[9-12],因此十分适和与标本馆的工作模式进行整合,Kingdonia 计划结合公民科学的一些模式、理念和昆植所的学科特色,构建了一个生物多样性协同与共享平台。本文意在介绍和分享 KUN 在这一方面的一些实践及其所收获的经验和教训,以供国内同行参考。

1 建立公民科学基础

欧美国家在公民科学领域的理念和实践已经相当成熟,其不仅具备完善的志愿者体系,志愿者的规模同样相当庞大,单以 Zooniverse (https://zooniverse.org) 为例,目前在该平台注册的志愿者就达150多万之巨,而其志愿者涉及的学科不但多种多样,分工也是细致入微。相较而言,我国的公民科学尚处于起步阶段,虽然已有一些成功的实践 (eg. 中国自然标本馆,http://cfh.ac.cn;中国观鸟记录中心,http://birdreport.cn/) 但整体上与国外还有很大的差距[13];加之标本馆的工作相对小众,感兴趣的公众更是凤毛麟角,在这种情况下开展公民科学显然是不可能成功的。为此,KUN 在计划执行的早期便决定亲自培养和建立自己的志愿者队伍,以建立公民科学的基础,而这项工作一直坚持至今。

KUN 在志愿者培养方面,采取了循序渐进的方式。初期主要通过开通静态官方网站、微博 (http://weibo.com/caskun/)、微信订阅号等平台与用户建立接触渠道。这些渠道用于发布与生物多样性有关的植物科普知识、有趣的野外经历和见闻、各类标本馆工作片段、KUN 的一些动态新闻等内容。通过这些内容,消除了公众对植物标本馆的陌生感,并使其对植物标本馆的工作有了一些初步的了解,同时这一过程还为 KUN 树立了一定的公众形象。之后,标本馆开始了一些线下活动的尝试,比如招募科考志愿者 (eg.http://www.kun.ac.cn/yueban/show/id/40)、组织各类亲子活动 (eg. http://www.kun.ac.cn/yueban/show/id/34)、开设与植物和饮食文化相关的主题活动 (eg. http://kun.ac.cn/article/show/id/321) 等,这些活动借助前期建立起来的渠道,获得了广泛而快速的传播,并吸引了大量植物爱好者和公众的关注。尤其是科考志愿者招募,已经成为 KUN 开展野外工作的主要手段,其不仅极大的缓解了野外工作人力不足的窘境,还大大增强了 KUN 与专业植物爱好者之间的来往和交流,并为后续其他工作的开展奠定了良好的基础。

目前,KUN 已初步建立了自身的志愿者体系,这一体系涉及科普活动、野外工作、数据录入、数据梳理、数据收集、资料整理、标本拍摄、标本鉴定等各个方面的标本馆工作。而这些志愿者在经过短暂的培训之后,大多是可以胜任标本馆所分配的工作的。这可能与志愿者中,大部分为植物爱好者有关,这些植物爱好者不仅具备了相当水平的植物学知识,对于与植物相关的工作也更有兴趣,更富责任心。可见科学兴趣对于公民科学的发展还是非常重要的。

2 基于 Kingdonia 平台的协同与共享

2.1 Kingdonia 平台

成功的公民科学不仅需要良好的公众基础,还需要优秀的组织形式,借助高效的信息网络组织和开展公民科学活动是目前影响最为广泛的公民科学模式[14-16]。仅仅与标本馆业务相关的领域,就有涉及标本标签转录 (notefromnature, https://notesfromnature.org)、标本物候数据提取 (eg. CrowDcurio, https://crowdcurio.com)、自然观察 (eg. INatureList, http://inaturalist.org) 等多个独立专业的平台,每个平台都有精心设计的工具,以辅助和训练志愿者开展工作。

KUN 同样也为公众和志愿者开发了一套在线协同与数据共享平台 (Kingdonia 平台,来自独叶草Kingdonia uni fl ora 的属名) 。目前,Kingdonia 平台包括 Kingdonia 数据中心、Kingdonia 标本数字化系统、Kingdonia 数据处理工具包、Biotracks.cn、Biotracks自然记录 APP、KUN 官方门户网站六个组成部分。其中 Kingdonia 数据中心是一套构建于云端的数据存储、集中、整合与分析系统,而其他各部分则是基于 Kingdonia 数据中心开发的应用,这些应用是针对Kingdonia 计划的各种需求而专门开发的,涉及网页端和移动端各种设备,通过这些应用可以极大的提高相关工作的效率和效果。

2.2 标本数字化协同

标本数字化工作是目前各类植物标本馆最为重要的基础工作之一,然而至今国内该领域尚无相关的国家行业标准;同时,各标本馆的标本数字化能力参差不齐,尤其是标本数字影像的品质较差,非常影响数字标本的整体价值。为此,Kingdonia 计划于 2013年启动了相关标准的制定工作,以解决 KUN 当时标本影像质量不佳的问题,并与 2014 年初完成了《腊叶标本数字影像要求与拍摄指南》 (http://www.kun.ac.cn/article/show/id/220) 的撰写,这一标准的制定和实施,极大的提高了 KUN 数字标本影像的获取速度和影像品质,并为基于高品质影像的标本数字化工作的协同提供了必要的基础。

国内植物标本馆标本标签的信息转录工作主要是基于实物标本的。该模式不仅增加了标本损坏和遗失的几率,还限制了信息转录的场所和人数;而基于标本影像的信息转录模式[17,18]则完全没有这些问题。同时,基于影像的信息转录还有其他众多优点:比如可以利用扫码程序自动识别标本的条形码号,以减少人为因素导致的条形码重复;对于打印的标签,可以利用 OCR 和词法分析器辅助相关字段信息的录入以提高标本信息的转录效率[18-20],另外,还可以脱离场所的限制,利用网络分发标本转录任务,从而大大提高标本数字化的效率。

图 1 Kingdonia 平台的各个组成部分Fig. 1 Each component of Kingdonia platform

Kingdonia 标本数字化系统便是基于这一模式开展标本数字化协同的。因此,大量志愿者只需坐在家中,便可以参与标本馆的标本数字化工作,而标本馆少量的工作人员则可以从繁重的数据转录工作中解脱出来,转而负责数字标本的质量审核和志愿者的培训与问题解答,这种模式极大的提高了标本数字化速度,大大提高了 KUN 的标本数字化能力,以 2017 年上半年为例,KUN 就完成了高达 6 万余份的标本信息转录,而这一任务量以往则需要整整三年的时间。

除了利用网络化的任务分发机制提高标本数字化的速度,Kingdonia 标本数字化系统还为转录人员提供了各种辅助功能。比如 GPS 地址解析功能,可以及时判断录入的 GPS 数值与当前记录的行政区划是否匹配,以排除潜在的位置错误;采集信息库则可以使相同的采集信息只需被录入一次,就可以被同号标本引用,避免了信息的重复录入;物种名称库和行政区划表,可以提高志愿者对拉丁学名和行政地理区划的转录速度;条形码自动识别功能和严格的防重机制,降低了入库标本的数据匹配错误;影像跟随功能,让标本影像可以跟随用户录入的字段类别自动放大特定区域的影像,从而很大程度上解决了影像转录操控不够便捷等问题。这一系列的优化有效的提高了信息的转录速度,并降低了信息转录出错的概率。

2.3 Biotracks 自然观察:记录与共享

Kingdonia 计划的另一个核心任务是解决长期以来标本馆野外数据采集和整合十分困难这一顽疾。野外数据的采集,比如照片、GPS 轨迹、野外观测记录、标本采集记录等,都是通过不同设备和媒介获取的,这些数据的后期处理和关联常常非常耗时和繁碎,有些数据甚至还需要花费大量的人力重新电子化(比如纸质记录的标本采集信息);至于数据的整合,通常也是不充分的,比如大多数的野外照片,由于无法与标本采集信息有效的关联,最终只能沉睡在个人硬盘中,成为了事实上的死数据。为了彻底解决这些问题,KUN 设计、开发了 Biotracks 野外数字辅助系统。该系统重塑并优化了野外工作流程,同时极大的简化了数据的采集与整合。目前,Biotracks 不仅解决了 KUN 所关注的问题,同时还为同样受此困扰的科研人员、植物爱好者、志愿者甚至护林员提供了一种便捷的数据采集和管理的途径,这一途径吸引了不少用户加入到了 Biotracks 所提倡的记录与共享的活动之中,并驱动着 Biotracks 向着一个全新的自然观察记录平台发展。

Biotracks 通过“Biotracks 自然记录 APP”(http://biotracks.cn/app/biotracks,以下简称 APP) 进行各种记录,在野外环境下,用户可以通过智能手机随时随地拍摄照片、记录 GPS 轨迹,APP 会在一张电子地图上自动整合这些数据,并为用户生成个人观察地图。对于采集信息的记录,APP 会自动获取当前的经纬度、海拔、行政区划、采集日期,并能按照预设的格式编排采集号;采集信息同步之后,会与所有的采集队员共享,相关队员还可进一步编辑、修改和完善这些数据,因此非常有利于采集队员的野外分工协作。除此之外,APP 还为用户提供了物种照片检索、查看周边照片和轨迹等功能。

图 2 Biotracks 自然记录 BiotracksFig. 2 Biotracks APP

对于用户其他设备所记录的数据,比如相机、外置 GPS 设备,则可以通过 Biotracks.cn 网页平台上传到个人账户之中。Biotracks.cn 提供了比手机 APP 更为丰富的数据管理功能,用户可以在个人账户中进一步关联和完善各类数据,并可导出和下载这些数据。同时,Biotracks.cn 还是一个综合性的生物多样性数据平台,所有用户均可以通过网页端检索和查阅各类物种影像和物种分布等信息 (目前主要是植物),而这些数据主要来自于 Biotracks 用户公开共享的各类野外观察记录。

KUN 借助 Biotracks 的各类采集记录建立了标本数字化系统的采集信息库,采集人员只需将 APP 记录的采集信息同步至 Biotracks,其相关标本在数字化时,就可以经过简单的查找直接关联这些采集信息,而不必再次进行标签转录;同时,与这些采集信息关联的数字标本会推送给相关采集用户,通过这些数字标本,用户就可以进一步获得这些标本在标本馆的鉴定情况,从而为用户鉴定手中的野外照片提供了一种新的渠道。

2.4 开放与共享

Kingdonia 计划帮助 KUN 解决了标本数字化和野外数据采集与整合这两个核心难题。同时,公民科学基础的建立和信息化手段的介入,不仅重塑了 KUN的工作流,也使得 KUN 的整个运维理念和运维方式逐步变得更加开放。伴随着这些进步,KUN 官方门户也从最初简单的静态页面逐步发展成为一个功能和内容都比较丰富的站点 (http://kun.ac.cn)。

目前 KUN 的官方站点除了用于发布传统的图文消息,还提供了诸如活动约伴 (约伴,http://kun.ac.cn/yueban)、词条编辑 (百科,http://pfa360.org)、见闻分享 (行摄,http://kun.ac.cn/ fl ower) 等新的社会化的交互形式;与此同时,官方站点还开放了目前已有的数字标本数据、自然观察数据、植物科学画集、以及物种百科 (http://bio360.kun.ac.cn) 等数据集,并专门优化了界面操控,以尽可能的为用户检索和查阅这些数据提供良好的体验。当然,这些共享方式还比较简单,未来 KUN 希望能够借助数据科学进一步加深数据的价值,从而更好的将其反馈给社会。

图 3 Biotracks.cn 地图视图Fig. 3 Web view of biotracks.cn

图 4 KUN 数字标本页面 (http://db.kun.ac.cn/speciman/show/id/815828)Fig. 4 Digital specimen page

3 总结

3.1 公民科学的价值

目前较为成功的生物多样性信息学平台大体包括以下四种运作模式:国家平台模式[21],比如 AVH、iDigBio、CVH、NSII 等;跨地区合作模式,比如GBIF、Species 2000、BHL、The Plant List 等;数据发表模式,包括各类科研人员主动或被动的科研数据发布[22-24]以及公民科学模式。其中,公民科学模式是四种运作模式中不可控因素最多,难度最大的一种模式。然而,这种模式的重要性却日渐提高,这与它的优点是密不可分的:这种由公众推动的生物多样性信息学平台,不仅最大限度的拓展了人力、智力和数据的来源渠道;更为重要的是,它还是一个自下而上运作的平台,因此更为有利于形成高效、健康、可持续的平台生态链[25]。

昆植所基于 KUN 的公民科学实践也恰恰验证了这一优点。Biotracks 的用户绝大多数来自于高校、林业部门、研究院所、植物爱好者等群体,Biotracks.cn则在不足一年的时间内富集了逾 70 万张物种照片和 40多万个物种分布点,足见这一群体是愿意主动参与分享的。在志愿者队伍方面,这一现象更为明显,大部分志愿者不仅愿意参与平台分享,而且不少志愿者还有意愿进入相关领域深造,可见公民科学模式不单纯对科学项目有益,对于学科的发展也是有利的,因此,相比其他模式而言,公民科学的价值是深层次的。

3.2 态度决定成败

国内目前公民科学环境还不成熟,即便是科研人员,也并不都能理解共享的优势与风险。但作为公民科学的重要参与方,科研人员肩负着监督和引导的职责,如果本身不能准确把握公民科学的理念,这对于项目本身和参与项目的志愿者而言往往都是灾难性的。经常被忽视的是志愿者与项目本身并非雇佣关系,因此志愿者对于所分配的工作并没有绝对的义务。KUN 对志愿者工作的安排通常比较人性化,同时还会尽可能保证工作的多样性,并会根据志愿者的兴趣和特长在工作安排上有所侧重。其次,合理的补贴是必要的,毕竟每个人都有生存的需要,虽然不可能给予志愿者太多的酬劳,但是根据工作量给予适当的补贴既是对志愿者的一种尊重,也是一种鼓励。此外,还需要为志愿者的人身安全和科学实践负责,除了不能让志愿者参与危险的工作,还需要在工作和交流中给予志愿者正确的科学指导,从而帮助他们提升自己的科学素养。KUN 在项目实施过程中,还会考虑为有意愿的志愿者日后的工作和发展提供力所能及的帮助,时至今日这些志愿者中已有不少成为了该领域的研究生。因此,公民科学是一种以合作、互助为基本价值观的科研模式,这一价值观对于项目的成败是至关重要的。

3.3 设计、工具和培训的重要性

与生物多样性有关的公民科学往往十分重视个体的参与,相关平台的价值也极度依赖参与者的贡献。但与传统科学项目相比,公民科学涉及的人员众多,而且大部分参与者并非受过良好训练的专业人员。因此,为保证项目实施的效果,就需要精心设计工作流,以确保人员工作的有序性,KUN 标本数字化的网络任务分发模式以及 Biotracks 自然记录 APP和 Biotracks.cn 的分工就是这种设计的体现。针对特定环节开发专门的工具同样是非常重要的,比如KUN在标本数字化项目中,发现大部分转录人员对地理行政区划比较陌生,而这一点非常影响他们的转录速度,为了解决这一问题,我们设计了一个可扩展的行政区划表,转录时只需简单的搜索便可快速锁定所需的行政区划,从而大大提高了转录的速度。另外,有的时候必要的培训依然是必须的:很多第一次使用 Biotracks 自然记录 APP 的资深志愿者会专门询问应用的使用方法,而这一点起初被我们认为是不言自明的;同样,参与标本数字化的志愿者在阅读了操作文档之后,依然会有可能在转录数据时出现明显的错误,而简单的培训可以有效解决这些问题。

3.4 物种地理位置的敏感性

数据共享是生物多样性信息学平台最为重要的意义之一,KUN 借助昆植所在生物地理学领域的思维习惯构建了 Biotracks 野外数字辅助系统,并希望逐步将其建设为一个生物地理学领域的开放平台。然而,部分公众和同行担忧这种模式可能会助长民间的各类植物盗挖行为。这一担忧不无道理,而且并不局限于类似 Biotracks 这样的生物多样性地图平台,各类与物种有关的数据平台其实都应当重视这一问题。

生物多样性信息尤其是地理分布信息的大规模聚合和共享对于相关学科的发展具有极大的促进作用,这一点既是学科共识,也是学科发展的必然趋势[26-29]。而且它还可以为植物保护比如保护区的设定、入侵物种的监测等实际应用提供强有力的数据支撑。至于潜在的盗挖,在操作层面上会有很多更好的方式,事实上并非所有植物都需要保护,屏蔽重点植物的位置在技术上也并非难事,Biotracks 就采取了这一手段。这种方式不仅避免了潜在的破坏,也适应了学科的发展。但是由于国家保护植物名录更新缓慢,政府法令的颁布周期对于在线平台而言又具有很大的迟滞性,因此确有必要在科学圈内部起草和维护一份专门用于互联网物种地理信屏蔽的物种名录,Biotracks 也在往这一方面努力,但目前各个平台仍需要根据各自的判断去处理这一问题。

3.5 下一步的工作

自 2013 年至今,Kingdonia 计划已经完成了第一阶段的大部分内容,下一步 KUN 会将主要精力用于建立更加规范的志愿者体制、激励平台用户内容创作、提高平台服务深度和服务质量等方面的工作。同时,现有平台仍然还有很多需要改进和完善的地方。比如标本数字化的效率还有很大的提升空间,尝试引入 OCR 等技术或许可以进一步提升转录速度;目前标本数字化系统虽然具备了数字标本的管理能力,但还无法有效的管理实物标本,因此重塑实物标本管理的工作流,增加平台实物标本的管理能力也是十分必要的。除此之外,加强与所内其他相关部门的合作,更好的发挥标本馆的科研支撑职能也是目前的工作重点。

生物多样性信息学的高速发展为标本馆提供了难得的机遇,作为有着悠久历史的自然科学平台,标本馆未来也必将承载更多的学科责任,KUN 也希望Kingdonia 计划的实践能够为国内同行带来一些有价值的参考。

[1]Bisby FA. The quiet revolution: biodiversity informatics and the Internet [J]. Science, 2000, 289(5488):2309-2312.

[2]Canhos VP, Souza SD, Giovanni RD, Canhos DAL.Global Biodiversity Informatics: setting the scene for a “new world” of ecological forecasting[J].Biodiversity Informatics,2004,1:1-13.

[3]Bisby FA, Shimura J, Ruggiero M, Edwards J, Haeuser C. Taxonomy, at the click of a mouse. Nature[J],2002,418(6896):367.

[4]王利松, 陈彬, 强纪, 马克平. 生物多样性信息学研究进展[J]. 生物多样性,2010,18(5):429-443.

[5]马克平. 生物多样性信息学在中国快速发展[J]. 生物多样性,2014,22(3):251-252.

[6]Graham CH, Ferrier S, Huettman F, Moritz C, Peterson AT. New developments in museum-based informatics and applications in biodiversity analysis [J]. Trends EcolEvol(Amst),2004,19(9):497-503.

[7]强纪, 乔慧捷, 谢本贵, et al. 全球生物多样性信息网络(GBIF)介绍:组织、活动、项目和信息服务[C]. 全国生物多样性保护与持续利用研讨会, 2004.

[8]梁志敏. 普及生物多样性信息学技术——澳大利亚植物标本数字图书馆[J]. 数字图书馆论坛,2013,(10):63-67.

[9]Irwin A. Citizen Science, a study of people, expertise and Sustainable development [J]. Choice,1995,13(1):148.

[10]Silvertown J. A new dawn for citizen science [J]. Trends EcolEvol (Amst),2009,24(9):467-471.

[11]Bonney R. Citizen Science: A Developing Tool for Expanding Science Knowledge and Scienti fi c Literacy[J].Bioscience,2009,59(Dec 2009):977-984.

[12]Dickinson JL, Zuckerberg B, Bonter DN. Citizen science as an ecological research tool: Challenges and benefits [J]. Annual Review of Ecology & Systemati cs,2010,41(41):149-172.

[13]张健, 陈圣宾, 陈彬, et al. 公众科学:整合科学研究、生态保护和公众参与[J]. 生物多样性,2013,21(6):738-749.

[14]Hill A, Guralnick R, Smith A, et al. The notes from nature tool for unlocking biodiversity records from museum records through citizen science [J]. Zookeys, 2012,209(209): 219-233.

[15]Willis CG, Law E, Williams AC, et al. CrowdCurio: an online crowdsourcing platform to facilitate climate change studies using herbarium specimens [J]. New Phytol, 2017,215(1): 479-488.

[16]Willis CG, Ellwood ER, Primack RB, et al. Old Plants,New Tricks: Phenological Research Using Herbarium Specimens [J]. Trends EcolEvol (Amst), 2017, 32(7): 531-546.

[17]Harris KM, Marsico TD. Digitizing specimens in a small herbarium: A viable workflow for collections working with limited resources [J]. Appl Plant Sci,2017,5(4):1600125.

[18]Gries C, Gilbert E, Franz N. Symbiota – A virtual platform for creating voucher-based biodiversity information communities [J]. Biodivers Data J,2014,2:e1114-e1124.

[19]Drinkwater RE, Cubey RWN, Haston EM. The use of Optical Character Recognition (OCR) in the digitisation of herbarium specimen labels [J]. PhytoKeys, 2014, 38(38):15-30.

[20]Barber A, Lafferty D, Landrum LR. The SALIX Method:A semi-automated workflow for herbarium specimen digitization [J]. Taxon,2013,62(3):581-590.

[21]张丽丽, 黎建辉. 科研数据的开放:进展、模式与新探索[J]. 大数据, 2016, 2(6):25-33.

[22]Whitlock MC. Data archiving in ecology and evolution:best practices [J]. Trends EcolEvol (Amst),2011,26(2):61-65.

[23]Huang X, Qiao G. Biodiversity databases should gain support from journals [J]. Trends EcolEvol (Amst), 2011,26(8): 377-378.

[24]Huang X, Hawkins BA, Lei F, et al. Willing or unwilling to share primary biodiversity data: results and implications of an international survey [J]. Conservation Letters, 2012,5(5): 399-406.

[25]黄晓磊, 乔格侠. 生物多样性数据共享和发表:进展和建议 [J]. 生物多样性,2014,22(3):293-301.

[26]Wilson EO. A Global Biodiversity Map[J]. Science, 2000,289(5488): 2279.

[27]Jetz W, Mcpherson JM, Guralnick RP. Integrating biodiversity distribution knowledge: toward a global map of life [J]. Trends EcolEvol (Amst),2012,27(3):151.

[28]马克平. 亚洲植物多样性数字化计划[J]. 生物多样性,2017, 25(1): 1-2.

[29]Janicki J, Narula N, Ziegler M, Guénard B, Economo EP.Visualizing and interacting with large-volume biodiversity data using client–server web-mapping applications: The design and implementation of antmaps.org [J]. Ecological Informatics, 2016, 32(C): 185-193.

猜你喜欢
公民标本志愿者
昆虫标本制作——以蝴蝶标本为例
志愿者
环球时报(2022-10-14)2022-10-14 10:50:25
论公民美育
我是志愿者
少先队活动(2021年1期)2021-12-02 16:45:06
巩义丁香花园唐墓出土器物介绍
COVID-19大便标本采集器的设计及应用
为志愿者加油
商周刊(2018年15期)2018-07-27 01:41:28
我是小小志愿者
隐私保护也是公民一种“获得感”
十二公民
电影(2015年4期)2015-11-29 07:32:17