国家标本资源共享平台蔷薇科植物 标本记录采集地理偏差分析

2018-05-20 06:56王凯莉陈佳欣范雪
数据与计算发展前沿 2018年5期
关键词:名录物种标本

王凯莉,陈佳欣,范雪

1.安徽农业大学 资源与环境学院,安徽 合肥,230036 2.中国科学院植物研究所,北京 100093

引言

蔷薇科 (Rosaleae) 属种子植物门被子植物亚门双子叶植物纲蔷薇目,全世界共有 124 属 3300 余种,广布于全球,北温带地区分布较多[1]。蔷薇科植物一直备受各国学者的关注,我国约有 51 属 1000 多种,也是蔷薇科植物的分布中心[2]。蔷薇科植物具有很高的经济价值和生态价值,包括观赏价值、药用价值、食用价值以及大气污染物的检测治理,与此同时富饶的物种资源、较强的生态适应能力、多样化的景观效果以及深厚的文化内涵使得蔷薇科植物成为生产生活中必不可少的一部分,因此科研人员致力于蔷薇科植物方面的相关研究。例如,常见蔷薇科植物对大气中的氟化物吸收累计特征的研究中表明研究所选取的蔷薇科植物属于氟化物敏感物种, 特别是红叶李、桃等吸收累积氟化物的能力较强,基本适宜用于氟污染的监测和治理工程中[3];各地区蔷薇科植物木本资源的观赏及园林应用的研究结果显示为在各地区的城市景观建设与园林应用中,蔷薇科植物十分普遍。近些年来,记载物种分布的标本记录数据被广泛地应用于开展经典的生物地理学和保护生物学领域的研究,郭书贤等 (2007) 通过调查并结合有关文献和植物标本的资料,对青海几种重要蔷薇科野生果树资源进行了评价,并提出了开发利用以及保护的建议[4]。宋敏丽等 (2010) 根据历山植物野外实习调查、标本的采集和鉴定以及历山标本馆标本的相关资料,统计历山蔷薇科植物亚科、属、种的数量、生活型及地理分布,对历山自然保护区蔷薇科植物区系分布区类型进行划分[5]。

植物标本是研究各植物类群的起源,演化及时空动态的基本参考资料。采集人员在标本采集的过程中往往会因为地理条件、气候和个人的主观意识而出现采集偏差,导致采集地区分布不均匀,部分地区采集遗漏,或采集数量过少导致数据不完整,例如常见种和具有较高的科研、经济和观赏价值的植物在采集过程中会受到偏爱,这是物种分布数据库普遍存在的地理性采集偏差[6]。由于采集的地理偏差的存在,许多物种的地理分布信息没有完全记录[7];在小尺度上,地区的物种名录往往不完全的,把它称为名录不完整性。有相关的研究表明地理性的采集偏差会影响人们对生物多样性格局的认识,基于原始的物种分布数据得出的物种丰富度格局往往是不真实甚至是扭曲的[8-9]。其次,由于蔷薇科植物标本采集数据是其他有关数据分析的分析基础,所以数据的不完整性会使后续的研究结果产生误差。而大多数的研究人员是直接应用数据进行研究分析,很少会有人去对数据进行检测和评估,当前针对蔷薇科植物标本采集地理性偏差和采集完整性的评估研究较为缺乏。本研究以中国蔷薇科植物标本采集记录为研究对象,依据 (1) 标本记录数量;(2) 物种丰富度记录数;(3) 物种丰富度估计值;(4) 估计值与记录数之间的差值;(5) 物种累积曲线末端 10% 的斜率这五个方面对标本采集完整程度进行评估分析。拟解决植物标本记录的采集强度不均衡所带来的误差,减小植物采集数据对后期研究结果的影响,对指导野外标本的采集、生物多样性空间格局研究以及蔷薇科植物保护策略制定等领域有着重要的借鉴意义。

1 材料与方法

1.1 材料

1.1.1 数字化标本记录的获取与筛选

本研究中选取的蔷薇科植物数字化标本信息均从“中国国家标本资源共享平台 (National Specimen Information Infrastructure,”NSII (http://www.nsii.org.cn/) 以及其下的全部子平台系统数据库中获得 (图 1)。NSII 平台数据是实时更新的,开始处理数据时获取蔷薇科植物标本的详细信息约 605640 份,这些标本信息是由全国近 200 家单位提供。经过初步的筛选,选取了 474166 份蔷薇科植物的标本采集记录,包括序列编号、科名、种名、所属国家、省名以及县名。

为避免异常数据的干扰,进一步对初步筛选出的标本记录进行了校对,具体步骤如下:(1) 以数据库中唯一的序列编号为标准,对于重复输入的标本记录进行确认并删除保留唯一记录;(2) 植物学拉丁名校正,主要利用网站 (http://tnrs.iplantcollaborative.org/TNRSapp.html) 对蔷薇科植物标本拉丁名进行剔除错误数据与标准化,将查询标本拉丁名准确率结果显示在 0.9 以下的标本数据剔除,准确率在 0.9 以上的替换为正确拉丁名;(3) 对于采集于中国行政辖区以外的记录和栽培记录进行确认并进行删除;(4) 采集地点在自然保护区内的标本记录,根据电子地图查询自然保护区所在地,若完整保护区在某个县级地区内,将保护区名改为该县名。(5) 依据我国最新的行政区划图对县名进行校对,统一县的名称。部分旧县名经历行政区划的合并和重新划分,经查找其历史沿革后,确定最新的县名。

图1 蔷薇科植物标本馆藏分布统计图Fig.1 Institutional preservation of Rosaceae specimen

1.2 方法

1.2.1 物种丰富度与 Chao1 估计

对于某个地区而言,由于稀有种的存在和野外调查限制,被记录的物种数量一般要少于真实存在的物种数量。因此,利用物种丰富度估计模型 (species richness estimator) Chao1 来估计中国每个县真实的蔷薇科植物物种数量,采用 Chao1 指数评估每个生境类型中真实的蔷薇科植物物种丰富度。Chao1 在生态学中常用来估计物种总数,由 Chao (1984) 最早提出,Chao1 指数是用来反映物种丰富度的指标。它通过观测到的结果推算出一个理论的丰富度,这个丰富度更接近真实的丰富度。Chao1 值越大代表物种总数越多。它仅使用单数和双数的数量来估计未检测到的物种的数量。Chao1 指数是基于这样一种假设:在一个群体中随机抽样,当稀有的物种 (singletons) 依然不断的被发现时,则表明还有一些稀有的物种没有被发现;直到所有物种至少被抽到两次 (doubletons) 时,则表明不会再有新的物种被发现。Chao1 的估计是根据已有取样中物种个体数量的分布频率来进行的[10-11],当取样中每个物种都是两个或两个以上的个体时,Chao1 认为该地区的取样比较完全;而当取样中有物种只有一个个体时,Chao1 认为该地区仍有新物种有待发现。

Chao1 指数计算公式为:

其中,Sobs是观测到的物种数量,F1是取样中只有一个个体的物种数量,F2是只有两个个体的物种数量。

从公式可以得知当每个县中稀有种数量越多,根据 Chao1 认为该地区新物种未被发现的概率越大;而每个县中稀有种数量越少,根据 Chao1 认为该地区新物种未被发现的概率越小。一般来讲能观测到的物种丰富度肯定会比实际少,两者之间的差距通过对 singletons 和 doubletons 进行了合理的推算,分析chao1经典公式的后半段 (F1^2)/(2*F2) 可以得知 F1^2比2*F2 变化的速度更快。综上,Chao1是度量物种丰富度的指标,它和丰度、均匀度无关,但是它对稀有的物种很敏感。

1.2.2 标本采集记录完整性评估

用两种方法来评估蔷薇科植物物种在每个县的采集数据的不完整程度。第一种方法计算每个县观测的物种数量和 Chao1 估计的物种数量之间的差值来表示某一个县物种在该地的采集数据的不完整程度。第二种方法是利用物种累积曲线的弯曲程度来表示物种的不完整程度。物种累积曲线 (species accumulation curve,SAC) 用于描述随着抽样量的的加大物种增加的状况,它以抽样量作为横坐标,以物种数目作为纵坐标,将每一抽样量所对应的物种数目在坐标系中标出并连起来,就得到了一条曲线。在生物多样性和群落调查中,科研人员用物种累积曲线对抽样量是否充分进行判断以及对物种丰富度的估计。它记录了继续抽样下新物种出现的概率,是理解调查样地物种组成和预测物种丰富度的有效工具。抽样量可以用多种形式来表现,包括样本数量,个体数量,采集时间等等,本文抽样量是蔷薇科植物标本记录数。物种累积曲线具有以下特点:在一定的抽样范围内,随着抽样量的加大,群落中大量的物种被发现,物种积累速率较快,曲线表现为急剧上升;至某一抽样量,物种积累速率变的缓慢,曲线不再急剧上升而是趋于平缓。根据这一特点,可对抽样量是否充分进行判断,如果曲线一直急剧上升,几乎为直线,表明抽样量不足,需要增加抽样量; 如果曲线在急剧上升后变为一渐近线,上升舒缓,则表明抽样充分,可进行数据分析[12-14]。计算物种累积曲线末端 10% 部分的平均斜率来表示物种各累积曲线的弯曲程度,代表某个县名录的不完整程度。当斜率值近于 0 时,说明取样较为完整,而当斜率近于 1 时,说明取样十分不完整。该斜率值还意味着如果采集继续时,有新种增加到取样的概率。

定义一个域值 0.05,当斜率值小于或等于 0.05 (SAC slope ≤ 0.05) 时,认为县的名录较为完整,斜率值大于 0.05 (SACslope > 0.05) 时,认为名录不完整。由于客观原因,大多数生物多样性和群落调查无法做到全面系统的调查,只能是抽样调查。而抽样调查总是很难完全的反映实际存在的物种数目,对未知地区进行调查时往往缺乏全面准确的方法,通常是根据经验设计抽样调查的方案,却没有对抽样量是否充分进行考察,就不能确定调查结果是否能够真实反映物种存在的状况,其科学性就令人置疑。因此,需要通过物种累积曲线来判断抽样量是否充分。将名录不完整的县 (SAC slope > 0.05) 按照名录的不完整程度高低逐渐排除出去,每排除一些县,把剩下的县作为一个数据子集 (data subset),一直到只有名录完整的县 (SAC slope ≤ 0.05) 留下,这样一共得到了4个数据子集,分别略微不完整 (0.05 < SAC slope ≤ 0.30)、相对不完整 (0.30 < SAC slope ≤ 0.55)、十分不完整 (0.55 < SAC slope ≤ 0.80)、极其不完整 (SAC slope > 0.80)。

2 结果与分析

前期初步选取的 474166 份标本信息在统计分析之前,经过认真仔细的处理得到符合要求的数据是 370543 份,遍布 1164 个县,该标本数据所在县涵盖 32 个省,占全国省份的 94.12%。根据统计,标本记录数最多的是四川省、云南省,最少的记录数是台湾省 (图 2)。标本数量最多的县级市是四川省峨眉山市,有 12151 份标本 (图 3)。中国县级地区2377个,有 22% 的县 (n = 428) 没有标本记录。24% 的县 (n = 564) 标本数量少于 11 (图 4-A)。没有标本记录或标本记录数很少的县大多分布在青海省、甘肃省、新疆维吾尔自治区、西藏自治区以及内蒙古自治区等偏远地区。在中国还没实施针对县级水平的植物调查时。采集地点的选择一般是根据采集者的经验决定,采集主要集中在物种丰富度高的地区,如西南地区的四川省、重庆市、云南省和华南地区的广东省,广西省以及华中地区的湖南省,湖北省。而偏远地区的采集强度较低,如西北地区的新疆维吾尔自治区、青海省、甘肃省、宁夏和东北地区。

根据图表可知,蔷薇科物种丰富度较高的数据分布在西南地区。物种数量较多的县是四川省峨眉山市以及重庆市的南川县级市,每个县记录的物种数量最少为 10 个,最多为 481 个。四川、重庆一带的物种丰富度记录数与估计的理论值普遍高于其他地区,这是因为其中包含了自然保护区、风景区、四川大学标本馆、重庆自然保护馆等 (图 4-B,图 4-C)。利用每个县观测记录到的物种数量和 Chao1 估计的物种数量之间的差值来表示某一个县物种在该地的采集完整程度。物种丰富度的原始记录数与 Chao1估计数差值越大,说明该地发现稀有种的概率越大;原始记录数与 Chao1估计数差值越小,说明该地发现稀有种的概率越小。当差值大于 0 时,表明该地区标本采集不完整,还有未被发现的新物种等待着采集记录,需要对采集不完整的地区加大采集强度;当差值为 0 时,表明该地区的标本采集完整。通过对蔷薇科植物标本数据的统计分析得知采集完整的县主要分布在西南地区,分别是勃利县、大邑县、关岭布依族苗族自治县、偏关县、仁寿县、铜梁县、西吉县、资中县、达川市、桂林市市辖区、虹桥区。 (表 1,图 4-D)

县级名录不完整程度指数 (用物种累积曲线末端斜率值 SACslope 来表示) 在 0.006135 和 0.882353 之间变化,其中有 53 个县 (占数据统计分析县的 4.5%) 的斜率值小于或等于 0.05,可以认为是名录较为完整的县。这些完整的县所在的省份分别是黑龙江、重庆、浙江、新疆、西藏、四川、上海、陕西、山西、山东、青海、宁夏、内蒙古、江西、湖南、河南、河北、广西、广东、甘肃 (图 4-E)。而1111个采集不完整的县中,略微不完整 (0.05<SACslope≤0.30) 的县数远大于极其不完整 (SACslope>0.80) 的县,表明蔷薇科植物标本数据具有一定的利用价值,其可信程度相对较高 (图 5)。但科研人员在利用这些数据进行相关的生态分析时,也会造成结果的不准确性,所以蔷薇科县级的植物物种名录有待于完善,在以后的蔷薇科植物标本采集的方案制定中应完善略微不完整县的采集,加强极其不完整的县的采集工作。

图2 各省蔷薇科植物标本记录数Fig.2 Specimen records of Rosaceae plants in each province

图3 蔷薇科植物标本数量排名前 20 的县 (县级市,县级区)Fig.3 The top 20 counties of the Rosaceae plant specimens (county-level cities, county-level districts)

图5 不完整县的梯度图Fig.5 Graph showing the gradients of counties with incomplete collection

3 讨论

3.1 两种用于评估物种名录不完整程度方法的区别

使用两种方法来评估每个县物种名录的不完整程度。第一种方法计算县的记录物种数量和 Chao1 估计的理论值之间的差值来表示某一个县物种名录的不完整程度。这种方法必须先利用 CHAO1 模型估计每个分析地“真实”的物种丰富度。然而,对于采集数量很少的地区,物种丰富度的估计往往是不可靠的,为了克服这个问题,采用了第二种方法就是利用物种累积曲线末端斜率作为物种名录完整程度指数。该方法的优点是不需要估计地区“真实”的物种丰富度,因此对于取样严重不足的地区同样适用。

表1 各县蔷薇科植物的丰富度记录数、CHAO1 估计值、残差Table 1 Richness records, CHAO1 estimates, and residuals of Rosaceae plants in each county

3.2 县级植物物种名录不完整的可能原因

根据两种评估物种名录完整性的方法可知,蔷薇科植物标本记录的县级植物名录 95.5% (n =1111) 是不完整的。对于中国植物物种如此丰富的国家,在县级水平名录不完整程度高的原因可能是中国植物采集的历史相对较短和标本总体数量不足有关[15]。结合采集的地理偏差可知,在不同省份地区的采集强度不均衡,或是在同一省份的不同县级地区采集力度不一致,都会导致数据的不完整,因为采集不全面的影响,数据库只包括一部分植物标本,并且每年还有一些新类群被不断发现,说明目前的物种名录还是不完全的,而这些信息是生物地理和生态学研究的数据基础,也是评估物种生存状况和保护等级的重要依据[16-17]。现有数据得出的物种丰富度可能不是真实的。因此建议在使用物种分布数据之前应该评估数据的质量,以确保分析结果的可靠性。

4 结论

本研究选取国家标本资源共享平台收录的蔷薇科植物标本记录数据,对其进行一系列的处理,得知标本采集强度不均衡和采集地理偏差对县级名录的采集完整度有影响。根据标本采集地理偏差分析的结果可知现阶段需要将中国的蔷薇科植物每个物种的县级地理分布信息名录趋于完整,增加对新类群发现热点地区的采集。这意味着有必要开展针对县级的物种名录清查工作,逐渐完善县级的植物物种名录。因此,有必要继续增加在野外调查和采集和标本馆管理等方面的人力、物力和财力的投入,基于现有的标本采集信息,开展更细致深入的研究,找出采集薄弱的地区和类群,作为未来植物调查的重点。

猜你喜欢
名录物种标本
2022.3上榜派出所名录
3D打印技术在动物标本中的应用
巩义丁香花园唐墓出土器物介绍
COVID-19大便标本采集器的设计及应用
回首2018,这些新物种值得关注
同贺名录
电咖再造新物种
作者名录
教你制作昆虫标本
生产商名录