高静 刘一鸣 任芝花 陈京华
(国家气象信息中心,北京 100081)
作物生长发育数据是根据作物外部形态变化,记载的作物从播种到成熟的整个生长过程中各个发育期的出现日期、生长高度、植株密度、生长状况等特征性信息。作物的生长发育情况直接影响到产量的高低和品质的优劣。掌握作物的发育速度和进程、分析作物各阶段生长发育状况与气象条件的关系,为鉴定作物生长发育的农业气象条件提供基础[1-2]。规范化、高质量的农业气象类数据产品在关键农时农事气象服务[3]、作物产量预报[4-5]、气候变化研究[6]等领域的业务应用与科学研究中发挥着重要作用。
1981—2012年作物生长发育等农业资料以纸质报表为记录载体,服务形式以报表抄录为主。为提高服务时效,推进农业气象资料在气象业务和科学研究中的应用,2010—2014年期间国家气象信息中心开展了农业气象报表的数字化工作。由于数字化资料属于人工录入,存在格式不规范、质量情况不明确、用户使用不方便等问题,因而难以直接服务于气象业务和科研。本文选择1981—2010年小麦、水稻、棉花、花生、大豆五种中国主要作物的生长发育要素,通过梳理报表记录以及数字化过程中的不规范问题,结合《农业气象观测资料质量控制》标准以及地面质量检测[7-8]中相关方法,制定了针对该数字化资料的质量控制技术方法。通过对数据进行完整性检查、跨年值检查、观测时间检查、值域检查、内部一致性检查、人工核查等质量控制以及数据补录,建立了一套高质量的全国主要作物生长发育数据产品,从而保证数据产品在业务应用和研究分析中的可靠性。
用于建立数据集的资料来源于国家气象信息中心数字化的农业气象纸质年报表,要素包括两种粮食作物(小麦、水稻)和三种经济作物(棉花、花生、大豆)共五种主要作物的发育期始期、普期、末期、生长高度、总茎数、有效茎数。根据数字化农业气象年报表数据文件统计了历年农业气象观测台站数量(图1),可以看出,1981年全国各省开始上报农业气象观测纸质年报表,只有232个台站。此后开始增加,1990年增加至353个站。这与20世纪90年代初国家气象局对全国农业气象站网进行的调整有关。调整后台站数比较稳定,多数在344~356个。其中,小麦的种植282站,主要分布在华北、华中、西南、新疆等地区。水稻的种植有214站,主要分布在华南、华中、西南地区,在东北地区也有不少分布。棉花的种植有75站,主要分布在新疆、华北、华中地区。花生种植有31站,主要分布在华南、华北地区。大豆种植有75站,主要分布在东北、江淮流域,这与中国作物的地理分布一致[9-11]。图2是上述作物站点分布图。
图1 1981—2010年全国农业气象观测站数逐年变化图Fig. 1 The year-by-year numbers of agro-meteorological observatories for 1981-2010
图2 全国五大作物种植分布图Fig. 2 Map of five main crops planting distribution in China mainland
1)规范作物品种类型和发育期名称
根据《农业气象观测规范》将数字化中不规范的作物品种类型及发育期统一化。小麦分为冬小麦、春小麦。通过判断资料序列中是否有越冬开始、返青、起身期对二者进行区分。水稻分为一季稻、双季早稻、双季晚稻。大豆分为春大豆、夏大豆。花生分为春花生、夏花生。依据同一作物同一年播种期日期差值,若差值大于30 d,结合当地的种植制度判断是否为不同的品种类型。通过整理发现,不规范的发育期名称占总数据的比例为3.4%。
2)数据补录
共补录数据14927个。农业气象观测规范要求小麦、水稻乳熟期植株密度观测应观测总茎数和有效茎数两个值,但数字化工作录入时,仅录了其中一个值,因此对乳熟期植株密度进行了重新录入,1981—1993年数据量为687个,1994—2010年数据量7274个;补录1981—1993年五大作物的播种期数据共6966个。
3)规范资料序列
筛除重复值,补录缺测值为“999999”,校正存在明显错误的录入值,使得资料序列整齐。
4)规范跨年特征值
纸质报表中只记录观测日期,没有跨年特征值。在数字化成果数据中,使用了跨年特征值表示该作物跨年。在1981—1993年作物发育期中,把跨年发育期中前一年的日期+5000,如冬小麦出苗1018,则记为6018。在1994—2010年的资料中表示发育期跨年时,数字化成果数据记录中存在两种情况:①把发育期中前一年的日期+5000,例如冬小麦播种期1018,记为6018;②把发育期中后一年的日期+2000,例如冬小麦成熟期703,记为2703。两种特征值的共同存在导致在同一套数据出现两个参考系,容易引发误解。为了直观显示日期对应的年份,本文将跨年特征值去掉,将年份还原成作物发育期的真实年份.
5)规范数据单位
在不影响数据精度的情况下,统一规定生长高度的单位为cm,植株密度的单位为株/m2。
在评估数据集的报告中,常用实有率评估各要素项的完整性,用正确率、可疑率、错误率评估各要素项的质量状况。实有率、正确率、可疑率、错误率的计算方法分别如下:
式中,N为台站数;i表示第i个站,i=1,2,3,…,N;实有观测数据量i,第i个站某要素项非缺测的数据量;正确数据量i,第i个站某要素项数据质控码为“0”的数据量;可疑数据量i,第i个站某要素项数据质控码为“1”的数据量;错误数据量i,第i个站某要素项数据质控码为“2”的数据量;应观测数据总量i,第i站某要素项缺测数据量i与实有观测数据量i之和。
数据集文件的命名格式为:AGME_CHN_CROP_GROWTH-QC-*-YYYY.TXT。其中,AGME表示数据大类为农业气象和生态气象资料,CHN表示中国区域,CROP表示作物资料,GROWTH表示生长发育状况,以上均为固定代码。*表示作物代码,当*为RICE,表示水稻;*为WHEAT,表示小麦;*为COTTON,表示棉花;*为PEANUT表示花生;*为SOYBEAN,表示大豆。YYYY为年。
本文中用实有率评估数据集各要素项的完整性,对五大作物逐站逐年的发育期资料按《农业气象观测规范》[1]检查其发育期是否有值,若无记录,记为缺测“999999”。从表1可以看出,五大作物各要素中除了棉花的总茎数实有率较低之外,其他各要素完整性较好,实有率均73.9%以上,发育期普期、有效茎数的实有率超过了91.1%。因为棉花的总茎数在五真叶、吐絮、停止生长三个时期观测,其中停止生长期记录时存在不规范,观测人员记录时用拔杆替代,因此缺测率较高。
表1 作物生长发育各要素项数据完整性(实有率%)状况Table 1 Data integrity (% real rate) of growth elements for each crop
图3为从时间角度分析的五大作物发育期普期、生长高度、总茎数、有效茎数的实有率时序变化图。发育期普期、生长高度、总茎数在1993年之后呈现上升的趋势,这与1993年全国开始使用了新的观测规范,数据记录更加规范有关。生长高度实有率在1993年之后均超过90.0%,有效茎数的实有率在1982年之后均在96.0%以上。
图4是小麦、水稻、棉花、大豆各个发育期普期的实有率图,对作物各个发育期普期数据实有情况进行了分析。小麦的返青期实有率最低,仅为63.0%,其次是起身、越冬开始期,达65.2%、70.4%,原因是南方冬季日平均气温较高,小麦不越冬,因此不记载越冬、返青和起身日期。水稻的拔节期实有率最低,达75.3%,原因是1993年之前报表记录的不规范。其他发育期实有率均在98.5%以上。棉花的停止生长期实有率最低,仅为66.7%,因为该时期为棉花的最后一个发育期,很多台站记录时用拔杆期替代。大豆的鼓粒期和分枝期实有率较低,分别为63.1%和70.0%。鼓粒期的实有率较低是因为该发育期在旧观测规范里没有规定记录,而分枝期实有率较低的原因是观测员记录时把日期数据记在始期的位置上。其他发育期的实有率都较高,均在95.0%以上。
本数据集在制作过程中,对五大作物发育期、生长状况、生长高度、总茎数、有效茎数通过去除重复值、跨年值检查、站号及台站信息检查、观测时间检查、值域检查、内部一致性等方法进行了质量控制,对未通过上述检查的数据进行修正与标识。质控码含义:“0”为正确、“1”为可疑、“2”为错误、“7”为无观测任务、“8”为数据缺测、“9”为数据未进行质量控制。
图3 生长发育各要素数据实有率时序变化图Fig. 3 Variations of the data integrity rates of growth elements
图4 四种作物各发育期实有率统计Fig. 4 Real rate (%) in various growth periods for the four major crops
图5 发育期跨年检查错误率和实有观测站点数时序变化图Fig. 5 Variations of the next-year inspection error rate of puberties and of the number of observation sites
判断作物发育期播种期和成熟期是否为同一年,若为同一年,去除数据中的跨年特征值。图5给出了通过跨年值检查结果。发育期普期错误量2.4万个,错误率为13.5%。1994—2010年普期错误率最高值出现在1995年,错误率大于1.0%达13年。
检查台站号错误的方法:统计不同站号之间的距离,若距离为0,核查对应两站报表的经纬度信息,找出错误站号。经过统计及核查判断,发现35个台站号错误,部分结果见表2。
表2 台站号错误信息(部分数据)Table 2 Errors about station message (partial data)
检查经纬度错误的方法:根据同一台站相邻两年的经纬度计算其距离,若距离超过25 km,输出疑误信息,进一步核查该站前后年份报表,找出错误的经纬度信息。经过统计,17个台站纬度错误,12站台站经度错误,部分结果见表3和4。
表3 纬度错误的台站信息(部分数据)Table 3 Errors about the station latitudes (partial data)
检查观测场海拔高度错误的方法:计算相邻两年海拔相对差值,对差值绝对值大于1的台站进行核查,找出错误的海拔高度台站。经统计,海拔高度错
表4 经度错误的台站信息(部分数据)Table 4 Errors about the station longitudes (partial data)
表5 海拔错误的台站信息(部分数据)Table 5 Errors about the station elevations (partial data)
检查作物观测的时间,规定不在以下规定的时间范围或时间点(表6—8)的数据为可疑数据,其中缺测的数据,记为无观测任务“999998”。
表6 发育期始期观测的时期Table 6 Observations of the initial period for each developmental phases
表7 生长高度观测时期Table 7 Observational period of the growth height
作物观测要素值应进行值域范围检查,判断其是否错误或可疑。大于要素上限值的数据为错误数据、大于其最大值的数据为可疑数据;发育期日期大于等于“1231”为错误数据,具体域值详见文献[8]。
作物观测要素值未通过以下一致性检查时,相应数据为可疑数据。前一发育期观测日期应在后一发育期观测日期之前。发育期未跨年时,后一个发育期日期应出现在前一个发育期之后,若反之,为可疑数据。发育期出现跨年时,以自然年为界,前一年和后一年的发育期分别在当年判断。
表8 密度观测时期及项目Table 8 Observation periods and terms for the density
前一发育期植株生长高度应小于或等于后一发育期植株生长高度,若反之,为可疑数据。有效茎数应小于或等于总茎数,若反之,为可疑数据。
通过对各要素正确率的统计,得到各要素总正确率均在99.1%以上,数据质量较好。图6给出了作物发育期普期的正确率,发育期普期小麦185站正确率为100%,所有站的正确率均在95.3%以上;水稻137站正确率为100%,所有站的正确率均在96.2%以上;棉花72站正确率为100%,所有站的正确率均在97.4%以上;大豆45站正确率为100%,所有站的正确率均在92.4%以上;花生26站正确率为100%,所有站的正确率均在98.2%以上。
图6 作物发育期普期正确率分布图Fig. 6 Map of accuracy of the crop development period
生长高度小麦224站正确率为100%,所有站的正确率均在87.0%以上;水稻152站正确率为100%,所有站的正确率均在82.3%以上;棉花69站正确率为100%,所有站的正确率均在93.3%以上;大豆70站正确率为100%,所有站的正确率均在96.4%以上;花生29站正确率为100%,所有站的正确率均在85.7%以上。
总茎数小麦264站正确率为100%,所有站的正确率均在95.3%以上;水稻186站正确率为100%,所有站的正确率均在84.8%以上;棉花70站正确率为100%,所有站的正确率均在89.2%以上;大豆68站正确率为100%,所有站的正确率均在95.3%以上;花生30站正确率为100%,所有站的正确率均在96.3%以上。
有效茎数小麦272站正确率为100%,所有站的正确率均在92.5%以上;水稻209站正确率为100%,所有站的正确率除了松江站68.7%,其他都在85.7%以上。
从时间变化上分析(图7),发育期普期、生长高度在1993年之后数据正确率相比之前有了明显提高的趋势。发育期始期小麦、水稻、棉花、花生的准确率较高,大部分年份在99.5%以上。发育期普期小麦、水稻、棉花的准确率较高,也相对稳定,大部分年份在99.0%以上。发育期末期水稻、棉花、花生的准确率较高,大部分年份在99.0%以上。生长高度花生的正确率较稳定,大部分年份为100%。总茎数水稻、小麦正确率较稳定,均在99.0%以上。有效茎数的正确率变化较大,但均在99.0%以上。
图7 五大作物正确率时序变化Fig. 7 Variations of observation accuracy for five crops
该数据产品在农业气象服务中得到了广泛的应用,提升了气象为农服务能力,为作物各发育阶段的农业气象条件评估和产量预报等提供依据,更好地指导作物生产管理,同时为其他气象资料数字化成果研制积累了一定的经验,为气象档案现代化管理建设提供信息化数据基础[12]。以冬小麦资料为例,利用华北平原65个冬小麦农业气象观测站近30年来的发育期观测资料及同期逐日平均气温数据,将发育期分为播种-越冬、越冬-返青、返青-抽穗和抽穗-成熟四个阶段,采用线性回归方法计算各阶段发育期日数对温度变化的相对敏感性,得到不同发育阶段对温度的敏感性差异较大。
由图8可见,不同发育阶段的日数对温度变化的相对敏感性各不相同。其中,播种—越冬期相对敏感性的区域平均值为-0.040 d•℃-1,即温度每升高1 ℃,日数缩短4%。返青—抽穗期是冬小麦营养生长的主要阶段,各站对温度均较为敏感,区域平均值为-0.074 d•℃-1,即温度每升高1 ℃,日数缩短7.4%。抽穗—成熟期为冬小麦的生殖生长阶段,该阶段对温度较不敏感,温度每升高1 ℃,日数缩短4.2%。总体上,返青—抽穗期对温度最为敏感,其次是抽穗—成熟期。播种—越冬期对温度较不敏感。虽然营养生长期的敏感性仍强于生殖生长期,但二者之间的差距大为缩小。
图8 四个发育阶段的日数对温度相对敏感性的区域统计(:最大值和最小值;:第99和第1分位数;:上、中、下三横分别是上四分位数、中位数和下四分位数;:平均值)Fig. 8 The quantile statistics of the relative sensitivity to temperature for four stages
基于1981—2010年农业气象纸质年报表数字化成果,通过数据质量检测与规范化处理策略,包括数据完整性检查、跨年值检查、观测时间检查、值域检查、内部一致性检查、人工核查以及数据补录等过程,建立高质量的全国主要作物生长发育的长时间序列。
1)数字化过程中存在大量的作物品种类型及发育期不规范、播种期及植株有效密度缺录,新旧资料格式不统一,因此,对数据进行规范化处理是数据集形成关键的一步。通过整理,不规范发育期名称占所有数据比例为3.4%,补录数据14927个,其中播种期6966个,植株总茎数687个,有效密度7274个。
2)通过跨年值检查发现发育期始期错误量错误率为6.8%,普期错误率为13.5%,末期错误率为0.5%。发育期始期、普期、末期错误率最高值出现在1995年,始期出现在0.5%~0.6%的错误率达13年,普期错误率大于1.0%达13年。发育期末期数据错误率最低,均在0.1%以下。
3)对台站信息的检查,通过统计及核查相邻年份报表,对站号错误或观测任务变迁进行区分,共发现35个站号错误并进行更正。对于同一个站,其距离大于25 km以上,核查所有年份的经纬度信息,找出错误的经纬度,其中纬度错误的台站为17个,经度错误12个。相邻两年海拔相对差值绝对值大于1的台站进行核查,找出错误的台站有16个。
4)从作物各个生育期的实有率分析得出:小麦的返青期实有率最低,达63.0%,其次是起身、越冬开始期,达65.2%、70.4%,原因是南方冬季日平均气温高于0 ℃时,小麦不越冬,不记载越冬、返青和起身。水稻的拔节期实有率最低,达75.3%,原因是1993年之前的报表记录不规范造成记录不全。其他发育期实有率均在98.5%以上。棉花的停止生长期实有率最低,达66.7%,因为该时期为棉花的最后一个发育期,很多台站记录时用拔杆期替代。大豆的鼓粒和分枝实有率较低,达63.1%、70.0%,因为鼓粒期在1993年之前的观测规范里没有规定记录,分枝期的实有率较低是由于观测员记录时把日期数据记在始期的位置上,其他发育期的实有率都较高,均在95.0%以上。
5)作物发育期、生长状况、生长高度、总茎数、有效茎数的总实有率均超过了77.1% 。除了发育期末期和有效茎数以外,发育期始期、普期、生长高度、总茎数在1993年之后呈现上升的趋势,这与1993年全国开始使用了新的观测规范,数据记录更加规范有一定的关系。生长高度实有率在1993年之后均超过90%,有效茎数的实有率在1982年之后均在96%以上。
6)作物生长发育各要素正确率均在98.0%以上,数据质量较好。发育期普期、末期、生长高度在1993年之后数据正确率相比之前有了明显提高的趋势。发育期始期小麦、水稻、棉花、花生准确率较高,大部分年份在99.5%以上。发育期普期小麦、水稻、棉花的准确率较高,也相对稳定,大部分年份在99.0%以上。发育期末期水稻、棉花、花生的准确率较高,大部分年份在99.0%以上。生长高度花生的正确率较稳定,大部分年份为100%。总茎数水稻、小麦正确率较稳定,均在99.0%以上。有效茎数的正确率变化较大,但均在99.0%以上。
[1]国家气象局. 农业气象观测规范(上卷). 北京: 气象出版社,1993.
[2]马树庆. 现代农用天气预报业务及其有关问题的探讨. 中国农业气象, 2012, 33(2): 278-282.
[3]刘建美, 吴岵, 管薇薇. 浅析气象服务与农业服务间的关系. 农业与技术, 2014(9): 179.
[4]林忠辉, 莫兴国, 项月琴. 作物生长模型研究综述. 作物学报, 2003,29(5): 750-758.
[5]信乃诠, 程延年. 气候变化与我国作物产量. 中国农学通报,1995(1): 1-4.
[6]孙芳, 杨修. 农业气候变化脆弱性评估研究进展. 中国农业气象,2005, 26(3): 170-173.
[7]任芝花, 余予, 邹凤玲, 等. 部分地面要素历史基础气象资料质量检测. 应用气象学报, 2012, 23(6): 739-747.
[8]农业气象观测资料质量控制-作物(QX/T 293-2015).四川省气象局, 2015.
[9]梅方权, 吴宪章, 姚长溪, 等. 中国水稻种植区划. 中国水稻科学,1988, 2(3): 97-110.
[10]吕世霖, 程舜华, 程创基, 等. 我国大豆栽培区划的研讨. 山西农业大学学报, 1981, 1(1): 10-16.
[11]张承祥, 张勋利, 李矩琛, 等. 我国花生种植区划——Ⅱ生种植区划和商品基地. 花生科技, 1984(2): 14-19.
[12]刘熔熔, 封秀燕, 马仙妹, 等. 浙江省历史地面气象报表数字化处理和应用. 浙江气象, 2011, 32(2): 34-36.
Advances in Meteorological Science and Technology2018年1期