基于总体抽样下子总体追加抽样设计的棉花种植面积遥感估算方法研究

2017-02-04 07:03:45胡永森施开分王长耀
河南农业科学 2017年1期
关键词:估计量对子总体

胡永森,王 力,施开分,周 巍,王长耀

(1.东华理工大学测绘工程学院,江西南昌330013;2.中国科学院遥感与数字地球研究所/遥感科学国家重点实验室,

北京100101;3.流域生态与地理环境监测国家测绘地理信息局重点实验室,江西南昌330013;4.国家统计局农村社会经济调查司,北京100826)

基于总体抽样下子总体追加抽样设计的棉花种植面积遥感估算方法研究

胡永森1,2,3,王 力2,施开分4,周 巍4,王长耀2

(1.东华理工大学测绘工程学院,江西南昌330013;2.中国科学院遥感与数字地球研究所/遥感科学国家重点实验室,

北京100101;3.流域生态与地理环境监测国家测绘地理信息局重点实验室,江西南昌330013;4.国家统计局农村社会经济调查司,北京100826)

针对遥感与抽样相结合的农作物种植面积估算方法中,子总体的作物种植面积估算需要新的抽样体系设计和样本野外调查等繁重工作,缺少基于总体下对子总体的作物种植面积估算的方法,以沙湾县、玛纳斯县和呼图壁县为总研究区,提出了基于遥感和PPS抽样相结合的总体抽样下子总体追加抽样设计的子总体研究区呼图壁县棉花种植面积估算方法,并以新疆建设兵团统计局公布数据为真值对其估算结果进行对比分析。结果显示,基于总体抽样下子总体追加抽样设计后,子总体研究区估计量的变异系数为0.023 3,远低于0.05,而追加抽样设计前变异系数为0.122 3,说明样本在该方法下的代表性得到极大提高。以新疆建设兵团统计局公布数据为真值进行对比发现,子总体研究区棉花种植面积提取精度达到94.2%,能够有效提取子总体中的棉花种植面积,同时避免了重新建立子总体研究区抽样体系所需要的人力、物力、财力等资源的消耗。

空间抽样;棉花种植面积;子总体;遥感

传统统计方式的统计结果具有一定的滞后性和局限性,难以满足人们对数据现势性的高要求[1-5]。目前,在遥感技术的支持下,结合空间统计学理论和经典统计抽样原理发展起来的空间抽样技术得到迅速发展,并被广泛应用到农情监测中[6-11]。美国在20世纪70年代进行了遥感与抽样相结合的“大面积作物估产计划(LACIE)”,80年代又开展了“农业和资源的空间遥感调查计划(AGRISTARS)”[12]。我国在吸收国外构造抽样体系的经验基础上,研究了国内不同区域尺度上基于遥感的空间抽样方法,进行了黄淮海平原小麦估产、南方水稻估产、全国棉花估产等一系列相关研究[13]。然而,在遥感技术支持下的大多数空间抽样体系的设计对子总体参数估计的考虑不够充分,往往需要重新建立关于子总体的抽样体系及新的调查样本来对子总体的参数进行估计。但是如果利用总体抽样体系中来自子总体的样本直接对子总体进行估计,经常会产生因样本过少代表性不强的情况,导致估计精度较差。因此,在前人研究成果的基础上,以棉花种植面积为例,提出基于普遍适用的遥感和PPS(probability proportionate to size samp ling)抽样相结合的总体抽样下子总体追加抽样设计的棉花种植面积遥感估算方法,旨在为改进现行棉花种植面积遥感测量方法对此类问题的处理提供参考依据。

1 材料和方法

1.1 数据来源及处理

对子总体参数估算所需数据主要来自两部分:总体中已有的来自子总体的数据和基于总体抽样设计下对子总体追加抽样设计的部分新样本数据。选择北疆具有代表性的棉花种植大县呼图壁县、沙湾县、玛纳斯县为总研究区(总体),以呼图壁县为待研究的子总体,以棉花种植面积为研究对象。根据总研究区内主要农作物春玉米、番茄及冬小麦等在物候历的差异,选择总研究区农作物易识别的关键期6月中下旬和9月中下旬等的多时相中分辨率遥感影像,通过时序NDVI数据进行农作物分类,得到总研究区各县的遥感影像分类图[14-16]。待研究子总体呼图壁县的中分影像分类图如图1所示。借鉴国际上先进的格网化空间抽样体系,对研究区划分格网组成抽样框并作为一级格网进行抽样获得一级样本。为了保证格网的独立性和代表性,要使其空间正相关性达到最弱,而格网越小,它的空间正相关性越弱。但同时,格网越小意味着要抽的样本越多,这样就会在后期调查中耗费大量的人力、物力、财力。结合当地种植结构和种植习惯,选择格网的大小为2.5 km×2.5 km。对抽中的一级样本采用高分辨率遥感影像进行覆盖,在一级样本内部随机抽取3个250 m×250 m的小样方作为二级样本,对其进行野外调查,以此对一级样本中的高分影像进行分类,得到样本中作物种植面积数据,以便后期反推时利用[17-21]。其中,中分辨率影像根据时间上可获取性采用了Landsat OLI/TIRS(OLI陆地成像仪)和环境与灾害监测预报小卫星星座,高分辨率影像采用高分一号2 m的全色影像和8 m的多光谱影像融合得到。

1.2 子总体研究区棉花种植面积估算方法

在总研究区的棉花种植面积调查中采用了基于遥感和PPS抽样构建的空间抽样体系,在这种情况下对于总研究区中的子总体研究区来说,子总体的棉花种植面积估算需要新的抽样体系设计和样本野外调查等繁重工作。为解决这一问题,提出采用基于总研究区抽样体系下对子总体研究区进行棉花种植面积估算的方法。而通常总体抽样设计下来自子总体的样本单元较少,会对子总体中参数估计量的精度产生较大影响,甚至精度太低导致数据不能用[22-26]。因此,有必要对子总体追加抽样设计,增加样本量,即基于总研究区已有空间抽样体系和数据并对子总体研究区追加抽样设计的方案来对子总体研究区棉花种植面积进行估算。本研究总体所用空间抽样方法为PPS抽样,根据前人在统计抽样领域的相关研究结合本研究所用抽样方法,对总体空间抽样设计下子总体进行追加抽样设计,并对追加后子总体估计量的性质进行分析[27-34]。对子总体研究区棉花种植面积的估算主要分为以下3个阶段:(1)对总研究区中已有的来自子总体研究区的样本的利用;(2)基于总研究区下对子总体研究区追加抽样设计;(3)结合总研究区数据和子总体追加抽样设计数据对子总体研究区棉花种植面积进行估算。

(1)对总研究区中已有的来自子总体研究区样本的利用。假设总体单元集为Ω,子总体的单元集为ω,总体的样本集为S,子总体的调查指标值为Xi,将a记为对子总体追加抽样设计前总体样本量n中来自子总体的样本单元数。则子总体总值的估计量的无偏估计见公式(1),子总体总值估计量方差的无偏估计见公式(2)。

其中,M0为总体的单元规模之和,χi为子总体样本单元的观测值,χ代表样本集S与样本集ω的交集中样本单元的观测值的总体均值。

(2)基于总研究区下子总体研究区追加抽样设计。在PPS总体抽样设计的基础上对子总体研究区呼图壁县进行追加抽样设计。假设利用不等概率系统抽样抽取容量为b的样本,将此样本集记为S′,且S′∈ω。则第i个子总体总值的无偏估计量见公式(3),第i个子总体总值的无偏估计量的方差的无偏估计见公式(4)。

(3)结合总研究区数据和子总体追加抽样设计数据对子总体研究区棉花种植面积进行估算。为充分利用基于总体抽样设计下已有的a个来自子总体的样本和子总体后期追加的b个样本,以给出精度较高的子总体估计量,对二者采用加权估计来得到子总体最终的估计量。假设:

则可以推出:

因此,基于追加子总体抽样设计和总体抽样设计的子总体估计量均没有加权估计量的估计精度高。然而,在实际情况中无法获取,所以也是未知的。利用已有数据对进行估计,可以取:

2 结果与分析

在对子总体追加抽样设计前,由研究区子总体样本分布图(图2)可知,总体中有20个样本来自总研究区子总体呼图壁县。基于这些样本测算子总体简单估计量的变异系数,得到变异系数为0.122 3。该数值远大于变异系数要小于0.05的精度要求,说明针对子总体来说样本的变异程度很大,代表性低,需要追加抽样设计。在追加抽样设计时,以子总体的中分影像数据为真值,在基于已有的来自总体的子总体样本的基础上增加样本,使其变异系数达到要求。通常样本越多,越接近普查,变异系数越小。但在实际操作中,追加抽样设计不仅要基于统计抽样原理,还要依据抽样经验及考虑人力、物力、财力等要求(如:调查经费的限制,研究区地广人稀,样本不易查找等)[35-37],平衡各方因素最终确定增加的样本量。综上考虑,在本研究区子总体追加样本量为10的抽样。抽样后,对于每个新抽一级样本依据前述的总体样本调查方法进行野外调查,获得一级样本内的棉花种植面积数据。

3 结论与讨论

在研究区子总体追加抽样设计前,来自子总体的已有估计量变异系数为0.122 3,说明样本变异程度大,代表性低。追加抽样设计后估计量的变异系数为0.023 3,远低于0.05,可以看出样本在该方法下的代表性得到极大的提高,这为后期良好的反推精度打下基础。对比新疆建设兵团统计局公布数据,本研究提出的基于总体抽样下子总体追加抽样设计的棉花种植面积估算方法的提取精度达到94.2%,反推效果较优。但是,在子总体研究区追加抽样设计时,样本增加量没有事先的理论指导,需要根据人为经验增加样本后再计算本研究所提估算方法的精度评价指标的变化情况,以进行不断地尝试和调整来达到精度的要求,最后根据实际情况进行最终调整。这样造成了大量重复性工作和不必要的麻烦,如果可以引入统计学等相关学科领域中的理论方法,在人为把控增加的样本数量之前,基于精度要求给出样本增加量的范围作为参考,可以直接结合实际情况进行样本增加量的最终确定,避免重复性工作。同时,由于本方法仅在几个县级区域进行了试验,是否可以推广到省级等大区域以及种植结构较为复杂的地方还需要进一步探讨。

[1] 张锦水,潘耀忠,胡潭高,等.冬小麦种植面积空间抽样效率影响因子分析[J].农业工程学报,2009,25(8):169-173.

[2] 许青云,杨贵军,龙慧灵,等.基于MODIS NDVI多年时序数据的农作物种植识别[J].农业工程学报,2014,30(11):134-144.

[3] 黄青,唐华俊,吴文斌,等.农作物分布格局动态变化的遥感监测——以东北三省为例[J].中国农业科学,2013,46(13):2668-2676.

[4] Pradhan S.Crop area estimation using GIS,remote sensing and area frame sampling[J].International Journal of Applied Earth Observation and Geoinformation,2001,3(1):86-91.

[5] 陈军,陈晋,宫鹏,等.全球地表覆盖高分辨率遥感制图[J].地理信息世界,2011,9(2):12-14.

[6] 李刚,杨粉团,姜晓莉,等.遥感技术在玉米栽培中的应用研究进展[J].玉米科学,2010,18(5):149-152.

[7] 焦险峰,杨邦杰,裴志远.基于分层抽样的中国水稻种植面积遥感调查方法研究[J].农业工程学报,2006,22(5):105-110.

[8] Wang J F,Liu J Y,Zhuan D F,et al.Spatial sampling design formonitoring the area of cultivated land[J].International Journal of Remote Sensing,2002,23(2):263-284.

[9] 李连发,王劲峰,刘纪远.国土遥感调查的空间抽样优化决策[J].中国科学(D辑:地球科学),2004,34(10):975-982.

[10] 朱寿东,刘慧平,冯徽徽,等.基于时间序列影像的中观尺度农作物长势监测采样方法[J].农业工程学报,2012,28(2):127-133.

[11] 刘海启.大尺度耕地变化监测的遥感抽样方法研究[J].农业工程学报,2001,17(2):168-171.

[12] 黄青,王迪,刘佳.农情遥感监测中空间抽样技术研究现状与发展趋势[J].中国农业资源与区划,2009,30(2):13-17.

[13] 王乃斌.中国小麦遥感动态监测与估产[M].北京:中国科学技术出版社,1996.

[14] Wang J F,Zhuang D F,Li L F.Spatial sampling design for monitoring the area of cultivated land[J].International Journal of Remote Sensing,2002,13(2):263-284.

[15] 邬明权,杨良闯,于博,等.基于遥感与多变量概率抽样调查的作物种植面积测量[J].农业工程学报,2014,30(2):146-152.

[16] 玉苏普江.艾麦提,买合皮热提.吾拉木,玉苏甫.买买提,等.基于多时相HJ卫星的渭干河-库车河绿洲主要农作物种植信息提取[J].中国农业资源与区划,2014,35(5):38-43.

[17] 巢宁佳.遥感影像监督分类[J].江西测绘,2007(4):63-64.

[18] 欧文浩,苏伟,薛文振,等.基于HJ-1卫星影像的三大农作物估产最佳时相选择[J].农业工程学报,2010,26(11):176-182.

[19] 贾坤,李强子,田亦陈,等.遥感影像分类方法研究进展[J].光谱学与光谱分析,2011,31(10):2618-2623.

[20] 刘克宝,刘述彬,陆忠军,等.利用高分辨率遥感数据的农作物种植结构提取[J].中国农业资源与区划,2014,35(1):21-26.

[21] 管珍,曹广超,易俊柱.面向对象的遥感影像分类研究[J].科技创新导报,2010(34):8-10,12.

[22] 杜子芳.抽样技术及其应用[M].北京:清华大学出版社,2006.

[23] 冯士雍,施锡铨.抽样调查——理论、方法与实践[M].上海:上海科学技术出版社,1996.

[24] Cochran W G.Sampling techniques[M].New York:John W iley and Sons Ltd,1997.

[25] 谢邦昌.抽样调查的理论及其应用方法[M].北京:中国统计出版社,1998.

[26] 金勇进,杜子芳,蒋妍.抽样技术[M].北京:中国人民大学出版社,2012.

[27] 李金昌.应用抽样技术[M].北京:科学出版社,2015.

[28] 俞纯权.PPS抽样下子总体参数的估计[J].统计与决策,2006(18):14-15.

[29] 王松桂,程维虎,高旅端.概率论与数理统计[M].北京:科学出版社,2000.

[30] 冯士雍.抽样调查应用与理论中的若干前沿问题[J].统计信息论坛,2007,22(1):5-31.

[31] Li L F,W ang JF.Integrated spatial samplingmodeling of geospatial data[J].Science in China,2004,47(3):201-208.

[32] 王迪,周清波,陈仲新,等.玉米种植面积空间抽样调查方案优化设计[J].农业工程学报,2014,30(8):117-125.

[33] 刘国栋,邬明权,牛铮,等.基于GF-1号卫星数据的农作物种植面积遥感抽样调查方法[J].农业工程学报,2015,31(5):160-166.

[34] 朱爽,张锦水.面向省级农作物种植面积遥感估算的分层方法[J].农业工程学报,2013,29(2):184-191.

[35] 刘建红,朱文泉.耕地变化空间抽样调查方案的精度与效率分析[J].农业工程学报,2010,26(10):331-336.

[36] 宋子轩,冷燮,陈瑶瑶.概率抽样条件下样本代表性事后评估方法探讨[J].统计研究,2012,29(7):96-100.

[37] 胡莹瑾,崔海明.基于RS与GIS的农作物估产方法研究进展[J].国土资源遥感,2014,26(4):1-7.

Study on Remote Sensing Estimation of Cotton Planting Area Based on Additional Subpopulation Sampling under Overall Spatial Sampling Design

HU Yongsen1,2,3,WANG Li2,SH IKaifen4,ZHOU Wei4,WANG Changyao2
(1.Faculty of Geomatics,East China Institute of Technology,Nanchang 330013,China;2.Institute of Remote Sensing and Digital Earth,Chinese Academy of Sciences/The State Key Laboratory of Remote Sensing Science,Beijing 100101,China;3.Key Laboratory ofW atershed Ecology and Geographical Environment Monitoring,National Administration of Surveying,Mappingand Geoinformation,Nanchang 330013,China;4.Rural Socio-economic Survey Department of National Bureau of Statistics,Beijing 100826,China)

In the method of crop acreage estimation based on the combination of remote sensing and sampling,the estimation of the parameters of the subpopulation requires a new samp ling system design and the large work load of a field survey,the crop p lanting area remote sensing measurementmethod based on additional subpopulation sampling under overall spatial sampling design was lack.This paper took the Shawan county,Manasi county and Hutubi county as the research areas,and put forward a cotton planting area remote sensing measurementmethod based on additional subpopulation sampling under overall spatial sampling design with remote sensing and probability proportionate to size samp ling.Finally,the data of cotton growing area released by Bureau of Statistics of Xinjiang Construction Corps were compared with the results of the sampling estimation.The results showed that the coefficient of variation of estimator of sub-population in the study area was 0.023 3 after the additional sampling design,far below 0.05;but before the additional samp ling design,which was 0.122 3,illustrating that the representative of the samp le under the method had been enhanced greatly.Compared with the data released by Bureau of Statistics of Xinjiang Construction Corps,cotton p lanting area extraction accuracy of subpopulation in the study area reached 94.2%.Thismethod could extract the cotton growing area of subpopulation effectively;at the same time,it could avoid the waste of human,material and financial resources and other resources needed to reestablish the sub population in the study area sampling system.

spatial samp ling;cotton p lanting area;subpopulation;remote sensing

TP75

A

1004-3268(2017)01-0149-05

2016-06-20

国家统计局新疆棉花种植面积遥感调查项目;国家自然科学基金项目(41371358);国家863计划项目(2014AA 06A511);国家科技重大专项(14CNIC-032079-32-02)

胡永森(1990-),男,河南周口人,硕士,主要从事农业遥感方面的研究。E-mail:1042202325@qq.com

猜你喜欢
估计量对子总体
用样本估计总体复习点拨
2020年秋粮收购总体进度快于上年
今日农业(2020年23期)2020-12-15 03:48:26
外汇市场运行有望延续总体平稳发展趋势
中国外汇(2019年6期)2019-07-13 05:44:06
在上山的路上(外二首)
飞天(2019年6期)2019-07-08 03:40:25
文化滋养文字 情境创生情趣
——《古对今》教学活动设计
对学学习在数学总复习中的作用
直击高考中的用样本估计总体
浅谈估计量的优良性标准
在春联里徜徉
资源导刊(2016年1期)2016-03-17 11:20:20
基于配网先验信息的谐波状态估计量测点最优配置
电测与仪表(2015年6期)2015-04-09 12:00:50