肖 敬, 刘 卉, 魏学礼, 陈竞平, 王 培, 孟志军
(1.首都师范大学信息工程学院,北京 100048; 2.国家农业智能装备工程技术研究中心,北京 100097)
随着智能农业、精准农业的发展,智能感知设备、移动嵌入式系统等物联网技术在现代农业中的应用逐步被拓宽[1]。通过使用各种自动化、智能化的监控设备和网络技术获取基于时空信息的农业环境数据[2]、农机作业数据[3]和作物生长数据[4],不仅可以有效降低人力消耗和人为因素对农业环境的影响,而且通过采用大数据分析,能够为科学种植、科学管理提供决策支持[5]。
目前,国内关于农业大数据的相关研究主要集中在农作物与土壤光谱分析[6]、农业经济类型划分[7]、农产品安全的监督和预警[8-9]等方面。随着移动互联网的发展,轨迹相关研究主要集中在交通数据[10]、动物迁徙数据[11]、用户出行数据[12]等方面的数据挖掘分析。针对农机运动轨迹数据的研究甚少。
本研究基于农机深松作业监管系统所记录的农机运动轨迹数据,采用时空立方体的分析方法,研究农机田间作业轨迹与道路行驶轨迹的分割算法,并采用马修斯相关性系数及正确率进行算法的量化评估。
农机深松作业是指用拖拉机等动力机械牵引深松机,打破犁底层坚硬土壤,通过疏松土壤而改善耕层结构以提高蓄水保墒和抗旱防涝能力的一种机械化整地技术[13]。在《全国农机深松整地作业实施规划(2016—2020年)》中指出,2016年全国规划实施农机深松整地1 000万hm2,2017年规划 1 100万hm2,2018、2019、2020年规划1 270万hm2。国家农业智能装备工程技术研究中心针对农机深松作业的监管需求研制了农机深松作业监管系统。
农机深松作业监管服务系统是基于物联网技术思想开发的,系统设计为4层架构:(1)感知层为安装在农机上的车载智能终端设备,用来获取农机作业状态数据;(2)网络层主要依托移动GPRS(通用分组无线服务技术)网络、移动3G(第三代移动通信技术)网络和Internet公网上传采集到的农机作业数据;(3)支撑层主要由中心服务器、应用服务器、数据服务器、数据库管理系统、基础地理信息管理软件和安全监控设备等组成;(4)应用层是基于Web浏览器的农机深松监管与服务软件系统,协助监管部门对深松作业进行综合管理与数据分析。
农机深松作业监管系统感知层的车载智能终端设备集成了GNSS(全球导航卫星系统)定位模块、GPRS数传模块及作业参数传感器等。通过解析GNSS模块的NMEA-0183语句及传感器输出语句,获取农机作业时间、经度、纬度、速度、作业深度等时空数据及作业属性数据。GPRS数据传输模块每隔4 s将上述监测信息回传到远程服务器。
农机田间作业速度一般在10 km/h以内,《中华人民共和国道路交通安全法实施条例》规定:拖拉机在宽阔、视野良好的道路上行驶时最高时速不超过30 km/h。农机田间作业和道路行驶的运动轨迹具有不同的时空分布特征。田间作业时,农机通常以较低的作业速度进行地块区域内时空往复运动,作业轨迹具有显著的时空聚类特征[14]。相比较而言,农机在道路行驶过程中,运动轨迹呈现离散的线性特征。依据农机运动轨迹的上述时空分布特征,进行田间作业与道路行驶轨迹分割方法的研究。
首先,解析农机运动轨迹数据,获取时空数据及作业属性数据;然后,采用通用横轴墨卡托投影(universal transverse Mercator projection,简称UTM),将GNSS大地坐标转换为平面坐标[15]。此外,还须进行异常数据清理。
GNSS设备存在精度、信号漂移等问题[16],因此在原始作业数据中存在异常位置数据。假定任意农机轨迹点的大地坐标P(lon,lat)满足下列等式:
lon∈[-180°,+180°];
lat∈[-90°,+90°]。
(1)
式中:lon为轨迹点的经度,°;lat为轨迹点的纬度,°。
根据式(1)对异常位置的农机轨迹点进行初步数据清理。初步数据清理不能完全清除位置漂移点,通过判断农机连续轨迹点运动速度,进一步清理异常位置数据。
若Pi与Pi+1为时序相邻的2个轨迹点,d(Pi,Pi+1)为轨迹点Pi与Pi+1的距离,t(Pi,Pi+1)为轨迹点Pi与Pi+1的时间间隔。则农机运动速度v(Pi)计算公式为
(2)
在农机正常行驶和作业过程中,其行驶速度不超过农机技术参数中最大速度阈值vmax,则有:
v(Pi)≤vmax。
(3)
通过设置最大速度阈值可以过滤掉漂移的轨迹点。
农机车载智能终端设备在加电情况下持续上报数据,即使农机处于停歇状态也会上传轨迹数据。这些停歇轨迹点会影响数据分类效率和效果,因此需要对农机停歇点进行数据清理。
(4)
式中:v(Pj)表示第i个轨迹点Pj的运动速度,m/s。连续轨迹点数量k可以通过经验值给定。
采用时空立方体模型,通过设置时空单元的轨迹点密度阈值,分割农机田间作业和道路行驶运动轨迹。
时空立方体(Space-Time cube,简称ST-Cube)是一种时空模型[16],由Hagerstrand于1970年提出[16],它采用二维坐标轴表示现实世界的平面空间,采用一维时间轴表示平面位置沿时间的变化,从而形成一个三维的立方体,详见图1。
在时空立方体模型中,时空单元是数据存储的基本单元,表现为以空间网格单元为底、以时间单元为高的规则长方体。在时空立方体中,沿时间维度划分的时间单位,记为Δt;在二维平面区域划分的网格单位,记为Δs,则Δs×Δt代表了1个三维空间体,即时空单元,记为Δc。在时空立方体中,为每个时空单元进行编码索引,可以实现快速遍历所有时空单元[17]。
采用时空立方体模型,可以显示三维时空下的农机运动轨迹。定义一系列时空单元,使得农机运动轨迹分布于时空单元中。
在图1中,时空单元Δc公式如下:
Δc=Δx×Δy×Δt。
(5)
式中:Δx和Δy组成时空单元的二维网格单位,可以按式(6)取值:
Δx=Δy=vmax×t。
(6)
式中:t为GNSS轨迹点上传的时间间隔,s,本研究的时间间隔为4 s。
时空单元的时间单位为Δt,如图2所示,应该保证农机在作业时有尽可能多的轨迹点落在时空立方体单元中,Δt应满足:
(7)
由公式(6)、公式(7)可得:
(8)
(9)
式中:v(Pi)为第i个轨迹点Pi的运动速度,m/s;n为轨迹点数量,个。
由于农机的运动速度不会高于最大行驶速度,因此包含运动轨迹的任意时空单元中分布着不止1个轨迹点。此外,由于农机田间作业速度和道路行驶速度存在差异,二者轨迹在时空单元中的分布密度不同,田间作业轨迹点分布密度高,而道路行驶轨迹点分布密度低。因此,通过设置时空单元的轨迹点密度阈值,分割田间作业轨迹和道路行驶轨迹。
农机田间作业时,时空单元的轨迹点分布密度公式如下:
(10)
为了分割农机田间作业和道路行驶运动轨迹,要保证农机在道路上以最大速度行驶时至少有1个点分布在时空单元内。因此,农机在道路上行驶时,时空单元的轨迹点密度ρwork>ρroad≥1(ρrood为农机在道路行驶时,时空单元的轨迹点分布密度)。
在时空立方体模型中,轨迹点分布密度满足:
ρ∈[ρwork,ρroad]。
(11)
为了达到更好的分类效果,时空立方体的密度间隔应该最大化[18],因此本研究分割密度取值见公式(12):
(12)
1975年生物化学家Matthews提出马修斯相关性系数(Matthews correlation coefficient,简称MCC),用于机器学的效果评估的正确率判断[19]。具体公式如下:
(13)
式中:TP为将正类预测为正类数;FN为将正类预测为负类数;FP为将负类预测为正类数;TN为将负类预测为负类数。MCC的取值范围在[-1,+1],其取值越接近+1说明分类的效果越好。正确率a也可表示为下式:
(14)
a取值在范围在[0,+1],其取值越接近+1,说明分类的效果越好。
在本研究中,对于农机田间作业与道路行驶轨迹分割方法,可采用马修斯相关性系数进行效果评估。在分割结果中,存在以下4种情况:(1)田间作业轨迹点被正确识别为田间作业轨迹点,用TP表示;(2)田间作业轨迹点被错误识别为道路行驶轨迹点,用FN表示;(3)道路行驶轨迹点被正确识别为道路行驶轨迹点,用TN表示;(4)道路行驶轨迹点被错误识别为田间作业轨迹点,用FP表示。
从2015年1月至2016年8月新疆塔城地区的农机深松作业数据中,随机选取8台农机作业轨迹作为样本数据集,进行田间作业与道路行驶轨迹数据分割试验。首先需要对样本数据进行异常位置及停歇点轨迹清理。数据预处理后获得干净的农机轨迹,构建时空立方体,进行农机田间作业与道路行驶轨迹数据分割,分割算法的参数设置见表1。基于时空立方体分割的ID8农机轨迹数据分布如图3所示。
为了评估分割方法的有效性和正确率,采用遥感卫星地图数据,叠加农机轨迹点数据,进行目视解译。以农机ID8为例,分割结果如图4和图5所示。图4和图5为同一区域的不同尺度遥感地图,其中图4的比例尺为1 ∶250,图5的比例尺为1 ∶125。分别统计TP、FN、TN、FP 4种情况下的轨迹点数量,从表2可以看出,道路行驶轨迹更容易被误判为田间作业轨迹(FP),并计算MCC和正确率。从表2还可以看出,分割算法的正确率均在95%以上,正确率的均值达到 97.98%,MCC的均值也达到82.10%。
表1 分割算法的参数
(1)本研究采用时空立方体模型,通过建立时空立方体密度与农机作业速度、机具幅宽和GNSS上传时间间隔等变量之间的定量关系,探讨通过时空立方体密度阈值分割农机作业轨迹与道路行驶轨迹。
表2 分割结果统计
(2)选取农机实际田间作业轨迹数据,采用遥感卫星地图数据目视解译法,验证轨迹分割算法的效果。结果表明,本算法正确率的均值达到97.98%,MCC的均值也达到 82.10%。在此基础上,可以通过研究农机田间作业轨迹计算地块面积与农机作业效率、重叠和遗漏量,可通过研究道路转移轨迹进一步分析农机作业调度问题,减少农机道路转移时间。