范屹帆,郭根威,吴 寅
(南京林业大学 信息科学技术学院,江苏 南京210037)
混交林是相对于纯林而言的一种林分,同属于人工林。在森林经营上,如果林分内80%以上的树种为同一树种,则该林被认为是纯林,如果该林分由多个树种组成,并且这些树种都未达到总数的80%,则视其为混交林。因此相对于纯林而言,混交林的优势在于物种更加丰富,对各类型资源如养分、水分、光照等的分配利用更高效[1]。对混交林的实时监测是林业物联网的关键。
LoRa信号传输距离远,网络易于建设和部署,低功耗,低成本,在农业和林业领域有着广泛的应用。中国无线电委员会,分配470 MHz为LoRa在中国的使用频段,考虑到使用的合法性,实验选用470 MHz的LoRa信号。其他频段的LoRa信号基本调制原理和470 MHz的类似,其特性也基本相同。研究人员对LoRa信号传播特性曲线进行过深入的研究,文韬等人[2]研究了橘园中无线传感网络节点不同的部署方式,无线信号的衰减情况受植被深度、距离及天线高度等因素影响,但实验环境是橘树盆栽,植株高度较低,树林的一些反射衍射影响较小。谭星等人[3]研究了433 MHz无线信号在桉树人工林中的传播特性,分析了树龄、树干和距离对信号传播的影响,但是实验环境是人工林,树木规则有序,实验环境较为单一和理想化,不能很好地适用于野外复杂多变的环境。
本文考虑了林业特征参数叶面积指数(Leaf Area Index,LAI)[4]、降雨率(Rain Rate)[5]和传播距离(Distance)对信号传播强度的影响。叶面积指数通常的定义为叶面积占土地面积的比值,描述了树林树叶的茂密程度,其大小直接反映了信号传播途中天然障碍的多少。雨衰是指电波进入雨层中引起的衰减,它包括雨粒吸收引起的衰减和雨粒散射引起的衰减,雨衰的直接表征就是降雨率,降雨率越大,信号衰减越大。距离参数直接反映节点和网关之间的远近,通常情况下距离越远,信号衰减越大。实验环境选择不规则排列的混交林,环境复杂,模型稳定性强。
实验设备包括一个LoRa的网关,多个LoRa节点和多个LAI采集传感器。其中LoRa网关和节点的设置参数如表1所示。
表1 测量设置参数
1.1.1 LoRa网关
实验采用RAK7249网关,如图1所示,它是一款基于低功耗广域网LoRaWAN协议的室外网关,采用防水外壳,支持以太网供电(Power over Ethernet,PoE),可连接标准的LoRaWAN终端并进行双向通信。网关通过标准的以太网将网关设备连接到网络服务器 (Network Server,NS),支持网络和防火墙功能。同时,RAK7249支持4G/LTE、GPS、WiFi等多种通信协议,实现数据上传。RAK7249内置OpenWRT操作系统,用户通过Web管理页面,页面可以灵活地配置网络参数和LoRaWAN协议参数。RAK7249可连接标准内置NS,无需用户在云端和本地部署NS,特别适合于行业应用中小型化的场景,节省数千元的服务器成本和研发投入,并且具有执行效率高、延时更短的优点。RAK7249集成RAK2247的LoRa集中器网卡,最多可扩展支持两张LoRa集中器网卡,实现16个上行接入通道和两个下行发送通道,保证了传输的稳定性。
图1 网关Fig.1 Gateway
1.1.2 LoRa节点
实验的数据采集节点运用RAK811,如图2所示,它是一款低功耗远距离LoRa技术收发模块,具有易用、小巧、传输距离远以及功耗低等特点,是一种非常好的远距离无线数据传输解决方案。RAK811模块支持最新的LoRaWAN的A类和C类技术协议规范,可以非常方便地接入广域网物联网平台。RAK811模块集成了Semtech的SX1276和STM32L芯片,并提供了UART接口让用户可以发送AT串口指令。林业特色传感器直接连接节点的串口,给节点发送数据,而后经节点转发到服务器网关。
图2 节点Fig.2 Node
1.1.3 LAI测量传感器——PAR光量子传感器
传感器设备使用了PAR传感器,如图3所示,用于检测自然光的光合有效辐射,这是植物进行光合作用的太阳辐射,设备使用简单,当有光照时,产生一个与入射辐射强度成正比的电压信号。由于其值的数量级很小,通过转接放大器,再利用单片机采集得到放大几百倍的电压值,两个PAR传感器组成了一个LAI测量设备。
图3 PAR传感器Fig.3 PAR sensor
1.1.4 网关内置服务器
RAK网关标准固件集成了消息队列遥测传输 (Message Queuing Telemetry Transport,MQTT) Bridge功能,让用户自行选择使用用户数据报协议(User Datagram Protocol,UDP)或MQTT协议转发数据到指定的NS服务器。上电后通过WiFi扫描连接对应网关的服务集标识(Service Set Identifier,SSID),连上后在网页界面登录网关。
采用LoRaWAN星型组网方式,如图4所示。
图4 组网布局Fig.4 Network layout
在混交林水平方向上每隔5 m布置一个节点,即距离LoRaWAN网关5,10,15,…,85 m的位置;垂直方向上,每隔0.5 m布置一个节点,分别在确定好水平位置的前提下,距离地面0.5,1,1.5,2,2.5 m位置布置节点。如图5所示,每个位置放置两个节点,分别连接PAR传感器,其中一个PAR传感器放置在树木底部脱离阴影区域,用来作为光合有效辐射的参照值;另一个PAR传感器放置在树木冠层下方,用来测量透过树木冠层的有效辐射,其采集传输过程如图6所示。
图5 节点布局Fig.5 Node layout
图6 硬件设备工作流程Fig.6 Hardware equipment workflow
网关布置在混交林的入口处,直立向上。上位机是一台笔记本电脑,通过无线WiFi连接网关的内置NS,如图7所示,用于实时监测数据采集。
图7 网关架设图Fig.7 Gateway erection diagram
在实际测量中,发射节点和接收网关的天线均保持垂直向上,在同一测量位置的同一高度,由于树叶、树枝和灌木丛分步的随机性和实时微小变化性(如风吹动影响叶子的正对面积等),传输信号的强度可能会发生很大的变化。因此同一个测量节点测量多组数据,当拥有足够大的数据集后,其特征将无限逼近信号的真实特性,而后再采用均值来代替大数据集。同一个位置节点的接收信号强度指示(Received Signal Strength Indication,RSSI)的平均值,用作后续数据分析的参照值。
路径损耗是电波在传输过程中由传播距离、传播环境产生的损耗,表示信号衰减的程度[6]。路径损耗会缩短信号的传播距离,降低信号的质量,不同环境下路径损耗指数的取值也有差异[7]。
对数-常态分布模型多用于无线电传播模型建设,其表达式为:
(1)
式中,PL(d0)为经过单位距离后的路径损耗,d0为单位距离,通常d0=1 m;PL(d)为经过单位距离d后的路径损耗;X0均值为0的高斯分布随机量,n为一个和环境相关的路径损耗指数[8]。
RSSI在常规正常使用情况下,可以将单位距离d0取1,使用简化的模型公式为:
RSSI=-(10nlgd+A),
(2)
式中,d为待测节点和参考节点之间的距离(单位:m);n为路径损耗指数,取值范围一般为2~4;A为待测节点和参考节点之间的距离d为1 m时,测得的信号基准功率[9]。考虑到路径损耗和RSSI之间的关系,本文利用RSSI这一更加直观且便于采集的特征量来分析470 MHz无线信号的传播特性。
实验采集到的LoRa节点传递到网关的RSSI,每个节点多次测量,测量后进行相应的数据清洗,将异常值去除,而后取平均值,其处理流程如图8所示。
图8 数据处理流程Fig.8 Data processing flow
根据处理后的数据,进行相应的绘图,测量结果显示,LoRa信号的RSSI数据分布,随距离的增加呈指数衰减,符合信号衰减的普遍规律,数据具有说服力,如图9所示。
(a) 秋冬季节
许多基于太阳辐射与植物冠层定量相互作用的间接非接触LAI估算模型都利用了植物在VIS光谱中的透光率特性。所使用的monte-saeki模型是一种简化的基于辐射的模型,它反演了用于评估LAI的著名的表示均匀混浊介质中辐射衰减的Beer-Lambert定律[10]:
(3)
式中,A为冠层上方观测到的无遮挡天空亮度,B为冠层下观测到的天空亮度,P为特定品种、特定场地项,即所谓的消光系数。它是由植物叶片特定光吸收特性的数量给出,并受如冠层结构及其他因素影响,此外,太阳高度对该系数影响显著。考虑混交林相关参数后,取值为1.24,将PAR传感器采集到的数据代入公式计算得出相应的LAI。利用式(3),即可对不同采集点收集到的冠层上下方的光强电压值进行计算,从而得到不同采集点处的LAI值。具体的LAI计算值如表2所示。
表2 不同采集点的LAI计算值
将基于LoRa的LAI传感器和专业HM-G20植物冠层图像分析设备的LAI测量结果进行对比和验证,结果表明,基于LoRa的LAI传感器的测量结果较为精准,并且更为便捷,具体结果对比如表3和图10所示。
表3 两种不同测量方法的结果对比
图10 不同测量方法的结果对比Fig.10 Comparison of results of different measurement methods
如图10所示,基于LoRa的LAI传感器和HM-G20植物冠层图像分析仪两种方法的LAI测量结果的拟合曲线是很接近的。同时,经计算得到其对应的均方误差为0.137%,因此,基于LoRa的LAI传感器测量结果较为精准,相对来说LAI的获取方式也更为便捷。
电波进入雨层中会发生衰减,包括雨粒吸收引起的衰减和雨粒散射引起的衰减。导致雨衰的直接因素就是降雨率,从气象台获取不同天数的降雨率数据,并比较降雨率不同时直接导致的RSSI变化,如图11所示。选取LAI=1.54,高度为1.5时,同一测量区域不同降雨率下,RSSI值的曲线走势图。结果发现,降雨率的值与RSSI成反相关。
图11 降雨率对RSSI的影响Fig.11 Impact of rainfall on RSSI
实验过程中,实验人员距离地面0.5,1,1.5,2,2.5 m位置布置节点,进行数据采集,从垂直方向上比较了RSSI值的分布情况,选取LAI=1.1,降雨率为0.3的点进行数据分析,如图12所示。由图可知,数据整体上随着距离的增加呈指数衰减,数据符合LoRa的分布,对比看出节点高度为1.5 m的RSSI整体最大,接收信号强度最佳。为方便后续建模,后续数据处理直接选取高度为1.5 m的数据。
图12 不同高度的RSSI值Fig.12 RSSI values of different heights
在人工神经网络应用当中,被采用最多的是前馈反向传播网络,即BP神经网络[11],典型的BP神经网络是一个含有隐含层的3层结构网络。BP神经网络的算法流程如图13所示。
图13 神经网络算法流程Fig.13 Neural network algorithm flow
图14 神经网络预测图Fig.14 Neural network prediction graph
支持向量机(Support Vector Machine,SVM)[13],也称为支持向量网络,是机器学习中获得关注最多的算法,它源于统计学习理论。从学术角度来看,SVM是最接近深度学习的机器学习算法。从实际应用来看,SVM在各种实际问题中的表现都非常优秀。它在手写识别数字和人脸识别中应用广泛,在文本和超文本的分类中举足轻重。人们还使用SVM来识别用于模型预测的各种特征,以找出各种基因表现结果的影响因素。
SVM回归预测基于不敏感函数及核函数算法进行计算,针对非线性回归,常通过非线性映射核函数(Φ)把数据映射到高维空间进行线性回归处理[14],其中惩罚系数(C)和不敏感损失函数(ε)两个参数最为重要,用于平衡误差和调整模型复杂程度[15]。通过网格搜索(GridSearchCV)工具设置参数选项C值(5,8,10,12,15,18,20)和ε值(0.01,0.005,0.001,0.000 5,0.000 1)进行逐步参数组合计算,根据训练集和验证集R2最为接近为原则,确定惩罚系数(C=10)和损失函数(ε=0.001)为模型外推的最优参数进行预测。SVM模型的构建和预测通过python中SVR模块实现,训练集占比80%,验证集和测试集各占10%,对RSSI模型进行分类预测,结果如图15 所示。
图15 支持向量机预测图Fig.15 Support vector machine prediction graph
随机森林是算法模型中的一种,是一种比较新的机器学习技术。随机森林是由Leo Breiman和Cutler Adele在2001年开发完成的一种数据挖掘方法,它是一种现代分类与回归技术,同时也是一种组合式的自学习技术[16]。随机森林是非常具有代表性的Bagging集成算法,它的所有基评估器都是决策树,分类树组成的森林称为随机森林分类器,回归树所集成的森林称为随机森林回归器。
对随机森林进行优化,需要对3个参数进行调参:max_features、n_estimators和min_sample_leaf。
(1) max_features
随机森林允许单个决策树使用特征的最大数量。增加max_features一般能提高模型的性能,因为在每个节点上,有更多的选择可以考虑。然而,这未必完全是对的,因为它降低了单个树的多样性,而这正是随机森林独特的优点。参数择优的范围:1~11,步长为1。
(2) n_estimators
森林中子树的数目,即基评估器的数量。基评估器的数量越大,模型的效果往往越好,选择尽可能高的值使预测更好、更稳定。参数择优的范围是:1~101,步长为10。
(3) min_sample_leaf
最小样本叶片大小。叶是决策树的末端节点。较小的叶子使模型更容易捕捉训练数据中的噪声,最小样本叶片大小很重要,一般选择50以上。参数择优的范围:50~100,步长为1。
在可承受的内存/时间内,参数调试采用十折用交叉验证法,交叉验证(Cross Validation,CV)法的原理是将原始数据分为两组:训练集和验证集,其次使用训练集的数据分类器,用验证集的数据来验证训练好的模型,从而获得能够评价分类器的性能指标-准确率(Accuracy)。因此,CV法能在一定意义上获取最优参数。常见的CV方法有Hold-Out Method 、K-CV和LOO-CV三种。寻得的最优参数如表4所示。
表4 最优参数表
选取合适的值,max_features=6;n_estimators=81;min_sample_leaf=73。训练集占比80%,验证集和测试集各占10%,预测结果如图16所示。
图16 随机森林预测图Fig.16 Random forest prediction graph
对比3个预测模型,其中通过两个特征值MSE和R2来显示模型的优良性,RMSE为均方根误差,R2为决定系数。
(4)
(5)
表5 3种模型结果对比
图17 实际接收信号强度值与各个模型预测值比较Fig.17 Actual received signal strength value is compared with the predicted value of each model
混交林占中国南方地带的大部分林地,对混交林的实时监测,信号传输是林业物联网的关键点。本文的工作总结如下:
① 验证了叶面积指数、降雨量和距离的参数变化对信号传输存在干扰,经过数据分析与比较,发现同等条件下,降雨量越大,RSSI越小;叶面积指数越大,RSSI越小;距离越远,RSSI越小。
② 本研究联合LAI数值、林场降雨率和传输距离,使用机器学习方法分析了LoRa信道在树林中的RSSI。通过对随机森林、BP神经网络和支持向量机3种学习模型的对比,发现随机森林的预测效果最为接近真实数据,模型拟合精度达92.2%,均方根误差为3.17,具有良好的稳定性。
③ 利用所设计的基于优化参数的随机森林算法测试了学校南大山实验林场中的LAI及其RSSI数值,预测验证结果表明精度可达90.8%,均方根误差为3.56,可正常满足LoRa节点林间通信的功率控制需求。
本文的研究内容也有一些不足的地方,基于当前的研究情况,未来可以从以下三点进一步完善:
① 路径损耗模型的输入参数有待扩充。LoRa信号在林中传播时,除了受到林间叶面积指数和降雨率的影响,也可能受到其他参数的影响。比如树干的胸径(DBH)、环境温度和大气相对湿度等,未来可以联合多个相关因素进行分析建模。
② 实验数据的获取方式有待完善。在实地测量LoRa无线信号的RSSI值时,尽管采取每隔5 m获取10个数值,并取其平均值作为测量点的RSSI值方法,但是教学主楼西侧的观赏林和南大山实验林场环境有一定的坡度,不能保证LoRa节点收发信号时直线放置,同时RAK7249网关设备数据波动较大,即使在同一个测量点采取平均值法,也很难避免出现较大的测量误差。因此在今后试验中对设备进行更新换代,或者使用其他能够定点实时测量数据的设备,这样既能方便获取数据,也能够减少误差。
③ 数据建模可以较为准确地推算出预测节点的RSSI值,后续还需通过得到的RSSI值,准确地定位出节点应该摆放的具体位置,实现混交林中的节点定位。