基于AS7263多通道光谱模块对草坪地物的分类与识别

2021-12-21 15:49郭鸿儒马燕蒲克俊
甘肃科技纵横 2021年10期
关键词:识别

郭鸿儒 马燕 蒲克俊

摘要:本文利用多通道光谱模块AS7263,收集与草坪相关地物的漫反射光譜数据,经归一化处理,通过对训练数据进行主成分分析和聚类分析,将数据分为4类,利用KNN算法对测试数据的进行识别与分类。其中对植物、土壤、红地砖和混凝土类的数据识别正确率分别为95.12%、87.05%、76.92%和90.67%。结果表明,多通道漫反射光谱结合KNN算法, 对于植物和地物的识别区分是可行的。

关键词:多通道光谱,漫反射,K值近邻算法(KNN),识别

作者简介:郭鸿儒 (1981.3),男,甘肃兰州,研究生, 高级工程师, 从事理化技术等方面研究。

资助项目:兰州市人才创新创业项目“基于UWB定位系统的草坪智能割草机器人” (2018-RC-38)、甘肃省高等学校青年博士基金项目(2021QB-082)资助。

光谱技术以无损性、实时性等特点,成为一种广泛使用的的分析技术手段。利用地面的反射光谱特征来识别地面物体,已广泛的应用于遥感环境监测等领域[1]。近年来,很多研究对农作物,杂草、药材等植物进行识别区分,其中有些包含对环境物体的区分[2-6]。通过光谱数据结合模式识别和其它机器学习方法,可以提高地物的识别和分类的精度与效率[7]。但是,这些研究大多使用的是通用光谱分析仪器,如红外分析仪器,高光谱仪等,不利于轻量化和微型化,难以进行二次开发,应用范围受到了极大地限制。光谱仪的进一步小型化和集成化已成趋势,出现了芯片级的光谱仪,其结构的简单性、便携性、可靠性和低成本,拓展了其应用的范围,使得光谱技术的广泛应用成为可能[7]。

本文利用便携式可见光-红外多通道光谱模块AS7263,设计了一款便携的光谱数据采集装置。通过收集一定波长草坪相关地物的漫反射光谱数据,并分类建立草坪植物和环境地物的光谱反射模型,利用KNN算法进行了识别和区分。

1 材料与方法

1.1 数据采集装置

数据采集装置由多通道光谱模块AS7263、Arduino Nano单片机、蓝牙模块及锂电池等,构成一个便携的光谱数据采集装置,其结构如图1所示。艾迈斯半导体公司(ams)的AS7263多通道光谱传感器,其将光干涉滤光片直接集成于CMOS硅芯片上,包含6个独立的通道,其光谱响应范围约为610-860nm(分别是:610 nm、680nm、730nm、760nm、810 nm和860 nm),其半峰宽 (FWHM)为 20 nm,涵盖部分可见光和近红外(NIR)光谱,可用于可见光-近红外光波长的光谱数据获取。

数据采集装置工作流程如下:AS7263传感器采集光谱数据之后, Arduino Nano单片机通过 I2C 接口访问传感器相应的寄存器获取采集的数据,单片机收到数据后,再经过 USART(串口)将数据发送给蓝牙模块,由蓝牙将数据发送给Android 手机App存贮,并进一步进行数据整理和分析。

1.2数据采集

草坪及地物光谱数据收集地点位于甘肃中医药大学和平校区校园内。采集时间为2020年8月7日,中午12至14时,天气晴天。数据采集时,传感器面向地面,高度距离被采集物体上部5-10cm,并水平随机移动收集漫反射数据。

采集样本:草坪草、三叶草、土壤(干和湿)、混凝土地面,石质地砖、湿地砖、石块路面和红色地砖等9类。每种样本采集100至150组数据。共采集到1400组数据。

1.3 KNN算法和数据处理

KNN(K-Nearest Neighbors)算法又称K值近邻算法,它是模式识别和机器学习中常用的算法之一[8]。就是给定一个训练数据集,对新的输入实例,从训练集中找到和新数据最接近的k条记录,然后根据它们的主要分类来决定新数据的类别。该算法涉及3个主要因素:训练集、距离计算和k值的大小。

数据处理如下:将采集到的数据分为训练集和测试集两部分,从各类别数据中,随机选出20组数据作为训练集,数据剔除异常数据后,经过归一化处理,作为KNN分类模型,测试集数据用来测试和验证方法。数据经过KNN算法计算与各个训练数据点的欧氏距离,将测试数据归入距离最短的训练集类别。

主成分(PCA)和聚类分析使用SPSS软件(版本v18.0)进行分析。

2 结果与分析

2.1多通道光谱数据

从图2为收集到的植物及地物的多通道漫反射光谱图,草坪和三叶草的漫反射曲线在610nm,680nm可见光波段反射比较少,在近红外波段760nm、810 nm和860 nm反射率急剧上升,形成了植物特有的“红边”特征谱图,这与其它地物在可见光和近红外波段反射有比较明显的差别。其它地物的漫反射曲线变化较为缓和,且曲线间波动差异较小。通过分析光谱曲线的差异将植物和其它地物的漫反射光谱区分开。

为了进一步研究光谱间的相关性,用主成分(PCA)方法和聚类方法分析变量之间的关系,结果如图3所示。PCA方法通过对数据多通道数据进行降维,选取主要的两个主成分(PC1,PC2)得到PCA载荷图。主成分分析的9组数据均为模型数据的平均值。从图3(左)中可以看出:湿土壤和干土壤为一类,分布在第一象限;红地砖单独分布在第三象限,为一类;混凝土地面、湿地砖、石地砖和石块路面、分布在第二象限,为一类;草地和三叶草为一类,分布在第四象限。聚类分析选用的聚类计算方法为近邻方法,聚类分析结果如图3(右)所示,结果表明:草地、三叶草聚为一类;红地砖单独为一类;湿土壤、干土壤和石块路面聚为一类,湿地砖、石地砖和混凝土地面,聚为一类。根据PCA和聚类分析结果,将训练数据归为四类,植物类、土壤类、红地砖类和混凝土类。

2.2 KNN算法的结果

以上述4类训练数据为KNN算法识别模型,对收集到的草地以及其它相关地物的漫反射测试数据进行识别与分类,统计各类数据的识别正确率。算法中k值对识别率的影响较大,根据k值的选择原则,避免过拟合的现象,尽量选择k值较小(一般为奇数)。通过优化和综合考虑,本文选用k值为3。

KNN识别率的结果如图4所示,可以看出,對于植物类识别能力较高,识别率达到95.12%,对于土壤类的识别率为87.05%,对于红色地砖的识别率只有76.92%,对于混凝土、石块等和混合类的识别率为90.67%。从结果可以看出,通过KNN算法识别,对于植物类识别能力较高,可将植物类和其它类别进行区分。对于其它3类,土壤类、红地砖类和混凝土类的识别和区分能力相对较弱,存在相互识别错误的情况,区分能力较低。对于混凝土类中尤其是混凝土、石块、地砖等地物,由于其组成成分多为混合物,还受地面尘土等环境因素的影响,造成表面漫反射光谱数据相互干扰,波动范围较大,识别率较低。

3 讨论

本文采集到的草坪地物数据中,植物的漫反射光谱数据与其它地物在可见光和近红外波段有比较明显的差别,其中包含了植物部分漫反射特征光谱。因此,通过识别该特征数据可以将植物和其它地物数据区分开。但是,对于地面其它类型的地物识别率较低,对土壤、混凝土、石块地砖等识别率较低。可能与环境物体其组成成分复杂、多为混合物,且分布不均匀、地面尘土等环境影响因素有关。此外,实验以太阳光作为光源,光谱会受采集地理位置、气象条件等因素的影响。进一步提高其它地物区分能力,需要更多的特征波长信息和进一步的环境影响因素研究。

参考文献

[1] 胡盈盈, 王瑞燕, 郭鹏涛,等. 基于近地光谱特征的玉米田间杂草识别研究[J]. 江苏农业科学, 2020, 048(008):242-246.

[2] 许岳飞, 金晶炜, 孙小玲,等. 基于反射光谱技术评价草坪质量模型的研究[J]. 草业学报, 2009, 18(004):256-259.

[3]李颖. 基于SVM的地面成像光谱数据田间杂草识别研究[J]. 遥感信息, 2014, 29(001):40-43,50.

[4]李婵, 王俊杰, 邬国锋,等. 基于叶片光谱特征的农业区域植物分类[J]. 深圳大学学报(理工版), 2018(3):307-315.

[5] 徐驰, 陈功, 杨红丽,等. 不同草坪草冠层反射光谱特征的比较研究[J]. 草原与草坪, 2010(02):62-65.

[6] 王胜, 常智慧, 韩烈保. 光谱反射在草坪草胁迫研究中的应用及前景[J]. 中国农学通报, 2012, 28(16).

[7] 王伟平, 金里. 芯片级硅基光谱仪研究进展[J]. 光谱学与光谱分析, 2020, v.40(02):7-16.

[8] 何晨阳,周孟然, 闫鹏程. KNN结合PCA在激光诱导荧光光谱识别矿井突水中的应用[J]. 光谱学与光谱分析,2016,36(7):2234-2237.

猜你喜欢
识别
科技文档中数学表达式的结构分析与识别
玉米常见病虫害的识别与防治
上市公司会计舞弊识别及防范
微表情识破谎言的发展与应用
法学意义上的弱者识别问题研究
上市公司会计舞弊的识别与治理
论犯罪危险人格的识别