黄劲潮
(龙岩学院 继续教育学院,福建 龙岩 364000)
基于广义回归神经网络的薄荷属植物的分类识别
黄劲潮
(龙岩学院 继续教育学院,福建 龙岩 364000)
薄荷属植物易杂交以致多型性现象严重,对于薄荷属植物的分类主要采用分类检索表法或数量分类法等,但这些方法花费的时间与物力较大。选取了薄荷属植物类别区分的一些强相关属性作为训练组,构建了广义回归神经网络来对薄荷属植物进行分类、识别,在保证准确度的同时也兼顾了识别的速度。同时,该模型也可用来识别薄荷属植物的某种属性是否与类别区分强相关。
GRNN;薄荷属;分类;识别
薄荷属植物在我国分布广泛,由于其易杂交以致多型性现象严重。对于薄荷属植物的分类和识别,不仅有助于了解薄荷属植物的亲缘关系,对于农业生产和植物学来说也是必不可少的工作。目前对于各种不同的薄荷品种,主要使用分类检索表法作为鉴定方法[1];房海灵提出一种可以利用数量分类学对薄荷属植物分类进行研究的方法[2]。但这些方法都存在花费时间较多,需要投入大量的财力物力的缺点。
本文采用有导师学习神经网络中的广义回归神经网络(GRNN)来对薄荷属植物进行分类和识别。广义回归神经网络作为一种有导师学习神经网络,它具有非常好的学习能力。因此它被应用于许多领域中,研究者多用它来解决拟合回归问题,实际上它也可以用于模式识别、分类识别[3]。
1.1 广义回归神经网络的结构
广义回归神经网络由Specht提出的,它是一种基于非线性回归理论的前馈式神经网络模型。广义回归神经网络来源于RBF神经网络,是它的一个分支[4]。
广义回归神经网络和一般的RBF神经网络一样由输入层、隐含层和输出层组成,它的结构如图1所示。输入层的工作是把样本数据输入到中间层隐含层,在输入层不进行运算。在中间层拥有和训练集合样本数一样多的神经元节,它使用欧氏距离函数作为权值函数(记做||dist||),权值函数可以计算出输入层权值IW1,1与神经网络输入值之间的距离,其中,隐含层的阀值是b1。第二层采用径向基函数(一般采用高斯函数)作为传递函数。神经网络第三层是输出层,它是线性的。输出层采用规范化点积权函数(nprod)作为它的权函数,并使用向量n2来计算网络,它使用向量al和权值矩阵LW2,1每行元素的点积再除以向量al的各元素之和得到的了元素,并将算出的向量n2输出给线性传递函数
最终得到神经网络的输出值[4]。
图1 广义回归神经网络的结构
1.2 广义回归神经网络算法结构
广义回归神经网络的学习算法从结构上看,与RBF神经算法比较相似,主要区别在于第三层输出层。下面给出广义回归神经网络算法与实现步骤。
1.2.1 确定第二层隐含层神经元的径向基函数中心
不失去一般性意义,假设使用的训练集样本输入矩阵I和输出矩阵O如下
在式(1)中,iab代表着第b个训练样本的第a个输入变量;而oab代表了第b个训练样本的第a个输出变量;C代表输入变量的维数;D代表输出变量的维数;Q为训练集含有的样本数量。
GRNN的第二层隐含层拥有和训练集合样本数一样多的神经元节,即如果有Q个隐含层神经元,那么径向基函数中心为
1.2.2 确定第二层隐含层的神经元阈值
如果有Q个隐含层神经元,那么相应的神经元阈值为
在式(3)中,
spread代表了径向基函数的展开速度。
1.2.3 确定第二层与第三层之间权值
当1、2步骤中的第二层中的神经元的径向基函数中心及神经元阈值确定后,二层神经元节的输出输出便如式(4):
其中,oi=[oa1,oa2,…,oaR]代表了第a个训练样本矢量。
并记
广义回归神经网络中二层到与三层间的连接权重值w取为训练集的输出矩阵,如式(5):
1.2.4 确定第三层输出层神经元节点输出值
当步骤3中的二层到三层的连接权值确定后,根据图1结构图,就可以确定第三层神经元节点的输出值,如式(6):
1.3 广义回归神经网络的优点
广义回归神经网络比起传统的BP神经网络,具有如下优点:
神经网络不需要迭代,只要单向训练就可以。
隐含层拥有和训练集合样本数一样多的神经元节,意味着神经元节数量由训练样本集数量自行确定。
神经网络不同层间权重值由训练样本集确定,不用像BP网络那样每次迭代后再修改权值。
第二层节点的激活函数一般使用高斯函数,它对输入层输入信息有局部激活特效。他的特点是如果输入相似于局部神经元节的特征的输入值吸引力特别强。
1.4 GRNN的MATLAB工具箱函数
函数newgrnn用于创建一个GRNN,其调用格式如下:
其中,P为网络输入向量;T为网络目标向量;spread代表了径向基函数的展开速度(默认为1.0);net为创建好的GRNN。
2.1 思路步骤
本文从下列两个方面对薄荷属的分类进行研究:
(1)利用GRNN建立薄荷识别模型,并对模型的性能进行评价。
(2)利用GRNN建立薄荷不同属性及不同属性组合与薄荷种类间的识别模型,并与(1)式中所建模型的进行比较,可以识别薄荷属植物的某种属性是否与类别区分强相关。
实现GRNN的模型建立及性能评价,大体上可以分为以下几个步骤,如2所示。
图2 GRNN建模步骤
2.2 生成训练集与测试集
薄荷属从外观上看,主要区别在于它的叶片。薄荷叶片的颜色、形状会随着不同的生长期而有所不同,但在相同生长期的同类别(紫茎、青茎)之间,差异不大[5]。最终我们挑选了种植较广的三种薄荷作为训练样本:日本薄荷Marvensis、椒样薄荷M.piperita、留兰香薄荷Mspicata;同时我们选择样本叶片外观区别较为明显的四种属性:叶片形状、叶片颜色、叶片长度和叶片宽度作为输入样本属性。
现采集到150组不同类型薄荷(三种薄荷各50组)叶片的4种属性:形状、颜色、长度和宽度,样本编号与4种属性的关系如图3所示(其中,样本编号1-50为Marvensis,51-100为M.piperita,101-150为Mspicata)。根据图1点的排列分布,可以直观看出叶片形状、长度、宽度三图中不同薄荷类型间有较好的线性关系,而叶片颜色不同薄荷类型间呈现出非线性的关系。
图3 四种属性与样本编号
不失去一般性意义,这里采用随机法产生训练集与测试集。如前文所述,iris-data.Mat数据文件中包含两个变量:features和classes,分别对应薄荷的属性及类别。在各个类别的50个样本中分别随机选取40个样本(三类共120个)构成训练集,剩余的10个样本(三类共30个)作为测试集。
2.3 建立模型
产生训练集及测试集后,利用MATLAB自带的神经网络工具箱函数newgrnn,进行GRNN创建及仿真测试。具体程序如下:
2.4 性能评价
模型建立及仿真测试后,通过计算测试集的预测正确率以及程序运行时间,便可以对模型的性能进行综合评价。
其中result-grnn为30行10列的矩阵,对应表1中的10个模型。
表1 十个模型的输入变量
其中,“○”标示对应的输入属性参与模型的建立。
2.5 结果分析
由于训练集和测试集是随机产生的,因此每次运行时的结果亦会有所不同。图4、图5所示为某次程序运行所得结果。从图4可以发现,GRNN模型30次预测,27次命中,测试集预测正确率达90.0%,具有良好的泛化能力。从图5看出,GRNN 10个模型的平运行时间在50 ms左右,速度较快。
如表1所列,利用4个属性(叶片形状、叶片颜色、叶片长度、叶片宽度)建立的模型编号分别为1、5、8、10。表2描述了与之对应的GRNN模型的测试集正确率。
图4 测试集预测结果
图5 十个模型运行时间
表2 四属性分布建立的模型测试集正确率
由表2中可以看出,叶片颜色单独建立的GRNN模型(模型编号为5)性能不佳,正确率只有36.7%;用叶片形状、叶片宽度和叶片长度单独建立的GRNN型(模型编号分别为1、8和10)性能较好,正确率分别达90.0%、76.7%和93.3%。这表明叶片颜色与薄荷类别的相关性较小,而叶片形状、叶片宽度和叶片长度与薄荷类别的相关性较大,该结论与图3中呈现的规律一致。
GRNN具有良好的泛化性能,其权值和阈值由训练样本一步确定,无须迭代,计算量小。本文首先参考文献,选取了150组薄荷属植物(3种不同的薄荷各50组)的4种属性:叶片形状、叶片颜色、叶片长度和叶片宽度,作为构建GRNN神经网络的训练与测试样本,建立了基于GRNN的薄荷属种类识别模型,进一步对薄荷属植物进行分类;同时建立了各个属性及属性组合与薄荷属类的识别模型,探求各个属性及属性组合与薄荷属种类的相关程度。得到构建后的GRNN模型与薄荷属植物强相关属性或属性组合后,只需要对新的薄荷属植物测量该强相关属性组合值,就可以较为准确的对新植物进行识别。
应当看到,作为训练组所选取的薄荷的种类数量、样本组数、强相关属性越多,构建出的GRNN模型预测的精度越高。同时,该模型也可作为筛选薄荷属植物强相关属性的一种方法。
[1] 乐云辰.薄荷属不同植物品种遗传关系分析[D].上海:上海交通大学,2008.
[2] 房海灵.薄荷属植物的数量分类[J].安徽农业科学,2007,35 (26):8181-8183.
[3] 史峰,王辉,胡斐,郁磊.MATLAB智能算法30个案例分析[M].北京航空航天大学出版社,2011.
[4] 裴亚丹.基于多目视觉的适境计算理论研究.[D].北京:北京交通大学,2012.
[5] 张永清,刘合刚.药用植物栽培学[M].北京:中国中医药出版社, 2013:372-380.
(责任编辑、校对:田敬军)
Classification and Recognition of Mentha Based On the Generalized Regression Neural Network
HUANG Jin-Chao
(College of Continuing Education, Longyan University, Longyan 364000, China)
Mentha is easily to hybrid that polymorphism phenomenon is serious, therefore, the classification of Mentha mainly uses classification method or the number of classification and so on, but it spends a lot of time and effort of these methods. This paper selects some strong related attributes of plant category distinctions of Mentha as the training set, constructs the Generalized Regression Neural Network with mentors to classify and recognize Mentha, and ensures the accuracy and the recognition speed. At the same time, the model can also be used to tell whether some certain attribute of Mint is strongly related with classification recognition or not.
GRNN; Mentha; classification; recognition
TP301.6
A
1009-9115(2015)02-0045-04
10.3969/j.issn.1009-9115.2015.02.014
龙岩学院校立服务海西项目(lyxy2011057)
2014-07-17
黄劲潮(1980-),男,福建莆田人,硕士,讲师,研究方向为数据库、算法、网络安全。