倪 洁 徐 杰 胡慕伊
(南京林业大学江苏省制浆造纸科学与技术重点实验室,江苏南京,210037)
基于BP神经网络的纸病分类器设计
倪 洁 徐 杰 胡慕伊*
(南京林业大学江苏省制浆造纸科学与技术重点实验室,江苏南京,210037)
不同造纸生产线产生的纸病往往会有不同的特点,即使同一生产线在不同工艺参数,或在工艺参数相同而生产条件不同情况下产生的纸病也有区别,因此纸病往往具有多样性、复杂性的特点。为此,利用BP神经网络建立了纸病分类器,取得了较好的识别效果,识别率达91%。
特征提取;BP算法;神经网络
从20世纪80年代开始,国外掀起了一股研究人工神经网络的热潮,至今方兴未艾,已成为当代人工智能领域最富挑战性和最引人入胜的研究热点。由于神经网络具有大规模并行处理和分布式的信息存储,良好的自适应性、自组织性,很强的学习功能、联想功能和容错功能等优点,因此,在图像处理、模式识别、语音综合及智能机器人控制等领域已有较广泛的应用。
人工神经网络的研究已提出许多新的神经网络模型和学习算法,如分层网络模型和反向传播(backpropagation)学习算法(BP算法)、Hopfield模型、波耳兹曼机、模拟退火算法、联想记忆、竞争学习以及运动控制的学习模型等,并且在硬件实现上已通过VLSI技术研制出几十至几百个神经元,并已在探索研究神经计算机。但是,也应该看到,直到现在,人类对自身大脑的研究,尤其是其中智能信息处理机制的了解还十分肤浅,对神经网络理论和它所能实现的目标还众说纷纭,还有不同的争论,新一代智能计算机还处于起步阶段[1]。
1986年,Rumelhart提出了BP算法。该算法适用于多层网络,是目前广泛应用的神经网络学习算法之一。
BP神经网络如图1所示。网络有输入层节点、输出层节点和隐层节点。隐层节点与外界没有直接联系,但其状态的改变,能影响输入与输出的关系。
图1 BP神经网络
2.1 输入层和输出层的设计
BP网络的输入/输出层尾数完全根据使用者的要求来设计。本课题研究对象为纸病图像,输入为表征纸病图像特征的特征向量,在特征提取过程中,提取了纸病图像的10个特征量,如果把它们作为网络的输入,则网络输入层的神经元个数一般等于每个样本的特征量个数,因此输入层神经元个数为10个[2]。
根据所达到的识别要求,以及要对4种纸病进行有效识别,因此可以采用如下形式来表示输出:
尘埃:(0,1);孔洞:(1,0);褶子:(1,1);裂口:(0,0)。
m类的输出只要用log2m个输出单元即可。本研究有4种纸病输出,因此选择输出层神经元个数为log24,即2个,每2个单元的输出代表一种纸病类型[3]。
2.2 隐层的设计
1989年,Robert Hecht-Nielson证明了对于任意在闭区间的一个连续函数都可以用一个隐层的BP神经网络来逼近,因而一个单隐层的BP神经网络可以完成任意的n维空间到m维空间的映射,本研究中即采用一个隐层结构。隐层的神经元数目选择是一个十分复杂的问题,往往需要根据经验和多次实验来确定,因而不存在一个理想的解析式来表示。
确定最佳隐层节点数的一个常用方法称为试凑法,可先设置较少的隐层节点训练网络,然后逐渐增加隐层节点数,用同一样本集进行训练,从中确定网络误差最小时对应的隐层节点数。在用试凑法时,可用一些确定隐层节点数的经验公式。这些公式计算出来的隐层节点数只是一种粗略的估计值,可作为试凑法的初始值。
目前隐层神经元数的选择一般参考以下4个经验公式:
式中,m为隐层单元数;n为输入单元数。
式中,m为隐层单元数;n为输入单元数。
式中,m为隐层单元数;n为输入单元数;l为输出单元数;δ为[1,10]之间的常数。
式中,m为隐层单元数;n为输入单元数;l为输出单元数;δ为[1,10]之间的常数[4]。
2.3 训练样本的选择
为了使纸病分类器有效地进行分类判决,必须对分类器进行训练。而分类器的分类规则是依据训练样本提供的信息确定。同时,诸多文献证明“基于样本的学习”方法是设计分类器最有效的方法。因此纸病训练样本的选择对分类器设计显得尤为重要。
本研究特选取如下4种常见的纸病:
(1)尘埃 一般是指纸张表面肉眼可见且与纸面颜色有显著区别的小杂质。
(2)孔洞 一般指纸张上产生的完全穿透的没有纤维的部分,极易在反射光照射下凭肉眼看出,一般小的称孔眼,大的叫破洞。
(3)褶子 通常指纸张重叠或折叠形成的可以分开或不能分开的折痕,分暗色细条纹状的小斜褶和粗条痕状的大斜褶两种形状。
(4)裂口 通常指在纸张的中部或者边沿出现了裂缝或破口。这些裂缝或破口容易在印刷过程中扩大或者被拉断,导致断纸停机,增加纸张损耗。
最终本研究选择了200个纸病样本,其中100个作为训练集来进行分类器的训练,其余100个作为测试集来检验分类器分类效果。
将上述100组4种纸病训练样本数据(每种纸病各25组)作为分类器输入,对其进行训练。在对隐层节点的测试时,根据隐层设计经验公式,隐层神经元个数应该在13~22之间。因此,不同的隐层神经元个数,能得到相应的网络训练误差和训练次数,如表1所示。
表1 不同隐层神经元个数的网络训练误差和训练次数
表1表明,隐层神经元为20的BP网络对函数的逼近效果最好,因为它的网络误差最小,隐层为16和19的网络误差也比较小,但是它们所需要的训练次数比较多,所以考虑到网络训练的时间,将隐层的神经元数定为20。
本研究通过利用MATLAB神经网络工具箱,合理调整了BP网络训练参数来完成分类器的训练。其BP网络训练参数和训练结果图分别如表2和图2所示。
表2 BP网络训练参数
图2 训练结果
2.4 纸病分类器识别效果验证
训练后的分类器是否满足要求,必须经过检验才能确定。验证分类器的正确性一般采用与实际样本数据相比较的方法,即先把测试样本的数据经初始化后作为神经网络的输入,经BP网络模型计算,输出相应的数据,然后将对照样本的实际值与网络的输出值相比较,若误差在允许范围内,此分类器是可用的,否则要重新进行训练。
本研究使用100组独立于训练集的纸病测试样本数据进行分类器验证,每种纸病类型各25组。并根据网络实际输出和目标样本对照,以两者的误差绝对值平方和小于0.01为正确识别标准,对测试样本进行检测,得到了纸病检测识别结果如表3所示。
表3 纸病检测识别结果
由表3观察可得,所选用的特征量和所设置的BP网络训练参数是适当的。识别结果表明,纸病分类器对本研究的4种纸病类型的平均识别率较高,但还有待于进一步提高[5]。
3.1 通过纸病分类器的设计、训练和验证,虽然取得了较好的识别效果,但是纸病误判情况依然存在。分析其原因主要有:由于孔洞和尘埃的外在表现形式上有些相似,尤其是灰度和形状特征比较接近,这是造成这两种纸病误判的主要原因。而褶子和裂口在形态特征上也较为相似,特别是长宽比这一特征量比较接近,因此这两种纸病互相误判的可能性也较大。
3.2 在实验过程中还存在着问题需要讨论和分析首先,本分类器只能适用于一个样本一种纸病,因此组织样本时应该考虑到多种纸病出现在同个样本的情况。其次,BP网络训练参数的设置问题,如训练函数的选择,学习速率和动量因子的设置等。其中学习速率是分类器训练中的重要参数,它和负梯度的乘积决定了权值和阈值的调整量,学习速率过大,算法会变得不稳定;但是如果学习速率太小,算法收敛的时间就会增大。由此可见,学习速率的大小对于分类器的性能有较大影响,需要通过多次实验来确定最佳值。
3.3 BP算法还存在收敛速度慢、网络的学习记忆不稳定等缺点,影响了系统的识别效率。因此可考虑对该算法进行改进或者采用其他的神经网络算法,从而能够识别更多种纸病。
[1] 胡伍生.神经网络理论及其工程应用[M].北京:测绘出版社,2006.
[2] 韩力群.人工神经网络教程[M].北京:北京邮电大学出版社,2006.
[3] 刘 华,王金乐.常见纸病及检测技术[J].印刷质量与标准化, 2007(5):22.
[4] Gallant Stephen I.Neural network learning and expert systems[M]. London:TheM IT Press,1993.
[5] 徐 杰.基于机器视觉的纸病检测方法研究与应用[D].南京:南京林业大学,2008.
Abstract:The paper defects occurred in different production lines are often different,even in the same production line when the proces parameters are different,orwith the same process parameters when the production conditions are different,the papers produced will hav different defects,so paper defects tend to have the multiplicity and complex characteristics.The classifiers are designed based on BP neura network,which has achieved good results of 91%identification rate.
Keywords:features extraction;BP algorithm;neural network
(责任编辑:孙秋菊)
Paper Defects Classifier Design Based on BP Neural Network
N IJie XU Jie HU Mu-yi*
(Jiangsu Provincial Key Laboratory of Pulp and Paper Science and Technology,Nanjing Forestry University, Nanjing,Jiangsu Province,210037)
(*E-mail:muyi_hu@njfu.com.cn)
TP183
A
1000-6842(2010)02-0076-03
2010-03-05(修改稿)
本课题为江苏省制浆造纸科学与技术重点实验室开放基金项目(200909)。
倪 洁,男,1986年生;在读硕士研究生;研究方向:过程装备与控制,图像处理等。
*通信联系人:胡慕伊,E-mail:muyi_hu@njfu.com.cn。