陈 宇,许莉薇
(东北林业大学 信息与计算机工程学院,黑龙江 哈尔滨 150040)
基于优化LM模糊神经网络的不均衡林业信息文本分类算法
陈 宇,许莉薇
(东北林业大学 信息与计算机工程学院,黑龙江 哈尔滨 150040)
为解决不均衡林业信息文本分类中少数类分类正确率低问题,提出了一种基于优化LM模糊神经网络的不均衡林业信息文本分类算法。在阐述优化LM模糊神经网络算法原理的基础上,提取不均衡林业信息文本特征矩阵训练分类器的各项参数,实现对不均衡林业信息文本的精准与快速分类。实验结果表明该算法对少数类辨识准确率高,优于神经网络分类法以及SVM算法、模糊神经网络算法,为不均衡林业信息文本的分类提供了新思路。
不均衡文本分类算法;不均衡林业信息文本分类;优化LM模糊神经网络;分类器
林业信息文本分类是文本分类的分支,是对林业类样本进行分类。文本分类的过程,需要结合算法构造分类模型,对模型进行训练学习,用于分类。文本分类可以归纳为以下步骤:预处理,提取文本特征向量,构造文本特征矩阵,形成分类器,分类结果测评。
文本分类技术在国外的研究起步较早,并且发展迅速,现阶段已经比较完善。我国文本分类技术的研究起步晚,早期主要是对国外先进技术进行引用,并且在初始算法上进行优化,随着我国对文本分类技术研究的逐步深入,现阶段的主要研究目标转向为如何提高不均衡样本分类的正确率。常用在文本分类算法的算法主要包括BP神经网络[1]、决策树[2-3]等。
由于林业信息文本分类的研究非常少,所有提高林业信息文本分类的准确率,成为一个研究的热点,互联网提供的信息越来越多,对人们有用的只是一部分,信息的选择成为一个重要的研究内容,文本分类技术产生了。不均衡数据的分类对于医疗诊断、网络非法网页监测、诈骗监测、企业破产监测等方面有重要的研究意义,上述应用可以看出,提高少数类分类的正确率有重要意义。通过两种方式解决问题[4]:其一,样本层面处理:分为过抽样和欠抽样;其二,算法层面的处理:选用适于不均衡样本分类的算法,常用算法有SVM的改进算法,KNN算法等。
文中提出了一种基于优化LM模糊神经网络的不均衡林业信息文本分类的算法:先使用ICTCLAS系统对文本进行预处理;然后使用TFIDF公式计算林业信息文本分词的特征值,构造特征矩阵;由于矩阵维数较大,之后对特征矩阵降维;最后,构造优化LM模糊神经网络分类器,对分类器训练,利用分类器进行林业信息文本的识别。通过大量实验论证该算法已达到预期目的,少数类分类正确率高。由于不均衡文本的特殊性,不能仅仅通过全局精度或者误差率来评价分类器的好坏,因此引入几何平均正确率公式来综合衡量分类器性能,该算法分类正确率明显高于神经网络、支持向量机、模糊神经网络算法,为不均衡林业信息文本分类开拓了新思路。
由于网络上没有成型的林业信息文本库,因此,手动建立林业信息文本库,在网络上搜索大量的资料进行汇总和整合,总结出5类文本:花、树木、虫、土壤、水类文本,同样本文研究的算法也适用于别的类型的林业信息文本,本研究选取的实验样本如图1、图2所示(下图为经过分词和去停用词之后的林业信息文本文件):
不同类别的样本含有一些典型的特征词,通过这些特征词对林业信息样本进行区分。通过上图也能看出每类林业信息的典型文本特征,比如花类文本中,典型特征词有花、花蕊、花柄、花萼、花被等专业性术语,专业性的文章对于花的描述都会包含这些基本的词语;对于树木类文本,含有的关键特征词包括树、树干、树枝、树枝等。虫类、土壤类、水类文本含有的典型特征词也同理。
特征词的提取是通过ICTCLAS系统,利用其开源代码将其界面可视化,对初始文本进行去停用词、去噪声,得到的词就是实验所需的林业信息文本特征词,然后使用下文介绍的TF-IDF公式计算特征词的权值,构成林业信息文本特征矩阵,矩阵维数过多需降维,对降维之后的特征矩阵使用本文研究的算法进行实验。
图1 花类样本Fig.1 Samples of fl owers
图2 树木类样本Fig.2 Samples of trees
设不均衡林业信息文本总共有n个特征,构成n维向量空间,不均衡林业信息样本d被表示成n维的特征向量:
在(1)式中,Ti为n个分词中的一个,Wi(d)代表Ti在不均衡林业信息文本d中的权值,不均衡林业信息文本分词的权值计算公式利用TF-IDF表示为[5]:
式(2)中,Wi(d)代表Ti的权值,TF(ti)是Ti在d中出现的次数,N表示样本总数,ni是出现Ti的不均衡林业信息样本的个数,L的取值情况由实验确定,一般取值为0.01。
由于不均衡林业信息文本特征矩阵的维数较大,因此对分类算法执行效率会有较大影响,为了提高分类器运行的效率,对提取到的不均衡林业信息文本的特征矩阵进行降维处理,处理过程使用主成分分析算法[6],算法原理描述如下:
有n个样本,每个不均衡林业信息样本有p项指标:X1,X2…,Xp,得到初始特征矩阵为:
在(3)式中:
综合指标向量X是p个向量X1,X2…,Xp作线性组合:
即为:
系数a1i=(a1i,a2i,…,api)的约束条件:
特征矩阵的协方差矩阵是S=(sij)p×p:
(7)式中:
得到S的特征值λ1≥λ2≥…≥λn>0与对应单位向量:
X的第i个主成分为Fi=a′iX,i=1,2,…,p
主成分的获得依据贡献率αi和累积贡献率G(r):
在本研究实验过程,使用累积贡献率达到99%的主成分,则n个不均衡林业信息文本在所选r个主成分的得分:
不均衡林业信息文本分类常用的方法有BP神经网络、支持向量机和模糊神经网络等,少数类分类正确率较低。基于优化LM模糊神经网络分类算法实验效果佳,对少数类分类的正确率有较大提高。
模糊神经网络是神经网络和模糊系统的统一,将学习、联想、识别、自适应及模糊信息处理联系在一起[7]。模糊神经网络是全部或部分采用模糊神经元所构成的神经网络系统[8-10],逻辑结构表示如图3:
图3 模糊神经网络逻辑结构Fig.3 Logical structure of fuzzy neural network
在图4中,一层的神经元和输入变量相连,二层和三层对使用度计算,四层为清晰化运算层[11-12]。
图4 模糊神经网络结构Fig.4 Fuzzy neural network structure
设Aij是输入论域U上的模糊集,表达式如下:
式(13)中,xj代表输入变量Aij∈[0,1]
i=1,2,…,R,j=1,2,…,m,m个输入变量。R条模糊规则aij和cij代表输入隶属函数中心和宽度。
规则前件隶属函数[13-15]:
模糊设计网络的输出:
式(15)中,Bi为规则后件。
优化L-M模糊神经网络算法对模糊神经网络算法的改进如下:
优化模糊基函数,规则后件:
式(16)中,bi和di分别表示输出隶属函数的中心和宽度。
定义平均输出隶属度函数为:
定义平均输出隶属度模糊基函数为:
采用单值中心反模糊化法得到网络的输出:
对训练参数使用Levenberg-Marquardt算法和一阶梯度下降算法进行调整,上述模型假设四层之间的连接权为1,所以,调整参数aij,bi,aij,di
使用一阶梯度下降法调整参数aij,cij,dij,本研究里论述参数aij计算过程,一阶梯度下降法得:
根 据 式(17)、(18)、(19)、(21),代入式(22),得到aij调整值为:
其中,E为误差函数,yout和y分别表示网络的实际输出和期望输出,η学习速率,cij和di计算过程一样。
bi的调整,使用Levenberg-Marquardt算法调整,如下:
设第k次训练,网络实际输出值勤为:
令B(k)=[b1(k),b2(k), …,bi(k),bR(k)]T,F=[f1f2,…,fi,…,fR],(23)式可以表示成:
假设在k+1次,网络输出收敛到期望值y,表达式如下:
式(26)中,B(k+1)=[b1(k+1)…bi(k+1)…bR(k+1)]T。
两式相减得到:
对(26)公式使用最小二乘法得到:
式(28)中,为使得(FTF)的逆存在,在(FTF)矩阵中加入对角阵μI,μ是正数,I为单位矩阵。
优化的B(k+1)计算公式为:
其中,η1为学习速率。
优化L-M模糊神经网络算法评估
为了综合分析分类器的性能,引入以下参数计算公式。
少数类样本的正确率,TP表示少数类划分至少数类的个数,FN指分类过程少数类划分至多数类的个数:
多数类样本正确率,TN指多数类划分至多数类的个数,FP指分类过程多数类划分至少数类个数:
少数类查准率:
几何平均正确率G-mean:
少数类的F-measure:
搜集林业信息资料,建立不均衡林业信息文本库。不均衡林业信息样本实验的选取为5个类别:花、树木、虫、土壤、水,技术角度的不均衡数据指的是在不同类之间展现出不等分布的样本集,因此选取花类、虫类、土壤类3类样本为多数类,各选1 000个样本;树木类、水类两类为少数类样本选200训练,即训练样本总共3 400组。测试样本每类选100个,即测试样本总共500组。
获得的训练样本特征矩阵维数为3 400×1 281维,测试样本矩阵维数为500×1 281,训练样本与测试样本特征矩阵降维后分别形成新的特征矩阵维数为3 400×238维、500×238维。使用神经网络、支持向量机、模糊神经网络和优化L-M模糊神经网络4种方法分类。训练与测试样本相同为前提条件,分类结果如下图所示(横坐标代表样本数目,纵坐标表示正确率下降值)。
图5显示,4种方法进行分类时,随着测试样本的增多,正确率变化的趋势,前3种方法正确率下降最快的是SVM,只有OLM-FNN算法正确率没有变化趋势。
图5 4种分类算法对不均衡林业信息文本分类正确率下降Fig.5 Accuracy decline for four algorithms of uneven forestry information text classif i cation
表1是所有样本正确率的比较:
表1 不均衡林业信息文本分类算法结果比较Table 1 Comparison results of classification algorithm of uneven forestry information text classification
为了评价不同分类器对不均衡数据分类的综合性能,将数据分为两大类,多数类样本(花、虫、土壤)和少数类样本(树、水),计算分类器的几何平均正确率和少数类的F-measure,综合比较4种分类器分类效果,先获取测试样本集的混合矩阵见表2:
表2 4种分类算法的测试样本集的混合矩阵Table 2 Test sample set's mixing matrix of four classification algorithms
下图6所示,随着样本的增加,多数类和少数类正确率的变化趋势图,OLM-FNN的少数类随着样本的增加正确率没有变化并且始终保持在100%,BP、SVM、FNN随着样本增加,Sensitivity减少即少数类分类的正确率呈现递减趋势见图7,4种分类器对多数类的分类效果均比较好。
图6 多数类少数类正确率变化Fig.6 Accuracy changes of minority and majority classes
图7 四种分类算法F-measure变化趋势Fig.7 F-meaure change trends of four kinds of classif i cation algorithm
F-measure曲线与少数类的查全率和查准率正相关,只有当两个指标都具有较大值时,F-measure曲线上的点才能对应较高的值。
表3中,G指标与多数类和少数类分类正确情况均有关,G值是随着Sensitivity和Specif i city的值的增加在[0,1]区间内单增,F-measure也是一种常用的不均衡样本分类问题的评价指标,该指标综合考虑了少数类样本的查全率和查准率,因此任何一个值都会影响到该指标的大小,只有在查全率和查准率均衡的情况下才能最大化,该指标能综合体现出分类器对多数类和少数类的分类效果,但更侧重体现少数类的分类效果。综上所述,基于优化LM模糊神经网络的分类算法分类性能较好,多数类少数类分类正确率均衡,模糊神经网络次之,支持向量机和BP神经网络对少数类分类性能差,因此综合衡量指标F-measure较小。
实验结果表明,基于OLM-FNN的不均衡林业信息文本分类算法能够实现对五类不均衡林业信息文本精准与快速的分类,尤其对少数类树木类和水类文本分类正确率明显高于BP、SVM和FNN算法。
表3 4种分类算法综合效果Table 3 Integrated effects of four classification algorithms
本研究提出的基于OLM-FNN的不均衡林业信息文本分类算法,根据提取的特征矩阵训练分类器,得到OLM-FNN分类器各项参数进行不均衡林业信息文本测试。实验表明,基于优化LM模糊神经网络算法适用于不均衡林业信息文本的分类,少数类分类正确率明显高于BP、SVM和FNN算法,为不均衡林业信息文本分类提供了新算法。
[1] 李永亮,林 辉,孙 华,等. 基于BP神经网络的森林树种分类研究[J].中南林业科技大学学报, 2010,30(11):43-46.
[2] 陈 利,林 辉,孙 华,等. 基于决策树分类的森林信息提取研究[J].中南林业科技大学学报,2013,33(1):46-51.
[3] 孙 华,林 辉,莫登奎,等. 面向对象的决策树分类技术[J].中南林业科技大学学报, 2007,27(4):39-43.
[4] 谢娜娜,房 斌,吴 磊.不均衡数据集上文本分类方法研究[J].计算机工程与应用,2012,6(1):1-4.
[5] 段江丽.基于SVM的文本分类系统中特征选择与权重计算算法的研究[D].太原:太原理工大学,2011.
[6] 臧 卓,林 辉,杨敏华. ICA与PCA在高光谱数据降维分类中的对比研究[J].中南林业科技大学学报, 2011,31(11):18-22.
[7] 张 凯,钱 锋,刘漫丹.模糊神经网络技术综述[J].信息与控制,2003,32(5):431-435.
[8] Takagi H.Fusion technology of fuzzy theory and neural networkssurvey and future direction [A].Pro.Int.Conf.on Fuzzy Logic and Neural Networks[C].1990:13-26.
[9] 邱兴兴. 基于模糊逻辑和神经网络的文本分类方法[D].南昌:南昌大学,2007.
[10] 鞠初旭. 模糊神经网络的研究及应用[D].电子科技大学,2009:30-32.
[11] 刘瑞兰,苏宏业,褚 健. 基于改进模糊神经网络的软测量建模方法[J]. 信息与控制, 2003,32(4):367-370.
[12] Jang S R. Adaptive-networks-based fuzzy inference system [A].IEEE Trans.On Syetem[C].Man and Cybernetics, 1993, 23(3):665-685.
[13] Rubanov,N.S.The layer-wise method and the back propagation hybrid approach to learning a feed forward neural network[A].IEEE Trans.Nerual Networks[C].2000.1(2):295-305.
[14] Zhang Y.Q.,KandelA. Compensatory neuron fuzzy systems with fast learning algorithms [A].IEEE Trans.on Neural Networks[C].1998,9(1):83-105.
[15] 贺 勇,诸克军,郭湘海,等.一种模糊神经网络的结构和参数确定方法[J].计算机应用研究,2007,24(3):247-249.
Uneven forestry information text classif i cation algorithm based on optimization LM fuzzy neural network
CHEN Yu, XU Li-wei
(School of Information and Computer Sciences, Northeast Forestry University, Harbin 150040, Heilongjiang, China)
In order to deal with the problem of low categorization accuracy of minority class of the uneven forestry information text classification algorithm, the uneven forestry information text classification algorithm was puts forward based on optimization LM fuzzy neural network (OLM-FNN). On the basis of expounding the principle of optimization LM fuzzy neural network (FNN), the parameters feature matrix training classif i er of uneven forestry information text to of LM fuzzy neural network were extracted, thus realizing accurate and fast classif i cation to uneven forestry information text. The experimental results show that the algorithm had higher classif i cation accuracy of minority class than that of neural network and support vector machine (SVM) and fuzzy neural network. The algorithm provides new ideas for studying on uneven forestry information text classif i cation algorithm.
im-balanced text classif i cation algorithm; uneven forestry information text classif i cation; optimization LM fuzzy neural network; classif i er
S757.3
A
1673-923X(2015)04-0027-06
10.14067/j.cnki.1673-923x.2015.04.005
2013-11-14
国家948项目(2011-4-04);中央高校基本科研业务费专项资金项目(DL12CB02);黑龙江省教育厅科学技术研究项目(12513016);黑龙江省博士后基金;黑龙江省自然科学基金项目(F201347);哈尔滨市科技创新人才专项资金项目(2013RFQXJ100)
陈 宇,副教授,博士后,硕士生导师;E-mail:xuliwei475273608@163.com
陈 宇,许莉薇.基于优化LM模糊神经网络的不均衡林业信息文本分类算法[J].中南林业科技大学学报,2015,35(4):27-32,59.
[本文编校:文凤鸣]