聂黎生
摘 要: 为了进一步提高期刊论文题名信息分类查准率和查全率,提出一种基于改进KPCA与SVM的知网题名信息分类算法。基于中国知网数据库选取《中文核心期刊要目总览》(2014年版)2017年度31种计算机学科(TP)期刊收录的13 401篇论文题名作为实验语料库,采用改进KPCA算法对数据进行降维和特征提取,将提取的特征数据库作为SVM的输入进行训练和分类。实验结果表明,该方法较以往分类算法能够进一步提高期刊论文题名的分类效果。
关键词: 题名分类; 核主成分分析; 数据降维; 特征提取; 数据挖掘; 模式识别
中图分类号: TN919?34; TP301.6 文献标识码: A 文章编号: 1004?373X(2019)16?0108?04
随着学术期刊论文数量的迅速增长,分类检索作为服务于数据库,满足用户需求的一种服务愈显重要。目前国内外题名分类占据了论文检索主流市场。题名分类是基于预先建立的分类器,通过计算机对给定的未知类别论文集进行分类的过程。题名作为一种短文本语言规范,专业性强,内容简练,能够高度概括和集中表达论文核心内容,因此可以作为文献分类的重要依据 [1]。从图书情报学专业角度看,其分类关键是依据语言词表对题名预处理获取短文本特征并用特征向量表示,然后与预先通过训练集建模构造的分类器进行模式匹配,找出每个特征的所属分类后返回分类结果。近年来,文本分类常见的算法有KNN,BPNN,ELM等。这些算法在特征选择时忽略了特征项的信息增益以及特征项与类别信息的关联程度,导致短文本分类准确率不高,难以获得用户满意的效果。针对该问题,本研究选取《中国知网》论文数据库部分论文作为研究对象,提出融合改进KPCA与SVM的知网题名分类算法,试图提高分类结果的准确率和正确率。该算法首先对收集大量期刊论文题名信息进行去噪和格式化预处理,提取其关键词和高频词归一化处理后形成特征库;然后,通过改进KPCA算法实现分类信息最大化为后续识别分类提供方便;最后,对特征库基于支持向量机(SVM)训练,建立分类器进而实现对待分文本分类并输出分类结果。
3 实验分析与结论
3.1 实验数据及过程
实验依据中国知网数据库,选取《中文核心期刊要目总览》(2014年版)2017年度31种计算机学科(TP)期刊收录的13 401篇论文,其原始分类粒度粗糙,提取语料的题名、关键词和摘要适合作为研究真实世界题名分类实验材料。研究对象主要针对计算机领域,选取控制策略、神经网络、机器学习及数据挖掘等領域论文的题名、关键词和摘要作为实验语料。为了降低数据不均衡对分类器的负面影响,提高分类的准确率,本文将13 401篇论文随机分成3份:基础集、训练集与测试集。基础集为已知题名类别的集合,用于计算题名特征与其他论文题名特征的交集数量;训练集也是已知题名类别的集合,用于构建分类器(SVM,BPNN等);测试集主要用于检验不同分类算法的分类性能。
3.2 性能评价与分析
为测试本算法的有效性,采用信息检索和分类体系常用的查准率Precision(P)、查全率Recall(R)、测试值F?measure(F)评估算法的分类性能。依次采用IMKPCA?SVM,KPCA?BPNN,PCA?SVM三种算法对测试集分类。不同分类算法的Precision,Recall及F?measure值如表1所示。
从表1可以看出,基于IMKPCA?SVM分类方法各评价指标值均超过95%,分类精度整体最佳,主要原因在于IMKPCA降维处理后并计算类别信息度量保留了核心特征,同时采用SVM分类器,避免了BPNN的“维数灾”[9]和PCA只能提取线性特征结构的缺陷,最终使分类准确率显著提升。为了进一步揭示本文算法分类性能,表2列出了各分类算法的细分指标。
从表2的类别细分结果可以看出,基于IMKPCA?SVM分类方法在控制策略和数据挖掘2个领域中的分类效果较好,其主要原因是控制策略和数据挖掘的领域知识较为成熟,通过知网可以获得质量较高的题名特征。但神经网络和机器学习作为风靡全球的新兴交叉学科领域,知网收录研究论文和登录词汇相对缺少,且由于本次实验选取的数据规模有限,并未包含其他领域中的足够概念,所以从实验结果看出这两个领域的分类性能有所受限。
4 结 语
本文提出一种基于改进KPCA降维与SVM分类的题名分类方法,该方法首先采用KPCA算法降维提取高频词汇和题名关键词得到分类结果的核心特征词集,并通过优化进一步去除与分类结果相关度极低的特征词,然后通过SVM模型计算待分类文本与训练集核心特征的相似度,并将相似度最高的类别分配给待分类文本。实验结果表明本文方法能够进一步提高期刊题名的分类效果,为题名分类提供了新的途径。下一步打算拓展该方法在其他领域进行设计与验证,增加其通用性应用价值。
参考文献
[1] 李湘东,刘康,丁丛,等.基于知网语义特征扩展的题名信息分类[J].图书馆杂志,2017,37(2):11?19.
LI Xiangdong, LIU Kang, DING Cong, et al. Title information classification based on hownet semantics feature extension [J]. Library journal, 2017, 37(2): 11?19.
[2] CHEN J J, ZHAO Z, SUN H, et al. Facial expression recognition based on PCA reconstruction [C]// Proceeding of 5th International Conference on Computer Science & Education. Hefei: IEEE, 2010: 195?198.
[3] 何新,李大辉,付军.特征提取算法KPCA的改进与设计[J].高师理科学刊,2015,35(6):34?37.
HE Xin, LI Dahui, FU Jun. The improvement and design of KPCA feature extraction algorithm [J]. Journal of science of teachers′college and university, 2015, 35(6): 34?37.
[4] 万家强,王越,刘羽.改进KPCA对分类数据的特征提取[J].计算机工程与设计,2010,31(18):4085?4087.
WAN Jiaqiang, WANG Yue, LIU Yu. Improvement of KPCA on feature extraction of classification data [J]. Computer engineering and design, 2010, 31(18): 4085?4087.
[5] 方天红,贾涵,陈庆虎.Gabor特征和字典学习算法在打印文件鉴别中的应用[J].电子测量与仪器学报,2017,31(4):644?650.
FANG Tianhong, JIA Han, CHEN Qinghu. Application of gabor feature and dictionary learning algorithm in printed document identification [J]. Journal of electronic measurement and instrument, 2017, 31(4): 644?650.
[6] YU P S, CHEN S T, CHANG I F. Support vector regression for real?time flood stage forecasting [J]. Journal of hydrology, 2006, 328(3): 704?716.
[7] 马乐宽,邱瑀,赵越,等.基于改进的神经网络与支持向量机的小流域日径流量预测研究[J].水资源与水工程学报,2016,27(5):23?27.
MA Lekuan, QIU Yu, ZHAO Yue, et al. Prediction of dailyrunoff in a small watershed based on improved neural networkand support vector machine [J]. Journal of water resources & water engineering, 2016, 27(5): 23?27.
[8] 高超,许翰林.基于支持向量机的不均衡文本分类方法[J].现代电子技术,2018,41(15):183?186.
GAO Chao, XU Hanlin. Unbalanced text classification method based on support vector machine [J]. Modern electronics technique, 2018, 41(15): 183?186.
[9] 王慧,宋淑蕴.基于KCPA 提取特征和RVM 的图像分类[J].吉林大学学报(理学版),2017,55(2):357?362.
WANG Hui, SONG Shuyun. Image classification based on KCPA feature extraction and RVM [J]. Journal of Jilin University (Science edition), 2017, 55(2): 357?362.
[10] 刘玉琪.基于随机森林算法的人体运动模式识别研究[D].北京:北京邮电大学,2018.
LIU Yuqi. Research of human pattern recognition based on random forest algorithm [D]. Beijing: Beijing University of Posts and Telecommunications, 2018.