温学兵, 谢 维, 姚佳宜
(1. 沈阳师范大学 数学与系统科学学院, 沈阳 110034;2. 沈阳师范大学 学报编辑部, 沈阳 110034)
学术期刊是交流学术、分享知识的平台,科研人员多以在高质量期刊发表论文为目标,因为高质量期刊往往意味着拥有业内较高的认可度、高水平的同行评审以及较大的影响力。
按照量化程度,学术评价大致分为定性评价、定量评价和定性评价与定量评价相结合三大类。定性评价不可避免地存在主观性,因此定量评价被广泛认可[1-2]。定量评价分为单指标评价和多指标评价。任一期刊量化指标都有其优势和劣势,不可能全面反映出期刊的质量高低,片面地强调单个指标,会导致期刊片面发展,甚至干扰学术的公平、公正。多指标评价避免了单指标评价的片面性,得到了国内外学者和期刊界的广泛认可。随着学术期刊评价的快速发展,常用的多属性评价方法已经多达几十种。多数评价指标与评价结果之间不是精准的线性关系,而是非线性关系,目前在学术评价领域使用非线性评价占比超过3/4,如TOPSIS(technique for order preference by similarity to an ideal solution)、主成分方法、因子分析法、灰色关联评价方法等。
如今,人工智能迅速发展,与许多领域紧密结合,而机器学习方法是人工智能领域一个较为重要的研究分支[3-5],机器学习方法中的随机森林[6-9]和支持向量机[10-13]被广泛应用于各个领域。学术期刊评价必定存在人为选取量化指标数据这一环节,量化指标的数值存在着人为干预的情况,无论如何选取,很大程度上都不可避免地存在某些量化指标数据选取不合理的情况。本文在学术期刊量化评价指标的研究中,引入机器学习算法中常用的随机森林和支持向量机方法,以期望通过机器学习方法减弱人为选取量化指标数据对期刊评价的影响,使得期刊评价结果更加公正合理。
为了对比随机森林和支持向量机2种模型评价期刊的精准度,本文以中国期刊引证报告中数量最多的人文社会科学期刊2013年与2014年2年的数据为例进行说明。数据较多能够避免建立的随机森林和支持向量机模型陷入过度拟合,以确保得到的结果更加可靠。中国期刊引证报告中人文社会科学期刊共有289个,由于某些期刊存在数据和指标缺失,数据清洗后最终保留了261种期刊,选取了总被引频次、影响因子、即年指标、基金论文比、他引率这5个关键指标来进行期刊排名。
将数据分为训练集和测试集2个部分,首先用训练集来训练模型,再用测试集测试模型的好坏。本文先采用TOPSIS分析法对训练集进行评分。由于TOPSIS分析法需要加入主观权重,根据经验取主观权重为0.3,0.1,0.1,0.2,0.3,且占比为60%,客观权重由矩阵计算得来。根据得分对训练集和测试集进行标注排名,并将排名分为1类、2类和3类。训练集与测试集及其排名见表1和表2。
表1 训练集及其排名(部分)Table 1 Training set and its ranking(in part)
表2 测试集及其排名(部分)Table 2 Predictive set and its ranking(in part)
续表2
随机森林算法(random forest)是基于集体智慧的一个机器学习算法,也是目前最好的机器学习算法之一。随机森林实际是一堆决策树的组合。在用于分类一个新变量时,相关的检测数据提交给构建好的每个分类树,每个分类树给出一个分类结果,最终选择被最多的分类树支持的分类结果。回归则是不同分类树测试值的均值。随机森林的出现最初是为了解决决策树泛化能力比较弱的问题,因为决策树就像一棵树,它的决策流只有一条,泛化能力弱,而随机森林能比较好地解决这个问题。随机森林与Bagging非常类似,先从原始数据中随机抽取一定数量的自助法样本,再对每个样本建立一个决策树[14]。针对当前结点特征集合(T个特征),从中随机选择t个特征子集,再选择最优特征进行划分,控制随机性的引入程度,其推荐值k=log2d。
本文随机森林算法步骤如下:
1) 从训练集D中有放回随机采样抽取n个训练样本,记为D1,D2,…,Dn,这里n的最大取值为261。
2) 从所有特征中随机选择t个特征,对选出的样本利用这些特征建立决策树,一般用CART(classification and regression trees)方法。
3) 重复以上2个步骤,形成随机森林,其中每棵树都不剪枝,让其充分生长。
其生成过程如图1所示。
图1 随机森林分类树生成图Fig.1 Graph of random forest classification tree
接下来应用MATLAB实现随机森林的生成,对261种期刊量化指标数据做随机森林模型训练与测试。本文使用随机森林进行训练时,参数为7棵树,最大叶节点为6个,最大分枝特征为3个,最大深度为5。结果为
正确率(accuracy): 0.834 532 374 100 719 5
AUC(area under curve ): 0.952 852 470 169 124 1
特征重要性(importance): 0.26 0.5 0.22 0.01 0.01
1) TP(false positive): 测试为正向(P),实际上测试正确(T),即判断为正向的正确率;
2) FN(false negative): 测试为负向(N),实际上测试错误(F),即把正向判断成了负向;
3) FP(false positive): 测试为正向(P),实际上测试错误(F),即把负向判断成了正向;
4) TN(true negative): 测试为负向(N),实际上测试正确(T),即判断为负向的正确率。
特征重要性(importance): 随机森林的结果产物,代表每一个特征的重要程度。图2为特征重要性视图,无论从数值还是从图表都可以直观看出特征的重要程度依次为影响因子、即年指标、总被引频次、他引率、基金论文比。
图2 特征重要性视图Fig.2 Feature importance view
AUC(area under curve):顾名思义是曲线下面积,也就是整个ROC曲线与坐标轴围成的一个封闭区域的面积。ROC曲线是通过连续测量变量的不同观察切点值而绘制的一条曲线,Y轴是真阳性率(灵敏度),X轴是假阳性率(1-特异度)。ROC曲线可以总结多种界值下的分类结果,并帮助选择最优的界值。不同模型的ROC曲线可通过AUC进行比较,从而有助于选择最优的模型。AUC就是将某个随机正类别样本排列在某个随机负类别样本之上的概率,其计算与混淆矩阵密不可分。AUC的值一般在0.5~1,为1时表示完全准确,0.5对应随机分类,如果AUC<0.5,则表示准确度比偶然性还差。
混淆矩阵(confusion matrix):混淆矩阵是用来总结一个分类器结果的矩阵。对于k元分类,其实它就是一个k×k的表格,用来记录分类器的测试结果。矩阵的每一列代表一个类的实例测试,而每一行表示一个实际的类的实例。计算混淆矩阵可以更好地了解分类模型的正确性以及它所犯的错误类型,同时,混淆矩阵能够帮助计算各种类别误分为其他类别的比重,帮助调整后续模型。期刊量化指标数据混淆矩阵图像如图3和图4所示。
图3 规范化混淆矩阵Fig.3 Normalized confusion matrix
图4 混淆矩阵Fig.4 Confusion matrix
混淆矩阵代表着分类正确和错误的集合,标签被分为0,1,2共3种,分别代表期刊的类别,展现了所有的分类情况,y轴是正确的标签,x轴是机器的分类。由此可以得到
1) 正确率(accuracy):测试正确的数量(测试结果中分类正确)占总样本数的百分比。
2) 精确率(precision):以测试结果为判断依据,测试为正例(测试分类正确TP+FP)的样本中测试正确(测试真正分类正确TP)的比例。
3) 召回率(sensitivity):以实际样本为判断依据,实际为正例的样本中,被测试正确的正例占总实际正例样本的比例。当精确率比较高的时候,召回率往往较低,反之亦然。
4) 特异度(specificity):描述识别出的负例占所有负例的比例。特异度越高表明尽可能多的负例判断为负,即将分类错误判定为分类错误,而不出现误判。
5) F1指标:F1值是精确率和召回率的合成指标,综合了二者的结果,取值范围为 [0,1],F1值越髙,代表模型的综合性能越好。
以上为class 1的证明结果,accuracy为0.834 5,F1指标为0.901,结果比较理想。同样,根据以上步骤也可以得出class 0和class 2的结果,经验证结果都比较满意,证明了该模型的输出结果较好,模型的准确率较高。为了证明随机森林建立的模型准确率最高,下面将建立支持向量机模型,并比较二者的准确率。
支持向量机(support vector machines, SVM)起初是为解决分类问题而产生的,在回归问题中仍然保持其在分类问题上的主要特点:处理非线性问题时是通过把低维变量映射到高维变量空间而实现的。该系统的能力由不依赖于变量空间维数的参数所控制。SVM的学习算法是求解凸二次规划的最优化算法。要把问题转化为一个凸二次规划问题,可以用运筹学有关思想进行求解:1)在线性SVM算法中,目标函数显然就是那个“分类间隔”,需要使分类间隔最大;2)约束条件即决策面,通常需要满足3个条件(确定决策面使其正确分类;使决策面处于间隔区域的中轴线;确定支持向量)[15]。
SVM通过映射到高维空间来求分离超平面,导致其运算量非常庞大,由于上面的核函数和映射到高维空间的解类似,所以求SVM分离超平面时,可以用求核函数的方法代替在高维空间中的计算,从而实现在一维平面上的计算达到在高维空间计算的效果。因此,应用多项式核函数,使其对样本数据进行高维空间映射。多项式核函数基本表达形式如下:
对期刊量化指标数据做支持向量机训练与测试,其训练集和测试集的结果图像如图5和图6所示。
图5 训练集结果Fig.5 Training set results
图6 测试集结果Fig.6 Forecast set results
图中不同颜色的点代表不同类别期刊的位置,显然没有随机森林算法的准确度高。因此,随机森林模型的建立效果较为理想。同时,应用随机森林建立的排名模型不仅准确度高,结果也与人们主观上对于期刊的排名大致相符。
1) 随机森林模型是操作更加简单的统计模型方法
随机森林模型建模过程简单,容易实现,需要调的参数比较少,计算量比较小,并且它在很多实际数据建模中有很好的性能支持,而向量机模型需要调的参数比较多,如如何选择最佳的核函数等,有时很难找到一个合适的核函数。同时,随机森林模型处理高维度数据的能力也非常优秀,在训练完成后,能够给出变量的重要性程度。支持向量机模型是一种有理论基础的新颖的小样本学习,但对类似本文这样数量较多的期刊样本进行建模的时候,效率并不是很高。
2) 随机森林模型是准确度更高的模型
对期刊量化指标数据进行随机森林和支持向量机建模的结果表明,支持向量机模型的准确度为76%,随机森林模型的准确度最高达到了83.45%,显然随机森林模型的准确度更高,排名结果与主观预期结果相似。
之前的研究未发现有学者将随机森林和支持向量机模型应用于期刊评价当中,2种模型对期刊排名的比较进一步完善了期刊评价体系,为以后学者选择学术期评价方法提供了参考。