仇国华 赵华
摘 要:作者重名消歧是一个重要又复杂的研究课题,在科技文献检索工作中,作者重名问题势必会降低文献检索的效率和准确性,影响工作进度。提出一种改进粒子群算法优化的BP(Back Propagation)神经网络算法,以解决作者重名消歧问题。首先引入Beta分布的动态惯性权重,提高算法全局搜索能力;其次利用改进粒子群算法优化的权值和阈值,作为BP神经网络的初始权值和阈值进行模型训练,以加快模型训练速度;最后通过特征评价函数过滤式选取排序较优的M维特征子集作为输入层特征向量训练模型,得到最终预测结果,从而精确区分重名的作者。实验研究表明,该模型对重名作者身份的预测准确率可达89.01%,证明了该算法的有效性。
关键词:重名消歧;PSO算法;BP神经网络;动态惯性权重;特征评价函数
DOI:10. 11907/rjdk. 192641
中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2020)003-0111-05
A Method of Distinguishing Distinguished Names of Authors
QIU Guo-hua, ZHAO Hua
(College of Computer Science and Engineering, Shandong University of Science and Technology,Qingdao 266590,China)
Abstract: The authors name and disambiguation is an important and complicated research topic. In the retrieval of scientific literature, the authors name problem will inevitably reduce the efficiency and accuracy of literature retrieval and affect the progress of the work. In this paper, a back propagation(BP) neural network algorithm with improved particle swarm optimization is proposed to solve the problem of authors name disambiguation. Firstly, the dynamic inertia weight of Beta distribution is introduced to improve the global search ability of the algorithm. Secondly, the weight and threshold of the improved particle swarm optimization algorithm are used as the initial weight and threshold of BP neural network to train the model to speed up the training of the model. The feature evaluation function is used to filter and select the M-dimensional feature subsets with better ranking as the input layer feature vector training model to obtain the final prediction result, so as to accurately distinguish the authors of the duplicate names. The experimental results show that the prediction accuracy of the model can be improved to 89.01%, which proves the effectiveness of the algorithm.
Key Words:duplicate disambiguation; PSO algorithm; BP neural network; dynamic inertia weight; feature evaluation function
0 引言
隨着信息技术的发展以及网络的普及,人们越来越依赖在线文献系统搜索查阅文献,当遇到同名作者时,系统往往并不能对同名作者进行消岐。因此,如何利用自动化分析技术对同名作者进行消岐成为近年的研究热点。存在重名消歧问题的领域十分广泛,很多科学家在不同领域对重名消歧问题都进行了较深入的研究,如百科全书、维基百科、参考文献、网页电子邮件等。科学家在对重名消歧问题进行研究时,提出了许多有效的方法,但是都面临准确性不高的问题。机器学习是解决同名消歧问题常用的方法,随着机器学习算法的不断发展,传统的机器学习算法在准确性方面遭遇到前所未有的困难。
郭舒[1]选择论文中的标题、合作者和出版物名称作为特征合集,进行文本聚类实现作者身份消歧;刘巍等[2]通过采集作者姓名、所在机构以及任职时间等数据信息,根据论文中提取的作者署名、机构名称、发表年限等信息进行匹配,但是没有处理作者重名情况;候海东等[3]将字符串模糊匹配算法与作者间合著关系结合,对论文作者识别方法进行改进;翟晓瑞等[4]将论文的文本信息转换为稀疏特征矩阵,通过对比待消岐论文之间的稀疏特征分布实现作者的姓名消岐;阳怡林等[5]将论文中的多个特征提取出来并进行特征融合,通过基于均方误差邻接矩阵聚类方法得到不同的划分;宁博等[6]通过加入百科知识库,丰富论文作者实体信息,最后通过层次聚类进行论文作者消岐。
以上解决方案存在数据稀疏、收敛速度慢、泛化能力弱等缺陷。为了弥补算法的不足,本文提出一种基于改进粒子群算法优化BP神经网络的方法,对论文作者重名情况进行消岐。
1 基本算法
1.1 粒子群算法原理
PSO算法也称粒子群算法[7-8],是群体智能领域的一个重要研究方向。相对于其他优化算法,PSO算法可在有限的迭代次数内找到较为可靠的最优解,收敛速度和收敛精度已被多次对比验证,展现了强大的优化性能,广泛应用于优化问题。它受群体觅食行为启发,通过计算模拟群体之间的行为形成一种理论。这种方法通过粒子的个体搜索最优解,每个粒子都受自身“最佳”位置和群体中“最佳”位置的影响,有时会随机移动。在粒子群优化算法中,每个点都有在某个邻域中获得最佳性能和最佳决策向量的位置记忆,通过相关方程使用这些信息更新粒子位置。
粒子根据式(1)和式(2)更新速度和位置:
其中,[c1]、[c2]为学习因子,也称加速常数,[w]为非负惯性因子,[r1]、[r2]为[0,1]范围内的均匀随机数,[w]称为惯性权重,作用是记忆搜索惯性即搜索速度。在种群搜索的不同时期,[w]值的变化会产生不同效果。在种群搜索早期,较大的[w]值可以加快收敛速度,在种群搜索后期,较小的[w]值可以使搜索结果更精确。惯性权重因子为随迭代次数变化的一个函数,一般常用的惯性权重因子函数如式(3)所示。
[wstart]为初始惯性权重值,[wend]为最终惯性权重值,[k]为当前迭代次数,[Tmax]为总迭代次数。
1.2 BP神经网络模型原理
BP(Back Propagation)神经网络[9-10]模型是应用最为广泛的神经网络模型之一,它通过误差的反向传播来更新网络中的权值和阈值。经典的BP神经网络为三层BP神经网络结构,分别由输入层、隐藏层和输出层组成。通过由输入层、隐藏层和输出层建立的拓扑结构和目标函数所组成的误差函数进行反向传播学习,更新输入-输出模式映射关系,找到最为可靠的权值和阈值。经典三层神经网络结构如图1所示。
图1中,[x1],[x2],…,[xn]作为整个BP神经网络的输入,是进入BP神经网络的原始数据,[y1],[y2],…,[ym]是整个BP神经网络的输出,也称为网络的预测,[wij]代表BP神经网络的权值,通过BP神经网络,将输入[x1],[x2],…,[xn]映射到输出[y1],[y2],…,[ym]上,类似于非线性函数中的自变量映射到因变量,较好得出输入和输出之间的映射关系。
BP神经网络中,首先数据输入到网络中,通过正向传导计算到输出层,输出层与目标函数进行对比,通过式(4)的损失函数得到误差值,误差通过反向传播实现网络中的权值更新。
[Etotal]为误差值,[outki]为输出层第i个输出节点,[yi]为目标函数值。通过这两个过程的交替进行,在权向量空间执行误差函数梯度下降策略,利用链式求导法则动态迭代搜索一组权向量,使网络误差函数达到最小值,见式(5)。
[wij]为第i层第j个权重变量,[netki]是权重和输入节点的线性乘积,[outki]由[netki]经过sigmoid函数转换得到。
2 算法改进
2.1 基于Beta分布惯性权重的PSO算法
为了更好地平衡算法的全局搜索与局部搜索能力,引入基于公式(3)的beat分布惯性权重,采用随机策略动态调整惯性权重大小。
Beta分布[11-13]是一个作为伯努利分布和二项式分布的共轭先验分布密度函数,是一组定义在(0,1)区间的连续概率分布。
Βeta分布的概率密度函数如下:
两个参数[α,β>0],?随机变量X服从参数为[α,β]的Βeta分布,通常写作
为了提高粒子全局搜索能力,避免陷入局部最优解,采用w惯性权重值迭代前期突變概率小、迭代后期突变概率高的策略。因此在迭代过程中beta分布函数改成如式(8)所示分布:
[k]为当前迭代次数,[Tmax]为总迭代次数。一般惯性权重迭代曲线与服从Beta分布的惯性权重迭代曲线如图2所示。
2.2 基于改进PSO的BP神经网络模型
BP神经网络是较为成熟的神经网络模型,通过对输入样本数据的训练,自主学习出各参数之间的隐藏关系。传统的BP神经网络模型本质是学习更新权值和阈值,利用最小二乘法构建损失函数,通过最小化误差的平方和简便地求得未知数据,并使这些求得的数据与实际数据之间误差的平方和最小。最小二乘法采用梯度搜索技术[14-16],难免存在收敛速度慢等问题。因此可以先以损失函数作为PSO适应度函数,利用改进后的PSO算法训练一组较为接近真值的初始权值和阈值,之后再利用这组权值阈值训练BP神经网络模型得到最终结果。
3 过滤式论文特征选取
本文通过万方数据知识服务平台的论文原始数据信息作为研究样本。原始数据信息以论文为单位,包含了论文编号、中文名、英文名、单位等总计71个论文属性信息。表1展示了万方数据知识服务平台所涵盖的71个论文属性字段。
自定义特征覆盖率和单特征置信度作为两个论文特征属性。特征覆盖率为含有此特征的论文数占论文总数的百分比,单特征置信度为仅通过此特征可正确识别作者身份的百分比。选取检索论文作者姓名为“王伟”论文的216篇,依据公式(9)选取出可用特征:
[Vcoverange]为特征覆盖率,[Vfitness]为单特征置信度。筛选出[Vvalue]大于0.22的所有可用特征如图4所示。
根据特征评价函数公式(10),从以上特征中选取最终[Feature]值大于0.75的特征组成可用特征向量:
经过过滤筛选的可用特征向量为
4 实验
4.1 基于Beta分布的PSO算法实验
标准PSO算法记为SPSO,基于Beta分布的PSO算法记为BPSO。为了验证本文提出的BPSO算法的收敛性能,实验选取表2中的4个标准优化测试函数。SPSO的惯性权重由式(3)迭代产生,BPSO的惯性权重由式(8)迭代产生。惯性因子w取值区间为[0.2,0.8],初值为0.8,式(8)中的[α]为20,[β]为80,[Tmax]为1000,个体学习因子c1和社会学习c2值均为2,初始化粒子数为20,测试函数的维度为20,算法所得结果均为50次运行结果的平均值,最后测试结果如图5所示。
图5中有4个分图,分别对应表2中的4个基准测试函数,其中横坐标代表迭代次数,最大次数为1000,纵坐标代表适应度值。通过图5可知,BPSO的收敛性能较SPSO算法有大幅提升,4个测试函数的最后结果BPSO的適应度值均小于SPSO。在F2中,当横坐标的迭代次数为16和62时,SPSO有一段迭代进化中适应度值低于或等于BPSO,原因是在进化前期BPSO中的惯性权重概率变小,导致粒子进化步数变小,在区间中搜索更为精确但是收敛速度也变慢了。
4.2 基于改进PSO算法优化BP神经网络实验
为了验证本文提出算法的准确性,选择万方平台提供的论文数据集对模型进行训练,依据表3得出所有属性的相似性值。
相似性值1/0即相同为1,不同为0。由于地区和邮编具有地区包含递推特性,所以不能采用1/0规则,需根据公式(11)确定相似性值。同样的研究方向也具有递推特性,需根据公式(12)确定相似性值。
[P1]为地区属性大的值,[P2]为地区属性小的值,默认地区属性省>市>区>街道,[P1-P2]的值非1即0,当[P2]值在[P1]管辖范围内,则[P1-P2]=1,反之,即为0。[P1P2]代表地区属性数量级比值。同样,[S1]为研究领域(学科属性)属性大的值,[S2]为研究领域(学科属性)属性小的值。学科属性关系由中图分类号得知。
为了验证本文提出的改进粒子群算法优化BP神经网络算法(BPSO-BP)性能,将BPSO-BP算法与文献[1]中基于特征合集的文本聚类算法(F-CLUSTER)、文献[3]中字符串模糊匹配算法(ES)、文献[4]中稀疏特征分布算法(SFD)以及文献[5]中基于均方误差邻接矩阵聚类算法(SEAM)进行比较。
抽取论文姓名为李伟的论文329篇,基于表3和公式(11)、公式(12)组成如下输入矩阵,对BPSO-BP模型识别准确率进行验证。
几种模型的最终识别准确率如图6所示。
图6中,横坐标为5种算法,纵坐标为准确率。由图6可知,本文提出的基于改进PSO算法优化BP神经网络的论文作者重名消歧方法,相对于以上4种识别算法,在准确率上有所提升,达到89.01%,验证了本算法的有效性和可靠性。
5 结语
传统的论文作者重名消歧算法有一定的局限性,因此本文提出了基于改进PSO算法优化BP神经网络的论文作者重名消歧方法。通过引入Beta分布的动态惯性权重,提高了粒子空间搜索的随机性,优化了PSO算法的全局搜索和局部搜索能力,在拥有更大搜索空间基础上,提高了算法的收敛速度与精度。在传统BP神经网络训练模型基础上结合PSO算法,为BP神经网络赋予最优的权值和阈值,减少反向传播的次数,提高训练模型的精度。利用BP神经网络强大的复杂非线性映射能力,对论文作者重名情况进行精准识别判定。
通过实验数据可以看出,本文提出的改进PSO算法优化BP神经网络的论文作者重名消歧方法,全局搜索能力强,收敛速度快,精度高,能够很好地对论文重名作者进行消岐,同时具有一定的自学习能力和泛化能力,识别准确率达到89.01%。但本算法仍有一定的优化空间,后续工作会重点关注其它特征的影响与各特征之间的隐性关系。
参考文献:
[1]郭舒. 文献数据库中作者名消岐算法研究[J]. 现代图书情报技术,2013,29(7):69-74.
[2]刘巍,祝忠明,张旺强,等. 机构知识库中作者标识与作品认领机制的研究与实现[J]. 现代图书情报技术,2014,30(3):8-13.
[3]候海东,洪腾龙,徐建良. SCI论文作者自动识别方法研究[J]. 软件导刊,2018,17(8):57-60.
[4]翟晓瑞,韩红旗,张运良,等. 基于稀疏分布式特征的英文著者姓名消岐研究[J]. 计算机应用研究,2018,36(12):1-7.
[5]阳怡林,周杰,李弼程. 基于聚类集成的人名消歧算法[J]. 计算机应用研究,2016,33(9):2716-2720.
[6]宁博,张菲菲. 基于异构知识库的命名实体消歧[J]. 西安邮电大学学报,2014,19(4):70-76.
[7]刘生建,罗林,杨艳. 一种快速自适应粒子群算法[J]. 软件导刊,2017,16(9):42-45.
[8]刘秀梅. 动态系统中粒子群优化算法综述[J]. 软件导刊,2016,15(10):43-46.
[9]陈智军,李洋莹. 神经网络BP算法改进及其性能分析[J]. 软件导刊,2017,16(10):39-41.
[10]胡伍生,迪达尔,王昭斌. 神经网络BP改进算法及其性能分析[J]. 现代测绘,2016,39(6):1-4.
[11]AMPARO GIL,JAVIER SEGURA,NICO M. Temme. On the computation and inversion of the cumulative noncentral beta distribution function[J]. Applied Mathematics and Computation,2019(1):361-369.
[12]鲁春林,方东辉,陈望学,等. 基于遗传算法Beta分布参数的极大似然估计[J]. 吉首大学学报(自然科学版),2016,37(5):13-15.
[13]ELMER JONATHAN,JONES BOBBY L,NAGIN DANIEL S. Using the beta distribution in group-based trajectory models[J]. BMC medical research methodology,2018,18(1):952-961.
[14]韩飞,杨春生,刘清. 一种改进的基于梯度搜索的粒子群优化算法[J]. 南京大学学报(自然科学版),2013,49(2):196-201.
[15]刘杰,张娟娟. 基于共轭梯度搜索的病态问题处理方法[J]. 大地测量与地球动力学,2019,39(8):863-868.
[16]曹牧寒,李长红,曹凯,等. 基于梯度自适应极值搜索算法的趋光控制研究[J]. 计算机测量与控制,2019,27(6):95-99,103.
(责任编辑:杜能钢)
收稿日期:2019-11-21
基金项目:教育部人文社会科学研究青年基金项目(16YJCZH154)
作者简介:赵华(1980-),女,山东科技大学计算机科学与技术学院副教授、硕士生导师,研究方向为话题检测与跟踪、网络舆情挖掘科技文献服务、情感分析;仇国华(1994-),女,山东科技大学计算机科学与工程学院硕士研究生,研究方向为云计算与大数据处理。本文通讯作者:赵华。