基于神经网络的师生关系挖掘算法

2020-07-14 00:27李爱涛崔焕庆
软件导刊 2020年1期
关键词:知识图谱神经网络

李爱涛 崔焕庆

摘要:为提高导师一学生关系挖掘精度,改善传统判别算法准确率,提出一种基于神经网络的导师一学生关系判定算法。通过神经网络中BP算法对导师一学生关系所依赖参数进行权重计算,加入判别函数计算相应论文作者分数,再根据关系判别函数判断两者关系。对2 000组数据的实验结果表明,基于神经网络与论文的导师一学生关系挖掘算法能够准确挖掘出导师一学生之间的关系,比传统启发式规则的准确率高出8%左右。

关键词:师生关系挖掘;神经网络;BP算法;知识图谱

DOI: 10. 11907/rjdk.191876

開放科学(资源服务)标识码(OSID):

中图分类号:TP312

文献标识码:A

文章编号:1672-7800(2020)001-0095-04

0 引言

随着社交媒体的普及[1],人们的日常生活已与网络信息空间成功连接[2],每个人都在某些领域与其他人存在明确的关系并相互联系、相互影响。近年来,对这些关系的挖掘逐渐成为一大热门[3]。不同类型的社会关系实质上潜移默化地影响着人们生活的不同方面。例如,硕士研究生在读期间的研究领域很大程度上受其导师影响。

如图1所示,利用导师一学生关系构建相应社会网络关系[4]。学生的研究方向受导师影响很大,不同学术水平的导师对学生的影响差异也非常大[5],而导师和学生之间的关系就隐藏于学术大数据中[6]。出版物包含丰富的作者信息,包括论文题目、出版年份、出版单位等。可以通过识别出版物中隐藏的这些信息,挖掘研究人员的学术合作关系[7]。因此,从出版物网络中确定导师一学生关系非常重要。

1 相关工作

在挖掘导师一学生合作关系与其他合作者关系的过程中面临着一些挑战。

(1)时间重要性。在导师一学生关系中,影响因素最大的就是时间。导师首次发表文献的时间一般远远早于学生首次发表文献的时间。再者,当一名研究生入学加入导师所在的科研团队时,他们之间会建立一种导师一学生关系,但学生毕业后,该种联系又会变得逐渐松散。

(2)关系兼具。在数据中存在学生毕业后留校担任导师的情况,此时他/她与自己的导师既是合作关系,又存在导师一学生关系,本文将这种情况统一定为合作者关系。

(3)信息隐晦。在导师一学生、合作者关系出版刊物[8]中,只有期刊名称、论文题目、作者姓名、出版年份和署名单位等信息,没有明显标识其合作关系相关信息。

在大数据时代,基于深度学习的挖掘越来越受到学术界和工业界的关注[9-10]。文献[11]提出了关系学习,它采用基于网络连通性的集体推理进行预测,提取基于网络信息的潜在社会维度,并利用它们作为判别性学习特征,用来解决数据实例之间的相互依赖性;文献[12]提出了一种聚类算法,利用异构实体自身的属性值和异构信息网络¨副的结构(路径)信息进行关系挖掘;文献[14]提出了一种新颖的协同过滤方法,用于预测网络(或图形)中具有拓扑和节点特征的未观察到的链路。这种方法通过引入伯努利分布模型作为数据采样掩模,改进基于压缩感知的矩阵完成方法,作出更好的链接预测。文献[15]提出了一种部分标记成对因子图模型[16]和半监督框架,通过跨异构网络学习进行社会关系类型的分类;文献[17]提出了一个时间约束的概率因子图模型,将研究出版物网络作为输入,使用联合可能性目标函数对导师一学生关系挖掘问题进行建模,设计了一种有效的学习算法以优化目标函数,提高了准确率。

基于以上背景,本文提出一种新的导师一学生关系挖掘算法。算法主要思想是对影响导师一学生的关键参数进行提取,利用BP(Back Propagation,误差逆传播)神经网络确定影响因素的权重值,再通过权重值计算每位作者的量化结果,最后对可能存在导师一学生关系的两位作者的量化值进行二次计算后判定其合作关系。

2 定义及算法实现

为了达到预期效果,需要先对数据进行清理和属性提取,共提取如下信息:论文题目、刊物名称、论文作者名单及出版日期。

BP算法通过迭代处理训练集。对比经过神经网络计算后输人层预测值与真实值之间的误差,通过反向法(从输出层到隐藏层再到输入层)实现误差最小化,从而实现权重更新,其中隐含层节点数是一个非常重要的参数,它的设置对BP神经网络的性能影响很大[18]。

首先对各项数据进行编号,并作归一化处理。采用min-max方法将数据归一到[0,1],如式(1)。

随机选取100组训练集进行参数训练,将其转换成机器可识别的矩阵形式从输入层输入,然后逐层传递到隐藏层和输出层的神经元中。本文隐藏层使用ReLu激励函数[19],输出层使用Sigmoid激励函数。原因在于ReLu激励函数的梯度值大多数情况下是常数,有助于解决深层网络的收敛问题,相比Sigmoid和Tanh更符合生物神经元的特征;Sigmoid全程可导,且表达区间是[0,1]。ReLu与Sig-moid函数如下:

通过神经网络训练得到的结果只是各神经网络神经元之间的关系[20],需要对各神经元之间的权重通过相关显著性系数、相关指数和绝对影响系数加以处理,函数分别如式(4)-式(6)所示。

相关显著系数:

上述3个相关系数中绝对影响系数S即为所求权重。运用上式得出各指标权重。对数据进行分析可知,作者首次发表论文的时间在导师一学生关系中影响因子最大。通过训练后,它获得最大权重0.42,作者发表论文数量与合作数量影响较小,因此它们获得的权重分别为0.35和0.22。

权重赋值完成后,通过个人得分函数进行个人分数计算:

3 实验及结果分析

从百度文库中抓取2 000组测试数据,并对数据进行清洗。实验所用计算机CPU为Intel⑩Core TMi7-6500U.内存为4GB,操作系统为Windows 10,算法采用Python和Java语言编写,实验环境为TensorFlow CPU版本、IntelliJIDEA 2018社区版。

通过实验,当两位作者之间的关系得分在70-99时,认为他们之间为导师一学生关系且作者1是作者2的导师,反之若两位作者之间的得分为-30--1,认为作者2是作者1的导师,论文采用精确率衡量实验结果,定义如下:

其中,TP表示把正类预测为正类、FP表示表示把负类预测为正类。

实验结果如表2所示。

4 结语

本文提出了一种基于影响因子判断导师一学生关系与其他合作关系的算法。算法利用人工神经网络确定不同影响因子对各种合作关系影响的权重,进而计算每位作者的个人得分和两位作者之间的关系得分。实验表明,该预测算法能够较准确地判断出两位作者的关系是导师一学生关系或是合作关系。该算法操作简单,易于执行,为导师学生关系挖掘提供了一种新思路。未来在挖掘出论文中存在的导师一学生关系后,建立现存关系知识图谱,再进行下一步的导师推荐研究。

参考文献:

[1]

ZHAO Z,LI C,ZHANG Y,et al.Identifying and analyzing popularphrases multi-dimensionally in social media data [J] InternationalJournal of Data Warehousing and Mining, 2015, 11(3):98-1 12.

[2]赵妹,刘晓曼,段震,等.社交关系挖掘研究综述[J].计算机学报,2017,40(3):535-555.

[3]王梦雪.数据挖掘综述[J].软件导刊,2013,12( 10):135-137.

[4]张洋,谢齐.基于社会网络分析的机构科研合作关系研究[J].图书情报知识,2014(2):84-94.

[5]

LIU J,TANC T,KONG X, et al.Understanding the advisor-adviseerelationship via scholarly data analysis[J].Scientometrics, 2018,1 16(1):161-180.

[6]马建威,徐浩,陈洪辉.信息推荐系统中的朋友关系预测算法设计[J].国防科技大学学报,2013,35(1):163-168.

[7] 康文杰,郑倩冰,陈侃.基于社会网络分析的学术合作关系研究[J].计算机技术与发展,2014,24(5):1-5.

[8] 赵彩虹,杨艳.基于DBLP的作者协作关系挖掘[J].黑龙江大学自然科学学报,2010,27(4):491-494.

[9]ZHANC Q, YANG L T,CHEN Z,et al.A survey on deep learningfor big data[J].Information Fusion. 2018, 42: 146-157.

[10]ZHANG Q, YANG L T,CHEN Z, et al. PPHOPCM: privacy-pre-serving high-order possibilistic c-means algorithm for big data clus-tering with cloud computing [Jl. IEEE Transactions on Big Data,2017( 99):l-lO.

[11]TANC L,LIU H. Relational learning via latent social dimensions[C]. ACM SIGKDD International Conference on Knowledge Discov-erv& Data Mining, 2009: 817-826.

[12]杨丹,申德荣,聂铁铮.异构信息空间中实体关联关系挖掘算法CFRQ4A[J].计算机研究与发展,2014( 4):895-904.

[13] SUN Y,HAN J.Mining heterogeneous information networks[ J]. ACMSIGKDD Explorations Newsletter, 2013, 14(2):20-28.

[14]WANG X, HE D, CHEN D, et al. Clustering-based collaborative fil-tering for link prediction[C].Twenty-ninth AAAI Conference on Ar-tificial Intelligence, 2015: 332-338.

[15] TANG W,ZHUANC H,TANC J. Learning to infer social ties in largenet,vorks [C]. Machine Learning and Knowledge Discovery in Data-bases-European Conference, 2011: 381-397.

[16]ZHUANG H. TANC J, TANG W, et al. Actively learning to infer so-cial ties [J]. Data Mining and Knowledge Discovery, 2012, 25(2):270-297.

[17]WANG C. HAN J,JIA Y, et al. Mining advisor-advisee relation-ships from research publication net,vorks[C].Washington: Proceed-ings of the 16th ACM SICKDD International Conference on Knowl-edge Discovery and Data Mining, 2010: 203-212.

[18]王嶸冰,徐红艳,李波,等.BP神经网络隐含层节点数确定方法研究[J].计算机技术与发展,2018,28(4):31-35.

[19] 蒋昂波,王维维.ReLU激活函数优化研究[J].传感器与微系统,2018, 37( 2):50-52.

[20] 孙会君,王新华.应用人工神经网络确定评价指标的权重[Jl.山东科技大学学报:自然科学版,2001,20(3):84-86.

(责任编辑:孙娟)

基金项目:国家重点研发计划项目(2017YFC0804406,2018YFC1406200);山东省研究生导师指导能力提升项目(SDYY17040)

作者简介:李爱涛(1994-),男,山东科技大学计算机科学与工程学院硕士研究生,研究方向为云计算与大数据处理;崔焕庆(1979-),男,博士,山东科技大学计算机科学与工程学院副教授,研究方向为云计算、位置服务。本文通讯作者:崔焕庆。

猜你喜欢
知识图谱神经网络
神经网络抑制无线通信干扰探究
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
基于神经网络分数阶控制的逆变电源
基于GA-BP神经网络的光伏阵列MPPT研究