韩旭 李寒 张丽敏 梁英
摘要:针对用户行为分析在学术领域应用不足的情况,以学术行为的主体学者为研究对象,设计并实现了一种基于学术行为的学者排名技术。基于用户画像技术挖掘学者特征及学者之间的关系,设计包括基础标签、能力标签和关系标签的学术行为标签体系,提供了学者能力指数及学者排名方法。使用图形数据库存储、呈现和分析学者之间的关联度。从方法的可行性和有效性角度出发,基于学术行为的学者排名技术利用实际数据得到了实验验证,为研究成果推荐、评审专家推荐等学术应用提供数据参考和解决方案。
关键词:学术行为;学者排名;用户画像;行为标签
中图分类号:TP391.1 文獻标识码:A
文章编号:1009-3044(2019)26-0001-03
开放科学(资源服务)标识码(OSID):
Abstract: Since user behavior analysis is not fully utilized in the academic field, scholars which are the subject of academic behavior are considered as the research object, and techniques of scholar ranking based on academic behavior are designed and implemented in this paper. At first, the user portrait technique is applied to obtained the characteristics of and the relations between scholars. In details, a label system including basic label, ability label and relation label is designed, and a capability index and a scholar ranking method are given. Then, graph database is used to store, visualize and analyze the degree of scholar relations. In the perspective of feasibility and effectiveness, the proposed techniques are verified on real data, and the results shows the techniques are able to provide reference and solution for research achievement recommendation and review expert recommendation.
Key words: academic behavior; scholar ranking; user profile; behavior label
1 引言
用户行为分析指对用户有关的数据进行统计、分析,从中发现用户的行为规律,并将这些规律与实际应用相结合,从而辅助领域应用的过程。用户行为分析主要有两种途径,一种是以用户调研的方式对用户行为对象进行研究;另一种是基于大规模日志,利用数据挖掘和统计分析等方法进行研究。目前,由于日志包含真实网络环境下的大规模用户行为数据,网络数据已经渐渐成为用户行为分析的常用方法[1],已被应用于交通领域的交通流量预测、生物学中挖掘基因与疾病之间的关系、金融行业中税务稽查等方面。学术领域同样存在着大量的用户行为数据,可基于数据挖掘和统计分析等方法开展学术行为的分析,发现学术行为对象的潜在特征和相互关系。学术相关的排名一直是科研领域关注的重点和热点问题,排名不仅是评估学术行为对象的依据,还对引导学术方向、辅助学术相关的业务活动有着重要的价值。
美国加利福尼亚大学圣地亚哥分校的物理学家乔治·赫希(Jorge Hirsch) [2]在2005年提出一种定量评价科研人员学术水平的方法H指数,通过论文的引用指标量化评价学者作为独立个体的研究成果,体现了论文高被引用数量和高被引用强度。然而,学者的研究成果不仅仅局限于论文发表,还涉及承担的科研项目、学术任职和学术奖励等多个方面,评估某位学者的学术产出以及学术贡献时应该同时综合考虑多种因素。
以学术行为主体的排名为目标,设计并实现了一种基于学术行为的学者排名技术。以互联网公开的学术数据为数据源,以学术行为主体作为研究对象,综合用户画像、关系图谱等多种技术,发现学术行为数据中隐含的学术主体的特征和相关关系,实现学术行为主体的排名技术,以辅助成果推荐、学术评审等科学研究服务。
2 基于学术行为标签的学者画像与排名
用户画像是为了方便人们的理解和计算机对信息的处理,将用户的相关信息标签化,用这些标签描述用户的特点,因此用户画像的核心工作是给用户打标签。在学术领域内,同样需要设计能够描述学术行为主体特征和关联关系的标签体系,并生成标签值,以评估学术行为主体的学术能力,辅助学者排名。
2.1 学术行为标签的设计
为了更全面的描述学术行为主体的特征及相关关联,以学者为中心来设计三类学术行为标签,分别是基础标签、能力标签和关系标签,如表1所示。
基础标签被定义为能够直接反应学术行为主体特征的标签,由学者的基本描述信息构成,主要包括单位、研究领域、导师等。基础标签可直接由数据表提取,是基于用户画像的学术行为分析的基础数据。
能力标签被定义为能够体现学术行为主体的专业能力水平的标签,由学者所获的各类基金及数量、各类学术论文及数量以及国家级基金数量、高水平论文数量等构成。能力标签可通过对数据表的检索和统计获取,是评估学者的专业能力的依据。
关系标签被定义为能够描述学术行为主体之间的关系的标签,由师生关系、同事关系、同门关系、合作关系四类构成。关系标签可通过数据表的关联查询获得,是开展可视化分析的基础。
2.2 学者的学术行为画像
学者的学术行为画像通过学者的学术行为标签提取实现,图1所示为学者的学术行为画像的流程,即各类学术行为标签的提取过程[3]。
如图1所示,学术行为画像的流程分为三个步骤,分别提取基础标签、能力标签和关系标签,具体如下:
步骤1:提取基础标签。基础标签是从数据表直接检索获取。
步骤2:提取能力标签。基于数据库的查询和统计功能提取能力标签。针对数值型标签,如论文总数,将通过关联查询论文信息表与学者信息表,统计每位学者发表的论文总数。针对字符串型标签,利用数据库函数,将各类基金信息以“;”为分隔符进行拆分,再通过关键字检索区分基金类型,最后根据基金类型统计数量。
步骤3:提取关系标签。利用关系型数据库的查询功能实现。师生关系和合作关系可以直接从学者表获取,同事和同门关系基于复杂查询实现。以查询同事关系为例,查询学者表中所有与当前学者具有相同单位信息的学者,将所有查询到的学者的编号以“;”作为分隔符连接为字符串形成标签值。
2.3 基于能力指数的学者排名
为了使学者之间更具可比性,需要将学者按照领域划分,再进行排序。基于学者的能力标签设计了一种分析学者专业能力的方法,采用能力指数衡量学者的专业能力。能力指数的计算步骤如下:
步骤1:为各个能力标签赋予权值,并进行归一化。
步骤2:对每个能力标签,将能力标签值与能力标签权值相乘。
步骤3:将所有能力标签与权值的乘积进行加和,并以该值作为学者的能力指数。能力指数的计算公式如公式(1)所示。
式(1)中,a表示能力指数,wi表示能力标签权值,vi表示能力标签值。
以学者“杨天宇”为例,该学者所获基金总数、国家级基金数、省级基金数、论文总数和高水平论文数分别为3、1、0、5、1,令这五类能力标签对应的权重分别为0.33、0.2、0.07、0.27、0.13,根据公式(1),能力指数的计算结果为2.67。
通过爬取 “北方工业大学”计算机领域的学者互联网公开学术数据,共获得1181学者数据和202篇论文数据。包括学者的姓名、单位、主要研究领域、导师、合作作者、所获基金、论文题目、论文发表时间、论文刊源、论文被引量、论文下载量、论文发表单位、论文关键词、论文相关的基金、论文分类号等,同时对数据进行了数据清洗和去重。利用公式(1)计算各学者的能力指数,表2是能力指数排名前五的学者名单。
为了验证排名的有效性,基于知网中的学术行为数据,统计学者“马礼”和“刘高军”的学术成果,对比结果表明,前者确实相对于后者负责更多的科研项目,拥有更多的论文,符合排名结果。
3 行为数据可视化分析
可视化分析由数据的可视化和基于关系图谱的数据分析两部分内容构成。前者负责学术行为主体之间关系的可视化呈现,后者基于关系图谱分析学术行为主体之间的关联度,目标是辅助相关研究成果推荐、评审专家推荐等应用。
3.1 数据的可视化
关系图谱是一种基于图的数据结构,是由节点和边组成。它利用可视化的图谱展示实体之间的核心结构或整体结构,实现多种信息的融合,能够利用可视化信息为领域提供有价值的参考[4]。
学者之间具有的四类典型关系统一采用NoSQL图形数据库Neo4j存储并进行可视化的呈现,形成学术行为主体之间相互关系的关系图谱。构建学者的关系图谱的步骤如下:
步骤1:将学者之间的四类关系数据导入NoSQL图形数据库Neo4j。
步骤2:遍历所有学者,将其创建为中心节点,并根据学者之间的关系建立实体之间相应的连接关系。
步骤3:对节点和关系进行去重处理。首先,查询是否存在重复节点,当存在时去掉其中一个节点,并将该节点上的关系转移到另一节点上。然后,查询图中任意两点之间是否存在相同的关系,如果存在则删掉多余的,只保留一个该类型的连接关系。
以单位为“北方工业大学”的学者的学术行为数据作为输入,部分数据的可视化呈现效果如图2所示,圆圈代表学者,圆圈之间的有向边代表学者之间的关系,关系的类型标记于边上,有向边的起点和终点分别对应关系的起点和终点。以师生关系为例,有向边的起点代表学生,终点代表导师。
3.2 基于关系图谱的数据分析
关系图谱的目标在于描述现实世界中存在的各种实体或概念,以及实体与实体之间存在关联关系[5]。由于学术行为主体之间具有多种明确的关系[6],这些关系及其对应的学术行为主体则可以采用关系图谱来进行描述。此外,由于关系图谱可用于数据分析[7],则可以基于学术行为主体的关系图谱来提取学者之间关联度,为学术领域的各类推荐应用提供依据。
基于图形数据库提供的查询功能,可以在已建立的学者为实体的关系图谱上开展进一步数据分析。具体的,将对学者之间的关联程度(即关联度)进行分析,分析步骤如下:
第一,选取待分析的实体,即学者。
第二,确定关联级别,关联级别在关系图谱中体现为实体之间的路径长度。
第三,基于图形数据库的查询功能,检索与待分析学者具有相应关联级别的学者列表,生成学者列表的方法如下:
由关系图谱分析得到的学者之间的关联级别可用于多种实际应用。通常,关联度较高的学者之间的研究成果具有更高的相似性,可用于相关研究成果的推薦。若再结合学者的领域排名,可以将具有较高关联度并排名靠前的学者的研究成果作为推荐内容,将具有更高的学术价值[8]。在论文或项目评审专家推荐的应用中,具有较高关联度的学者之间是要相互回避的。因此,在评审专家推荐的应用中,需要推荐具有一定关联度,不能具有过高关联度的学者作为评审专家。
以“北方工业大学”的学者“马礼”为例,采用基于关系图谱的关联度分析方法,图3(a)为关系度在一级到三级之间的学者排名,图3(b)为关系度为五级的学者排名。
基于知网数据集,对图3所示结果进行验证与分析,“马礼”与关联度在一到三级之间的学者的平均合作论文数量为3篇,与这些学者同时具有同事关系,且部分属于同一学院。而与“马礼”与关联度为五级的学者的平均合作论文数量仅为1篇,且较少具有其他类型的关系。实验结果表明基于关系图谱的关联度分析是可行且有效的,能够为研究成果推荐和评审专家推荐等应用提供依据。
4 结束语
本文设计并实现了一种基于学术行为的学者排名技术,主要由基于学术行为标签的学者画像与排名、行为数据可视化分析两部分构成。基于学术行为标签的学者画像与排名主要基于用户画像技术,设计了用于描述学者特征和学者之间关系的用户行为标签体系,给出标签值的提取方法,并基于提出的学者学术能力指数实现了学者排名。行为数据可视化分析主要基于關系图谱技术,学者之间的关联关系采用图形数据库技术
存储并进行可视化的呈现,并基于学者的关系图谱分析学者关联关系的程度。最终,实验验证了基于学术行为的学者排名技术的可行性和有效性,方法能够实现领域学者的排名和学术能力评估,结果可以作为学术领域的研究成果推荐、评审专家推荐等学术应用的参考依据。
致谢:本文得到北京高等学校高水平人才交叉培养“实培计划”2018年度项目“学术行为数据挖掘与分析”的资助,特此感谢。
参考文献:
[1] 姚婷,张敏,刘奕群,马少平,茹立云.低频查询的用户行为分析和类别研究[J].计算机研究与发展,2012,49(11):2368-2375.
[2] Hirsch, Jorge E. An index to quantify an individual's scientific research output[J].PNAS,2005,102(46):16569-16572.
[3] 袁莎,唐杰,顾晓韬. 开放互联网中的学者画像技术综述[J]. 计算机研究与发展,2018,55(09):1903-1919.
[4] 官赛萍,靳小龙,贾岩涛,王元卓,程学旗. 面向知识图谱的知识推理研究进展[J]. 软件学报,2018,29(10):2966-2994.
[5] 孙小兵,王璐,王经纬,李斌,李宇.基于知识图谱的bug问题探索性搜索方法[J].电子学报,2018,46(07):1578-1583.
[6] 肖丁,王乾宇,蔡铭,李秀.智能家居场景联动中基于知识图谱的隐式冲突检测方法研究[J/OL].计算机学报,2019:1-15[2019-06-05].http://kns.cnki.net/kcms/detail/11.1826.TP.20190318.1112.002.html.
[7] 刘红军,胡晓峰,邓文平,卢锡城.基于首选路由的AS重要性评估方法[J].软件学报,2012,23(09):2388-2400.
[8] 杨玉基,许斌,胡家威,仝美涵,张鹏,郑莉. 一种准确而高效的领域知识图谱构建方法[J]. 软件学报,2018,29(10):2931-2947.
【通联编辑:梁书】